近来,第十届言语服务高档论坛暨2025年国家应急言语服务团学术年会在广州大学(大学城校区)举办。广州市社科要点实验室——粤语语料库建造与大模型评测要点实验室(下称“实验室”)研制的
作为数字中文的要害范畴,粤语不只牵涉粤港澳大湾区的文明一起体认同,更牵涉中华文明全球传达的世界话语权,牵涉全世界华人与祖国情感的枢纽。粤语作为汉语的一种方言,在国内外有上亿用户,但在网络世界中却归于低资源言语。岭南文明的传承要搭上人工智能的快车,就必须要构建“技能为体,文明为本”的通用粤语语料库。
面向“数字中文建造”和粤港澳大湾区文明数字化需求,AI-DimSum多模态粤语语料库渠道建造了语料收集子系统、语料标示子系统、大模型对接子系统、语料确权检索子系统、语料质量评价子系统、语料办理子系统以及使用商铺子系统等七个子系统。经过子系统协同作业,实现从数据收集、清洗、标示、确权、存储检索,到模型接入与终究使用发布的一体化流程,为粤语语料库的构建、办理、使用与落地使用供给完好、模块化、可扩展的基础设施与运行机制。
AI-DimSum粤语语料库会聚处理文本语料超越100万字,包含新闻、文学、社会化媒体等范畴;完结3000小时高保线TB以上的音视频材料,包含大模型练习专用语料集;功夫熊猫、小猪佩奇、哪吒、大圣归来、花木兰等包含粤语字幕与标示的动画影视作品;外来媳妇本地郎、溏心风暴等包含粤语字幕与标示的影视作品;超越1万句的多用途粤语日子场景音频+文字的语料;岭南文明图画资料10000张;构建了包含6669条威望词条、30000条扩展词条的粤语安全语料库;粤语大模型内容安全多模态评测题超越20万等。
AI-DimSum语料库渠道是全球首个集文明忠诚、安全可信及AI友好于一体的多模态、大规模、通用粤语语料库渠道,其探究出的“技能为体,文明为本”的方言语料库建造途径与一起的“1+1+N”协同立异机制均为方言文明的数字化维护与传承开展供给了可仿制、可推行的数字化范式。
从2024年11月14日实验室真实开端发动,到今日粤语语料库渠道发布,历时一年多的时刻,经过1+1+N机制集结了暨南大学、华南师范大学、香港科学大学(广州)、广东外语外贸大学、澳门大学、香港言语学学会等粤港澳大湾区相关研究机构资源,百度科技、趣丸科技、羊城晚报报业集团等工业资源,以及经过粤语语料库开源社区凝集的全球开发者资源,一起协力打造了AI-DimSum粤语语料库渠道。下一步,将经过与工业界的密切合作,不断丰富语料库渠道的语料产品,赋能岭南文明与AI科技的双向奔赴。
特别声明:以上内容(如有图片或视频亦包含在内)为自媒体渠道“网易号”用户上传并发布,本渠道仅供给信息存储服务。
破纪录!武汉人度过65年来12月中旬最暖的一天!今晚起气温满20-10,今冬最冷时段即到!
一个古怪的现象:50岁今后的人,能活到90岁的,基本上50岁的时分,就戒掉了这3件蠢事,尤其是最终一件事!
今晚!CBA战6场,CCTV5直播周琦领衔北京首钢PK深圳,辽篮VS宁波
贵州百灵财政造假被罚1000万元,董事长等10人被罚,股票简称将变更为“ST百灵”