广州鸿名健康科技有限公司


多模态神经网络SALMONN 能够理解声音世界的AI模型

科技资讯 多模态神经网络SALMONN 能够理解声音世界的AI模型,鸿名健康产品, 健康生活方式, 健康管理咨询, 中医养生服务, 健康饮食建议, 健康体检套餐 10-25

站长之家(ChinaZ.com)10月25日 消息:SALMONN是一个多模态神经网络,能够直接处理和理解包括语音、音频事件和音乐在内的一般音频输入,并在多种语音和音频任务上取得竞争性表现。

论文地址:https://arxiv.org/pdf/2310.13289v1.pdf

SALMONN采用了两个互补的音频编码器,一个用于处理语音,另一个用于处理非语音音频事件,以实现对各种音频任务的优越性能。

论文提出了激活调整阶段,以解决SALMONN在训练中过度拟合到某些任务的问题,该阶段能够使SALMONN具备跨模态的新能力,如问答和叙述。这一研究有望推动具有通用听觉能力的人工智能的发展。


编辑:广州鸿名健康科技有限公司

标签:音频,语音,是一个,阶段,能力,事件,这一,论文,神经网络,之家