每日精选AI研究论文及翻译
强化学习(RL)已成为提升大型语言模型(LLM)推理能力的一种有前景的方法,然而,大多数公开研究仅局限于数学与编程领域,限制了我们对其在通用推理中更广泛适用性的理解。一个核心挑战在于,跨多样推理领域缺乏可靠且可扩展的RL奖励信号。为此,我们推出了Guru,一个精心构建的RL推理语料库,包含92,000个可验证示例,覆盖数学、编程、科学、逻辑、模拟及表格六大推理领域。每个领域均通过特定领域的奖励设计、去重与过滤流程构建,以确保RL训练的可靠性与有效性。基于Guru,我们系统性地重新审视了RL在LLM推理中的既定发现,并观察到跨领域的显著差异。例如,尽管先前研究认为RL主要激发预训练模型中的已有知识,但我们的结果揭示了一种更为微妙的现象:在预训练中频繁接触的领域(数学、编程、科学)能轻易受益于跨领域RL训练,而预训练接触较少的领域(逻辑、模拟、表格)则需进行领域内训练才能实现显著的性能提升,这表明RL很可能促进了真实技能的习得。最后,我们展示了Guru-7B和Guru-32B两款模型,在利用公开数据进行RL训练的开源模型中,它们达到了顶尖性能,在我们的17项任务评估套件中,分别超越最佳基线模型7.9%和6.7%,覆盖六大推理领域。我们还证明,这些模型有效提升了其基础模型的Pass@k性能,尤其是在预训练数据中较少出现的复杂任务上。我们已发布数据、模型、训练与评估代码,以促进通用推理研究,访问地址为:https://github.com/LLM360/Reasoning360。
本文提出了改进的原生统一多模态模型,即Show-o2,该模型结合了自回归建模与流匹配技术。基于三维因果变分自编码器空间,通过时空融合的双路径构建统一视觉表示,实现了跨图像和视频模态的可扩展性,同时确保了有效的多模态理解与生成。依托于语言模型,自回归建模和流匹配分别原生应用于语言头部和流头部,以促进文本标记预测及图像/视频生成。设计了两阶段训练方案,旨在高效学习并扩展至更大规模模型。最终,Show-o2模型展现了在处理文本、图像、视频等多种模态的广泛多模态理解与生成任务中的强大适应性。代码与模型已发布于https://github.com/showlab/Show-o。
随着文本转语音和音频生成模型的进步,亟需建立强大的基准来评估AI系统在情感理解方面的能力。现有的语音情感识别(SER)数据集往往在情感粒度、隐私问题或依赖表演呈现方面存在局限。本文介绍了EmoNet-Voice,一个用于语音情感检测的新资源,其中包括EmoNet-Voice Big——一个大规模预训练数据集(涵盖超过4,500小时的语音,涉及11种声音、40种情感和4种语言),以及EmoNet-Voice Bench——一个带有人类专家标注的新颖基准数据集。EmoNet-Voice旨在通过40种情感类别及其不同强度水平的细粒度谱系来评估SER模型。利用最先进的语音生成技术,我们精心制作了模拟演员表演场景的合成音频片段,旨在引发特定情感。关键的是,我们通过心理学专家进行了严格的验证,他们为这些片段分配了感知强度标签。这种合成且保护隐私的方法,使得包含现有数据集中常缺失的敏感情感状态成为可能。最后,我们引入了Empathic Insight Voice模型,这些模型在语音情感识别方面树立了新标准,与人类专家高度一致。我们在当前模型生态中的评估揭示了有价值的发现,例如高唤醒度的情感(如愤怒)比低唤醒度的状态(如专注)更容易被检测到。
近期,多模态大语言模型(MLLMs)因其强大的视觉理解能力而日益受到研究关注。尽管这些模型在各类视觉任务上取得了显著成果,但在图表到代码生成任务上的表现仍不尽如人意。该任务要求MLLMs生成能够复现给定图表的可执行代码,不仅需要精确的视觉理解,还需将视觉元素准确转化为结构化代码。直接提示MLLMs执行这一复杂任务往往效果欠佳。为应对这一挑战,我们提出了{ChartIR},一种基于结构化指令的迭代优化方法。首先,我们区分了两项任务:视觉理解与代码翻译。为实现视觉理解部分,我们设计了两类结构化指令:描述指令与差异指令。描述指令捕捉参考图表的视觉元素,而差异指令则刻画参考图表与生成图表间的差异。这些指令有效将视觉特征转化为语言表示,从而促进后续的代码翻译过程。其次,我们将整体图表生成流程分解为两个阶段:初始代码生成与迭代优化,以实现最终输出的逐步提升。实验结果表明,相较于其他方法,我们的方法在开源模型Qwen2-VL与闭源模型GPT-4o上均展现出更优的性能。
准确反映音乐作品特征的详细描述能够丰富音乐数据库,并推动音乐人工智能研究的发展。本文介绍了一种多任务音乐描述模型——SonicVerse,该模型将描述生成与辅助音乐特征检测任务(如调性检测、人声检测等)相结合,以直接捕捉音乐的低层次声学细节及高层次音乐属性。其核心贡献在于采用了一种基于投影的架构,该架构将音频输入转化为语言标记,同时通过专门的辅助头检测音乐特征。这些辅助头的输出同样被投影为语言标记,以增强描述输入的丰富性。此框架不仅能为短音乐片段生成丰富、描述性的文本,还能通过大型语言模型串联输出,直接实现对较长音乐作品的详细时间序列描述。为训练该模型,我们扩展了MusicBench数据集,利用模块化音乐特征提取器MIRFLEX为其标注音乐特征,从而获得了配对的音频、描述及音乐特征数据。实验结果表明,通过这种方式整合特征,显著提升了生成描述的质量与细节。
近期的大型语言模型(LLMs)在推理基准测试中报告了高准确率。然而,这些观察到的结果究竟是源于真正的推理能力,还是对训练集统计记忆的依赖,仍不明确。受因果阶梯理论(Pearl, 2009)及其三个层次(关联、干预与反事实)的启发,本文提出了RE-IMAGINE框架,旨在刻画LLMs推理能力的层次结构,并配套一个自动化流程,用于生成该层次结构不同层级上的问题变体。通过在中间符号表示层面调整问题,RE-IMAGINE能够生成任意数量仅凭记忆无法解决的问题。此外,该框架具有通用性,可应用于包括数学、代码和逻辑在内的多种推理领域。我们在四个广泛使用的基准测试上展示了该框架,评估了多个LLM家族,并观察到当模型面对问题变体时性能有所下降。这些评估揭示了模型过去表现中对统计记忆的一定依赖,为针对推理层次结构中各项技能的进一步研究打开了大门。