每日精选AI研究论文及翻译
我们推出MiniMax-Speech,这是一款基于自回归Transformer架构的文本转语音(TTS)模型,能够生成高质量语音。其核心创新在于可学习的说话人编码器,该编码器无需参考音频的转录文本即可从中提取音色特征。这使得MiniMax-Speech能够以零样本方式生成与参考音频音色一致且极具表现力的语音,同时支持一次性语音克隆,实现与参考声音极高的相似度。此外,通过引入Flow-VAE,我们进一步提升了合成音频的整体质量。该模型支持32种语言,并在多项客观与主观评价指标上展现出卓越性能。特别是在客观语音克隆指标(如词错误率和说话人相似度)上,MiniMax-Speech达到了业界领先水平,并在公开的TTS竞技场排行榜上位居榜首。得益于说话人编码器提供的鲁棒且解耦的表征能力,MiniMax-Speech的另一大优势在于其无需修改基础模型即可扩展,支持多种应用场景,例如:通过LoRA实现任意语音情感控制;直接从文本描述合成音色特征,实现文本到语音(T2V);以及通过额外数据微调音色特征,进行专业语音克隆(PVC)。我们鼓励读者访问https://minimax-ai.github.io/tts_tech_report以获取更多示例。
尽管文本转音频系统的性能日益提升,但其推理速度较慢,导致在许多创意应用中的延迟不切实际。我们提出了对抗性相对对比(ARC)后训练方法,这是首个不基于蒸馏的扩散/流模型对抗性加速算法。虽然以往的对抗性后训练方法难以与昂贵的蒸馏方法相媲美,但ARC后训练是一种简单流程,它(1)将最新的相对对抗性公式扩展到扩散/流模型的后训练中,并(2)结合了一种新颖的对比判别器目标,以增强对提示的更好遵循。我们将ARC后训练与Stable Audio Open的多项优化相结合,构建了一个模型,能够在H100上生成约12秒的44.1kHz立体声音频,耗时约75毫秒,在移动边缘设备上生成约7秒音频,据我们所知,这是目前最快的文本转音频模型。
我们推出AM-Thinking-v1,这是一款拥有320亿参数的密集语言模型,它推动了推理技术的前沿,体现了开源创新的协作精神。该模型不仅超越了DeepSeek-R1,还与顶尖的专家混合模型(MoE)如Qwen3-235B-A22B和Seed1.5-Thinking相媲美,在AIME 2024、AIME 2025和LiveCodeBench上分别取得了85.3、74.4和70.3的优异成绩,展示了在同等规模开源模型中领先的数学与编程能力。 AM-Thinking-v1完全基于开源基础模型Qwen2.5-32B构建,并利用公开可用的查询数据,通过精心设计的后训练流程——结合了监督微调和强化学习——实现了卓越的推理能力。这项工作证明,开源社区能够在320亿参数这一实际部署与微调的理想规模上实现高性能。通过在顶级性能与现实世界可用性之间取得平衡,我们希望AM-Thinking-v1能激励更多合作,共同挖掘中等规模模型的潜力,在推动推理边界的同时,将可访问性置于创新的核心。我们已在Hugging Face平台开源此模型,地址为https://huggingface.co/a-m-team/AM-Thinking-v1。
构建多模态语言模型面临根本性挑战:它需要对齐视觉与语言模态,精心策划高质量的指令数据,并在引入视觉功能时避免现有纯文本能力的退化。这些困难在多语言环境中进一步加剧,因为不同语言的多模态数据需求加剧了现有的数据稀缺问题,机器翻译往往扭曲原意,且灾难性遗忘现象更为显著。为应对上述挑战,我们引入了一系列涵盖数据与建模的创新技术。首先,我们开发了一个合成标注框架,用于策划高质量、多样化的多语言多模态指令数据,使Aya Vision模型能够针对多种语言的多模态输入生成自然、符合人类偏好的响应。此外,我们提出了一种跨模态模型融合技术,有效缓解了灾难性遗忘,在保持纯文本能力的同时,显著提升了多模态生成性能。与Qwen-2.5-VL-7B、Pixtral-12B等强劲多模态模型相比,Aya-Vision-8B展现出顶尖性能,甚至超越了规模大得多的Llama-3.2-90B-Vision。我们进一步将这一方法扩展至Aya-Vision-32B,其表现超越了规模超过其两倍的模型,如Molmo-72B和LLaMA-3.2-90B-Vision。我们的工作推动了多模态前沿的多语言进展,并提供了在实现极高性能的同时有效降低计算需求的技术洞见。
指令遵循评估旨在衡量大型语言模型(LLMs)在生成符合用户定义约束的输出方面的能力。然而,现有基准测试多依赖于模板化的约束提示,缺乏现实应用场景的多样性,限制了细粒度性能的评估。为填补这一空白,我们提出了一种多维约束框架,该框架包含三种约束模式、四类约束类别以及四个难度等级。基于此框架,我们开发了一套自动化指令生成流程,执行约束扩展、冲突检测及指令重写,最终生成了1,200个可代码验证的指令遵循测试样本。我们对来自七个模型家族的19个LLMs进行了评估,发现不同约束形式下的性能存在显著差异。例如,平均性能从第一级的77.67%降至第四级的32.96%。此外,我们通过利用该方法生成强化学习数据,展示了其实际效用,在指令遵循方面取得了显著提升,且未损害模型的整体性能。深入分析表明,这些提升主要源于模型注意力模块参数的调整,从而增强了约束的识别与遵循能力。代码与数据已发布于https://github.com/Junjie-Ye/MulDimIF。
我们推出了gg-bench,这是一套专为评估语言模型通用推理能力而设计的游戏环境集合。与多数静态基准测试不同,gg-bench是一个数据生成过程,能够按需生成新的评估实例。具体而言,gg-bench通过以下步骤合成生成:(1) 使用大型语言模型(LLM)生成新颖游戏的自然语言描述,(2) 利用LLM将每个游戏以代码形式实现为Gym环境,(3) 通过自我对弈在生成游戏上训练强化学习(RL)代理。我们通过让语言模型与这些RL代理的对战胜率来评估其性能,具体做法是向模型提示游戏描述、当前棋盘状态及有效移动列表,随后模型输出其希望执行的移动。gg-bench具有挑战性:采用上下文学习时,如GPT-4o和Claude 3.7 Sonnet等顶尖LLM在gg-bench上的胜率仅为7-9%,而如o1、o3-mini和DeepSeek-R1等推理模型的平均胜率则达到31-36%。我们公开了生成的游戏、数据生成过程及评估代码,以支持未来的模型开发工作及我们基准测试的扩展。
视觉-语言模型(VLMs)将视觉感知能力与大型语言模型(LLMs)的通用功能(如推理)相结合。然而,这两种能力如何整合并相互作用的机制仍不甚明了。在本研究中,我们探索通过模型融合来组合感知与推理,这种融合连接了不同模型的参数。与以往主要关注同类模型融合的研究不同,我们提出跨模态的模型融合方法,使得LLMs的推理能力能够融入VLMs中。通过大量实验,我们证明模型融合提供了一条无需额外训练即可将LLMs的推理能力迁移至VLMs的有效途径。此外,我们利用融合后的模型深入理解感知与推理的内部机制,以及融合对其产生的影响。研究发现,感知能力主要编码于模型的早期层,而推理则主要由中后期层促进。融合后,我们观察到所有层都开始对推理做出贡献,而感知能力在各层的分布基本保持不变。这些发现揭示了模型融合作为多模态集成与解释工具的潜力。
本研究针对阿拉伯语自然语言处理领域的关键空白,开发了一种高效的阿拉伯语反向词典(RD)系统,使用户能够根据描述或含义查找词语。我们提出了一种基于Transformer的创新方法,采用半编码器神经网络架构,其几何递减层在阿拉伯语RD任务中实现了最先进的性能。我们的方法包含全面的数据集构建过程,并为阿拉伯语词典定义建立了正式的质量标准。通过多种预训练模型的实验表明,阿拉伯语专用模型显著优于通用多语言嵌入模型,其中ARBERTv2取得了最佳排序得分(0.0644)。此外,我们提供了反向词典任务的正式抽象,增强了理论理解,并开发了一个模块化、可扩展的Python库(RDTL),具有可配置的训练管道。我们对数据集质量的分析揭示了改进阿拉伯语定义构建的重要见解,提出了构建高质量反向词典资源的八项具体标准。这项工作对阿拉伯语计算语言学做出了重要贡献,为阿拉伯语的语言学习、学术写作和专业交流提供了宝贵工具。
在动态开放世界中学习导航是机器人一项重要且具有挑战性的技能。以往大多数方法依赖于精确定位与建图,或从昂贵的真实世界演示中学习。本文提出了一种名为导航扩散策略(NavDP)的端到端框架,该框架仅在仿真环境中训练,并能零样本迁移到不同形态的机器人在多样化的真实世界环境中。NavDP网络的核心在于结合了基于扩散的轨迹生成和用于轨迹选择的评价函数,这两者仅基于共享策略变换器编码的局部观测标记进行条件化。利用仿真中全局环境的特权信息,我们大规模生成了高质量的演示来训练扩散策略,并通过对比负样本构建评价函数的目标值。我们的演示生成方法实现了约2500条轨迹/GPU每天,效率是真实世界数据采集的20倍,最终构建了一个包含1244个场景、总长363.2公里的大规模导航数据集。使用该仿真数据集训练后,NavDP在四足、轮式和类人机器人上,在多样化的室内外环境中均达到了最先进的性能,并展现出卓越的泛化能力。此外,我们初步尝试利用高斯溅射技术进行领域内真实到仿真的微调,以进一步缩小仿真与现实的差距。实验表明,加入此类真实到仿真的数据可将成功率提升30%,且不影响其泛化能力。
随着智能体工作流在各领域的广泛应用,如何可扩展且系统地评估这些系统生成的复杂轨迹已成为一个关键需求。当前的评估方法依赖于人工对冗长工作流轨迹进行领域特定的分析,这种方式难以应对智能体输出日益增长的复杂性和规模。在这些场景中,错误分析因外部工具输出与语言模型推理的交互而更加复杂,使其比传统软件调试更具挑战性。在本研究中,我们(1)阐述了开发稳健且动态的智能体工作流轨迹评估方法的必要性,(2)提出了智能体系统中遇到的错误类型的正式分类体系,并(3)基于该分类体系,结合成熟的智能体基准,构建了一个包含148条大规模人工标注轨迹的数据集(TRAIL)。为确保生态效度,我们从单智能体和多智能体系统中精选轨迹,重点关注软件工程和开放世界信息检索等实际应用场景。我们的评估显示,现代长上下文大语言模型在轨迹调试方面表现欠佳,表现最佳的Gemini-2.5-pro模型在TRAIL上的得分仅为11%。我们公开了数据集和代码,以支持和加速未来在智能体工作流可扩展评估方面的研究。
我们从理论上证明,泛化能力的提升不仅依赖于数据规模的扩大,还通过压缩内部表征得以实现。为实践这一洞见,我们引入了信息瓶颈语言建模(IBLM)目标,该目标将语言建模重构为一个约束优化问题:在保证最优预测性能的前提下,最小化表征的熵。实证中,我们观察到在大型语言模型(LLM)预训练过程中,出现了一种记忆-压缩的循环现象,这通过交叉熵与矩阵基熵(MBE,一种表征熵的度量)之间正负梯度对齐的振荡得以证实。这一模式紧密映射了IBLM所规定的预测-压缩权衡,同时也与生物体在清醒学习与睡眠巩固之间的交替相呼应。受此观察启发,我们提出了门控相变(GAPT)训练算法,该算法能够自适应地在记忆与压缩阶段之间切换。当应用于GPT-2在FineWeb数据集上的预训练时,GAPT将MBE降低了50%,并使交叉熵提升了4.8%。在算术乘法预训练任务中,GAPT将OOD泛化能力提高了35%。在一个旨在模拟灾难性遗忘的设定中,GAPT通过压缩和分离表征减少了干扰,实现了97%的分离度提升——这与睡眠巩固的功能角色相平行。
评估人类在复杂活动中的技能水平是一个具有挑战性的问题,在体育、康复和训练等领域有着广泛应用。本研究中,我们提出了SkillFormer,一种参数高效的结构,用于从第一人称和第三人称视频中进行统一的多视角熟练度估计。基于TimeSformer主干网络,SkillFormer引入了CrossViewFusion模块,该模块通过多头交叉注意力、可学习门控和自适应自校准机制融合视角特定特征。我们采用低秩适应技术,仅微调一小部分参数,显著降低了训练成本。事实上,在EgoExo4D数据集上的评估显示,SkillFormer在多视角设置下达到了最先进的准确率,同时展现出卓越的计算效率,其参数数量减少了4.5倍,训练轮次需求比先前基线减少了3.75倍。该模型在多项结构化任务中表现优异,证实了多视角整合在细粒度技能评估中的价值。
大型语言模型虽在任务执行上表现出色,却常出现幻觉或依赖过时知识。检索增强生成(RAG)通过将生成过程与外部搜索相结合,有效弥补了这些不足。本研究深入分析了超参数如何影响RAG系统的速度与质量,涵盖Chroma与Faiss向量存储、分块策略、交叉编码器重排序及温度设置,并评估了六项指标:忠实度、答案正确性、答案相关性、上下文精确度、上下文召回率及答案相似度。Chroma处理查询速度快13%,而Faiss则展现出更高的检索精度,揭示了速度与准确性之间的明显权衡。采用小窗口、最小重叠的固定长度分块策略,不仅超越了语义分割的效果,还保持了最快的处理速度。重排序虽能小幅提升检索质量,却使运行时间增加约五倍,其应用价值因此取决于延迟限制。这些发现为实践者在调优RAG系统时,在计算成本与准确性之间找到平衡提供了指导,旨在实现透明且最新的响应。最后,我们通过校正型RAG工作流重新评估了最优配置,并证明当模型能迭代请求额外证据时,其优势依然显著。我们获得了近乎完美的上下文精确度(99%),这表明RAG系统在恰当的超参数组合下,能够实现极高的检索准确性,这对于检索质量直接影响下游任务性能的应用领域(如医疗保健中的临床决策支持)具有重大意义。
多模态评论有用性预测(MRHP)是推荐系统中的一项关键任务,尤其在电子商务平台中尤为重要。判断用户生成评论的有用性能够提升用户体验并优化消费者决策。然而,现有数据集主要集中于英语和印尼语,导致语言多样性不足,特别是对于越南语等低资源语言。本文中,我们介绍了ViMRHP(越南语多模态评论有用性预测),这是一个针对越南语MRHP任务的大规模基准数据集。该数据集涵盖四个领域,包含2000种产品的46000条评论。同时,构建大规模数据集需要大量时间和成本。为了优化标注流程,我们利用人工智能辅助标注人员构建ViMRHP数据集。在AI的协助下,标注时间显著缩短(从每项任务90至120秒降至20至40秒),同时保持了数据质量,并降低了约65%的总成本。然而,AI生成的标注在复杂标注任务中仍存在局限性,我们通过详细的性能分析进一步探讨了这一点。在ViMRHP的实验中,我们评估了基线模型在人工验证和AI生成标注上的表现,以评估其质量差异。ViMRHP数据集已公开于https://github.com/trng28/ViMRHP。
我们推出了WebApp1K,这是一个用于评估大型语言模型(LLMs)在测试驱动开发(TDD)任务中表现的新颖基准,其中测试用例既作为提示又作为代码生成的验证手段。与依赖自然语言提示的传统方法不同,我们的基准强调LLMs直接从测试用例中解读并实现功能的能力,这反映了现实世界中的软件开发实践。该基准包含20个应用领域的1000个多样化挑战,评估LLMs在上下文长度限制和多功能复杂性约束下生成简洁、功能性代码的能力。我们的研究结果表明,指令遵循和上下文内学习是TDD成功的关键能力,其重要性超过了通用编码熟练度或预训练知识。通过对19个前沿模型的全面评估,我们揭示了性能瓶颈,如长提示中的指令丢失,并提供了涵盖多种根本原因的详细错误分析。这项工作强调了TDD特定基准的实际价值,并为在严格、应用驱动的编码场景中提升LLM能力奠定了基础。