每日精选AI研究论文及翻译
多模态大语言模型(MLLMs)已在多种任务中展现出卓越能力,但在复杂数学推理方面仍面临挑战。现有研究主要集中于数据集构建与方法优化,往往忽视了两个关键方面:全面的知识驱动设计与以模型为中心的数据空间建模。本文提出We-Math 2.0,一个统一系统,整合了结构化数学知识体系、以模型为中心的数据空间建模及基于强化学习(RL)的训练范式,旨在全面提升MLLMs的数学推理能力。We-Math 2.0的核心贡献包括四点:(1)MathBook知识体系:构建了一个五级层次结构,涵盖491个知识点与1819条基本原理。(2)MathBook-Standard与Pro:开发了MathBook-Standard数据集,通过双重扩展确保广泛概念覆盖与灵活性;同时,定义三维难度空间,为每个问题生成7个渐进变体,构建出MathBook-Pro,一个用于稳健训练的高难度数据集。(3)MathBook-RL:提出两阶段RL框架,包括:(i)冷启动微调,使模型与知识导向的思维链推理对齐;(ii)渐进对齐RL,利用平均奖励学习与动态数据调度,实现跨难度级别的渐进对齐。(4)MathBookEval:引入一个全面基准,覆盖所有491个知识点,并具备多样化的推理步骤分布。实验结果显示,MathBook-RL在四个广泛使用的基准测试中与现有基线竞争激烈,并在MathBookEval上取得优异成绩,表明其在数学推理方面具有良好的泛化潜力。
当前主流的自回归(AR)模型在文本到图像生成任务中,要么依赖计算密集型的扩散模型处理连续图像标记,要么采用向量量化(VQ)获取离散标记但伴随量化损失。本文中,我们通过NextStep-1推进自回归范式,该模型包含一个140亿参数的自回归主体与一个1.57亿参数的流匹配头,采用离散文本标记与连续图像标记进行训练,并以下一标记预测为目标。NextStep-1在文本到图像生成任务中达到了自回归模型的顶尖性能,展现了在高保真图像合成方面的强大能力。此外,我们的方法在图像编辑任务中也表现出色,彰显了统一方法的强大与多功能性。为促进开放研究,我们将向社区公开代码与模型。
我们推出了PRELUDE基准,通过评估角色前传故事是否与原书正典叙事一致的任务,来衡量长上下文理解能力。相较于现有基准,我们的任务对全局理解和深度推理提出了更高要求——由于前传并非原故事的一部分,评估其合理性通常需要搜索并整合仅间接相关的信息。实证表明,88%的案例需要从叙事的多个部分寻找证据。实验结果凸显了该任务的挑战性:在上下文学习、检索增强生成(RAG)及采用最先进大语言模型进行领域内训练的情况下,以及商业深度研究服务,其表现均落后人类超过15%。进一步的人类研究表明,模型常以错误的推理得出正确答案,导致推理准确率与人类相比存在超过30%的差距。这些发现强调了在长上下文理解与推理方面仍有巨大的改进空间。
传统动画与动漫制作包含关键帧绘制、中间帧补全及上色等环节,这些步骤往往需要大量人工投入。尽管人工智能领域近期取得了显著进展,现有方法通常将这些环节分开处理,导致误差累积和画面瑕疵。例如,中间帧补全技术难以应对大幅度的动作变化,而上色方法则需依赖密集的逐帧线稿。为解决这些问题,我们推出了ToonComposer,一种将中间帧补全与上色统一于关键帧后处理阶段的生成模型。ToonComposer采用稀疏线稿注入机制,通过关键帧线稿实现精确控制。此外,它结合了卡通适配方法,利用空间低秩适配器将现代视频基础模型定制化应用于卡通领域,同时保持其时间先验不变。仅需一幅线稿及一帧彩色参考画面,ToonComposer便能出色处理稀疏输入,同时支持在任意时间点插入多幅线稿以实现更精准的动作控制。这种双重能力不仅减轻了人工负担,还提升了创作灵活性,在实际场景中为艺术家赋能。为评估模型性能,我们进一步构建了PKBench基准测试集,其中包含模拟真实应用场景的手绘线稿。评估结果表明,ToonComposer在视觉质量、动作一致性及制作效率上均优于现有方法,为AI辅助动画制作提供了更优质、更灵活的解决方案。
我们推出UI-Venus,一款仅以屏幕截图作为输入的原生UI代理,其基于多模态大语言模型构建。通过基于Qwen2.5-VL的强化微调(RFT),UI-Venus仅需数十万高质量训练样本,便在UI定位与导航任务上实现了SOTA性能。具体而言,UI-Venus的7B与72B版本在标准定位基准测试Screenspot-V2/Pro上分别取得了94.1%/50.8%与95.3%/61.9%的成绩,超越了包括开源模型GTA1及闭源模型UI-TARS-1.5在内的先前SOTA基线。为展示UI-Venus的总结与规划能力,我们还在AndroidWorld这一在线UI导航竞技场对其进行了评估,其中7B与72B版本分别达到了49.1%与65.9%的成功率,同样优于现有模型。为此,我们精心设计了针对UI定位与导航任务的奖励函数及相应的高效数据清洗策略。为进一步提升导航性能,我们提出了自我进化轨迹历史对齐与稀疏动作增强方法,优化历史推理轨迹并平衡关键稀疏动作的分布,从而在复杂UI任务中实现更连贯的规划与更好的泛化能力。我们的贡献包括发布了SOTA开源UI代理、全面的数据清洗协议以及提升导航性能的自我进化框架,这些成果将激励社区进一步的研究与开发。代码已发布于https://github.com/antgroup/UI-Venus。
扩散语言模型(DLMs)正迅速崛起,成为主导性自回归(AR)范式的有力且前景广阔的替代方案。通过迭代去噪过程并行生成词元,DLMs在降低推理延迟和捕捉双向上下文方面具有天然优势,从而实现对生成过程的精细控制。在实现数倍加速的同时,最新进展使DLMs展现出与自回归模型相媲美的性能,使其成为各种自然语言处理任务的理想选择。本综述全面概述了当前DLM的发展现状。我们追溯其演变历程及其与自回归和掩码语言模型等其他范式的关系,涵盖基础原理和尖端模型。我们的工作提供了最新的、全面的分类体系,并对当前技术进行了深入分析,从预训练策略到先进的训练后方法。本综述的另一贡献是对DLM推理策略和优化的详尽回顾,包括解码并行性、缓存机制和生成质量的改进。我们还重点介绍了DLM多模态扩展的最新方法,并勾勒了它们在不同实际场景中的应用。此外,我们的讨论还涉及DLM的局限性和挑战,包括效率、长序列处理和基础设施需求,同时概述了未来研究方向,以维持这一快速发展领域的进步。项目GitHub地址为https://github.com/VILA-Lab/Awesome-DLMs。
现代交互应用日益需要动态的3D内容,然而将静态3D模型转化为动画资产仍是内容创作流程中的一大瓶颈。尽管生成式AI的最新进展已彻底改变了静态3D模型的创建方式,但绑定和动画制作仍严重依赖专家干预。我们提出了Puppeteer,一个全面的框架,旨在实现多样化3D对象的自动绑定与动画生成。该系统首先通过自回归Transformer预测合理的骨骼结构,该Transformer采用基于关节的标记化策略以实现紧凑表示,并结合带有随机扰动层次排序方法,增强了双向学习能力。随后,系统通过一个基于注意力的架构推断蒙皮权重,该架构融入了拓扑感知的关节注意力机制,明确编码了基于骨骼图距离的关节间关系。最后,我们以可微分的优化为基础,补充了这些绑定技术,构建了一个动画生成管道,该管道在计算效率上优于现有方法,同时能生成稳定、高保真的动画。跨多个基准的广泛评估表明,我们的方法在骨骼预测精度和蒙皮质量上均显著超越了当前最先进的技术。该系统能够稳健处理多样化的3D内容,从专业设计的游戏资产到AI生成的形状,均能生成时间上连贯的动画,有效消除了现有方法中常见的抖动问题。
我们提出了STream3R,一种创新的三维重建方法,它将点云图预测重新定义为仅解码器的Transformer问题。现有的多视图重建最先进方法要么依赖于昂贵的全局优化,要么采用扩展性差于序列长度的简单记忆机制。相比之下,STream3R引入了一种流式处理框架,借鉴现代语言建模的进展,利用因果注意力高效处理图像序列。通过从大规模三维数据集中学习几何先验,STream3R能很好地泛化到多样且具挑战性的场景,包括传统方法常失效的动态场景。大量实验表明,我们的方法在静态和动态场景基准测试中均持续超越先前工作。此外,STream3R天然兼容LLM风格的训练基础设施,支持针对多种下游三维任务的高效大规模预训练与微调。我们的成果凸显了因果Transformer模型在在线三维感知中的潜力,为流式环境下的实时三维理解铺平了道路。更多详情请访问我们的项目页面:https://nirvanalan.github.io/projects/stream3r。
采用可验证奖励的强化学习(RLVR),通常以Pass@1作为奖励指标,在平衡探索与利用方面面临挑战,导致策略倾向于保守行动,陷入局部最优。因此,确定一个合适的奖励度量至关重要。尽管先前的研究在评估中使用了Pass@k,但其与RLVR中大语言模型探索能力的关联却大多被忽视。为探究这一问题,我们首先采用Pass@k作为奖励来训练策略模型(即Pass@k训练),并观察到其探索能力的提升。随后,我们推导出Pass@k训练优势的解析解,从而实现了高效且有效的训练过程。基于此,我们的分析表明,探索与利用并非本质上的对立目标,反而可以相互促进。此外,结合解析推导的Pass@k训练实质上涉及直接设计优势函数。受此启发,我们初步探索了RLVR中的优势设计,展示了积极成果,并指明了一个潜在的未来研究方向。
尽管多模态大语言模型(MLLMs)在实现真正类人交互方面展现出巨大潜力,但由于缺乏针对以人为中心场景的细粒度评估框架,其进展受到阻碍。这些框架需涵盖对复杂人类意图的理解以及提供富有同理心、上下文感知的回应。为此,我们引入了HumanSense,一个旨在评估MLLMs以人为中心的感知与交互能力的综合基准,特别聚焦于对扩展多模态上下文的深度理解及合理反馈的生成。我们的评估显示,领先的MLLMs仍有显著提升空间,尤其是在面向高级交互任务时。通过将视觉输入与音频及文本信息相结合,可带来实质性改进,而全模态模型在这些任务上展现出优势。此外,我们主张恰当的反馈源于对对话者需求与情感的情境分析,推理能力则是解锁这一点的关键。相应地,我们采用多阶段、模态递进的强化学习来增强全模态模型的推理能力,从而在评估结果上取得显著提升。同时,我们观察到成功的推理过程呈现出高度一致的思维模式。通过设计相应的提示,我们也在无需训练的情况下提升了非推理模型的性能。项目页面:brightpinkhttps://digital-avatar.github.io/ai/HumanSense/
先前的研究已分析了视觉编码器对图像变换和损坏的鲁棒性,特别是在训练过程中未见过此类改变的情况下。当这种情况发生时,它们会在测试时引入一种分布偏移,通常导致性能下降。这些研究主要关注的是那些严重损坏,当被激进应用时,会扭曲准确语义预测所需的有用信号。 我们则从不同角度出发,分析了图像获取过程中的参数以及那些可能细微甚至人眼难以察觉的变换。我们发现,这些参数被系统地编码在已学习的视觉表示中,并且可以轻易地被恢复。更为引人注目的是,它们的存在可能对语义预测产生深远影响,无论是正面还是负面。这种影响取决于语义标签与这些基于获取或处理的标签之间是否存在强相关性或反相关性。我们的代码和数据可在以下网址获取:https://github.com/ryan-caesar-ramos/visual-encoder-traces。
机器学习领域的最新进展激发了人们对自动口译质量评估日益增长的兴趣。然而,现有研究存在诸多不足:对语言使用质量的考察不够充分,因数据稀缺与不平衡导致的建模效果欠佳,以及缺乏对模型预测进行解释的努力。为填补这些空白,我们提出了一种多维建模框架,该框架整合了特征工程、数据增强和可解释机器学习。此方法通过仅采用与构建相关的透明特征,并运用Shapley值(SHAP)分析,优先考虑可解释性而非“黑箱”预测。我们的研究结果在一个新颖的英汉交替传译数据集上展现了强大的预测性能,识别出BLEURT和CometKiwi评分是忠实度的最强预测特征,停顿相关特征对流畅度影响显著,而中文特有的短语多样性指标则对语言使用质量至关重要。总体而言,通过特别强调可解释性,我们提出了一种可扩展、可靠且透明的替代方案,以取代传统的人工评估,不仅为学习者提供详细的诊断反馈,还支持自动化评分单独无法实现的自律学习优势。
在可信自然语言处理(NLP)的研究中,多个重要领域逐渐显现,其中包括可解释性与隐私保护。尽管近年来针对可解释和隐私保护的NLP研究兴趣显著增长,但两者交叉领域的研究仍显不足。这导致我们对于同时实现可解释性与隐私保护是否可行,或两者是否存在冲突的理解存在显著空白。在本研究中,我们以差分隐私(DP)和事后可解释性这两大主流方法为指导,对NLP中的隐私-可解释性权衡进行了实证探索。我们的发现揭示了隐私与可解释性之间错综复杂的关系,这种关系由多种因素构成,包括下游任务的性质、文本隐私化方法及可解释性方法的选择。在此过程中,我们强调了隐私与可解释性共存的潜力,并将研究发现总结为一系列实用建议,为这一重要交叉领域的未来研究提供指导。