每日精选AI研究论文及翻译
多模态大语言模型(MLLMs)已在多种任务中展现出卓越能力,但在复杂数学推理方面仍面临挑战。现有研究主要集中于数据集构建与方法优化,往往忽视了两个关键方面:全面的知识驱动设计与以模型为中心的数据空间建模。本文提出We-Math 2.0,一个统一系统,整合了结构化数学知识体系、以模型为中心的数据空间建模及基于强化学习(RL)的训练范式,旨在全面提升MLLMs的数学推理能力。We-Math 2.0的核心贡献包括四点:(1)MathBook知识体系:构建了一个五级层次结构,涵盖491个知识点与1819条基本原理。(2)MathBook-Standard与Pro:开发了MathBook-Standard数据集,通过双重扩展确保广泛概念覆盖与灵活性;同时,定义三维难度空间,为每个问题生成7个渐进变体,构建出MathBook-Pro,一个用于稳健训练的高难度数据集。(3)MathBook-RL:提出两阶段RL框架,包括:(i)冷启动微调,使模型与知识导向的思维链推理对齐;(ii)渐进对齐RL,利用平均奖励学习与动态数据调度,实现跨难度级别的渐进对齐。(4)MathBookEval:引入一个全面基准,覆盖所有491个知识点,并具备多样化的推理步骤分布。实验结果显示,MathBook-RL在四个广泛使用的基准测试中与现有基线竞争激烈,并在MathBookEval上取得优异成绩,表明其在数学推理方面具有良好的泛化潜力。
当前主流的自回归(AR)模型在文本到图像生成任务中,要么依赖计算密集型的扩散模型处理连续图像标记,要么采用向量量化(VQ)获取离散标记但伴随量化损失。本文中,我们通过NextStep-1推进自回归范式,该模型包含一个140亿参数的自回归主体与一个1.57亿参数的流匹配头,采用离散文本标记与连续图像标记进行训练,并以下一标记预测为目标。NextStep-1在文本到图像生成任务中达到了自回归模型的顶尖性能,展现了在高保真图像合成方面的强大能力。此外,我们的方法在图像编辑任务中也表现出色,彰显了统一方法的强大与多功能性。为促进开放研究,我们将向社区公开代码与模型。
我们推出了PRELUDE基准,通过评估角色前传故事是否与原书正典叙事一致的任务,来衡量长上下文理解能力。相较于现有基准,我们的任务对全局理解和深度推理提出了更高要求——由于前传并非原故事的一部分,评估其合理性通常需要搜索并整合仅间接相关的信息。实证表明,88%的案例需要从叙事的多个部分寻找证据。实验结果凸显了该任务的挑战性:在上下文学习、检索增强生成(RAG)及采用最先进大语言模型进行领域内训练的情况下,以及商业深度研究服务,其表现均落后人类超过15%。进一步的人类研究表明,模型常以错误的推理得出正确答案,导致推理准确率与人类相比存在超过30%的差距。这些发现强调了在长上下文理解与推理方面仍有巨大的改进空间。
我们推出UI-Venus,一款仅以屏幕截图作为输入的原生UI代理,其基于多模态大语言模型构建。通过基于Qwen2.5-VL的强化微调(RFT),UI-Venus仅需数十万高质量训练样本,便在UI定位与导航任务上实现了SOTA性能。具体而言,UI-Venus的7B与72B版本在标准定位基准测试Screenspot-V2/Pro上分别取得了94.1%/50.8%与95.3%/61.9%的成绩,超越了包括开源模型GTA1及闭源模型UI-TARS-1.5在内的先前SOTA基线。为展示UI-Venus的总结与规划能力,我们还在AndroidWorld这一在线UI导航竞技场对其进行了评估,其中7B与72B版本分别达到了49.1%与65.9%的成功率,同样优于现有模型。为此,我们精心设计了针对UI定位与导航任务的奖励函数及相应的高效数据清洗策略。为进一步提升导航性能,我们提出了自我进化轨迹历史对齐与稀疏动作增强方法,优化历史推理轨迹并平衡关键稀疏动作的分布,从而在复杂UI任务中实现更连贯的规划与更好的泛化能力。我们的贡献包括发布了SOTA开源UI代理、全面的数据清洗协议以及提升导航性能的自我进化框架,这些成果将激励社区进一步的研究与开发。代码已发布于https://github.com/antgroup/UI-Venus。
尽管多模态大语言模型(MLLMs)在实现真正类人交互方面展现出巨大潜力,但由于缺乏针对以人为中心场景的细粒度评估框架,其进展受到阻碍。这些框架需涵盖对复杂人类意图的理解以及提供富有同理心、上下文感知的回应。为此,我们引入了HumanSense,一个旨在评估MLLMs以人为中心的感知与交互能力的综合基准,特别聚焦于对扩展多模态上下文的深度理解及合理反馈的生成。我们的评估显示,领先的MLLMs仍有显著提升空间,尤其是在面向高级交互任务时。通过将视觉输入与音频及文本信息相结合,可带来实质性改进,而全模态模型在这些任务上展现出优势。此外,我们主张恰当的反馈源于对对话者需求与情感的情境分析,推理能力则是解锁这一点的关键。相应地,我们采用多阶段、模态递进的强化学习来增强全模态模型的推理能力,从而在评估结果上取得显著提升。同时,我们观察到成功的推理过程呈现出高度一致的思维模式。通过设计相应的提示,我们也在无需训练的情况下提升了非推理模型的性能。项目页面:brightpinkhttps://digital-avatar.github.io/ai/HumanSense/
机器学习领域的最新进展激发了人们对自动口译质量评估日益增长的兴趣。然而,现有研究存在诸多不足:对语言使用质量的考察不够充分,因数据稀缺与不平衡导致的建模效果欠佳,以及缺乏对模型预测进行解释的努力。为填补这些空白,我们提出了一种多维建模框架,该框架整合了特征工程、数据增强和可解释机器学习。此方法通过仅采用与构建相关的透明特征,并运用Shapley值(SHAP)分析,优先考虑可解释性而非“黑箱”预测。我们的研究结果在一个新颖的英汉交替传译数据集上展现了强大的预测性能,识别出BLEURT和CometKiwi评分是忠实度的最强预测特征,停顿相关特征对流畅度影响显著,而中文特有的短语多样性指标则对语言使用质量至关重要。总体而言,通过特别强调可解释性,我们提出了一种可扩展、可靠且透明的替代方案,以取代传统的人工评估,不仅为学习者提供详细的诊断反馈,还支持自动化评分单独无法实现的自律学习优势。