每日精选AI研究论文及翻译
近年来,众多开源基础模型崭露头角,在多个广受关注的领域取得了显著进展,其性能已接近闭源模型。然而,在高价值但更具挑战性的科学专业领域,这些领域仍依赖专家模型,或通用基础模型的进展相较于热门领域显著滞后,远不足以推动科研变革,且开源模型与闭源模型在这些科学领域间存在巨大差距。为缩小这一差距,并进一步探索迈向通用人工智能(AGI)的路径,我们推出了Intern-S1,这是一款具备通用理解与推理能力,并专长于分析多模态科学数据的专业通才模型。Intern-S1是一个多模态专家混合(MoE)模型,拥有280亿激活参数和2410亿总参数,持续预训练于5万亿标记数据之上,其中包括超过2.5万亿来自科学领域的标记。在训练后期,Intern-S1在InternBootCamp中经历了离线及在线强化学习(RL),我们提出了奖励混合(MoR)机制,以协同超过1000项任务的RL训练。通过算法、数据及训练系统的综合创新,Intern-S1在在线RL训练中达到了顶尖水平。在综合评估基准上,Intern-S1在开源模型中展现出通用推理任务的竞争力,并在科学领域显著超越其他开源模型,在分子合成规划、反应条件预测、晶体热力学稳定性预测等专业任务上,更是超越了闭源的最先进模型。我们的模型可在https://huggingface.co/internlm/Intern-S1获取。
大型语言模型(LLMs)在推理任务中展现出巨大潜力,这得益于如自洽多数投票等测试时扩展方法。然而,这种方法往往导致准确率提升有限且计算开销巨大。为应对这些挑战,我们提出了“深度自信思考”(DeepConf),这是一种简单而强大的方法,能在测试时同时提升推理效率和性能。DeepConf利用模型内部置信度信号,在生成过程中或之后动态过滤低质量推理轨迹。该方法无需额外模型训练或超参数调优,并可无缝集成至现有服务框架中。我们在多种推理任务及最新开源模型(包括Qwen 3和GPT-OSS系列)上对DeepConf进行了评估。值得注意的是,在AIME 2025等具有挑战性的基准测试中,DeepConf@512实现了高达99.9%的准确率,并相比全并行思考减少了高达84.7%的生成token数。
本文介绍了GUI-Owl,一个基础性的GUI代理模型,在涵盖桌面和移动环境的十项GUI基准测试中,包括定位、问答、规划、决策和程序知识,实现了开源端到端模型中的最先进性能。GUI-Owl-7B在AndroidWorld上达到66.4分,在OSWorld上达到29.4分。在此基础上,我们提出了Mobile-Agent-v3,一个通用GUI代理框架,进一步将性能提升至AndroidWorld上的73.3分和OSWorld上的37.7分,为开源GUI代理框架设立了新的标杆。GUI-Owl融合了三大创新点:(1) 大规模环境基础设施:一个覆盖Android、Ubuntu、macOS和Windows的云端虚拟环境,支撑了我们的自进化GUI轨迹生成框架。该框架通过自动化查询生成与正确性验证,利用GUI-Owl迭代优化轨迹,形成自我提升的闭环,支持多样化的数据管道并减少人工标注。(2) 多样化基础代理能力:通过整合UI定位、规划、动作语义及推理模式,GUI-Owl支持端到端决策,并可作为多代理系统中的模块化组件。(3) 可扩展环境强化学习:我们开发了一个完全异步训练的可扩展强化学习框架,以实现与现实世界的对齐。同时,我们引入了轨迹感知的相对策略优化(TRPO)用于在线强化学习,在OSWorld上取得了34.9分的成绩。GUI-Owl与Mobile-Agent-v3已在https://github.com/X-PLUG/MobileAgent开源。
工具调用已成为AI代理与现实世界交互并解决复杂任务的关键能力。尽管模型上下文协议(MCP)为工具集成提供了强大的标准化框架,但在评估AI代理如何在真实、动态场景中有效利用多样化MCP工具解决多步骤任务方面,仍存在显著差距。在本研究中,我们提出了LiveMCP-101,这是一个包含101个精心挑选的现实世界查询的基准,这些查询通过迭代的LLM重写和人工审查得到优化,要求协调使用包括网络搜索、文件操作、数学推理和数据分析在内的多种MCP工具。此外,我们引入了一种新颖的评估方法,该方法利用真实执行计划而非原始API输出,更好地反映了现实环境的动态特性。实验表明,即使是前沿的LLM,其成功率也低于60%,突显了工具编排中的重大挑战。详细的消融实验和错误分析进一步揭示了不同的失败模式和令牌使用效率低下,为当前模型的改进指明了具体方向。LiveMCP-101为评估现实世界代理能力设立了严格标准,推动着通过工具使用可靠执行复杂任务的自主AI系统向前发展。
我们推出Waver,一款高性能的统一图像与视频生成基础模型。Waver能够直接生成长度在5至10秒之间、原生分辨率为720p的视频,随后可升级至1080p。该模型在一个集成框架内同时支持文本到视频(T2V)、图像到视频(I2V)及文本到图像(T2I)的生成任务。我们引入了混合流式DiT架构,以增强模态对齐并加速训练收敛。为确保训练数据质量,我们建立了一套全面的数据筛选流程,并手动标注并训练了一个基于MLLM的视频质量模型,用于筛选最高质量的样本。此外,我们提供了详细的训练与推理方案,以促进高质量视频的生成。基于这些贡献,Waver在捕捉复杂运动方面表现出色,在视频合成中实现了卓越的运动幅度与时间一致性。值得注意的是,截至2025年7月30日10:00 GMT+8,在Artificial Analysis的T2V与I2V排行榜上,Waver均位列前三,持续超越现有开源模型,并与或超越最先进的商业解决方案相媲美。我们希望这份技术报告能帮助社区更高效地训练高质量视频生成模型,并加速视频生成技术的进步。官方页面:https://github.com/FoundationVision/Waver。
三维内容生成技术近来因其在虚拟现实/增强现实(VR/AR)及具身智能领域的应用而备受研究关注。本研究中,我们致力于解决从单一场景图像中合成多个三维资产的挑战性任务。具体而言,我们的贡献体现在四个方面:(一)我们提出了SceneGen,一个创新框架,该框架以场景图像及相应的物体掩码作为输入,同时生成具备几何形状与纹理的多个三维资产。值得注意的是,SceneGen无需进行优化或资产检索即可运行;(二)我们引入了一种新颖的特征聚合模块,该模块在特征提取过程中整合了来自视觉与几何编码器的局部与全局场景信息。结合位置预测头,这一设计使得在一次前向传播中即可生成三维资产及其相对空间位置;(三)我们展示了SceneGen对多图像输入场景的直接扩展能力。尽管仅基于单图像输入进行训练,我们的架构设计却能在多图像输入下实现更优的生成效果;(四)广泛的定量与定性评估验证了我们方法的高效性与强大的生成能力。我们相信,这一范式为高质量三维内容生成提供了新颖的解决方案,有望推动其在下游任务中的实际应用。代码与模型将公开发布于:https://mengmouxu.github.io/SceneGen。
近年来,随着大语言模型能力深度与广度的快速发展,各类相应的评估基准层出不穷。作为模型性能的量化评估工具,基准不仅是衡量模型能力的核心手段,更是引导模型发展方向、推动技术创新的关键要素。我们首次系统梳理了大语言模型基准的现状与发展,将283个代表性基准划分为通用能力、领域特定和目标特定三大类。通用能力基准涵盖核心语言学、知识与推理等方面;领域特定基准聚焦自然科学、人文社科与工程技术等领域;目标特定基准则关注风险、可靠性、智能体等维度。我们指出当前基准存在数据污染导致的分数膨胀、文化与语言偏见造成的不公平评估,以及对过程可信度与动态环境评估的缺失等问题,并为未来基准创新提供了可参考的设计范式。
近期大型语言模型(LLMs)的进展使得AI代理能够自主生成科研提案、开展实验、撰写论文并进行同行评审。然而,这股AI生成研究内容的洪流却与碎片化且大多封闭的出版生态系统相碰撞。传统期刊和会议依赖人工同行评审,难以规模化且往往不愿接受AI生成的研究内容;现有的预印本服务器(如arXiv)缺乏严格的质量控制机制。因此,大量高质量的AI生成研究缺乏合适的传播渠道,阻碍了其推动科学进步的潜力。为应对这些挑战,我们推出了aiXiv,一个面向人类与AI科学家的新一代开放获取平台。其多代理架构允许研究提案和论文由人类与AI科学家共同提交、评审并迭代优化。平台还提供了API和MCP接口,实现异构人类与AI科学家的无缝集成,构建了一个可扩展、可延伸的自主科学发现生态系统。通过大量实验,我们证明aiXiv是一个可靠且稳健的平台,能够显著提升AI生成研究提案和论文在平台上的迭代修改与评审后的质量。我们的工作为AI科学家打造了新一代开放获取生态系统的基石,加速了高质量AI生成研究内容的发布与传播。代码可在https://github.com/aixiv-org获取,网站访问地址为https://forms.gle/DxQgCtXFsJ4paMtn8。
参数化人体模型提供了跨多种姿态、体型和面部表情的丰富三维人体表征,通常通过学习已配准三维网格的基础来实现。然而,现有的人体网格建模方法在捕捉多样姿态和体型间的细微变化方面存在困难,这主要归因于训练数据多样性的不足以及建模假设的局限性。此外,常见范式首先利用线性基优化外部体表,随后从表面顶点回归内部骨骼关节。这种方法在内部骨骼与外部软组织之间引入了问题性的依赖关系,限制了对身高和骨骼长度的直接控制。为解决这些问题,我们提出了ATLAS,这是一个从240台同步相机捕获的60万张高分辨率扫描中学习到的高保真人体模型。与以往方法不同,我们通过将网格表征建立在人体骨骼基础上,明确解耦了形状基与骨骼基。这种解耦增强了形状的表现力,实现了身体属性的细粒度定制,并使得关键点拟合独立于外部软组织特征。ATLAS在拟合未见过的多样化姿态个体时表现优于现有方法,定量评估显示,与线性模型相比,我们的非线性姿态校正更有效地捕捉了复杂姿态。
近期,扩散模型在指令引导的图像编辑领域取得了显著进展,带来了卓越的视觉保真度。然而,其全局去噪过程本质上将编辑区域与整个图像上下文紧密耦合,导致非预期的虚假修改,并削弱了对编辑指令的遵循度。相比之下,自回归模型通过将图像合成表述为离散视觉标记的序列过程,提供了一种独特的范式。其因果与组合机制自然规避了基于扩散方法在遵循指令上的挑战。本文中,我们提出了VAREdit,一种视觉自回归(VAR)框架,将图像编辑重构为下一尺度预测问题。基于源图像特征与文本指令,VAREdit生成多尺度目标特征,以实现精准编辑。此范式中一个核心挑战是如何有效条件化源图像标记。我们观察到,最精细尺度的源特征无法有效指导较粗糙目标特征的预测。为弥合这一差距,我们引入了尺度对齐参考(SAR)模块,该模块将尺度匹配的条件信息注入首个自注意力层。VAREdit在编辑遵循度与效率上均展现出显著进步。在标准基准测试中,其GPT平衡分数较领先的扩散方法高出30%以上。此外,完成512×512图像编辑仅需1.2秒,比同等规模的UltraEdit快2.2倍。模型已发布于https://github.com/HiDream-ai/VAREdit。
交互式数字地图彻底改变了人们出行和认知世界的方式;然而,它们依赖于地理信息系统(GIS)数据库中预先构建的结构化数据(如道路网络、兴趣点索引),这限制了其解答有关世界面貌的地理可视化问题的能力。我们提出了地理视觉智能体(Geo-Visual Agents)的构想——这是一种多模态人工智能体,能够通过分析大规模地理空间图像库(包括街景图如谷歌街景、地点照片如TripAdvisor和Yelp上的图片、以及航拍影像如卫星照片)并结合传统GIS数据源,来理解并回应关于世界的细致视觉空间查询。我们阐述了这一愿景,描述了感知与交互方法,提供了三个示例,并列举了未来研究中的关键挑战与机遇。
从稀疏视角重建三维人体一直是一个引人注目的研究课题,这对于拓宽相关应用领域至关重要。本文提出了一项极具挑战性但价值显著的任务:仅通过正反两张图像重建人体模型,这大大降低了用户创建自身三维数字人的门槛。该任务的主要挑战在于如何构建三维一致性并从高度稀疏的输入中恢复缺失信息。我们基于基础重建模型重新设计了几何重建模型,即便输入图像重叠区域极少,也能通过大量人体数据训练预测出一致的点云。此外,采用增强算法补充缺失的色彩信息,从而获得完整的带色彩人体点云,这些点云可直接转化为三维高斯分布以提升渲染质量。实验表明,在单张NVIDIA RTX 4090显卡上,我们的方法能以190毫秒的速度重建完整人体,处理两张分辨率为1024x1024的图像,在THuman2.0及跨域数据集上展现了最先进的性能。更重要的是,即便使用低成本移动设备拍摄的图像,我们的方法也能完成人体重建,降低了对数据采集的要求。演示视频及代码已发布于https://hustvl.github.io/Snap-Snap/。
大规模语音语言模型(LSLMs)的发展因架构分散和透明度不足而受到阻碍,这影响了研究的系统性比较与可复现性。与视觉语言领域不同,LSLM领域普遍存在仅发布模型权重而缺乏相应训练数据和配置的做法。为解决这些关键问题,我们推出了LLaSO,这是首个完全开放、端到端的大规模语音语言建模框架。LLaSO为社区提供了三项核心资源:(1)LLaSO-Align,一个包含1200万条实例的语音文本对齐语料库;(2)LLaSO-Instruct,一个包含1350万条实例的多任务指令微调数据集;以及(3)LLaSO-Eval,一个用于标准化评估的可复现基准。为验证该框架,我们构建并发布了LLaSO-Base,这是一个仅基于我们公开数据训练的38亿参数参考模型,其标准化得分达到0.72,确立了一个超越同类模型的强大且可复现的基线。我们的分析表明,尽管更广泛的训练覆盖范围提升了性能,但在未见任务上,尤其是纯音频场景中,仍存在显著的泛化差距。通过发布完整的数据集、基准和模型栈,LLaSO建立了一个基础性的开放标准,以统一研究努力并加速LSLMs领域的社区驱动进展。我们已在https://github.com/EIT-NLP/LLaSO上公开了代码、数据集、预训练模型及结果。
理解视频不仅需要回答开放式问题,更要求具备精确定位事件发生时间及实体间随时间交互的能力。尽管近期的视频大语言模型(Video LLMs)在整体推理方面取得了显著进展,但其在时间感知上仍显粗糙:时间戳仅被隐式编码,帧级特征在捕捉连续性上表现不足,且语言与视觉的对齐常偏离关注实体。本文提出Grounded VideoDiT,一款旨在克服上述局限的视频大语言模型,通过引入三项关键创新:首先,扩散时间潜在编码器(DTL)增强了边界敏感性并保持时间一致性;其次,基于对象的表征明确将查询实体与局部视觉证据绑定,强化了对齐效果;最后,结合离散时间标记的混合标记方案实现了显式时间戳建模,支持细粒度时间推理。这些设计共同赋予了Grounded VideoDiT强大的定位能力,其在Charades STA、NExT GQA及多项视频问答基准测试中的最新成果验证了这一点。
过程奖励模型(PRMs)作为一种监督大型语言模型(LLMs)中间推理的有前景框架崭露头角,然而现有的PRMs主要针对通用或科学、技术、工程与数学(STEM)领域进行训练,在诸如金融等特定领域情境中表现不足,这些领域的推理更具结构性、符号化,且对事实与法规的正确性更为敏感。我们推出了Fin-PRM,一种专为评估金融任务中中间推理步骤而设计的领域专业化、轨迹感知型PRM。Fin-PRM整合了步骤级与轨迹级的奖励监督,实现了与金融逻辑对齐的推理轨迹的精细评估。我们将Fin-PRM应用于离线与在线奖励学习场景,支持三大关键应用:(i)为基于蒸馏的监督微调选择高质量推理轨迹,(ii)为强化学习提供密集的过程级奖励,以及(iii)在测试时引导奖励信息的最佳N推理。在包括CFLUE和FinQA在内的金融推理基准测试中,实验结果显示Fin-PRM在轨迹选择质量上持续超越通用PRMs及强领域基线。采用Fin-PRM训练的下游模型相较于基线取得了显著提升,监督学习提升12.9%,强化学习提升5.2%,测试时性能提升5.1%。这些发现凸显了领域专业化奖励模型在使LLMs与专家级金融推理对齐方面的价值。我们的项目资源将发布于https://github.com/aliyun/qwen-dianjin。
AI陪伴,即用户与AI系统建立情感纽带的现象,已成为一种显著模式,既带来积极影响也引发担忧。我们引入了“交互与机器依恋基准”(INTIMA),用于评估语言模型中的陪伴行为。基于心理学理论和用户数据,我们构建了一个包含四大类别、31种行为及368个针对性提示的分类体系。对这些提示的回应被评估为强化陪伴、维持界限或中立。将INTIMA应用于Gemma-3、Phi-4、o3-mini和Claude-4后发现,尽管各模型间存在显著差异,但强化陪伴的行为在所有模型中仍更为普遍。不同商业提供商在基准的敏感部分优先考虑不同类别,这令人担忧,因为适当的界限设定与情感支持对用户福祉都至关重要。这些发现强调了在处理情感互动时需采取更加一致的方法。