每日精选AI研究论文及翻译
在Transformer模型中,旋转位置嵌入(RoPE)存在固有的局限性,这些限制削弱了长度外推的能力。我们将带有位置编码的注意力图重新解读为一种含噪特征图,并提出了一种无需训练的降噪位置编码方法(DoPE),该方法基于截断矩阵熵来检测特征图中的异常频带。利用特征图的噪声特性,我们进一步通过无参数的高斯分布对其进行重参数化,以实现稳健的外推。我们的方法从理论上揭示了注意力下沉现象的根本原因及其与截断矩阵熵之间的联系。在“大海捞针”任务和多样本上下文学习任务上的实验表明,DoPE在扩展上下文(高达64K个标记)中显著提高了检索准确性和推理稳定性。结果表明,位置嵌入的降噪策略有效缓解了注意力下沉,恢复了平衡的注意力模式,为提升长度泛化能力提供了一个简单而强大的解决方案。我们的项目页面是:https://The-physical-picture-of-LLMs.github.io。
近期,统一多模态模型(UMMs)的研究进展显著推动了视觉理解与生成能力的提升。然而,现有数据集和基准测试主要聚焦于单轮交互,未能捕捉现实世界图像创作与编辑中多轮次、上下文依赖的特性。为填补这一空白,我们提出了WEAVE——首个面向上下文交织跨模态理解与生成的全套解决方案。该套件包含两个互补部分:WEAVE-100k作为大规模数据集,包含10万个交织样本,覆盖37万次对话轮转和50万张图像,涉及需要历史上下文推理的理解、编辑及生成任务;WEAVEBench则是基于480张图像构建的含100项任务的人工标注基准测试,采用结合参考图像及"原图+编辑指令"的混合VLM评判框架,评估模型在多轮生成、视觉记忆和跨领域常识推理等方面的能力。实验表明,基于WEAVE-100k的训练能有效提升视觉理解、图像编辑及理解-生成协作能力,并促进UMMs涌现出视觉记忆能力。同时,在WEAVEBench上的广泛评估揭示了当前方法在多轮上下文感知图像生成与编辑方面存在的持续局限与挑战。我们相信WEAVE为多模态社区研究上下文交织的理解与生成提供了新的视角和基础。
我们提出虚拟宽度网络(VWN),该框架能够在避免隐藏层尺寸增加带来二次方计算成本的同时,获得更宽表征的优势。VWN将表征宽度与主干网络宽度解耦,在保持主干计算量近乎不变的前提下扩展嵌入空间。在大规模实验中,8倍扩展使下一词元预测的优化速度提升2倍以上,下一至二词元预测速度提升3倍。随着训练进行,损失差距持续扩大且收敛加速比不断提升,表明VWN不仅具有词元效率,更会随规模扩大持续增强效果。此外,我们发现虚拟宽度与损失减少之间存在近似对数线性的缩放关系,这为探索虚拟宽度缩放作为大模型效率的新维度提供了初步实证依据和研究动机。
统一多模态模型(UMMs)的出现标志着人工智能领域的范式转变,从被动感知转向主动的跨模态生成。尽管这些模型具备前所未有的信息整合能力,但评估体系仍存在关键空白:现有基准主要分别评估判别式理解或无约束图像生成能力,未能有效衡量生成式推理的整合认知过程。为填补这一空白,我们提出几何构建可作为理想测试平台,因其本质上要求语言理解与精确视觉生成的融合。我们推出GGBench基准,专门用于评估几何生成推理能力。该基准提供系统化诊断框架,不仅能检验模型的理解与推理能力,更能评估其主动构建解决方案的能力,从而为新一代智能系统设立更严谨的标准。项目网站:https://opendatalab-raiser.github.io/GGBench/。
用户界面(UI)编程是现代软件开发的核心环节,却具有高度复杂性。视觉语言模型(VLMs)的最新进展凸显了自动UI编程的潜力,但现有方法存在两大局限:多模态编程能力尚未成熟,单轮交互范式难以有效利用迭代式视觉反馈。针对这些挑战,我们提出了一种交互式UI转代码范式,该范式更贴近实际工作流程并提升了性能上限。基于此范式,我们推出了UI2Code^N模型——通过分阶段预训练、微调与强化学习训练的视觉语言模型,实现了多模态编程能力的根本性提升。该模型融合三大核心能力:UI转代码生成、UI编辑及UI优化。我们进一步探索了交互式生成中的测试时扩展技术,实现多轮反馈的系统化利用。在UI转代码和UI优化基准测试中,UI2Code^N在开源模型中达到最新最优水平,其性能媲美Claude-4-Sonnet、GPT-5等领先闭源模型。代码与模型已开源:https://github.com/zai-org/UI2Code_N。
视频生成领域正经历着从关注生成视觉吸引力片段,到构建支持交互且保持物理合理性的虚拟环境的范式转变。这一发展指向了视频基础模型的兴起——它们不仅是视觉生成器,更作为隐式世界模型,能够模拟现实或想象世界中支配物理动态、智能体-环境交互及任务规划的规律。本文系统梳理了这一演进历程,将现代视频基础模型概念化为两个核心组件的结合:隐式世界模型与视频渲染器。世界模型编码关于世界的结构化知识,包括物理定律、交互动态和智能体行为,其作为潜在模拟引擎可实现连贯的视觉推理、长期时间一致性及目标驱动规划;视频渲染器则将这种潜在模拟转化为逼真的视觉观测,使生成的视频成为窥探模拟世界的"窗口"。我们追溯了视频生成技术的四代演进,其核心能力逐步升级,最终形成以视频生成模型为基底的世界模型,具备内在物理合理性、实时多模态交互能力以及跨时空尺度的规划功能。针对每一代技术,我们界定了其核心特征,重点介绍了代表性工作,并剖析了其在机器人、自动驾驶、交互式游戏等领域的应用。最后,我们探讨了下一代世界模型面临的开放挑战与设计原则,包括智能体智能在塑造与评估这些系统中的作用。相关研究的最新列表持续更新于本文链接。
扩散变换器在视频生成领域展现出卓越的质量,但其二次方注意力复杂度导致难以承受的延迟问题。现有加速方法面临根本性权衡:动态估计每个去噪步骤的稀疏注意力模式会产生高计算开销和估计误差,而静态稀疏模式在整个去噪过程中保持固定且往往次优。我们发现了扩散注意力的关键结构特性——其稀疏模式在跨去噪步骤间具有强时序连贯性:在步骤t被判定为非关键的区块,通常在步骤t+δ仍保持非关键状态。基于这一发现,我们提出LiteAttention方法,利用时序连贯性实现跨去噪序列的演化式计算跳跃。通过早期标记非关键区块并向前传播跳跃决策,LiteAttention在无需重复性能分析开销的情况下消除冗余注意力计算,兼具动态方法的自适应性和静态方法的高效性。我们在FlashAttention基础上实现了高度优化的LiteAttention内核,并在生产级视频扩散模型上验证了显著的加速效果,且未造成质量损失。代码与实现细节将公开发布。
新型离子液体(ILs)的发现受限于物性预测领域的三大关键挑战:数据稀缺、模型精度不足及工作流程碎片化。我们借助大语言模型(LLM)的技术优势,开发了AIonopedia——据我们所知,这是首个用于离子液体发现的LLM智能体。该平台以LLM增强的多模态离子液体领域基础模型为核心,能够实现精准的物性预测,并采用分层搜索架构完成分子筛选与设计。基于新构建的综合性离子液体数据集进行训练与评估,我们的模型展现出卓越性能。对文献报道体系的补充测试表明,该智能体可有效执行离子液体修饰任务。超越离线实验的范畴,我们通过真实湿实验验证进一步确认了其实际效能:智能体在具有挑战性的分布外任务中展现出卓越的泛化能力,彰显其加速实际离子液体发现进程的潜力。
多模态大语言模型(MLLMs)在视觉语言任务中取得了显著进展,但在空间理解方面仍存在不足。现有的空间MLLMs往往依赖显式3D输入或特定架构修改,且受限于大规模数据集或稀疏监督。为突破这些局限,我们提出SpatialThinker——一种通过强化学习训练的3D感知MLLM,它将结构化空间定位与多步推理相结合。该模型通过构建任务相关对象和空间关系的场景图,并借助密集空间奖励进行推理,模拟类人空间感知能力。SpatialThinker包含两大核心贡献:(1)生成高质量空间视觉问答数据集STVQA-7K的数据合成流程;(2)采用多目标密集空间奖励的在线强化学习机制以强化空间定位。实验表明,7B参数的SpatialThinker在空间理解和真实场景VQA基准上均优于监督微调与稀疏强化学习基线,其性能增益较稀疏强化学习接近翻倍,并超越GPT-4o。这些结果验证了将空间监督与奖励对齐推理相结合的有效性,能够在有限数据下实现稳健的3D空间理解,推动MLLMs向人类水平的视觉推理迈进。
近期,大型语言模型(LLM)的发展得益于可验证奖励的强化学习(RLVR)与测试时缩放技术的推动。然而,LLM有限的输出长度制约了单次推理过程中的推理深度。多智能体推理系统通过引入求解器、验证器和校正器等多类智能体迭代优化解决方案,展现出巨大潜力。尽管该体系在Gemini 2.5 Pro等闭源模型中表现优异,但由于开源模型缺乏足够的批判与校正能力,其泛化性能仍受限。为此,我们提出MarsRL——一种采用智能体流水线并行的新型强化学习框架,可协同优化系统中的所有智能体。MarsRL通过设计智能体专属奖励机制降低奖励噪声,并采用流水线式训练提升长轨迹处理效率。在Qwen3-30B-A3B-Thinking-2507模型上的实验表明,MarsRL将AIME2025准确率从86.5%提升至93.3%,BeyondAIME准确率从64.9%提升至73.8%,甚至超越了Qwen3-235B-A22B-Thinking-2507的表现。这些发现证明MarsRL能有效推动多智能体推理系统发展,拓展其在多样化推理任务中的适用边界。
开放词汇检测器在COCO数据集上表现优异,但往往难以泛化到包含预训练中不常见的分布外类别的真实世界数据集。与直接对重型视觉语言模型进行新领域微调不同,我们提出了RF-DETR——一种轻量级专用检测变换器,通过权重共享神经架构搜索为任意目标数据集发现精度-延迟帕累托曲线。我们的方法在目标数据集上微调预训练基础网络,无需重新训练即可评估数千种具有不同精度-延迟权衡的网络配置。此外,我们重新审视了NAS的"可调节旋钮"以提升DETR模型向不同目标领域的可迁移性。值得注意的是,RF-DETR在COCO和Roboflow100-VL数据集上显著超越了现有最先进的实时检测方法。RF-DETR(纳米版)在COCO上达到48.0 AP,在相近延迟下比D-FINE(纳米版)高出5.3 AP;RF-DETR(2倍大版)在Roboflow100-VL上以20倍速运行同时比GroundingDINO(微型版)高出1.2 AP。据我们所知,RF-DETR(2倍大版)是首个在COCO上突破60 AP的实时检测器。代码已开源:https://github.com/roboflow/rf-detr
为给听障人士的日常交流提供统一灵活的解决方案,我们将全模态范式引入辅助技术领域,推出了指令驱动的视听个人助手HI-TransPA。该模型通过融合模糊语音与高帧率唇部动态,在统一的多模态框架内实现翻译与对话功能。针对原始数据存在噪声异质性、现有全模态模型对听障语音适应性不足的挑战,我们构建了完整的预处理与筛选流程:通过检测面部关键点、分离并稳定唇部区域、量化评估多模态样本质量,形成质量评分体系指导课程学习——先训练清洁高置信度样本,逐步引入困难样本以增强模型鲁棒性。我们进一步采用SigLIP编码器与统一3D重采样器相结合的方法,高效编码高帧率唇部运动。在自建HI-Dialogue数据集上的实验表明,HI-TransPA在字面准确度与语义保真度方面均达到最先进水平。本研究为全模态模型在辅助通信技术中的应用奠定了基础,为未来研究提供了端到端建模框架与核心处理工具。
为提升推荐系统的长期用户满意度,优化除准确性外的多样性、新颖性及个性化等目标至关重要。工业界从业者已积累了大量结构化领域知识(如物品分类体系、时序模式),我们将其定义为人因先验。这类知识通常通过排名或后排名阶段的后期调整来实现,但该方法始终与核心模型学习相割裂——这在行业向端到端生成式推荐基础模型转型的背景下尤显不足。另一方面,许多针对超准确性目标的方法常需针对特定架构进行修改,并以完全无监督的方式学习用户意图,从而舍弃了这些宝贵的人因先验。 为有效利用经年积累的人因先验,我们提出了一种与主干模型无关的框架,将其无缝集成到生成式推荐器的端到端训练中。借鉴高效大语言模型解码策略,我们设计了轻量级的先验条件适配头,引导模型沿人类可理解的维度(如交互类型、长短期兴趣)解构用户意图。同时引入分层组合策略,以建模不同先验类型间的复杂交互。在三个大规模数据集上的实验表明,我们的方法显著提升了准确性及超准确性目标。研究还揭示,人因先验能使主干模型更有效地利用长上下文窗口与大模型规模。 (注:译文采用学术论文常见的被动语态与名词化表达,通过"将其定义为人因先验"等句式实现术语准确对应;使用"尤显不足""经年积累"等四字格提升文本凝练度;通过分号与破折号构建复杂逻辑关系,符合中文科技论文表达规范。)
尽管语篇级翻译对知识传播和跨语言学术交流至关重要,但专业领域的语篇级翻译评估仍存在不足。这类翻译既要求语篇层面的连贯性,又需要严格的术语准确性,而现有评估方法主要聚焦于片段级的准确度和流畅性。为弥补这一缺陷,我们推出了DiscoX——一个面向专业领域的中英语篇级翻译新基准。该数据集涵盖7个专业领域的200篇经专家审校文本,平均长度超过1700个词符。针对DiscoX的评估需求,我们同时开发了无参考评估系统Metric-S,可从准确性、流畅度与得体性三个维度进行细粒度自动评测。Metric-S与人工评判高度一致,显著优于现有评估指标。实验结果显示存在显著性能差距:即使最先进的大语言模型在这些任务上仍落后于人类专家。这一发现印证了DiscoX的难度,也凸显了实现专业级机器翻译面临的挑战。本研究提出的基准与评估体系为更严格的翻译质量评估提供了可靠框架,将推动基于大语言模型的翻译技术发展。
如何让具备自主行为能力的人工智能系统在训练后通过交互自适应调整问题解决策略,仍是一个根本性挑战。现有支持推理时更新记忆的系统仅能通过修改语言模型或智能体的文本输入来引导系统,这意味着它们无法调整采样参数、移除工具、修改系统提示或在自主行为与工作流模式间切换。而具备更强适应性的系统则需要离线优化,部署后即保持静态。我们提出的经验引导推理器(EGuR)能在推理时基于累积经验动态生成定制化策略——包含大模型调用、工具使用、采样参数与控制逻辑的完整计算流程。这一突破通过基于大模型的元策略(即输出策略的策略)实现,支持对所有策略组件(提示词、采样参数、工具配置与控制逻辑)的适配。EGuR包含两个核心模块:引导器根据当前问题与结构化经验记忆生成多个候选策略,整合器则通过执行反馈优化后续策略生成。该系统能产出针对每个问题优化的完整可执行策略,支持缓存、检索与按需执行,避免资源浪费。在五项挑战性基准测试(AIME 2025、3-SAT及三项Big Bench Extra Hard任务)中,EGuR相较最强基线模型准确率最高提升14%,计算成本降低高达111倍,且两项指标均随系统经验积累持续优化。
情感在视频表达中具有核心地位,但现有视频生成系统主要关注低层次视觉指标而忽视情感维度。尽管情感分析在视觉领域已取得进展,视频界仍缺乏专门资源来连接情感理解与生成任务,尤其在风格化非现实场景中。为此,我们推出EmoVid——首个专为创意媒体设计的多模态情感标注视频数据集,包含卡通动画、电影片段和动态贴纸。每个视频均标注情感标签、视觉属性(明度、色彩饱和度、色调)及文字描述。通过系统分析,我们揭示了不同视频形式中视觉特征与情感感知的时空关联模式。基于这些发现,我们通过微调Wan2.1模型开发了情感条件视频生成技术。实验表明,该方法在文本到视频和图像到视频任务中,生成视频的量化指标与视觉质量均有显著提升。EmoVid为情感化视频计算设立了新基准。本研究不仅为艺术风格视频的视觉情感分析提供了宝贵见解,更为增强视频生成中的情感表达提供了实用方法。
工具增强型语言模型(TaLMs)能够调用外部工具以解决超出其参数化能力的问题。然而,这些工具带来的性能提升是否反映可信推理仍不明确。本文聚焦代码解释器工具,发现即使工具被正确选择和执行,TaLMs仍会将工具输出视为推理的替代品,生成看似正确但缺乏连贯论证的解决方案。我们将这种失效模式称为"工具诱发短视",并基于PYMATH基准(包含1,679个竞赛级数学问题,其中Python代码有助但非充分条件)展开研究。我们进一步开发了多维度评估体系,量化TaLMs相较于无工具对照模型的推理退化现象。研究显示:虽然TaLMs在最终答案准确率上最高提升19.3个百分点,但其推理行为持续恶化(例如在推理过程双盲比较中,无工具LLMs胜出率最高提升41.5%)。这种退化随工具使用频次增加而加剧:模型调用工具越频繁,其推理连贯性越差。此外,工具使用使错误类型从算术失误转向全局推理失败(逻辑、假设、创新性错误),约55%的高风险案例存在工具诱发短视现象。最后,我们提出基于偏好优化的对齐框架,引导TaLMs将工具作为辅助证据使用,在提升最终答案准确率的同时增强工具使用下的推理深度。代码与数据详见:https://github.com/megagonlabs/TIM。
科学思想生成是科学发现的核心驱动力,它通过解决未解难题或提出新假说解释未知现象,不断推动人类进步。与标准科学推理或普通创造性生成不同,科学思想生成具有多目标性和开放性,其创新性与实证严谨性同等重要。尽管大语言模型近期展现出作为科学思想生成器的潜力——能够产出具有惊人直觉和可接受推理的连贯事实性内容,但其创造能力仍存在不稳定性且认知有限。本文对LLM驱动的科学思想生成方法进行结构化梳理,审视不同方法如何平衡创造力与科学严谨性。我们将现有方法归纳为五个互补类别:外部知识增强、基于提示的分布导向、推理时缩放、多智能体协作以及参数级适应。为解析其贡献,我们采用两个互补框架:运用博登对组合型、探索型与变革型创造力的分类法来界定各类方法预期生成的思想层级,借助罗兹的4P框架(创造者、创造过程、创造环境、创造产物)定位各方法强调的创造力维度。通过将方法论进展与创造力理论框架对齐,本文厘清了该领域现状,并勾勒出实现LLM在科学发现中可靠化、系统化与变革性应用的关键路径。
我们针对miniF2F基准测试中的形式化与非形式化命题,从参与数学奥林匹克竞赛的AI系统视角展开深入分析。在该场景下,模型需阅读理解自然语言描述的题目,用Lean语言进行形式化表述,继而完成证明任务——当形式化证明与原始非形式化命题相符时,模型即可获得相应分数。评估结果表明:采用文献中现有最优模型时,该流程的最高准确率约为36%,远低于自动形式化与定理证明文献中分别报告的97%和69%的单项最优准确率。通过分析错误模式,我们发现超过半数题目的形式化与非形式化命题之间存在差异,这是导致准确率显著下降的主要原因。为此,我们修正了形式化与非形式化命题中的所有错误、差异及简化问题,推出包含完全验证的形式化/非形式化命题及证明的miniF2F-v2。在新版本上评估完整定理证明流程后,最佳准确率提升至70%,较原版miniF2F的40%实现显著进步,但仍反映出自动形式化模型与定理证明器之间存在明显偏差。深度分析表明,更高质量的基准测试有助于学界更精准评估形式推理领域的进展,并能更好诊断自动形式化与定理证明模型的成败模式。数据集详见https://github.com/roozbeh-yz/miniF2F_v2。
本文提出了一种现代工作负载调度器的创新分类方法。我们详细描述了三类调度器:操作系统进程调度器、集群系统作业调度器与大数据调度器。通过考察算法应用与特性演进,系统阐述其从早期实践到现代实现的发展历程。在对比分析各类调度器差异性的基础上,我们梳理了其时间演进脉络。最终指出,无论是本地系统还是分布式系统,其调度策略设计焦点存在显著共性特征。
网络上自主AI代理的日益部署正面临一个根本性错位障碍:代理必须从面向人类的用户界面推断功能可见性,导致交互变得脆弱、低效且不安全。为此,我们推出VOIX——一种原生网络框架,通过简单的声明式HTML元素,使网站能够为AI代理提供可靠、可审计且保护隐私的能力。VOIX引入<tool>和<context>标签,允许开发者明确定义可用操作与相关状态,从而建立清晰的机器可读行为契约。该方法将控制权转移至网站开发者,同时通过将会话交互与网站分离来保护用户隐私。我们通过为期三天的黑客马拉松研究(16名开发者参与)评估了该框架的实用性、易学性和表达力。结果表明,无论参与者先前经验如何,都能快速构建多样化且功能完善的代理驱动型网络应用。这项研究最终为实现"代理化网络"提供了基础机制,为未来网络中人机无缝安全协作开辟了道路。
本文提出一种云系统服务分配策略,该策略可在避免节点过载的同时维持系统稳定,并实现成本最小化。我们构建了包含多类资源的云资源利用抽象模型,同时考虑了服务迁移成本因素。研究展示了一个原型元启发式负载均衡器,呈现并讨论了相关实验结果。此外,本文创新性地提出一种遗传算法,该算法通过其他元启发式算法的输出结果进行种群初始化。
车对车(V2V)协同感知技术通过克服复杂不利交通场景下的感知局限,在提升自动驾驶性能方面具有巨大潜力。数据作为现代自动驾驶人工智能的基础设施,却因严苛的采集条件导致现有数据集主要聚焦常规交通场景,制约了协同感知的效益。为应对这一挑战,我们推出业界首个面向复杂不利交通场景的实景V2V协同感知数据集CATS-V2V。该数据集由两辆硬件时间同步的车辆采集,覆盖10个不同地点的10类天气与光照条件,包含100段视频片段、6万帧10Hz激光雷达点云、126万张多视角30Hz相机图像,以及75万条匿名化高精度RTK固定解GNSS/IMU记录。我们同步提供了时序一致的物体3D边界框标注与静态场景数据,以构建4D鸟瞰图表征。基于此,我们提出基于目标的时序对齐方法,确保所有物体在多传感器模态间实现精准匹配。CATS-V2V作为迄今同类型数据集中规模最大、支持最全面、质量最高的资源,有望为自动驾驶领域的相关研究提供重要支撑。