每日精选AI研究论文及翻译
幻觉检测仍是确保大型语言模型(LLMs)安全可靠部署的核心挑战,特别是在要求事实准确性的应用场景中。现有的幻觉基准测试大多局限于序列层面且仅针对英语,缺乏进行全方位评估所需的细粒度、多语言监督。本研究中,我们推出了PsiloQA,这是一个大规模、多语言的数据集,标注了跨越14种语言的片段级幻觉。PsiloQA通过一个自动化的三阶段流程构建:首先利用GPT-4o从维基百科生成问答对,接着在无上下文环境中诱导多种LLMs产生可能包含幻觉的答案,最后通过GPT-4o对比标准答案及检索到的上下文,自动标注出幻觉片段。我们评估了多种幻觉检测方法——包括不确定性量化、基于LLM的标记以及微调编码器模型——结果显示,基于编码器的模型在跨语言环境下表现最为优异。此外,PsiloQA展现了有效的跨语言泛化能力,并支持向其他基准测试的稳健知识迁移,同时其成本效益远高于人工标注的数据集。我们的数据集及研究成果推动了多语言环境下可扩展、细粒度幻觉检测技术的发展。
近期,自主强化学习(Agentic RL)在激励网络代理的多轮次、长周期工具使用能力方面取得了显著进展。尽管主流自主强化学习算法在熵的引导下自主探索高不确定性的工具调用步骤,但过度依赖熵信号可能会带来额外限制,导致训练崩溃。本文深入探讨了由熵引起的挑战,并提出了自主熵平衡策略优化(AEPO),这是一种旨在在策略执行和更新阶段平衡熵的自主强化学习算法。AEPO包含两个核心组件:(1)动态熵平衡执行机制,通过熵预监测自适应分配全局和分支采样预算,同时对连续高熵工具调用步骤施加分支惩罚,以防止过度分支问题;(2)熵平衡策略优化,在高熵裁剪项中插入停止梯度操作,以保留并适当重新缩放高熵标记上的梯度,同时结合熵感知优势估计,优先学习高不确定性标记。在14个具有挑战性的数据集上的结果表明,AEPO始终优于7种主流强化学习算法。仅使用1K强化学习样本,搭载AEPO的Qwen3-14B在GAIA上达到了47.6%,在Humanity's Last Exam上达到了11.2%,在WebWalker上达到了43.0%的Pass@1成绩;在GAIA上达到了65.0%,在Humanity's Last Exam上达到了26.0%,在WebWalker上达到了70.0%的Pass@5成绩。进一步分析表明,AEPO在保持策略熵稳定的同时提高了执行采样的多样性,促进了可扩展的网络代理训练。
身份一致性生成已成为文本到图像研究的重要方向,近期模型在生成与参考身份对齐的图像方面取得了显著成功。然而,由于缺乏包含同一人物多张图像的大规模配对数据集,大多数方法不得不采用基于重建的训练方式。这种依赖往往导致我们称之为“复制粘贴”的失败模式,即模型直接复制参考面部,而非在姿态、表情或光照的自然变化中保持身份一致性。这种过度相似性削弱了可控性,限制了生成的表达能力。为解决这些局限,我们(1)构建了专为多人物场景设计的大规模配对数据集MultiID-2M,为每个身份提供多样化的参考;(2)引入了一个基准,量化复制粘贴伪影以及身份保真度与变化之间的权衡;(3)提出了一种新颖的训练范式,采用对比身份损失,利用配对数据在保真度与多样性之间取得平衡。这些成果最终汇聚于WithAnyone,一个基于扩散的模型,有效缓解了复制粘贴问题,同时保持了高身份相似性。广泛的定性和定量实验表明,WithAnyone显著减少了复制粘贴伪影,提升了对姿态和表情的可控性,并保持了强大的感知质量。用户研究进一步验证了我们的方法在实现高身份保真度的同时,支持富有表现力的可控生成。
在人工智能从被动工具向主动适应型伙伴演进的时代,我们提出了“服务导向型人工智能”(AI4Service)这一新范式,旨在日常生活中提供主动且实时的协助。现有的AI服务大多仍停留在被动响应阶段,仅对用户的明确指令作出反应。我们认为,真正智能且贴心的助手应具备预见用户需求并在适当时机主动采取行动的能力。为实现这一愿景,我们提出了Alpha-Service框架,该框架致力于解决两大核心挑战:通过从第一人称视角视频流中检测服务时机来“知晓何时介入”,以及提供通用与个性化服务来“知晓如何行动”。受冯·诺依曼计算机架构启发,并基于智能眼镜技术,Alpha-Service由五大关键组件构成:感知输入单元、任务调度中央处理单元、工具利用算术逻辑单元、长期个性化记忆单元及自然人际交互输出单元。作为初步探索,我们通过部署于智能眼镜上的多智能体系统实现了Alpha-Service。案例研究,如实时二十一点顾问、博物馆导览助手及购物搭配助手,展示了其无缝感知环境、推断用户意图并在无需明确提示下提供及时有效协助的能力。
原生视觉-语言模型(VLMs)的架构已崭露头角,成为传统模块化VLMs的有力竞争者,这一发展得益于不断演进的模型架构与训练范式。然而,两大悬而未决的问题为其广泛探索与推广蒙上了阴影:首先,原生VLMs与模块化VLMs之间存在着哪些根本性限制,这些障碍又能在多大程度上被克服?其次,如何使原生VLMs的研究更加易于接触与普及,从而加速该领域的进步。本文中,我们明确了这些挑战,并勾勒出构建原生VLMs的指导原则。具体而言,一个原生VLM的基础应具备以下特征:(i) 在共享语义空间内有效对齐像素与词汇表示;(ii) 无缝整合先前独立的视觉与语言模块的优势;(iii) 内在地体现多种跨模态特性,支持统一的视觉-语言编码、对齐与推理。基于此,我们推出了NEO,一个从第一性原理出发构建的全新原生VLM家族,能够在多样化的现实场景中与顶尖模块化模型一较高下。仅需390M的图文样本,NEO便能在我们精心设计的基础之上,从零开始高效发展视觉感知,同时在一个密集且一体化的模型内部缓解视觉与语言间的冲突。我们将NEO定位为可扩展且强大的原生VLMs的基石,并配套一系列可复用组件,共同构建一个成本效益高且可扩展的生态系统。我们的代码与模型已公开于:https://github.com/EvolvingLMMs-Lab/NEO。
在本报告中,我们提出了PaddleOCR-VL,这是一款专为文档解析设计的资源高效且达到业界领先水平(SOTA)的模型。其核心组件是PaddleOCR-VL-0.9B,一个紧凑而强大的视觉-语言模型(VLM),它融合了NaViT风格的动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型,以实现精准的元素识别。这一创新模型高效支持109种语言,在识别复杂元素(如文本、表格、公式和图表)方面表现卓越,同时保持极低的资源消耗。通过在广泛使用的公共基准测试及内部基准测试上的全面评估,PaddleOCR-VL在页面级文档解析和元素级识别上均实现了SOTA性能。它不仅显著超越现有解决方案,与顶尖VLM相比也展现出强劲竞争力,并提供快速的推理速度。这些优势使其非常适合在实际场景中进行部署应用。
视频生成模型已取得显著进展,尤其在现实场景中表现卓越;然而,在富有想象力的场景下,其性能却显著下降。这类提示通常涉及罕见共现的概念,且具有远距离语义关系,超出了训练分布的范围。现有方法普遍采用测试时缩放技术以提升视频质量,但其固定的搜索空间和静态奖励设计限制了在想象力场景中的适应性。为填补这一空白,我们提出了ImagerySearch,一种基于提示的自适应测试时搜索策略,它能根据提示中的语义关系动态调整推理搜索空间和奖励函数。这使得在具有挑战性的想象力场景下,能够生成更加连贯且视觉上可信的视频。为评估这一方向的进展,我们引入了LDT-Bench,首个专为远距离语义提示设计的基准,包含2,839对多样化概念组合,并配备自动化协议以评估创意生成能力。大量实验表明,ImagerySearch在LDT-Bench上持续超越强大的视频生成基线及现有测试时缩放方法,并在VBench上实现了具有竞争力的改进,证明了其在不同类型提示上的有效性。我们将发布LDT-Bench及代码,以促进未来关于想象力视频生成的研究。
本文提出了一种轻量级框架——BitNet蒸馏(BitDistill),该框架能够将现成的全精度大语言模型(如Qwen)针对特定下游任务微调至1.58位精度(即三元权重{-1, 0, 1}),在显著降低计算成本的同时,实现强劲的任务特定性能。具体而言,BitDistill融合了三大关键技术:源自BitNet的SubLN模块、基于MiniLM的多头注意力蒸馏,以及作为关键预热步骤的持续预训练,旨在缓解全精度与1.58位大语言模型在特定任务上微调后性能差距的可扩展性问题。实验结果表明,BitDistill在不同模型规模下均能取得与全精度模型相媲美的性能,同时实现高达10倍的内存节省及在CPU上2.65倍的推理加速。相关代码已发布于https://github.com/microsoft/BitNet。
可验证奖励的强化学习(RLVR)最近已成为提升大型语言模型(LLMs)推理能力的核心范式。针对测试时缺乏验证信号的问题,先前的研究将模型自我验证能力的训练融入标准RLVR流程中,从而在单一LLM内统一了推理与验证能力。然而,以往的做法要求LLM使用两个独立的提示模板依次生成解决方案和自我验证,这大大降低了效率。在本研究中,我们从理论上揭示了自我验证RL目标的闭式解可简化为一个极其简洁的形式:解决方案的真实推理奖励等于其最后一个令牌的自我奖励分数,该分数通过策略模型在解决方案最后一个令牌处对任一预设令牌的下一令牌对数概率与一个预先计算的常数之差,再乘以KL系数来计算。基于这一洞见,我们提出了LaSeR(基于最后一个令牌自我奖励的强化学习),该算法仅通过在原始RLVR损失上增加一个均方误差损失,使最后一个令牌的自我奖励分数与基于验证器的推理奖励对齐,从而联合优化LLMs的推理和自我奖励能力。优化后的自我奖励分数可在训练和测试中用于提升模型性能。值得注意的是,我们的算法直接从生成后立即预测的最后一个令牌的下一令牌概率分布中得出这些分数,仅需额外进行一次令牌推理的最小成本。实验表明,我们的方法不仅提升了模型的推理性能,还赋予其显著的自我奖励能力,从而增强了其在推理时的扩展性能。
本研究探讨了如何自适应地重新计算扩散大语言模型(DLMs)中的键值(KV)缓存,以在最小化解码延迟的同时最大化预测准确性。现有方法的解码器在每一步去噪和每一层中都会为所有令牌重新计算QKV,尽管KV状态在大多数步骤中变化甚微,尤其是在浅层,这导致了大量冗余。我们提出了三点观察:(1)远距离的{bf MASK}令牌主要起到长度偏差的作用,可以在活动预测窗口之外进行块级缓存;(2)KV动态性随深度增加,表明从深层开始选择性刷新已足够;(3)最受关注的令牌表现出最小的KV漂移,为其他令牌的缓存变化提供了一个保守的下限。基于这些观察,我们提出了{bf Elastic-Cache},一种无需训练、与架构无关的策略,它联合决定{何时}刷新(通过对最受关注令牌的注意力感知漂移测试)和{何处}刷新(通过深度感知调度,从选定层开始重新计算,同时重用浅层缓存和窗口外的MASK缓存)。与固定周期方案不同,Elastic-Cache为扩散大语言模型执行自适应的、层级感知的缓存更新,减少了冗余计算并加速了解码,且生成质量损失可忽略不计。在LLaDA-Instruct、LLaDA-1.5和LLaDA-V上的数学推理和代码生成任务实验中,Elastic-Cache展示了持续的加速效果:在GSM8K(256令牌)上达到8.7倍,在更长序列上达到45.1倍,在HumanEval上达到4.8倍,同时始终保持着比基线更高的准确性。我们的方法在保持生成质量的同时,实现了比现有基于置信度的方法显著更高的吞吐量(在GSM8K上为6.8倍),使得扩散大语言模型的实际部署成为可能。
基于大语言模型(LLM)的智能体正越来越多地通过强化学习(RL)进行训练,以增强其利用工具与外部环境交互的能力,特别是在需要多轮推理和知识获取的搜索场景中。然而,现有方法通常依赖于仅在最终答案处提供的基于结果的奖励。这种奖励稀疏性在多轮交互中尤为突出,长轨迹加剧了两个关键问题:(i)优势崩溃,即所有探索路径获得相同奖励,无法提供有效的学习信号;(ii)缺乏细粒度信用分配,即轮次间的依赖关系被掩盖,尤其是在长时程任务中。本文提出了一种基于信息增益的策略优化(IGPO),这是一种简单而有效的RL框架,为多轮智能体训练提供了密集且内在的监督。IGPO将每次交互轮次建模为逐步获取关于真实情况信息的过程,并将轮次级奖励定义为策略生成正确答案概率的边际增长。与依赖外部奖励模型或昂贵蒙特卡洛估计的先前过程级奖励方法不同,IGPO直接从模型自身的信念更新中推导出内在奖励。这些内在的轮次级奖励与结果级监督相结合,形成密集的奖励轨迹。在领域内和领域外基准上的大量实验表明,IGPO在多轮场景中始终优于强基线,实现了更高的准确性和改进的样本效率。
面向代码的大型语言模型(LLMs)依赖于子词分词器,如从自然语言文本与编程语言代码混合数据中学习得到的字节对编码(BPE),其驱动因素为统计而非语法。因此,语义相同的代码片段可能因空格或标识符命名等表面因素而被不同地分词。为衡量这种不对齐的影响,我们引入了TokDrift框架,该框架应用语义保持的重写规则生成仅在分词上存在差异的代码变体。在包括参数超过300亿的大型模型在内的九种代码LLMs中,即便是细微的格式变化也能引发模型行为的显著偏移。层次分析表明,问题源于早期的嵌入层,其中子词分割未能捕捉到语法标记的边界。我们的研究揭示,分词不对齐是阻碍代码可靠理解与生成的一个隐性障碍,强调了未来代码LLMs需采用语法感知的分词方法。
尽管大型语言模型(LLMs)在文本推理方面表现出色,但在几何等本质上依赖视觉辅助的数学领域却面临挑战。现有的视觉思维链(VCoT)方法常受限于僵化的外部工具,或无法生成复杂问题解决所需的高保真、策略性时机的图表。为弥合这一差距,我们推出了MathCanvas,一个旨在赋予统一大型多模态模型(LMMs)内在数学VCoT能力的综合框架。我们的方法分为两个阶段。首先,在视觉操作阶段,模型通过一个包含10M图文对(MathCanvas-Imagen)和5.2M逐步编辑轨迹(MathCanvas-Edit)的新颖15.2M对语料库进行预训练,以掌握图表生成与编辑。其次,在策略性视觉辅助推理阶段,模型在MathCanvas-Instruct这一包含219K例交错视觉文本推理路径的新数据集上微调,学习何时及如何利用视觉辅助。为促进严格评估,我们引入了MathCanvas-Bench,一个包含3K需模型生成交错视觉文本解决方案的难题的挑战性基准。在此框架下训练的模型BAGEL-Canvas,在MathCanvas-Bench上相比强LMM基线实现了86%的相对提升,展现了在其他公开数学基准上的优异泛化能力。我们的工作提供了一套完整的工具包——框架、数据集及基准——以解锁LMMs中复杂、类人的视觉辅助推理。项目页面:https://mathcanvas.github.io/
我们提出并验证了“大语言模型脑退化假说”:持续接触低质量网络文本会导致大语言模型(LLMs)出现持久的认知能力下降。为了因果性地隔离数据质量的影响,我们在真实的Twitter/X语料库上进行了对照实验,通过两种正交的操作化方法——M1(参与度)和M2(语义质量)——构建了低质量数据集和反向控制数据集,确保各条件下token规模与训练操作相匹配。与对照组相比,四个LLM在低质量数据集上的持续预训练引发了推理、长上下文理解、安全性方面的显著下降(Hedges' g>0.3),并加剧了“黑暗特质”(如心理变态、自恋)的表现。低质量与控制数据集的逐步混合也呈现出剂量-反应式的认知衰退:例如,在M1条件下,随着低质量比例从0%升至100%,ARC-Challenge结合思维链的得分从74.9降至57.2,RULER-CWE从84.4降至52.3。 错误分析揭示了几个关键发现。首先,我们识别出思维跳跃为主要损伤点:模型越来越多地截断或跳过推理链,这解释了大部分错误增长。其次,观察到部分但不完全的恢复:扩大指令微调和干净数据预训练虽能改善下降的认知能力,却无法恢复至基线水平,表明存在持续的表示漂移而非格式不匹配。最后,我们发现,在M1中,推文的流行度这一非语义指标比推文长度更能预示脑退化效应。综合来看,这些结果为数据质量是LLM能力衰退的因果驱动因素提供了多视角的强有力证据,将持续预训练中的数据筛选重新定位为训练阶段的安全问题,并激励对已部署LLM进行常规的“认知健康检查”。
近期,多模态奖励模型(RMs)的进展显著提升了视觉生成模型的训练后效果。然而,现有RMs存在固有局限:(1)视觉输入消耗大量上下文预算,迫使减少帧数,导致细粒度细节丢失;(2)所有视觉信息被压缩至初始提示中,加剧了链式推理过程中的幻觉与遗忘问题。为克服这些挑战,我们引入了VideoReward Thinker(VR-Thinker),一种“图像思维”框架,该框架为RM配备了视觉推理操作(如选择帧)及可配置的视觉记忆窗口。这使得RM能在上下文限制内主动获取并更新视觉证据,从而提高推理的准确性与可靠性。我们通过强化微调管道激活视觉推理:(i)利用精选的视觉链式思维数据进行冷启动,以提炼基本推理技能与操作格式;(ii)筛选出各维度及整体判断均正确的样本,随后对这些高质量轨迹进行拒绝采样微调,以进一步增强推理能力;(iii)应用群体相对策略优化(GRPO)来强化推理。我们的方法在开源模型中实现了视频偏好基准测试的最先进准确率,尤其针对较长视频:7B参数的VR-Thinker在VideoGen Reward上达到80.5%,在GenAI-Bench上为82.3%,在MJ-Bench-Video上为75.6%。这些结果验证了“图像思维”多模态奖励建模的有效性与前景。
近期研究表明,大型语言模型(LLMs)在其内部表征中编码了事实性信号,如隐藏状态、注意力权重或词元概率,暗示LLMs可能“知道它们不知道什么”。然而,LLMs也可能因依赖捷径或虚假关联而产生事实错误。这些错误由鼓励正确预测的同一训练目标驱动,引发了一个疑问:内部计算能否可靠地区分事实输出与幻觉输出。在本研究中,我们通过比较基于主体信息依赖性的两类幻觉,对LLMs处理事实查询的内部机制进行了深入分析。我们发现,当幻觉与主体知识相关联时,LLMs采用与正确响应相同的内部回忆过程,导致隐藏状态几何重叠且难以区分。相反,脱离主体知识的幻觉则产生独特、聚集的表征,使其可被检测。这些发现揭示了一个根本性局限:LLMs并未在其内部状态中编码真实性,而仅编码知识回忆的模式,证明“LLMs实际上并不知道它们不知道什么”。
现代信息检索系统日益面临处理复杂、多层面查询的挑战,这些查询需要深度推理而非简单的关键词或语义匹配。尽管基于大语言模型(LLM)的信息检索展现出巨大潜力,但主流的“检索-再排序”范式继承了基于嵌入检索的局限性;参数化生成方法难以更新新信息;而将整个语料库置于上下文中的长上下文方法对于大规模文档集合在计算上不可行。为应对这些挑战,我们提出了LATTICE,一种层次化检索框架,通过在语料库上构建语义树结构,使LLM能够以对数搜索复杂度对大规模语料库进行推理和导航。我们的方法包含两个阶段:(1)离线阶段,通过自底向上聚合策略或自顶向下分割策略,利用多级摘要将语料库组织成语义层次结构;(2)在线遍历阶段,搜索LLM在此树结构中进行导航。此类LLM引导搜索的一个核心挑战在于模型的相关性判断存在噪声、依赖上下文且对层次结构无感知,导致跨分支和跨层级比较困难。为此,我们提出了一种遍历算法,该算法从局部LLM输出中估计校准的潜在相关性分数,并将其聚合为全局路径相关性度量。我们的无需训练框架在推理密集型的BRIGHT基准测试中实现了最先进的零样本性能,在Recall@100上比次优零样本基线提升了9%,在nDCG@10上提升了5%。此外,与经过微调的SOTA方法DIVER-v2相比,LATTICE在使用静态语料库进行评估的BRIGHT子集上取得了相当的结果。
当前,基于大规模机器人数据预训练的视觉-语言-动作(VLA)模型展现出强大的多任务能力,并能很好地适应视觉和语言指令的变化以执行操作任务。然而,当面对训练数据之外的对象概念时,如未见过的物体描述和纹理,其成功率显著下降。为解决这一问题,我们提出了一种新颖的代理框架VLA^2,该框架以OpenVLA作为执行核心,并有效利用外部模块如网络检索和物体检测,为VLA提供目标对象的视觉和文本知识。这一方法在处理分布外对象时缓解了泛化失败的问题。基于LIBERO仿真环境,我们引入了新的物体和物体描述,构建了一个包含三个难度级别的新评估基准,以测试我们方法的有效性。我们的框架在设计的高难度泛化基准上成功超越了当前最先进的模型。与独立的OpenVLA基线相比,VLA^2在高难度基准上的成功率提高了44.2%,在所有定制环境中的平均提升达到20.2%,且在处理域内任务时未出现性能下降。项目网站:https://vla-2.github.io。
随着大型语言模型(LLMs)能力的提升和广泛应用,确保其输出安全性变得愈发关键。现有的防护模型虽然在静态评估场景中颇具价值,但在实际应用中面临两大局限:(1)它们通常仅输出二元的“安全/不安全”标签,这些标签在不同安全政策下可能被不一致地解读,导致无法适应各领域间差异化的安全容忍度;(2)它们需在模型完整输出后方能执行安全检查,这使其本质上与流式LLM推理不兼容,从而阻碍了生成过程中的及时干预,并增加了有害部分输出的暴露风险。为应对这些挑战,我们推出了Qwen3Guard系列多语言安全防护模型,包含两种专门变体:生成式Qwen3Guard,它将安全分类转化为指令跟随任务,以实现细粒度的三分类判断(安全、争议、不安全);以及流式Qwen3Guard,它引入了令牌级分类头,用于增量文本生成过程中的实时安全监控。两种变体均提供三种规模(0.6B、4B和8B参数),并支持多达119种语言和方言,为全球LLM部署提供全面、可扩展且低延迟的安全审核。在英语、中文及多语言基准测试中,Qwen3Guard在提示和响应安全分类上均达到了业界领先水平。所有模型均以Apache 2.0许可证发布,供公众使用。
大型语言模型在创意写作方面表现出系统性缺陷,尤其是在非英语语境下,训练数据稀缺且缺乏过程层面的监督。我们提出了COIG-Writer,一个新颖的中文创意写作数据集,通过系统逆向工程高质量文本,捕捉了多样化的输出及其背后的思维过程。与仅提供输入输出对的现有数据集不同,COIG-Writer包含1,665个精心策划的三元组,涵盖51种体裁,每个三元组包含:(1)逆向工程生成的提示,(2)详细记录决策过程的创意推理,以及(3)最终文本。通过全面实验,我们识别出创意写作的两大组成部分:叙事逻辑(由过程监督提供)和语言表达(由通用数据维持)。我们的研究揭示了三个关键发现:(1)过程监督极为有效,但需与通用数据结合以稳定效果。至少每十二个通用样本对应一个创意样本的比例,才能达到最佳性能;低于此阈值,胜率逐渐下降(从62.75%降至35.78%)。(2)创意能力具有文化依赖性,不存在跨语言迁移(中文与英文表现间存在89.26个百分点的差距)。(3)词汇多样性与创意质量呈负相关(TTR悖论),表明高多样性是逻辑缺陷的补偿行为信号。这些发现证实,创意卓越源于逻辑框架与语言基础的相互作用,类似于数学推理在基础模型中增强但无法替代语言能力的情形。
在本研究中,我们推出了mxbai-edge-colbert-v0模型,包含两种不同参数规模:1700万和3200万。作为研究的一部分,我们进行了大量实验以优化检索与后期交互模型,旨在将这些成果提炼为小型模型作为概念验证。我们的终极目标是支持全尺度的检索应用,从云端的大规模检索到能在任何设备上本地运行的模型。mxbai-edge-colbert-v0模型,我们期望其成为未来所有实验的坚实基础,标志着一系列小型概念验证模型的首个版本。在mxbai-edge-colbert-v0的开发过程中,我们执行了多项消融研究,并在此报告其结果。就下游性能而言,mxbai-edge-colbert-v0是一款表现尤为出色的小型模型,在常见的短文本基准测试(BEIR)上超越了ColBERTv2,并在长上下文任务中实现了效率上的重大突破,达到了前所未有的水平。
深度研究——通过搜索并综合来自数百个实时网络来源的信息,生成基于引用的全面报告——标志着智能代理系统的一个重要前沿。为了严格评估这一能力,四项原则至关重要:任务应(1)以用户为中心,反映现实的信息需求;(2)动态化,要求获取超越参数化知识的最新信息;(3)明确无误,确保不同用户间的一致理解;(4)多维度且搜索密集,需对众多网络来源进行搜索并深入分析。现有基准测试未能充分体现这些原则,往往局限于狭窄领域或提出模糊问题,阻碍了公平比较。基于这些原则,我们引入了LiveResearchBench,一个包含100项专家策划任务的基准测试,涵盖日常生活、企业及学术领域,每项任务均需进行广泛、动态、实时的网络搜索与综合。经过超过1,500小时的人工投入,LiveResearchBench为系统评估提供了严谨的基础。为了评估基于引用的长篇报告,我们推出了DeepEval,一个全面覆盖内容与报告质量的评估套件,包括覆盖范围、呈现方式、引用准确性及关联性、分析的一致性与深度。DeepEval整合了四种互补的评估协议,每种设计都旨在确保评估的稳定性并与人类判断高度一致。利用LiveResearchBench和DeepEval,我们对17个前沿深度研究系统进行了全面评估,包括单代理网络搜索、单代理深度研究及多代理系统。我们的分析揭示了当前的优势、常见的失败模式以及推进可靠、洞察力强的深度研究所需的关键系统组件。
当前偏好学习方法在标准基准测试中虽能达到较高准确率,但在移除客观质量信号时,其性能却显著下降。我们推出了WritingPreferenceBench数据集,包含1,800对人工标注的偏好对比(1,200对英文,600对中文),覆盖8种创意写作体裁,确保回答在客观正确性、事实准确性及长度上相匹配。在此基准上,基于序列的奖励模型——RLHF的标准架构——仅取得52.7%的平均准确率,而零样本语言模型评判者则达到53.9%。相比之下,能生成明确推理链的生成式奖励模型准确率高达81.8%。我们观察到,不同体裁间模型内部存在高度差异:单个模型在不同写作类别中的准确率从18.2%到81.8%不等,标准差平均为10.1%。这种差异不随模型规模变化而消失,27B参数模型相较于8B版本并未展现出持续改进。我们的研究结果表明,当前RLHF方法主要学习检测客观错误,而非捕捉主观质量偏好(如创意、风格特色及情感共鸣),且成功的偏好建模可能需要中间推理表示,而非直接分类。
我们提出了AnyUp,一种适用于任意分辨率下任何视觉特征的上采样方法,无需针对特定编码器进行训练。现有的基于学习的特征上采样器,如DINO或CLIP,需要为每个特征提取器重新训练,因此在推理时无法泛化到不同的特征类型。在本研究中,我们提出了一种推理时特征无关的上采样架构,以缓解这一限制并提升上采样质量。实验表明,AnyUp在特征上采样方面确立了新的技术标杆,能够泛化至多种特征类型,在保持特征语义的同时,高效且易于应用于广泛的下游任务。
复杂机器的设计既是人类智慧的标志,也是工程实践的基石。鉴于大型语言模型(LLMs)近期的进展,我们探讨它们是否也能学会创造。我们通过组合式机器设计的视角来审视这一问题:这一任务要求将标准化部件组装成机器,以满足在模拟物理环境中运动或操作等功能需求。为支持这一研究,我们引入了BesiegeField,一个基于机器建造游戏Besiege的测试平台,它支持基于部件的构建、物理模拟及奖励驱动的评估。利用BesiegeField,我们对具备代理工作流程的顶尖LLMs进行了基准测试,并识别出成功所需的关键能力,包括空间推理、策略性组装及指令遵循。鉴于当前开源模型的不足,我们探索了强化学习(RL)作为改进途径:我们整理了一个冷启动数据集,进行了RL微调实验,并指出了语言、机器设计与物理推理交叉领域的开放挑战。
基于可验证奖励的强化学习(RLVR)显著提升了大型语言模型(LLMs)的推理能力。然而,现有的RLVR方法普遍存在一种系统性偏差,即倾向于利用而非探索,这表现为pass@1指标提升而pass@K(K>1)性能下降。为深入理解这一问题,我们通过追踪词汇候选集上的令牌级概率分布,分析了RLVR方法的训练动态。分析揭示了一种一致的概率集中效应,即排名第一的候选词逐渐积累概率质量,同时抑制其他候选词的概率。更重要的是,这种过度集中现象与较差的pass@K性能呈正相关。受此发现启发,我们提出了简单Pass@K优化方法(SimKO),旨在缓解过度集中问题,从而鼓励探索。SimKO采用非对称方式运作:对于已验证正确的响应,它提升前K个候选词的概率;而对于已验证错误的响应,则对排名第一的候选词施加更强的惩罚。我们观察到,这种非对称设计在应用于高熵令牌时,对缓解过度集中尤为有效。在多种数学与逻辑推理基准测试中,SimKO在广泛的K值范围内均能持续提升pass@K性能,为改进RLVR的探索提供了一种简便途径。
视觉-语言-动作(VLA)模型正经历快速发展,并在机器人操控任务中展现出显著潜力。然而,扩展VLA模型面临几大关键挑战:(1)从头训练新的VLA模型需要大量计算资源和广泛数据集。鉴于当前机器人数据的稀缺性,在扩展过程中充分利用预训练良好的VLA模型权重显得尤为重要。(2)实时控制要求精细平衡模型容量与计算效率。为应对这些挑战,我们提出了AdaMoE,一种继承自密集VLA模型预训练权重的专家混合(MoE)架构,并通过将前馈层替换为稀疏激活的MoE层来扩展动作专家。AdaMoE采用了解耦技术,通过独立的比例适配器与传统路由器协同工作,将专家选择与专家权重分配解耦。这使得专家能基于任务相关性被选择,同时以独立控制的权重贡献,实现专家协作而非赢家通吃的动态。我们的方法证明,专家能力无需独占,通过协作利用专家,我们能在保持计算效率的同时实现更优性能。AdaMoE在关键基准测试中持续超越基线模型,在LIBERO上提升1.8%,在RoboTwin上提升9.3%。最重要的是,现实世界实验中21.5%的显著改进验证了其在机器人操控任务中的实际有效性。
视觉-语言-动作模型(VLAs)在实现通用机器人操控方面展现出巨大潜力。然而,构建此类模型的最佳途径仍是一个开放性问题。当前方法往往增加了复杂性,例如通过动作标记修改现有视觉-语言模型(VLM)的词汇表,或引入专门的动作头部。有趣的是,直接将动作表示为文本这一最为简单的策略却鲜有探索。本研究提出VLA-0以探究这一理念。我们发现,VLA-0不仅有效,而且其表现之强令人惊讶。在恰当的设计下,VLA-0超越了更为复杂的模型。在评估VLAs的流行基准LIBERO上,VLA-0在相同机器人数据训练下,超越了包括pi_0.5-KI、OpenVLA-OFT和SmolVLA在内的所有现有方法。更进一步,即便没有大规模机器人专用数据的训练,它仍优于那些基于大规模机器人数据训练的方法,如pi_0.5-KI、pi_0、GR00T-N1和MolmoAct。这些发现同样适用于现实世界场景,VLA-0在此超越了基于大规模真实数据预训练的VLA模型SmolVLA。本文总结了我们的意外发现,并详细阐述了释放这一简洁而强大VLA设计高性能所需的具体技术。视觉结果、代码及训练模型可在此获取:https://vla0.github.io/。
大型语言模型(LLMs)激发了人们对自动化机器学习研究代理日益增长的兴趣。其中,能够自主提出想法并开展机器学习实验的代理尤为引人注目,它们通过基于实验结果迭代优化想法,最大限度地实现了研究自动化,加速了科学进步。然而,全面评估此类代理仍面临挑战。现有基准往往过分强调工程层面而忽视学术严谨性,这为清晰评估代理在机器学习研究中的科学能力设置了障碍。此外,这些基准还存在任务多样性不足、过于侧重应用导向任务而非基础研究问题,以及难以扩展至真实研究场景等问题。为应对这些局限,我们推出了FML-bench,一个旨在评估自动化机器学习研究代理在8个多样化且基础的机器学习研究问题上表现的基准。它减轻了编码负担,强调基础问题而非特定用例,提供了高任务多样性,并能扩展至现实世界的机器学习GitHub仓库。进一步地,我们提出了一个包含五项互补指标的统一评估框架,旨在全面评估代理在我们基准上的表现。我们在FML-bench上评估了最先进的自动化研究代理,发现采用广泛研究探索策略的代理优于那些专注于狭窄但深入探索的代理。这些发现表明,强调探索的广度可能比单纯关注增量优化带来更有效的研究成果。我们的基准可在https://github.com/qrzou/FML-bench获取。
基于少步扩散或流的生成模型通常将预测速度的教师模型蒸馏为预测去噪数据捷径的学生模型。这种格式不匹配导致了复杂的蒸馏过程,往往面临质量与多样性的权衡。为解决这一问题,我们提出了基于策略的流模型(pi-Flow)。pi-Flow通过修改学生流模型的输出层,使其在某一时间步预测一个无需网络的策略。该策略随后在未来的子步中生成动态流速度,且开销极小,从而在这些子步上实现快速而准确的常微分方程(ODE)积分,而无需额外的网络评估。为使策略的ODE轨迹与教师模型相匹配,我们引入了一种新颖的模仿蒸馏方法,该方法利用标准的ℓ₂流匹配损失,沿策略轨迹将策略的速度与教师模型的速度对齐。通过简单地模仿教师模型的行为,pi-Flow实现了稳定且可扩展的训练,并避免了质量与多样性的权衡。在ImageNet 256²上,pi-Flow以1-NFE的FID达到2.85,优于相同DiT架构的MeanFlow。在FLUX.1-12B和Qwen-Image-20B上,pi-Flow在4 NFEs时,相较于最先进的少步方法,显著提升了多样性,同时保持了教师模型级别的质量。
多阶段推理作为一种有效策略,通过将复杂问题分解为连续子阶段,显著提升了小型语言模型的推理能力。然而,这一策略也带来了延迟增加的问题。我们观察到,现有的自适应加速技术,如层跳过,在此情境下难以平衡效率与准确性,主要面临两大挑战:(1) 各阶段对跳过的敏感性差异,以及(2) 冗余输出令牌的生成。针对这些问题,我们提出了LiteStage,一个面向多阶段推理的延迟感知层跳过框架。LiteStage结合了阶段性的离线搜索,为各阶段分配最优层预算,并采用基于置信度的在线生成提前终止机制,以抑制不必要的解码过程。在OBQA、CSQA和StrategyQA三个基准测试上的实验表明,LiteStage实现了最高1.70倍的加速,且准确率损失低于4.0%,超越了以往无需训练的层跳过方法。
大型预训练模型在视觉内容生成和三维重建领域的快速发展,为文本到三维生成开辟了新的可能性。直观上,若能将现代潜变量文本到视频模型作为“生成器”与近期(前馈式)三维重建系统的几何能力作为“解码器”相结合,便能获得一个强大的三维场景生成器。我们提出了VIST3A,一个实现这一目标的通用框架,主要解决两大挑战。首先,两组件需以保留其权重中丰富知识的方式结合。我们重新审视了模型拼接技术,即识别三维解码器中与文本到视频生成器产生的潜变量表示最佳匹配的层级,并将两部分无缝连接。这一操作仅需少量数据集且无需标签。其次,文本到视频生成器需与拼接后的三维解码器对齐,确保生成的潜变量可解码为一致且感知上可信的三维场景几何。为此,我们采用了直接奖励微调,这是一种流行的人类偏好对齐技术。我们通过不同的视频生成器和三维重建模型对VIST3A方法进行了评估。所有测试组合均显著优于先前输出高斯溅射的文本到三维模型。此外,通过选择合适的三维基础模型,VIST3A还能实现高质量的文本到点云图生成。
近期,图像编辑模型在遵循自然语言编辑指令方面取得了显著成果,但这些模型依赖于大规模输入-目标对数据集的有监督微调。这构成了一个关键瓶颈,因为此类自然生成的对数据难以大规模收集。当前的解决方案是利用现有模型的零样本能力生成合成训练对。然而,这种做法可能会将预训练模型的瑕疵传播并放大到最终训练模型中。在本研究中,我们提出了一种全新的训练范式,彻底摆脱了对配对数据的依赖。我们的方法通过在训练过程中展开多步扩散模型,并利用视觉-语言模型(VLM)的反馈,直接优化模型。对于每个输入和编辑指令,VLM评估编辑是否遵循指令并保留未改变的内容,从而为端到端优化提供直接梯度。为确保视觉保真度,我们引入了分布匹配损失(DMD),约束生成图像保持在预训练模型学习到的图像流形内。我们在标准基准上评估了该方法,并进行了广泛的消融研究。在无需任何配对数据的情况下,我们的方法在少步设置下,与基于大量有监督配对数据训练的各种图像编辑扩散模型表现相当。在采用相同VLM作为奖励模型的情况下,我们还超越了基于强化学习的技术,如Flow-GRPO。
视频生成模型近期在合成质量上取得了显著进展。然而,生成复杂动作仍是一个关键挑战,现有模型往往难以产生自然、流畅且上下文一致的运动。生成动作与真实世界动作之间的差距限制了其实际应用。为解决这一问题,我们提出了RealDPO,一种新颖的对齐范式,它利用真实世界数据作为偏好学习的正样本,从而实现更精确的动作合成。与传统的监督微调(SFT)相比,后者提供的纠正反馈有限,RealDPO则采用直接偏好优化(DPO)并结合定制损失函数,以增强动作的真实感。通过对比真实世界视频与模型错误输出,RealDPO实现了迭代自我校正,逐步提升动作质量。为支持复杂动作合成的训练后优化,我们提出了RealAction-5K,这是一个精心策划的高质量视频数据集,捕捉了人类日常活动中的丰富且精确的动作细节。大量实验表明,相较于最先进的模型及现有偏好优化技术,RealDPO在视频质量、文本对齐及动作真实感方面均有显著提升。
大规模语言模型的开发依赖于大规模训练语料库,然而大多数语料库包含的数据其许可状态不明确,这限制了真正开放模型的发展。对于非英语语言而言,这一问题尤为严重,因为公开许可的文本仍然极度匮乏。我们引入了“德国公共资源”,这是迄今为止最大的公开许可德语文本集合。它汇集了来自七个领域的41个来源的数据,涵盖法律、科学、文化、政治、新闻、经济和网络文本。通过系统地从具有可验证许可的知名数据提供商处获取数据,它生成了1545.6亿个高质量文本标记,用于语言模型训练。我们的处理流程实施了全面的质量过滤、去重和文本格式修复,确保跨异质文本来源的一致性质量。所有领域子集均至少采用CC-BY-SA 4.0或同等许可,确保模型训练和再分发的法律合规性。因此,“德国公共资源”填补了公开许可德语预训练数据的关键空白,并促进了真正开放的德语语言模型的开发。我们还发布了针对德语文本的语料构建和数据过滤代码,使“德国公共资源”完全可复现且可扩展。
具有循环深度的语言模型,在考虑Transformer架构时也被称为通用或循环模型,其特点在于能够通过层重复来增强计算能力。最近的预训练研究表明,这些架构能够扩展到现代语言建模任务,并在推理任务中展现出优势。在本研究中,我们探讨了循环深度模型与扩散语言模型之间的关系。基于它们的相似性,我们为这些模型开发了一种新的扩散强制采样器,以加速生成过程。该采样器通过在模型的每次前向传递中解码新令牌来推进,而这些令牌的潜在状态可以通过循环并行进一步优化。理论上,在现代硬件上,使用我们的采样器进行生成,在相同的时间预算下,其表达能力严格优于基线自回归生成方法。此外,这种基于扩散文献原理的采样器,无需任何调整即可直接应用于现有的35亿参数循环深度Transformer,实现高达5倍的加速。因此,我们的发现不仅为推理时并行化循环深度模型中的额外计算提供了一种高效机制,还表明这类模型可以自然地被视为强大的连续(尽管是因果的)扩散语言模型。
系统化、组合式的泛化能力超越训练数据分布,依然是机器学习领域的一项核心挑战——也是现代语言模型推理能力发展的关键瓶颈。本研究以基于计算图的GSM8K风格模块化算术任务为测试平台,探讨了Transformer网络在分布外(OOD)泛化上的表现。我们提出并探索了四种旨在增强OOD泛化的架构机制:(i) 输入自适应循环;(ii) 算法监督;(iii) 通过离散瓶颈实现的锚定潜在表示;以及(iv) 显式纠错机制。这些机制共同构成了一种架构方法,使Transformer网络能够进行原生且可扩展的潜在空间推理,具备强大的算法泛化能力。我们辅以详尽的机制解释性分析,揭示了这些机制如何促成稳健的OOD泛化能力。
数字代理需要多样化、大规模的UI轨迹以泛化至现实世界任务,然而从人力标注、基础设施及工程角度而言,收集此类数据成本高昂。为此,我们推出了UI-Simulator,一种可扩展的范式,它通过生成结构化的UI状态与转换,大规模合成训练轨迹。该范式整合了数字世界模拟器以生成多样化的UI状态,采用引导式展开过程确保探索的连贯性,并通过轨迹包装器产出高质量且多样化的轨迹供代理训练。我们进一步提出UI-Simulator-Grow,一种目标导向的扩展策略,通过优先处理高影响力任务并合成信息丰富的轨迹变体,实现更快速且数据高效的扩展。在WebArena和AndroidWorld上的实验表明,尽管使用了较弱的教师模型,UI-Simulator在鲁棒性上显著优于基于真实UI训练的开源代理,甚至与之匹敌或超越。此外,UI-Simulator-Grow仅以Llama-3-8B-Instruct为基础模型,便达到了Llama-3-70B-Instruct的性能,凸显了目标导向合成扩展范式在持续高效提升数字代理能力方面的潜力。
作为通用语言的英语展现出丰富的区域性变体,即方言,这些方言常被方言使用者用于与生成模型的交互中。然而,多模态生成模型能否有效处理方言文本输入并生成相应内容?本研究通过构建一个涵盖六种常见英语方言的大规模基准数据集,深入探讨了这一问题。我们与方言使用者合作,收集并验证了超过4200条独特的提示词,并在17个图像和视频生成模型上进行了评估。自动评估与人工评估结果显示,当前最先进的多模态生成模型在提示词中仅使用一个方言词汇时,性能下降幅度达32.26%至48.17%。常见的缓解方法,如微调和提示词重写,仅能小幅提升方言处理性能(<7%),同时可能显著降低标准美式英语(SAE)的表现。为此,我们设计了一种基于编码器的通用缓解策略,旨在教导模型识别新的方言特征,同时保持SAE性能。在Stable Diffusion 1.5等模型上的实验表明,我们的方法能够将五种方言的处理性能提升至与SAE相当的水平(+34.4%),而对SAE性能的影响几乎为零。
仓库级预训练常被用于使大型代码语言模型能够利用整个代码库的上下文信息,从而提升其生成准确且上下文感知的代码补全能力。在本研究中,我们探讨了不同的仓库处理策略如何影响OpenCoder(一个拥有15亿参数的模型)的上下文学习效果。通过额外训练10亿个精选的仓库级数据标记,我们将其上下文窗口从4096扩展至16384个标记。尽管相较于使用数百亿标记的竞争模型,我们的模型依赖的数据集规模较小,但在Long Code Arena基准测试中仍展现出相当的性能。我们发现,多种仓库处理技术均能带来相似强度的效果提升,其中主要的增益来源于适应新的旋转位置嵌入(RoPE)缩放参数。最后,我们证明,在原始序列长度下采用更简单的文件级训练方法依然非常有效,这为在数据和计算资源更为受限的环境下开展仓库级代码补全研究开辟了道路。
测试时扩展是一种提升大型语言模型在复杂推理任务上性能的强大策略。尽管最先进的方法通常采用生成式验证器从候选方案池中筛选最佳解,但这种方法带来了难以承受的计算成本,限制了其实用性。在本研究中,我们将焦点转向一个更具预算意识的范式:判别式验证。我们进行了深入的实证分析,证明虽然判别式验证器单独使用时可能表现欠佳,但将其与自一致性结合形成混合方法后,能构建出一个强大且高效的测试时扩展机制。值得注意的是,在固定的计算预算下,这种混合方法显著超越了最先进的生成式验证:在AIME2025上实现了高达15.3%的准确率提升。我们的研究结果表明,对于实际应用场景,采用判别式验证器的预算意识扩展不仅是自一致性方法的“免费”升级,更是成本高昂的生成式技术的更有效、更高效的替代方案。代码已发布于https://github.com/wang-research-lab/verification。
近距离人体交互姿态蕴含了丰富的互动动态上下文信息。基于此类姿态,人类能够凭借对行为模式的深刻先验知识,直观推断情境并预测可能的过去与未来动态。受此启发,我们提出了Ponimator,一个以邻近交互姿态为锚点的多功能交互动画生成框架。我们的训练数据来源于动作捕捉交互数据集中的紧密接触双人姿态及其周边时序上下文。Ponimator利用交互姿态先验,采用两个条件扩散模型:(1) 姿态动画生成器,利用时序先验从交互姿态生成动态运动序列;(2) 姿态合成器,应用空间先验,在交互姿态缺失时,从单一姿态、文本或两者结合中合成交互姿态。综合而言,Ponimator支持多种任务,包括基于图像的交互动画生成、反应动画制作以及文本到交互的合成,有效促进了高质量动作捕捉数据中的交互知识向开放世界场景的迁移。跨多样数据集和应用的实证实验验证了姿态先验的普适性,以及我们框架的有效性和鲁棒性。
规模定律通过将上游指标(如交叉熵损失)与模型规模、训练数据和计算资源等设计因素联系起来,极大地改变了我们对大型语言模型的理解。然而,这些传统定律未能捕捉到下游任务的表现,其中上下文起着关键作用。在本研究中,我们提出了一个简单且可解释的框架,该框架将下游性能联合建模为训练计算量和所提供上下文的函数。我们通过在Llama-2-7B和Llama-2-13B的扩展上下文变体上,针对算术推理、常识推理和机器翻译三大任务中的65,500个独特实例进行实证验证,拟合了我们的框架。结果表明,我们的框架能够准确建模分布内的下游性能,在训练计算量跨越三个数量级时仍能保持泛化能力,并能可靠地外推随着上下文量增加的性能表现。这些发现为训练计算量与上下文利用之间的相互作用提供了宝贵的见解,为设计更高效的长上下文LLM以应对多样化的下游任务提供了指导。我们的代码可在https://github.com/wang-research-lab/context-scaling获取。
基于网络的“深度研究”智能体旨在通过与在线工具的长期交互来解决复杂的问答任务。这些任务仍然具有挑战性,因为底层的语言模型往往未针对长期推理和探索进行优化。先前的研究提出了构建指令调优数据集的工作流程,通常利用知识图谱。然而,这些方法通常缺乏对难度和质量的精细控制,生成的合成数据难以捕捉长期推理所需的复杂性。此外,许多研究通过比较在不同优化方案下训练的模型,混淆了数据和训练效果,使得难以单独评估数据本身的有效性。我们引入了一种双管齐下的数据合成管道,通过逐步增加任务复杂性生成问答对,直到一个前沿的基线网络智能体失败。该基线智能体在此过程中扮演多重角色:尝试回答问题、验证事实性、检查替代答案并执行过滤。为了评估我们合成方法的有效性,我们采用了一种基于从强大网络智能体蒸馏的受控训练设置。在多个基于网络的基准测试中的实验表明,尽管我们的数据集规模较小,但能够训练出比现有数据集更有效的网络智能体。特别是,我们的数据在工具使用动作上展现出两倍的多样性,使得基于其训练的模型在避免重复工具调用行为的同时,实现了更强的性能。
传统的RAG范式通常通过理解相关文本片段来响应接收到的查询,这本质上限制了知识内化的深度和推理能力。为解决这一局限,我们的研究将RAG中的文本处理从被动分块转变为主动理解,将这一过程定义为文档记忆提取,旨在模拟人类阅读时的认知过程。在此基础上,我们提出了场景感知文档记忆混合(MoM)框架,旨在高效处理多领域文档,并训练小型语言模型(SLMs)获得主动探索和构建文档记忆的能力。MoM首先指导大型语言模型(LLMs)模拟领域专家生成文档逻辑大纲,从而引导结构化分块和核心内容提取。它采用多路径采样和多视角评估机制,特别设计了代表分块清晰度和提取完整性的综合指标,以选择最优文档记忆。此外,为了在SLMs训练中注入更深层次的人类阅读能力,我们引入了逆向推理策略,从高质量结果中推导出精炼的专家思维路径。最后,利用MoM生成的各种形式内容,我们开发了一个基于概率建模理论证明的三层文档记忆检索机制。在三个不同领域的广泛实验结果表明,MoM框架不仅解决了现有RAG系统中的文本分块难题,为LLMs提供了语义完整的文档记忆,还为SLMs实现以人为中心的智能文本处理铺平了道路。
持久动态场景建模在追踪和新视角合成方面仍面临挑战,主要源于在保持计算效率的同时难以捕捉精确形变。我们提出了SCas4D,一种级联优化框架,它利用3D高斯泼溅中的结构模式来处理动态场景。其核心思想在于现实世界中的形变常呈现层次化模式,即高斯群组共享相似的变换。通过从粗略部件级到精细点级逐步优化形变,SCas4D能在每帧100次迭代内实现收敛,并以仅需现有方法二十分之一的训练迭代次数,产出与之相当的结果。该方法在自监督关节物体分割、新视角合成及密集点追踪任务中也展现了显著成效。
大型语言模型(LLMs)正日益被用作角色扮演代理,然而它们在忠实且一致地演绎特定版本角色——例如跨越漫画与电影宇宙的超级英雄——方面的能力仍待深入探索。漫威与DC等超级英雄经典作品为此提供了丰富的试验场:数十年的故事叙述孕育了同一角色的多个化身,各自拥有独特的历史、价值观及道德准则。为研究此问题,我们推出了“超越单一世界”基准,涵盖30位标志性英雄及其90个特定版本的角色扮演任务。该基准包含两项任务:(i) 经典事件,考察对关键人生阶段的事实回忆;(ii) 道德困境,让模型面对伦理挑战场景。我们依据一个框架对回答进行评分,该框架区分了内部思考(“思考”)与外部决策(“行动”),并进一步提出了“思行一致”指标,量化理由与行动之间的契合度,作为模型可信度的代理。在推理导向与非推理导向模型上的实验得出三点发现:(1) 思维链提示能提升较弱模型的叙事连贯性,但可能削弱较强模型的经典准确性;(2) 同一角色跨版本泛化仍是主要障碍;(3) 模型往往擅长思考或行动之一,却鲜少两者兼备。“超越单一世界”揭示了多元宇宙一致性与推理对齐中的关键缺口,为角色扮演型LLMs提供了一个极具挑战性的评估平台。
在RAG系统中,语言模型基于有缺陷的上下文选择拒绝回答的能力对安全性至关重要,但这仍是一个显著的薄弱环节。我们的大规模研究表明,即便是前沿模型在此情境下也表现不佳,在多文档任务中的拒绝准确率降至50%以下,同时表现出危险的过度自信或过度谨慎。静态基准测试无法可靠评估这一能力,因为模型会利用数据集特有的伪影并记忆测试实例。我们引入了RefusalBench,一种通过受控语言扰动程序化生成诊断测试用例的方法。我们的框架采用了176种不同的扰动策略,涵盖六类信息不确定性及三个强度等级。对超过30个模型的评估揭示了系统性失败模式:拒绝能力包含可分离的检测与分类技能,而无论是模型规模还是扩展推理都无法提升性能。我们发现,选择性拒绝是一种可训练、对齐敏感的能力,为改进提供了明确路径。我们发布了两个基准测试——RefusalBench-NQ(单文档)和RefusalBench-GaRAGe(多文档)——以及完整的生成框架,以支持对这一关键能力的持续动态评估。
检索增强生成(RAG)通过动态获取外部信息,有效缓解了大型语言模型(LLMs)在事实错误、知识过时及幻觉等方面的关键局限。近期研究通过代理式RAG系统扩展了这一范式,其中LLMs作为代理,迭代地规划、检索并推理复杂查询。然而,这些系统在处理具有挑战性的多跳问题时仍显不足,且其中间推理能力尚未得到充分探索。为此,我们提出了RAGCap-Bench,一个面向能力的基准测试,用于细粒度评估代理式RAG工作流中的中间任务。我们分析了顶尖系统的输出,识别出执行这些任务所需的常见任务及核心能力,进而构建了典型LLM错误的分类体系,以设计有针对性的评估问题。实验表明,具备更强RAGCap性能的“慢思考”模型在端到端结果上表现更优,这验证了基准测试的有效性,并凸显了提升这些中间能力的重要性。
过程奖励模型(PRMs)旨在通过监督中间步骤并识别错误,提升大型语言模型(LLMs)的多步推理能力。然而,构建有效的PRMs仍面临挑战,主要源于缺乏可扩展的高质量标注。现有方法依赖于成本高昂的人工标注、易产生幻觉的LLM自评估,或蒙特卡洛(MC)估计——后者仅从最终结果推断步骤质量,常因信用分配不当引入噪声和不对齐的监督。这些问题导致了三大核心局限:奖励噪声大、事实保真度低以及与步骤级推理目标不对齐。为应对这些挑战,我们提出了GroundedPRM,一个树引导且保真度感知的自动过程监督框架。为减少奖励噪声并实现细粒度信用分配,我们通过蒙特卡洛树搜索(MCTS)构建结构化推理路径。为消除幻觉监督,我们利用外部工具验证每个中间步骤,提供基于执行的正确性信号。为结合步骤级验证与全局结果评估,我们设计了一种混合奖励聚合机制,融合工具验证与MCTS反馈。最后,我们将奖励信号格式化为增强解释性的生成结构,以提升与指令调优LLMs的兼容性。GroundedPRM仅需在4万自动标注样本上训练,仅为使用自动标注监督的最佳PRM所需数据的10%,却在ProcessBench上实现了高达26%的平均性能相对提升。当用于奖励引导的贪婪搜索时,GroundedPRM甚至超越了基于人工标注监督训练的PRMs,为高质量过程级推理提供了一条可扩展且可验证的路径。
推测解码通过使用草稿模型进行前瞻来加速大语言模型(LLM)推理,但其增益受限于自回归草稿生成的成本:增加草稿规模虽能提升接受率,却引入了额外的延迟开销,加剧了速度与准确性的权衡。先前的方法(如Medusa、Hydra、EAGLE)虽部分降低了草稿成本,但要么降低了接受率,要么引入了限制扩展的开销。我们提出镜像推测解码(Mirror-SD),一种打破延迟与接受率权衡的推理算法。Mirror-SD从目标模型后缀的早期退出信号并行启动分支完整展开,并明确将计算映射到异构加速器(GPU与NPU)上,以利用跨设备并行性。草稿推测目标模型需验证的前向延续,而目标模型同时推测草稿的修正路径,将推测转化为两条互补的执行流水线。为在不削弱接受语义的前提下进一步削减草稿延迟,我们增加了推测流式处理,使草稿每步生成多个令牌。这种并行异构执行加多令牌推测流式处理的双重策略,推动推测解码向高接受率低开销的理想状态迈进。在SpecBench上,针对14B至66B参数的服务器级模型,Mirror-SD实现了端到端的持续增益,在多样化任务中取得了2.8倍至5.8倍的墙钟时间加速,相较于最强基线EAGLE3,平均相对提升达30%。