每日精选AI研究论文及翻译
我们推出Qwen-Image-2.0——一个全能型图像生成基础模型,首次将高保真生成与精准图像编辑统一于单一框架。尽管近期研究取得进展,现有模型在超长文本渲染、多语言排版、高分辨率写实、强健指令遵循及高效部署方面仍存在不足,尤其在文本密集与构图复杂的场景中表现明显。Qwen-Image-20通过将Qwen3-VL作为条件编码器与多模态扩散变换器耦合,构建联合条件-目标建模体系,辅以大规模数据策展和定制化多阶段训练流程,在保持灵活生成编辑能力的同时实现了强大的多模态理解。该模型支持长达1K标记的指令输入,可生成幻灯片、海报、信息图及漫画等富文本内容,并显著提升多语言文本保真度与排版质量。通过增强细节丰富度、纹理真实感与光照一致性,其写实生成能力获得突破,并能更可靠地遵循跨风格复杂提示。大规模人工评估表明,Qwen-Image-2.0在生成与编辑任务上均显著超越前代模型,标志着向更通用、可靠且实用的图像生成基础模型迈出关键一步。
在近期前沿大语言模型于国际数学奥林匹克竞赛中取得金牌表现之后,研究社群正为其推理能力寻找下一个有意义的挑战性衡量目标。尽管奥赛类问题仅测试逐步推理能力,研究级问题则利用此类推理推动数学知识前沿本身的发展,从而成为更具吸引力的替代方案。然而,研究级数学基准仍然稀缺,因为这类问题难以获得(例如Riemann Bench和FrontierMath-Tier 4分别仅包含25个和50个问题)。为支持对下一代前沿模型的可靠评估,我们引入了Soohak——由64位数学家从零新创的439道问题基准。Soohak包含两个子集。在挑战子集上,包括Gemini-3-Pro、GPT-5和Claude-Opus-4.5在内的前沿模型分别达到30.4%、26.4%和10.4%的正确率,留有显著提升空间;而领先的开源模型如Qwen3-235B、GPT-OSS-120B和Kimi-2.5均低于15%。值得注意的是,除标准问题求解外,Soohak还引入了一个拒答子集,用于探测研究数学中固有的能力:识别不适定问题并暂停作答,而非生成自信但缺乏依据的答案。在此子集上,所有模型均未超过50%,这表明拒答能力是一个当前模型尚未直接应对的新优化目标。为防止数据污染,该数据集将于2026年下半年公开发布,其间可根据请求提供模型评估结果。
近期,基于“用视频思考”的方法通过生成时间上连贯的“帧链”作为推理产物,利用视频生成模型进行视觉推理。然而,即使是强大的视频生成模型,在面向目标的任务中仍表现出两种重复出现的失败模式:多步骤任务中的长程漂移,以及剪辑内模拟误差的累积。这两种问题都源于缺乏基于视频生成模型短程视觉先验的显式推理——而这一角色本应由视觉语言模型自然承担。但视觉语言模型的放置位置并非易事:前置于视频生成模型时,在生成任何帧之前即作出规划;后置于整体视频生成后时,又因批评介入过晚而无法及时修正。我们提出VLM-VGM协作视频推理框架,这是一种闭环架构,以步骤级粒度将视觉语言模型与视频生成模型耦合:视觉语言模型规划即时下一步动作,检查视频生成模型生成的剪辑,并将验证器的诊断结果直接整合到下一步动作提示中,以修复检测到的故障。在Gen-ViRe和VBVR-Bench基准测试中,CollabVR在同等计算量下,使开源和闭源视频生成模型均优于单次推理、Pass@k及先前测试时扩展基线,且最难任务上的提升最为显著。该方法还在经推理微调的视频生成模型基础上实现进一步改进,表明步骤级视觉语言模型监督与面向推理的微调既有正交性又可叠加使用。项目页面提供视频样本及更多定性结果:https://joow0n-kim.github.io/collabvr-project-page。
测试时扩展已成为一种有效范式,通过在推理阶段分配额外计算来提升大型语言模型的推理能力。近期结构化方法通过跨多条轨迹组织推理、细化轮次以及基于验证的反馈机制,进一步推动了该范式的发展。然而,现有结构化测试时扩展方法要么对并行推理轨迹的协调能力较弱,要么依赖带有噪声的历史信息而未明确决策应保留和复用哪些内容,限制了其在探索与利用之间的平衡能力。本研究提出TMAS框架,通过多智能体协同实现测试时计算的扩展。TMAS将推理组织为专业化智能体间的协作过程,实现跨智能体、跨轨迹、跨细化迭代的结构化信息流动。为支持有效的跨轨迹协作,TMAS引入分层记忆机制:经验库复用低层可靠中间结论与局部反馈,而指导库记录先前探索的高层策略,引导后续探索路径避开冗余推理模式。此外,我们设计了适配TMAS的混合奖励强化学习方案,该方案可同时保留基础推理能力、增强经验利用效率,并鼓励超出已尝试求解策略的探索。在多个具有挑战性的推理基准上的大量实验表明,TMAS相较于现有测试时扩展基线方法展现出更强的迭代扩展能力,而混合奖励训练进一步提升了跨迭代的扩展有效性与稳定性。代码与数据已开源至https://github.com/george-QF/TMAS-code。
持续后训练旨在扩展大语言模型(LLMs)的新知识、技能和行为,但尚不清楚序列更新何时能实现能力迁移、何时会导致灾难性遗忘。现有方法通过序列微调、回放、正则化或模型合并来缓解遗忘,但在判断新更新的引入有益还是有害时,缺乏明确标准。本研究通过三个问题探讨LLM的持续后训练:什么驱动遗忘?序列获得的能力何时迁移或相互干扰?如何利用兼容性来控制更新整合?我们通过任务几何来回答这些问题:将每个后训练任务表示为其参数更新,并研究更新所引发的协方差几何。核心发现是:遗忘可视为一种状态相关的更新整合失败,当任务引发的协方差几何与演化中的模型状态几何不匹配时,遗忘就会发生。序列更新在保持与先前更新塑造的模型状态兼容时实现迁移,而当状态相关几何冲突加剧时则产生干扰。基于此发现,我们提出几何冲突Wasserstein合并(GCWM),这是一种无数据的更新整合方法,通过高斯Wasserstein重心构建共享的Wasserstein度量,并利用几何冲突来门控几何感知修正。在Qwen3 0.6B至14B模型上,针对领域持续和能力持续设置,GCWM始终优于无数据基线,在不使用回放数据的情况下提升了保持能力和最终性能。这些结果表明,几何冲突既是遗忘的解释信号,也是LLM持续后训练中的实用控制信号。
我们研究了通过交叉熵衡量的语言模型合并的经验缩放定律。尽管合并在实际中被广泛使用,但缺乏一个定量的规则来预测随着专家数量增加或模型规模扩大时的收益变化。我们识别出一个紧凑的幂律,将模型规模和专家数量联系起来:依赖于规模的底层阈值随模型容量增加而降低,而合并尾部的收益随专家数量增加呈现明显的递减规律。该定律在领域内和跨领域均成立,紧密拟合不同架构和方法(Average、TA、TIES、DARE)的测量曲线,并解释了两种稳健的规律:大部分收益在早期获得,且随着更多专家加入,变异性缩小。在此基础上,我们提出一个简单理论,解释为什么收益大致按1/k下降,并将底层阈值和尾部与基模型的性质及跨领域多样性联系起来。该定律支持预测性规划:估计需要多少专家才能达到目标损失,决定何时停止添加专家,以及在固定预算下权衡扩展基模型与添加专家——将合并从启发式实践转变为一种计算高效、可规划的多任务训练替代方案。这表明了分布式生成式AI的缩放原则:通过组合专家可以实现可预测的收益,为通向AGI级系统提供了一条互补路径。
一份能够无误编译的LaTeX稿件并非一定达到出版标准。生成的PDF经常出现浮动对象错位、公式溢出、表格缩放不一致、孤行和寡行以及页面不平衡等问题,迫使作者陷入重复的编译-检查-编辑循环。基于规则的工具无法感知渲染后的视觉效果,只能操作源代码和日志文件。纯文本LLM执行开环文本编辑,无法预测或验证其修改对二维布局产生的影响。因此,可靠的排版优化需要视觉闭环,在每次编辑后进行验证。我们将此问题形式化为视觉排版优化(VTO),即通过迭代视觉验证和源码级修订,将可编译的LaTeX论文转化为视觉上精美、符合页面预算的PDF的任务,并引入一个包含五类排版缺陷的分类体系来指导诊断。我们提出了PaperFit,一种视觉在环代理,能够迭代渲染页面、诊断缺陷并应用受限修复。为了对VTO进行基准测试,我们构建了PaperFit-Bench,包含200篇论文,涵盖10个期刊模板、13种缺陷类型以及不同难度级别。大量实验表明,PaperFit在所有基线方法中大幅度领先,证明了从可编译源码到出版就绪PDF的跨越需要视觉在环优化,且VTO构成了文档自动化流程中一个关键缺失的阶段。
诸如Seedance2.0和Veo3.1等商业视频生成系统已实现快速提升,进一步强化了视频生成器可能演变为"世界模拟器"的观点。然而,该领域目前仍缺乏直接测试模型能否推理观测世界应如何随时间演化的基准。我们提出WorldReasonBench,将视频生成评估重新定义为世界状态预测任务:给定初始状态与动作后,模型能否生成未来视频,使其状态演化保持物理、社会、逻辑和信息一致性?该基准包含436个精选测试用例,提供涵盖四个推理维度及22个子类别的结构化真实标注问答对。我们采用与人类对齐的两部分评估方法:过程感知推理验证通过结构化问答和推理阶段诊断来检测时间与因果故障;多维质量评估则对推理质量、时间一致性和视觉美观度进行评分,支持排序与奖励建模。此外,我们引入WorldRewardBench——包含约6K组经过专家标注的1.4K视频偏好对,支持成对与单点奖励模型评估。针对现行视频生成器的测试结果显示,视觉可信度与世界推理之间持续存在差距:视频看似逼真,却在动态演化、因果关系或信息保留方面存在缺陷。我们将公开基准与评估工具套件(https://github.com/UniX-AI-Lab/WorldReasonBench/),以支持社区对真正具有世界感知能力的视频生成研究。
指令遵循是大语言模型(LLMs)的基本能力,但持续提升该能力仍具挑战性。现有方法通常依赖昂贵的外部监督(来自人类或强教师模型),或采用静态难度指令的自我博弈训练,而静态难度指令无法随模型能力提升而进化。为突破这些局限,我们提出SEIF(面向指令遵循的自我进化强化学习),一种用于增强LLMs指令遵循能力的自我进化框架。SEIF形成闭环自我进化回路,其中指令难度进化与模型能力进化相互促进,从而持续提升模型的指令遵循能力。SEIF由四个角色构成:负责生成渐进式挑战性指令的指令生成器、负责移除冲突或无效指令以保证数据质量的过滤器、学习遵循进化后指令的执行器,以及为强化学习提供奖励信号的裁判器。指令生成器与执行器交替训练,在整个过程中共同进化。跨多种模型规模与架构的实验表明,SEIF持续提升指令遵循性能,展现出强泛化性。进一步分析揭示了性能提升的来源,并为开放任务上实现自我进化确定了有效的训练策略:早期充分训练以奠定坚实基础,随后适度后期训练以缓解过拟合并达到更优最终性能。代码与数据已公开于 https://github.com/Rainier-rq1/SEIF。
循环LLM架构已成为提升推理能力的一种有前景的方法,因为它能在嵌入空间中进行多步计算,而无需生成中间令牌。诸如Ouro等模型通过迭代更新内部表示来进行推理,同时在迭代过程中保留标准的键值(KV)缓存,导致内存消耗随推理深度线性增长。因此,增加推理迭代次数可能导致内存使用过高,限制了此类架构的实际可扩展性。本文提出内存高效循环Transformer(MELT),这是一种新颖的架构,将推理深度与内存消耗解耦。与每层和每次循环使用标准KV缓存不同,MELT在每层维护一个跨推理循环共享的单一KV缓存,该缓存通过可学习的门控机制随时间更新。为了在此架构下实现稳定高效的训练,我们提出采用分块训练方法,并分为两个阶段:插值过渡阶段,随后是从LoopLM初始模型到MELT的注意力对齐蒸馏阶段。实验表明,从预训练Ouro参数微调得到的MELT模型在性能上优于同等规模的标准化LLM,同时内存占用与这些模型相当,且远小于Ouro。总体而言,MELT在保持恒定内存消耗的前提下实现了迭代推理,且不损失LoopLM的性能,仅需轻量级的后训练过程。
三维生成模型的最新进展显著提升了图像到三维的合成质量,能够生成更高分辨率的几何结构和更逼真的外观。然而,保真度——衡量生成三维资产对输入图像像素级忠实度的指标——仍然是核心瓶颈。我们认为这一问题的根源在于隐式的二维-三维对应关系:大多数原生三维生成器在规范空间中生成形状,并通过注意力机制注入图像线索,导致像素到三维的关联存在歧义。为解决这一问题,我们从三维重建中汲取灵感,提出Pixal3D——一种像素对齐的三维生成范式,用于从图像创建高保真三维资产。Pixal3D并非在规范姿态下生成,而是以像素对齐的方式直接生成与输入视图一致的三维内容。为此,我们引入像素反投影条件机制,将多尺度图像特征显式提升为三维特征体,建立无歧义的直接像素到三维对应关系。实验表明,Pixal3D不仅具有可扩展性且能生成高质量三维资产,更显著提升了保真度,接近重建级别的保真水平。此外,Pixal3D通过跨视图聚合反投影特征体,自然扩展至多视图生成。最后,我们证明像素对齐生成有利于场景合成,并提出了模块化流水线,可从图像生成高保真且对象分离的三维场景。Pixal3D首次大规模展示了原生三维像素对齐生成,为从单视图或多视图图像实现高保真物体/场景三维生成提供了新思路。项目主页:https://ldyang694.github.io/projects/pixal3d/
多模态生成模型与人类偏好对齐要求奖励信号能够尊重人类判断中组合式、多维度的结构特征。当前主流的基于人类反馈的强化学习(RLHF)方法将这种结构简化为标量或成对标签,将细微偏好坍缩为不透明的参数化代理,并暴露出易受奖励欺骗攻击的脆弱性。尽管近期提出的"评分准则作为奖励"(RaR)方法试图通过显式准则恢复这种结构,但如何生成同时具备可靠性、可扩展性和数据高效性的评分准则仍是开放性问题。我们提出"自动评分准则作为奖励"(ARR)框架,将奖励建模从隐式权重优化重构为基于显式准则的解耦。在执行任何成对比较之前,ARR将视觉语言模型(VLM)内化的偏好知识外化为提示专用的评分准则,将整体意图转化为可独立验证的质量维度。这种将隐式偏好结构转化为可检查、可解释约束的方式,显著抑制了包括位置偏差在内的评估偏差,同时支持零样本部署和基于最小监督的少样本条件学习。为将这一优势扩展到生成式训练中,我们提出"评分准则策略优化"(RPO),将ARR的结构化多维评估蒸馏为稳健的二元奖励,用评分准则条件化的偏好决策替代不透明的标量回归,从而稳定策略梯度。在文生图和图像编辑基准测试中,ARR-RPO优于成对奖励模型和VLM评判者,证明将隐式偏好知识显式外化为结构化评分准则能够实现更可靠、数据效率更高的多模态对齐,揭示出瓶颈在于缺乏可分解的接口,而非知识本身不足。
受到OpenClaw发展的启发,面向移动设备的个人代理需求日益增长,这类代理需要能够处理复杂且直观的交互。在本技术报告中,我们介绍了X-OmniClaw——一个专为Android生态系统中的多模态理解与交互设计的统一移动代理。这种集感知、记忆与行动于一体的统一架构,使代理能够在高上下文感知能力下处理复杂的移动任务。具体而言,全知感知(Omni Perception)提供统一的多模态输入管道,整合UI状态、真实世界视觉情境与语音输入,并利用时间对齐模块将原始数据分解为结构化的多模态意图表征。全知记忆(Omni Memory)通过多模态记忆优化,将运行时工作记忆(用于任务连续性)与从本地数据中提取的长期个人记忆相融合,从而增强个性化智能,实现高度上下文感知的个性化交互。最后,全知行动(Omni Action)采用混合接地策略,结合结构化XML元数据与视觉感知,实现稳健的交互。通过行为克隆与轨迹回放,系统将用户导航行为捕捉为可复用技能,从而实现精准的直达执行。在多种场景中的演示表明,X-OmniClaw能够有效提升交互效率与任务可靠性,为下一代移动原生个人助手提供了实用的架构蓝图。
我们提出键值均值(Key-Value Means,简称KVM),一种新颖的注意力块递归机制,可支持固定大小或增长状态。将固定大小的KVM注意力层集成到强大的Transformer基线中,可得到一种强效的O(N)分块RNN,且仅增加极少量新参数。我们训练了带有可增长KVM缓存的Transformer,并证明其在长上下文测试中表现优异,仅需次二次预填充时间和次线性状态增长。KVM可通过标准操作实现,无需定制内核,并支持分块并行化训练与预填充。它在统一框架中融合了传统Transformer(可扩展上下文记忆、分块并行化训练与预填充)与线性RNN的诸多优势。该机制可应用于每一层,节省KV缓存内存,并在O(N)至O(N²)之间提供连续的预填充时间复杂度选择。此外,它还能与线性RNN层混合使用,替代传统注意力,以改进线性RNN的次线性内存增长、上下文长度利用及长上下文解码。我们已在Apache 2.0许可下于https://github.com/recursal/KVM-paper开源代码,并在https://huggingface.co/collections/recursal/key-value-means发布训练模型。
视觉编码是多模态大语言模型(MLLMs)中的一个主要计算瓶颈,尤其是在处理高分辨率图像输入时。当前的主流方法通常先执行全局编码,再进行ViT后压缩。全局编码会产生大量的标记序列,而ViT后压缩则会在任何标记缩减之前消耗ViT的全部二次注意力计算开销。本研究从编码策略和视觉标记压缩两个维度重新审视了这一惯例。首先,控制实验表明,切片式编码在多项基准测试中均优于全局编码,提示通过分块视图保留局部细节比全局注意力机制更有利于细粒度感知。其次,我们提出了ViT内早期压缩方法,该方法在浅层ViT层中缩减标记,显著降低视觉编码的浮点运算次数(FLOPs),同时保持下游性能不受影响。通过将ViT内压缩集成到切片式编码框架中,我们提出了LLaVA-UHD v4——一种面向高分辨率输入的高效且计算可控的视觉编码方案。在涵盖文档理解、OCR和通用VQA的多样化基准测试中,LLaVA-UHD v4将视觉编码FLOPs降低了55.8%,同时达到或超越了基线性能。这些结果表明,在不牺牲下游性能的前提下,可以大幅提升视觉编码效率,为高效高分辨率MLLMs提供了一条实用的设计方向。所有模型权重和代码将公开发布,以支持进一步研究。
自我进化型大语言模型在可验证领域表现卓越,但在开放式任务中面临挑战——依赖代理评判模型会引发能力瓶颈与奖励破解问题。为此,我们提出G-Zero框架,这是一种无需验证器的协同进化自改进框架。其核心创新在于Hint-δ内在奖励机制:通过量化生成模型在无辅助响应与基于自生成提示的响应之间的预测偏移,驱动演进过程。基于该信号,提议模型通过分组相对策略优化(GRPO)持续针对生成模型盲区,合成具有挑战性的查询与信息性提示。同时,生成模型借助直接偏好优化(DPO)将提示引导的改进内化。理论层面,我们证明了理想化标准DPO版本的G-Zero具有最佳迭代次优性保证,前提是提议模型能实现充分探索覆盖,且数据过滤保持伪标签评分噪声较低。通过完全从内部分布动力学中提取监督信号,G-Zero绕开了外部评判模型的能力天花板,为跨不可验证领域的持续大语言模型自我进化提供了可扩展、稳健的路径。
自我蒸馏已成为一种强大的大语言模型后训练框架,其中基于额外信息训练的教师模型引导缺乏该信息的学生模型,且两者源自同一模型。当学生模型表现不佳时,这种引导机制确实有效;但在成功执行的生成序列中,相同的机制反而会覆盖学生的自主选择,抑制其自身推理能力。为此,我们提出反向解读原始自蒸馏信号:当学生模型沿着教师模型不会预测的路径取得成功时,这些令牌恰恰体现了其自主驱动的推理过程。基于此,我们提出RLRT(逆向教师强化学习验证),通过在正确生成序列中强化这些令牌来增强GRPO算法。我们将其解读为RLVR中一种新型探索机制:不再追求均匀多样性,而是基于学生自身成功经验的有价值探索。在Qwen3的基座、指令微调和思维链微调检查点上,RLRT显著优于自蒸馏方法和基于探索的基线方法,将信息不对称确立为RLVR中一个全新的、原则性的设计维度。
大语言模型代理日益依赖外部技能来解决复杂任务,其中技能作为模块化单元,扩展了其超越参数化记忆支持的能力。现有方法假设外部技能要么作为持久化指导累积,要么内化到策略中,最终导致零技能推理。我们认为这一假设过于严格,因为受限于有限的参数化容量以及技能间边际贡献的不均衡性,最优主动技能集呈现非单调、任务依赖和阶段依赖的特征。本文提出SLIM框架——一种面向代理强化学习的动态技能生命周期管理机制,该框架将主动外部技能集视为与策略学习联合更新的动态优化变量。具体而言,SLIM通过留一技能验证法评估每项主动技能的边际外部贡献,随后实施三种生命周期操作:保留高价值技能、淘汰在充分暴露后贡献可忽略的技能、以及在持续失败揭示能力覆盖缺失时扩展技能库。实验表明,在ALFWorld和SearchQA数据集上,SLIM平均比最优基线方法高出7.1个百分点。结果进一步表明,策略学习与外部技能保留并非相互排斥:部分技能被内化到策略中,而其他技能持续提供外部价值,从而支持SLIM作为基于技能的代理强化学习更通用范式的地位。
基于学习的多物体刚体动力学模拟仍然面临挑战,因为接触具有不连续性,且误差会在长时域内累积。现有方法大多依赖网格连通性和顶点级消息传递,这不仅限制了其对点云等无网格输入的适用性,还导致计算开销较高。因此,从无网格表示高效建模高保真的刚体动力学仍是一个难题。我们提出RigidFormer,一种以物体为中心的Transformer模型,能够学习具有可控积分步长的无网格刚体动力学。RigidFormer在物体层级进行推理,并通过紧凑的锚点推进每个物体;锚点-顶点池化机制用局部顶点特征丰富这些锚点,从而在不依赖密集顶点交互的情况下保留与接触相关的几何信息。我们提出基于锚点的RoPE,在注意力机制中注入锚点几何信息,同时兼顾物体与锚点的无序特性:物体令牌处理具有排列等变性,而均值池化的锚点描述符对锚点重索引保持不变,同时保留形状尺度。RigidFormer进一步利用可微分Kabsch对齐,将更新投影到刚体流形上,从而强制保持刚性。在标准基准测试中,RigidFormer使用点输入时表现优于或持平于基于网格的基线方法,运行速度更快,能够泛化至未见过的点云分辨率及跨数据集场景,并支持200个以上物体的扩展;我们还初步展示了其拓展到指令条件化的铰接体,通过将各部件视为相互作用的物体层级组件来实现。
强化学习(RL)已赋予大语言模型(LLMs)复杂的推理能力。然而,多数RL算法存在性能饱和问题,导致随着RL训练规模的扩大,模型无法持续提升性能。这一现象可通过熵崩溃——RL探索过程中的关键诊断指标——来表征。现有方法试图通过正则化或裁剪手段防止熵崩溃,但其产生的熵曲线在长期训练中往往表现不稳定,从而阻碍性能提升。本文提出Entrocraft,一种简单高效的拒绝采样方法,通过调整优势分布实现用户自定义的熵调度。该方法无需目标正则化,且与优势估计器无关。在理论层面,我们在极少假设条件下建立了单步熵变化与优势分布之间的关联,这解释了现有RL及熵保持方法的行为机制。Entrocraft还使得对熵调度的系统性研究成为可能,实验表明:从高熵值线性退火至略低目标熵值的策略效果最佳。在实证方面,Entrocraft解决了性能饱和问题,显著提升泛化能力、输出多样性与长期训练效果。它使4B参数模型超越8B基线模型,在性能达到平台期前持续改进时间延长4倍,并将pass@K指标较基线提升50%。
键值(KV)缓存是长上下文推理中的主要瓶颈,其内存开销和计算量随序列长度线性增长。现有的KV驱逐方法虽能降低此类成本,但通常会导致推理性能相对于完整缓存有所下降。我们的核心观点是:完整缓存注意力并非始终最优——在长上下文中,无关标记会稀释注意力权重,使其偏离有效证据,因此具有选择性和可学习性的驱逐策略不仅能近似完整缓存,更能提升生成质量。为此,我们提出一种基于全局保留率的KV驱逐方法,在统一内存预算下学习每个标记的未来效用。轻量级保留门控为缓存的KV条目分配效用分数,而共享的最终评分投影层则跨所有层和注意力头校准这些分数。这使得全局驱逐策略成为可能——来自不同层、注意力头及模态的标记可直接竞争缓存容量。我们进一步提供理论分析,证明优先保留有用标记可缓解注意力稀释,并将几何保留率论证为一种不依赖查询的未来效用代理机制。在涵盖长上下文语言理解、视觉语言推理及多轮对话基准的实验中,我们的方法在显著降低KV内存的同时,匹配甚至超越了完整缓存推理的性能。这些结果表明,经过学习与全局校准的KV驱逐不仅是一种压缩技术,更是改进长上下文推理的有效机制。
扩散模型与流基模型已成为生成连续数据(如图像和视频领域)的事实标准方法。其成功吸引了越来越多将其应用于语言建模的研究兴趣。与图像领域的同类模型不同,当前主流的扩散语言模型主要基于离散词元进行操作。本文证明,通过最小化对离散领域的适应性改造,连续扩散语言模型同样可以实现有效性能。我们提出了嵌入式语言流(ELF),这是一类基于连续时间流匹配的连续嵌入空间扩散模型。与现有扩散语言模型不同,ELF在最终时间步之前始终保持在连续嵌入空间中,仅在最后一步通过共享权重网络映射到离散词元。这种设计使得图像领域扩散模型中的成熟技术(如无分类器引导)可被直接迁移应用。实验表明,ELF显著优于当前领先的离散和连续扩散语言模型,在更少的采样步数下实现了更优的生成质量。这些结果表明,ELF为构建高效的连续扩散语言模型提供了一条颇具前景的路径。
在大型语言模型压缩领域,结构化剪枝与知识蒸馏(KD)是典型技术手段,但其在预训练尺度(尤其是针对最新混合专家模型MoE)的应用策略仍不明确。本研究系统性地探索了大规模预训练中的MoE压缩问题,聚焦三个核心议题:剪枝是否提供优于随机初始化的预训练基础、专家压缩方案对持续训练后最终模型的影响机制,以及最优训练策略的选取。我们获得以下发现:首先,在深度、宽度及专家维度压缩中,预训练MoE模型的剪枝方案始终优于相同训练预算下从头训练的目标架构。其次,不同一次性专家压缩方法经过大规模持续预训练后最终性能趋于收敛。基于此,我们提出一种保留部分专家的简单融合策略,在多数基准测试中提升了下游任务表现。第三,将KD与语言建模损失联合优化的效果显著优于单独KD,在知识密集型任务上表现尤为突出。我们进一步提出多令牌预测(MTP)蒸馏方法,实现性能持续增益。最后,在相同训练token条件下,渐进式剪枝方案优于一次性压缩,表明架构渐变能产生更优的优化轨迹。综合应用这些发现,我们将Qwen3-Next-80A3B模型压缩至23A2B规模,仍保持竞争优势。这些成果为MoE模型的高效规模化压缩提供了实践指导。
基于大语言模型的多智能体系统正越来越多地被部署于长周期任务中,但单一决定性错误常常被下游智能体接受,并级联为轨迹级失败。现有工作将这一问题框架化为事后失败归因,即在轨迹结束后诊断出责任智能体和出错的步骤。然而,这一范式放弃了在轨迹仍在展开时进行干预的任何机会。在本工作中,我们提出AgentForesight框架,将这一问题重新定义为在线审计:在展开轨迹的每一步,审计器仅观察当前前缀,必须在无法访问未来步骤的前提下,决定继续运行还是在最早出现决定性错误时发出警报。为此,我们构建了AFTraj-2K语料库,包含编程、数学和智能体领域的智能体轨迹,其中安全轨迹通过严格筛选流程保留,不安全轨迹则在多个大语言模型评判者达成共识后,在其决定性错误步骤处进行标注。在此基础上,我们开发了AgentForesight-7B——一个紧凑型在线审计器,采用由粗到精的强化学习训练流程:首先在相邻安全/不安全前缀对的失败边界处为其赋予风险预判先验,随后在联合针对审计裁决的“什么”、“哪里”和“谁”三轴奖励下,将该先验精炼为精确的步骤级定位。在AFTraj-2K及外部Who&When基准测试上,AgentForesight-7B超越了包括GPT-4.1和DeepSeek-V4-Pro在内的领先商业模型,性能增益最高达+19.9%,步骤定位误差降低3倍,从而将事后失败检测的闭环扩展至支持部署时干预。项目页面:https://zbox1005.github.io/agent-foresight/
激活引导通过在推理时向内部表示添加方向来调控语言模型行为,但标准的残差流引导在有状态对话中可能失效。我们识别出KV缓存污染是一个关键失效模式:受引导的令牌状态被存储并反复重用,将局部扰动逐渐累积为连贯性退化。为解决这一挑战,我们提出门控裁剪注意力差值引导方法(GCAD),该方法从系统提示对自注意力的贡献中提取引导信号,并通过令牌级门控应用这些信号。在角色引导实验中,GCAD在保持特质控制的同时显著提升了长期连贯性。在主要的多轮基准测试中,GCAD将平均连贯性漂移从-18.6改善至-1.9,并将第10轮的特质表达从78.0提升至93.1。这些结果表明,当干预措施遵循模型已用于行为控制的提示介导路径时,激活引导变得更可靠。
推测解码通过两步流程加速大型语言模型(LLM)的自回归生成:轻量级草稿模型先提出候选词元,目标模型随后在一次前向传播中对其进行验证。尽管现代架构中的起草网络规模较小,其语言模型头部仍需对大规模词汇表进行投影,成为主要计算瓶颈之一。此前的研究主要通过静态或动态词汇表截断来缓解该问题,但这些方法在减轻瓶颈的同时引入了额外复杂性,例如需特殊构建词汇表、设计复杂的推理逻辑或修改训练方案。本文提出SlimSpec,一种对起草者语言模型头部进行低秩参数化的方法,通过压缩内部表示而非输出结果,在保留完整词汇表支持的前提下实现加速。我们采用EAGLE-3起草器在三种目标模型及多种基准测试中,分别于延迟受限和吞吐量受限的推理场景下评估该方法。SlimSpec相较于标准语言模型头部架构实现4-5倍加速,同时保持具有竞争力的接受长度,端到端加速比超越现有方法达8-9%。该方法仅需对训练和推理流程进行最小化调整,结合前述加速改进,使其成为各类起草语言模型头部架构的有力替代方案。
基于大语言模型的多智能体系统现已能够自动化从构思到论文撰写的完整研究流程,但一个根本问题依然存在:为谁而自动化?研究者们拥有不同的资源配比、方法论偏好和目标输出格式。生产统一输出的系统将系统性降低每个用户的个性化体验,这使得个性化成为研究自动化真正可用的前提条件。然而,实现个性化需要当前系统缺乏的三项能力:跨项目积累可复用的程序性知识、跨会话保留用户特定经验、以及内化难以显式形式化的隐性偏好。我们提出NanoResearch——一个通过三层共演化机制填补上述空白的多智能体框架。技能库将重复性操作提炼为可跨项目复用的精简程序规则;记忆模块维护用户与项目特定经验,使规划决策植根于每位用户的研究历史;无标签策略学习将自由形式反馈转化为规划器的持续参数更新,重塑后续协作行为。这三个层次协同演化:可靠技能产生更丰富的记忆,更丰富的记忆支撑更优的规划,而偏好内化持续将这一循环校准至每位用户。大量实验表明,NanoResearch相较最先进的AI研究系统取得了显著性能提升,并在连续循环中逐步自我优化,以更低成本产出更优研究。
记忆巩固,即短暂经历转化为稳定结构化表征的过程,是人脑中的基础组织原则,但作为现代序列模型的设计原则仍鲜有探索。本文借鉴成熟的神经科学记忆巩固理论与跨频率耦合机制,提出层级记忆模块(HMM)——一种由两个功能不同的子模块组成的神经记忆架构,这两个子模块以不同的更新频率运行。受转化假说启发,低频子模块产生捕捉抽象、要点级知识的高层表征,而高频子模块则生成保留更丰富情景细节的细粒度表征。最终记忆输出动态重构为两种表征的上下文关联组合,类似于人类记忆提取的重构本质。我们将HMM集成至基于Transformer的语言解码器中,形成Mela系列记忆增强型语言模型,该模型在测试时进行在线记忆巩固。为进一步利用HMM生成的多粒度记忆表征,我们提出MemStack方法,将不同层级的记忆特征分布到解码器早期层中,无需引入额外令牌。语言建模实验表明,Mela在所有模型规模上均优于Transformer基线模型。此外,在预训练上下文长度固定为4K的情况下,Mela在显著更长的上下文中仍保持性能,而Transformer基线模型在训练长度之外性能迅速下降。大量消融研究验证了各组件的贡献,并为实际配置提供了指导。
尽管多模态大语言模型在文本、图像和音频领域取得了进展,但个性化研究仍主要聚焦于视觉-语言范畴,联合覆盖文本、图像和音频的统一全模态基准测试仍然有限,且缺乏方法论严谨性来应对缺失角色场景或系统性基础能力研究。我们提出Omni-Persona,这是首个面向全模态个性化的综合基准测试。我们将该任务形式化为角色模态图上的跨模态路由,涵盖4个任务组与18个细粒度任务,共包含约750个数据项。为严格诊断基础能力行为,我们提出校准准确率(Cal),该指标联合奖励正确基础能力与适当放弃回答,并将缺失角色查询纳入统一评估框架。通过专项实验,我们得出三项诊断性发现:(i)开源模型存在一致的音频与视觉基础能力差距,而RLVR通过密集的规则监督部分弥合了这一差距;(ii)可回答召回率和参数规模并非完备的诊断指标,因为强召回率可能伴随缺失角色幻觉,且更大模型并非总能获得更高Cal值,这揭示了校准作为独立评估维度的必要性;(iii)SFT受限于大规模注释真值监督的构建难度,而RLVR通过结果级可验证反馈实现了更一致的泛化,但在当前奖励设计下会趋向保守行为和较低的生成质量。因此,Omni-Persona作为诊断框架,揭示了全模态个性化的潜在陷阱,可为未来后训练与奖励设计提供指导。
语言模型的安全对齐通过两种机制上不同的系统运作:拒绝神经元(控制有害知识是否被表达)和概念神经元(编码有害知识本身)。通过针对每个系统中的单个神经元,我们在跨七个模型(涵盖两个系列、参数规模从1.7B到70B)中展示了两种失败方向——通过抑制直接对显式有害请求绕过安全机制,以及通过放大从无害提示诱导出有害内容——且无需任何训练或提示工程。我们的研究结果表明,安全对齐并非稳健地分布在模型权重中,而是由单个神经元介导,每个神经元在因果上足以门控拒绝行为——抑制任意一个被识别的拒绝神经元,即可绕过针对多种有害请求的安全对齐。
尽管自然语言是大语言模型(LLMs)的默认媒介,但其有限的表达能力为复杂问题的解决带来了深层次的瓶颈。近年来人工智能领域的进展高度依赖规模扩张,但知识的单纯内化并不等同于其有效应用。本文将语言表征定义为用于映射和建模现实世界的语言与符号构建体系,并论证通过高级语言表征塑造图式是拓展LLM智能的下一个前沿。我们提出,LLM的知识激活与组织方式——即其图式——在很大程度上取决于用于表征特定任务的语言在结构与符号上的复杂程度。本文既为这一论断提供了形式化框架,也给出了实证支持。通过新的形式化模型,我们从多个维度呈现支撑该观点的证据:首先,梳理近年来的实践经验与新兴方法论,表明即便不调整模型参数或规模,审慎的语言表征设计也能带来显著的性能提升;其次,通过控制实验证明,在针对同一底层任务时,不同语言表征会引发LLM的性能差异及其内部特征激活模式的变化。这些发现共同凸显了语言表征设计作为未来研究方向的潜力。
强化学习显著提升了多模态大语言模型(MLLMs)的推理能力,但由此产生的策略在面对现实世界中的视觉退化(如模糊、压缩伪影和低分辨率扫描)时仍显脆弱。先前的视觉与深度强化学习鲁棒性技术依赖静态数据增强或基于价值的正则化,这些方法无法直接迁移至自回归MLLMs的无评论家强化学习微调中。针对此类退化强化推理并非易事:在轨迹生成过程中简单注入退化视图会引发奖励中毒,即感知遮挡会触发幻觉轨迹并破坏优化稳定性。我们提出ROMA框架,通过修改优化动力学在保持干净输入性能的同时,强化针对视觉退化的推理能力。该框架采用双前向传播策略,利用教师强制机制评估退化视图与干净图像轨迹的差异,避免在退化输入上生成新轨迹。为实现分布一致性,我们引入针对最差情况增强的令牌级代理KL惩罚;为防止正则化下的策略崩溃,基于干净图像优势的辅助策略梯度损失保留了可靠的奖励信号;为规避系统性的错误不变性,基于正确性条件的正则化仅对成功轨迹施加约束。在Qwen3-VL 4B/8B上涵盖七个多模态推理基准的实验中,相比GRPO,我们的方法在已知退化上鲁棒性提升+2.4%,未知退化上提升+2.3%,同时保持干净精度不变。
在本研究中,我们提出了一种名为“冻结编码器模型组合”的创新方法,用于构建多模态嵌入模型。我们基于VLM风格架构,通过适配非文本编码器使其为语言模型提供输入,从而让语言模型能够为所有类型的输入生成嵌入。我们展示的研究成果是:jina-embeddings-v5-omni套件——一对能够将文本、图像、音频和视频输入编码至统一语义嵌入空间的模型。我们的方法是通过为Jina Embeddings v5文本模型新增图像和音频编码器,将其扩展以支持其他媒介。核心文本嵌入模型与新增的非文本媒介编码器均保持冻结状态,仅对连接组件进行训练,这些组件仅占联合模型总权重的0.35%。相较于全参数重训练,这种训练方式效率显著提升。此外,语言模型基本保持不变,对文本输入生成的嵌入与原始Jina Embeddings v5文本模型完全一致。评估结果表明,该方法在性能上与现有最优技术相当,且与更大的多模态嵌入模型表现几乎持平。
基于LLM的演化已成为一种有前景的方式,通过改进非参数化工件来增强智能体,但其墙钟时间成本仍是主要瓶颈。我们指出,这一成本源于同步阶段执行以及每个LLM密集型阶段内部的不均衡。我们提出FlashEvolve,一个高效框架,用异步工作者和队列替代同步执行,使不同阶段和步骤能够重叠。为应对异步性引入的数据过时问题,FlashEvolve追踪工件版本,并应用不同策略来更新、丢弃或修补过时工件。与异步强化学习中的权值空间过时不同,语言空间过时是可检查且可修复的:过时工件不仅是延迟的工作,更是可读的证据,LLM能够对其进行反思、修正,并将其转化为有用的演化信号。FlashEvolve通过推测性阶段完成和自适应工作流控制,进一步提升吞吐量和令牌效率。在GEPA工作负载上,FlashEvolve在本地vLLM上实现了提案吞吐量提升3.5倍,在API服务上提升4.9倍,相比同步GEPA。该设计同样适用于ACE和Meta-Harness。
当多智能体系统(MAS)发生故障时,准确定位关键错误发生的位置是自动回滚至先前状态的第一步。由于基于大语言模型的MAS会产生长交互轨迹,错误归因仍然是一项根本性挑战。本文提出一种基于共形预测(CP)的错误归因框架,该框架提供有限样本、无分布假设的覆盖保证。我们针对智能体轨迹等序列数据,设计了基于过滤的CP新算法。与现有CP算法不同,我们的方法预测的是连续序列构成的集合,从而支持高效的恢复与调试。我们在多种智能体和数据集上验证了理论保证,表明错误可被精确隔离,进而利用预测集回滚MAS以修正自身错误。整体方法具有模型无关性,为MAS错误归因提供了原理性的不确定性层。代码已开源至 https://github.com/layer6ai-labs/conformal-agent-error-attribution。
Muon已成为预训练中Adam的高效替代方案,但在微调中仍未得到充分利用。一个关键障碍在于:大多数开源模型均采用Adam进行预训练,直接切换至Muon进行微调会因优化器不匹配导致性能下降。我们通过对照实验研究这种不匹配现象,并将其与Adam和Muon特有的隐式偏差相关联。实验证据表明,不匹配会破坏预训练知识,且这种破坏随更新强度增大而增大。由此我们提出假设:限制更新幅度可缓解不匹配问题。我们通过LoRA验证了这一假设:在语言和视觉任务中,LoRA缩小了全微调下Adam与Muon的性能差距。针对LoRA秩、灾难性遗忘及LoRA变体的进一步研究证实,不匹配严重程度与更新强度呈正相关。这些结果揭示了优化器不匹配对微调的影响机制及缓解方法。我们的代码已开源至https://github.com/XingyuQu/muon-finetune。
对齐多模态大语言模型(MLLMs)需要可靠的奖励模型,但现有的单步评估器可能陷入"懒惰评判"问题——利用语言先验而非细粒度视觉验证。尽管基于准则的评估在纯文本场景中能缓解此类偏差,但将其扩展至多模态任务时,视觉推理的复杂性成为瓶颈。响应间的关键差异往往取决于实例特定的视觉细节。要实现稳健评估,需动态合成能够隔离空间与事实差异的评估准则。为此,我们提出DeltaRubric方法,该方法将多模态偏好评估重塑为单一MLLM内部的"规划-执行"流程。DeltaRubric分两步运作:首先作为"分歧规划器",模型生成中立于具体实例的验证检查清单;随后切换至"检查清单验证器",基于图像与问题执行自生成的检查项目,最终形成有据可依的判断。我们将DeltaRubric构建为多角色强化学习问题,协同优化规划与验证能力。在Qwen3-VL 4B与8B指令模型上的验证显示,DeltaRubric取得显著实证提升。例如,在VL-RewardBench上,基础模型总体准确率分别提升+22.6(4B)与+18.8(8B)个百分点,大幅超越无准则基线。结果表明,将评估分解为结构化、可验证的步骤,能够实现更可靠且更具泛化性的多模态奖励建模。
同策略蒸馏为推理模型的训练提供了密集的逐令牌监督,然而,这种监督信号在哪些条件下有益、在哪些条件下有害目前尚不明确。应采用何种教师模型?在自蒸馏场景中,又应选取哪种具体上下文作为监督信号?最优选择是否会随令牌不同而变化?目前,解答这些问题通常需要代价高昂的训练过程,而聚合性能指标掩盖了单个令牌层面的动态变化。本文提出一种无需训练的诊断框架,以最高分辨率——即按令牌、按问题、按教师——进行分析。我们推导出理想节点梯度,定义为能使学生模型成功概率最大化的参数更新量。进而开发了一种可扩展的目标轨迹回放算法,以高效估计该梯度,即使面对包含长串中间推理的过程亦然。梯度对齐分数定义为该理想梯度与任意蒸馏梯度之间的余弦相似度,用于量化特定配置逼近理想信号的程度。在多种自蒸馏设置及外部教师模型下,我们观察到:相比学生已表现良好且教师信号趋于嘈杂的正确轨迹,蒸馏引导在错误轨迹上与理想梯度具有显著更高的对齐度。此外,我们发现最优蒸馏上下文同时依赖于学生模型的能力与目标任务,且不存在普遍有效的单一配置。这些发现支持了在蒸馏过程中采用按任务、按令牌的诊断分析方法。
当大型语言模型(LLMs)在智能代理循环中展现出更强能力时,基于词法的检索器是否仍具价值?这一疑问在构建深度研究系统时自然浮现。我们通过将BM25算法与具备更强推理和工具使用能力的前沿LLMs相结合来重新审视该问题。为支持研究者探索相同命题,我们推出Pi-Serini搜索代理,该工具配备文档检索、浏览与阅读三大功能模块。实验结果表明:在BrowseComp-Plus测试集上,配置优化且具备足够检索深度的词法检索器与高性能LLMs协同工作时,可有效支撑深度研究任务。具体而言,搭载gpt-5.5的Pi-Serini系统实现了83.1%的答案准确率与94.7%的表面证据召回率,其表现优于现有采用稠密检索器的搜索代理。对照实验进一步显示:相较于默认BM25设置,参数调优可使答案准确率提升18.0%,表面证据召回率提高11.1%;而增加检索深度较浅层检索设置更能将表面证据召回率提升25.3%。项目源代码已发布于https://github.com/justram/pi-serini。
我们提出Metal-Sci——一个包含10项科学Apple Silicon Metal计算内核任务的基准测试,涵盖六大优化范式(模板计算、N体问题全对搜索、多场玻尔兹曼、近邻表分子动力学、多核偏微分方程、快速傅里叶变换)。每项任务提供CPU参考实现、基于Roofline模型的适配度函数,以及一个留出的泛化规模测试集。该基准测试配备轻量级自动内核搜索框架,可运行时编译每个候选内核,依据Roofline模型在多个规模下评分,并将结构化编译诊断与各规模正确性诊断反馈给驱动(1+1)进化循环的冻结大语言模型。我们在M1 Pro上报告了Claude Opus 4.7、Gemini 3.1 Pro和GPT 5.5的独立单模型扫描结果:分布内自加速比范围为1.00倍至10.7倍。除原始加速比外,我们核心的方法论贡献在于结构性创新:留出的门控评分函数Φ_T(在搜索结束后,对智能体从未见过的配置进行一次评估)可作为该自动搜索循环的低成本机械监督原语——例如,它捕获了Opus模板<uint D> HMC在未见维度上返回错误样本的问题,以及GPT FFT3D最佳方案在分布内实现2.95倍加速比,但在256^3留出立方体上崩溃至0.23倍——这种仅凭分布内评分无法察觉的静默回归。代码见https://github.com/vicgalle/metal-sci-kernels
智能体编制的知识库为大语言模型(LLM)智能体在开放场景、知识密集型的下游任务中提供了持久化的外部知识。然而,这些知识库的质量系统性受限于不完整性、不正确性和冗余性,具体表现为:缺失证据或跨文档链接、低置信度或不精确的断言、以及歧义或指代消解问题。此类缺陷在迭代使用中会进一步累积,降低检索保真度与下游任务性能。本文提出DeepRefine——一种基于LLM的通用推理模型,用于优化智能体编制的知识库,能够根据用户查询改进任何预构建知识库的质量,使其更适配下游任务。DeepRefine通过与知识库的多轮交互,基于交互历史进行溯因诊断,定位潜在缺陷,并执行针对性的修正操作以增量更新知识库。为在缺乏黄金参考标准的情况下优化DeepRefine的修正策略,我们引入了“超越草稿收益”(GBD)奖励,并通过强化学习对推理过程进行端到端训练。大量实验表明,该方法相较于强基线模型,能够持续提升下游任务性能。
尽管视频基础模型在单次生成方面表现出色,但真实的电影叙事本质上依赖于复杂的多镜头序列。进一步的发展受限于缺乏能够应对三大核心挑战的数据集:真实的叙事逻辑、时空文本与视频的对齐冲突,以及主体到视频生成中普遍存在的"复制粘贴"困境。为弥合这一差距,我们提出MuSS——一个大规模、双轨数据集,专为多镜头视频和主体到视频生成而设计。该数据集源自3000多部电影,明确支持复杂蒙太奇转换和以主体为中心的叙事。在构建该数据集时,我们首创了一种渐进式描述生成流程,通过确保局部镜头级别的准确性,再强制全局叙事连贯性,从而消除上下文冲突。关键在于,我们实现了跨镜头匹配机制,从根本上杜绝了主体到视频生成中的复制粘贴捷径。伴随数据集,我们提出了电影叙事基准,包含视觉逻辑驱动范式和新颖的反复制粘贴方差指标,以严格评估连续叙事和3D结构一致性。大量实验表明,当前基线模型在连续叙事逻辑上表现不佳,或退化为简单的2D贴纸生成器,而我们的MuSS增强模型在叙事效果和跨镜头身份保持方面达到了最先进水平。
大型语言模型(LLMs)在数学推理方面取得了显著进展,但这一能力在不同语言间的可获取性并不均衡。尤其是低资源语言在推理性能上表现较弱。为解决这一问题,我们提出跨语言在线自蒸馏(COPSD)方法,该方法将模型自身的高资源语言推理行为迁移至低资源语言。COPSD采用同一模型同时作为学生与教师:学生仅接触低资源问题,而教师则获取包含问题翻译及英文参考解答在内的跨语言辅助信息。训练过程通过最小化学生自身生成序列上的全分布词元级散度,在提供密集监督信号的同时,避免了仅依赖结果反馈的强化学习(RL)所固有的稀疏性与不稳定性。在17种低资源非洲语言上的实验表明,COPSD在不同模型规模下均能稳定提升低资源语言的数学推理能力,并显著优于分组相对策略优化(GRPO)。进一步分析显示,COPSD改善了答案格式规范性,增强了测试时扩展能力,并能泛化至更具挑战性的多语言推理基准测试,其中对资源稀缺程度更高的语言提升尤为显著。我们已将代码与数据开源至:https://github.com/cisnlp/COPSD。
我们提出了一个新的公开语料库,包含从 kino.kz 收集的 100,502 条哈萨克斯坦电影评论,时间跨度从 2001 年到 2025 年,涵盖 4,943 部独立影片。该数据集是多语言的,主要由俄语评论构成,同时包含哈萨克语及语码混合文本。我们对评论进行了语言和情感极性的人工标注,其中 11,309 条评论还附带了用户明确提供的评分。我们定义了两个情感任务——三分类极性分类和五类评分分类——并将传统的词袋/TF-IDF 基线模型与多语言 Transformer 模型(mBERT、XLM-RoBERTa、RemBERT)进行了对比评估。实验结果表明,在极性分类任务中,Transformer 模型一致优于传统基线模型;而在防泄露评估条件下,由于严重的类别不平衡以及相邻评分等级间的细微差异,评分分类任务仍具有挑战性。
长视频理解在视觉语言模型(VLMs)中的瓶颈在于对数千帧图像进行单次整体前向传播时产生的二次方注意力计算开销。常见缓解方案是在前向传播前先筛选少量信息丰富的关键帧;主流无训练选择器通常通过辅助编码器空间相似性实现。这类信号受对比预训练上限约束,往往难以处理推理密集型查询(如否定判断、跨帧计数、整体摘要)。我们提出GridProbe——一种高效的无训练后验探测推理范式,该方法利用冻结VLM自身的推理能力在答案空间评估证据,进而自适应选择问题相关帧,在保持亚二次方注意力成本的同时几乎不损失准确率。我们将帧排列为K×K网格并运行轻量级行(R)列(C)探测,每个探测将其峰值后验作为查询条件置信度。R与C的外积生成可解释的重要性图谱,其偏态与峰度驱动形状自适应选择机制,该闭式规则能可靠地用每问题自适应的M_eff替代固定帧预算M。实证表明M_eff能追踪问题固有难度而无需预知答案,体现了测试时自适应计算特性。在Video-MME-v2数据集上,GridProbe以3.36倍计算量缩减实现与整体基线1.6个百分点的平均准确率差距;在LongVideoBench上则帕累托占优基线(计算量0.35倍时精度提升0.9个百分点)。由于选择器与问答模型可解耦,将20亿参数小型选择器与40亿/80亿参数强问答模型组合时,相对20亿参数整体基线形成严格帕累托优势(平均计算量0.52倍时最高提升4.0个百分点),且无需重新训练。重要性图谱的可解释性为未来行为诊断、语义 grounding 及帧选择蒸馏研究开辟了新途径。
细胞类型特异性标记基因是植物生物学的基础,然而现有资源主要依赖精选数据库或高通量研究,未明确建模科学文献中的支持证据。我们提出PlantMarkerBench——一个跨物种基准,用于评估基于文献的植物标记证据解释能力,其数据来自全文本生物学论文。PlantMarkerBench采用模块化整理流程构建,整合大规模文献检索、混合搜索、物种感知的生物学基础化处理、结构化证据提取及针对性人工审查。该基准涵盖拟南芥、玉米、水稻和番茄四种植物,包含5,550个句子级证据实例,分别标注了标记证据有效性、证据类型和支持强度。我们定义了两项基准任务:判断候选句子是否为基因-细胞类型对提供有效标记证据,以及将该证据分类为表达、定位、功能、间接或阴性类别。我们对不同物种和提示策略下的多种开源权重及闭源语言模型进行了基准测试。尽管前沿模型在直接表达证据上表现相对强劲,但在功能证据、间接证据及弱支持证据上性能显著下降,其中证据类型混淆成为主要故障模式。开源模型在模糊生物学语境下还表现出较高的假阳性率。PlantMarkerBench为基于文献的生物学证据归属提供了具挑战性且可复现的评估框架,并支持未来在可信科学信息提取和AI辅助植物生物学领域的研究。
记忆是机器人智能的关键组成部分,因为机器人必须依赖过去的观察和行动,在部分可观测环境中完成长时段任务。然而,现有的机器人记忆基准仍缺乏用于记忆形成的多模态标注,任务覆盖范围和结构复杂性有限,且局限于仿真环境,缺少真实世界评估。针对这一空白,我们提出了RoboMemArena——一个包含26个任务的大规模基准,每个任务的平均轨迹长度超过1000步,其中68.9%的子任务依赖于记忆。生成流程利用视觉语言模型(VLM)设计并组合子任务,通过原子函数生成完整轨迹,并提供与记忆相关的标注,包括子任务指令和原生关键帧标注,同时配对的真实世界记忆任务支持物理评估。我们进一步设计了PrediMem,一个双系统视觉-语言-动作模型(VLA),其中高层VLM规划器管理包含最近缓冲区和关键帧缓冲区的记忆库,并使用预测编码头来提高对任务动态的敏感性。在RoboMemArena上的大量实验表明,PrediMem优于所有基线方法,并为复杂记忆系统中的内存管理、模型架构和扩展规律提供了见解。
尽管混合专家模型(MoE)通过不按比例增加计算量来扩展模型容量,但其庞大的总参数量会引发严重的存储和内存访问瓶颈,从而阻碍了同时需要高性能、低计算成本和小存储开销的高效端侧部署。为实现这些特性,我们提出DECO——一种稀疏MoE架构,旨在相同总参数量和训练数据量下匹配密集Transformer的性能。DECO利用可微分且灵活的基于ReLU的路由机制,结合可学习的专家级缩放,自适应地平衡路由专家和共享专家的贡献。此外,我们引入NormSiLU激活函数,该函数在SiLU运算前对输入进行归一化,从而使路由专家的激活比例呈现更稳定的趋势,并提升内在稀疏性水平。我们还发现,在基于ReLU的路由中使用非门控MLP专家具有实证优势,这表明MoE架构可能存在简化的可能性。实验表明,仅激活20%专家的DECO即可匹配密集模型的性能,并优于已有的MoE基线。我们的专用加速内核在真实硬件上相比密集推理实现了3.00倍加速。相关代码和模型权重将公开发布。
我们提出了Shepherd——一种函数式编程模型,它将针对目标智能体的元智能体操作形式化为函数,其核心运算在Lean中实现机械化。Shepherd将每次智能体与环境之间的交互记录为类Git执行轨迹中的类型化事件,使得任何过去状态均可被分叉并重放。该系统对智能体进程及其文件系统的分叉速度比Docker快5倍,重放时提示缓存重用率超过95%。我们通过三个应用展示了该模型的能力。首先,在运行时干预中,实时监督器将CooperBench上的结对编程通过率从28.8%提升至54.7%。其次,在反事实元优化中,分支探索在四个基准测试上的表现比基线高出最多11个百分点,同时将墙钟时间降低最多58%。第三,在树强化学习训练中,选定回合的分叉滚出将TerminalBench-2的性能从34.2%提升至39.4%。这些结果确立了Shepherd作为高效元智能体编程基础设施的地位。我们将该系统开源,以支持未来研究。
多模态大语言模型(MLLMs)在长尾目标分布下的数值回归任务中表现不佳。基于标记的监督微调(SFT)和逐点回归奖励会导致模型偏向高密度区域学习,产生均值回归行为,并削弱尾部性能。我们指出现有MLLM训练范式缺乏跨样本关系监督这一关键局限。为此,提出一种基于群体相对策略优化的分布感知强化学习框架,该框架引入基于一致性相关系数的奖励机制,通过批次级比较监督,在相关性、尺度和均值层面对齐预测分布与真实分布。该框架即插即用,无需修改模型架构。在统一的长尾回归基准测试套件上进行的实验表明,该方法相较SFT及现有MLLM回归方法均有持续提升,尤其在中等样本和少样本场景下性能增益显著。
无分词器语言模型通过直接操作字节来消除语言建模流程中的分词步骤;基于补丁的变体则进一步将连续的字节跨度聚合为补丁以提高效率。然而,模型设计阶段选择的平均补丁大小决定了一个紧密的权衡:更大的补丁虽能减少计算量和KV缓存占用,却会降低建模质量。我们将这一权衡归因于补丁滞后:在补丁被完全观测之前,其中的字节预测必须依赖来自前一个补丁的过时表示以保持因果性;随着补丁增大,滞后也随之扩大。为此,我们提出暂存补丁(SP),在每个补丁内部插入临时暂存空间,以聚合已观测到的字节,并刷新补丁级别的上下文用于后续预测。SP利用下一个字节预测的熵来触发暂存,将计算选择性分配给信息密集区域,并实现对推理时计算的事后调整。在自然语言和代码领域的实验中,SP在相同补丁大小下提升了模型质量;例如,即使在每补丁16字节的设置下,SP增强模型在下游评估中也能匹配或接近字节级基准,同时将补丁KV缓存缩小16倍,推理计算减少3-4倍。
撒丁语作为一种拥有约一百万使用者的罗曼语族语言,在现代自然语言处理技术中几乎毫无存在感。商业服务不支持该语言,当前语言模型也无法可靠生成撒丁语文本。我们提出LLiMba——一个基于Qwen2.5-3B-Instruct模型、通过持续预训练(CPT)和监督微调(SFT)在单张24GB消费级GPU上适配的30亿参数撒丁语就绪模型。训练语料包含1150万撒丁语token(涵盖LSC、洛古多罗方言和坎皮达诺方言),另补充240万相关罗曼语族文本作为回放数据以避免语域模糊现象。持续预训练后模型在保留撒丁语数据集上达到6.76的困惑度,并在全部六个FLORES-200翻译方向上表现优于基础模型。我们比较了五种控制变量的微调配置:全参数微调、LoRA r64、rsLoRA r128、rsLoRA r256和DoRA r256。rsLoRA r256在所有撒丁语翻译方向上表现最佳,从英语翻译的BLEU值达28.5,而连续预训练后为17.3、全参数微调为21.0。秩消融实验显示,r128在BLEU指标上介于LoRA r64与rsLoRA r256之间,但暴露出指标无法捕捉的失败模式(包括其他变体未出现的跨文字系统泄露)。LoRA r64从SFT中保留的事实知识少于高秩配置,且会产生更自信的虚构内容——尽管所有方法对训练集缺失内容均存在虚构现象。DoRA r256在训练与评估之间差距最小,但事实准确度最差。研究结果表明:针对罗曼语族预训练基座适配低资源罗曼语目标语言时,适配器容量比LoRA变体选择更为关键;强正则化并非普遍有益;翻译指标能对定性行为存在本质差异的配置进行平滑排序。跨文字系统的困惑度比较必须考虑字节回退分词机制——该机制会人为降低非拉丁文字系统的困惑度值。
扩散语言模型(DLMs)近期作为自回归模型的一种有前景的替代方案出现,主要得益于其支持并行解码的能力。尽管具备这一优势,现有大多数DLMs仍依赖解码前预设的固定生成长度,这限制了其在实际应用中的灵活性。虽然后续有一些研究尝试支持灵活长度生成,但它们通常存在显著局限:部分方法需通过昂贵的重新训练来适配可变长度输出,另一些则仅依赖解码过程中的局部置信度信号。这类局部标准无法捕捉序列的演化结构,往往导致生成质量欠佳。本文提出一种免训练的贝叶斯结构化解码框架,将灵活长度生成形式化为动态结构推理问题。我们的方法将灵活长度生成建模为动态结构推理问题,联合计算扩展长度、块边界及解码调度。在每次窗口扩展步骤中,该方法通过统一机制融合局部不确定性与结构信号,支持包括灵活块扩展与块组织在内的动态结构化生成,同时保持生成连贯性。跨多个基准的广泛实验表明,我们的方法在生成质量和灵活性上显著优于现有的固定长度与灵活长度基线方法。这些结果凸显了贝叶斯结构化解码对扩散语言模型的优势,为结构化文本生成提供了原则性且高效的解决方案。
基于LLM/VLM的数字智能体在编码、网页导航和计算机操作的沙盒环境中取得了快速进展,这些可扩展的沙盒为交互式学习提供了丰富的训练平台。相比之下,具身智能体仍然缺乏丰富多样、可自动生成的3D交互学习环境。现有具身模拟器依赖人工构建的场景或程序化模板,而近年来基于LLM的3D生成系统主要产生静态场景,而非具备可验证任务和标准学习接口的可部署环境。我们提出SimWorld Studio,这是一个基于Unreal Engine 5构建的开源平台,用于生成可进化的具身学习环境。其核心是SimCoder,一个具备工具/技能增强的编码智能体,能够编写并执行引擎级代码,从语言/图像指令中构建物理真实的3D世界。SimCoder通过利用验证器反馈(如编译错误、物理检查、VLM评审)进行自我进化,修改环境并自主将可复用的工具和技能添加到其代码库中。生成的世界被导出为Gym风格的环境,用于具身智能体学习。SimWorld Studio进一步实现环境生成与具身学习的协同进化:智能体性能反馈引导SimCoder生成接近学习者能力边界的自适应课程,从而随着具身智能体的进步,环境复杂性不断提升。三项具身导航案例研究表明:自我进化提升了生成可靠性;生成的环境显著提升了具身智能体的性能,并可泛化至未见过的基准测试;协同进化相比固定环境学习带来了18个百分点的成功率提升,相比未训练智能体提升了40个百分点。
联合嵌入预测架构(Joint-Embedding Predictive Architectures, JEPAs)提供了一种通过预测未来潜在表征来学习世界模型的简单框架。然而,JEPA训练存在偏差-方差权衡问题。若缺乏足够的结构约束,过高的表征方差会导致模型坍缩至平凡解。近期提出的LeWorldModel(LeWM)表明,通过使用各向同性高斯先验约束潜在嵌入即可缓解此问题。然而,潜在表征本质上位于高维环境空间中的低维流形上,直接在该环境空间中施加各向同性高斯先验会引入过强的偏差。本文提出**ame**方法,通过在多个随机子空间而非原始嵌入空间中施加高斯约束,寻求偏差-方差前沿上的有利工作点。该设计在保留抗坍缩效应的同时放松了全局约束,从而在训练稳定性与表征灵活性之间取得更优平衡。在四个连续控制环境上的大量实验表明,**ame**方法以非常明显的优势持续优于LeWM。我们的方法简洁有效,可为未来基于JEPA的世界模型研究提供强基线。代码已开源:https://github.com/intcomp/Sub-JEPA。
大型语言模型智能体越来越多地通过一个中间技能层来运作,该层在用户意图与具体任务执行之间起中介作用。这一层被广泛视为一种组织抽象,但我们认为它同样是一个当前模型普遍超越的权限边界。我们提出了FORTIS基准测试,用于评估智能体技能中的超权限行为,该测试包含两个阶段:模型是否从庞大的重叠技能库中选择最低必要技能,以及是否在执行该技能时,不扩展到超出技能许可范围的更广泛工具或操作。在对十个前沿模型和三个领域的测试中,我们发现超权限行为是常态而非例外。模型始终倾向于使用任务所需权限更高的技能和工具,在两个阶段上的失败率即使对于最强的可用模型也居高不下。在真实用户交互的常见条件下——不完整的规范、便利性框架以及靠近技能边界——失败尤为严重。这些情况均无需对抗性构造。结果表明,技能层非但未能约束智能体行为,反而在当前系统中本身成为了权限提升的主要来源。
生物分子生成器常通过引入奖励反馈来提升特定任务的实用性,但单纯追求实用性会导致生成结果集中于狭窄的候选家族。保持多样性之所以困难,是因为样本多样性本身是一种集合层面的属性。本文提出超群相对策略优化(SGRPO)——一种灵活的GRPO风格框架,能够直接从集合层面的多样性构建奖励信号。针对每个条件,SGRPO采样一个由候选集构成的超群,在此条件下比较各候选集的多样性,并通过留一法多样性贡献将群体多样性奖励重新分配给单个生成序列,再与序列层面的实用性奖励结合。这种设计使SGRPO与特定的生成器、实用性奖励或多样性度量解耦,并支持采用不同GRPO风格方法进行实例化。我们在从头小分子设计、口袋约束小分子设计以及从头蛋白质设计任务上评估了SGRPO,分别使用GRPO和Coupled-GRPO在自回归与离散扩散生成器上进行了实例化。在解码扫描过程中,SGRPO扩展了实用性-多样性帕累托前沿,并在适用情况下取得了优于预训练生成器、GRPO及记忆辅助GRPO的前沿层面指标。进一步分析表明,直接使用集合层面多样性奖励在小组规模下仍保持有效性,并有助于在后训练阶段维持更广的生成分布覆盖。代码已开源:https://github.com/IDEA-XL/SGRPO。
我们提出了一种数据自适应的参数高效微调方法,用于大型神经网络的微调。标准的低秩适应方法通过将每层更新限制为固定的低秩形式来提高效率,但这种静态参数化在适当的校正依赖于输入和网络逐层深度计算时可能过于僵化。我们的方法将纯粹的逐层适配器替换为可查询的共享低秩更新元存储器。对于每一层模块,模型从当前低秩状态和之前模块的运行摘要中构成查询,通过注意力机制获取基于内容组合的共享更新组件,并在低秩瓶颈内应用生成的路径算子。这样,该方法既保留了低秩适应的效率和可扩展性,又使得有效更新能够随输入变化并在各层之间共享可复用结构。生成的架构在静态LoRA式更新和完全生成的参数更新之间提供了原则性的折中:它保持紧凑和参数高效,同时支持动态、上下文敏感的适应。此外,我们通过用语言诱导的先验来增强路由logits,从而将指令正则化纳入其中,使得低秩变换的选择偏向于语义相关方向,而不生成无约束的参数更新。在嘈杂的非线性回归任务和LLM微调上的实验表明,与标准低秩适应相比,这种可查询的更新记忆公式在可训练参数数量相当的情况下,能够提高最终的测试性能和训练稳定性。
通用新视角合成旨在无需逐场景优化的情况下,从无标定输入图像渲染未见视角。近年来基于三维高斯抛点的前馈方法在效率和渲染质量上取得了令人瞩目的成果。然而,大多数方法为每个像素或体素分配固定数量的高斯体,忽略了真实场景中空间变化的复杂度。这种均匀分配往往在平滑区域浪费高斯基元,同时无法为精细结构、复杂几何和高频细节提供足够容量。这促使我们预测区域相关的基元数量,而非在全局施加固定的基元预算,从而获得更具表现力且更紧凑的三维场景表示。为此,我们提出SplatWeaver,一个可泛化的新视角合成框架,能够以前馈方式在不同区域动态分配高斯基元。具体而言,SplatWeaver引入了基数高斯专家和像素级路由机制,其中每位专家专门生成从0到M的特定数量基元,而路由机制协调这些专家来自适应地确定每个空间位置应分配多少高斯基元。此外,SplatWeaver结合了高频先验及其伴随的引导模块和路由正则化,以稳定专家选择并促进复杂度感知的分配。通过利用高频结构线索,路由过程被鼓励将更多高斯基元分配给精细结构、复杂几何和纹理区域,同时抑制平滑区域中的冗余基元。跨多种场景的大量实验表明,SplatWeaver始终优于最先进的方法,以更少的高斯基元生成更忠实的新视角渲染图。
密集手部接触估计需要对人类交互中的接触区域进行精确的定位,这既要求高层次语义理解,也要求细粒度的几何推理。近年来,多模态大语言模型(MLLMs)凭借从大规模数据中学习的视觉-语言先验知识,在理解视觉语义方面展现出强大能力。然而,利用MLLMs进行密集手部接触估计的研究仍相对空白。将MLLMs应用于该任务面临两大挑战:首先,MLLMs主要处理视觉和语言模态,难以直接编码显式的3D手部几何信息;其次,MLLMs倾向于关注高层次语义而非精细几何推理,因此捕捉细粒度的顶点级接触仍然困难。为解决这些问题,我们提出ContactPrompt——一种基于MLLMs的无需训练且零样本的密集手部接触估计方法。为有效编码3D手部几何信息,我们引入了精细的手部部件分割以及逐部件顶点网格表示,从而提供结构化、局部化的几何信息。为实现准确且高效的密集接触预测,我们开发了一种带有部件条件约束的多阶段结构化接触推理机制,逐步弥合全局语义与细粒度几何之间的差距。因此,我们的方法既有效利用了MLLMs的推理能力,又实现了精确的密集手部接触估计。令人惊讶的是,所提方法在无需任何训练的情况下,其性能超越了以往在大规模密集接触数据集上训练的有监督方法。代码将公开发布。
多模态知识编辑(MKE)旨在修正大型视觉语言模型部署后的内部知识,然而编辑后模型的行为模式仍未得到充分探索。本文识别出编辑模型中的一种系统性失效模式,称为实体身份混淆(Entity Identity Confusion, EIC):编辑后的模型表现出一种荒谬行为,即仅通过文本查询原始实体身份时,竟意外返回新实体的信息。为严谨研究EIC,我们构建了EC-Bench诊断基准,直接探查编辑前后图像-实体绑定的变化。分析表明,EIC源于现有方法未能区分模型中的图像-实体(I-E)绑定知识与实体-实体(E-E)关系知识,导致模型将E-E关联作为捷径而过拟合:图像仍被视为原始实体,而新实体名称仅充当虚假的身份标签。我们进一步探索了潜在的缓解策略,发现将编辑约束于模型的I-E处理阶段,可促使编辑更忠实地作用于I-E绑定,从而显著减少EIC。基于这些发现,我们讨论了忠实MKE应遵循的原则性期望,并为未来研究提供了方法论指导。
本文提出了一种创新方法,旨在解决预训练视觉语言动作(VLA)模型在标准监督微调(SFT)过程中常面临性能提升有限与适应成本过高的问题。现有采用辅助训练目标的先进微调方法虽能提升性能并减少收敛步数,但通常会因附加损失函数引入显著计算开销。为实现辅助训练的性能增益与标准SFT的简洁性双重目标,我们在参数空间内解耦了辅助目标SFT的两个核心诉求——即增强通用能力与适配任务特定动作分布。具体实现时,仅需通过两种差异化训练策略使模型在小规模任务集上收敛,获得两个微调模型。二者间的参数差异可解析为辅助目标所提供的能力向量,这些向量与预训练参数融合后即可形成能力增强的元模型。值得注意的是,当标准SFT辅以轻量级正交正则化损失时,融合模型在降低计算开销的同时,仍能保持与辅助微调基线相当的性能。内外实验表明,本研究提出的能力向量具有以下特性:(1)跨模型普适性强且效果显著;(2)具备开箱即用的新环境与新实体泛化能力。
近期深度伪造检测方法在跨数据集泛化方面取得改进,但其内在机制仍未被充分探索。我们提出阿尔法混合假说(Alpha Blending Hypothesis),认为当前最先进的基于帧的检测器本质上充当了阿尔法混合搜索器——它们并非学习语义异常或特定的生成神经网络指纹,而是定位在将操纵人脸融入目标帧过程中引入的低层次合成伪影。我们通过实验验证该假说,证明深度伪造检测器对所谓的自混合图像(SBI)及非生成性操纵具有高度敏感性。我们提出BlenD方法,利用大规模、多样化的仅含真实人脸图像数据集,并辅以SBI增强。该方法在不使用显式生成的深度伪造样本进行训练的情况下,在2019年至2025年间发布的15个组合式深度伪造数据集上实现了最佳平均跨数据集泛化性能。此外,我们表明显式混合搜索器与对混合捷径具有鲁棒性的模型的预测结果高度互补,在集成配置下达到了94.0%的AUROC最优水平。包含实验的代码及训练好的模型将公开发布。
蛋白质功能通常由配体(如激动剂和拮抗剂)通过偏向状态转变的方向来调控,而非通过稳定单一构象实现。这对临床相关的G蛋白偶联受体(GPCR)尤为重要,其治疗效果取决于功能方向性。基于结构的设计方法优化与静态构象的结合,无法表征不可逆的方向性效应,也无法系统性区分激动剂与拮抗剂行为。为解决这一局限,我们提出面向变构配体设计的过渡导向离散扩散模型(TD3B),这是一种基于序列的生成框架,通过方向性转变控制目标设计具有指定激动剂或拮抗剂行为的配体。TD3B结合了目标感知的方向预判器、软结合亲和力门控机制,以及对预训练离散扩散模型的摊销微调,能够在与结合亲和力解耦的前提下实现靶向激动剂和拮抗剂的生成,而基于平衡态或仅依赖推理的引导基线方法无法实现这一目标。代码和检查点可在 https://huggingface.co/ChatterjeeLab/TD3B 获取。
当手机使用代理避免伤害时,这究竟体现了安全性,还是仅仅是无力执行操作?现有评估往往无法区分。有害结果被避免,可能是因为代理识别到风险并选择了安全行为,也可能是因为它未能理解屏幕内容或根本未能执行任何相关操作。这些情况成因不同,需要不同的修正方案,但当前基准测试往往将它们混为一谈,统一归为任务成功、拒绝或最终有害结果。我们通过PhoneSafety基准来应对这一问题,该基准包含700个安全关键时刻,均来自超过130个应用的真实手机交互场景。每个实例在风险时刻聚焦下一个决策,并提出一个简单问题:模型是采取了安全行为、不安全行为,还是未能执行任何有用操作?我们在此框架下评估了八个具有代表性的手机使用代理。结果揭示出两种主要模式。第一,更强的通用手机操作能力并不一定意味着在风险时刻能做出更安全的选择。在普通应用任务中表现更好的模型,在下一步操作至关重要时并不总是能更安全地行动。第二,未能执行任何有用操作更像是一种能力信号而非安全信号:这类情况集中在视觉和操作要求更高的场景中,且随着评估协议的变化保持稳定。不同模型之间,失败可分为两种常见模式:在模型能够操作但做出错误选择时的不安全行为,以及在视觉和操作要求更高的屏幕上无力执行操作。总体而言,无害的结果不足以作为安全性的证据。评估手机使用代理需要将不安全判断与无力执行操作区分开来。
学习率步长通常被视为超参数。本文分离出一种局部置信空间计算方法:当更新被建模为概率单纯形上的投影前进步时,可容许性意味着在自然KL散度/Bregman几何中的收缩性。在此模型下,可容许步长的上界并非调参口号,而是一个确定公式。
在LLM预训练中,提升高质量数据的权重通常能改善性能,但在数据受限场景下(尤其是过度训练时),更强的权重提升会增加重复性并可能降低性能。然而,标准缩放定律无法在多种混合配比或重复条件下可靠地外推,导致规模扩展时最优数据配比的选择存在不确定性。为解决这一问题,我们提出InfoLaw(信息缩放定律),一种数据感知的缩放框架,能够根据消耗的令牌数、模型规模、数据混合权重和重复次数预测损失。其核心思想是将预训练建模为信息累积过程,其中质量控制信息密度,而重复则导致随规模变化的边际收益递减。我们首先在规模、质量分布和重复级别各异的训练数据集上收集模型性能,随后构建信息建模,使信息能够准确预测这些模型性能。InfoLaw在未见过的数据配比和更大规模运行(最多70亿参数、4250亿令牌)上预测损失,平均绝对误差为0.15%,最大绝对误差为0.96%,并且能在不同过度训练水平下可靠外推,从而实现在不同计算预算下的高效数据配比选择。