每日精选AI研究论文及翻译
在策略自蒸馏方法中,学生模型会向一个基于特权上下文(如已验证的解答或反馈)的自身副本靠拢,这为无需更强外部教师模型即可提升推理能力提供了有前景的方向。然而在数学推理领域,即便相同方法在其他领域表现优异,其性能提升却并不稳定。点互信息分析揭示了失败根源在于特权上下文本身:它会过度提升教师模型对解题路径中已隐含的标记(如结构连接词、可验证断言)的置信度,同时压低对引导多步搜索的推敲标记(如"等等""假设""或许")的置信度。本文提出反自蒸馏(AntiSD)方法,通过扩大而非缩小学生与教师模型之间的散度实现优化:该方法逐标记反转梯度符号,并在一阶优化中自然形成有界优势。配合基于熵值的触发门控机制(当教师模型熵值崩塌时禁用该项),AntiSD可作为默认自蒸馏的即插即用替代方案。在4B至30B参数规模的五个模型上,AntiSD仅需GRPO基线2至10分之一的训练步数即可达到其准确率,并将最终准确率最高提升11.5个百分点。AntiSD开辟了可扩展的自我改进路径,使语言模型能够通过自身训练信号实现推理能力的自举提升。
自动化科学发现不仅仅是根据想法生成论文。真正的研究是迭代的:假设从多个角度受到挑战,实验失败并指导下一次尝试,知识在循环中不断积累。现有的自主研究系统通常将这一过程建模为线性流水线:它们依赖单智能体推理,在执行失败时停止,且不将经验跨轮次传递。我们提出AutoResearchClaw,一个基于五种机制的多智能体自主研究管线:用于假设生成和结果分析的结构化多智能体辩论;配备Pivot/Refine决策循环、将失败转化为信息的自愈执行器;防止虚构数字和幻觉引用的可验证结果报告;具有七种干预模式、涵盖从完全自主到逐步监督的人机协作机制;以及将过去错误转化为未来保障的跨轮演化。在包含25个主题的实验阶段基准测试ARC-Bench上,AutoResearchClaw比AI Scientist v2高出54.7%。通过七种干预模式的人机消融实验表明,在关键杠杆决策点上的精准定向协作始终优于完全自主和详尽逐步监督。我们将AutoResearchClaw定位为增强而非替代人类科学判断的研究放大器。代码地址:https://github.com/aiming-lab/AutoResearchClaw。
尽管视频多模态大语言模型(MLLMs)发展迅猛,但我们发现其视频中的音频理解能力往往由视觉驱动:模型依赖视觉线索来推断或幻觉声学信息,而非验证音频流。这一问题在目前最先进的开源全能模型以及谷歌和OpenAI等机构推出的领先闭源模型中均有体现。我们将这种故障模式定义为音视“聪明的汉斯效应”——模型看似基于音频判断,实则利用视觉-声学相关性,而不验证音视频流是否真正对齐。为系统研究该行为,我们提出Thud框架:一种基于三种反事实音频编辑的干预驱动探测框架——Shift(测试时间同步性)、Mute(测试声音存在性)和Swap(测试音视频一致性)。除了诊断,我们进一步探讨了两阶段对齐策略:干预生成的偏好对教会模型进行音频验证,而事件级通用视频偏好则防止模型过度特化。我们最优的10K样本策略在三个干预维度上的平均性能提升了28个百分点,同时在通用视频及音视频问答基准上略微提升了表现。
成对排序提示(PRP)从大语言模型中获取成对偏好判断,随后通过经典排序算法将这些判断聚合为排名。然而,由于判断存在噪声、顺序敏感性及非传递性,排序假设与实际情况并不匹配。由于排序旨在恢复完整排列,为满足调用预算而截断排序过程无法生成可靠的Top-K结果。因此,我们将PRP重新排序重构为基于噪声成对比较的主动学习,并证明主动排序器可作为即插即用替代方案,在调用受限场景下显著提升每次调用的NDCG@10指标。我们的噪声鲁棒框架还引入了一种随机方向预言机,每对仅需一次LLM调用。该方法将系统性位置偏差转化为零均值噪声,无需双向调用即可实现无偏聚合排序。
我们提出OpenComputer——一个基于验证器的框架,用于构建计算机操作智能体可验证的软件世界。OpenComputer整合了四个组件:(1)针对具体应用的狀態驗證器,可在真实应用中暴露结构化检查端点;(2)自我进化的验证层,利用执行反馈提升验证器可靠性;(3)任务生成流水线,综合生成现实且可机器检验的桌面任务;(4)评估工具链,记录完整轨迹并计算可审计的部分得分奖励。当前版本中,OpenComputer覆盖33个桌面应用及1000个最终任务,涵盖浏览器、办公工具、创意软件、开发环境、文件管理和通信应用。实验表明,OpenComputer的硬编码验证器相较于LLM评判模式更接近人类仲裁结果,尤其在成功取决于细粒度应用状态时。前沿智能体在端到端完成上表现困难,尽管能取得部分进展;而开源模型的表现较其OSWorld验证得分出现显著下滑,揭示出稳健计算机自动化领域持续存在的差距。
我们提出GoLongRL,这是一种完全开源的、面向能力的长上下文强化学习后训练方案,采用可验证奖励机制(RLVR)。现有长上下文强化学习方法通常将数据构建视为设计日益复杂的检索路径的问题,导致任务覆盖同质化,且奖励公式难以充分反映实际长上下文需求。本工作包含两个贡献:(1)面向能力的数据构建与完全开源。我们公开释放包含23K个RLVR样本的数据集、完整的构建流程以及所有训练代码。基于长上下文能力分类体系,该数据集覆盖9种任务类型,每种任务均配有自然的评估指标。数据集包含来自已有语料库的精选开源样本,以及基于真实源文档(如图书、学术论文和多轮对话)生成的合成样本及其问答对。在相同的标准GRPO设置下,仅使用我们的数据集即可优于闭源的QwenLong-L1.5数据集。此外,在此数据上训练的Qwen3-30B-A3B模型展现出与DeepSeek-R1-0528和Qwen3-235B-A22B-Thinking-2507相当的长上下文性能,表明更广的覆盖范围和更大的奖励多样性对长上下文能力提升有显著益处。(2)面向异质多任务优化的TMN-Reweight。为应对异质奖励带来的优化挑战,我们提出TMN-Reweight,该方法结合了任务级均值归一化(用于跨任务奖励尺度对齐)和难度自适应加权(用于更可靠的优势估计)。TMN-Reweight在标准GRPO基础上进一步提升了平均性能,且通用能力在报告的各项评估中保持或有所提升。
过程奖励模型(PRMs)为推理过程提供步骤级别的反馈,但当前的PRMs通常仅为每个步骤输出单一奖励分数。因此,下游方法必须将不完美的步骤级奖励预测视为可靠的决策信号,而无法获知这些预测在何时应被信任。我们提出BetaPRM,这是一种分布式的PRM,可同时预测步骤级别的成功概率及其预测的可靠性。基于蒙特卡洛延续路径的步骤成功监督信号,BetaPRM通过Beta-Binomial似然函数学习一个Beta信念分布,以解释观察到的成功延续路径数量,而非将有限样本的成功率作为点目标进行回归拟合。这种学习到的可靠性信号能够指示何时应信任步骤奖励,使下游应用能够区分可靠奖励与不确定奖励。作为一项应用,我们针对PRM引导的Best-of-N推理提出自适应计算分配(ACA)方法。ACA利用学习到的可靠性信号,在高奖励解可靠时停止推理,并在不确定的候选前缀上投入额外计算资源。在四种不同基础模型和四个推理基准上的实验表明,BetaPRM在提升PRM引导的Best-of-N选择性能的同时,保持了标准的步骤级错误检测能力。基于此信号,ACA在准确性-计算量权衡上优于固定预算的Best-of-16方法,在最终答案准确率提升的同时,最多可减少33.57%的计算量。
通过基于智能体的强化学习(Agentic RL)为大型语言模型配备工具使用能力,目前面临两大瓶颈:缺乏可扩展且稳健的执行环境,以及缺少能捕捉隐式人类推理的真实训练数据。现有方法依赖成本高昂的真实世界API、易产生幻觉的LLM模拟器,或单一交互轮次、依赖预收集文档的合成环境。此外,合成轨迹常带有过度明确的意图描述,类似于指令序列而非自然的人类意图,这削弱了其在强化学习训练中的有效性。我们提出EnvFactory——一个全自动化框架,同时解决上述两大挑战。EnvFactory从真实资源中自主探索并验证有状态、可执行的工具环境,通过拓扑感知采样与校准式精炼合成自然的多轮交互轨迹,生成包含隐式意图的接地查询。仅凭涵盖7个领域的85个已验证环境,EnvFactory即可生成2,575条监督微调与强化学习轨迹。尽管所使用的环境数量远少于先前工作(同类工作常使用5倍以上的环境),EnvFactory却实现了更优的训练效率与下游性能:在BFCLv3上使Qwen3系列模型性能提升最高达+15%,在MCP-Atlas上提升+8.6%,在τ²-Bench与VitaBench等对话基准测试中提升+6%。通过完全自动化环境构建与轨迹合成流程,EnvFactory为智能体强化学习提供了可扩展、易扩展且稳健的基础。
近年来,扩散模型在视频生成中展现出高度的逼真度和流畅性,但在处理抽象、稀疏或复杂条件时仍显脆弱,导致故事板草图、黏土渲染条件等专业制作流程表现不佳。现有视频生成模型要么通过适配器注入条件,要么在扩散骨干中耦合通用视觉语言模型(VLM),这造成了能力差距,难以生成契合用户创作意图的视频。本文提出CogOmniControl——一个推理驱动的框架,将可控视频生成分解为创作意图认知与生成两个环节。具体而言,我们利用真实动漫制作数据训练了专用CogVLM。相较于通用VLM,它能从稀疏抽象条件中准确认知用户创作意图,并生成更专业清晰的输出,将这些线索转化为稠密推理结果。此外,CogOmniDiT通过上下文生成统一多种条件的控制,并借助强化学习与CogVLM的推理输出对齐。进一步,利用CogVLM在指导视频生成中的强大能力,我们释放了其规划特定评估器的潜力,实现对生成视频的"N选一最优选择"。这种整合将整个框架转化为闭环的"类似缰绳"架构。我们进一步构建了CogReasonBench与CogControlBench,这些基准基于专业制作流程数据,承载真实创作意图而非模拟数据。在两个基准上的实验表明,CogOmniControl超越了现有开源模型。项目网站:https://um-lab.github.io/CogOmniControl/
将基于过往经验的可复用技能赋予大语言模型(LLM)智能体,已成为处理复杂且长周期任务的流行且成功的方法。然而,这类经验通常以文本指导的形式编码,很大程度上仅停留在建议层面,缺乏在何时以及如何干预智能体循环的显式机制。为弥补这一差距,我们提出HASP(利用技能程序驾驭LLM智能体)框架,该框架将技能升级为可执行的程序函数(PF)。程序函数并非提供被动建议,而是作为可执行的护栏机制,在易失败状态激活,修正下一步动作或注入纠错性上下文。HASP具有高度模块化特性:可在推理时直接干预智能体循环,在训练后阶段提供结构化监督,或通过演化经过验证、教师审查的程序函数实现自我改进。实验表明,在网页搜索、数学推理和代码编写任务中,与无训练方法及基于训练的方法相比,HASP均带来显著性能提升。例如,在网页搜索推理任务中,仅推理时应用程序函数即可使平均性能相较于(多轮)ReAct智能体提升25%,而训练后结合受控演化则比Search-R1实现30.4%的提升。为深入揭示HASP的机理,我们的机制分析阐明了程序函数如何触发并干预、技能如何内化,以及稳定技能库演化的必要条件。
最近的视频编辑模型已收敛于统一的调控设计:一个单一的扩散Transformer联合处理文本、源视频和参考图像,并通过一组权重涵盖替换、移除、风格迁移和参考驱动的插入。这种设计灵活,但假设用户已提供模型就绪的文本、参考图像以及局部编辑的空间定位,而实际请求往往缺失这些内容。我们提出Aurora,一个智能体式视频编辑框架,将工具增强的视觉语言模型(VLM)智能体与统一的视频扩散Transformer配对。VLM智能体将原始用户请求映射为与Transformer调控通道一致的结构化编辑计划,从而在生成前解决文本和视觉上的欠指定问题。我们使用包含完整编辑计划和参考图像选择的监督数据,以及用于鲁棒工具使用和指令优化的偏好对,来训练VLM智能体。我们引入AgentEdit-Bench,用以评估在文本和视觉欠指定条件下的智能体增强视频编辑。在AgentEdit-Bench和两个现有视频编辑基准上的实验表明,Aurora相比仅依赖指令的基线方法有所改进,并且VLM智能体能迁移至兼容的冻结视频编辑模型。项目页面:https://yeates.github.io/Aurora-Page
近年来,视频生成模型大幅提升了AI生成视频的逼真度,但其输出仍存在时间不一致、结构扭曲和语义不连贯等伪影。尽管多模态大语言模型(MLLMs)展现出强大的视觉理解能力,但它们感知和推理此类伪影的能力尚不明确。现有基准测试往往缺乏对伪影感知能力的系统性评估,以及细粒度的诊断性推理能力,尤其在覆盖超写实内容以外的多类型AI生成视频领域存在不足。为填补这一空白,我们提出Artifact-Bench——一个用于评估MLLMs在AI生成视频伪影检测与分析方面能力的综合性基准。首先,我们建立了一个三级层次化逼真度伪影分类体系,涵盖写实、动画和CG风格视频。基于此分类体系,Artifact-Bench定义了三个互补任务:真实视频与AI生成视频分类、成对逼真度比较以及细粒度伪影识别。在19个主流MLLMs上的实验揭示了它们在伪影感知与推理方面的严重局限性,许多模型在具有挑战性的场景下表现趋近随机甚至低于随机水平。此外,我们观察到MLLMs判断与人类感知偏好之间存在显著偏差,这凸显了其作为AI生成视频逼真度通用评估器的可靠性有限。
对话式AI现已覆盖数十亿用户,然而现有数据集仅记录人们说了什么,而非他们内心所想。我们提出ThoughtTrace——首个将真实世界多轮人机对话与用户自我报告的思维(包括用户发送提示的原因及对助手回复的反应)配对的大规模数据集。该数据集涵盖1,058名用户、2,155次对话、17,058轮交互及10,174条思维注释,涉及20种语言模型。分析表明,ThoughtTrace捕获了长程、主题多样化的交互过程,且用户的思维与消息在语义上存在显著差异:前沿大语言模型难以从上下文中推断这些思维,其内容多元,并与对话阶段紧密关联。我们进一步展示了思维在下游建模中的价值:一方面,思维作为推理时的上下文可提升用户行为预测的性能;另一方面,思维引导的重写为训练个性化助手提供了细粒度的对齐信号。综上,ThoughtTrace将用户思维确立为一种新的数据模态,用于研究人机交互背后的认知动态,并为构建能更好理解并适应用户潜在目标、偏好与需求的助手奠定了基础。
当前用于图形用户界面(GUI)智能体的基准测试主要依赖静态截图。然而,现实世界的智能手机交互场景中,智能体往往需要处理与操作时机紧密耦合的瞬时音频线索和时序视频动态。为弥补这一差距,我们提出OmniGUI——首个面向全模态智能手机环境、专为评估GUI智能体设计的步骤级基准。OmniGUI在每个动作步骤中提供连续交错的多模态输入,包含静态图像、同步音频及视频片段。该数据集涵盖29款应用中的709条专家示范轨迹(2579个动作步骤),并系统标注了客观的多模态依赖层级。由于专门的全模态GUI智能体框架尚处萌芽阶段,我们选取能原生处理交错输入的基础全模态模型作为初始基线的代理智能体。实证评估表明,当前模型在视觉静态任务上表现尚可,但在需要同步时序与听觉信号的环境中,其动作预测性能显著下降。此外,消融实验揭示了具体操作瓶颈,尤其是在处理任务无关的环境噪声时存在的跨模态干扰问题。完整数据集、评估流程及基线提示词均在补充材料中提供。项目页面:https://omni-gui.github.io。
视频生成正从单镜头合成迅速演进至复杂的多镜头音视频(MSAV)叙事,以满足现实世界的需求。然而,评估此类前沿模型仍是一项根本性挑战。现有基准在覆盖范围和数据类型上存在局限,且依赖僵化的评估流水线,无法对现代MSAV模型进行系统且可靠的评估。为弥补这些不足,我们提出了MSAVBench——首个面向多镜头音视频生成的综合基准与自适应混合评估框架。我们的基准涵盖四个关键维度:视频、音频、镜头与参考,涉及多样化的任务设置、最多达15个镜头的可变数量以及具有挑战性的非真实场景。我们的评估框架通过以下机制提升鲁棒性:镜头分割的自适应自修正机制、主观指标的实例级评分规则,以及面向复杂判断的基于工具的证据提取方法。此外,MSAVBench与人类判断高度一致,斯皮尔曼等级相关系数达到91.5%。我们对19个最先进的闭源与开源模型进行了系统评估,结果表明当前系统在导演级控制与细粒度音画同步方面仍存在困难,而模块化或代理式生成流水线则为缩小开源与闭源模型之间的差距提供了有前景的路径。我们将公开基准数据与评估代码,以促进未来研究。
AI评估正在经历结构性变革。大型语言模型越来越多地被部署为通过工具、环境、用户和其他智能体随时间持续行动的系统,而许多评估实践仍沿用源于以响应为中心的基准测试的假设(例如固定输入、孤立输出以及仅凭单次响应即可做出的结果判断)。该领域已开始构建交互式基准测试,但由此产生的格局呈现碎片化:不同基准测试在接纳入何种交互产物、如何为轨迹打分以及其结果支持何种主张方面存在差异。本立场论文主张,交互式评估应被视为一种原则性的评估范式,而不仅仅是新型智能体基准测试的集合。简单沿用以往的评估范式已不适用。我们将评估定义为从证据到判断的自主映射,并表明交互式评估改变了这一映射的两个方面:证据变为由交互生成的轨迹,而评估程序必须对过程、可恢复性、协调性、稳健性和系统级性能进行评判。基于这一定义,我们提出双轴分类法,推导出设计原则和报告标准,审视代表性场景,并分析长期存在的评估挑战如何在轨迹层面重新显现。
在基于可验证奖励的强化学习(RLVR)中,当模型生成正确解答时,每个token获得相同的奖励信号,无论该token属于关键推理步骤还是语法填充词。一种自然的改进方法是利用正确答案作为教师信号来约束模型,识别出若模型提前知道答案时会生成的不同token。然而,先前研究表明该方法存在两种缺陷:要么因将答案泄露至梯度而破坏训练,要么产生无法区分关键步骤与填充词的微弱信号——因为相对于模型基线,两者均表现出同等程度的"意外性"。本文提出对比证据策略优化(Contrastive Evidence Policy Optimization, CEPO),该方法在每个token处提出更精准的问题:不仅关注"正确答案是否偏好该token?",更追问"该token是否同时满足正确答案偏好且错误答案排斥?"。同时满足两者的token为真实推理步骤,反之则为填充词。错误答案教师信号由训练批次中已有的被拒绝轨迹构建,无需额外采样成本。理论证明,CEPO继承了先前最优方法的所有结构安全性保证,同时在关键token处实现更明确的信用分配,且这种改进在填充词位置完全消失。实验表明,在五个多模态数学推理基准测试中,CEPO在2B和4B规模下分别达到43.43%和60.56%的平均准确率,而GRPO在相同训练预算下仅为41.17%和57.43%。基于分布匹配的自蒸馏方法(OPSD、SDPO)的性能甚至低于未训练基线,实证验证了我们理论预测的信息泄露问题。我们的代码已开源至https://github.com/ahmedheakl/CEPO。
城市建筑能耗建模在实现联合国可持续发展目标7和11中发挥着关键作用。尽管基于卫星影像和深度学习的现有研究已取得显著进展,但仍面临诸多挑战:多数研究本质上是预测性的,未能体现城市规划的生成式特性;虽然生成式人工智能和扩散模型在卫星影像领域呈现爆发式发展,但缺乏城市功能生成(如能源层);此外,与卫星影像对齐的高质量高分辨率建筑能耗数据极为稀缺。为此,我们提出SENSE(面向可持续环境的卫星能源合成),这是一个统一的生成式UBEM框架,能够联合合成真实城市卫星影像以及与影像对齐的高质量建筑能耗地图和高度地图。SENSE以道路网络和城市密度指标为条件,基于可控扩散模型,利用大型视觉模型所学知识在潜在空间中生成城市建筑能耗和高程信息(标注数据)。在四个城市(纽约、波士顿、里昂、釜山)的实验表明,SENSE实现了高视觉保真度和强物理一致性,满足ASHRAE标准指标。实验同时证明,SENSE仅使用不到20%标注能耗数据即可生成充足的合成标注数据,将下游预测性能提升10% IoU。与最先进的城市能耗预测方法相比,SENSE显著降低了预测误差(NMBE降低3%-11%,CVRMSE降低1%-9%)。本研究为城市科学、能源科学和建筑科学提供了一种能效导向的城市规划和物理生成解决方案。数据集与代码:https://huggingface.co/datasets/skl24/MUSE 和 https://github.com/kailaisun/GenAI4Urban-Energy/。
视频扩散模型在感知真实性和时间连贯性方面取得了快速进展,但其优化目标仍主要侧重于生成合理的画面,而非可验证的推理。这一局限性在生成视频必须满足明确的空间、时间或逻辑约束的任务中尤为突出。受可验证奖励强化学习(RLVR)在面向推理的语言模型中所起作用的启发,我们提出了VideoRLVR,这是一种通过基于规则的反馈优化视频扩散模型的实用方法。VideoRLVR将视频推理建模为可验证视觉轨迹的生成,其核心包括SDE-GRPO优化框架、密集分解奖励以及用于高效训练的早期步骤聚焦策略。早期步骤聚焦策略将策略优化限制在早期去噪阶段,可在保持性能的同时将训练延迟降低约40%。我们在Maze、FlowFree和Sokoban这三个具有客观成功标准的程序化生成域上评估了VideoRLVR。在这些任务中,VideoRLVR一致地优于监督微调基线,其中密集分解奖励在低成功率设置下尤为关键。我们的RL优化模型在这些可验证推理基准测试以及域外基准测试中,也优于所评估的专有和开源视频生成模型。这些结果表明,可验证的RL能够推动视频模型超越感知模仿,走向更可靠的、符合规则的视觉推理。
文本到图像(T2I)模型近期在1K和2K分辨率方面取得了显著进展。随着对更佳视觉体验的强烈追求以及成像技术的快速发展,超高分辨率(UHR)图像生成的需求显著增长。然而,由于高分辨率内容的稀缺性和复杂性,UHR图像生成面临巨大挑战。本文首先介绍PixVerve-95K——一个经精心设计数据流程筛选的高质量开源UHR T2I数据集,包含95K幅涵盖多样场景的图像(每幅图像最低像素数量达1亿)及七维注释。基于这一大规模图文数据集,我们率先通过三种训练方案,将多种T2I基础模型扩展至原生1亿像素生成。最后,结合传统指标与基于多模态大语言模型的评估方法,我们提出的PixVerve-Bench基准为UHR图像建立了一套涵盖视觉质量与语义一致性的综合评估协议。本基准上的广泛实验结果以及对训练策略的建设性探索,共同为未来突破提供了宝贵见解。
统一多模态模型(UMMs)致力于在单一架构中整合视觉理解与视觉生成。然而,主流训练范式通过稀疏文本信号独立优化理解能力,并通过密集像素目标独立优化生成能力。这种解耦策略导致表征空间错位,使视觉理解与生成相互割裂,阻碍其相互促进。本文首次系统研究生成式后训练,将层级视觉任务构建为生成代理,以弥合UMMs中的这种割裂。实验发现,高层语义任务(尤其是图像分割)是最优代理。与通过纹理细节分散模型注意力的低层任务不同,分割任务提供的结构语义能显著提升以视觉为中心的感知能力和生成布局保真度。基于此,我们提出语义生成式微调(SGT)这一新范式,利用分割作为生成代理来对齐并协同多模态能力。机制分析进一步表明,SGT从根本上改善了特征线性可分性,并优化了视觉-文本注意力分配模式。大量评估显示,SGT在主流基准测试中持续提升多模态理解与生成保真度。我们的代码已开源至https://song2yu.github.io/SGT/。
4D网格生成近期已成为从视频中恢复动态三维结构的一种强大范式,但现有方法仍存在速度慢、计算成本高、难以扩展到更长序列等问题。我们提出了一种免训练方案,能加速4D网格生成并提升时间对应质量。关键发现是:4D骨架中的时间对应关系在其生成的网格视觉上变得精确之前很早就已显现。我们利用这一现象,设计了一个名为“时空注意力链”的通用框架,可在空间与时间维度传播信息。该链以锚定网格上的顶点为起点,将顶点映射为潜在标记,随后沿潜在空间中的时间对应关系进行追踪,并通过潜在到顶点的注意力机制恢复各帧的特定顶点。这一设计避免了昂贵的显式匹配,同时保留了锚定网格细节,从而改善了动态网格几何结构与时间一致性。 与现有最优方法相比,我们的方法能在9秒内生成一个4D网格,实现13倍加速,同时生成更高质量的结果。此外,我们的方法可扩展至长达16倍的视频序列而不降低网格质量。在生成任务之外,改进的对应关系使方法在两个下游任务(二维目标跟踪与四维跟踪)上具备竞争力强的零样本性能。我们还展示了本框架能够实现可靠的相机估计,而这一能力是先前4D网格生成方法所不具备的。
3D高斯溅射(3DGS)实现了具有高视觉质量的实时新视角合成。然而,现有方法在处理兼具复杂反射和清晰透射的半透明镜面表面时仍存在困难,常导致反射模糊或透射过度遮挡。为此,我们提出RT-Splatting框架,该框架将每个高斯体的几何占据与光学不透明度解耦。这种分解方式通过单一高斯基元集合,构建了统一的表面-体积场景表示。我们的混合渲染器将该表示既解释为捕捉高频反射的表面,也视为保持清晰透射的体积。为缓解反射与透射联合优化中的歧义性,我们引入了镜面感知梯度门控机制,抑制高镜面区域向透射分支传递的误导梯度,有效减少干扰性漂浮伪影。在挑战性半透明场景上的实验表明,RT-Splatting实现了最先进性能,以实时渲染能力提供高保真反射与清晰透射。此外,我们的分解机制自然地支持灵活的场景编辑。项目主页访问地址:https://sjj118.github.io/RT-Splatting。
注意力残差(Attention Residuals)用学习到的softmax注意力机制替换标准加法残差连接,对前一层输出进行选择性跨层路由。然而,标准注意力残差仍然关注前几层的累积隐状态,这些状态高度冗余。我们发现这种冗余会导致深层路由崩溃:注意力权重变得低对比度且趋近均匀分布(最大权重约0.2),限制了模型选择前层信息性状态的能力。这引出一个关键但尚未充分探讨的设计问题:注意力残差中应该对哪些层间表示进行路由?为回答该问题,我们提出增量注意力残差(Delta Attention Residuals),该方法关注增量——即每个子层引入的变化(v_i = h_{i+1} - h_i)——而非累积状态。增量表示具有结构多样性,能产生更高对比度的注意力分布(最大权重约0.6),从而实现更具选择性和有效性的跨层路由。该原则同时适用于子层和块粒度。在全部测试规模(220M–7.6B)下,增量注意力残差始终优于标准残差和注意力残差,验证困惑度提升1.7–8.2%。此外,通过标准微调,可将预训练检查点转换为增量注意力残差。代码已开源:https://github.com/wdlctc/delta-attention-residuals-code。
近期研究表明,强化微调(RFT)相较于监督微调(SFT)对灾难性遗忘具有更强的鲁棒性。然而,RFT(如GRPO)能否在具有挑战性的视觉持续学习场景(如类增量学习CIL和域增量学习DIL)中有效克服遗忘仍是一个开放性问题。通过初步研究,我们证实尽管RFT始终优于SFT,但其仍存在不可忽视的遗忘问题。我们通过实证追踪发现,这一瓶颈源于轨迹级漂移不可知性:在达到相同任务奖励的候选轨迹中,其与前一任务策略的KL散度存在显著差异,而这种差异与跨序列任务中的灾难性遗忘高度相关。基于这一发现,我们提出保留感知策略优化(RaPO),这是一种简单而有效的RFT方法,通过轨迹级奖励塑造显式缓解遗忘。具体而言,RaPO包含两个核心组件:(1)保留奖励——将轨迹级分布漂移转化为连续奖励信号,优先强化每组中保留知识的轨迹;(2)跨任务优势归一化(CTAN)——在任务边界间维护奖励统计量的持久指数移动平均,以稳定持续学习过程中的优化进程。利用多模态大语言模型(MLLM)的自由形式文本泛化能力,我们在五种视觉持续学习设置中全面评估了RaPO。大量实验表明,RaPO实现了领先性能,在保持强大可塑性的同时大幅减少灾难性遗忘。据我们所知,本工作首次系统探索了视觉持续学习中的RFT方法,其见解或将为未来研究提供启示。
大型语言模型(LLM)代理日益在长期且重复的外部上下文(如文档语料库和代码仓库)中运行。在多次调用过程中,现有方法要么保留代理的运行轨迹、对原始材料的被动访问权限,要么保留任务级别的策略。但它们均未保留我们认为对于重复相同上下文工作负载最急需的内容:关于重复上下文本身的可重用导向知识(例如,上下文包含什么、如何组织、以及历史上哪些实体、常量、模式被证明有用)。我们提出PEEK系统,该系统将这种导向知识缓存并维护为一个上下文地图:一个位于代理提示中、大小恒定的小型构件,使其能够持续窥探外部上下文。该地图由可编程缓存策略维护,包含三个模块:一个提炼器,从推理时信号中提取可迁移知识;一个制图师,将其转化为结构化编辑;以及一个基于优先级的驱逐器,强制执行固定的token预算。在长上下文推理和信息聚合任务中,PEEK相比强基线提升了6.3%-34.0%,同时减少了93-145次迭代,相比最先进的提示学习框架ACE降低了1.7-5.8倍成本。在上下文学习任务中,PEEK的解决率和评分准确率分别提升了6.0%-14.0%和7.8%-12.1%,成本仅为ACE的1.4倍。这些增益在不同语言模型和代理架构(包括生产级编码代理OpenAI Codex)中普遍成立。综合来看,这些结果表明,上下文地图有助于长上下文LLM代理更准确、高效地与重复的外部上下文进行交互。
投机解码(SD)通过利用“草稿-验证”范式来加速大语言模型推理。为了最大化接受率,近期方法构建了庞大的草稿树,但这不幸导致了严重的显存带宽和计算开销,成为端到端加速的瓶颈。尽管动态深度剪枝可通过移除边缘分支来减少延迟,但它也丢弃了可能有效的候选者,使得接受率无法达到密集树的上限。本文揭示了资源分配中的一个关键机遇:从密集草稿转向剪枝草稿可释放大量计算预算。为了打破这一帕累托权衡,我们提出了Graft——一种将剪枝与检索作为相互增强操作的补偿框架。剪枝为检索提供充足预算,而检索则补偿剪枝造成的覆盖损失并恢复接受长度。通过采用顺序的“先剪后接”机制,Graft将高预测性的检索令牌附着于剪枝所开辟的位置,以近乎零开销填补拓扑缺口。Graft完全无需训练且无损失。全面评估表明,Graft在短上下文生成、长上下文生成和大规模模型等实际部署场景中均建立了新的帕累托前沿。在短上下文基准测试中,它实现了高达5.41倍的加速,并在大规模Qwen3-235B模型上将平均加速比相较EAGLE-3提升了最多21.8%。此外,我们初步探索了将Graft应用于DFlash风格的分块草稿范式,为将“嫁接”扩展到自回归草稿树之外提供了初步证据与见解。
训练十亿基元规模的3D高斯溅射(3DGS)本质上受内存限制:每个高斯基元携带庞大的属性向量,聚合参数表迅速超出GPU容量,导致现有系统在消费级单GPU硬件上仅能支持数千万个高斯基元。我们观察到3DGS训练天然具有稀疏性和轨迹条件性:每次迭代仅激活当前相机批次中可见的高斯基元,因此GPU内存可充当工作集缓存而非持久化参数存储。基于这一洞察,我们提出TideGS——一种外存训练框架,通过三项协同技术管理SSD-CPU-GPU层级间的参数:面向SSD对齐空间局部性的块虚拟化几何结构、用于重叠I/O与计算的分层级异步流水线,以及轨迹自适应差分流机制,该机制在迭代间仅传输增量工作集差异。实验表明,TideGS可在单块24 GB GPU上训练超过十亿个高斯基元,并在大规模场景中达到所有评估的单GPU基线方法中的最优重建质量,其规模远超此前的外存基线方法(例如约1亿个高斯基元)以及标准内存训练方法(例如约1100万高斯基元)。
基于可验证奖励的强化学习使得在正确性可自动校验的情况下,后训练变得极其高效。然而,许多重要的模型行为需要同时满足多个定性标准。基于评分标准的奖励通过评估提示相关标准并将其聚合为标量奖励来应对这一场景。但标准的静态聚合会将人类为某标准赋予的重要性与其当前作为优化信号的有效性混为一谈。我们证明,这一假设在基于评分标准的强化学习框架下并不成立:许多重要标准已经饱和或当前无法触及,而能够区分轨迹展开的标准并不必然对应人类权重最大的那些。为此,我们提出了POW3R,一种策略感知的评分奖励框架,它在保留人类权重和类别平衡作为评分目标的同时,在训练过程中动态调整标准级别的奖励权重。POW3R利用轨迹展开级对比来强化当前能够区分策略输出的标准,使通用化奖励优化过程中的奖励信号更具信息性,且不改变底层评估目标。在涵盖多模态和纯文本场景的两个数据集上,基于三种基础策略的实验中,POW3R在30项基础策略/指标对比中赢得24项,相较于使用标准评分奖励的GRPO,既提升了平均评分奖励,也提高了严格完成率(即响应满足所有评分标准的提示占比),并且仅需2.5至4倍的训练步数即达到相同稳定水平。因此,基于评分标准的奖励应当区分哪些因素在最终答案中应当重要,哪些因素可用于训练当前策略。
本文针对三角网格上的信号生成任务,提出了一种与三角剖分无关的算法,即训练后的模型可有效适用于不同的网格和三角剖分方式。在实践层面,本文创新性地将流匹配(FM)范式适配至基于网格的三角剖分无关场景;在理论层面,提出了一种用于FM模型去噪过程的特定噪声分布,该分布具有三角剖分无关性。尽管为图像等数据设计噪声分布通常较为简单,但构建三角剖分无关的分布却极具挑战性。我们通过谱分析给出了分布三角剖分无关性的数学定义,并证明一种名为Matérn过程的高斯随机场离散化符合这些理想性质,同时提供了简洁高效的采样算法。我们将其作为噪声模型,并采用当前最先进的网格梯度域信号学习方法——PoissonNet作为去噪器,将FM适配至三角剖分无关场景。实验涵盖弹性静止态采样、人形机器人姿态生成等复杂任务。结果表明,该方法能够对包含百万级三角面的网格生成高度逼真的结果,在质量和多样性上显著超越现有技术水平。
灵巧操作高度依赖物理特性,且对建模误差和感知噪声极为敏感,这使得从仿真到真实的迁移极具挑战性。域随机化(DR)通常用于增强所学策略对此类任务的鲁棒性,但传统DR方法每次仅随机化单一实例,对真实世界动态变化的覆盖十分有限。为此,我们提出域随机化实例集(DRIS),该方法同时表达并传播一组随机化实例,从而提供对不确定动力学更丰富的近似,使策略能够学习考虑多种可能结果的行动。在理论分析支撑下,我们证明即便使用较少实例(如10个),DRIS也能生成更鲁棒的策略,并消除对真实场景微调的需求。我们通过一项具有挑战性的反应式接物任务验证了该方法。与传统接物设置中采用曲面或封闭表面等机械方式稳定目标物体的末端执行器不同,我们的系统使用平板结构,无法提供被动稳定,这使得任务对噪声高度敏感且需要快速反应动作。所学策略对不确定性展现出极强的鲁棒性,并实现了可靠的零样本仿真到真实迁移。
多项选择问答(MCQA)基准测试通常将小型语言模型(SLM)作为直接作答者进行评估,但实际部署的语言模型系统越来越多地依赖外部辅助框架(如工具、代码以及重复模型调用)。我们提出代码引导推理(Code-Guided Reasoning, CGR)——一种评估协议及生成程序资源,用于衡量可执行的推理辅助框架在MCQA任务中提升SLM性能的程度。CGR标准化了六个组件:标准化题目接口、直接求解提示、生成器提示、Python代码框架、求解器调用与提取辅助函数,以及三通道结果记录。在本地构建的MCQA数据集(含20,498条保留结果记录)与六个元数据注册的求解器模型上,观察到的非零基线分区显示:宏平均辅助准确率为66.21%,而直接准确率为38.11%,两者相差+28.10个百分点,配对自助法置信区间为[20.32, 36.43]。在更严格的Ab>30%直接信号阈值下,宏平均差异为+14.11个百分点。这些估计值为描述性统计结论。辅助推理需消耗更大的求解器调用预算,答案提取过程存在脆弱性,Time-MQA数据集包含观测到的回归现象,且部分生成程序违反了不硬编码指令的约束。CGR提供了解读这些结果所需的完整追踪包,包括直接答案、辅助答案、生成器侧答案、分区定义、生成程序、响应元数据及审计信息。
现代大型语言模型(LLM)应用日益依赖长条件前缀,以在推理阶段控制模型行为。尽管前缀增强推理效果显著,但存在两个结构性局限:其一,前缀的影响力会随生成过程逐渐减弱;其二,对前缀的注意力计算量与其长度呈线性增长。现有方法要么在压缩前缀的同时将其保留在注意力机制中,要么通过基于梯度的训练将其内化为模型参数。前者在推理时仍需对前缀进行注意力计算,而后者训练成本高且不便于前缀更新。为解决这些问题,我们提出注意力状态记忆——一种无需训练的方法,通过将前缀与查询词元之间预计算的注意力状态外部化,构建轻量级、基于查找的记忆模块。在LLaMA-3.1-8B模型的ManyICLBench基准测试中,我们的方法在1K至8K记忆预算下相较于上下文学习提升了准确率,同时将8K长度下的注意力延迟降低了1.36倍;在NBA基准测试中,该方法仅使用全注意力RAG 20%的记忆占用,便超越了其性能表现。
单一LLM优化系统能否在本质上不同的领域中与专用工具匹敌?我们证明,当优化问题被表述为通过评分函数改进文本制品时,一个支持单任务搜索、跨问题迁移的多任务搜索以及对未见输入泛化的单一AI优化系统,可在六个不同任务上达到最先进水平。我们的系统发现的智能体架构使Gemini Flash在ARC-AGI准确率上近乎提升三倍(从32.5%提升至89.5%);发现的调度算法将云成本削减40%;生成的CUDA内核中87%与PyTorch性能相当或更优;并且超越了AlphaEvolve在圆堆积问题(n=26)上的报告解。三个领域的消融实验表明,相比仅含评分的反馈,可操作侧信息能带来更快的收敛速度和显著更高的最终分数;并且在同等单问题预算下,多任务搜索通过跨任务迁移优于独立优化,其收益随相关任务数量增加而扩大。综上,我们首次证明,基于LLM搜索的文本优化是一种通用问题求解范式,将传统上需要领域特定算法的任务统一于单一框架之下。我们开源了optimize_anything,支持多种后端,作为GEPA项目的一部分,地址为https://github.com/gepa-ai/gepa。
使用相同预训练编码器、数据和损失函数微调的 authorship attribution 模型,仅因评分机制不同,其性能可相差四倍。我们借助机制可解释性工具解释这一差异。词长、标点密度和功能词频率等文体特征在每个模型的每一层(包括现成的控制编码器)中均可同等获取,因此性能差距并非源于表征质量。相反,因果干预表明,评分器决定了编码器整合作者身份信号的位置。平均池化迫使信号整合发生在较早至中间层,而后期交互则将其推迟至更后层。我们进一步从各评分器的梯度结构推导出这一差异,训练动态揭示了由此产生的不同学习轨迹。
空间智能通过感知-行动循环展开:智能体通过行动获取观测数据,并推理观测如何随行动而变化。它们并非被动处理所见之物,而是主动揭示不可见的结构——那些仅凭被动感知无法解析的遮挡结构、动态过程、包含关系及功能属性。我们超越先前假设存在先知观测的空间智能理论框架,将观察者重塑为行动者。我们提出ESI-BENCH——基于OmniGibson构建、扎根于Spelke核心知识系统的综合具身空间智能基准测试,涵盖10个任务类别与29个子类别。智能体需自主决定调用何种能力(感知、移动与操作),并规划执行顺序以主动积累任务相关证据。我们对当前最先进的多模态大语言模型展开广泛实验,发现主动探索显著优于被动方法:智能体无需明确指令便能自发涌现出新兴空间策略,而随机多视角方法反而引入噪声而非有效信息,尽管消耗了更多图像。多数失败并非源于感知薄弱,而是由"行动盲视"所致:不当的行动选择导致低质量观测,进而引发级联错误。尽管显式3D空间锚定能稳定深度敏感任务的推理过程,但非完美的3D表征会扭曲空间关系,其危害程度甚至超过纯2D基线方法。人类对比研究进一步揭示:人类会主动寻找证伪视角并在矛盾中修正信念,而模型无论证据质量如何,均以高置信度过早做出判断——这种元认知鸿沟既无法通过提升感知能力单独弥合,也无法仅通过增强具身交互来消除。
全模态大语言模型通过将视频和音频编码为按窗口级交错的时间对齐token序列,实现了统一的视听理解。然而,在整个大语言模型中处理这些密集的非文本token会带来巨大的计算开销。虽然免训练token选择可以降低这一成本,但现有方法要么仅关注纯视觉输入,要么仅在进入大语言模型前按固定模态比例剪除非文本token,未能捕捉跨模态token重要性随层数演变的规律。为解决这一局限,我们首先分析了全模态大语言模型的逐层token依赖关系。研究发现,视觉和音频依赖呈现块状模式,且随深度增加逐渐减弱,这表明许多深层非文本token在跨模态融合后变得冗余。基于这一发现,我们提出SEATS——一种免训练、阶段自适应的token选择方法,用于高效的全模态大语言模型推理。在大语言模型之前,SEATS通过注意力加权多样性选择消除时空冗余。在大语言模型内部,它逐块渐进式剪枝token,并利用查询相关性得分将保留预算从时间窗口动态分配到各模态。在深层,一旦跨模态融合完成,它将移除所有剩余的非文本token。在Qwen2.5-Omni和Qwen3-Omni上的实验表明,SEATS有效提升了推理效率。仅保留10%的视觉和音频token,即可实现9.3倍的FLOPs降低和4.8倍的预填充加速,同时保持96.3%的原始性能。
自回归视频扩散模型通过局部注意力机制和KV缓存支持开放式生成。然而,现有的免训练长视频优化方法主要聚焦于单一提示词下的稳定扩展,难以处理涉及提示词切换、旧场景遗忘和历史场景回忆的交互式场景。我们识别出核心瓶颈在于历史KV状态的功能耦合:稳定锚点与最近动态被同一缓存策略处理,导致过时背景污染、新提示响应延迟以及长程记忆丢失。为解决该问题,我们提出Echo-Forcing——一种专为交互式长视频生成设计的免训练场景记忆框架,包含三个核心机制:(1) 分层时间记忆,在相对RoPE下解耦稳定锚点、压缩历史与最近窗口;(2) 场景回忆帧,将历史场景压缩为空间结构化的KV表示以支持长程回忆;(3) 差异感知记忆衰减,根据新旧场景差异自适应遗忘冲突令牌。基于这些设计,Echo-Forcing在有限缓存预算下统一支持平滑过渡、硬切变和长程场景回忆。在VBench-Long上的广泛评估进一步表明,Echo-Forcing在长视频生成与交互式视频生成场景中均达到最佳综合性能。我们的代码已发布于 https://github.com/mingqiangWu/Echo-Forcing。
强化学习(RL)在大语言模型(LLMs)中的有效性取决于RL训练前及训练过程中所用数据的性质与多样性。特别是,推理问题通常可以通过依赖不同推理形式的多种方法来解决,而训练数据中若仅涵盖有限范围的此类方法,可能限制RL的效果。基于此,我们探索在RL训练前的中间训练阶段使用多样化的自生成数据。具体而言,我们采用基于乔治·波利亚的问题解决框架的自举式数据生成方法,为训练数据中的每个问题生成多个正确解法变体,随后进行微调。我们首先从理论层面论证了对此类数据进行中间训练如何改进RL,并解释了策略梯度更新如何激励多种方法的组合。随后通过实证表明,以我们的中间训练数据初始化的RL训练模型,在多项数学推理基准测试及代码生成、叙事推理等其他分布外任务中均取得持续改进。总体而言,我们的调查研究显示,语言模型通过自生成数据学习多种问题解决方法,有助于后续的RL训练。
随着自主智能体系统在受监管的关键基础设施中规模化部署,缺乏基于硬件根源的高频策略更新机械式强制执行机制,构成了根本性的安全缺口。我们提出“伦理超速”(Ethical Hyper-Velocity, EHV)——一种用于AI治理策略运行时形式验证的新型架构框架。与引入14至30天延迟的事后审计框架(如ISO/IEC 42001、NIST AI RMF)不同,EHV通过“治理感知即时(JIT)编译器”将策略执行点(PEP)移入推理流水线。通过集成用于策略同步的“冲突无关复制数据类型”(CRDTs)以及基于可信执行环境(TEE)的“时代式证明缓存”,EHV实现了“亚毫秒级形式确定性”(SMFD)。我们通过TLA+形式验证证明,在系统有界运行状态空间中,违规智能体行为在计算上是不可达的。我们还证明了O(1)的运行时执行能够消除传统上部署速度与治理完整性之间的权衡,将治理延迟从O(天数)降低至O(1)。
思维链(Chain-of-thought, CoT)是激发大型语言模型(LLMs)推理能力的标准方法。然而,常见的CoT范式中将思考视为回答的前提,这会延迟获得合理答案的时机,并在模型甚至能在延展思考前就已识别出答案的情况下(一种被称为表演性推理的行为)产生不必要的词元开销。本文中,我们提出CopT,一种重新编排的推理流程,它颠覆了思考与回答的常规顺序。CopT不预先进行思考,而是先引出草稿答案,随后基于该草稿答案调用同策略思考进行反思与修正。为评估草稿答案的可信度,CopT将连续嵌入重构为推理时对比验证器。具体而言,它对比模型在离散词元输入与连续嵌入输入下对相同生成词元的支持程度,从而得到用于答案可靠性的序列级反向KL散度估计量。我们的分析表明,在特定假设下,该期望估计值等于未解决的潜在状态与输出的答案词元之间的互信息,这解释了为何它能捕捉与答案相关的不确定性,而非潜在状态中的任意不确定性。当答案被认为不够可靠时,CopT执行进一步的同策略思考,其中第二个KL散度估计量动态控制草稿答案的可见性,既保留有用的部分信息,又降低被不可靠内容误导的风险。在数学、编程和智能体推理任务中,CopT在达到相当或更高准确率的情况下,将峰值准确率提升最高达23%,并将词元使用量减少最高达57%,且无需额外训练。代码已开源至https://github.com/sdc17/CopT。
人类自然地通过“情绪”等抽象概念进行交流。然而,当前的图像编辑基准主要侧重于显式、字面化的指令,抽象指令在很大程度上仍未得到充分探索。在本工作中,我们首先正式定义了抽象图像编辑的概念与分类体系。为衡量这一挑战性领域中的指令遵循能力,我们提出了实体评分框架(Entity-Rubrics),该框架将抽象编辑分解为逐实体、逐层面的评估,并与人类判断实现了强相关性。基于这一框架,我们构建了AbstractEdit——首个专注于跨多样真实场景的抽象图像编辑基准。在基准上对11个主流模型的评估揭示了一个根本性挑战:标准架构难以在意图保持与内容保留之间取得平衡,常常陷入欠编辑或过编辑的缺陷。我们的分析表明,推动实质性改进高度依赖先进的大语言模型文本编码器与迭代推理能力的整合。展望未来,我们基于实体的范式可超越评估范畴,作为奖励模型发挥作用,使模型能够正确解读抽象交流,或在测试时反馈循环中精准定位特定失败模式。最终,我们希望本工作成为无缝多模态交互的垫脚石,弥合机器僵化执行与人机自然开放式交流之间的鸿沟。
后门攻击对语言模型构成日益严峻的安全威胁,然而触发器序列劫持模型计算的内部机制仍鲜为人知。我们识别出一个8B参数自回归语言模型中语言切换后门背后的通路:一个由三个拉丁词(九个词元)构成的触发器将英语输出重定向为法语。我们将该通路分解为三个阶段:(1)早期层的分布式注意力头将触发器词元组合至最后一个序列位置;(2)由此产生的信号在正交于模型自然语言身份方向的子空间中通过中间层传播;(3)最终层的多层感知机将此潜在信号转化为法语对数几率。整个通路流经单个位置构成的串行瓶颈:在任何层破坏该位置均可完全消除触发器影响,但也会损害模型能力。这种正交潜在编码表明,在中间表征中搜索类似语言信号的防御策略将完全遗漏该触发器。
由于训练数据稀缺以及基于模型的标注流程持续放大现有偏差,低资源语言的多语言文档理解仍存在显著局限。我们提出DocAtlas框架,该框架构建了覆盖82种语言和9项评估任务的高保真OCR数据集与基准。我们的双流程方案——对原生DOCX文档进行差分渲染,以及对从右至左书写系统采用基于LaTeX的合成生成——可在不依赖核心标注学习模型的情况下,通过统一DocTag格式(编码布局、文本和组件类型)生成精确的结构化标注。对16个前沿模型的评估揭示了低资源文字领域持续存在的性能鸿沟。研究表明,利用渲染生成的ground truth作为正例信号进行直接偏好优化(DPO),可实现稳定的多语言适配,域内准确率提升1.9%、域外准确率提升1.8%,且未对基准语言造成可测量的性能退化;而监督微调会使域外性能下降高达21%。我们的最佳变体DocAtlas-DeepSeek相比最强基线模型提升了1.7%。
实时双工交互对于在真实场景中运行的多模态AI系统至关重要,这类模型必须持续处理流式输入并在适当时机做出响应。然而,现有大多数多模态大语言模型(MLLMs)均在离线场景下进行评估——即需处理完整视频输入后才生成响应。尽管近期研究已开始探索实时双工MLLMs,但针对这一场景仍缺乏系统性的基准测试和自动评估方法。为解决这一空白,我们提出Omni-DuplexEval——一个专门用于系统性评估实时双工交互的基准测试。该基准包含两个互补场景:(1)实时描述,评估模型生成连续、时间对齐响应以追踪动态多模态输入的能力;(2)主动提醒,评估模型识别显著事件并在适当时机响应的能力。Omni-DuplexEval包含660个视频,配有细粒度的人工标注标签和精确时间元数据,涵盖9个基于真实场景的任务,所有问题均采用开放式问答形式。我们进一步引入基于大语言模型裁判(LLM-as-a-Judge)的自动评估框架,通过时间戳感知与顺序推理联合评估响应内容对齐性和响应时机,实现与人类判断的高度一致性。对当前最先进双工MLLMs的实验揭示了显著局限性:最佳模型综合得分仅39.6%,其中主动提醒场景得分仅20.0%。分析识别出两大核心挑战:模型难以在及时响应与连贯整体内容生成之间取得平衡,且经常无法同时确定响应时机与生成内容。我们希望本研究能推动MLLMs领域的进一步发展。
近年来,大型语言模型的进展催生了推理模型的出现,这类模型通过专门的微调流程在复杂任务上展现出强大性能。尽管这些方法可靠地提升了pass@1准确率,但先前研究观察到其存在覆盖范围收缩行为,即pass@k指标相较于基模型出现退化。本文旨在探究基于SFT的后训练中出现的推理收缩现象。我们假设这一行为源于微调数据的特性,特别是与"决策点"或"十字路口"场景相关——即当模型面临难以辨别的模式且存在多条有效推理路径时。为验证该假设,我们设计了受控案例研究模拟此类决策点场景,涵盖图分支中的不可分辨节点以及推理模式。通过追踪这些场景下的后训练动态,我们发现收缩现象与训练数据中决策点场景的普遍程度密切相关。同时,我们证明通过针对性的决策点数据合成设计,以及更具系统性的多样性激励解码机制,可在一定程度上缓解这一收缩行为。我们的研究结果将数据中心因素确定为推理模型收缩的关键驱动力,并强调多样性感知设计是控制该行为的有效杠杆。
现代神经架构的设计通过经验性的逐步优化趋于一致,但其训练动态的控制机制仍仅部分可知。我们识别并分析了标准损失函数与正偏置激活函数之间的相互作用所引发的负权重漂移。我们证明,在均方误差或交叉熵损失下,初始化阶段正预激活值的梯度期望非负,导致早期训练过程中下游权重向负值漂移。该漂移源于优化过程本身而非数据,且普遍存在于多种架构(MLP、ResNet、ViT、GPT-nano、MP-SENe)及非对称激活函数(ReLU、GELU、SiLU)中。与ReLU结合时,权重漂移使GPT-nano的激活稀疏性高达90%。我们通过79种配置表征了稀疏性与准确性的权衡,并发现当激活稀疏性超过约70%时存在一个尖锐的准确性悬崖。尽管ReLU²在GPT-nano中实现了良好的稀疏性-准确性比,但它会病态地放大中间Transformer层中已识别的激活尖峰。裁剪在保留平方运算表征优势的同时解决了这一问题:裁剪后的ReLU²优于其未裁剪版本,且GELU²在GPT-nano上取得了最低的验证损失。代码见https://github.com/On-Point-RND/BugOrFeature。
大语言模型(LLMs)极易遭受后门攻击(BAs),即通过基于触发器的有害内容对训练样本进行投毒。此外,现有防御措施在经过BA模式的广泛测试后被证明效果有限。为了更好地对抗BAs,我们探索将LLM改写作为对抗数据投毒的主动防御手段。首先,我们从理论上证明:当LLM改写采用开卷良性样本——即开卷良性改写(OBBR)时,改写输出为良性的概率严格高于闭卷改写。因此,OBBR通过将训练样本投影至良性提示空间来中和有害内容。我们进一步表明,与以往防御方法不同,OBBR能有效缓解大量现有BAs:在五种已知BAs和四个广泛使用的LLMs上,OBBR相较于最先进的BA防御方法,安全性能平均提升51%;相较于闭卷改写方法则提升25.7%。最后,我们证明OBBR相较于其他BA防御方法计算效率更高,微调后不会降低模型在自然语言任务上的性能,并且能够抵御非基于触发器的数据投毒攻击。
随着AI生成文本大规模进入现实世界,各类机构,尤其是在教育和学术诚信工作流程中,越来越多地使用商用AI文本检测器。我们报告了一个关于此类系统令人惊讶的实证发现:当由GPTZero和Pangram评估时,基础模型生成的文本通常被判定为极似人类,而它们经过指令微调的版本生成的文本则不然。基于这一观察,我们提出了基于迭代释义的人类化方法(HIP),这是一种与检测器无关的流程,它对基础模型进行最小程度的微调以成为释义器,并迭代应用。与我们测试的基线方法相比,HIP在商用检测器上实现了语义保留与规避检测之间更强的权衡。在Llama-3和Qwen-3系列中,跨越0.6B到70B的模型规模,HIP持续提升了检测器评估的类人程度。我们的发现表明,当前检测器更多追踪指令微调和局部上下文的痕迹,而非机器生成文本的任何不变概念。这进而要求检测器设计能更显式地建模这些因素。
本立场文件主张,计算机科学会议应要求提供防篡改、不可抵赖的实验结果证明。我们将这一基础问题称为"实验不可抵赖性":合规协议必须将论文中的数值与实际执行的运算绑定,使得作者事后无法修改或否认。当前系统依赖自我报告清单、可选代码共享以及作者控制的日志记录,但这些机制均无法回答审稿人无法核查的问题:论文所描述的代码是否真的产生了论文所报告的数据?我们对该问题进行了形式化定义,阐述了任何合规协议必须满足的安全属性,并描述了一个包含当前方法未能防范的攻击的威胁模型。为证明该问题的可解决性,我们构建了K-Veritas——一个用Go语言实现、无需访问训练数据即可生成签名报告的原型系统。K-Veritas是测试平台而非最终答案。我们呼吁各会议及社区将不可抵赖性视为首要需求,并共同为其构建开放、独立的标准。
并发LLM代理共享可变自然语言状态会导致结构竞争条件(SRCs):写-写冲突和跨分片过时读冲突,这些冲突会悄然破坏代理输出。现有的大多数多代理框架(LangGraph、CrewAI、AutoGen)在共享状态上不提供写所有权语义。 我们提出S-Bus,这是一个HTTP中间件,其核心机制是服务器端的DeliveryLog:每个代理维护一个HTTP GET操作日志,在提交时自动重建每个代理的读集,无需在HTTP/1.1下修改代理SDK。DeliveryLog提供的一致性属性——可观测读隔离(ORI),一种对读集的HTTP可观测投影的部分因果一致性——在代理通过共享分片协作时防止了结构竞争条件。 三项贡献:(C1) DeliveryLog机制,用于基于HTTP流量自动重建读集,并附带三层机制化证据:在TLAPS中经机器检查的读集可靠性和ORI提交安全性(除一个保留的类型公理外);在N=3时经TLC穷举验证(20,763,484个不同状态,零违规);Dafny验证了9个归纳可靠性引理。(C2) 在427,308个活跃HTTP-409冲突的共享分片竞争扫描中,与PostgreSQL 17 SERIALIZABLE和Redis 7 WATCH/MULTI相比,实现了实证的结构冲突预防对等性:三个后端均无第一类破坏。(C3) ORI的运行范围是拓扑条件相关的:在专用分片工作负载中语义中性;在单分片协作写入时有害,因为保留机制会传播并发矛盾。 源代码:https://github.com/sajjadanwar0/sbus
财政部和央行使用的微观模拟模型依赖于终生收入的参数化过程,这些过程仅捕捉条件分布的一阶和二阶矩,但遗漏了长期非线性结构。我们提出SAGA——一个专为非规则表格面板序列设计的仅含解码器的Transformer模型——并配以一个分离共形校准封装器,可为个体提供具有有限样本边际覆盖保证的预测区间。该模型基于1990年至2022年的瑞典LISA纵向登记数据(涵盖2,143,817名个体和61,284,903人年)进行训练,可预测1至30年时间跨度的年度劳动收入,并通过蒙特卡洛方法将其汇总为折现的终生收入分布。相较于经典的Guvenen、Karahan、Ozkan和Song参数化过程以及表格和循环基线模型,SAGA在十年期将连续排名概率得分降低31.9%,在二十年期将平均绝对误差降低37.7%。共形区间在边际上达到标称覆盖率的0.4个百分点以内,在最差人口统计子组上达到2.4个百分点以内。重建的终生收入基尼系数为0.327,而部分观测到的真实值为0.341,GKOS估计值为0.378。为支持在受保护的SCB MONA环境之外进行复现,我们公开了模型权重、校准表及一个合成等效数据集。
我们揭示了基于Transformer的长上下文语言模型中旋转位置编码(RoPE)的内在局限性。我们的理论分析抽象了上下文的具体内容,仅依赖于其长度。我们证明,随着上下文长度的增加,基于RoPE的注意力变得不可预测,并失去了对其有效性至关重要的两个特性。首先,它失去了局部性偏好:RoPE倾向于更近位置而非显著更远位置的概率不再更高。其次,它失去了标记相关性的连贯性:某个位置的键向量可能比另一位置的替代键向量获得更高的注意力分数,但在另一位置则可能获得更低的分数。在这两种情况下,失败的概率接近0.5,与随机猜测无异。我们进一步证明,当键标记被移动到不同位置甚至被不同标记替换时,注意力分数可以保持不变,这表明RoPE无法区分位置或标记。调整RoPE的基频需要在区分位置和区分标记之间进行权衡,但无法同时保持两者。增加RoPE基频超参数(当前长上下文模型的常见做法)有助于区分不同标记,但不可避免地牺牲了区分位置的能力。我们的实证分析表明,多头、多层架构不足以克服这些局限性。我们的研究结果表明,未来的Transformer长上下文语言模型可能需要全新的位置和标记顺序编码机制。