每日精选AI研究论文及翻译
蒸馏自回归(AR)视频模型能够实现高效的流式生成,但常常与人类视觉偏好存在偏差。现有的强化学习(RL)框架难以自然适配这类架构,通常需要昂贵的再蒸馏过程或耦合求解器的逆向过程优化,从而引入显著的内存与计算开销。我们提出了Astrolabe——一种专为蒸馏AR模型设计的高效在线RL框架。为突破现有瓶颈,我们引入了基于负向感知微调的正向过程RL建模。通过直接在推理终点对比正负样本,该方法无需展开逆向过程即可建立隐式的策略改进方向。为实现长视频的对齐扩展,我们提出流式训练方案:通过滚动KV缓存渐进生成序列,仅在局部片段窗口应用RL更新,同时以前置上下文为条件保障长程连贯性。最后,为抑制奖励破解现象,我们整合了由不确定性感知选择性正则化与动态参考更新稳定的多奖励目标。大量实验表明,本方法能持续提升多种蒸馏AR视频模型的生成质量,成为一种鲁棒且可扩展的对齐解决方案。
视觉语言模型(VLM)展现出强大的多模态能力,但在细粒度视觉语言推理方面仍存在不足。我们发现长链思维推理(CoT)会暴露多种错误模式,包括感知、推理、知识和幻觉错误,这些错误可能在中间步骤中累积放大。然而,现有大多数用于强化视觉语言推理(RLVR)的数据集并未包含全程依赖视觉证据的复杂推理链,导致这些缺陷难以被充分暴露。为此,我们提出HopChain——一个可扩展的框架,专门为VLM的RLVR训练合成多跳视觉语言推理数据。每个合成的多跳查询都构成逻辑上相互依赖的实例锚定链,其中前序跳步为后续跳步建立实例、集合或条件,而最终答案保持为可验证奖励所需的明确数值。我们将HopChain合成的多跳数据添加到用于训练Qwen3.5-35B-A3B和Qwen3.5-397B-A17B的原始RLVR数据中,并在涵盖STEM与谜题、通用VQA、文本识别与文档理解、视频理解等24个基准测试中,与仅使用原始RLVR数据的方法进行对比。尽管这些多跳数据并非针对特定基准定制,但其加入使得两个模型在24个基准中的20个上表现提升,显示出广泛且可泛化的增益。为验证完整链式查询的重要性,我们将其替换为半多跳或单跳变体,导致24个基准平均准确率分别下降5.3和7.0个百分点。多跳训练还强化了长链CoT视觉语言推理能力,在超长链CoT场景下准确率提升峰值超过50个百分点。这些实验证明HopChain是一种高效、可扩展的多跳数据合成框架,能显著提升视觉语言推理的泛化能力。
视觉语言模型(VLMs)在地球观测领域展现出潜力,但在需要将复杂空间推理与精确像素级视觉表征相衔接的任务中仍存在不足。为解决这一问题,我们推出统一框架TerraScope,该模型具备两项核心能力以实现像素级地理空间推理:(1)模态灵活推理:既能处理单模态输入(光学或SAR数据),又能在双模态可用时自适应融合不同模态;(2)多时序推理:通过整合时间序列实现多时相变化分析。我们还构建了大规模数据集Terra-CoT,包含来自多源数据的100万样本,其推理链中嵌入了像素级掩码。同时提出首个像素级地理空间推理基准TerraScope-Bench,通过六个子任务同步评估答案准确性与掩码质量,确保真实的像素级推理能力。实验表明,TerraScope在像素级地理空间推理任务上显著优于现有VLM,并提供了可解释的视觉证据。
自改进人工智能系统旨在通过让系统学习优化其学习与问题解决过程,从而减少对人类工程设计的依赖。现有的自改进方法依赖于固定的人工设计元层机制,这在根本上限制了系统改进的速度。达尔文·哥德尔机通过反复生成并评估自我修改的变体,在编程领域实现了开放式的自我改进。由于评估和自我修改都属于编程任务,编程能力的提升可直接转化为自改进能力的增强。然而,这种协同效应在编程领域之外通常难以成立。我们提出超智能体概念——这种自指代智能体将任务智能体(解决目标任务)与元智能体(修改自身及任务智能体)整合为单一可编辑程序。关键在于,元层修改过程本身也可编辑,从而实现元认知层面的自我修改,不仅能优化任务解决行为,还能改进生成未来优化的机制。我们通过扩展达尔文·哥德尔机创建DGM-超智能体来实例化该框架,摒弃了任务性能与自修改技能需具备领域特定协同性的假设,有望在任何可计算任务上实现自我加速进步。在多个领域中,DGM-H随时间推移持续提升性能,其表现优于无自改进或开放式探索的基线系统,也超越了先前的自改进系统。更重要的是,DGM-H能优化其生成新智能体的过程(如持久化记忆、性能追踪等),这些元层改进具有跨领域迁移性和跨任务累积性。DGM-超智能体展现了开放式AI系统的雏形,它们不仅搜索更优解,更持续优化"如何改进"的搜索机制本身。
有效的协作始于懂得何时寻求帮助。例如在识别被遮挡物体时,人类会请求他人移开障碍物。多模态大语言模型能否通过请求简单的用户干预,展现出类似的"主动"行为?为探究这一问题,我们推出了ProactiveBench基准测试——该基准由七个重构数据集构成,通过识别遮挡物体、提升图像质量、解读粗略草图等不同任务来检验模型的主动性。我们对22个多模态大语言模型的评估表明:(一)模型普遍缺乏主动性;(二)主动性与模型能力无关;(三)通过"提示"激发主动性仅能带来有限提升。令人惊讶的是,对话历史和上下文学习会产生负向偏差,反而影响模型表现。最后我们探索了基于强化学习的微调策略:结果表明主动性是可习得的,甚至能泛化至未见过的新场景。我们公开释放ProactiveBench基准,为构建主动式多模态模型迈出第一步。
大型语言模型(LLM)正日益成为通用推理工具,但固定上下文窗口始终是长文本输入的瓶颈。递归语言模型(RLM)通过将提示外部化并递归求解子问题来解决这一难题。然而现有RLM依赖于开放式的读取-求值-输出循环(REPL),模型会生成任意控制代码,导致执行过程难以验证、预测和分析。 我们提出λ-RLM这一长上下文推理框架,用基于λ演算的类型化函数式运行时替代自由形式的递归代码生成。该框架执行经过预验证的小型组合子库,仅对有限叶子子问题使用神经推理,将递归推理转化为具有显式控制流的结构化函数式程序。我们证明λ-RLM能实现标准RLM缺失的形式化保障,包括终止性、闭式成本边界、随递归深度可控的精度缩放,以及简单成本模型下的最优划分规则。在四项长上下文推理任务和九个基础模型的实验中,λ-RLM在36组模型-任务对比中有29项优于标准RLM,跨模型层级的平均准确率最高提升21.9个百分点,延迟最高降低4.1倍。这些结果表明,类型化符号控制为长上下文推理提供了比开放式递归代码生成更可靠高效的基础。λ-RLM完整实现已开源:https://github.com/lambda-calculus-LLM/lambda-RLM。
场景生成具有广泛的工业应用价值,既要求高真实感,又需对几何形状与外观进行精确控制。基于语言的检索方法能够从大规模物体数据库中组合出合理的场景,但忽略了物体层级的控制,且往往难以保证场景层级的风格一致性。基于图的建模方法通过对关系进行显式建模,提供了更高的物体可控性并保障整体一致性,然而现有方法难以生成高保真度的纹理化结果,因而限制了其实用性。我们提出FlowScene——一个基于多模态图的三分支场景生成模型,可协同生成场景布局、物体形状与物体纹理。其核心是一个紧密耦合的修正流模型,通过在生成过程中交换物体信息,实现跨图的协同推理。该模型既能对物体形状、纹理及关系进行细粒度控制,又能确保跨结构与外观的场景层级风格一致性。大量实验表明,FlowScene在生成真实感、风格一致性和与人类偏好匹配度方面均优于基于语言和基于图的基线方法。
扩散模型的最新进展显著提升了文本到视频的生成能力,实现了对前景与背景元素的细粒度可控个性化内容生成。然而,跨主体的精确人脸属性对齐仍具挑战性,现有方法缺乏确保组内一致性的显式机制。解决这一难题需要显式建模策略与人脸属性感知数据资源的双重突破。为此,我们提出LumosX框架,在数据和模型设计层面同步推进。数据层面,通过定制化采集流程协调来自独立视频的字幕与视觉线索,同时利用多模态大语言模型推断并分配主体特定的依赖关系。这些提取的关系先验施加了更细粒度的结构约束,既增强了个性化视频生成的表达控制力,又支撑了综合性基准数据集的构建。模型层面,关系自注意力与关系交叉注意力机制将位置感知嵌入与优化的注意力动态相融合,刻画出显式的主体-属性依赖关系,从而强化组内凝聚力并放大不同主体集群间的区分度。在我们构建的基准测试上的综合评估表明,LumosX在细粒度、身份一致性和语义对齐的个性化多主体视频生成任务中达到了最先进性能。代码与模型已开源:https://jiazheng-xing.github.io/lumosx-home/。
思维链提示虽能提升大模型在复杂任务上的准确率,但常伴随令牌使用量与推理成本的增加。现有“预算强制”方法通过启发式长度惩罚进行微调以降低成本,却同时抑制了关键推理与冗余填充内容。我们将高效推理重构为信息瓶颈原理下的有损压缩问题,并发现直接应用朴素IB到Transformer时存在关键理论缺陷:注意力机制违反了提示、推理轨迹与响应之间的马尔可夫属性。为解决此问题,我们在条件信息瓶颈框架下建立思维链生成模型,其中推理轨迹Z作为计算桥梁,仅保留无法从提示X直接获取的响应Y相关信息。由此推导出通用强化学习目标:在推理轨迹先验分布下压缩生成内容的同时最大化任务奖励,将常见启发式方法(如长度惩罚)归纳为特例(如均匀先验)。与基于简单令牌计数的方案不同,我们引入语义先验,通过语言模型先验下的惊异值衡量令牌成本。实验表明,我们的CIB目标能有效修剪认知冗余,同时保持流畅性与逻辑性,在适度压缩下提升准确率,并在激进压缩时实现最小精度损失。
基于大语言模型(LLM)的智能体已成为移动界面、操作系统和网页浏览器等数字环境的强大自主控制器。以网页导航为例,该任务需处理动态内容与长序列操作,因而具有特殊挑战性。现有LLM智能体在长周期规划方面存在两大瓶颈:在线执行时,面对持续涌入的新信息容易偏离目标,缺乏清晰自适应的最终任务路径;强化学习(RL)微调阶段,稀疏延迟的奖励信号使智能体难以识别关键动作,无法在扩展任务中保持连贯推理。针对这些问题,我们提出两项创新:首先设计了一种通过子目标分解实现在线规划的智能体框架,利用专有模型进行实时决策;其次推出MiRA(里程碑式强化学习增强智能体),该训练框架采用基于里程碑的密集奖励机制。实时规划机制使Gemini等专有模型在WebArena-Lite基准测试中的成功率(SR)绝对提升约10%。同时,将MiRA应用于开源的Gemma3-12B模型后,其成功率从6.4%跃升至43.0%,不仅超越GPT-4-Turbo(17.6%)和GPT-4o(13.9%)等专有系统,也优于此前开源模型的最佳成绩WebRL(38.4%)。研究结果表明,显式推理时规划与里程碑奖励机制的融合能显著增强智能体的长周期任务能力,为构建更稳健的通用自主系统开辟了新路径。
近年来,受控视频生成技术取得了显著进展。然而,对现实视频中的动作与动态事件进行编辑,或插入会影响其他对象行为的内容,仍然是一大挑战。现有训练模型难以处理复杂编辑任务,这很可能源于相关训练数据采集的困难。同样,现有的免训练方法本质上受限于保持结构和运动的编辑操作,无法支持运动模式或交互关系的修改。本文提出DynaEdit这一免训练编辑方法,通过预训练的文本-视频流模型实现多功能视频编辑能力。我们的方法基于近期提出的免反演技术,该技术不干预模型内部结构,因而具备模型无关性。研究表明,直接将该方法应用于无约束通用编辑会导致严重的低频错位和高频抖动问题。我们解析了这些现象的产生根源,并提出了创新机制予以克服。大量实验表明,DynaEdit在基于文本的复杂视频编辑任务上实现了最先进的效果,包括动作修改、插入与场景交互的物体以及添加全局特效等。
循环语言模型(LoopLMs)通过迭代式潜在计算优化内部表征,为显式思维链推理提供了有前景的替代方案。然而,现有强化学习范式主要针对输出词元,与循环架构中推理过程隐式展开的特性存在结构错配。本研究提出LoopRPT——专为LoopLMs设计的强化预训练框架。通过将下一词元预测重构为下一词元推理任务,该框架采用指数移动平均教师参考和带噪潜在展开策略,直接将强化信号分配给潜在计算步骤。这种设计使强化学习能够直接塑造中间表征,将有效推理压缩至更少迭代次数。我们在不同规模的Ouro架构上实例化LoopRPT,实验结果表明该框架能持续提升单步表征质量,在准确率-计算量权衡中实现帕累托占优。尤其对困难词元的显著提升表明,LoopRPT增强了早期阶段推理能力而非简单促使模型提前退出。本研究证实强化预训练可作为学习LoopLMs高效潜在推理的原则性范式。
大型语言模型在处理非结构化表格的复杂长程分析任务时常常表现不佳,这类表格通常具有层次化、双向表头及非标准布局特征。我们将这一挑战形式化为深度表格研究(DTR),要求对相互依存的表格区域进行多步推理。为解决DTR问题,我们提出一种创新智能体框架,将表格推理视为闭环决策过程:通过精心设计查询与表格理解的耦合机制,实现路径决策与操作执行。具体而言,(i)DTR首先构建层次化元图以捕捉双向语义,将自然语言查询映射至操作级搜索空间;(ii)为导航该空间,我们引入具备预期感知的选择策略,优先执行高效用路径;(iii)关键的是,历史执行结果被合成至连体结构化记忆(即参数化更新与抽象文本),实现持续优化。在具有挑战性的非结构化表格基准测试中,大量实验验证了本方法的有效性,并凸显了将战略规划与底层执行相分离对长程表格推理的必要性。
鉴于二维基础图像模型能够生成高保真度输出的卓越能力,我们探究了一个根本性问题:二维基础图像模型是否天然具备三维世界建模能力?为解答此问题,我们系统评估了多种前沿图像生成模型与视觉语言模型在三维世界合成任务上的表现。为挖掘并衡量其潜在的隐式三维能力,我们提出一种智能体框架以促进三维世界生成。该方法采用多智能体架构:基于视觉语言模型的导演模块负责构建提示词指导图像合成,生成器负责合成新视角图像,而采用视觉语言模型的双步验证器则从二维图像和三维重建空间对生成帧进行评估与筛选。关键的是,我们证明该智能体方法能实现连贯稳健的三维重建,生成可通过新视角渲染进行探索的输出场景。通过对多种基础模型的大规模实验,我们证实二维模型确实内蕴对三维世界的理解能力。通过利用这种认知,我们的方法成功合成了具有广阔空间感、真实感且三维一致的世界。
大语言模型上下文窗口的指数级扩展虽解锁了长文档理解能力,却引发了推理延迟与信息利用率的严重瓶颈。现有压缩方法因激进的分词剪枝往往面临高训练成本或语义碎片化问题。本文提出BEAVER——一种无需训练的新型框架,将压缩机制从线性分词删除转向结构感知的层次化选择。该框架通过双路径池化将变长上下文映射为稠密页级张量以最大化硬件并行性,并采用融合语义与词汇双分支选择的混合规划器,结合语句平滑技术保持语篇完整性。在四个长上下文基准上的广泛实验表明,BEAVER达到了与LongLLMLingua等前沿方法相当的性能。尤其在RULER基准测试中,当基线方法性能退化时,BEAVER仍能保持多针检索的高保真度。效率方面,BEAVER在128k上下文场景下将延迟降低26.4倍,为高吞吐应用提供了可扩展方案。代码已开源:https://cslikai.cn/BEAVER/。
关于生成式推荐模型为何优于传统基于物品ID的模型,一个普遍假设是其具有更强的泛化能力。然而目前缺乏系统性的验证方法,仅停留在整体性能的表面比较。为填补这一空白,我们根据正确预测所需的具体能力对数据实例进行分类:记忆(复用训练中观察到的物品转移模式)或泛化(组合已知模式预测未见过的物品转移)。大量实验表明,生成式推荐模型在需要泛化的实例上表现更优,而基于物品ID的模型在记忆更重要时表现更好。为解释这种差异,我们将分析从物品层面转向标记层面,揭示生成式推荐模型中看似物品层面的泛化往往可简化为标记层面的记忆。最后我们证明两种范式具有互补性,提出一种简单的记忆感知指标,能在实例层面自适应地结合两者,从而提升整体推荐性能。
生成式世界模型在动态环境模拟方面展现出潜力,但以自我为中心的视频生成仍面临挑战:视角快速切换、频繁的手物交互,以及受潜在人类意图影响的目标导向型行为演进。现有方法或局限于手部中心的教学合成而缺乏场景演进,或仅实现静态视角转换而未建模动作动态,或依赖密集监督(如相机轨迹、长视频前缀、多相机同步采集等)。本研究提出EgoForge——一种以自我为中心的目标导向世界模拟器,仅需最小化静态输入(单张第一人称图像、高层级指令及可选辅助第三人称视角)即可生成连贯的第一人称视频推演。为提升意图对齐与时序一致性,我们提出VideoDiffusionNFT,这是一种轨迹层级的奖励引导优化方法,在扩散采样过程中同步优化目标完成度、时序因果性、场景一致性与感知保真度。大量实验表明,EgoForge在语义对齐、几何稳定性和运动保真度上均优于基线模型,并在现实智能眼镜实验中展现出鲁棒性能。
长视频问答任务需对长时序上下文进行推理,使得受限于有限上下文窗口的大型视觉语言模型(LVLM)的帧选择策略尤为关键。现有方法面临严峻权衡:基于相似度的选择器虽快,但将组合式查询压缩为单一稠密向量,丢失了子事件顺序与跨模态关联;基于智能体的方法通过迭代式LVLM推理恢复结构,但计算成本高昂。我们提出HiMu这一免训练框架以弥合鸿沟:通过单次纯文本LLM调用将查询解构为层次化逻辑树,其叶节点为原子谓词,每个谓词路由至轻量级专家模块(涵盖视觉领域的CLIP、开放词汇检测、OCR及音频领域的ASR、CLAP)。生成的信号经归一化与时序平滑处理以对齐多模态数据,再通过强制时序顺序与邻接关系的模糊逻辑算子自底向上组合,最终生成连续满足度曲线。在Video-MME、LongVideoBench和HERBench-Lite上的评估表明,HiMu推进了效率-准确率的帕累托前沿:在16帧条件下,Qwen3-VL 8B版本优于所有竞争性选择器;搭配GPT-4o时,其性能超越运行在32-512帧的智能体系统,且计算量减少约10倍。
当前,离散扩散模型的蒸馏仍面临困难。相比之下,连续扩散模型领域已存在多种蒸馏方法,可将采样步骤大幅缩减至个位数。我们提出的离散矩匹配蒸馏法(D-MMD)借鉴了连续域中极为成功的思路。在以往离散蒸馏方法失效的情况下,D-MMD仍能保持高质量和多样性(在采样步骤充足时)。这一优势在文本和图像数据集上均得到验证。此外,新蒸馏出的生成器甚至能超越其教师模型的表现。
强化学习(RL)已成为大语言模型(LLM)后训练与对齐的标准范式,但近期研究表明其面临顽固的"能力天花板":与能发现新策略的经典RL系统不同,用于LLM的RL往往仅充当预训练权重中潜在模式的微调工具。本文指出一个根本性结构瓶颈:经典RL依赖紧凑且信息丰富的马尔可夫状态,而当前LLM后训练方案却受制于持续增长的动作历史序列。 我们重新审视了长期居于RL理论核心却缺席于LLM后训练的经典原则:显式马尔可夫状态。理论上,我们严格证明了利用估计的马尔可夫状态可显著降低样本复杂度。实证方面,通过一系列复杂逻辑谜题实验,我们发现引入马尔可夫状态能持续突破标准RL后训练的性能边界。研究结果表明,摆脱"以历史为状态"的建模方式,转向结构化马尔可夫表征,对于释放生成式AI的开放式发现能力及真正新颖的推理潜能具有关键意义。
数据科学在将各领域复杂数据转化为可操作洞察方面发挥着关键作用。大型语言模型与人工智能代理的最新进展显著推动了数据科学工作流的自动化。然而,人工智能代理在特定领域数据科学任务中究竟能在多大程度上媲美人类专家,以及人类专业优势具体体现在哪些方面,目前尚不明确。我们推出AgentDS基准测试与竞赛平台,旨在系统评估AI代理及人机协作在领域数据科学任务中的表现。该平台涵盖商业、食品生产、医疗保健、保险、制造业和零售银行六大行业的17项挑战任务。通过举办有29支队伍、80名参赛者参与的公开竞赛,我们实现了人机协作方案与纯AI基准线的系统性对比。研究结果表明,当前AI代理在领域特异性推理方面存在明显局限——纯AI基准线表现仅接近或低于参赛者中位数水平,而最优解决方案均诞生于人机协作模式。这些发现对"AI可实现完全自动化"的论调提出挑战,既揭示了人类专业知识在数据科学中不可替代的价值,也为下一代AI发展指明了方向。访问AgentDS官网https://agentds.org/ 及开源数据集https://huggingface.co/datasets/lainmn/AgentDS 获取更多信息。
我们研究LLM策略合成技术:利用大语言模型为多智能体环境迭代生成程序化智能体策略。与通过强化学习训练神经策略不同,我们的框架通过提示LLM生成Python策略函数,在自我对弈中评估这些函数,并基于迭代中的性能反馈进行优化。我们重点研究反馈工程(即优化过程中向LLM展示何种评估信息的设计),对比了稀疏反馈(仅含标量奖励)与密集反馈(奖励加社会指标:效率、平等、可持续性、和平)的效果。在两个经典序列社会困境(采集游戏与清理游戏)和两个前沿LLM(Claude Sonnet 4.6、Gemini 3.1 Pro)上的实验表明,密集反馈在所有指标上均持续达到或超越稀疏反馈。这种优势在清理公共物品博弈中最为显著,社会指标的提供有助于LLM校准成本高昂的清理-收获权衡关系。社会指标并未引发对公平性的过度优化,而是作为协调信号引导LLM形成更有效的合作策略,包括领地划分、自适应角色分配以及避免无效攻击行为。我们还进行了对抗性实验以验证LLM是否能对这些环境实施奖励攻击,归纳出五类攻击模式并探讨缓解措施,揭示了LLM策略合成中表达能力与安全性之间的内在张力。 代码详见:https://github.com/vicgalle/llm-policies-social-dilemmas。
我们提出了一种逐部件生成矢量草图的方法。该方法在监督微调基础上,采用新型多轮过程奖励强化学习策略训练多模态语言模型智能体。此项研究得以实现的关键在于我们构建的ControlSketch-Part数据集,该数据集通过创新的通用自动标注流程获取,采用结构化多阶段标注方法将矢量草图分割为语义部件并为各部件路径分配标签,从而提供了丰富的部件级草图标注信息。实验结果表明,通过引入结构化部件级数据并使智能体在生成过程中获取视觉反馈,我们的方法能够实现可解释、可控制且支持局部编辑的文生矢量草图生成。
大型视觉语言模型(VLMs)通常采用冻结的视觉骨干网络,其图像特征通过轻量级连接器映射至大语言模型。尽管基于Transformer的编码器是标准视觉骨干,我们探究状态空间模型(SSM)视觉骨干能否成为有力替代方案。我们在受控环境下系统评估了VLMs中SSM视觉骨干的性能。在匹配的ImageNet-1K初始化条件下,SSM骨干在视觉问答与定位任务中均展现出最优的综合性能。我们进一步通过检测或分割训练对SSM和ViT系列骨干进行适配,发现密集任务调优普遍能提升各系列模型的性能;经此适配后,SSM骨干在显著更小的模型规模下仍保持竞争力。我们还观察到:(i)更高的ImageNet精度或更大的骨干网络未必能可靠转化为更好的VLM性能;(ii)部分视觉骨干在定位任务中存在不稳定性。基于这些发现,我们提出稳定性提升策略以增强两类骨干网络的鲁棒性,并强调SSM骨干可作为VLMs中基于Transformer的视觉编码器的有力替代方案。
我们提出了一种稳健的实时RGB SLAM系统,通过采用可微分的不确定性感知光束法平差技术应对动态环境。传统SLAM方法通常假设场景静态,导致存在运动时出现跟踪失效。近期动态SLAM方案尝试通过预定义动态先验或不确定性感知建图来解决这一挑战,但在遇到未知动态物体或几何建图不可靠的高度杂乱场景时仍存在局限。与之相反,我们的方法通过利用多视角视觉特征不一致性来估计逐像素不确定性,从而在真实世界环境中实现稳健的跟踪与重建。所提出的系统在杂乱动态场景中实现了最先进的相机位姿与场景几何重建效果,同时以约10帧/秒的速度实时运行。代码与数据集详见https://github.com/MoyangLi00/DROID-W.git。
大型语言模型(LLM)展现出强大的通用智能,但其多语言性能仍存在显著不平衡。尽管LLM在统一语义空间中编码了丰富的跨语言知识,却往往难以可靠地将这些知识应用于低资源或未见语言。值得庆幸的是,预训练的编码器-解码器翻译模型已具备均衡的多语言能力,这为LLM提供了天然补充。本文提出XBridge架构,采用编码器-LLM-解码器的组合设计:将多语言理解与生成任务卸载给外部预训练翻译模型,同时保留LLM作为英语核心处理器以发挥其通用知识处理优势。针对由此产生的模型间表征失配问题,我们引入轻量级跨模型映射层和基于最优传输的对齐目标,实现多语言生成的细粒度语义一致性。在涵盖多语言理解、推理、摘要和生成的四项LLM实验表明,XBridge在低资源及未见语言任务上显著超越基线模型,且无需对LLM进行重新训练。
代码审查作为关键的软件工程实践,指开发者在代码集成前检查代码变更以确保质量、发现缺陷并提升可维护性。近年来,能够理解代码语境、规划审查行为并与开发环境交互的AI智能体已逐渐融入代码审查流程。然而,目前尚缺乏实证研究对比AI智能体与人类评审者在协同工作流中的效能差异。为填补这一空白,我们对300个开源GitHub项目中的278,790次代码审查对话展开大规模实证分析。本研究旨在比较人类评审者与AI智能体所提供反馈的差异,通过探究审查对话中的人机协作模式,揭示交互如何影响审查结果。此外,我们分析了代码库对人类评审者与AI智能体所提建议的采纳情况,以及被采纳建议对代码质量的改变。研究发现:人类评审者比AI智能体提供更多元化的反馈,包括理解性、测试性和知识传递性内容;在审查AI生成代码时,人类评审者比审查人工编写代码时多进行11.8%的对话轮次;AI智能体的代码建议被采纳率显著低于人类评审者,其未被采纳的建议中超过半数存在错误或已被开发者通过其他方式修复;当建议被采纳时,AI智能体建议导致的代码复杂度和规模增长幅度显著大于人类评审者。研究表明,虽然AI智能体可扩展缺陷筛查规模,但人类监督对于确保建议质量、提供AI所缺乏的语境化反馈仍具有不可替代的作用。
离策略学习中的策略陈旧与训练-推理失配问题,已成为制约大语言模型强化学习训练稳定性与探索能力的关键瓶颈。为提升推理效率,更新策略与推理策略间的分布差异会不断扩大,导致重要性权重出现重尾现象。当策略在局部呈现尖锐化时,重尾权重会进一步引发梯度激增,使更新突破置信区域。针对此问题,我们提出自适应分层扰动法(ALP),通过在更新时向每层输入隐状态注入可学习的微小扰动,将其作为目标函数中重要性权重的分子项与未变化的推理策略形成对比。该方法通过向中间表示施加受控噪声,既防止更新策略相对推理策略发生剧烈偏离,又通过引入失配噪声扩展策略族覆盖范围。平坦化的分布能自然缩小更新策略与推理策略的差距,降低重要性权重的尾部分布,从而维持训练稳定性。实验数据进一步验证了该机制:在单轮数学推理和多轮工具集成推理任务中,ALP不仅提升了最终性能,还避免了迭代训练中重要性权重尾部和KL散度的爆发性增长,同时增强了探索能力。消融实验表明,全分层表示级扰动效果最优,显著优于部分分层扰动及仅对输出逻辑值扰动的变体方法。
大型语言模型(LLMs)在具有社会影响的应用中日益普及,引发了对其所编码文化偏见的担忧。我们通过评估LLMs在零样本场景下能否根据歌词进行作者画像分析(即无需任务特定微调即可推断歌手的性别与族裔),来探究这些表征。基于对万余首歌词的多个开源模型测试发现,LLMs虽能实现显著的画像分析性能,但呈现出系统性文化对齐特征:多数模型默认偏向北美族裔,而DeepSeek-1.5B则更倾向于亚洲族裔。这一结论既源自模型的预测分布,也基于其生成推理逻辑的分析。为量化这些差异,我们引入模态准确度离散度(MAD)和召回率离散度(RD)两项公平性指标,结果表明Ministral-8B在受测模型中表现出最强的族裔偏见,而Gemma-12B则展现出最均衡的行为特征。相关代码已发布于GitHub(https://github.com/ValentinLafargue/CulturalProbingLLM)。
近期,结合形式化方法与大型语言模型的神经符号化方法在数学导向的定理证明基准测试中取得了显著成果。然而,竞赛型数学任务的成功本身并不能证明其具备对现实世界实现进行形式化验证的能力。为此,我们推出一个基于工业密码学库的全新基准测试——该库的汇编例程已在HOL Light中完成验证。s2n-bignum是AWS使用的密码学快速汇编例程库,其正确性已通过形式化验证得以确立。对该库进行形式化验证是自动推理研究组的重要成果,包含两项核心任务:(1) 将程序正确行为精确定义为数学命题;(2) 证明该命题的正确性。在s2n-bignum项目中,这两项任务均由人类专家完成。而在s2n-bignum-bench基准测试中,我们提供形式化规范,要求LLM在限定验证时长内生成能被HOL Light接受的证明脚本。据我们所知,这是首个专注于HOL Light环境下工业级底层密码汇编例程的机器可验证证明合成公共基准。该基准为评估LLM在超越竞赛数学的定理证明能力提供了兼具挑战性与实践意义的测试平台。基准测试的配置与使用代码已开源:https://github.com/kings-crown/s2n-bignum-bench{s2n-bignum-bench}。
长期以来,从图像重建3D资产需要分别处理几何重建、材质估算和光照还原的独立流程,每个流程都存在固有局限性和计算开销。我们提出ReLi3D——首个统一端到端流程,可在1秒内从稀疏多视角图像同步重建完整3D几何、空间变化的物理材质及环境光照。我们的核心发现是:多视角约束能显著提升材质与光照的解耦能力,而这对单图像方法仍是本质上的不适定问题。该方法的关键在于通过Transformer交叉条件架构融合多视角输入,继而采用新颖的统一双路径预测策略:第一路径预测物体结构与外观,第二路径从图像背景或物体反射中预测环境光照。结合可微分蒙特卡洛多重重要性采样渲染器,形成了最优的光照解耦训练流程。此外,通过融合合成PBR数据集与真实世界RGB采集的混合域训练方案,我们在几何精度、材质准确性和光照质量方面实现了可泛化结果。将此前分离的重建任务统一至单次前馈传递,使得近乎即时生成完整可重光照3D资产成为可能。项目页面:https://reli3d.jdihlmann.com/
多模态大语言模型在离线视频理解领域已取得显著成功,但其在流式视频处理中的应用却因视觉令牌数量的线性激增而严重受限,常引发内存溢出错误或灾难性遗忘问题。现有视觉保留与内存管理方法通常依赖均匀采样、低层物理指标或被动缓存淘汰策略,但这些方法往往缺乏内在语义感知能力,可能破坏上下文连贯性并模糊短暂而关键的语义转换。为突破这些局限,我们提出CurveStream——一种免训练的曲率感知分层视觉内存管理框架。该方法的创新动机在于关键发现:连续特征轨迹上的高曲率区域与全局关键语义转换高度吻合。基于这一几何洞察,CurveStream通过曲率评分实时评估语义强度,并集成在线K-Sigma动态阈值,在严格令牌预算下自适应地将视频帧路由至清晰与模糊两种内存状态。跨多时间尺度的评估表明,该轻量级框架在StreamingBench和OVOBench基准上分别取得10.69%和13.58%的绝对性能提升,持续超越现有基线方法,为流式视频感知树立了新标杆。代码将在https://github.com/streamingvideos/CurveStream开源。
大型语言模型的迅速扩散显著增加了区分人类书写与AI生成文本的难度,在学术、出版及社会领域引发关键问题。本文通过设计、实现并比较评估多种基于机器学习的检测器,对AI生成文本检测问题展开研究。我们开发并分析了四种神经架构:多层感知器、一维卷积神经网络、基于MobileNet的CNN以及Transformer模型。所提出的模型与广泛使用的在线检测工具(包括ZeroGPT、GPTZero、QuillBot、Originality.AI、Sapling、IsGen、Rephrase和Writer)进行了基准测试。实验在COLING多语言数据集上开展,涵盖英语和意大利语两种配置,同时采用以艺术与心理健康为主题的原创数据集进行验证。结果表明,在不同语言和领域下,有监督检测器比商业工具表现出更稳定、更鲁棒的性能,揭示了当前检测策略的主要优势与局限。
医学超声图像分割面临标注数据有限及固有成像伪影(包括斑点噪声和低对比度边界)带来的重大挑战。尽管半监督学习方法已开始应对数据稀缺问题,但现有方法存在未标注数据利用欠佳、缺乏鲁棒特征表示机制等不足。本文提出Switch这一新型半监督学习框架,其具备两项核心创新:(1) 多尺度切换策略,通过分层块混合实现均匀空间覆盖;(2) 频域切换机制,结合对比学习在傅里叶空间执行幅度切换以获取鲁棒特征表示。本框架将上述组件集成于师生架构中,有效协同利用标注与未标注数据。在六个多样化超声数据集(淋巴结、乳腺病灶、甲状腺结节及前列腺)上的综合评估表明,该方法持续优于现有最优技术。在5%标注比例下,Switch取得显著提升:LN-INT数据集Dice系数达80.04%,DDTI数据集达85.52%,前列腺数据集达83.48%,其半监督性能甚至超越全监督基线。该方法在保持参数高效性(180万参数)的同时提供卓越性能,验证了其在资源受限的医学影像应用中的有效性。源代码已公开于https://github.com/jinggqu/Switch。
为未贴图三维模型自动生成照片级真实且自洽的外观是数字内容创作中的关键挑战。大规模视频生成模型的进展提供了一种自然解决方案:直接合成360度旋转展示视频,这种视频不仅能作为高质量动态预览,还可作为驱动纹理合成与神经渲染的中间表征。然而,现有通用视频扩散模型难以在全方位视角下保持严格的几何一致性与外观稳定性,导致其输出不适用于高质量三维重建。为此,我们提出TAPESTRY框架,通过显式三维几何条件生成高保真旋转视频。我们将三维外观生成任务重新定义为几何条件约束的视频扩散问题:给定三维网格,首先渲染并编码多模态几何特征,以像素级精度约束视频生成过程,从而实现高质量且一致的旋转视频生成。在此基础上,我们还设计了从旋转视频输入进行下游重建任务的方法,采用包含三维感知修复的多阶段流程。通过旋转模型并执行上下文感知的二次生成,该流程能有效补全自遮挡区域以实现全表面覆盖。TAPESTRY生成的视频不仅是高质量动态预览,更可作为可靠的三维感知中间表征,能够无缝反投影至UV纹理或用于监督如3DGS等神经渲染方法,从而从未贴图网格自动生成可直接投入生产的完整三维资产。实验结果表明,本方法在视频一致性与最终重建质量方面均优于现有方法。
现有的篡改检测基准主要依赖物体掩码,这与真实编辑信号存在严重偏差:掩码内的许多像素未被修改或仅轻微改动,而掩码外细微但关键的篡改却被视为自然图像。我们将VLM图像篡改检测重新定义为从粗粒度区域标注转向像素级锚定、语义与语言感知的任务。首先,我们建立了涵盖编辑基本类型(替换/移除/拼接/修复/属性修改/色彩调整等)及其篡改对象语义类别的分类体系,将底层视觉变化与高层语义理解相连接。其次,我们发布了包含逐像素篡改图谱和配对类别标注的新基准,通过统一协议评估检测与分类性能。第三,我们提出了量化像素级正确率的训练框架与评估指标:通过定位置信度或真实编辑强度的预测来评估检测效果,并借助语义感知分类和自然语言描述来度量对篡改含义的理解。我们还在最新强效篡改检测器上重新评估了现有分割/定位基线,发现仅使用掩码指标会导致严重的高估或低估,同时揭示了微篡改和掩码外修改的失效模式。我们的框架推动该领域从掩码检测迈向像素级、语义化和语言描述的新阶段,为篡改定位、语义分类和描述建立了严谨标准。代码与基准数据详见https://github.com/VILA-Lab/PIXAR。
降低延迟与能耗对提升现代计算中存储系统效率至关重要。本文提出ReLMXEL(基于可解释性能耗与延迟优化的强化学习存储控制器)——一种可解释的多智能体在线强化学习框架,通过奖励分解机制动态优化存储控制器参数。该框架在存储控制器内部运行,利用细粒度内存行为指标指导决策。多场景工作负载测试表明,该框架在基准配置基础上实现了持续性能提升,且能根据特定工作负载的内存访问特征进行精细化调整。通过将可解释性融入学习过程,ReLMXEL在提升性能的同时增强了控制决策的透明度,为构建更具可问责性和自适应能力的存储系统设计开辟了新路径。