每日精选AI研究论文及翻译
图像思维链(Image-CoT)是一种通过延长推理时间提升图像生成质量的测试时扩展范式。现有方法主要聚焦于文本到图像(T2I)生成,而图像编辑具有目标导向性:其解空间受源图像和编辑指令的双重约束。这种差异导致Image-CoT应用于编辑任务时面临三大挑战:固定采样预算下的资源分配低效、通用多模态大模型评分在早期验证中的不可靠性,以及大规模采样导致的冗余编辑结果。为此,我们提出自适应编辑思维链(ADE-CoT),一种按需分配的测试时扩展框架,以提升编辑效率与性能。该框架包含三大核心策略:(1)基于编辑难度估计的动态资源分配机制;(2)融合区域定位与描述一致性的编辑专用早期筛选验证;(3)由实例化验证器引导的深度优先机会性终止策略,在获得意图对齐结果时即时停止推理。在三个前沿编辑模型(Step1X-Edit、BAGEL、FLUX.1 Kontext)和三大基准测试上的实验表明,ADE-CoT实现了更优的性能-效率平衡。在同等采样预算下,其性能优于最佳采样法(Best-of-N)且推理速度提升超2倍。
OmniLottie是一种多功能框架,能够根据多模态指令生成高质量矢量动画。为实现灵活的运动与视觉内容控制,我们聚焦于Lottie——一种轻量级JSON格式,可同时表征图形与动画行为。然而原始Lottie JSON文件包含大量不变的结构元数据和格式标记,为矢量动画生成学习带来巨大挑战。为此,我们设计了精密的Lottie标记化器,将JSON文件转换为由命令与参数构成的结构化序列,这些序列分别表征图形、动画功能及控制参数。该标记化器使我们能够基于预训练视觉语言模型构建OmniLottie,使其遵循多模态交错指令并生成高质量矢量动画。为推进矢量动画生成研究,我们构建了MMLottie-2M大规模数据集,其中包含专业设计的矢量动画及其对应的文本与视觉标注。通过大量实验验证,OmniLottie能够生成生动且语义对齐的矢量动画,精准遵循多模态人类指令。
软件工程智能体(SWE)正快速发展,其近期进步主要得益于强化学习(RL)的推动。然而,RL训练受限于缺乏具备可复现执行环境和可靠测试套件的大规模任务集。尽管已有越来越多的基准测试出现,但适用于训练的数据集在规模和多样性上仍显不足,且往往仅针对少数高资源语言生态。我们推出SWE-rebench V2——一个与编程语言无关的自动化流程,能够大规模采集可执行的真实世界SWE任务并构建RL训练环境。该流程通过交互式设置智能体合成仓库特定的安装与测试流程,并采用LLM评审团过滤不可靠实例,其有效性已通过人工标注的SWE-bench数据验证。基于此流程,我们构建了涵盖20种编程语言、3,600余个代码仓库的32,000多项任务数据集,并提供预构建镜像确保执行可复现。为扩展训练数据规模,我们额外发布了12万余项含安装说明、失败转通过测试及丰富元数据的任务,其问题描述基于原始拉取请求内容生成。我们通过对五类编程语言中七种主流模型的任务子集开展诊断研究,验证了所采集实例的质量,并提供实例级元数据以标识常见干扰因素(如过度严格的测试和描述不完整问题)。现开源数据集、采集与执行代码及相关组件,以支持跨多样语言与仓库的大规模SWE智能体训练。
随着大型语言模型(LLM)对齐任务从简单补全发展为复杂精密的文本生成,奖励模型正日益转向基于量规的评估方法以缓解表层偏差。然而,学术界目前缺乏统一的基准来评估这一范式,因为现有基准既不具备足够的判别复杂度,也缺少严格分析所需的标准量规标注。为填补这一空白,我们推出RubricBench——一个包含1,147组配对比较的精选基准,专门用于评估基于量规的评估方法的可靠性。我们通过多维过滤流程构建具有细微输入复杂性和误导性表层偏差的困难样本,并为每个样本严格依据指令添加专家标注的原子化量规。综合实验表明,人工标注与模型生成量规之间存在显著能力差距:即使最先进的模型也难以自主制定有效的评估标准,其表现远逊于人类指导的评估水平。
OpenAutoNLU是一款面向自然语言理解任务的开源自动机器学习库,涵盖文本分类与命名实体识别两大功能。与现有方案不同,我们引入了无需用户手动配置的数据感知型训练机制选择技术。该库还提供集成化数据质量诊断、可配置的分布外检测功能以及大语言模型特性,所有功能均通过极简的低代码API实现。演示应用可通过 https://openautonlu.dev 访问。
多模态大语言模型(MLLMs)推理能力的近期突破,使其能够应对更复杂的任务,如科学分析和数学推理。尽管前景广阔,MLLMs在现实生活不同场景中的推理能力仍待深入探索,且缺乏标准化的评估基准。为填补这一空白,我们推出MMR-Life——一个专为评估MLLMs在真实生活场景中多样化多图像推理能力而设计的综合基准。该基准包含基于19,108张主要源自真实场景图像的2,646道选择题,全面涵盖七类推理类型:溯因推理、类比推理、因果推理、演绎推理、归纳推理、空间推理及时序推理。与现有推理基准不同,MMR-Life不依赖领域专业知识,而是要求模型整合多图像信息并运用多样化推理能力。对37个先进模型的评估结果表明,MMR-Life构成了重大挑战:即便顶尖模型如GPT-5也仅达到58%的准确率,且在不同推理类型间表现差异显著。此外,我们分析了现有MLLMs的推理范式,探究思维长度、推理方法与推理类型等因素如何影响其性能。总体而言,MMR-Life为评估、分析和改进下一代多模态推理系统奠定了全面基础。
近期,大型语言模型(LLMs)展现出卓越的推理能力,这主要得益于基于高质量推理数据的监督微调(SFT)和强化学习(RL)后训练。然而,在开放可扩展的环境中复现和扩展这些能力面临三个根本性的数据挑战:(1)冷启动问题,由于缺乏包含详细长链思维(CoT)轨迹的种子数据集来初始化推理策略;(2)领域覆盖有限,现有开源推理数据集多集中于数学领域,对更广泛科学学科的覆盖不足;(3)标注瓶颈,前沿级推理任务的难度使得可靠的人工标注成本过高或难以实现。为应对这些挑战,我们推出CHIMERA——一个包含9K样本的紧凑型合成推理数据集,旨在实现可泛化的跨领域推理。CHIMERA具备三大关键特性:(1)提供由前沿推理模型生成的丰富长链CoT推理轨迹;(2)具有广覆盖且结构化的特点,涵盖8大科学学科并通过模型生成的层次化分类体系组织逾1K细粒度主题;(3)采用全自动可扩展的评估流程,利用强推理模型交叉验证问题有效性与答案正确性。我们使用CHIMERA对4B参数的Qwen3模型进行后训练。尽管数据集规模有限,所得模型在GPQA-Diamond、AIME 24/25/26、HMMT 25及Humanity's Last Exam等挑战性推理基准上表现强劲,其推理能力接近或匹敌DeepSeek-R1、Qwen3-235B等参数量大得多的模型。
当前的多视角室内3D目标检测器依赖难以获取的传感器几何信息(即精确标定的多视角相机位姿)来将多视角信息融合为全局场景表示,这限制了其在真实场景中的部署。我们瞄准更实用的设定:无传感器几何信息的多视角室内3D目标检测,即不依赖传感器提供的几何输入(多视角位姿或深度)。近期视觉几何基座Transformer(VGGT)研究表明,强大的3D线索可直接从图像中推断。基于这一洞见,我们提出首个专为无几何约束多视角室内3D检测设计的框架VGGT-Det。不同于简单使用VGGT预测结果,我们的方法将VGGT编码器集成至基于Transformer的流程中。为有效利用VGGT内部语义与几何先验,我们引入两个创新核心组件:(1)注意力引导的查询生成:利用VGGT注意力图作为语义先验初始化物体查询,通过聚焦物体区域提升定位能力,同时保持全局空间结构;(2)查询驱动特征聚合:可学习的感知查询与物体查询交互以"感知"其需求,随后动态聚合VGGT各层级中将2D特征逐步提升至3D的多层次几何特征。实验表明,在无几何约束设定下,VGGT-Det在ScanNet和ARKitScenes数据集上的mAP@0.25分别显著超越最佳现有方法4.4和8.6个百分点。消融实验证实,我们的注意力引导查询生成与查询驱动特征聚合能有效利用VGGT内部学习的语义与几何先验。
开发多轮交互式工具使用智能体具有挑战性,因为现实世界中的用户需求往往复杂且模糊,而智能体必须执行确定性操作来满足这些需求。为弥补这一差距,我们提出了CoVe(约束验证)——一种专为训练交互式工具使用智能体而设计的后训练数据合成框架,该框架在确保数据复杂性的同时兼顾正确性。CoVe首先定义明确的任务约束,这些约束具有双重作用:既指导复杂轨迹的生成,又作为确定性验证器评估轨迹质量。这种方法能够为监督微调(SFT)创建高质量训练轨迹,并为强化学习(RL)提供精确的奖励信号。在具有挑战性的τ²-bench基准测试中,我们的评估验证了该框架的有效性。值得注意的是,紧凑型CoVe-4B模型在航空和零售领域分别实现了43.0%和59.4%的成功率;其整体性能显著优于同等规模的强基线模型,并与体积达其17倍的模型保持竞争力。这些结果表明,CoVe为最先进的交互式工具使用智能体提供了一条高效的数据合成路径。为支持未来研究,我们开源了代码、训练模型以及用于训练的完整1.2万条高质量轨迹集。
个人相册并非静态图像的简单集合,而是具有时间连续性、社会关联性和丰富元数据的动态生态档案,这使得个性化图像检索成为一项复杂任务。然而现有检索基准过度依赖脱离语境的网络快照,无法捕捉解决真实用户意图驱动查询所需的多源推理能力。为弥补这一缺陷,我们推出首个基于真实个人相册构建的基准数据集PhotoBench,旨在将研究范式从视觉匹配转向个性化多源意图推理。通过建立严谨的多源画像框架——整合每张图像的视觉语义、时空元数据、社交身份与时间事件——我们基于用户生命轨迹合成了复杂的意图驱动查询。在PhotoBench上的大量实验揭示了两大关键局限:其一是模态鸿沟,即统一嵌入模型在非视觉约束条件下失效;其二是源融合悖论,即智能体系统难以有效协调多工具协作。这些发现表明,个人多模态检索的下一个前沿在于突破统一嵌入范式,需要构建能够精确满足约束条件并实现多源融合的强健智能体推理系统。PhotoBench已开放使用。
我们提出LLaDA-o,一种高效且长度自适应的全能扩散模型,用于多模态理解与生成。该模型基于混合扩散框架构建,通过离散掩码扩散实现文本理解,连续扩散完成视觉生成,并借助共享的轻量化注意力骨干网络将二者耦合,有效减少固定条件下的冗余计算。在混合扩散框架基础上,我们进一步提出以数据为中心的长度自适应策略,无需调整架构即可实现多模态场景下的灵活长度解码。大量实验表明,LLaDA-o在多模态理解与生成基准测试中达到全能扩散模型的领先水平,在文本到图像生成的DPG-Bench基准上取得87.04分,验证了统一化全能扩散建模的有效性。代码已开源:https://github.com/ML-GSAI/LLaDA-o。
生成式基础模型的宽度与深度规模不断扩大,这对跨模型尺寸的稳定特征学习和超参数可靠迁移提出了重大挑战。虽然最大更新参数化(μP)已为宽度缩放提供了针对上述问题的理论解决方案,但现有面向联合宽度-深度缩放的扩展方法仍存在碎片化、依赖特定架构与优化器、且常需复杂理论支撑的局限。本研究提出一个简单统一的谱框架来解决联合缩放下的μP问题。通过分析不同块深度的残差网络,我们首先提出谱μP条件,精确刻画了权重及其每步更新量的范数应如何随宽度和深度缩放,将先前分散的μP公式统一为特例。基于此条件,我们进一步推导出适用于广泛优化器类别的μP通用实现方案,通过将谱约束映射为具体超参数化方法。该方案不仅复现了现有μP公式(如SGD和AdamW),还能自然扩展至更多优化器。最终在GPT-2风格语言模型上的实验表明,所提谱μP条件能在宽度-深度缩放下保持稳定的特征学习,并实现鲁棒的超参数迁移。
尽管基础视频扩散模型(VDM)的最新进展已取得显著突破,但生成视频在视觉质量优异的同时,从这些输出中重建一致的三维场景仍面临挑战,这主要源于摄像机可控性受限以及不同摄像机轨迹下生成内容的不一致性。本文提出WorldStereo这一新型框架,通过两个专用几何记忆模块搭建起摄像机引导视频生成与三维重建的桥梁。具体而言,全局几何记忆模块通过增量更新的点云注入粗粒度结构先验,同时实现精确的摄像机控制;空间立体记忆模块则利用三维对应关系约束模型的注意力感受野,使其聚焦于记忆库中的细粒度细节。这些组件使WorldStereo能在精确摄像机控制下生成多视角一致的视频,为高质量三维重建提供支持。此外,基于分布匹配蒸馏VDM主干网络的分支控制架构展现出卓越效率,无需联合训练即可实现灵活控制。在摄像机引导视频生成和三维重建基准测试上的大量实验证明了本方法的有效性。值得注意的是,WorldStereo可作为强大的世界模型,无论是从透视图像还是全景图像出发,都能以高保真三维结果处理多样化的场景生成任务。相关模型将予以开源。
强化学习(RL)在提升大语言模型推理能力与对齐效果方面具有核心作用,但其效率关键取决于训练数据的选择策略。现有在线选择方法主要依赖基于难度的启发式规则,偏好中等成功率的数据点,这种策略隐含地将难度与信息量等同,却忽视了有限证据导致的认识不确定性。我们提出InSight——一种基于加权互信息目标的信息导向式RL训练数据采样方法。通过贝叶斯潜在成功率对数据结果建模,我们证明预期不确定性降低可分解为难度相关和证据相关的互补成分,从而揭示了纯难度选择策略的根本局限。基于此发现,InSight采用数据点成功率的均值估计(而非噪声采样结果)构建稳定的获取分数,并可自然扩展至带可验证奖励的强化学习(RLVR)中常见的多轮次场景。大量实验表明,InSight持续实现最先进性能并提升训练效率:在规划与数学基准测试中平均提升1.41分,通用推理任务提升1.01分,训练加速最高达2.2倍,且额外计算开销可忽略不计。
数学推理中的强化学习常受奖励稀疏问题困扰:面对复杂题目时,大语言模型难以生成任何正确轨迹,导致强化学习缺乏有效正向反馈。尽管题目常附有人工编写的参考答案(如AoPS题库),但直接对这些解答进行微调收效甚微——模型往往难以模仿超出其自身推理分布的人类证明。 我们提出参考引导微调法(ReGFT),通过参考答案为难题合成正向轨迹并在强化学习前进行训练。该方法针对每道题目,先向模型提供部分参考答案片段,再由其自主生成推理轨迹,确保所得轨迹既保持在模型推理空间内,又能获得参考指引。 基于参考引导轨迹的微调可提升模型可解题目的数量,并生成能在强化学习阶段获得更多正向奖励的检查点。在AIME24、AIME25和BeyondAIME三个基准测试中,ReGFT持续提升监督学习准确率,加速DAPO训练进程,并推高强化学习的最终性能平台。实验结果表明,ReGFT能有效克服奖励稀疏问题,释放基于强化学习的数学推理潜力。
大型语言模型(LLMs)正逐渐成为能够使用工具解决复杂任务的自主智能体基础架构。强化学习(RL)已成为注入此类智能体能力的常用方法,但通常需要在严格控制的训练环境下进行。这种方法往往依赖于精心构建的任务-解决方案对和大量人工监督,这为通向超级智能系统的开放式自我进化设置了根本性障碍。本文提出Tool-R0框架,在零数据假设下通过自我博弈式强化学习从头训练通用工具调用智能体。该框架从同一基础LLM初始化,通过互补奖励机制协同进化生成器与求解器:前者在后者能力边界提出针对性挑战任务,后者学习通过真实工具调用来解决问题。由此形成无需预设任务或数据集的自我进化循环。在不同工具使用基准测试中,Tool-R0相比基础模型实现92.5%的相对性能提升,并在相同设定下超越全监督工具调用基线方法。本研究还通过分析协同进化、课程动态和扩展行为,为自我博弈LLM智能体提供了实证见解。
强化学习(RL)在医学视觉语言模型(VLMs)的后训练中应用日益广泛,但其究竟能提升医学视觉推理能力,还是主要强化监督微调(SFT)已诱导的行为仍不明确。我们通过控制变量实验从视觉、SFT和RL三个维度解析这些效应:以MedMNIST作为多模态测试平台,通过对比VLM视觉模块与纯视觉基线的表现来评估视觉感知能力,利用Accuracy@1与Pass@K量化推理支持度与采样效率,并探究RL何时能弥合支持度差距及其跨模态迁移效果。研究发现当模型已具备显著支持度(高Pass@K)时RL最有效:其主要通过锐化输出分布来提升Acc@1和采样效率,而SFT则扩展支持度并为RL生效创造条件。基于这些发现,我们提出边界感知训练方案,通过在PMC多选题VQA的平衡子集上对OctoMed初始化模型进行RL后训练,该方案在六项医学VQA基准测试中均展现出强劲的平均性能。
我们推出V-SONAR——一个从纯文本嵌入空间SONAR(Omnilingual Embeddings Team等人,2026年)扩展而来的视觉语言嵌入空间,其支持1500种文本语言和177种语音语言。为构建V-SONAR,我们提出了一种后置对齐流程,将现有视觉编码器的表征映射至SONAR空间。通过全面评估,我们证明V-SONAR嵌入向量在文本到视频检索任务中具备竞争力。结合OMNISONAR文本解码器后,V-SONAR在视频描述任务(包括DREAM-1K数据集上的BLEU值23.9对19.6,PE-VIDEO数据集上的39.0对30.0)进一步超越了现有顶尖视觉语言模型。 基于V-SONAR,我们首次证实:在SONAR空间中运行且仅通过英文文本训练的大型概念模型(LCM;LCM团队等人,2024年)能以零样本方式实现单视觉概念与多视觉概念理解。最后我们提出V-LCM模型,通过视觉语言指令微调对LCM进行扩展。该模型通过V-SONAR和SONAR将视觉与语言输入编码为统一的潜在嵌入序列,并采用与LCM纯文本预训练相同的潜在扩散目标进行下一嵌入预测训练。在大规模多语言多模态指令微调混合数据集上的实验凸显了V-LCM的潜力:在涵盖图像/视频描述与问答任务中,V-LCM与顶尖视觉语言模型性能相当,而在全部62种测试语言中,其于61种资源丰富至匮乏的语言上显著超越现有最佳模型。
当文本描述被添加错误细节时,图文相似度应当下降。但我们发现CLIP风格的双编码器常违背这一直觉:在正确描述后附加合理但错误的对象或关系,反而可能提高相似度得分。我们将此类情况称为"半真陈述"。在COCO数据集上,CLIP仅40.6%的情况下偏好正确简短描述,当添加细节为关系时,该比例降至32.9%。我们追溯这一缺陷至对描述部分的弱监督:对比训练虽对齐完整句子,却未显式要求实体与关系被单独锚定。我们提出CS-CLIP(组件监督CLIP),其将描述解构为实体与关系单元,为每个单元构建最小化编辑的反例,通过微调使模型对正确单元的评分高于反例,同时保持标准双编码器推理。CS-CLIP将半真陈述准确率提升至69.3%,并在主流组合式理解基准上平均提升5.7分,表明减少半真错误有助于提升组合理解能力。代码已开源:https://github.com/kargibora/CS-CLIP
大型语言模型智能体能否在不执行代码的情况下探索代码库并推理代码语义?我们研究了这种被称为智能体代码推理的能力,并提出了半形式化推理方法:一种结构化提示技术,要求智能体构建明确前提、追踪执行路径并推导形式化结论。与无结构的思维链不同,半形式化推理具有可验证性:智能体无法跳过测试用例或提出无依据的论断。我们在三项任务(补丁等价性验证、缺陷定位和代码问答)上进行评估,结果表明半形式化推理能持续提升所有任务的准确率。在补丁等价性任务中,精选案例的准确率从78%提升至88%,真实场景中智能体生成补丁的准确率达到93%,接近无需执行的强化学习奖励信号所需的可靠性水平。在RubberDuckBench(Mohammad等人,2026)的代码问答任务中,半形式化推理取得87%的准确率。在Defects4J(Just等人,2014)的缺陷定位任务中,该方法将Top-5准确率较标准推理提升5个百分点。这些结果证明,结构化智能体推理能够实现无需执行代码的语义分析,为强化学习训练流程、代码审查和静态程序分析等实际应用开辟了新途径。
诸如DeepSeek-R1等思维-解答推理器通过引入可解释的内部推理机制取得了显著进展。然而,尽管这些模型频繁出现"糟糕!"等自我反思提示,但在单轮推理过程中仍易产生输出错误。为突破这一局限,我们提出高效的递归思维-解答流程(R-TAP),使模型能够进行迭代式推理循环,生成比传统单轮方法更精准的答案。该方法的核心理念是构建置信度生成器,用于评估模型响应的确定性并指导后续改进。通过引入递归置信度增长奖励和最终答案置信度奖励这两个互补的激励机制,我们发现经R-TAP增强的模型在大语言模型和视觉语言模型任务中均持续超越传统单轮方法。此外,通过分析模型响应中"糟糕"类表达的频率,我们发现应用R-TAP的模型展现出显著减少的自我反思模式,从而实现更稳定、更快速的推理过程。我们期待R-TAP能为开发高效精细的推理优化方法开辟新路径,推动未来人工智能推理能力的演进。
注意力引导是一项控制模型聚焦的关键技术,能够实现提示词高亮等功能,使模型优先处理用户指定的文本。然而现有注意力引导方法需显式存储完整注意力矩阵,导致其无法兼容FlashAttention等内存优化方案。我们提出谱编辑键值放大技术(SEKA),该免训练引导方法通过在注意力计算前直接编辑键值嵌入来解决这一问题。SEKA利用谱分解将键值嵌入引导至潜在方向,从而放大特定标记的注意力分数。我们进一步扩展出自适应SEKA(AdaSEKA),这种查询自适应变体通过免训练路由机制,基于提示词语义意图动态组合多个专家子空间。实验表明,两种方法在标准引导基准测试中均显著优于强基线方案,同时仅增加极低的延迟与内存开销,完全兼容优化后的注意力机制。
我们推出Legal RAG Bench——一个用于评估法律RAG系统端到端性能的基准测试与评估方法。该基准包含从《维多利亚刑事指控手册》中提取的4,876个法律条文片段,以及100个需要刑法与诉讼程序专业知识的复杂人工编制问题,同时提供详述答案及支撑性法律依据。在评估方法上,Legal RAG Bench采用全因子实验设计及创新的层次化误差分解框架,实现了检索模型与推理模型在RAG系统中贡献度的精准对比。通过对三款前沿嵌入模型(Isaacus公司的Kanon 2 Embedder、谷歌Gemini Embedding 001和OpenAI Text Embedding 3 Large)及两款尖端大语言模型(Gemini 3.1 Pro与GPT-5.2)的评估,我们发现信息检索是法律RAG性能的核心驱动力,而大语言模型对答案正确性与事实依据性的影响相对有限。其中Kanon 2 Embedder对性能提升最为显著,使平均正确率提高17.5个百分点,事实依据性提升4.5个百分点,检索准确率提升34个百分点。研究观察到法律RAG系统中许多被归因于幻觉生成的错误实则由检索失败引发,由此得出结论:检索性能为现代法律RAG系统的表现设定了上限。本文详细阐述了构建Legal RAG Bench的动因、方法及评估结果,并公开代码与数据以助力研究复现。
为游戏、机器人及仿真创建交互式数字环境,需要依赖具有功能性的铰接式三维物体——其功能特性源于部件几何形态与运动学结构的结合。然而现有方法存在根本性局限:基于优化的重建方法需对每个物体进行耗时的关节拟合,且通常仅能处理简单的单关节物体;而基于检索的方法则从固定部件库中组装零件,导致几何重复度高且泛化能力弱。为应对这些挑战,我们提出ArtLLM创新框架,可直接从完整三维网格生成高质量铰接式资源。该框架核心是基于大规模铰接数据集训练的三维多模态大语言模型,该数据集融合了现有铰接数据集与程序化生成物体。与先前研究不同,ArtLLM能以自回归方式预测可变数量的部件与关节,通过物体点云统一推断其运动学结构。这种铰接感知的布局随后作为条件输入三维生成模型,合成高保真度的部件几何形态。在PartNet-Mobility数据集上的实验表明,ArtLLM在部件布局精度与关节预测方面显著优于现有最优方法,同时对现实物体展现出强大泛化能力。最后,我们通过数字孪生构建验证其应用价值,彰显其在可扩展机器人学习领域的潜力。
大型语言模型(LLMs)从根本上革新了稠密检索技术,将系统核心从判别式编码器升级为生成式架构。然而存在一个关键断层:尽管LLMs具备强大的推理能力,当前检索器主要将其作为静态编码器使用,未能挖掘其复杂推理潜力。针对这一问题,现有方法通常采用"重写后检索"流程,在检索前生成显式思维链推理路径。但这种方法会产生难以承受的延迟。本文提出LaSER创新框架,通过自蒸馏机制将显式推理内化至稠密检索器的隐式空间。基于共享的LLM主干网络,LaSER引入双视角训练机制:显式视角负责编码真实推理路径,隐式视角则执行潜在思维过程。为弥合两个视角的差距,我们设计了多粒度对齐策略——除标准输出对齐外,创新性地引入轨迹对齐机制,使隐式路径的中间潜在状态与显式推理片段的语义演进保持同步。这使得检索器无需自回归文本生成即可实现高效静默思考。在领域内和领域外推理密集型基准测试上的大量实验表明,LaSER显著优于现有最优基线方法。此外,跨不同主干网络和模型规模的综合分析验证了我们方法的鲁棒性,证实这种统一学习框架对激发有效潜在思维至关重要。我们的方法成功融合了显式思维链流程的推理深度与标准稠密检索器的推理效率。
测试时强化学习(TTRL)已成为一种推动大型推理模型(LRM)自我演进的前沿范式,该范式通过多数投票产生自诱导奖励,使模型能在未标注测试输入上实现在线适应。然而,高频但虚假的未经验证共识可能形成带有偏见的强化奖励信号,导致错误的模式坍塌。针对这一失效模式,我们提出T^3RL(测试时工具验证强化学习),将测试阶段工具验证机制引入奖励估计过程。具体而言,验证器利用外部工具(如代码执行结果)作为证据,在验证感知投票中提升已验证决策轨迹的权重,从而为训练生成更可靠的伪标签。在多种数学难度数据集(MATH-500、AMC及AIME 2024)和不同骨干网络上的实验表明,T^3RL较TTRL实现显著提升,且在难题上增益更为突出。从更广义视角看,T^3RL可视为经过验证的在线数据合成方法,揭示了测试时工具验证作为稳定模型自我演进的关键机制。
基于可验证符号数据的训练,是突破标准预训练语料限制、拓展语言模型推理前沿的有效途径。然而现有的程序化生成方法往往依赖固定谜题或模板,难以实现规模化所需的分布广度。我们推出"推理核心"——一个可扩展的程序化生成套件,能在核心形式化领域生成可验证符号推理数据:包括随机化领域的PDDL规划、带等式的一阶逻辑、上下文无关文法解析与生成、随机贝叶斯网络的因果推理以及方程组求解。每个任务均配备外部求解器以实现严格验证,并支持难度连续调控以适应课程设计。样本可选择性地包含求解器推导的推理轨迹,从而支持从预训练早期阶段开始的监督学习,同一接口还可为强化学习提供可验证的奖励函数。实验表明,将推理核心数据混入预训练能提升下游推理能力,同时保持(甚至略微提升)语言建模质量。零样本评估证实这些任务对GPT-5等前沿模型构成挑战。代码与数据依据MIT许可证公开。
本报告提出CharacterFlywheel——一种用于优化社交聊天应用中大语言模型(LLM)的迭代式飞轮流程,该流程已应用于Instagram、WhatsApp和Messenger三大平台。基于LLaMA 3.1起点,我们利用内外部真实用户流量数据完成了15代模型迭代。通过2024年7月至2025年4月期间的持续部署,为期7天的对照A/B测试显示参与度持续提升:新部署的8个模型中有7个优于基线,最优模型在参与广度上提升达8.8%,参与深度提升达19.4%。在指令遵循方面也取得显著进展,遵循率从59.2%升至84.8%,指令违规率从26.6%降至5.8%。我们详细阐述了整合数据筛选、参与度指标评估与插值的奖励建模、监督微调(SFT)、强化学习(RL)以及离线在线评估的CharacterFlywheel流程,确保每步优化可靠推进。同时探讨了预防过拟合与大规模生产环境动态调控的方法。这些成果为服务数百万用户的社交应用中LLM的科学化研究与实践提供了重要参考。
我们推出 Classroom Final Exam(课堂期末考试),这是一个多模态基准测试集,用于评估大语言模型在超过20个STEM(科学、技术、工程和数学)领域的推理能力。该数据集精选自高校长期使用的真实作业与考试题目,并附有授课教师提供的标准解答。即使对前沿模型而言,CFE也构成显著挑战:最新发布的Gemini-3.1-pro-preview模型总体准确率仅为59.69%,而排名第二的Gemini-3-flash-preview模型准确率为55.46%,表明模型性能仍有巨大提升空间。除排行榜数据外,我们还通过将标准解答分解为推理流程进行诊断分析,发现前沿模型虽能正确回答中间子问题,却难以在多步求解过程中可靠地推导并维持正确的中间状态。进一步观察显示,模型生成的解答通常比教师提供的方案包含更多推理步骤,反映出步骤效率欠佳及错误累积风险较高的问题。数据集与代码已公开于https://github.com/Analogy-AI/CFE_Bench。
当前文生图扩散模型虽能生成逼真图像,但在处理包含多对象、复杂关系和细粒度属性的提示词时,仍难以实现精准的图文对齐。现有无需训练的动态推理缩放方法依赖固定迭代次数,无法适配提示词复杂度;而反思调优模型需精心构建反思数据集并对扩散模型与视觉语言模型进行大量联合微调,常因过度拟合反思路径数据而缺乏跨模型迁移能力。我们提出RAISE(需求自适应自进化框架),一种无需训练、需求驱动的自适应文生图进化框架。RAISE将图像生成定义为需求导向的自适应缩放过程,通过提示词重写、噪声重采样和指令编辑等多样化优化操作,在推理时对候选图像群体进行进化。每一代结果都会经过结构化需求清单的验证,使系统能动态识别未达标项并针对性分配计算资源,从而实现计算成本与语义查询复杂度的自适应匹配。在GenEval和DrawBench基准测试中,RAISE以0.94的GenEval综合对齐度达到最优性能,同时比现有缩放方法和反思调优基线减少30-40%的生成样本量和80%的视觉语言模型调用量,展现出高效、可泛化且模型无关的多轮自优化能力。代码已开源:https://github.com/LiyaoJiang1998/RAISE。
我们推出合成视觉基因组2(SVG2)——一个大规模全景视频场景图数据集。该数据集包含63.6万段视频、660万个物体、5200万个属性和670万组关系,在规模与多样性上较先前时空场景图数据集实现数量级提升。通过构建全自动流水线,我们融合了多尺度全景分割、支持新物体自动发现的在线-离线轨迹追踪、单轨迹语义解析以及基于GPT-5的时空关系推理。基于此资源,我们训练了TRaSER视频场景图生成模型。该模型通过轨迹对齐的令牌编排机制,结合物体轨迹重采样器与时间窗口重采样器两大新模块,将原始视频和全景轨迹转换为紧凑的时空场景图。时间窗口重采样器将视觉令牌绑定至短轨迹片段以保留局部运动与时间语义,而物体轨迹重采样器则聚合完整轨迹以维持物体的全局上下文。在PVSG、VIPSeg、VidOR及SVG2测试集上,TRaSER将关系检测性能提升15-20%,物体预测能力较最强开源基线提高30-40%(较GPT-5提升13%),属性预测准确率提升15%。当TRaSER生成的场景图用于视频问答任务时,相较于仅使用视频或结合Qwen2.5-VL生成场景图的方法,其绝对准确率提升1.5-4.6%,证明了显式时空场景图作为中间表征的有效性。
基于知识的视觉问答(KB-VQA)在处理知识密集型任务方面展现出巨大潜力。然而,由于视觉语言模型(VLM)中来自预训练的静态参数化知识,其与动态检索信息之间会产生冲突。模型输出往往忽略检索到的上下文,或与参数化知识产生不一致的整合,这为KB-VQA带来了重大挑战。现有的知识冲突缓解方法主要从基于语言的方法改进而来,通过设计提示策略或上下文感知解码机制聚焦于上下文层面的冲突。但这些方法忽视了视觉信息在冲突中的关键作用,且受冗余检索上下文的影响,难以实现精准的冲突识别与有效缓解。 为解决上述局限,我们提出CC-VQA:一种面向KB-VQA的新型免训练、冲突与关联感知方法。该方法包含两个核心组件:(1)以视觉为中心的上下文冲突推理,在内部与外部知识语境间进行视觉语义冲突分析;(2)关联引导的编码与解码机制,通过低关联语句的位置编码压缩和基于关联加权的冲突评分自适应解码。在E-VQA、InfoSeek和OK-VQA基准上的大量实验表明,CC-VQA实现了最先进的性能,相比现有方法准确率绝对提升3.3%至6.4%。代码已开源:https://github.com/cqu-student/CC-VQA。
我们将遮挡推理确立为三维布局条件生成中基础但被忽视的关键要素。该技术对于生成具有深度一致几何结构和尺度比例的部分遮挡物体至关重要。尽管现有方法能够生成符合输入布局的逼真场景,但往往难以精确建模物体间的遮挡关系。为此,我们提出SeeThrough3D模型,通过显式建模遮挡关系来实现三维布局条件生成。我们引入了一种遮挡感知的三维场景表示法(OSCR),将物体表现为虚拟环境中半透明的三维包围盒,并从指定摄像机视角进行渲染。透明度编码了被隐藏的物体区域,使模型能够推理遮挡关系,而渲染视角则为生成过程提供明确的摄像机控制。我们通过从渲染的三维表示中提取视觉标记集,对基于流的预训练文本到图像生成模型进行条件约束。此外,采用掩码自注意力机制精确绑定每个物体包围盒与其对应文本描述,从而实现多物体的准确生成而不出现属性混淆。为训练模型,我们构建了包含多种强遮挡关系多物体场景的合成数据集。SeeThrough3D能有效泛化至未见过的物体类别,在保持真实遮挡关系和一致摄像机控制的同时,实现精确的三维布局控制。
联邦指令调优(FIT)支持多个组织(客户端)在跨孤岛环境中协同进行大语言模型的指令调优,且无需共享私有指令。近期关于自然后门的研究及现有训练数据收集方法表明,中毒样本可能普遍存在且被无意嵌入真实数据集,即使客户端均为良性方,这些数据仍可能分散在所有客户端中。本文系统性地研究了FIT中的这一威胁,证明当中毒数据分散存在于所有客户端时,现有防御机制均会失效。应对该挑战存在两大难点:如何识别各客户端中毒样本的独有特征,以及如何在部分客户端被中毒样本主导时实现协同防御。为解决这些难题,我们发现频域梯度可作为区分中毒数据的强鲁棒信号,并进一步提出全局二次聚类机制,促进跨客户端协同识别中毒样本。综上,本文提出首个后门免疫的FIT框架ProtegoFed,能够在训练过程中精准检测、清除甚至净化分散于各客户端的中毒数据。在四个联邦学习数据集上的实验表明,ProtegoFed可识别92.00%-100.00%的中毒样本,将攻击成功率降至接近零,同时保持主任务性能。代码已开源:https://github.com/dongdongzhaoUP/ProtegoFed。
视频生成技术的最新进展为复杂动态系统的宏观模拟开辟了新途径,但其在微观现象模拟中的应用仍属空白。微观尺度模拟在药物发现、芯片器官系统、疾病机制研究等生物医学领域前景广阔,同时在教育及交互式可视化方面也展现出潜力。本研究提出MicroWorldBench——一个基于多级量规的微观尺度模拟任务基准,通过459项专家标注的独特标准,覆盖器官级过程、细胞动力学、亚细胞分子相互作用等多类微观模拟任务及科学保真度、视觉质量、指令遵循等评估维度,实现系统性量规化评估。该基准揭示当前顶尖视频生成模型在微观模拟中存在物理定律违背、时间不一致性、与专家标准偏离等缺陷。为解决这些问题,我们构建了经专家验证的高质量模拟数据集MicroSim-10K,并基于此训练出专用于微观尺度模拟的视频生成模型MicroVerse。该模型能精确复现复杂微观机制,首次提出"微观世界模拟"概念并完成概念验证,为生物学、教育及科学可视化领域的应用铺平道路。本研究展示了生物机制教育类微观模拟的潜力,相关数据与代码已开源:https://github.com/FreedomIntelligence/MicroVerse。
针对低资源语言开发自动语音识别(ASR)系统常受限于转录语料匮乏的问题。本概念验证研究探索将歌曲作为哈萨克语ASR非常规但潜力巨大的数据源。我们以歌词行级别切分方式,从36位艺术家的195首歌曲中构建了包含3,013个音频-文本对(约4.5小时)的数据集。以Whisper作为基础识别器,我们在涉及歌曲、Common Voice语料库(CVC)和FLEURS的七种训练场景下微调模型,并在CVC、FLEURS及哈萨克语语音语料库2(KSC2)三个基准上进行评估。结果表明,基于歌曲的微调相较于零样本基线能提升性能。例如,在混合使用歌曲、CVC和FLEURS训练的Whisper Large-V3 Turbo模型,在CVC上达到27.6%的归一化词错误率,在FLEURS上为11.8%,同时在KSC2上的错误率较零样本模型降低一半(39.3% vs 81.2%)。虽然这些增益仍低于使用1,100小时KSC2语料库训练的模型,但证明即使少量歌曲-语音混合数据也能为低资源ASR带来有意义的适应性提升。该数据集已在Hugging Face平台以受限非商业许可发布供研究使用。
观察学习要求智能体仅通过参考任务执行过程中的观测来掌握该技能。本研究探讨了现实世界机器人学习中的等效场景,即不预设人工设计的奖励函数和演示者动作。针对这种数据受限的情境,我们提出了一种基于规划的逆向强化学习算法,该算法仅通过观察与交互即可实现世界建模。完全在真实环境中进行的实验表明,该方法能够在一小时内从零开始学习基于图像的操控任务,且无需任何先验知识、预训练或任务观察之外的数据。此外,研究还证实所学得的世界模型表征具备在真实环境中从零开始进行在线迁移学习的能力。与包括逆向强化学习、强化学习和行为克隆在内的现有方法相比——这些方法均基于更严格的假设条件——本方案在样本利用效率和成功率上均展现出显著优势,为通过观察与交互实现在线世界建模与规划提供了可行路径。视频及更多内容详见:https://uwrobotlearning.github.io/mpail2/。
我们提出FireRed-OCR,这是一个将通用视觉语言模型(VLM)专项优化为高性能OCR模型的系统框架。当前大型视觉语言模型虽展现出强大的通用能力,但在处理复杂文档时常出现"结构幻觉"问题,制约了其在工业级OCR应用中的实用性。本文创新性地设计了FireRed-OCR框架,旨在将基于Qwen3-VL的通用VLM转化为像素级精确的结构化文档解析专家。针对高质量结构化数据稀缺的挑战,我们构建了"几何特征+语义理解"数据工厂——通过几何特征聚类与多维度标注取代传统随机采样,合成并筛选出高度均衡的数据集,有效应对长尾版式与罕见文档类型的处理需求。此外,我们提出三阶段渐进式训练策略:从像素级感知到逻辑结构生成逐步引导模型,具体包括:(1) 多任务预对齐阶段夯实文档结构理解基础;(2) 专项指令微调实现全图像Markdown标准化输出;(3) 格式约束的群组相对策略优化(GRPO),通过强化学习严格保证输出语法有效性与结构完整性(如表格闭合、公式语法)。在OmniDocBench v1.5上的大规模评估表明,FireRed-OCR以92.94%的综合得分实现最先进性能,在文本、公式、表格及阅读顺序等指标上显著超越DeepSeek-OCR 2和OCRVerse等强基线模型。我们开源代码与模型权重,以推动"通用VLM向专项结构解析专家"的范式演进。
地理基础模型(GFMs)已在涵盖多领域的地球观测任务中完成评估,展现出即使标注稀疏也能生成可靠地图的强大潜力。然而,由于缺乏适宜的评价数据集,针对冰冻圈应用的GFM基准测试仍存在局限。为此,我们推出Cryo-Bench基准平台,该系统专为评估GFM在关键冰冻圈要素上的性能而构建,涵盖碎屑覆盖冰川、冰川湖、海冰与冰裂前沿等目标,涉及多源传感器及广泛地理区域。通过对比14种GFM与UNet、ViT基线模型,我们系统评估了其优势、局限及最优使用策略。在编码器冻结条件下,UNet在Cryo-Bench包含的五类评估数据集中取得最高平均交并比(mIoU)66.38%,TerraMind以64.02%次之。在少样本场景(10%输入数据)下,DOFA与TerraMind等GFM以59.53%、56.62%的mIoU超越UNet的56.60%。全参数微调时,GFM在不同数据集和模型间表现存在波动,但结合学习率调整可显著提升性能——在GLID与CaFFe两个典型数据集上平均相对提升达12.77%。尽管预训练数据中冰冻圈表征极少,GFM仍展现出显著的领域适应能力并生成有效结果。基于研究结论,我们建议通过编码器微调与超参数优化实现最优性能,若需快速获取结果而无须大量实验时可采用冻结编码器方案。(GitHub地址:https://github.com/Sk-2103/Cryo-Bench)
萨能奶山羊以其高产奶量著称,其泌乳性能与体型参数密切相关,因此精确的三维体型测量对评估产奶潜力至关重要。然而现有重建方法缺乏山羊专用的真实三维数据。为解决这一局限性,我们建立了FemaleSaanenGoat数据集,包含55只雌性萨能山羊(6-18月龄)的同步八视角RGBD视频。通过多视角DynamicFusion技术,我们将含噪声的非刚性点云序列融合为高保真三维扫描,克服了不规则体表轮廓和快速运动带来的挑战。基于这些扫描数据,我们开发了专为雌性萨能山羊设计的参数化三维形状模型SaanenGoat。该模型采用包含41个骨骼关节点优化模板,并强化了乳房区域表征,与扫描数据进行了配准。通过对48只山羊构建的完整形状空间,可精确表征多样化的个体差异。借助SaanenGoat模型,我们实现了单视角RGBD输入的高精度三维重建,并自动化测量了体长、体高、胸宽、胸围、臀宽和臀高这六项关键体型尺寸。实验结果表明,我们的方法在三维重建和体型测量方面均具有卓越的准确性,为精准畜牧业的大规模三维视觉应用提供了创新范式。