每日精选AI研究论文及翻译
我们推出Depth Anything 3(DA3),该模型能够从任意数量的视觉输入中预测空间一致的几何结构,无论是否已知相机位姿。为实现极简建模,DA3带来两大核心发现:单一标准Transformer(如原始DINO编码器)足以作为主干网络而无需架构特化;单一深度射线预测目标可规避复杂的多任务学习需求。通过师生训练范式,该模型在细节还原与泛化能力上达到了与Depth Anything 2(DA2)相当的水准。我们建立了涵盖相机位姿估计、任意视角几何重建与视觉渲染的新视觉几何基准。在此基准测试中,DA3在所有任务上均创下新纪录,相机位姿准确率较先前最优方法VGGT平均提升44.3%,几何准确率提升25.1%。此外,其在单目深度估计任务上也超越了DA2。所有模型均仅使用公开学术数据集进行训练。
世界模型使智能体能够想象、预测并推理世界如何响应其行为而演变,从而进行规划与决策。尽管当前视频生成模型能生成逼真的视觉序列,但它们通常以提示到完整视频的方式运行,缺乏因果控制、交互性或实现有目的推理所需的长期一致性。另一方面,现有世界建模研究多局限于特定领域(如物理、游戏或3D场景动态),其深度与可控性有限,且难以跨多样环境与交互形式泛化。本文提出PAN模型——一种通用、可交互、长视野的世界模型,通过基于历史与自然语言行为的高质量视频模拟预测未来世界状态。PAN采用生成式潜在预测架构,结合基于大语言模型的自回归潜在动态主干(将模拟锚定于海量文本知识并支持语言指定行为的条件生成)与视频扩散解码器(重建感知细节丰富且时序连贯的视觉观测),实现了潜在空间推理(想象)与可实现世界动态(现实)的统一。通过在跨领域的大规模视频-行为数据上训练,PAN支持具有连贯长期动态的开放领域行为条件模拟。大量实验表明,PAN在行为条件世界模拟、长视野预测和模拟推理方面优于其他视频生成器与世界模型,为构建能够通过预测性世界状态模拟实现推理与行动的通用世界模型迈出关键一步。
扩散模型在超越其训练分辨率时面临挑战,因为直接进行高分辨率采样既缓慢又成本高昂,而事后图像超分辨率(ISR)技术则在解码后操作,不仅引入了伪影,还增加了额外的延迟。我们提出了潜在上采样适配器(LUA),这是一种轻量级模块,能够在最终VAE解码步骤之前直接在生成器的潜在代码上执行超分辨率。LUA作为一个即插即用组件集成,无需对基础模型进行修改或增加额外的扩散阶段,并通过潜在空间中的单次前向传递实现高分辨率合成。一个共享的Swin风格骨干网络,配合特定尺度的像素重组头,支持2倍和4倍的上采样因子,并与图像空间超分辨率基线保持兼容,在解码和上采样时间上实现了近3倍的降低(从512像素生成1024像素仅增加+0.42秒,而使用相同SwinIR架构的像素空间超分辨率则需要1.87秒)。此外,LUA在不同VAE的潜在空间中展现出强大的泛化能力,使其无需为每个新解码器从头训练即可轻松部署。大量实验证明,LUA在保持与原生高分辨率生成相当保真度的同时,为现代扩散管道中的可扩展、高保真图像合成提供了一条实用且高效的路径。
黑盒蒸馏技术仅通过从专有教师模型的文本输出中学习,无需访问其内部逻辑或参数,即可创建学生大语言模型(LLM)。本研究提出生成对抗蒸馏(GAD)方法,实现了在线策略的黑盒蒸馏。GAD将学生LLM构建为生成器,并训练判别器来区分其响应与教师LLM的响应,形成极小极大博弈框架。判别器作为随学生模型协同演进的在线策略奖励模型,能提供稳定自适应的反馈。实验结果表明,GAD持续超越常用的序列级知识蒸馏方法。特别值得注意的是,采用GAD训练的Qwen2.5-14B-Instruct(学生模型)在LMSYS-Chat自动评估中达到了与教师模型GPT-5-Chat相媲美的性能。这些成果确立了GAD作为黑盒LLM蒸馏领域一种前景广阔且高效的新范式。
尽管专业AI模型在视频生成或理解等独立任务中表现出色,但现实应用需要结合多种能力的复杂迭代工作流。为弥补这一鸿沟,我们推出UniVA——面向下一代视频通用模型的开源全能多智能体框架,它将视频理解、分割、编辑与生成统一为连贯的工作流。UniVA采用规划与执行双智能体架构,驱动高度自动化的工作流程:规划智能体解析用户意图并分解为结构化视频处理步骤,执行智能体则通过基于MCP的模块化工具服务器(支持分析、生成、编辑、跟踪等功能)实施操作。通过分层多级记忆机制(全局知识、任务上下文与用户偏好),UniVA支持长程推理、上下文延续及智能体间通信,实现全链路可追溯的交互式自反视频创作。该设计使迭代式任意条件视频工作流(如文本/图像/视频条件生成→多轮编辑→对象分割→组合合成)成为可能,而以往使用单功能模型或单体视频语言模型实现这些流程极为繁琐。我们还推出UniVA-Bench基准测试套件,涵盖理解、编辑、分割与生成的多步骤视频任务,用于严格评估此类智能体视频系统。UniVA与UniVA-Bench均已全面开源,旨在推动面向下一代多模态AI系统的交互式、智能体化通用视频智能研究。(https://univa.online/)
群体相对策略优化(GRPO)在大语言模型(LLM)的后训练中展现出巨大应用价值。该方法通过模型对提示词生成回答,并借助强化学习机制习得更优的完成结果。由于通信量小,GRPO天然适用于去中心化训练——多个节点可并行响应提示词,再以字符串形式交换结果。本研究首次提出针对去中心化GRPO的对抗攻击方案:恶意参与方可通过上下文无关和上下文相关两种攻击模式,向良性模型注入任意恶意标记。通过数学推理与代码生成任务的实证案例,我们证明对抗攻击能轻易污染良性节点,破坏其本地LLM后训练过程,仅需50轮迭代即可实现高达100%的攻击成功率。针对用户群体训练统一模型或差异化模型两种场景,我们提出相应防御机制。实验表明这些防御措施可实现最高100%的拦截率,使攻击完全失效。
大型语言模型在推理能力、洞察深度和工具调用方面取得了显著突破,但将这些能力串联成人类、组织和社会日常执行的规模化扩展流程仍难以实现。模型存在的持续错误率阻碍了规模扩展:例如近期在汉诺塔基准领域的实验表明,推理过程在最多数百步后必然失控。因此,尽管当前LLM研究仍主要针对依赖逻辑步骤较少的任务进行基准测试,但学界正日益关注其执行长程任务的能力缺陷。本文提出的MAKER系统首次实现了零错误完成超百万步LLM推理的任务,且理论上具备远超该规模的扩展能力。该方法通过将任务极端分解为可由专注微代理处理的子任务,其产生的高度模块化结构使得每一步都能通过高效的多智能体投票机制进行纠错。这种极端分解与纠错机制的结合使规模化扩展成为可能。研究结果表明,相较于持续改进现有LLM,采用大规模分解式代理流程(MDAPs)或许能更高效地解决组织与社会层级的复杂问题。
大型语言模型在复杂但易于验证的问题上已取得显著进展,但在探索未知领域方面仍存在困难。本文提出AlphaResearch——一种专为在开放性问题中发现新算法而设计的自主研究智能体。为协同实现发现过程的可行性与创新性,我们通过结合基于执行的验证环境与模拟现实同行评审环境,构建了新型双重研究环境。AlphaResearch通过迭代运行以下步骤发现新算法:(1)提出新思路(2)在双重研究环境中验证思路(3)优化研究方案以提升性能。为推进透明化评估进程,我们构建了AlphaResearchComp评测基准,包含八项开放型算法问题的竞赛,每个问题均通过可执行流程、客观指标和可复现性检验进行精心设计与验证。在与人类研究者的直接对比中,AlphaResearch取得了2/8的胜率,证明了利用大语言模型加速算法发现的可行性。值得注意的是,AlphaResearch在"圆排列"问题上发现的算法实现了当前最佳性能,超越了人类研究者及近期强基线方法(如AlphaEvolve)的结果。此外,我们对6/8失败案例中的遗留挑战进行了全面分析,为未来研究提供了宝贵洞见。
大型语言模型(LLMs)日益采用AdamW等经典优化技术进行训练,以提升收敛性与泛化能力。然而,量子启发式方法增强经典训练的机制仍待深入探索。我们提出叠加梯度下降法(SGD),这是一种通过注入量子电路扰动将梯度更新与量子叠加相关联的新型优化器。我们建立了数学框架,并在PyTorch和Qiskit中实现了混合量子-经典电路。在合成序列分类和大规模LLM微调任务中,SGD相比AdamW收敛更快且最终损失更低。尽管结果令人鼓舞,可扩展性及硬件限制仍阻碍其广泛应用。本研究为量子计算与深度学习的交叉领域提供了新视角,揭示了利用量子原理调控和增强模型行为的可行路径。
我们推出Music Flamingo——一种新颖的大型音频语言模型,旨在推动基础音频模型中的音乐(含歌曲)理解能力。尽管音频语言研究发展迅速,但音乐因其动态性、层次性和信息密集性而始终充满挑战。开放音频理解模型的扩展难度进一步限制了进展,这主要源于高质量音乐数据与标注的稀缺。因此,现有模型仅能生成简短的概要描述,回答浅层问题,且在不同音乐文化间的泛化能力有限。为应对这些挑战,我们构建了MF-Skills数据集:通过多阶段标注流程获得大规模标注数据,包含涵盖和声、结构、音色、歌词及文化背景的丰富描述与问答对。我们在增强版Audio Flamingo 3骨架上对MF-Skills进行微调,并进一步强化音乐理解相关的多项技能。为提升模型推理能力,我们提出一种后训练方案:首先基于音乐理论构建的新型思维链数据集MF-Think进行冷启动训练,随后采用定制奖励函数进行GRPO强化学习。Music Flamingo在10余项音乐理解与推理基准测试中达到顶尖水平,确立了其作为通用型音乐智能音频语言模型的地位。除强劲的实证结果外,该模型通过展现从表层识别转向人类般层次化歌曲感知的能力,为高级音乐理解设立了新标准。我们相信这项工作既为学界提供了基准,也为构建能像人类一样深度理解音乐的新一代模型奠定了基石。
深度研究(DR)是一种新兴的智能体应用,它利用大语言模型(LLM)处理开放式查询。该技术需要整合多项能力,包括多步推理、跨文档综合以及生成有证据支持的长篇答案。由于回答内容冗长多样、存在多种有效解决方案且常依赖动态信息源,DR的评估仍具挑战性。我们推出ResearchRubrics——一个基于2800+小时人工标注构建的DR标准化基准,该基准将真实且领域多样的提示与2500+专家编写的细粒度评估标准配对,用于检验事实依据、推理严谨性和表达清晰度。我们还提出新的复杂度框架,从概念广度、逻辑嵌套和探索深度三个维度对DR任务进行分类。此外,开发了人工与模型结合的双重评估方案,用以衡量DR智能体对评估标准的遵循程度。在对多种前沿DR系统进行评估后,我们发现即使如Gemini DR和OpenAI DR等领先智能体,其平均符合度也低于68%,主要问题在于遗漏隐含上下文及对检索信息的推理不足。这一结果凸显了对深度研究能力进行稳健可扩展评估的必要性。为此我们开源ResearchRubrics(含全部提示词、评估标准及代码),以推动具有充分论证能力的研究助手的发展。
基于指令的图像编辑模型近期取得了显著进展,能够通过多指令提示实现对输入图像的复杂编辑。然而,这些模型通常以固定强度执行提示中的每条指令,限制了用户对单个编辑强度进行精确连续控制的能力。我们提出SliderEdit框架,通过细粒度、可解释的指令控制实现连续图像编辑。该框架在接收到复合编辑指令后,能够解耦各子指令并将其转化为全局训练的滑杆控件,支持通过平滑调节控制编辑强度。与文本生成图像领域中需要为每个属性或概念单独训练滑块控件的方法不同,我们的方法仅需学习一组低秩自适应矩阵,即可泛化至多样化的编辑任务、属性及组合指令。这使得用户能在保持空间局部性和全局语义一致性的同时,沿单个编辑维度进行连续插值。我们将SliderEdit应用于FLUX-Kontext和Qwen-Image-Edit等前沿图像编辑模型,在编辑可控性、视觉一致性和用户导向性方面观察到显著提升。据我们所知,这是首个在基于指令的图像编辑模型中实现连续细粒度指令控制的框架。我们的研究成果为具有连续组合控制能力的交互式指令驱动图像编辑开辟了新路径。
在物理环境中实现高效的人机协作,不仅需要理解动作对象,还需明确可操作元素的空间位置及交互方式。现有方法多停留在物体层面,或割裂地处理细粒度功能可供性推理,缺乏连贯的指令驱动式 grounding 与推理机制。本研究提出"细粒度三维具身推理"新任务,要求智能体根据任务指令,为三维场景中每个被引用的可供性元素预测包含空间位置、运动类型和运动轴的结构化三元组。为此,我们设计出AffordBot创新框架,通过定制化的思维链推理范式融合多模态大语言模型。为弥合三维输入与二维兼容MLLMs之间的鸿沟,我们渲染场景环视图像并将三维候选元素投影至这些视图,构建与场景几何对齐的丰富视觉表征。该思维链流程始于主动感知阶段:先引导MLLM依据指令选择信息量最大的视角,继而通过逐步推理定位可供性元素并推断合理的交互运动。在SceneFun3D数据集上的实验表明,AffordBot仅凭三维点云输入和MLLMs即实现了最先进性能,展现出强大的泛化能力与物理接地推理能力。
近年来,大语言模型(LLM)在一系列任务上取得了显著进展,然而在高级指令遵循(IF)能力——尤其是针对复杂、多轮次及系统级指令的遵循方面——仍存在巨大挑战。由于缺乏高质量的人工标注基准和可靠可解释的奖励信号,针对此类能力的严格评估与有效训练受到制约。本研究提出AdvancedIF基准(即将开源),该基准包含1,600余个提示词及专家设计的评估标准,系统评估LLM遵循复杂多轮系统指令的能力。我们进一步提出RIFL(基于量规的指令遵循学习)方法,通过量规生成、微调的量规验证器和奖励塑造构建新型后训练流程,实现高效的指令遵循强化学习。大量实验表明,RIFL显著提升了LLM的指令遵循能力,在AdvancedIF基准上实现6.7%的绝对性能提升,并在公开基准上表现优异。消融实验验证了RIFL各核心模块的有效性。本研究确立了量规机制作为LLM高级指令遵循能力训练与评估的有效工具,为构建更强健可靠的人工智能系统开辟了新路径。
尽管生成质量不断提升,当前文本到图像(T2I)模型仍常因输出同质化而缺乏多样性。本研究提出一个框架,旨在解决T2I模型多样性稳健评估的需求。该框架通过评估独立概念及其相关变异因素,系统化地衡量多样性。核心贡献包括:(1)用于精细化多样性评估的新型人工评估模板;(2)涵盖多维度概念及其已识别变异因素的精选提示词集(如提示词:"苹果图像",变异因素:颜色);(3)基于二项检验的人工标注模型对比方法。此外,我们严谨比较了多种用于多样性测量的图像嵌入方法。值得注意的是,这种原理性方法可实现T2I模型的多样性排序,并识别其表现薄弱的特定类别。本研究提供了稳健的方法论与深刻见解,为提升T2I模型多样性及度量标准开发开辟了新路径。
批判能力对模型实现自我提升并成为可靠AI助手至关重要。尽管在纯语言场景中已得到广泛研究,但大型多模态模型(LMM)在多模态批判方面的探索仍然不足——尽管它们在图像描述、视觉推理等任务中表现日益出色。本研究提出MM-CRITIC,一个从基础批判、修正批判与比较批判三个维度综合评估LMM批判能力的基准框架。该框架涵盖8类主要任务逾500项子任务,收集了不同参数规模LMM的4471份应答样本。为提升评估信度,我们融合专家知识构建标准答案评分体系,指导GPT-4o对模型应答进行标注并生成参考性批判意见,作为可信判断的基准锚点。大量实验验证了MM-CRITIC的有效性,并对主流LMM的多维批判能力展开全面评估。深入分析揭示了若干关键发现,包括应答质量与批判能力的关联性,以及不同评估维度下批判难度的差异性。代码已开源:https://github.com/MichealZeng0420/MM-Critic。
下游文献中对引证论文可复现性的评价反映了学术界的普遍看法,并已显示出作为评估已发表研究成果实际可复现性的有效指标。为训练能精准预测可复现性导向情感的模型并系统研究其与可复现性的关联,我们推出CC30k数据集,该数据集包含机器学习论文中30,734条引文上下文。每条引文语境均标注有三种可复现性导向的情感标签之一:积极、消极或中立,以反映被引论文的可复现性或可复制性认知。其中25,829条通过众包标注,并采用受控流程生成消极标签以弥补其稀缺性。与传统情感分析数据集不同,CC30k专注于可复现性导向的情感分析,填补了计算可复现性研究领域的资源空白。该数据集通过包含稳健数据清洗、精细众包筛选和全面验证的流程构建,最终标注准确率达94%。实验表明,使用本数据集微调后,三种大语言模型在可复现性导向情感分类任务上的性能显著提升。该数据集为大规模评估机器学习论文的可复现性奠定了基础。CC30k数据集及用于生成分析数据集的Jupyter笔记本已公开于https://github.com/lamps-lab/CC30k。
零样本异常分类与分割方法旨在无需标注样本的情况下识别并定位缺陷。本文揭示了现有方法忽视的关键特性:工业产品中的正常图像块通常能在二维外观和三维形状上找到大量相似样本,而异常则保持多样性与孤立性。为显式利用这一判别性特征,我们提出用于零样本异常分类/分割的互评分框架MuSc-V2,灵活支持单模态(2D/3D)或多模态应用。具体而言,该方法首先通过迭代点分组优化三维表征,减少非连续表面导致的误检;继而采用多度相似性邻域聚合技术,将2D/3D邻域线索融合为判别性更强的多尺度图像块特征用于互评分。核心机制包括:使同模态样本相互评分的互评分机制,以及融合2D/3D分数以补全模态特异性缺失异常的跨模态异常增强模块。最后,基于约束邻域的再评分策略通过比对更具代表性的样本抑制误分类。本框架在完整数据集和较小子集上均能保持稳定性能,确保跨产品线的无缝适配。依托创新架构,MuSc-V2实现显著性能提升:在MVTec 3D-AD数据集上平均精度提升23.7%,在Eyecandies数据集上提升19.3%,超越现有零样本基准甚至多数小样本方法。代码将发布于https://github.com/HUST-SLOW/MuSc-V2。