每日精选AI研究论文及翻译
大型语言模型(LLM)的优化仍是关键挑战,尤其在模型规模扩大会加剧算法不精确性与训练不稳定性的敏感度时。尽管近期优化器通过动量正交化提升了收敛效率,但仍存在两个关键鲁棒性缺陷:正交化精度的维度脆弱性以及对异常值引发噪声的敏感性。为解决这些鲁棒性挑战,我们提出ROOT(鲁棒正交化优化器),通过双重鲁棒机制增强训练稳定性。首先,我们开发了维度鲁棒的正交化方案,采用自适应牛顿迭代法并针对特定矩阵尺寸定制细粒度系数,确保在不同架构配置下保持稳定精度。其次,我们通过近端优化引入优化鲁棒框架,在保留有效梯度方向的同时抑制异常值噪声。大量实验表明,相较于Muon和基于Adam的优化器,ROOT在噪声环境和非凸场景中显著提升鲁棒性,实现更快的收敛速度与更优的最终性能。本研究为开发能够应对现代大规模模型训练复杂性的鲁棒精准优化器确立了新范式。代码已发布于https://github.com/huawei-noah/noah-research/tree/master/ROOT。
近期,在LLM引导的进化计算领域,尤其是AlphaEvolve(Novikov等人,2025;Georgiev等人,2025)的研究中,取得了显著进展,成功发现了新颖的数学构造并解决了复杂的优化问题。然而,已发表的工作中高层次描述未明确许多实现细节,阻碍了研究的可重复性和进一步探索。本报告介绍了GigaEvo,一个可扩展的开源框架,旨在让研究人员能够研究和实验受AlphaEvolve启发的混合LLM-进化方法。我们的系统提供了关键组件的模块化实现:MAP-Elites质量多样性算法、基于异步DAG的评估管道、具备洞察生成与双向谱系跟踪的LLM驱动变异算子,以及灵活的多岛进化策略。为了评估可重复性并验证我们的实现,我们在AlphaEvolve论文中的挑战性问题——海伦三角形放置、正方形内圆填充及高维接吻数问题上对GigaEvo进行了测试。该框架强调模块化、并发性和实验便捷性,通过声明式配置实现快速原型设计。我们详细描述了系统架构、实现决策和实验方法,以支持LLM驱动进化方法的进一步研究。GigaEvo框架及所有实验代码可在https://github.com/AIRI-Institute/gigaevo-core获取。
医学图像分割是生物医学发现的基础。现有方法缺乏普适性,且针对新的临床应用需要大量耗时的人工标注。本文提出MedSAM-3——一种支持文本提示的医学图像与视频分割模型。通过在对语义概念标签的医学图像上微调Segment Anything Model(SAM)3架构,我们的MedSAM-3实现了医学可提示概念分割(PCS),能够通过开放词汇文本描述(而非仅依赖几何提示)精确定位解剖结构。我们进一步推出MedSAM-3智能体框架,该框架集成多模态大语言模型(MLLM),在智能体参与循环的工作流中执行复杂推理与迭代优化。涵盖X光、磁共振、超声、CT及视频等多种医学影像模态的综合实验表明,本方法显著优于现有专业模型与基础模型。代码与模型将在https://github.com/Joey-S-Liu/MedSAM3发布。
视觉语言智能体在多模态推理任务中取得了显著进展,但其学习过程仍受限于人工标注监督的约束。近期提出的自奖励方法试图通过让模型担任自身的评判者或奖励提供者来突破这一限制。然而,纯文本的自评估难以验证复杂的视觉推理步骤,且常出现评估幻觉问题。为应对这些挑战,受工具增强推理最新进展的启发,我们提出Agent0-VL——一种通过工具增强推理实现持续自我进化的视觉语言智能体。该框架将工具使用不仅融入推理过程,更扩展到自我评估与修正环节,使模型能够通过证据驱动的分析实现推理过程的自我审视、验证与优化。我们在单一大规模视觉语言模型中统一了两个协同角色:执行多轮工具增强推理的求解器,以及通过工具锚定批判生成结构化反馈与细粒度自奖励的验证器。这些角色通过"自我进化推理循环"进行交互,其中基于工具的验证与强化学习共同对齐推理和评估分布,实现稳定的自我提升。通过这种零外部奖励的进化机制,Agent0-VL在无需人工标注或外部奖励模型的条件下,实现了推理行为与验证行为的对齐,达成持续自我改进。在几何问题求解和视觉科学分析任务上的实验表明,Agent0-VL相较基线模型性能提升12.5%。代码已开源于https://github.com/aiming-lab/Agent0/Agent0-VL{此https网址}。
在人体图像动画中,保持首帧身份特征同时确保精确运动控制是一项核心挑战。主流参考视频生成范式中的图像-运动绑定过程忽视了实际应用中常见的时空错位问题,导致身份漂移和视觉伪影等故障。我们提出SteadyDancer框架——基于图像-视频生成范式的新型解决方案,该框架首次实现了首帧身份特征的鲁棒性保持,并能生成协调连贯的动画效果。首先,我们提出条件调和机制来协调两个相互冲突的控制条件,在保证保真度的前提下实现精确控制。其次,我们设计协同姿态调制模块,生成与参考图像高度兼容的自适应连贯姿态表征。最后,采用阶段式解耦目标训练流程,分层优化模型的运动保真度、视觉质量和时序连贯性。实验表明,SteadyDancer在外观保真度和运动控制方面均达到最先进性能,且所需训练资源显著少于同类方法。
近年来,统一多模态模型取得了显著进展,但一个根本性问题依然存在:理解是否真正促进了生成?为探究此问题,我们推出UniSandbox——一个结合受控合成数据集的解耦评估框架,既可避免数据泄露又能实现细粒度分析。研究发现存在显著的理解-生成差距,主要体现在推理生成与知识迁移两个关键维度。具体而言,在推理生成任务中,理解模块的显式思维链能有效弥合这一差距,并通过自训练方法成功内化该能力,实现生成过程中的隐式推理。在知识迁移任务中,思维链通过辅助检索新习得知识来促进生成过程,同时发现基于查询的架构天然具备影响知识迁移的类思维链隐式特性。UniSandbox为未来真正弥合理解与生成鸿沟的统一架构设计与训练策略提供了初步洞见。代码与数据详见:https://github.com/PKU-YuanGroup/UniSandBox
强化学习(RL)在提升大语言模型(LLM)推理能力方面日益重要,但稳定且高效的策略优化仍面临挑战。词元级别的重要性比率常呈现高方差现象——这一现象在混合专家(Mixture-of-Experts)模型中尤为突出——导致策略更新不稳定。现有的基于分组的策略优化方法(如GSPO和GRPO)通过硬截断缓解该问题,但难以同时保持稳定性与有效学习。我们提出软自适应策略优化(SAPO),采用平滑的温度控制门替代硬截断,在保留有效学习信号的同时自适应地衰减离策略更新。相较于GSPO与GRPO,SAPO兼具序列连贯性与词元自适应性。与GSPO类似,SAPO保持序列级别的连贯性,但其软门控形成连续信任区域,避免了GSPO中脆性的硬截断带。当序列中出现少量高度离策略词元时,GSPO会抑制整个序列的梯度,而SAPO仅选择性削弱异常词元权重,保留近策略词元的学习信号,从而提升样本效率。相较于GRPO,SAPO以平滑的温度控制缩放替代硬词元截断,实现更具信息量与稳定的更新。数学推理基准测试表明,在相同训练预算下,SAPO展现出更优的训练稳定性与更高Pass@1性能。此外,我们应用SAPO训练Qwen3-VL模型系列,证明该方法在不同任务和模型规模下均能带来持续性能提升。总体而言,SAPO为LLM的强化学习训练提供了更可靠、可扩展且高效的优化策略。
预训练视频模型通过学习强大的先验知识,能够生成高质量、时序连贯的内容。尽管这些模型在时序连贯性方面表现出色,但其动态范围往往受限于训练数据的连续性特征。我们提出假设:通过将图像数据中丰富且无约束的内容多样性注入这一连贯的时序框架,可以生成既具有自然过渡效果、又具备更广阔动态范围的图像集合。为此,我们推出iMontage——一个将强大视频模型重构为全能图像生成器的统一框架。该框架支持可变长度的图像集输入与输出,统一了多种图像生成与编辑任务。为实现这一目标,我们提出了一种精巧且低侵入度的适配策略,并辅以定制化的数据筛选流程和训练范式。该方法使模型在保持原有宝贵运动先验的同时,获得了广泛的图像操控能力。iMontage在多项主流多输入多输出任务中表现卓越,不仅能保持强大的跨图像上下文一致性,还能生成超越传统范围的超常规动态场景。项目主页请访问:https://kr1sjfu.github.io/iMontage-web/。
世界模型正逐渐成为可扩展、数据高效具身AI的基础范式。本研究提出GigaWorld-0——一个专为视觉-语言-动作(VLA)学习设计的数据引擎式统一世界模型框架。该框架包含两个协同组件:GigaWorld-0-Video通过大规模视频生成,在外观、摄像机视角和动作语义的细粒度控制下,生成多样化、纹理丰富且时序连贯的具身序列;GigaWorld-0-3D则融合三维生成建模、3D高斯泼溅重建、物理可微系统辨识与可执行运动规划,确保几何一致性与物理真实性。二者的联合优化实现了视觉吸引力、空间一致性、物理合理性与指令对齐的具身交互数据规模化合成。通过我们高效的GigaTrain框架(利用FP8精度与稀疏注意力显著降低内存与计算需求),实现了大规模训练的可行性。综合评估表明,GigaWorld-0能在多维度生成高质量、多样化且可控的数据。关键的是,基于GigaWorld-0生成数据训练的VLA模型(如GigaBrain-0)在现实场景中表现卓越,无需任何真实世界交互训练即可显著提升物理机器人的泛化能力与任务成功率。
全注意力的二次复杂度限制了大型语言模型(LLM)在长上下文处理中的效率。稀疏注意力通过限制每个查询仅关注先前标记的子集来降低计算成本,但无需训练的方法往往会导致严重的性能下降。原生稀疏注意力方法(如NSA、MoBA)虽缓解了这一问题,却存在一个关键悖论:尽管旨在逼近全注意力,这些方法产生的注意力稀疏度反而低于全注意力模型,这可能制约其有效性。我们将此悖论归因于梯度更新缺陷:在稀疏训练过程中被排除的低秩键值对既无前向贡献也无反向梯度,因而无法学习恰当的抑制机制。为突破这一局限,我们提出SSA(稀疏稀疏注意力)——一种统一训练框架,同时考虑稀疏与全注意力模式,并在每一层强制执行双向对齐。该设计在保持所有标记梯度流动的同时,显式推动稀疏注意力输出与其全注意力对应项对齐,从而促进更强的稀疏性。实验表明,SSA在多个常识推理基准测试中,无论是稀疏还是全注意力推理均达到最优性能。此外,SSA使模型能灵活适配不同的稀疏预算:随着可关注标记数增加,性能持续提升,支持推理时灵活的计算-性能权衡。最后,我们发现原生稀疏注意力训练通过缓解注意力值在汇聚区的过度分配,意外提升了长上下文外推能力,其中SSA展现出最强的外推性能。
本文提出HunYuanOCR——一个商用级、开源轻量(10亿参数)的OCR专用视觉语言模型。该模型采用原生视觉Transformer(ViT)与轻量化大语言模型通过MLP适配器连接的架构,在OCR任务中展现出超越商业API、传统流水线及更大参数量模型(如Qwen3-VL-4B)的卓越性能。具体而言,模型在感知任务(文本检测与解析)上优于当前公开方案,在语义任务(信息抽取、图文翻译)中表现突出,荣获ICDAR 2025 DIMT挑战赛小模型赛道冠军,并在参数量小于30亿的视觉语言模型中取得OCRBench基准最优成绩。 HunYuanOCR实现三大突破:1)通用性与高效性统一:在轻量化框架内集成检测、解析、信息抽取、视觉问答及翻译等核心能力,克服了专用OCR模型能力单一与通用视觉语言模型效率低下的局限;2)端到端架构革新:采用纯端到端范式摆脱了对预处理模块(如版面分析)的依赖,从根本上解决传统流水线的误差传递问题并简化系统部署;3)数据与强化学习协同:验证了高质量数据的关键作用,并首次在业界证明强化学习策略可为OCR任务带来显著性能提升。 模型已在HuggingFace平台开源,同时提供基于vLLM的高性能部署方案,其推理效率达到业界领先水平。我们期待该模型能推动前沿技术探索,并为工业应用提供坚实基础。
近期交互式视频世界模型能够根据用户指令生成场景演化内容。虽然取得了令人瞩目的成果,但仍存在两个关键局限:其一,未能充分利用指令驱动的场景运动与底层三维几何的对应关系,导致视角变化时出现结构失稳;其二,在多步交互过程中容易遗忘历史信息,引发错误累积及场景语义与结构的渐进式漂移。为此,我们提出MagicWorld模型,该交互式视频世界模型融合了三维几何先验与历史检索机制。MagicWorld从单张场景图像出发,通过用户动作驱动动态场景演化,以自回归方式合成连续场景。我们引入动作引导三维几何模块(AG3D),该模块基于每次交互的首帧图像及对应动作构建点云,为视角转换提供显式几何约束,从而提升结构一致性。进一步提出历史缓存检索(HCR)机制,在生成过程中检索相关历史帧并将其作为条件信号注入,辅助模型利用过往场景信息以减轻错误累积。实验结果表明,MagicWorld在交互迭代过程中显著提升了场景稳定性和连续性。
归一化流(NFs)是一种基于似然的端到端连续数据生成模型,近期在图像生成领域取得的突破性进展使其重获关注。然而在时空复杂度与计算成本显著更高的视频生成领域,现有顶尖系统几乎完全依赖基于扩散的模型。本研究通过提出STARFlow-V重新探索了这一设计空间,该基于归一化流的视频生成器具备端到端学习、稳健因果预测和原生似然估计等显著优势。基于最新提出的STARFlow架构,STARFlow-V在时空隐空间采用全局-局部架构:将因果依赖限制于全局隐空间,同时保留帧内丰富的局部交互。这有效缓解了标准自回归扩散模型生成中常见的时间维度误差累积问题。此外,我们提出流得分匹配技术,通过轻量化因果去噪器以自回归方式提升视频生成的一致性。为提升采样效率,STARFlow-V采用视频感知的雅可比迭代方案,在保持因果性的前提下将内部更新重构为可并行化迭代。得益于可逆结构,该模型可原生支持文本到视频、图像到视频及视频到视频的生成任务。实证表明,相较于基于扩散的基线模型,STARFlow-V在实现卓越视觉保真度与时间一致性的同时,具备实用的采样吞吐量。据我们所知,这是首个证明归一化流能够实现高质量自回归视频生成的实证研究,为构建世界模型开辟了新的研究方向。代码与生成样本详见https://github.com/apple/ml-starflow。
尽管已有进展,视频扩散变换器仍难以泛化至超出训练时长的视频,这一挑战我们称之为视频长度外推。我们发现两种失效模式:模型特有的周期性内容重复,以及普遍存在的质量下降。先前研究尝试通过位置编码解决重复问题,却忽视了质量下降且仅实现有限外推。本文从更本质的视角——直接控制上下文如何影响输出的注意力图谱——重新审视这一挑战。我们发现两种失效模式源于同一根本原因:注意力分散,即超出训练时长的标记点稀释了已学习的注意力模式。这导致质量下降,而当位置编码的谐波特性诱导这种分散形成周期性注意力模式时,重复现象便作为特例出现。基于此洞见,我们提出UltraViCo,一种无需训练即插即用的方法,通过恒定衰减因子抑制超出训练窗口的标记点注意力。通过协同解决两种失效模式,我们在多种模型和外推比率下大幅超越现有基线方法,将外推极限从2倍提升至4倍。值得注意的是,在4倍外推时,本方法将动态程度与成像质量较先前最优方法分别提升233%和40.5%。此外,我们的方法可无缝泛化至可控视频生成与编辑等下游任务。
生成模型在RGB图像合成领域表现出色,但实际应用需要RGBA格式的操控能力。这导致当前技术格局呈现碎片化:专业化的单任务模型虽能处理Alpha通道但缺乏通用性,而统一的多任务框架又受限于RGB领域。为弥合这一关键鸿沟,我们提出OmniAlpha——首个面向序列到序列RGBA图像生成与编辑的统一多任务生成框架。其架构核心MSRoPE-BiL是一种新颖的RoPE方法,通过为扩散Transformer(DiT)主干网络引入双向可扩展的层轴,实现了对多输入/目标RGBA图层的并行处理。为支撑该框架,我们构建了AlphaLayers数据集,该数据集包含1000组高质量多层三元组,通过创新的自动合成与过滤流程创建。在涵盖21项多样化任务的综合实验表明,基于该数据集联合训练的OmniAlpha持续超越专业基线模型。尤为突出的是,在AIM-500数据集上实现无蒙版抠图任务的SAD指标相对降低84.8%,在图层条件补全任务中赢得超过90%的人类偏好评估。本研究证明统一的多任务模型能够学习到更优的RGBA共享表征,为开发更强大的图层感知生成系统开辟了新路径。
我们提出ReDirector——一种针对动态拍摄可变长度视频的新型相机控制重拍生成方法。该方法通过对齐输入视频与目标重拍视频的时空位置,修正了先前研究中RoPE的常见误用。此外,我们引入旋转相机编码(RoCE),这是一种基于相机条件的RoPE相位偏移技术,能够捕捉并整合输入视频与目标视频内部及之间的多视角关系。通过将相机条件融入RoPE,我们的方法可泛化至分布外的相机轨迹和视频长度,显著提升动态物体定位精度与静态背景保持效果。大量实验进一步证明,该方法在不同轨迹和长度条件下,相机可控性、几何一致性和视频质量均获得显著提升。
尽管当前视觉语言模型(VLMs)展现出强大的图像理解能力,但其"基于图像的思考"能力——即通过多步骤视觉交互进行推理的能力——仍存在局限。我们推出VISTA-Gym这一可扩展的训练环境,旨在激发VLMs中工具集成式视觉推理能力的发展。该环境通过标准化视觉工具接口(如目标定位、图像解析)、可执行的交互循环、可验证的反馈信号及高效轨迹记录,统一了多样化的现实世界多模态推理任务(共涵盖13个数据集中的7类任务),从而实现大规模视觉智能体强化学习。虽然现有VLMs在纯文本推理方面表现优异,但无论是专有模型还是开源模型,在工具选择、调用与协同方面仍面临挑战。基于VISTA-Gym,我们通过多轮轨迹采样和端到端强化学习训练出VISTA-R1模型,实现了工具使用与智能推理的交织协同。在11个公开推理密集型VQA基准测试中的广泛实验表明,VISTA-R1-8B模型以9.51%-18.72%的优势超越同规模先进基线,证明VISTA-Gym是解锁VLMs工具集成推理能力的有效训练平台。
生成逼真的三维城市是世界建模、虚拟现实和游戏开发的基础任务,理想的城市场景需同时满足风格多样性、细节精细度与可控性要求。然而,现有方法难以平衡基于文本生成的创意自由度与显式结构表征带来的对象级编辑能力。我们提出MajutsuCity——一个基于自然语言驱动且具备美学自适应能力的三维城市场景生成框架,能够合成结构一致且风格多样的城市景观。该框架将城市解构为可控布局、资产与材质的组合,并通过四阶段流程实现生成。为拓展初始生成后的控制维度,我们进一步集成MajutsuAgent交互式语言编辑代理,支持五种对象级操作。为实现高真实度可定制的场景合成,我们还构建了包含二维语义布局与高度图、多样化三维建筑资产、精选PBR材质与天空盒的MajutsuDataset多模态数据集,所有数据均附带精细标注。同时,我们开发了一套覆盖结构一致性、场景复杂度、材质保真度及光照氛围等关键维度的实用评估指标。大量实验表明,MajutsuCity的布局FID指标较CityDreamer降低83.7%,较CityCraft降低20.1%。本方法在AQS与RDR所有评分维度均位列第一,显著超越现有方法。这些结果证实MajutsuCity在几何保真度、风格适应性与语义可控性方面确立了三维城市生成的新标杆。我们期待该框架能为三维城市生成研究开辟新路径。数据集与代码将于https://github.com/LongHZ140516/MajutsuCity 发布。
大型语言模型(LLMs)能够解决复杂问题,却在更简单的变体上表现不佳,这表明其获得正确输出的机制与人类推理存在本质差异。为探究这一差异,我们将认知科学研究整合为包含28种认知要素的分类体系,涵盖推理不变性、元认知控制、组织推理与知识的表征方式以及转换操作。我们构建了细粒度评估框架,首次对来自文本、视觉和音频领域的18个模型产生的19.2万条推理轨迹进行大规模实证分析,并辅以54条人类有声思维轨迹(已公开)。研究发现:模型未能充分利用与成功正相关的认知要素,在处理非结构化问题时僵化为机械的序列化处理,而此类问题恰恰需要多样化表征和元认知监控;人类轨迹展现出更强的抽象与概念处理能力,模型则倾向于表层枚举。对1600篇LLM推理论文的元分析表明,研究界集中于易量化的要素(序列化组织:55%,问题分解:60%),却忽视了与成功相关的元认知控制(自我监控:16%)。模型虽具备与成功相关的行为模式,却无法自主调用。基于这些规律,我们开发了测试时推理引导技术,自动构建成功推理结构,使复杂问题上的性能最高提升66.7%。通过建立认知科学与LLM研究的共同话语体系,本框架既能系统诊断推理失败根源,推动模型从依赖表面捷径转向稳健认知机制的发展,也为大规模验证人类认知理论提供了工具支持。
从少量示例中进行抽象推理仍然是GPT-5和Grok-4等前沿基础模型尚未解决的核心问题。这些模型仍难以从少数样本中推断出结构化转换规则,而这正是人类智能的关键特征。面向通用人工智能的抽象与推理语料库(ARC-AGI)为此能力提供了严格测试平台,要求实现概念规则归纳并向新任务迁移。现有方法大多将ARC-AGI视为纯文本推理任务,却忽略了人类在解决此类难题时高度依赖视觉抽象的特性。然而我们的初步实验揭示了一个悖论:由于规则执行精度不足,简单地将ARC-AGI网格转换为图像反而会降低性能。由此我们提出核心假设:视觉与语言在不同推理阶段具有互补优势——视觉支持全局模式抽象与验证,而语言擅长符号化规则表述与精确执行。基于此洞见,我们提出两种协同策略:(1)视觉-语言协同推理(VLSR),将ARC-AGI分解为模态对齐的子任务;(2)模态切换自校正(MSSC),利用视觉验证基于文本的推理以实现内在误差修正。大量实验表明,该方法在多种旗舰模型和多项ARC-AGI任务中相较纯文本基线最高提升4.33%。我们的研究结果表明,将视觉抽象与语言推理相统一,是未来基础模型实现可泛化、类人智能的关键步骤。源代码即将发布。
计算机使用智能体(CUA)的发展长期受限于缺乏大规模、高质量的人类计算机交互数据集。尽管大语言模型在丰富文本数据上取得突破,但CUA行为轨迹领域仍缺乏可比的数据资源。为填补这一空白,我们推出FaraGen——一个面向多步骤网页任务的新型合成数据生成系统。该系统能够从高频使用网站中提取多样化任务,生成多种解决尝试,并通过多重验证器筛选成功轨迹。针对多步骤网页任务,FaraGen实现了高吞吐量、高产出率和高多样性,每条验证轨迹的生成成本约为1美元。基于此数据训练的Fara-7B模型成为原生CUA模型,仅通过屏幕截图感知计算机界面,通过预测坐标执行操作,且体积小巧可支持端侧运行。实验表明,Fara-7B在WebVoyager、Online-Mind2Web及我们新提出的WebTailBench(能更好捕捉现有基准测试中代表性不足的网页任务)等基准测试中,均优于同类规模的CUA模型。更值得注意的是,该模型与参数量大得多的前沿模型性能相当,这彰显了可扩展数据生成系统在推进小型高效智能体模型发展中的关键价值。我们将通过Microsoft Foundry和HuggingFace平台开放Fara-7B的权重,并同步发布WebTailBench基准测试集。
本文研究视觉问答-视觉回答(VQ-VA)任务:针对视觉问题生成图像而非文本回答——这种能力最近在NanoBanana和GPT-Image等专有系统中初现端倪。为使开源模型也具备该能力,我们提出VQ-VA World框架,该以数据为中心的框架构建于智能代理流水线之上,可实现大规模精准数据构建。通过网络级部署,该流水线采集了约180万高质量图文交错样本用于模型训练。评估方面,我们发布人工标注的IntelligentBench基准,系统评估VQ-VA在世界知识、设计知识和推理能力三个维度表现。使用VQ-VA World数据训练带来显著提升:使LightFusion在IntelligentBench获得53.06分,大幅超越此前最佳开源基线(原始LightFusion为7.78分;UniWorld-V1为1.94分),并显著缩小与领先专有系统的差距(NanoBanana为81.67分;GPT-Image为82.64分)。通过完整发布模型权重、数据集及流水线,我们希望推动VQ-VA领域的后续研究。
任务调度是具身智能的核心能力,使智能体能够遵循自然语言指令在三维物理世界中高效执行动作。然而现有数据集常忽略运筹学知识与三维空间 grounding,过度简化任务规划过程。本研究提出基于运筹学知识的三维实体任务调度新任务,该任务要求实现语言理解、三维空间定位与效率优化的协同。与既有设定不同,ORS3D要求智能体通过利用可并行子任务来最小化总完成时间,例如在微波炉工作时同步清洁水槽。为促进该方向研究,我们构建了包含4K真实场景中6万项复合任务的大规模数据集ORS3D-60K。此外,我们提出GRANT模型——配备简单高效调度令牌机制的具身多模态大语言模型,可生成优化任务调度方案与实体化动作。在ORS3D-60K上的大量实验验证了GRANT在语言理解、三维空间定位和调度效率方面的卓越性能。代码已开源:https://github.com/H-EmbodVis/GRANT
逼真的三维城市生成对虚拟现实、数字孪生等众多应用至关重要。然而,现有方法大多依赖训练单一扩散模型,限制了生成个性化、无边界城市场景的能力。本文提出Yo'City——一种新型智能体框架,通过调用现成大语言模型的推理与组合能力,实现用户可定制、无限扩展的三维城市生成。具体而言,Yo'City首先采用自上而下的规划策略,构建“城市-区域-网格”层级化结构进行城市概念化设计:全局规划器确定整体布局与功能分区,局部设计器则进一步细化各区域的网格级描述。随后通过“生成-优化-评估”的等距图像合成循环实现网格级三维生成,再经由图像转三维技术完成构建。为模拟持续城市演进,Yo'City进一步引入用户交互的关系引导扩展机制,执行基于场景图谱的距离与语义感知布局优化,确保空间连贯的城市生长。为全面评估方法性能,我们构建了多样化基准数据集,并设计六项多维度量指标,从语义、几何、纹理及布局多维度评估生成质量。大量实验表明,Yo'City在所有评估维度上均持续超越现有先进方法。
检索增强生成(RAG)技术通过引入外部知识增强大语言模型(LLM)的能力,但仍面临长上下文处理困难以及检索与生成环节优化割裂的问题。本文提出CLaRa(连续潜在推理)框架,在共享的连续空间内实现基于嵌入的压缩与联合优化。为获得语义丰富且可检索的压缩向量,我们设计了SCP框架——一种通过问答与复述监督实现关键信息保留的数据合成方法。CLaRa通过单一语言建模损失端到端训练重排序器与生成器,并利用可微分top-k估计器实现双模块的梯度传导。理论分析表明,这种联合优化能使检索相关性与答案质量相统一。在多问答基准测试中,CLaRa在压缩与重排序性能上达到最优水平,多数情况下超越基于文本的微调基线模型。
尽管当前视频生成模型已实现较高的视觉保真度,但其往往缺乏显式的物理可控性与合理性。为解决这一问题,近期研究尝试通过基于物理的渲染技术来引导视频生成。然而,这些方法在精确建模复杂物理属性、以及对长时序物理行为进行有效控制方面仍存在固有挑战。本研究提出PhysChoreo新型框架,能够基于单张图像生成具备多样化可控性和物理真实感的视频。该方法包含两阶段流程:首先通过部件感知的物理属性重建技术估算图像中所有物体的静态初始物理属性;随后借助时序指导与物理可编辑的仿真系统,合成具有丰富动态行为和物理真实感的高质量视频。实验结果表明,PhysChoreo能生成具备丰富行为表现和物理真实感的视频,在多项评估指标上均超越现有先进方法。
基于扩散模型的图像编辑技术能够实现局部区域的逼真修改,这使得人工智能生成内容(AIGC)的检测难度显著增加。现有AIGC检测基准主要聚焦于整图分类,却忽视了针对扩散编辑的局部定位能力。我们推出DiffSeg30k——一个包含3万张具有像素级标注的扩散编辑图像的公开数据集,旨在支持细粒度检测研究。该数据集具备四大特征:1)真实场景图像:从COCO数据集收集图像及图像提示词以反映现实世界的内容多样性;2)多样化扩散模型:采用八种前沿扩散模型进行局部编辑;3)多轮次编辑:每张图像最多经历三次序列编辑以模拟真实场景的连续修改流程;4)逼真编辑场景:通过基于视觉语言模型(VLM)的流程自动识别语义区域,并生成涵盖添加、删除及属性修改的上下文感知提示词。DiffSeg30k将AIGC检测从二分类任务推进至语义分割层面,可同步实现编辑区域的定位与编辑模型的识别。我们针对三种基线分割方法进行基准测试,揭示了语义分割任务面临的重大挑战,尤其体现在对图像形变的鲁棒性方面。实验还表明,尽管分割模型接受的是像素级定位训练,却能成为高度可靠的扩散编辑全图分类器,其性能超越现有伪造分类器,并在跨生成器泛化方面展现出巨大潜力。我们相信通过展现基于分割方法的优势与局限,DiffSeg30k将推动AI生成内容细粒度定位研究的发展。数据集已发布于:https://huggingface.co/datasets/Chaos2629/Diffseg30k
近期多模态大语言模型与视频智能体系统的突破性进展显著提升了通用视频理解能力。然而在科学视频理解与教育这一需要融合外部专业知识并进行严谨递进推理的领域,现有方法往往表现不佳。为弥补这一差距,我们提出了SciEducator——首个面向科学视频解析与教育的迭代式自进化多智能体系统。基于管理学经典的戴明循环理论,我们的设计将其"计划-执行-检查-处理"核心理念重构为自进化推理与反馈机制,有效解析视频中复杂的科学活动。此外,SciEducator能针对特定科学过程生成多模态教育内容,包括文本指令、可视化导引、语音解说及交互式参考文献。为支持评估,我们构建了SciVBench基准数据集,包含500个经专家验证且具有文献依据的科学问答对,涵盖物理、化学及日常现象五大类别。大量实验表明,SciEducator在基准测试中显著优于主流闭源多模态大语言模型(如Gemini、GPT-4o)及最先进的视频智能体,为学界确立了新范式。
尽管当前文本到视频(T2V)扩散模型在生成质量和提示对齐方面取得了显著成果,但在从单一文本提示中采样多个视频时往往输出多样性不足。我们将此问题建模为集合级策略优化任务,旨在训练能够覆盖给定提示下多种合理结果的策略。为此,我们提出DPP-GRPO这一创新框架,通过结合行列式点过程(DPP)与群组相对策略优化(GRPO)理论,对多样化生成结果施加显式奖励。该框架通过DPP对冗余样本施加收益递减约束,同时利用GRPO对候选集进行群组反馈,从而将多样性转化为显式优化信号。我们的框架具备即插即用和模型无关的特性,能在保持提示忠实度与感知质量的同时,显著提升视频在视觉外观、摄像机运动和场景结构等方面的多样性。我们在WAN和CogVideoX模型上实现该方法,实验表明其在VBench、VideoScore等前沿基准测试及人类偏好研究中持续提升视频多样性。此外,我们开源了代码并发布包含3万条多样化提示的新基准数据集,以支持后续研究。
基于结构的药物设计生成模型通常受限于特定模态,这限制了其更广泛的应用。为解决这一难题,我们提出FuncBind——一个基于计算机视觉的框架,能够跨原子系统生成靶点条件化的全原子分子。FuncBind通过神经场将分子表示为连续原子密度,并采用基于分数的生成模型,其现代架构源自计算机视觉领域。这种模态无关的表示方法使单一统一模型能够训练于从小分子到大分子的多样化原子系统,并可处理可变原子/残基数量(包括非标准氨基酸)。在计算机模拟中,FuncBind在靶向结构条件下生成小分子、大环肽和抗体互补决定区环状结构方面展现出卓越性能。通过从头设计两个选定共晶结构的互补决定区H3环,FuncBind还成功在实验室内生成新型抗体结合剂。作为最终贡献,我们提出了用于结构条件化大环肽生成的新数据集和基准测试平台。代码详见https://github.com/prescient-design/funcbind。
大型语言模型在预测社会、政治及经济事件方面展现出部分能力,但其预测性能会因领域结构和提示框架的不同而呈现显著差异。本研究针对模型截止日期后发生的真实事件,探究不同模型家族的预测表现差异。我们系统分析了背景信息、问题类型及外部知识如何影响预测准确性与校准度,并探讨事实性新闻背景的引入如何改变信念形成机制与错误模式。研究结果表明,预测能力具有高度可变性,其表现取决于预测内容本身及提问方式。
视觉语言模型应使用何种数据进行训练?为回答这个问题,当前多数数据筛选工作聚焦于数据集质量。然而现有方法大多存在两个局限:(一)离线性——即基于预设过滤标准生成静态数据集;(二)概念无关性——即采用基于模型的过滤器,这会引入额外数据偏差。本研究突破此类离线式、概念无关的方法,提出更灵活的任务自适应在线概念化筛选方案。我们的首要贡献是DataConcept:一个包含1.28亿网络爬取图文对的数据集,其中标注了细粒度的概念构成信息。基于DataConcept,我们提出概念感知批量采样框架(CABS),这种简洁高效的动态批构建方法能根据特定目标分布灵活组批。我们开发两种变体:(一)多样性最大化(CABS-DM)——构建覆盖广泛概念的批次;(二)频次最大化(CABS-FM)——构建高目标密度的批次。通过对28个基准的广泛评估,我们证明CABS方法显著提升CLIP/SigLIP模型性能,训练出高效能模型。总体而言,CABS为专有在线数据筛选算法提供了强有力的开源替代方案,使实践者能通过自定义概念分布优化特定下游任务。
从单目视频中精确获取乒乓球的三维运动轨迹是一项具有挑战性的任务,因为基于合成数据训练的现有方法难以泛化到现实世界中存在噪声及不完美球体与球台检测的场景。这主要源于真实视频数据本身缺乏三维真实轨迹和旋转标注。为解决这一问题,我们提出了一种新颖的两阶段流程,将任务划分为前端感知任务与后端二维至三维提升任务。这种分离策略使我们能够利用新构建的TTHQ数据集中的海量二维标注训练前端组件,而后端提升网络则仅在符合物理规律的合成数据上进行训练。我们特别对提升模型进行重构,使其对漏检、帧率波动等常见现实干扰具有鲁棒性。通过整合球体检测器与球台关键点检测器,本方法将概念验证性的提升技术转化为实用、鲁棒且高性能的端到端三维乒乓球轨迹与旋转分析系统。