每日精選AI研究論文及翻譯
大型語言模型(LLM)的最佳化仍是關鍵挑戰,尤其在模型規模擴大使訓練過程對演算法誤差與不穩定性的敏感度加劇之際。近期最佳化器的進展雖透過動量正交化提升了收斂效率,卻存在兩大穩健性缺陷:正交化精準度的維度脆弱性,以及對異常值引發噪聲的易損性。為解決這些穩健性難題,我們提出ROOT(穩健正交化最佳化器),透過雙重穩健機制增強訓練穩定性。首先,我們開發維度穩健的正交化方案,採用自適應牛頓迭代法與針對特定矩陣尺寸設計的細粒度係數,確保在不同架構配置下均能維持一致精準度。其次,我們透過近端最佳化建立最佳化穩健框架,在抑制異常值噪聲的同時保留有意義的梯度方向。大量實驗表明,相較於Muon與Adam系列最佳化器,ROOT在噪聲環境與非凸情境中顯著提升穩健性,並實現更快的收斂速度與更優的最終效能。本研究為開發能應對現代大規模模型訓練複雜性的穩健精準最佳化器確立了新範式。程式碼將公開於:https://github.com/huawei-noah/noah-research/tree/master/ROOT。
近期,在LLM引导的进化计算领域,特别是AlphaEvolve(Novikov等人,2025;Georgiev等人,2025)方面取得的进展,展现了在发现新颖数学构造及解决复杂优化问题上的显著成就。然而,已发表工作中的高层次描述未明确许多实现细节,这阻碍了研究的可重复性及进一步探索。本报告中,我们介绍了GigaEvo,一个可扩展的开源框架,旨在让研究人员能够研究与实验受AlphaEvolve启发的混合LLM-进化方法。我们的系统提供了关键组件的模块化实现:MAP-Elites质量多样性算法、基于异步DAG的评估管道、具备洞察生成与双向谱系跟踪的LLM驱动变异算子,以及灵活的多岛进化策略。为了评估可重复性并验证我们的实现,我们在AlphaEvolve论文中的挑战性问题上对GigaEvo进行了测试:Heilbronn三角形放置、正方形内的圆填充以及高维接吻数问题。该框架强调模块化、并发性及实验的便捷性,通过声明式配置实现快速原型设计。我们提供了系统架构、实现决策及实验方法的详细描述,以支持LLM驱动进化方法的进一步研究。GigaEvo框架及所有实验代码可在https://github.com/AIRI-Institute/gigaevo-core获取。
醫學影像分割是生物醫學發現的基礎。現有方法缺乏泛化能力,且在新的臨床應用中需要耗時費力的大量人工標註。本文提出MedSAM-3,一種可透過文字提示進行醫學影像與影片分割的模型。透過在配對語義概念標籤的醫學影像上微調Segment Anything Model(SAM)3架構,我們的MedSAM-3實現了醫學可提示概念分割(PCS),能夠透過開放詞彙的文字描述(而非僅依賴幾何提示)精準定位解剖結構。我們進一步推出MedSAM-3代理框架,整合多模態大型語言模型(MLLM),在代理參與迴路的工作流程中執行複雜推理與迭代優化。跨X光、磁共振成像、超音波、電腦斷層及影片等多種醫學影像模態的綜合實驗表明,本方法顯著優於現有專業模型與基礎模型。我們將於https://github.com/Joey-S-Liu/MedSAM3公開程式碼與模型。
視覺語言智慧體在多模態推理任務中取得了顯著進展,但其學習能力仍受人為標註監督的限制。近期提出的自我獎勵方法試圖突破這一限制,讓模型能夠擔任自身的評判者或獎勵提供者。然而,純基於文本的自我評估難以驗證複雜的視覺推理步驟,且常出現評估幻覺問題。為解決這些挑戰,受工具增強推理的最新進展啟發,我們提出 Agent0-VL——一個通過工具增強推理實現持續自我進化的視覺語言智慧體。該架構將工具運用整合至推理、自我評估與自我修正全流程,使模型能透過證據驅動的分析進行反思、驗證與推理優化。我們在單一大型視覺語言模型中統一了兩個協同角色:執行多輪工具增強推理的求解器,以及通過工具錨定批判生成結構化反饋與細粒度自我獎勵的驗證器。這些角色通過「自我演化推理循環」互動,基於工具的驗證與強化學習共同對齊推理和評估分佈,實現穩定的自我提升。通過這種零外部獎勵的演化機制,Agent0-VL在無需人為標註或外部獎勵模型的情況下,實現了推理與驗證行為的自主對齊與持續改進。在幾何問題求解和視覺科學分析任務上的實驗表明,Agent0-VL相較基礎模型性能提升12.5%。程式碼已開源於:https://github.com/aiming-lab/Agent0/Agent0-VL{此 HTTPS 網址}。
在人像動畫領域中,如何保持首幀身份特徵同時實現精確動作控制是一項根本性挑戰。當前主流的參考影片生成範式存在圖像-動作綁定過程的缺陷,未能解決實際應用中常見的時空錯位問題,導致身份特徵漂移與視覺偽影等故障。本文提出SteadyDancer——基於圖像到影片生成範式的創新框架,該框架不僅實現和諧連貫的動畫效果,更成為首個能穩健保證首幀特徵保留的解決方案。首先,我們設計條件調和機制來協調兩種衝突的控制條件,在保持特徵保真度的前提下實現精確動作控制。其次,通過協同姿態調制模組生成具有高度圖像適應性的連貫姿態表徵。最後採用分階段解耦目標訓練流程,分層優化模型的動作擬真度、視覺品質與時序連貫性。實驗表明,SteadyDancer在表徵保真度與動作控制方面均達到最先進水平,且所需訓練資源顯著少於同類方法。
近年來,統一多模態模型取得了顯著進展,但一個根本問題依然存在:理解是否真正能指導生成?為探究此問題,我們提出UniSandbox——一個配備受控合成數據集的解耦評估框架,既可避免數據洩漏,又能實現細粒度分析。研究發現揭示出理解與生成之間存在顯著鴻溝,主要體現在推理生成與知識遷移兩個關鍵維度。具體而言,在推理生成任務中,我們發現理解模塊的顯式思維鏈能有效彌合此鴻溝,並進一步證明自訓練方法可成功將此能力內化,實現生成過程中的隱式推理。此外在知識遷移任務中,思維鏈能通過協助檢索新習得知識來輔助生成過程,同時我們也發現基於查詢的架構本身具有影響知識遷移的潛在類思維鏈特性。UniSandbox為設計真正銜接理解與生成的未來統一架構與訓練策略提供了初步見解。程式碼與數據已開源於:https://github.com/PKU-YuanGroup/UniSandBox
強化學習(RL)在提升大型語言模型(LLM)推理能力方面扮演著日益重要的角色,然而穩定且高效的策略優化仍具挑戰性。詞元級重要性比率常呈現高方差——此現象在專家混合模型中更為顯著——導致更新不穩定。現有的基於分組的策略優化方法(如GSPO和GRPO)通過硬截斷緩解此問題,但難以同時維持穩定性與有效學習。我們提出軟性自適應策略優化(SAPO),以平滑的溫度控制門機制取代硬截斷,能自適應衰減離策略更新的同時保留有用的學習信號。相較於GSPO與GRPO,SAPO兼具序列連貫性與詞元自適應性:與GSPO類似,SAPO保持序列層級的連貫性,但其軟門控形成連續信任區域,避免了GSPO中脆弱的硬截斷帶。當序列包含少數高度離策略詞元時,GSPO會抑制該序列所有梯度,而SAPO僅選擇性降低異常詞元權重,保留近策略詞元的學習信號,從而提升樣本效率。相對於GRPO,SAPO以平滑的溫度控制縮放取代硬詞元截斷,實現更具信息量且穩定的更新。數學推理基準測試的實證結果表明,在可比訓練成本下,SAPO展現出更優的訓練穩定性與更高的Pass@1性能。此外,我們應用SAPO訓練Qwen3-VL模型系列,證明其能在多樣化任務與不同模型規模中帶來一致的性能提升。總體而言,SAPO為LLM的強化學習訓練提供了更可靠、可擴展且高效的優化策略。
預訓練影片模型具備生成高品質、時間連貫內容的強大先驗知識。儘管這些模型在時間連貫性上表現卓越,但其動態表現往往受制於訓練資料的連續性特質。我們提出假設:若能將圖像資料中豐富且無約束的內容多樣性注入此連貫的時間框架,即可生成兼具自然過渡效果與更廣闊動態範圍的圖像集合。為此,我們推出 iMontage——一個將強大影片模型重新定位為全能圖像生成器的統一框架。該框架能處理並產出可變長度的圖像集合,統合多種圖像生成與編輯任務。我們提出優雅且低侵入性的適應策略,輔以量身打造的資料篩選流程與訓練模式,使模型在保有原有珍貴運動先驗的同時,獲得廣泛的圖像操控能力。iMontage 在多項主流多對多任務中表現卓越,不僅保持強韌的跨圖像上下文一致性,更能生成超越傳統範疇的非凡動態場景。專案主頁請訪問:https://kr1sjfu.github.io/iMontage-web/。
世界模型正逐漸成為可擴展、數據高效具身人工智慧的基礎範式。本研究提出GigaWorld-0——一個專為視覺-語言-動作學習設計的統一世界模型框架,其核心定位是作為數據引擎。該框架整合兩大協同組件:GigaWorld-0-Video通過大規模視頻生成技術,在外觀、相機視角與動作語義的細粒度控制下,產生多樣化、紋理豐富且時序連貫的具身序列;GigaWorld-0-3D則融合三維生成建模、3D高斯潑濺重建、物理可微分系統辨識與可執行運動規劃,確保幾何一致性與物理真實性。兩者的聯合優化實現了視覺吸引力、空間連貫性、物理合理性與指令對齊的具身交互數據規模化合成。我們開發的高效GigaTrain框架採用FP8精度與稀疏注意力機制,大幅降低記憶體與計算需求,使大規模訓練成為可能。綜合評估表明,GigaWorld-0能在多維度生成高質量、多樣化且可控的數據。關鍵在於,基於GigaWorld-0生成數據訓練的VLA模型(如GigaBrain-0)在實體機器人上展現出卓越的泛化能力與任務成功率,且訓練過程完全無需真實世界交互數據。
全注意力机制的二次复杂度限制了大型语言模型(LLMs)在处理长上下文时的高效性。稀疏注意力通过限制每个查询仅关注前文标记的子集来降低计算成本,但无需训练的方法常导致严重的性能下降。原生稀疏注意力方法(如NSA、MoBA)虽能缓解此问题,却存在一个关键悖论:尽管旨在逼近全注意力效果,其产生的注意力稀疏度反而低于全注意力模型,这可能制约其有效性。我们将此悖论归因于梯度更新缺陷:在稀疏训练期间被排除的低秩键值对既无前向贡献也无反向梯度,因而无法学习适当的抑制机制。为突破此限制,我们提出SSA(稀疏稀疏注意力),这一统一训练框架同时考虑稀疏与全注意力,并在每一层强制执行双向对齐。该设计在保持所有标记梯度流动的同时,显式促使稀疏注意力输出与其全注意力对应项对齐,从而增强稀疏性。实验表明,SSA在多个常识推理基准上均实现了稀疏与全注意力推断下的最优性能。此外,SSA使模型能平滑适应不同的稀疏预算:随着可参与注意力的标记数增加,性能持续提升,支持推理时灵活的计算-性能权衡。最后我们发现,原生稀疏注意力训练通过缓解注意力值在汇聚区的过度分配,意外提升了长上下文外推能力,其中SSA展现出最强的外推性能。
本文介绍HunyuanOCR——一款商用级开源轻量级(10亿参数)光学字符识别专用视觉语言模型。该模型采用原生视觉Transformer与轻量化大语言模型架构,通过MLP适配器进行连接。HunyuanOCR展现出卓越性能,在文本定位、解析等感知任务上超越商业API、传统流水线及更大参数量模型(如Qwen3-VL-4B);在信息提取、图文翻译等语义任务中表现优异,荣获ICDAR 2025 DIMT挑战赛小模型赛道冠军。在参数量小于30亿的视觉语言模型中,该模型更是在OCRBench基准上取得了最先进的性能。 HunyuanOCR实现三大突破:1)通用性与高效性统一:在轻量级框架内完整支持定位、解析、信息提取、视觉问答及翻译等核心能力,突破专用OCR模型能力局限与通用VLM效率瓶颈;2)端到端架构革新:采用纯端到端范式摆脱对版面分析等预处理模块的依赖,从根本上解决传统流水线的误差传播问题并简化系统部署;3)数据驱动与强化学习策略:验证高质量数据的关键作用,并首次在业界证明强化学习策略可显著提升OCR任务性能。 HunyuanOCR已在HuggingFace平台开源,同时提供基于vLLM的高性能部署方案,其生产效能达到业界顶尖水平。我们期待该模型能推动前沿技术探索,并为工业应用提供坚实基础。
近期交互式视频世界模型方法能够根据用户指令生成场景演化内容。虽然取得了显著成果,但仍存在两个关键局限:其一,未能充分利用指令驱动场景运动与底层三维几何的对应关系,导致视角变化下的结构不稳定;其二,在多步交互过程中容易遗忘历史信息,造成场景语义与结构的误差累积和渐进偏移。针对这些问题,我们提出MagicWorld——一种融合三维几何先验与历史检索的交互式视频世界模型。该模型从单张场景图像出发,通过用户动作驱动动态场景演化,以自回归方式合成连续场景。我们引入动作引导三维几何模块(AG3D),从每次交互的首帧及对应动作构建点云,为视角转换提供显式几何约束以提升结构一致性。进一步提出历史缓存检索(HCR)机制,在生成过程中检索相关历史帧并将其作为条件信号注入,辅助模型利用过往场景信息并缓解误差累积。实验结果表明,MagicWorld在交互迭代过程中显著提升了场景稳定性与连续性。
歸一流模型(NFs)是針對連續數據的端到端基於似然度的生成模型,近期在圖像生成領域取得的突破性進展使其重獲關注。然而在時空複雜度與計算成本顯著更高的視頻生成領域,現有頂尖系統幾乎完全依賴基於擴散模型的架構。本研究重新審視這一設計空間,提出STARFlow-V——一種基於歸一化流的視頻生成器,其具備端到端學習、魯棒因果預測及原生似然度估計等顯著優勢。基於最新提出的STARFlow架構,STARFlow-V在時空潛空間中採用全局-局部架構,將因果依賴限制於全局潛空間,同時保留豐富的幀內局部交互。這種設計有效緩解了標準自回歸擴散模型生成中常見的誤差累積問題。此外,我們提出流分數匹配技術,為模型配備輕量級因果去噪器,以自回歸方式提升視頻生成的一致性。為提高採樣效率,STARFlow-V採用視頻感知型雅可比迭代方案,將內部更新重構為可並行化的迭代過程而不破壞因果性。得益於可逆結構,該模型能原生支持文本到視頻、圖像到視頻及視頻到視頻的生成任務。實證研究表明,相較於基於擴散的基準模型,STARFlow-V在視覺保真度與時間一致性方面表現優異,並具備實用的採樣吞吐量。這些成果首次證明歸一化流模型能夠實現高質量自回歸視頻生成,為構建世界模型開闢了極具前景的研究路徑。代碼與生成樣例已開源於:https://github.com/apple/ml-starflow。
尽管取得进展,视频扩散变换器仍难以泛化至超出训练时长的视频序列,这一挑战我们称之为视频长度外推。我们识别出两种失效模式:模型特有的周期性内容重复,以及普遍存在的质量退化。先前研究尝试通过位置编码解决重复问题,却忽视了质量退化且仅实现有限的外推能力。本文从更基础的视角——注意力图谱重新审视这一挑战,该图谱直接决定了上下文如何影响输出。我们发现两种失效模式源于同一根本原因:注意力分散,即超出训练时窗的标记点会稀释已学习的注意力模式。这导致质量退化,而当这种分散在位置编码的谐波特性作用下形成周期性注意力模式时,重复现象便作为特例出现。基于此洞见,我们提出UltraViCo,一种无需训练即插即用的方法,通过恒定衰减因子抑制训练时窗外标记点的注意力。通过协同解决两种失效模式,我们在多种模型和外推比例下显著超越现有基线方法,将外推极限从2倍提升至4倍。值得注意的是,在4倍外推时,其动态程度和成像质量相较之前最佳方法分别提升233%和40.5%。此外,我们的方法能无缝泛化至可控视频生成与编辑等下游任务。
生成模型在RGB图像合成领域已取得显著成就,但实际应用往往需要RGBA格式的操控能力。这导致当前技术格局呈现碎片化:专业化的单任务模型虽能处理Alpha通道但缺乏通用性,而统一的多任务框架又受限于RGB领域。为弥合这一关键差距,我们提出OmniAlpha——首个面向序列到序列RGBA图像生成与编辑的统一多任务生成框架。其架构核心MSRoPE-BiL是一种新颖的RoPE方法,通过为扩散Transformer(DiT)主干网络引入双向可扩展的层轴,实现了对多输入/目标RGBA图层的并行处理。为支撑该框架,我们构建了AlphaLayers数据集,包含1000组通过新型自动化合成筛选流程制作的高质量多层三元组。基于该数据集对OmniAlpha进行21项多样化任务的联合训练,大量实验表明我们的统一方法在各项任务上均稳定超越专业基线模型。尤为突出的是,OmniAlpha在AIM-500数据集上实现无蒙版抠图的SAD指标相对降低84.8%,在图层条件补全任务中赢得超过90%的人类偏好评估。本研究证明统一的多任务模型能够学习到更优的RGBA共享表征,为开发更强大的图层感知生成系统开辟了新路径。
我们提出ReDirector——一种针对动态拍摄可变长度视频的新型相机控制重拍生成方法。该方法通过对齐输入视频与目标重拍的时空位置,修正了先前研究中RoPE的常见误用。此外,我们引入旋转相机编码(RoCE),这是一种基于相机条件的RoPE相位偏移技术,能够捕捉并整合输入视频与目标视频内部及之间的多视角关系。通过将相机条件融入RoPE,我们的方法可泛化至分布外的相机轨迹和视频长度,有效提升动态目标定位与静态背景保持的能力。大量实验进一步证明,该方法在不同轨迹和长度下均能显著提升相机可控性、几何一致性和视频质量。
尽管当前视觉语言模型(VLMs)展现出强大的图像理解能力,但其"基于图像的思考"能力——即通过多步骤视觉交互进行推理——仍存在局限。我们推出VISTA-Gym这一可扩展的训练环境,旨在激发VLMs中工具集成式视觉推理能力的发展。该环境通过标准化视觉工具接口(如定位、解析)、可执行交互循环、可验证反馈信号及高效轨迹记录,统一了多样化的现实世界多模态推理任务(总计涵盖13个数据集中的7类任务),从而实现大规模视觉智能体强化学习。虽然现有VLMs在纯文本推理方面表现优异,但无论是专有模型还是开源模型,在工具选择、调用与协调方面仍面临挑战。基于VISTA-Gym,我们通过多轮轨迹采样和端到端强化学习训练出VISTA-R1模型,实现了工具使用与智能推理的交替进行。在11个公开推理密集型VQA基准测试中的广泛实验表明,VISTA-R1-8B模型以9.51%-18.72%的优势超越同类规模的先进基线模型,证明VISTA-Gym能有效解锁VLMs的工具集成推理能力。
生成逼真的三维城市是世界模型、虚拟现实和游戏开发的基础技术,理想的城市场景需同时满足风格多样性、精细粒度与可控性三大要求。然而现有方法难以平衡基于文本生成的创意自由度与显式结构表征带来的对象级编辑能力。我们提出MajutsuCity——一个基于自然语言驱动且具备美学自适应能力的框架,能够合成结构一致且风格多样的三维城市场景。该框架将城市解构为可控布局、资产与材质的组合,通过四阶段流水线实现场景生成。为突破初始生成阶段的控制局限,我们进一步集成MajutsuAgent交互式语言编辑代理,支持五种对象级操作。为实现高真实度可定制场景合成,我们还构建了MajutsuDataset多模态数据集,包含二维语义布局与高度图、多样化三维建筑资产、精选PBR材质与天空盒,各项数据均附带精细标注。同时开发了一套实用评估指标,涵盖结构一致性、场景复杂度、材质保真度与光照氛围等核心维度。大量实验表明,MajutsuCity的布局FID指标较CityDreamer降低83.7%,较CityCraft提升20.1%。本方法在AQS与RDR全部评估项中均居首位,显著超越现有技术。这些结果证实MajutsuCity在几何保真度、风格适应性与语义可控性方面确立了三维城市生成的新标杆。我们期待该框架能为三维城市生成研究开辟新路径。数据集与代码将在https://github.com/LongHZ140516/MajutsuCity 发布。
大型语言模型(LLMs)能解决复杂问题却在简单变体上失败,表明其通过根本不同于人类推理的机制获得正确输出。为理解这一差异,我们将认知科学研究综合为包含28种认知要素的分类体系,涵盖推理不变性、元认知控制、组织推理与知识的表征方式以及转换操作。我们引入细粒度评估框架,首次对来自文本、视觉和音频领域的18个模型产生的19.2万条推理轨迹进行大规模实证分析,并辅以54条人类出声思维轨迹(已公开)。研究发现:模型未能充分利用与成功相关的认知要素,在结构不良问题上退化为僵化的序列化处理,而此类问题恰恰需要多样化表征和元认知监控。人类轨迹展现出更强的抽象化和概念化处理能力,模型则默认采用表层枚举。对1600篇LLM推理论文的元分析表明,研究界集中于易量化的要素(序列化组织:55%,问题分解:60%),却忽视与成功相关的元认知控制(自我监控:16%)。模型虽具备与成功相关的行为模式,却无法自主调用。基于这些规律,我们开发了测试时推理引导技术,自动构建成功推理结构,在复杂问题上将模型性能最高提升66.7%。通过建立认知科学与LLM研究的共享术语体系,我们的框架能系统诊断推理失败原因,推动模型通过稳健认知机制而非表面捷径实现推理,同时为大规模验证人类认知理论提供工具。
基于少量示例的抽象推理仍然是GPT-5和Grok-4等前沿基础模型尚未解决的核心难题。这些模型仍无法从少量样本中推断出结构化转换规则,而这正是人类智能的关键特征。面向通用人工智能的抽象与推理语料库(ARC-AGI)为此能力提供了严格测试平台,要求实现概念规则归纳并向新任务迁移。现有方法大多将ARC-AGI视为纯文本推理任务,却忽略了人类在解决此类难题时高度依赖视觉抽象的特性。然而初步实验揭示了一个悖论:由于规则执行不精确,将ARC-AGI网格直接转换为图像反而会降低性能。由此我们提出核心假设:视觉与语言在不同推理阶段具有互补优势——视觉支持全局模式抽象与验证,而语言擅长符号化规则表述与精确执行。基于此洞见,我们引入两种协同策略:(1)视觉-语言协同推理(VLSR),将ARC-AGI分解为模态对齐的子任务;(2)模态切换自校正(MSSC),利用视觉验证基于文本的推理以实现内在纠错。大量实验表明,该方法在多种旗舰模型和多项ARC-AGI任务中相较纯文本基线最高提升4.33%。我们的研究结果表明,将视觉抽象与语言推理相融合,是未来基础模型实现可泛化、类人智能的关键步骤。源代码即将发布。
计算机使用智能体(CUA)的发展长期受限于缺乏大规模高质量的人机交互数据集。尽管大语言模型在丰富文本数据上取得突破,但CUA行为轨迹领域仍缺乏可比的数据资源。为弥补这一空白,我们推出FaraGen——一个面向多步骤网页任务的新型合成数据生成系统。该系统能够从高频使用网站中提取多样化任务,生成多组解决方案尝试,并通过多重验证器筛选成功轨迹。该技术在多步骤网页任务中实现了高吞吐量、高产出率与高多样性,每条验证轨迹的生成成本约为1美元。基于此数据训练的Fara-7B成为原生CUA模型,仅通过屏幕截图感知计算机界面,通过预测坐标执行操作,且体积小巧足以在终端设备运行。实验表明,Fara-7B在WebVoyager、Online-Mind2Web及我们新开发的WebTailBench(能更好捕捉现有基准测试中代表性不足的网页任务)等基准测试中,均优于同类规模的CUA模型。更值得注意的是,该模型与体积更大的前沿模型性能相当,这彰显了可扩展数据生成系统在推进小型高效智能体模型发展中的关键价值。我们将通过Microsoft Foundry和HuggingFace平台开放Fara-7B的权重参数,并同步发布WebTailBench基准测试集。
本文研究视觉问答-视觉生成(VQ-VA)技术:针对视觉问题生成图像而非文本回答——这种能力近期已出现在NanoBanana、GPT-Image等专有系统中。为使开源模型也具备此能力,我们提出VQ-VA World框架,该以数据为中心的框架构建于智能代理流水线之上,可实现大规模定向数据构建。通过网络级部署,该流水线爬取了约180万条高质量图文交错样本用于模型训练。在评估方面,我们发布人工标注的IntelligentBench基准测试,从世界知识、设计知识和推理能力三个维度系统评估VQ-VA性能。使用VQ-VA World数据训练带来显著提升:使LightFusion在IntelligentBench上获得53.06分,大幅超越先前最佳开源基线(原始LightFusion为7.78分;UniWorld-V1为1.94分),并显著缩小与领先专有系统的差距(NanoBanana为81.67分;GPT-Image为82.64分)。通过完整发布模型权重、数据集及流水线,我们期望推动VQ-VA领域的未来研究。
任务调度在具身人工智能中至关重要,它使智能体能够遵循自然语言指令,在三维物理世界中高效执行动作。然而,现有数据集常因忽略运筹学知识和三维空间 grounding 而简化了任务规划。本研究提出基于运筹学知识的三维 grounded 任务调度(ORS3D),这一新任务要求融合语言理解、三维 grounding 与效率优化。与先前设定不同,ORS3D 要求智能体通过利用可并行子任务(如在微波炉运行时同时清洁水槽)来最小化总完成时间。为促进 ORS3D 研究,我们构建了 ORS3D-60K 大规模数据集,包含 4000 个真实场景中的 6 万项复合任务。此外,我们提出 GRANT——一个配备简单有效调度令牌机制的具身多模态大语言模型,能生成高效的任务调度方案与 grounded 动作。在 ORS3D-60K 上的大量实验验证了 GRANT 在语言理解、三维 grounding 和调度效率方面的有效性。代码已开源:https://github.com/H-EmbodVis/GRANT
逼真的三维城市生成是虚拟现实和数字孪生等广泛应用的基础。然而,现有方法大多依赖训练单一扩散模型,限制了生成个性化、无边界城市场景的能力。本文提出Yo'City——一种新型智能体框架,通过利用现成大模型的推理与组合能力,实现用户可定制、无限扩展的三维城市生成。具体而言,Yo'City首先通过自上而下的规划策略构建城市概念,定义"城市-区域-网格"的层级结构:全局规划器确定整体布局与功能分区,局部设计器则进一步细化各分区的网格级描述。随后通过"生成-优化-评估"的等距图像合成循环实现网格级三维生成,再经由图像转三维技术完成构建。为模拟持续城市演进,Yo'City进一步引入用户交互的关系引导扩展机制,执行基于场景图的距离与语义感知布局优化,确保空间连贯的城市生长。为全面评估方法性能,我们构建了多样化基准数据集,并设计六项多维度量指标,从语义、几何、纹理和布局多角度评估生成质量。大量实验表明,Yo'City在所有评估维度上均持续优于现有先进方法。
檢索增強生成(RAG)技術通過引入外部知識增強大型語言模型(LLM)的能力,但仍面臨長上下文處理困難以及檢索與生成優化脫節的問題。本研究提出連續潛在推理(CLaRa)框架,在共享連續空間中實現嵌入式壓縮與聯合優化。為獲取語義豐富且可檢索的壓縮向量,我們設計了基於問答與複述監督的關鍵信息保持數據合成框架(SCP)。CLaRa通過單一語言建模損失函數端到端訓練重排序器與生成器,並利用可微分top-k估計器實現雙模塊的梯度傳導。理論分析表明,這種統一優化能使檢索相關性與答案質量協同提升。在多個問答基準測試中,CLaRa在壓縮效率和重排序性能方面均達到最先進水平,其表現甚至經常超越基於文本的微調基準模型。
尽管近期视频生成模型已实现显著的视觉保真度,但其往往缺乏显式的物理可控性与合理性。为解决这一问题,部分研究尝试通过基于物理的渲染技术来引导视频生成。然而,这些方法在精确建模复杂物理属性、以及有效控制长时序中物理行为方面仍存在固有挑战。本研究提出PhysChoreo创新框架,能够从单张图像生成兼具多样化可控性与物理真实感的视频。该方法包含两个阶段:首先通过部件感知的物理属性重建技术估算图像中所有物体的静态初始物理属性;随后通过时序指令与物理可编辑的模拟过程,合成具有丰富动态行为与物理真实感的高质量视频。实验结果表明,PhysChoreo能生成具备丰富行为模式与物理真实感的视频,在多项评估指标上均优于现有先进方法。
基于扩散模型的图像编辑技术能够实现局部图像区域的自然修改,这使得AI生成内容的检测难度显著增加。现有AIGC检测基准主要关注整图分类,忽略了基于扩散编辑的局部定位能力。我们推出DiffSeg30k——一个包含3万张扩散编辑图像且具备像素级标注的公开数据集,旨在支持细粒度检测研究。该数据集具备四大特征:1)真实场景图像:从COCO数据集采集图像或图像提示词以反映现实世界内容多样性;2)多样化扩散模型:采用八种前沿扩散模型进行局部编辑;3)多轮次编辑:每张图像最多经历三次连续编辑以模拟实际串行编辑流程;4)逼真编辑场景:通过基于视觉语言模型的自动化流程识别语义区域,并生成涵盖添加、删除及属性修改的上下文感知提示词。DiffSeg30k将AIGC检测从二分类任务推进至语义分割层面,实现编辑区域的同步定位与编辑模型的联合识别。我们针对三种基线分割方法进行基准测试,揭示了语义分割任务面临的重大挑战,特别是对图像失真鲁棒性方面的不足。实验还发现,尽管分割模型接受的是像素级定位训练,却展现出卓越的整图分类能力,其检测性能超越传统伪造分类器,并在跨生成器泛化方面表现出巨大潜力。我们相信通过展示基于分割方法的优势与局限,DiffSeg30k将推动AI生成内容细粒度定位研究的发展。数据集已发布于:https://huggingface.co/datasets/Chaos2629/Diffseg30k
近年来,多模态大语言模型(MLLMs)与视频智能体系统的突破性进展显著提升了通用视频理解能力。然而在科学视频理解与教育这一需要融合外部专业知识并进行严谨递进式推理的领域,现有方法往往表现不佳。为弥补这一差距,我们提出了首个具有迭代式自我演进能力的多代理系统SciEducator,专门用于科学视频解析与教育。基于管理学经典理论戴明环,我们的设计将其"计划-执行-检查-处理"核心理念重构为自我演进式推理与反馈机制,有效解析视频中复杂的科学活动过程。此外,SciEducator能针对特定科学流程生成多模态教育内容,包括文本说明、可视化指引、音频解说及交互式参考文献。为支持评估,我们构建了包含500个专家验证且文献依据充分的科学问答对基准数据集SciVBench,涵盖物理、化学及日常现象五大类别。大量实验表明,SciEducator在基准测试中显著优于主流闭源MLLMs(如Gemini、GPT-4o)及最先进的视频智能体,为学界确立了新范式。
尽管当前文本到视频(T2V)扩散模型在生成质量与提示词对齐方面表现卓越,但在从单一文本提示生成多个视频时往往存在输出多样性不足的问题。我们将此挑战构建为集合层面的策略优化问题,旨在训练能够覆盖给定提示词对应多种合理结果的策略框架。为此,我们提出DPP-GRPO这一创新性多元视频生成框架,该框架融合行列式点过程(DPPs)与群组相对策略优化(GRPO)理论,通过对多样化生成结果施加显式奖励机制来解决多样性缺失问题。我们的方法通过DPP对冗余样本施加收益递减约束,同时借助GRPO对候选集合提供群组反馈,从而将多样性转化为显式优化信号。该框架具备即插即用和模型无关的特性,能在保持提示词忠实度与感知质量的同时,显著提升视频在视觉外观、摄像机运动及场景结构等方面的多样性。我们在WAN和CogVideoX模型上实现了该方法,实验表明在VBench、VideoScore等前沿基准测试及人工偏好研究中,本方法能持续提升视频多样性。此外,我们开源了代码并发布了包含3万条多样化提示词的新基准数据集,以支持后续研究。
基於結構的藥物設計生成模型通常侷限於特定模態,限制了其更廣泛的應用。為解決這一難題,我們提出FuncBind——一個基於計算機視覺的框架,能跨原子系統生成靶點條件化的全原子分子。FuncBind通過神經場將分子表示為連續原子密度,並採用基於分數的生成模型,其現代化架構改編自計算機視覺文獻。這種模態無關的表徵使單一統一模型能夠訓練於從小微分子到大分子的多樣化原子系統,並處理可變原子/殘基數量(包括非經典氨基酸)。在靶點結構條件下,FuncBind在生成小分子、大環肽和抗體互補決定區環方面展現出具有競爭力的計算模擬性能。通過對兩種選定共晶結構的互補決定區H3環進行從頭重新設計,FuncBind還在體外實驗中成功生成新型抗體結合劑。作為最終貢獻,我們引入了用於結構條件化大環肽生成的新數據集與基準測試平台。代碼已開源於https://github.com/prescient-design/funcbind。
大型语言模型在预测社会、政治及经济事件方面展现出部分能力,但其预测效能会因领域结构与提示框架的不同而产生显著差异。本研究针对模型数据截止日期后发生的真实事件,探究不同模型家族在预测表现上的差异。我们分析了语境因素、问题类型及外部知识如何影响预测准确度与校准效果,并探讨了添加事实性新闻语境如何改变信念形成机制与错误模式。研究结果表明,预测能力具有高度可变性,其表现取决于提问内容与提问方式。
视觉语言模型应基于何种数据进行训练?为回答这个问题,当前多数数据策展工作聚焦于数据集质量。然而现有方法大多存在两个局限:(一)采用离线模式,即依据预设过滤标准生成静态数据集;(二)缺乏概念感知能力,即依赖基于模型的过滤器而引入额外数据偏差。本研究突破此类离线式、概念无关的方法桎梏,提出更具灵活性的任务自适应在线概念化策展方案。我们首要贡献是DataConcept——一个包含1.28亿网络爬取图像-文本对的数据集,其每个样本均标注有细粒度概念构成信息。基于DataConcept,我们进一步提出概念感知批量采样框架(CABS),这种简洁而高效的动态批构建方法能根据特定目标分布灵活组批。我们开发两种变体:(一)多样性最大化(CABS-DM),旨在构建覆盖广泛概念范围的批次;(二)频率最大化(CABS-FM),用于创建具有高目标复现度的批次。通过对28个基准的广泛评估,我们证明CABS方法能显著提升CLIP/SigLIP模型性能,训练出高效能模型。总体而言,CABS为专有在线数据策展算法提供了强有力的开源替代方案,使实践者能通过自定义概念分布来优化特定下游任务。
从标准单目视频中精确获取乒乓球的三维运动轨迹是一个具有挑战性的难题,因为基于合成数据训练的现有方法难以泛化到现实世界中存在噪声且不完美的球体与球台检测场景。这主要源于现实视频中固有的三维真实轨迹数据和旋转标注的缺失。为解决这一问题,我们提出了一种新颖的两阶段流程,将任务分解为前端感知任务与后端二维转三维提升任务。这种分离设计使我们能够利用新构建的TTHQ数据集中的海量二维标注数据训练前端组件,而后端提升网络则仅基于符合物理规律合成的数据进行训练。我们特别对提升模型进行重构,使其能够适应现实场景中常见的干扰因素,如检测缺失和帧率变化。通过整合球体检测器与球台关键点检测器,本方法将概念验证性的提升技术转化为实用、鲁棒且高性能的端到端三维乒乓球轨迹与旋转分析系统。