每日精選AI研究論文及翻譯
我們推出DeepSeek-V3.2模型,該模型在高效計算能力與卓越推理及智能體性能之間實現了完美平衡。DeepSeek-V3.2的關鍵技術突破如下:(1)DeepSeek稀疏注意力機制(DSA):我們提出創新型DSA高效注意力機制,在長上下文場景中顯著降低計算複雜度的同時保持模型性能。(2)可擴展強化學習框架:通過實施穩健的強化學習協議並擴展訓練後計算量,DeepSeek-V3.2達到與GPT-5相當的性能。特別值得一提的是,我們的高計算變體DeepSeek-V3.2-Speciale不僅超越GPT-5,更展現出與Gemini-3.0-Pro比肩的推理能力,在2025年國際數學奧林匹克(IMO)與國際信息學奧林匹克(IOI)中均獲得金牌級表現。(3)大規模智能體任務合成流水線:為將推理能力融入工具使用場景,我們開發了新型合成流水線,可系統化生成大規模訓練數據。該方法實現了可擴展的智能體訓練後優化,在複雜交互環境中顯著提升泛化能力與指令遵循的魯棒性。
大型語言模型雖是強大的通用系統,但在解決如「人類終極考試」(HLE)這類深層複雜問題時,仍面臨概念挑戰與計算成本高昂的雙重難題。我們的研究表明,通過小型協調器管理其他模型與多樣化工具,既能突破智能上限,又能提升解決複雜代理任務的效率。本文提出ToolOrchestra——一種訓練小型協調器以統籌智能工具的方法。該方法顯式運用強化學習,融合結果導向、效率優化及用戶偏好感知的獎勵機制。基於此,我們訓練出Orchestrator模型(參數量80億),其相較過往工具調用智能體,能以更低成本實現更高準確率,並能根據用戶偏好匹配任務與工具。在HLE測試中,Orchestrator獲得37.1%的得分,超越GPT-5(35.1%)且效率提升2.5倍;在tau2-Bench與FRAMES基準上,其以僅30%的成本大幅領先GPT-5。深入分析顯示,Orchestrator在多項指標下實現性能與成本的最佳權衡,並對未見過工具展現強健泛化能力。這些成果證明,通過輕量級協調模型組合多樣化工具,相較現有方法兼具更高效率與效能,為實用可擴展的工具增強推理系統開闢了新路徑。
當前影片生成技術在單鏡頭片段上表現卓越,但在製作敘事性多鏡頭影片時仍面臨挑戰。這類影片需具備靈活的鏡頭調度、連貫的敘事邏輯,以及超越文字提示的控制能力。為解決這些難題,我們提出MultiShotMaster框架,實現高度可控的多鏡頭影片生成。我們透過整合兩種新穎的RoPE變體來擴展預訓練的單鏡頭模型:首先提出多鏡頭敘事RoPE,在鏡頭轉換時施加顯性相位偏移,既能保持時間敘事順序,又可實現靈活鏡頭編排;其次設計時空位置感知RoPE,透過引入參考標記與接地信號,實現時空錨定的參考信息注入。此外,為克服數據稀缺問題,我們建立自動化數據標註流程,可提取多鏡頭影片、描述文本、跨鏡頭接地信號及參考圖像。本框架利用內在架構特性支持多鏡頭影片生成,具備文本驅動的鏡頭間一致性、可定製主體運動控制及背景驅動的場景定製功能,鏡頭數量與時長均可靈活配置。大量實驗驗證了本框架的卓越性能與出眾可控性。
我們提出MG-Nav(記憶引導導航),這是一個專為零樣本視覺導航設計的雙尺度框架,將全域記憶引導規劃與局部幾何增強控制相結合。其核心是稀疏空間記憶圖(SMG),這是一種緊湊的區域中心記憶模型,每個節點聚合多視角關鍵幀與物件語義,既能捕捉外觀與空間結構,又能保持視角多樣性。在全域層面,智能體基於SMG進行定位,並通過圖像-實例混合檢索規劃目標條件節點路徑,生成可達路標點序列以實現長時程引航。在局部層面,導航基礎策略以點目標模式執行這些路標點,並結合障礙物感知控制;當從最終節點導航至視覺目標時,則切換至圖像目標模式。為進一步增強視角對齊與目標識別,我們引入VGGT適配器——基於預訓練VGGT模型構建的輕量幾何模組,可將觀測特徵與目標特徵對齊至共享的3D感知空間。MG-Nav以不同頻率運行全域規劃與局部控制,並通過週期性重定位修正誤差。在HM3D實例-圖像-目標與MP3D圖像-目標基準測試中的實驗表明,MG-Nav實現了最先進的零樣本性能,並在動態重佈局與未見場景條件下保持穩健性。
本文提出DualCamCtrl——一種新穎的端到端擴散模型,專注於相機控制視訊生成。儘管近期研究通過將相機姿態表示為光線條件推動了該領域發展,但這些方法往往缺乏足夠的場景理解與幾何感知能力。DualCamCtrl針對此局限性設計了雙分支架構,能同步生成相機視角一致的RGB序列與深度序列。為協調這兩種模態,我們進一步提出語義引導互斥對齊機制(SIGMA),以語義引導與互斥強化的方式實現RGB-深度融合。這些設計使DualCamCtrl能更有效解耦外觀與幾何建模,生成更精準遵循指定相機軌跡的視訊。此外,我們分析並揭示了深度與相機姿態在去噪階段的差異化影響,證實早期與晚期階段在構建全局結構與優化局部細節方面具有互補作用。大量實驗表明,DualCamCtrl可實現更一致的相機控制視訊生成,相機運動誤差較現有方法降低逾40%。專案頁面:https://soyouthinkyoucantell.github.io/dualcamctrl-page/
長期以來,AI自我演化被視為實現超智能的途徑,即模型能從自身學習經驗中自主獲取、精煉並內化知識。然而在實踐中,未經引導的自我演化系統往往會快速陷入瓶頸,甚至隨著訓練進程出現性能衰退。這些失敗源於概念漂移、多樣性崩潰與錯誤演化等問題——模型在強化自身偏差的同時,會逐漸收斂至低熵行為。為實現穩定可控的自我演化並降低對人工監督的依賴,我們提出R-Few框架:一種融合情境校準與混合訓練的輕量級引導式自我博弈挑戰者-求解器架構。在每輪迭代中,挑戰者通過少量人工標註樣本引導合成問題生成,而求解器則基於線上難度課程,對人工與合成樣本進行聯合訓練。在數學與通用推理基準測試中,R-Few實現了持續的迭代提升。例如Qwen3-8B-Base模型在數學任務上較R-Zero提升3.0分,且性能與使用20倍人工數據訓練的General-Reasoner模型持平。消融實驗驗證了基於情境校準的挑戰者訓練與課程化求解器訓練的互補效應,進一步分析表明R-Few能有效抑制概念漂移,產生更穩定可控的協同演化動態。
儘管多模態智能體系統近期取得進展,現有方法仍常將圖像操作與網絡搜索視為分立能力,過度依賴成本高昂的強化學習,且缺乏基於真實工具執行軌跡的規劃。為解決這些局限,我們推出 Skywork-R1V4——一個 300 億參數(實際激活 30 億)的多模態智能體模型,它統一整合了多模態規劃、主動圖像操作(「以圖思考」)、深度多模態搜索,以及最關鍵的交替推理機制,能動態切換視覺操作與外部知識檢索。該模型僅通過對不足 3 萬條規劃-執行一致的高質量軌跡進行監督微調訓練,並經逐步一致性過濾驗證,在感知與多模態搜索基準測試中實現突破性表現:MMSearch 得分 66.1,FVQA 得分 67.2,在全部 11 項指標上超越 Gemini 2.5 Flash。Skywork-R1V4 在推理時展現出湧現的長程推理能力,可成功協調超過 10 次工具調用以解決複雜多步驟任務。我們的成果證明,僅需精心構建的監督學習即可實現高級多模態智能體能力,無需依賴任何強化學習。
實現完全自動駕駛系統需要讓系統能在各類場景中學習理性決策,包括安全關鍵場景和分佈外場景。然而,人類專家收集的真實世界數據集中此類案例的代表性不足。為彌補數據多樣性的缺失,我們提出一種新穎且可擴展的仿真框架,能夠基於現有駕駛日誌合成大量未見狀態。我們的流程採用先進的神經渲染技術與反應式環境,通過擾動自車軌跡生成高保真度的多視角觀測數據。此外,我們針對這些新仿真狀態開發了偽專家軌跡生成機制,以提供動作監督。基於合成數據,我們發現對真實世界樣本和仿真樣本進行簡單的協同訓練策略,能顯著提升各類規劃方法在挑戰性真實基準測試中的魯棒性和泛化能力——在navhard基準上最高提升6.8 EPDMS,在navtest基準上提升2.9分。更重要的是,僅通過增加仿真數據(無需額外真實數據流),這種策略改進便能實現平滑擴展。我們進一步揭示了此類仿真-真實學習系統(命名為SimScale)的關鍵發現,包括偽專家設計機制以及不同策略架構的擴展特性。我們的仿真數據與代碼將開源發布。
大型語言模型與智能代理在程式碼生成、數學推理和科學發現領域取得了顯著進展。然而現有基準主要側重於結果正確性,忽略了解決方案背後方法的多樣性。真正的創新不僅取決於產生正確答案,更關鍵在於解決路徑的原創性。我們提出創新評測框架InnoGym,這是首個系統性評估AI代理創新潛力的基準體系。該框架引入兩項互補指標:衡量對已知最佳方案改進程度的「性能增益」,以及捕捉方法論差異的「新穎性」。該基準包含從真實工程與科學領域精選的18項任務,每項均通過資源篩選、評估驗證和解決方案收集進行標準化處理。此外,我們提供統一執行環境iGym,支持可重現的長週期評估。大量實驗表明,雖然部分代理能產生新穎方法,但其缺乏穩健性限制了性能提升。這些結果揭示了創造力與實效性之間的重要差距,凸顯了同時評估兩類指標的基準體系必要性。
擴散模型在圖像生成領域取得了顯著成功,但其部署仍受制於高昂的計算成本和繁瑣的推理步驟。先前關於少步數蒸餾的研究試圖通過訓練緊湊的學生模型來跳過冗餘步驟,但往往面臨沉重的再訓練成本與泛化能力下降的問題。本研究提出全新視角:採用智能非均勻加速策略,對早期語義階段施加較小加速比,而對後期冗餘階段實施更大加速比。我們通過配備專注於慢速與快速去噪階段的雙專家模型來實現這一階段感知策略。令人驚訝的是,無需投入大量資源重新訓練學生模型,僅需為基礎模型配備輕量級LoRA適配器即可同時實現高效加速與強泛化能力。我們將這兩種適配器命名為Slow-LoRA與Fast-LoRA。大量實驗表明,該方法在保持多樣化基準測試中可視質量的同時,可實現相較基礎模型最高5倍的加速效果。值得注意的是,LoRA專家模型僅需使用1%的樣本在單張V100顯卡上訓練一小時,所得模型對未見過的提示詞仍展現出強大的泛化能力。
儘管影片轉音頻生成技術已取得進展,該領域目前仍主要聚焦於單聲道輸出,缺乏空間沉浸感。現有的雙耳音頻生成方法受限於兩階段流程:首先生成單聲道音頻,再進行空間化處理,這種方式往往導致誤差累積和時空不一致性。為解決此局限性,我們提出了從無聲影片直接生成端到端雙耳空間音頻的新任務。為支持此任務,我們構建了BiAudio數據集,該數據集通過半自動化流程整合了約9.7萬個影片-雙耳音頻對應樣本,涵蓋多樣化的真實場景與相機旋轉軌跡。此外,我們提出ViSAudio端到端框架,採用帶有雙分支音頻生成架構的條件流匹配技術,通過兩個專用分支對音頻潛在流進行建模。該框架結合條件時空模塊,在保持獨特空間特徵的同時平衡聲道間的一致性,確保音頻與輸入影片的精準時空對位。綜合實驗表明,ViSAudio在客觀指標與主觀評估上均超越現有頂尖方法,能生成具有空間沉浸感的高質量雙耳音頻,並可有效適應視角變化、聲源移動及多樣化聲學環境。項目網站:https://kszpxxzmc.github.io/ViSAudio-project。
近期视频大语言模型的进展已展现出对短视频片段强大的理解能力。然而,由于上下文容量限制及抽象过程中关键视觉细节的丢失,将其扩展至可处理长达数小时甚至数日视频仍面临巨大挑战。现有基于记忆增强的方法通过利用视频片段的文本摘要来缓解这一问题,但这些方法过度依赖文本,在复杂场景推理时未能有效利用视觉证据。此外,基于固定时间尺度的检索机制进一步限制了其捕捉跨可变时长事件的灵活性。为此,我们提出WorldMM——一种新型多模态记忆智能体,它能构建并检索包含文本与视觉表征的多种互补记忆。WorldMM包含三类记忆:跨多时间尺度索引事实事件的片段记忆、持续更新高层概念知识的语义记忆,以及保留场景细节信息的视觉记忆。在推理过程中,自适应检索智能体会基于查询内容迭代选择最相关的记忆源,并利用多时间粒度进行检索,直至确定已收集足够信息。在五个长视频问答基准测试中,WorldMM显著超越现有基线模型,相较之前最先进方法平均提升8.4%的性能,展现了其在长视频推理任务上的卓越有效性。
视觉-语言-动作模型在机器人操控任务中展现出卓越能力,但其性能对训练时采用的动作块长度(即规划视野)极为敏感。我们的实证研究揭示了一个内在权衡:较长视野能提供更强的全局预判能力,但会削弱细粒度精度;较短视野虽能提升局部控制精度,却难以应对长期任务,这表明固定单一视野的选择具有次优性。为缓解这一矛盾,我们提出混合视野策略。该策略将动作块重组为多个不同视野的区段,通过共享动作变换器进行并行处理,并利用轻量级线性门融合输出。其优势体现在三方面:1)在单一模型内协同利用长程预判与短程精度,提升复杂任务下的性能与泛化能力;2)可即插即用地适配全注意力动作模块,几乎不增加训练或推理开销;3)支持自适应视野的动态推理,通过跨视野共识筛选稳定动作,在保持优异性能的同时实现比基线高2.5倍的吞吐量。基于流策略π₀、π₀.₅和一步回归策略π_reg的大量实验表明,混合视野策略在仿真与真实任务中均能带来显著且一致的提升。值得注意的是,在混合任务设定下,搭载混合视野的π₀.₅模型仅经3万次训练迭代即在LIBERO基准上达到99%的平均成功率,创下新纪录。项目页面:https://github.com/Timsty1/MixtureOfHorizons
低比特量化是部署大语言模型的标准方法,然而少数极端权重和激活值会拉伸动态范围,降低量化器的有效分辨率。常见的缓解策略是在量化前应用固定正交变换(如哈达玛矩阵),这通常能压缩动态范围。但此类变换忽略了数据统计特性,其最优性至今尚未得到理论阐释。本研究首次推导出闭式最优线性分块变换,适用于采用常见数值格式的标准无数据量化器的权重-激活值联合量化。具体而言,我们针对整数和浮点格式的最近舍入(RTN)及AbsMax缩放分块量化器,分别推导出最优自适应(数据感知)变换的解析解。由此构建的WUSH方案将哈达玛矩阵主干与基于二阶矩的数据依赖组件相结合,形成一种在温和假设下可证明最优的非正交变换,同时保持结构化以实现高效计算。初步实验结果表明,对于常用数值格式,我们的方法相较哈达玛变换均能实现稳定提升。
潛空間建模一直是擴散變換器(DiTs)的標準範式,但其依賴包含預訓練自編碼器的兩階段流程,這會引入有損重建問題,導致誤差累積並阻礙聯合優化。為解決這些問題,我們提出PixelDiT——一種無需自編碼器的單階段端到端模型,直接在像素空間學習擴散過程。PixelDiT採用基於雙層級設計的全變換器架構:捕捉全局語義的補丁級DiT與精修紋理細節的像素級DiT協同工作,在保持精細細節的同時實現像素空間擴散模型的高效訓練。我們的分析表明,有效的像素級令牌建模是像素擴散成功的關鍵。PixelDiT在ImageNet 256×256數據集上取得1.61的FID分數,大幅超越現有像素生成模型。我們進一步將PixelDiT擴展至文本到圖像生成任務,並在1024×1024分辨率下進行像素空間預訓練,其GenEval得分達0.74,DPG-bench得分達83.5,接近最佳潛在擴散模型性能。
近期音视频生成系统的研究表明,模态耦合不仅能提升音视频同步性,更能增强视频模态本身的表现。我们提出一个根本性问题:即使仅关注视频质量,音视频联合去噪训练是否能提升视频生成效果?为探究此问题,我们提出了参数高效的音视频全DiT架构(AVFullDiT),该架构利用预训练的文本到视频(T2V)和文本到音频(T2A)模块进行联合去噪训练。我们在相同设置下分别训练了:(i)采用AVFullDiT的T2AV模型;(ii)仅使用视频模态的对照模型。研究结果首次系统性地证明,音视频联合去噪能带来超越同步性提升的收益。在包含大幅度和物体接触运动的挑战性数据子集上,我们观察到一致的性能提升。我们推测音频预测作为一种特权信号,能促使模型内化视觉事件与其声学后果之间的因果关系(例如碰撞时机对声音的影响),从而对视频动态特性产生正则化作用。我们的发现表明,跨模态协同训练是开发更强大、更符合物理规律的世界模型的有效途径。代码与数据集将公开发布。
类比推理作为人类认知的核心,是多种智力活动的重要基础。尽管已有研究表明大语言模型能够表征任务模式和表层概念,但这些模型能否编码高层次关系概念并通过结构化比较将其应用于新情境仍不明确。在本研究中,我们通过比例类比和故事类比探索这一基本问题,并发现三个关键结论:首先,大语言模型能有效编码类比实体间的底层关系——在正确案例中,属性信息与关系信息共同在中上层传播;而推理失败则反映这些层级中关系信息的缺失。其次,与人类不同,大语言模型不仅在关系信息缺失时表现不佳,在尝试将其应用于新实体时也常遇障碍。此类情况下,在关键标记位点对隐藏表征进行策略性修补可在一定程度上促进信息传递。最后,成功的类比推理表现为类比情境间强烈的结构对齐,而失败案例往往呈现对齐退化或错位。总体而言,我们的研究揭示了大语言模型在编码和应用高层次关系概念时展现出初现但有限的能力,这既体现了与人类认知的共通之处,也凸显了现存差距。
大型语言模型(LLMs)已从文本生成工具迅速发展为强大的问题解决系统。然而,许多开放型任务需要批判性思维、多源信息整合和可验证的输出,这已超出单次提示或标准检索增强生成的能力范围。近期,大量研究开始探索深度研究(DR)范式,旨在将LLMs的推理能力与搜索引擎等外部工具相结合,使LLMs能够作为研究代理完成复杂的开放式任务。本文对深度研究系统进行了全面系统的梳理,包括清晰的发展路径、基础组件、实践技术、核心挑战与未来方向。具体而言,我们的主要贡献包括:(i)提出三阶段发展路径框架,明确区分深度研究与其他相关范式;(ii)系统介绍四大核心组件:查询规划、信息获取、记忆管理与答案生成,并为每个组件建立细粒度分类体系;(iii)总结提示工程、监督微调、智能体强化学习等优化技术;(iv)整合评估标准与开放挑战,为未来发展提供指引。随着深度研究领域的快速演进,我们将持续更新本综述以反映该领域的最新进展。
本文提出CUDA-L2系统,通过结合大语言模型(LLM)与强化学习(RL)实现半精度通用矩阵乘(HGEMM)CUDA核函数的自动优化。该系统以CUDA执行速度为RL奖励,在1,000种配置下自动优化HGEMM核函数。实验表明,CUDA-L2在多项基准测试中均优于当前主流矩阵乘法方案:从广泛使用的{\it torch.matmul}到英伟达最新的闭源库(如{\it cuBLAS}和{\it cuBLASLt})。在离线模式下(核函数连续无间隔执行),CUDA-L2相较{\it torch.matmul}平均提升22.0%;在最优布局配置(正常-正常NN与转置-正常TN)下较{\it cuBLAS}提升19.2%;较基于启发式算法选择的{\it cuBLASLt-heuristic}提升16.8%;较从{\it cuBLASLt}提供的百个候选算法中择优的{\it cuBLASLt-AutoTuning}模型提升11.4%。在模拟实时推理的随机间隔执行服务器模式下,加速效果进一步提升:相较{\it torch.matmul}、{\it cuBLAS}、{\it cuBLASLt-heuristic}和{\it cuBLASLt-AutoTuning}分别达到28.7%、26.0%、22.4%和15.9%的加速比。CUDA-L2证明即使对于HGEMM这类经过深度优化的性能关键型核函数,通过LLM引导的RL自动化技术对配置空间进行超大规模探索(其规模远超人工调优能力),仍能实现性能突破。项目代码详见github.com/deepreinforce-ai/CUDA-L2。
基於流匹配训练的视觉-语言-动作模型在机器人操作任务中展现出卓越能力,但其性能在分布偏移和复杂多步任务下常出现退化,表明所学表征可能未能稳健捕捉任务相关语义。我们提出DiG-Flow——一种通过几何正则化增强VLA鲁棒性的原理性框架。核心洞见在于:观测与动作嵌入间的分布差异可提供几何信号——较低传输代价表征兼容性,而较高代价暗示潜在错位。DiG-Flow计算观测与动作嵌入经验分布间的差异度量,通过单调函数将其映射为调制权重,并在流匹配前对观测嵌入施加残差更新。关键在于,此干预作用于表征层面,无需修改流匹配路径或目标向量场。我们给出理论保证:差异引导的训练可证明降低训练目标,且引导推理优化具有收缩收敛性。实验表明,DiG-Flow能以可忽略的开销嵌入现有VLA架构,持续提升性能,尤其在复杂多步任务和有限训练数据场景下增益显著。
近期视频生成技术的进展使得合成视频具备强时序一致性与惊艳的视觉质量,这标志着向视觉基础模型迈出了关键一步。为评估此类视频生成模型,现有基准主要关注视觉感知与理解相关要素,如视觉美感、指令遵循度和时序连贯性。然而视频生成模型的规则推理能力仍属未充分探索的领域。尽管近期研究对视频模型能否作为零样本学习者进行了初步探索,但仍缺乏对推理能力的细粒度解构与系统化评估方案。为此,我们推出RULER-Bench基准,从认知规则视角评估视频生成模型的推理能力。该基准基于文本到视频和图像到视频两大基础范式,涵盖6大规则类别下的40项代表性任务,包含622个高质量标注实例。针对每个生成视频的评估,我们构建了覆盖四项指标的检查表,并利用GPT-3对每个问题自动评分,其与人工评判的一致性达85%。大规模实验表明,当前最先进模型在规则一致性指标上仅达到48.87%,凸显了新一代视频模型在推理能力方面存在巨大提升空间。我们期待通过RULER-Bench获得的洞见能推动具备推理意识的视频生成技术发展,促使视频生成模型向视觉基础智能迈进。
表格识别(TR)的核心任务是将表格图像转换为HTML或Markdown等半结构化表示。作为文档解析的关键组件,该领域长期依赖监督学习,近期研究主要集中在基于标注数据对视觉语言模型(VLM)进行微调。虽然VLM已将表格识别性能提升至新高度,但进一步突破需要成本高昂的大规模标注数据。这导致尽管专有模型不断刷新性能纪录,受资源限制且因隐私法规成为多数用户唯一可行选择的开源模型仍存在明显差距。为弥补这一鸿沟,我们提出TRivia——一种基于自监督的微调方法,使预训练VLM能直接从无标注的真实场景表格图像中学习表格识别技术。该方法基于群体相对策略优化框架,可自动识别最能促进学习的无标注样本,并通过问答式奖励机制消除对人工标注的依赖。注意力引导模块为每个表格图像生成多样化问题,而模型通过正确解读识别结果并回答问题来获得优化反馈。这种闭环流程使TR模型能够无监督地自主学习表格的识别、结构化与推理能力。基于此 pipeline,我们推出TRivia-3B模型:一个开源、轻量且达到最先进水平的表格识别系统,在三大主流基准测试中超越现有系统(如Gemini 2.5 Pro、MinerU2.5)。模型与代码已发布于:https://github.com/opendatalab/TRivia
我们提出MagicQuill V2这一创新系统,通过引入分层组合范式到生成式图像编辑领域,成功弥合了扩散模型语义生成能力与传统图形软件精细化控制之间的鸿沟。尽管扩散变换器在整体生成方面表现出色,但其使用的单一整体式提示词无法区分用户对内容、位置和外观的不同创作意图。为此,我们的方法将创作意图解构为可控视觉线索堆栈:内容层定义生成对象,空间层确定布局位置,结构层控制形态特征,色彩层掌管配色方案。技术贡献包括:面向上下文感知内容整合的专用数据生成流程、处理所有视觉线索的统一控制模块,以及支持精确局部编辑(含对象移除)的微调空间分支。大量实验证明,这种分层方法能有效解决用户意图偏差问题,赋予创作者对生成过程的直接直观控制能力。
我们研究了不同思维链设计如何影响视觉语言模型获取可泛化的视觉推理能力。尽管思维链数据(尤其是长链或视觉化思维链如"图像思维")已被广泛用于监督中间推理过程,但其具体设计为何有效、何种设计能真正支持可泛化推理仍不明确。为系统评估这一问题,我们采用受控的迷宫求解基准测试:该场景的推理规则完全基于视觉,难度可通过网格尺寸调节,且所有中间步骤均可自动生成。基于Qwen2.5-VL-7B模型的标准SFT后RL训练流程,我们比较了三种代表性思维链格式:语言思维链、定位思维链(含空间坐标轨迹)和视觉思维链(含图像操作)。实验表明:视觉化/长链思维链主要加速收敛但未提升最终性能上限;仅含必要定位步骤的简洁思维链优于长链轨迹;尤为重要的是,仅保留最简定位结果的思维链在不同迷宫尺寸间泛化能力最佳。我们进一步在其他视觉中心任务上验证了这些发现。这些结果揭示了"少即是多"效应,为构建更具泛化能力的视觉推理SFT数据集提供了实践指导。
物理人工智能旨在开发能够感知和预测现实世界动态的模型,然而当前多模态大语言模型与视频生成模型对这些能力的支持程度尚未得到充分认知。我们推出PAI-Bench基准测试框架,这一统一且全面的评估体系通过2,808个真实场景案例,采用任务导向的度量标准来检验物理合理性和领域特定推理能力,涵盖视频生成、条件视频生成及视频理解三大任务的感知与预测能力评估。研究对前沿模型开展系统性评估表明:视频生成模型虽具备出色的视觉保真度,却常难以保持物理连贯的动态表现;而多模态大语言模型在动态预测与因果推断方面存在明显局限。这些发现揭示现有系统尚处于满足物理智能感知与预测需求的初级阶段。总体而言,PAI-Bench为评估物理智能建立了现实基础,并指明了未来系统亟需突破的关键技术瓶颈。
我們探討僅憑視覺數據,視頻生成模型能否展現人類認知核心能力——視覺空間智能。為此,我們提出Video4Spatial框架,證明僅以視頻場景上下文為條件的視頻擴散模型可執行複雜空間任務。我們在兩項任務上進行驗證:場景導航(遵循相機位姿指令同時保持與場景3D幾何一致性)和物體定位(需兼具語義定位、指令遵循與路徑規劃能力)。兩項任務均僅使用視頻輸入,無需深度信息或位姿等輔助模態。通過框架設計與數據構建的簡潔有效方案,Video4Spatial展現出從視頻上下文中獲取的強大空間理解能力:能端到端規劃導航路徑並定位目標物體,在遵循相機位姿指令的同時保持空間一致性,並能泛化至長時序上下文與域外環境。這些成果共同推動視頻生成模型向通用視覺空間推理邁進。
虽然基于大语言模型/视觉语言模型的智能体在数学、编程和计算机操作领域发展迅猛,但其在复杂物理环境与社会场景中的应用仍面临挑战。要构建能在现实世界中生存发展(例如通过自主创收或经营企业)的智能体,需要在大规模具身场景中进行海量交互、推理、训练与评估。然而现有世界模拟器存在明显局限:往往依赖有限的手工构建环境,模拟简化的游戏式物理规则与社会逻辑,且缺乏对大语言模型/视觉语言模型智能体的原生支持。我们推出基于虚幻引擎5构建的新型模拟器SimWorld,专为在丰富逼真的拟真环境中开发与评估大语言模型/视觉语言模型智能体而设计。该平台具备三大核心功能:(1)逼真的开放式世界模拟,包括精确的物理社会动态及语言驱动的程序化环境生成;(2)面向智能体的丰富交互接口,支持多模态世界信息输入与多层级开放词汇动作;(3)可灵活定制的多样化物理社会推理场景。我们通过部署前沿大语言模型智能体(如GPT-4o、Gemini-2.5-Flash、Claude-3.5和DeepSeek-Prover-V2)在需战略协作与竞争的长周期多智能体配送任务中验证系统性能,结果揭示了不同模型独特的推理模式与局限。SimWorld已开源,期待其成为推动跨学科现实世界智能体研究的基础平台:https://simworld.org。
基于预训练视觉语言模型构建的视觉-语言-动作模型虽展现出强大潜力,但因参数量庞大导致实用性受限。为缓解此问题,现有研究尝试采用轻量化视觉语言模型,但会牺牲时空推理能力。尽管部分方法指出引入额外3D输入可改善此问题,但这些方案通常依赖大型视觉语言模型来融合3D与2D输入,且仍缺乏时序理解能力。为此,我们提出SwiftVLA架构,在保持设计效率的同时为紧凑模型赋予四维空间理解能力。具体而言,我们的方法采用带有时序缓存的预训练四维视觉几何变换器,可从二维图像中提取四维特征。为增强视觉语言模型协同利用二维图像与四维特征的能力,我们引入融合标记——一组通过未来预测目标训练的可学习标记,用于生成动作规划的统一表征。最后,我们提出掩码重建策略:通过掩码输入视觉语言模型的四维数据并训练模型进行重建,使视觉语言模型能学习有效的四维表征,进而在推理阶段可移除四维分支且仅造成最小性能损失。真实环境与模拟实验表明,SwiftVLA不仅优于轻量级基线模型,更可媲美参数量达其7倍的大型视觉-语言-动作模型,在边缘设备上实现相当性能的同时,推理速度提升18倍且内存占用减少12倍。
尽管音频驱动虚拟人视频生成的扩散模型在合成长序列时已实现自然音画同步与身份一致性的显著进展,但包含摄像机运动的音乐表演视频生成领域仍鲜有探索。我们提出YingVideo-MV——首个面向音乐驱动长视频生成的级联框架。该方法融合音频语义解析、可解释镜头规划模块(MV-Director)、时序感知扩散Transformer架构以及长序列一致性建模,实现了从音频信号自动合成高质量音乐表演视频。通过采集网络数据构建的大规模野外音乐数据集,为生成多样化高质量结果提供支撑。针对现有长视频生成方法缺乏显式摄像机运动控制的问题,我们引入摄像机适配器模块将摄像机位姿嵌入潜空间噪声。为增强长序列推理中片段间的连续性,进一步提出时序感知动态窗口范围策略,基于音频嵌入自适应调整去噪范围。综合基准测试表明,YingVideo-MV在生成连贯富有表现力的音乐视频方面表现卓越,并能实现精准的音乐-动作-摄像机同步。更多视频请访问项目页面:https://giantailab.github.io/YingVideo-MV/
我们推出Ovis-Image——一款专门针对高质量文本渲染优化的70亿参数文生图模型,其设计可在严格算力限制下高效运行。该模型基于我们此前开发的Ovis-U1框架,将基于扩散机制的视觉解码器与更强大的Ovis 2.5多模态主干网络相结合,采用以文本为中心的训练流程,融合了大规模预训练与精心设计的训练后优化。尽管采用紧凑架构,Ovis-Image的文本渲染性能仍可媲美Qwen-Image等规模更大的开源模型,并接近Seedream、GPT4o等闭源系统。关键优势在于,该模型仅需单张高端GPU与适中显存即可部署,显著缩小了前沿文本渲染技术与实际应用之间的差距。实验结果表明,通过将强大多模态主干网络与精心设计的文本导向训练方案相结合,无需依赖超大模型或专有系统即可实现可靠的双语文本渲染。
生成分钟级视频是发展世界模型的关键一步,能为构建逼真长场景和高级AI模拟器奠定基础。新兴的半自回归(块扩散)范式融合了扩散模型与自回归模型的优势,通过KV缓存和并行采样实现任意长度视频生成并提升推理效率。然而该方法仍面临两大挑战:(i)KV缓存引发的长序列误差累积;(ii)缺乏细粒度长视频基准与连贯性评估指标。为突破这些局限,我们提出BlockVid——一种配备语义感知稀疏KV缓存的新型块扩散框架,结合名为"块强制"的有效训练策略,以及专有的分块噪声调度与乱序处理机制,以降低误差传播并增强时序一致性。我们进一步推出LV-Bench这一针对分钟级视频的细粒度基准数据集,配套评估长程连贯性的新指标。在VBench和LV-Bench上的大量实验表明,BlockVid在生成高质量、高连贯性分钟级视频方面持续超越现有方法。特别在LV-Bench评测中,相较最优基线方法,其VDE主体指标提升22.2%,VDE清晰度指标提升19.4%。项目官网:https://ziplab.co/BlockVid。代码库:https://github.com/alibaba-damo-academy/Inferix。
如今人们能够轻松使用多种消费级相机记录音乐会、体育赛事、讲座、家庭聚会和生日派对等难忘时刻。然而,跨相机视频流的同步始终是技术难点。现有方法通常依赖于受控环境、特定目标、人工校正或昂贵硬件。我们提出VisualSync——一种基于多视角动态学的优化框架,能以毫秒级精度对齐无固定机位、未同步的视频。我们的核心发现是:任何在双视角中可见的移动三维点,在正确同步后都应满足极几何约束。为此,VisualSync利用现成的三维重建、特征匹配与密集追踪技术来提取运动轨迹、相对位姿和跨视角对应关系,继而通过联合最小化极线误差来估算各相机的时间偏移。在四个多样化高难度数据集上的实验表明,VisualSync优于基线方法,实现了中位数同步误差低于50毫秒的精度。
基於多視角圖像的3維重建是計算機視覺領域的核心挑戰。近年來,前饋式方法已成為傳統逐場景優化技術的高效魯棒替代方案。其中,視覺幾何接地變換器(VGGT)等先進模型通過對所有圖像標記進行全自注意力計算來捕捉全局關係。然而,由於自注意力機制的二次方複雜度以及長圖像序列產生的大量標記,該方法存在可擴展性不足的問題。本文提出FlashVGGT,通過基於描述符的注意力機制有效解決這一瓶頸。該方法不再對所有標記施加密集的全局注意力,而是將每幀圖像的空間信息壓縮為緊湊的描述符標記集合,隨後通過完整圖像標記集與小型描述符集之間的交叉注意力實現全局關係計算,顯著降低了計算開銷。此外,描述符的緊湊性支持採用分塊遞歸機制實現長序列在線推理,可復用歷史分塊的緩存描述符。實驗結果表明:FlashVGGT在重建精度上與VGGT相當,但對於1000張圖像的推理時間僅需VGGT的9.3%,並能有效擴展至超過3000張圖像的長序列處理。項目頁面詳見:https://wzpscott.github.io/flashvggt_page/。
自回归语言模型与扩散语言模型构成大语言模型的两大主流范式,但二者均存在推理能力不足的缺陷。人类推理本质上依赖于因果知识与思维,这种特性在自然语言中得以体现。然而在自回归范式下,语言被建模为下一词元预测(严格遵循从左到右的词元级顺序),而自然语言本身却呈现更灵活的因果结构;在扩散范式下,注意力机制采用全连接方式,完全忽略了因果顺序。为弥补这一空白,我们提出\textbf{因}果\textbf{概}念引导的\textbf{扩}散\textbf{语}言\textbf{模}型(C^2DLM)。该模型从扩散语言模型的全连接注意力机制出发,首先从教师模型获取概念级因果图,进而显式引导注意力学习概念间的因果关系。通过聚焦因果关系并规避因果逆推等复杂子目标的干扰,C^2DLM在COT-OrderPerturb任务中实现12%的性能提升及约3.2倍训练加速,并在六项下游推理任务中平均增益达1.31%。更多细节详见代码库~https://github.com/Kairong-Han/C-2-DLM{此处}。
掩码扩散语言模型(MDLMs)近期作为自回归语言模型(ARLMs)的替代方案崭露头角,其采用的去噪目标在理论上应能实现更均衡的上下文利用。本研究深入探究了MDLMs的上下文理解能力,并揭示了两大关键局限:首先,尽管具备更全局的训练目标和双向注意力机制,MDLMs与ARLMs类似地表现出强烈的局部性偏好——模型性能对输入中关键信息的位置高度敏感,倾向于依赖局部上下文而非远距离语境;其次,我们发现生成所需的大量掩码标记会显著削弱模型的上下文理解能力。通过系统性消融实验,这些掩码被证实会作为干扰项降低模型处理关键信息的能力。为此,我们提出了一种掩码无关的损失函数,使模型预测不受附加掩码数量的影响。基于该目标的微调有效缓解了掩码的干扰效应,显著提升了MDLMs的鲁棒性。总体而言,我们的研究揭示了当前MDLM训练范式的关键缺陷,并为构建具有更强上下文理解能力的扩散式语言模型提供了可行路径。
近年來,具備行動能力的視覺語言模型逐漸通過調用圖像操作來實現「以圖像思考」。然而我們發現,最終答案的高準確率往往掩蓋了視覺推理的不忠實性:模型可能對無關區域調用工具,或完全忽略工具輸出,卻仍能猜出正確答案。本研究首先提出忠實性評估方案,通過檢驗中間視覺工具輸出(如圖像裁剪區域)是否實際包含查詢證據來量化這一問題。分析表明,儘管當前視覺智能體在視覺搜索基準測試中取得高最終準確率,但其工具使用的忠實度普遍偏低。為此我們推出CodeV——基於代碼的視覺智能體,採用工具感知策略優化(TAPO)進行訓練。TAPO是一種進程級強化學習框架,在GRPO基礎上引入直接作用於視覺工具輸入輸出的密集獎勵信號(而非思維鏈標記),使監督更易驗證且能有效規避獎勵破解。CodeV將視覺工具具象化為可執行Python代碼,TAPO則僅根據問題與工具輸出分配逐步獎勵,從而促進必要且符合證據的工具使用。在兩階段SFT+RL訓練框架下,CodeV在相關視覺搜索基準上不僅實現了競爭力強的最終準確率,更顯著提升工具使用忠實度。此外,CodeV在多模態推理與數學基準測試中亦表現優異,證明對中間工具行為的顯式監督對於構建可信賴的主動式視覺推理系統具有關鍵意義。
欧几里得几何的自动定理证明,特别是针对国际数学奥林匹克竞赛(IMO)级别的问题,仍然是人工智能领域的重大挑战和重要研究方向。本文提出一种完全在CPU上运行、不依赖神经网络推理的高效几何定理证明方法。我们的初步研究表明,简单的随机添加辅助点策略即可在IMO问题上达到银牌级别的人类表现。基于此,我们提出HAGeo——一种基于启发式规则的几何演绎辅助构造方法,该方法在IMO-30基准测试中成功解决30道题中的28道,达到金牌级别表现,并以显著优势超越基于神经网络的竞争方法AlphaGeometry。为更全面评估本方法及现有技术,我们进一步构建了HAGeo-409基准数据集,包含409道经人工评估难度等级的几何问题。与广泛使用的IMO-30相比,该基准提出了更大挑战,能提供更精确的评估,为几何定理证明领域设立了更高标准。
视频生成的下一个前沿在于开发具备零样本推理能力的模型,这类模型需要理解现实世界的科学定律,才能准确模拟不同条件下的物理结果。然而现有视频基准大多基于物理常识,难以深入评估模型的科学推理能力。我们推出VideoScience-Bench基准测试,专门评估视频模型对本科层次科学原理的理解能力。每个提示词都包含复合科学场景,要求模型理解并综合运用多个科学概念才能生成正确现象。该基准涵盖物理和化学领域的14个主题、103个概念,共包含200个精心设计的提示词。我们针对七种前沿视频模型(涵盖文生视频和图生视频场景)进行了专家标注评估,从提示一致性、现象符合度、动态正确性、属性恒常性和时空连续性五个维度展开。通过采用视觉语言模型作为评判器对生成视频进行评估,我们发现其与人工评估结果呈现强相关性。据我们所知,VideoScience-Bench是首个将视频模型不仅视为生成器、更作为推理器进行评估的基准,要求生成内容展现出符合预期理化现象的科学理解能力。我们的数据与评估代码已开源:https://github.com/hao-ai-lab/VideoScience。
人像影片編輯是一項極具挑戰性的任務,需要對外觀調整、表情修改或物件添加等多種編輯操作進行靈活而精準的控制。其核心難點在於保持主體原有的時間動態特徵,要求每個編輯後的影格都能與原始影格實現精確同步。本文提出Sync-LoRA方法,通過基於圖像到影片的擴散模型實現高質量視覺修改,同時確保影格級同步精度與身份一致性。該方法首先對首影格進行編輯定義,隨後將修改傳播至整個序列。為實現精確同步,我們採用描繪相同運動軌跡但外觀差異的配對影片,通過同步化過濾流程自動生成並篩選出時序對齊度最高的訓練樣本,據此訓練上下文自適應的LoRA模型。這種訓練機制使模型能融合源影片的運動特徵與編輯首影格的視覺變化。在經過嚴格篩選的同步人像數據集上訓練後,Sync-LoRA可泛化至未見過的身份與多樣化編輯任務(如外觀修改、物件添加或背景替換),並能穩健處理姿態與表情的變化。實驗結果顯示,該方法在保持編輯保真度與精確運動特徵之間達到優異平衡,呈現出高視覺真實度與強時序連貫性。
随着GPT-4o、Nano Banana及Seedream 4.0等强大多模态模型在图像编辑领域的快速发展,闭源与开源模型之间的性能差距正在扩大,这主要源于大规模高质量训练数据的稀缺性,以及缺乏能够诊断多样化编辑行为中模型弱点的综合性基准测试。现有数据构建方法面临规模与质量的权衡:人工标注质量高但难以规模化,而自动化流程则存在错误传播和噪声问题。为此,我们提出一种轻量级数据流水线,通过端到端模型和统一的后验阶段取代多工具链流程。为实现可扩展的质量控制,我们训练了一个70亿参数的双任务专家模型Qwen-Verify,用于高效执行错误检测和指令重描述。该流水线最终产出UnicEdit-10M——一个涵盖多样化基础与复杂编辑任务的千万级数据集。我们还提出通用基准测试UnicBench,其突破基础编辑范畴,显式评估空间与知识驱动的推理能力。为实现细粒度诊断,我们引入了非编辑区域一致性、推理准确度等新颖指标。基于UnicBench对主流模型的分析揭示了其局限性,为未来研究指明了清晰方向。
随着大视觉语言模型的快速发展,图形用户界面智能体任务的研究重点已从单屏幕任务转向复杂的屏幕导航挑战。然而现实中的图形用户界面环境(如电脑软件和移动应用)往往具有复杂性和专有性,难以获取智能体训练与评估所需的完整环境信息,这一局限阻碍了对智能体导航能力的系统性研究和基准测试。为此,我们推出图形用户界面探索实验室——一个专为图形用户界面智能体导航研究设计的模拟环境引擎,该引擎支持灵活定义和组合屏幕、图标及导航图谱,同时提供完整的环境信息访问权限,以实现全面的智能体训练与评估。通过大量实验发现,监督微调能够有效记忆基础知识,为后续训练奠定关键基础。在此基础上,单轮强化学习可进一步增强对未见过场景的泛化能力。最终,通过多轮强化学习中的交互试错过程,智能体可自主探索策略,从而实现屏幕导航性能的持续提升。我们在静态和交互式基准测试中验证了该方法,证明其能有效泛化至实际应用场景。这些发现彰显了强化学习方法在图形用户界面导航中的优势,并为构建更具能力与泛化性的图形用户界面智能体提供了实践指导。
大型多模态模型在理解与生成任务上均取得了显著进展。近期研究致力于构建统一的多模态模型,通过集成异构组件在单一框架内同时支持这两种能力。然而这种统一性会带来推理效率问题,例如特定任务或样本可能无需调用统一模型的全部知识或容量。但目前对于这些效率问题在不同组件中的具体表现仍缺乏系统性认知。本研究首次采用免训练剪枝作为探测方法,从深度剪枝和宽度缩减两个维度对统一多模态模型组件进行系统性分析。研究发现:理解组件在理解与生成任务中均表现出显著的可压缩性,且在生成任务中更为明显;而生成组件对压缩高度敏感,即使中等压缩比也会导致性能急剧下降。针对这一局限,我们受不同样本间动态激活模式的启发,提出了混合专家适配方法。该方法将生成模块划分为多个专家,通过稀疏激活来恢复生成质量。我们通过专家冻结调优验证了稀疏激活的有效性,并进一步证明完全可训练的适配能带来额外增益。最终,改进后的BAGEL模型仅激活约半数参数即可达到与完整模型相当的性能。代码已发布于https://github.com/Shwai-He/SparseUnifiedModel{此链接}。
近期,视觉感知策略的强化学习框架开始引入自然语言表达的中间推理链。实证研究表明,这种纯语言形式的中间推理往往会降低感知任务的表现。我们认为核心问题不在于推理本身而在于推理形式:现有方法在非结构化的语言空间进行语义推理,而视觉感知需要在空间化、以物体为中心的领域进行推理。为此,我们提出Artemis感知策略学习框架,其采用基于候选框的结构化推理机制——每个中间步骤以(标签,边界框)对的形式呈现,可对应可验证的视觉状态。该设计实现了中间状态的显式追踪、对候选框质量的直接监督,并规避了语言推理引入的歧义性。基于Qwen2.5-VL-3B构建的Artemis在定位与检测任务中表现优异,并在计数与几何感知任务上展现出强大泛化能力。这些多样化场景下的持续改进证实了空间表征对齐推理能增强感知策略学习。得益于强化的视觉推理能力,Artemis在通用多模态大模型基准测试中也展现出竞争力,表明基于空间锚定的推理为构建可扩展、通用型感知策略提供了原理性路径。
教育全球化與線上學習的快速發展,使教育內容在地化成為關鍵挑戰。講座教材本質上屬於多模態形式,結合了口語音頻與視覺投影片,這要求系統具備處理多種輸入模態的能力。為提供無障礙且完整的學習體驗,翻譯必須保留所有模態:可閱讀的文本、輔助視覺理解的投影片,以及聽覺學習所需的語音。我們提出BOOM——一款多模態多語言講座輔助系統,能同步翻譯講座音頻與投影片,生成三種模態的協同輸出:翻譯文本、保留視覺元素的本地化投影片,以及合成語音。此端到端方法使學生能以母語獲取講座內容,同時力求完整保留原始內容。實驗表明,具備投影片感知的轉錄文本還能為摘要生成和問答等下遊任務帶來連鎖效益。我們已發布投影片翻譯代碼於https://github.com/saikoneru/image-translator,並將其整合至講座翻譯系統Lecture Translator中(https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline)\footnote{所有發布代碼與模型均採用MIT許可證授權。}
当前最先进的视频场景图生成系统虽能提供结构化视觉理解,但其封闭的前馈式流程无法融入人工引导。而如SAM2等可提示分割模型虽支持精准用户交互,却缺乏语义或关系推理能力。我们提出Click2Graph——首个面向全景视频场景图生成(PVSG)的交互式框架,将视觉提示与空间、时间和语义理解相融合。该系统仅需用户一次点击或框选等简单提示,即可实现跨时间的目标主体分割与追踪,自主发现交互对象,并预测<主体,客体,谓词>三元组以构建时序一致的场景图。该框架包含两大核心组件:生成主体条件化对象提示的动态交互发现模块,以及执行联合实体与谓词推理的语义分类头。在OpenPVSG基准测试上的实验表明,Click2Graph为用户引导式PVSG奠定了坚实基础,揭示了如何通过人类提示与全景定位及关系推理的结合,实现可控可解释的视频场景理解。