每日精選AI研究論文及翻譯
近期大型多模態生成模型的突破,在多模態生成(包括圖像與影片生成)領域展現出卓越能力。這類模型通常基於擴散模型與流匹配等多步驟框架構建,其固有機制限制了推理效率(需40-100次函數評估)。雖然現有多種少步數方法試圖加速推理,但現有方案存在明顯局限:主流的基於蒸餾的方法(如漸進式蒸餾與一致性蒸餾)需迭代蒸餾流程,或在極少步數(<4步)下出現明顯性能衰退;而將對抗訓練融入蒸餾的方法(如DMD/DMD2與SANA-Sprint)雖能提升性能,卻因需訓練輔助模型導致訓練不穩定、複雜度增加及GPU記憶體開銷龐大。為此,我們提出TwinFlow——一種簡潔有效的單步生成模型訓練框架,無需依賴預訓練的固定教師模型,並在訓練過程中避免使用標準對抗網絡,特別適合構建大規模高效模型。在文字生成圖像任務中,本方法以單步推理達成0.83的GenEval分數,優於SANA-Sprint(基於GAN損失的框架)與RCGM(基於一致性的框架)等強基線。值得注意的是,我們通過對Qwen-Image-20B進行全參數訓練驗證了TwinFlow的可擴展性,將其轉化為高效少步生成器。僅需單步推理,本方法在GenEval與DPG-Bench基準上即可匹配原始100步模型的性能,在品質損失微乎其微的前提下將計算成本降低百倍。項目頁面請見:https://zhenglin-cheng.com/twinflow。
基於指令的圖像編輯已成為一個重要的研究領域,該領域受益於圖像生成基礎模型,已實現高水準的美學品質,使得指令跟隨能力成為當前主要挑戰。現有方法通過監督學習或強化學習提升指令遵循度,但由於內在隨機性與缺乏審議過程,單輪編輯成功率仍有限制。本研究提出一種審議式編輯框架,使模型在編輯過程中進行「思考」,通過迭代執行「邊編輯邊思考」循環來模擬人類認知迴路:對結果進行批判評分並精煉指令,隨後重複生成直至滿意。具體而言,我們訓練單一多模態大語言模型EditThinker作為框架的推理引擎,聯合生成批判分數、推理過程和優化指令。我們採用強化學習將EditThinker的思考過程與編輯行為對齊,從而產生更具針對性的指令改進。在四個基準測試上的大量實驗表明,我們的方法能顯著提升各類圖像編輯模型的指令跟隨能力。我們將公開數據構建框架、數據集和模型,以促進相關領域發展。
強化學習已成為大型語言模型後訓練的重要範式,能有效提升其推理能力。此類方法會為每個樣本計算優勢值,反映其表現優於或劣於預期的程度,從而產生正負雙向的訓練信號。然而現有方法從訓練早期便無差別混合正負信號,可能導致指導方向模糊與收益受限。為解決此問題,我們提出**CAPO**(課程優勢策略優化),一種基於優勢信號的自適應課程機制。該機制首先通過僅含正向優勢的樣本進行模仿學習來奠定堅實基礎,隨後引入負向信號以培養判別能力,從而提升模型在複雜場景中的泛化性能。本方法兼容GRPO、PPO、RLOO、Reinforce++等多種優化算法,在數學推理任務中持續取得穩定且顯著的提升,並能有效泛化至多模態圖形用戶界面(GUI)推理場景,展現其作為通用魯棒優化框架的優勢。
一致影像生成需要跨越多張影像忠實保留身分特徵、風格元素與邏輯連貫性,這對於故事敘事和角色設計等應用至關重要。監督式訓練方法因缺乏大規模視覺一致性數據集,且難以建模人類感知偏好而面臨挑戰。本文提出強化學習(RL)可透過數據無關的方式學習複雜主觀的視覺標準,為此任務提供極具潛力的替代方案。為實現此目標,我們提出PaCo-RL——一個融合專用一致性獎勵模型與高效RL演算法的完整框架。其中首個組件PaCo-Reward是基於自動化子圖配對構建的大規模數據集訓練的配對一致性評估器,透過生成式自迴歸評分機制並結合任務感知指令與思維鏈推理來評估一致性。第二組件PaCo-GRPO採用創新的解析度解耦優化策略大幅降低RL成本,同時透過對數調控的多獎勵聚合機制確保平衡穩定的獎勵優化。在兩項代表性子任務上的大量實驗表明:PaCo-Reward顯著提升了與人類視覺一致性感知的吻合度,而PaCo-GRPO以更優的訓練效率與穩定性實現了頂尖的一致性表現。這些成果共同印證PaCo-RL作為實用可擴展的一致影像生成解決方案的潛力。項目頁面請見:https://x-gengroup.github.io/HomePage_PaCo-RL/。
我們提出EMMA——一種高效統一的架構,專注於多模態理解、生成與編輯任務。具體而言,EMMA的核心設計包含四大要素:1)採用具備32倍壓縮率的高效自編碼器,大幅減少生成任務所需的標記數量,並通過對圖像施加相同壓縮比確保理解與生成任務的訓練平衡;2)在視覺理解與生成標記間採用通道維度拼接替代標記維度拼接,進一步降低統一架構中的視覺標記數量;3)設計共享解耦網絡,在滿足任務特定建模需求的同時實現跨任務協同優化;4)在視覺理解編碼器中引入專家混合機制,以極少的參數增長顯著提升感知能力。大量實驗表明,EMMA-4B在效率與性能上均顯著超越現有統一多模態方法(如BAGEL-7B),同時在與前沿專用多模態理解生成模型(如Qwen3-VL與Qwen-Image)的比較中展現競爭力。我們相信EMMA為未來統一多模態架構的發展奠定了堅實基礎。
儘管近期取得進展,實現符合工作室級製作標準的角色動畫仍具挑戰性。現有方法能將驅動影片中的動作遷移至參考圖像,但在涉及複雜運動與跨身份動畫的開放場景中,往往難以保持結構保真度與時間一致性。本研究提出SCAIL(基於情境學習的工作室級角色動畫框架),通過兩項關鍵創新應對這些挑戰:首先,我們提出新型3D姿勢表徵法,提供更魯棒且靈活的運動信號;其次,在擴散-轉換器架構中引入全情境姿勢注入機制,實現對完整運動序列的有效時空推理。為契合工作室級需求,我們開發了兼具多樣性與質量的精選數據流水線,並建立系統性評估的綜合基準。實驗表明,SCAIL實現了最先進的性能,將角色動畫向工作室級的可靠性與真實性推進。
大型語言模型的後訓練依賴強化學習來提升模型能力與對齊品質。然而,離策略的訓練模式會引發分佈偏移,往往使策略超出信任區域,導致訓練不穩定,表現為策略熵值的波動與梯度不穩定。儘管PPO-Clip透過重要性剪裁緩解了此問題,但仍未考慮動作的全局分佈偏移。為解決這些挑戰,我們提出以當前策略與先前策略的熵值比作為新全局指標,有效量化策略探索在更新過程中的相對變化。基於此指標,我們引入熵比剪裁機制,對熵比施加雙向約束。這能在全局分佈層面穩定策略更新,並彌補PPO-clip無法調節未採樣動作概率偏移的缺陷。我們將ERC整合至DAPO與GPPO強化學習演算法中,在多個基準測試中的實驗表明ERC能持續提升效能。
從單張靜態影像生成互動式動態四維場景仍是核心挑戰。現有多數「先生成後重建」與「先重建後生成」方法將幾何與運動解耦,導致時空不一致性與泛化能力不足。為解決這些問題,我們擴展「先重建後生成」框架,提出聯合執行運動生成與幾何重建的四維合成方法(MoRe4D)。我們首先構建TrajScene-60K數據集——包含6萬個具密集點軌跡的影片樣本,以緩解高質量四維場景數據稀缺問題。基於此,我們提出基於擴散模型的四維場景軌跡生成器(4D-STraG),能聯合生成幾何一致且運動合理的四維點軌跡。為利用單視圖先驗,我們設計深度引導的運動歸一化策略與運動感知模塊,實現有效的幾何與動態整合。隨後提出四維視圖合成模塊(4D-ViSM),可從四維點軌跡表徵渲染任意相機軌跡的影片。實驗表明,MoRe4D能從單張影像生成具多視圖一致性與豐富動態細節的高質量四維場景。代碼已開源於:https://github.com/Zhangyr2022/MoRe4D。
隨著影像生成技術的不斷進步,GPT-Image-1和Qwen-Image等先進模型已在文本-影像一致性與世界知識表現方面取得顯著成果。然而,這些模型在生成逼真影像方面仍存在不足,即使在簡單的文生圖任務中,也常產生帶有明顯人工智慧痕跡的「虛假」影像,其特徵通常表現為「過度光滑的皮膚」和「油膩的面部光澤」。為重拾「以假亂真」的生成初衷,我們提出RealGen——一個專注於逼真度的文本至影像生成框架。該框架整合了用於提示詞優化的LLM組件與實現真實影像生成的擴散模型。受對抗式生成啟發,RealGen引入「檢測器獎勵」機制,通過語義層級和特徵層級的合成影像檢測器來量化偽影並評估真實感。我們運用GRPO算法對該獎勵信號進行優化,顯著提升影像真實感與細節表現。此外,我們提出RealBench自動化評估基準,採用檢測器評分與競技場評分相結合的方式,實現無需人工介入的逼真度評估,其結果更精準且符合真實用戶體驗。實驗表明,RealGen在真實感、細節呈現和美學品質上均顯著優於GPT-Image-1、Qwen-Image等通用模型,以及FLUX-Krea等專注逼真度的特定模型。程式碼已開源於:https://github.com/yejy53/RealGen。
有效的视觉语言模型评估器对模型发展至关重要。当前训练VLM评估器的方法主要依赖大规模人工偏好标注,但这种方法成本高昂,且标注结果会随着模型的快速迭代迅速过时。本研究提出一种无需人工偏好标注、仅使用自合成数据的VLM评估器自训练框架。该方法采用迭代式三阶段流程:(1)生成不同质量级别的多样化多模态指令-响应对;(2)为每对数据生成推理轨迹与判断结果,剔除不符合预期质量级别的样本;(3)基于正确的评估答案及其推理轨迹进行训练。我们在Multimodal RewardBench和VL-RewardBench的多个领域(正确性、偏好性、推理能力、安全性及视觉问答)上评估所得评估器。实验表明,该方法将Llama-3.2-11B多模态评估器在VL-RewardBench上的整体准确率从0.38提升至0.51,在通用性、幻觉识别和推理维度表现尤为突出,经常超越包括Llama-3.2-90B、GPT-4o和Claude 3.5 Sonnet在内的更大规模模型。这些无需人工标注的结果整体表现强劲,预示着未来评估器有望伴随VLM能力的快速进化实现自主迭代。
三维资产的生成方法近期取得了显著进展,但如何实现直观精确的几何控制仍是关键挑战。现有方法主要依赖文本或图像提示,但往往缺乏几何特异性:语言描述存在模糊性,而图像编辑又较为繁琐。本研究提出SpaceControl——一种免训练、支持测试阶段显式空间控制的三维生成方法。该框架能兼容从粗糙几何基元到精细网格的多样化几何输入,无需额外训练即可与现代化预训练生成模型无缝集成。通过可控参数,用户可在几何保真度与输出真实感之间灵活权衡。大量定量评估与用户研究表明,SpaceControl在保持高视觉质量的同时,其几何忠实度优于基于训练和基于优化的基线方法。最后,我们开发了支持超二次曲面实时编辑的交互式界面,可直接转换为带纹理的三维资产,为创意工作流提供实用化部署方案。项目页面详见:https://spacecontrol3d.github.io/
視覺空間推理對於多模態大型語言模型理解物體屬性和空間關係至關重要,但現有模型仍難以實現三維感知推理。當前方法通常通過兩種孤立途徑進行增強:要麼藉助深度圖和分割圖等輔助模態擴充RGB輸入以強化感知能力,要麼通過空間視覺問答數據集訓練並結合強化學習來提升推理能力。本研究探討統一的多模態大模型能否通過自適應交織推理機制,發展出內在的空間感知增強能力,從而實現更強大的空間智能。我們提出COPER模型,該統一架構利用深度與分割作為輔助模態,通過兩階段訓練獲得輔助模態生成能力及自適應交織推理能力。COOPER在空間推理任務中平均提升6.91%,同時保持通用性能。值得注意的是,僅進行輔助模態生成訓練的變體在距離與尺寸估計任務中仍獲得7.92%的提升,這表明學習生成輔助模態有助於模型內化空間知識並強化空間理解能力。
以推理为核心的视频目标分割本质上是一项复杂任务:查询往往涉及动态变化、因果关系和时间交互,而非静态外观特征。然而现有解决方案通常将这些因素压缩为潜在嵌入的简化推理,导致推理链变得不透明且本质上难以追踪。为此,我们采用显式分解的视角提出ReVSeg,该方法在预训练视觉语言模型(VLM)的原生接口中通过序列化决策执行推理。与将所有推理折叠为单步预测不同,ReVSeg通过语义解析、时序证据筛选和空间定位三个显式操作,实现对预训练能力的对齐。我们进一步采用强化学习优化多步推理链,使模型能够根据结果导向的信号自我优化决策质量。实验结果表明,ReVSeg在标准视频目标分割基准测试中达到最先进性能,并生成可解释的推理轨迹。项目页面详见 https://clementine24.github.io/ReVSeg/。
近期生成式视频模型的突破性进展,在高保真视频合成领域取得了重大成果,特别是在基于文本与动作输入的可控视频生成方面——例如指令引导的视频编辑和机器人学中的世界建模。尽管具备卓越的生成能力,可控视频模型常出现"幻觉"现象,即生成的未来视频帧与物理现实存在偏差,这在机器人策略评估与规划等任务中引发严重关切。然而,现有顶尖视频模型缺乏评估和表达自身置信度的能力,阻碍了幻觉缓解的进程。 为系统解决这一挑战,我们提出C3方法:一种用于训练连续尺度校准化可控视频模型的不确定性量化技术,可实现亚区块级别的密集置信度估计,精准定位每帧生成视频中的不确定性区域。我们的不确定性量化方法通过三大核心创新赋能视频模型进行不确定性评估:首先,开发了基于严格恰当评分规则的训练框架,使视频模型同时具备正确性与校准性;其次,在潜在空间内估算视频模型的不确定性,规避像素空间方法存在的训练不稳定性和过高计算成本;第三,将密集的潜在空间不确定性映射至可解释的像素级RGB空间不确定性,通过高分辨率热力图直观标识不可信区域。 基于大规模机器人学习数据集(Bridge与DROID)的广泛实验及现实场景验证表明,该方法不仅能在训练分布内提供校准化的不确定性估计,还能实现有效的分布外检测。
当前,自我完善虽激发着人工智能领域的研究热情,但这一目标既充满风险又需长期探索。我们认为,对人类而言更具可实现性且更优越的方向是最大化"协同进化"——即人类研究者与人工智能通过协作实现共同超智能。具体而言,应着力提升AI系统与人类研究者协同开展AI研究的能力,从创意构思到实验验证的全流程合作,既加速AI研究进程,又通过人机共生实现更安全的双向超智能赋能。将人类研究能力的提升纳入循环体系,不仅能更快实现目标,更能保障发展路径的安全性。
多模态文档检索系统在视觉与文本内容的语义对齐方面已取得显著进展,但现有方法仍严重以英语为中心,限制了其在多语言环境中的有效性。本研究提出M3DR(多语言多模态文档检索)框架,旨在跨越语言鸿沟,使其能适应不同语言文化场景。M3DR利用合成多语言文档数据,可泛化至不同视觉-语言架构与模型规模,实现稳健的跨语言跨模态对齐。通过对比学习训练,我们的模型能学习文本与文档图像的通用表征,并有效迁移至不同语言。我们在22种类型各异的语言上验证了这一能力,证明其在不同语言和文字变体间具有持续稳定的性能表现。我们还构建了涵盖真实多语言场景的综合基准,在单语、多语及混合语言设置下评估模型性能。M3DR可同时兼容单稠密向量与ColBERT风格的令牌级多向量检索范式。我们的NetraEmbed与ColNetraEmbed模型实现了跨语言检索性能约150%的相对提升,达到当前最优水平。
长视频理解(LVU)面临的核心挑战在于:解答现实世界查询往往依赖于散落在数小时视频中、被大量冗余无关内容淹没的稀疏时空线索。尽管智能体流程能提升视频推理能力,但主流框架依赖与查询无关的视频描述器来感知信息,这既浪费计算资源处理无关内容,又模糊了细粒度时空信息。受主动感知理论启发,我们认为LVU智能体应主动决策观察内容、时机与位置,并持续评估当前观察是否足以回答问题。本文提出主动视频感知(AVP)框架,将视频视为交互环境,直接从像素中获取紧凑的查询相关证据。具体而言,AVP通过多模态大语言模型智能体运行"规划-观察-反思"的迭代流程:规划器每轮提出针对性视频交互方案,观察器执行操作并提取带时间戳的证据,反思器评估证据充分性——或终止流程输出答案,或触发新一轮观察。在五个LVU基准测试中,AVP以显著优势达到最高性能:平均准确率超越最佳智能体方法5.7%,同时仅需18.4%的推理时间和12.4%的输入令牌量。
自动驾驶领域的时间理解能力仍是重大挑战,即便是当前最先进的视觉语言模型也难以应对。先前研究虽已推出旨在提升时序推理能力的数据集与基准测试,但其侧重点多集中于体育、烹饪、电影等视频内容。目前尚无专门针对自动驾驶第一视角视频中时序理解独特挑战的基准测试。为填补这一空白,我们提出自动驾驶时序理解基准测试,用于评估视觉语言模型捕捉自动驾驶场景中动作动态关系的能力。该基准包含近6000组问答对,涵盖7项人工设计的任务。此外,我们对9个开源/闭源通用模型以及最先进的自动驾驶专用模型进行了评估。测试显示,当前最先进模型在TAD基准上的准确率均未达理想水平,主要归因于细粒度运动理解的不足。为提升运动理解能力及TAD基准的整体准确率,我们提出两种无需训练的创新解决方案:基于思维链的场景推理框架,以及融合第一视角时序认知图的时空映射技术。这些方法与现有视觉语言模型集成后,可将TAD基准的平均准确率最高提升17.72%。通过推出TAD基准、对多类最先进模型进行基准测试,并提出有效增强方案,本研究旨在推动自动驾驶时序理解领域的后续探索。基准测试数据与评估代码已分别发布于Hugging Face平台(https://huggingface.co/datasets/vbdai/TAD)和GitHub代码库(https://github.com/vbdi/tad_bench)。
本研究提出Colon-X,这是一个旨在推进结肠镜多模态智能发展的开放计划。我们首先构建了ColonVQA——迄今为止最全面的结肠镜多模态数据集,涵盖76种临床发现和18项多模态任务,包含超过110万条视觉问答条目。除了作为学界数据基础之外,我们进一步探究了结肠镜领域关键却尚未充分探索的转型方向:从多模态理解向临床推理的演进。(a)为呈现当前多模态理解行为的发展现状,我们系统评估了22个多模态大语言模型的泛化能力,并检验其在人为干扰下的可靠性。结果表明,主流MLLMs的临床输出仍远未达到稳健可信的水平。(b)为缩小这一差距,我们深入探索了针对结肠镜的推理中心化智能。具体而言,我们通过多专家辩论流程标注构建了临床推理数据集ColonReason,并开发了首个体现实R1风格推理能力的模型ColonR1,该模型融合了任务自适应奖励与梯度稳定优化技术。在数据稀缺条件下,ColonR1以56.61%的综合准确率超越监督微调方法25.22%,为多模态结肠镜分析设立了全新的推理能力基线。所有数据与模型资源已公开于https://github.com/ai4colonoscopy/Colon-X。
近期视频生成技术的突破性进展,在构建世界模拟器方面展现出巨大潜力。然而现有模型在处理大规模或复杂动态场景时,仍难以保证物理一致性。这一局限主要源于现有方法对物理提示的响应存在各向同性特征,且忽视了生成内容与局部物理线索间的细粒度对齐。为解决这些难题,我们提出ProPhy——渐进式物理对齐框架,通过显式物理感知条件化与各向异性生成机制实现突破。该框架采用两阶段物理专家混合机制进行判别式物理先验提取:语义专家从文本描述中推断语义级物理规律,优化专家则捕捉标记级物理动态。这种机制使模型能够学习更符合基础物理定律的细粒度物理感知视频表征。此外,我们引入物理对齐策略,将视觉语言模型的物理推理能力迁移至优化专家,从而更精准地呈现动态物理现象。在物理感知视频生成基准测试上的大量实验表明,ProPhy相较现有最优方法能产生更逼真、动态且物理连贯的结果。
训练后量化(PTQ)在大语言模型(LLM)的普及化进程中发挥着关键作用。然而,由于硬件支持有限,现有的低位宽量化和稀疏化技术难以平衡精度与效率。例如,W4A8配置仅能实现与W8A8相同的峰值TOPS,而GPU支持的稀疏数据格式(2:4半结构化稀疏)因精度损失问题鲜被采用。为弥补这一差距,本文提出稀疏量化格式(SQ-format),这是一种有望被新型硬件和现有GPU轻松支持的量化与稀疏化统一数据格式。该格式基于稀疏矩阵可在高精度下加速运算、而低精度矩阵乘法亦可相应加速的特性,旨在实现性能与吞吐量的帕累托改进。该格式特别适用于具有异常值不均匀分布的激活函数,并使其静态压缩成为可能。我们通过SQ-format展示了最先进的PTQ性能,提出了支持该格式的硬件需求,并进一步为下一代AI加速器提供设计探索与洞见。
有效的地震风险防控依赖于精准的场地特异性评估,这需要能够体现局部场地条件对地震动特征影响的模型。在此背景下,从记录的地震动中学习场地控制特征的数据驱动方法提供了可行方向。本文基于时域加速度计记录研究强地震动生成问题,提出TimesNet-Gen——一种时域条件生成模型。该方法采用站点特定的潜在瓶颈结构,通过对比各台站真实与生成记录的HVSR曲线及场地基频f_0分布进行评估,并基于f_0分布混淆矩阵构建评分体系以量化台站特异性。实验表明TimesNet-Gen在台站级数据对齐方面表现优异,相较于基于频谱图的条件VAE基线模型,在场地特异性强震动合成任务中更具优势。相关代码已开源:https://github.com/brsylmz23/TimesNet-Gen。
随着计算需求持续增长,评估人工智能的环境足迹需超越能源与水资源消耗范畴,纳入专用硬件的材料需求。本研究通过将计算工作量与实体硬件需求相关联,量化了AI训练的材料足迹。采用电感耦合等离子体光学发射光谱法分析英伟达A100 SXM 40GB图形处理器(GPU)的元素组成,共识别出32种元素。结果显示AI硬件约90%由重金属构成,贵金属含量仅为痕量。以质量计,铜、铁、锡、硅和镍是GPU的主要组成元素。通过多步骤研究方法,我们将这些测量数据与不同使用寿命下单个GPU的计算吞吐量相结合,并考量了不同训练效率模式下特定AI模型的训练计算需求。基于情景的分析表明:根据模型浮点运算利用率(MFU)和硬件使用寿命的差异,训练GPT-4需要1,174至8,800块A100 GPU,对应最高达7吨有毒元素的开采与最终处置。软硬件协同优化策略可降低材料需求:将MFU从20%提升至60%可使GPU需求减少67%,而将使用寿命从1年延长至3年也能实现相近的节约效果;同时实施这两项措施最高可减少93%的GPU需求。我们的研究结果揭示,诸如GPT-3.5到GPT-4所体现的渐进式性能提升,是以不成比例的高材料成本为代价的。本研究强调必须将材料资源考量纳入AI可扩展性的讨论中,明确指出未来AI发展必须符合资源效率与环境责任原则。
大型語言模型(LLMs)通常在訓練後階段會進行安全對齊調整,但它們仍可能產生不當輸出,對用戶構成潛在風險。這一挑戰凸顯了需要在模型輸入端與輸出端同時建立穩健防護機制的重要性。本研究推出Roblox Guard 1.0——一款基於指令微調的尖端LLM,通過採用多層級LLM串聯架構實現全面輸入輸出審核,從而提升LLM系統安全性。該模型以Llama-3.1-8B-Instruct為基礎架構,經過指令微調後能泛化應用於未見過的安全分類體系,並在跨領域安全基準測試中展現卓越性能。指令微調過程融合了合成數據與開源安全數據集,並輔以思維鏈(CoT)推理依據及輸入反轉技術,以強化語境理解與決策能力。為支持系統化評估,我們同步發布RobloxGuard-Eval基準測試集,其具備可擴展的安全分類框架,專門用於評估LLM防護欄與審核框架的有效性。