每日精選AI研究論文及翻譯
我们推出ComfyUI-Copilot,这是一款基于大型语言模型的插件,旨在提升ComfyUI这一开源平台在AI驱动艺术创作中的可用性与效率。尽管ComfyUI具备灵活性与用户友好界面,但对新手而言,仍存在文档有限、模型配置错误及工作流设计复杂等挑战。ComfyUI-Copilot通过提供智能节点与模型推荐,以及自动化的一键工作流构建功能,有效应对了这些问题。该系统的核心采用了一种分层多代理框架,包括一个负责任务分配的中心助理代理和针对不同用途的专业工作代理,并辅以我们精心整理的ComfyUI知识库,以简化调试与部署流程。我们通过离线定量评估与在线用户反馈验证了ComfyUI-Copilot的有效性,证明其能准确推荐节点并加速工作流开发。此外,应用案例表明,ComfyUI-Copilot降低了初学者的入门门槛,同时提升了经验用户的工作流效率。ComfyUI-Copilot的安装包及演示视频可在https://github.com/AIDC-AI/ComfyUI-Copilot获取。
基於擴散模型的視頻修復(VR)技術近期取得了顯著進展,在視覺質量上實現了大幅提升,然而在推理過程中卻產生了難以承受的計算成本。儘管多種基於蒸餾的方法已展現出一步圖像修復的潛力,但將現有方法擴展至視頻修復仍面臨挑戰且研究不足,尤其是在處理現實場景中的高分辨率視頻時。在本研究中,我們提出了一種一步擴散基於的視頻修復模型,命名為SeedVR2,該模型針對真實數據進行對抗性視頻修復訓練。為應對單步處理高分辨率視頻修復的挑戰,我們在模型架構和訓練流程上引入了多項改進。具體而言,提出了一種自適應窗口注意力機制,其中窗口大小會根據輸出分辨率動態調整,避免了在高分辨率視頻修復中使用預設窗口大小時出現的窗口不一致問題。為穩定並提升對抗性後訓練在視頻修復中的效果,我們進一步驗證了一系列損失函數的有效性,包括提出的特徵匹配損失,且未顯著犧牲訓練效率。大量實驗表明,SeedVR2在單步操作中能夠達到與現有視頻修復方法相當甚至更優的性能。
在本研究中,我們推出了Qwen3 Embedding系列,這是在Qwen3基礎模型之上,對其前身GTE-Qwen系列在文本嵌入與重排序能力上的重大提升。借助Qwen3大型語言模型在多語言文本理解與生成方面的強大能力,我們創新的多階段訓練管道結合了大規模無監督預訓練與高質量數據集上的有監督微調。有效的模型融合策略進一步確保了Qwen3 Embedding系列的魯棒性與適應性。在訓練過程中,Qwen3大型語言模型不僅作為骨幹模型,還在合成跨多領域與多語言的高質量、豐富且多樣的訓練數據方面發揮了關鍵作用,從而增強了訓練管道。Qwen3 Embedding系列提供了多種模型規模(0.6B、4B、8B)以應對嵌入與重排序任務,滿足用戶在效率或效果上進行優化的多樣化部署場景。實證評估顯示,Qwen3 Embedding系列在多樣化的基準測試中達到了最先進的成果。特別是在多語言評估基準MTEB上的文本嵌入表現,以及在包括代碼檢索、跨語言檢索與多語言檢索在內的各種檢索任務中均表現卓越。為了促進可重複性並推動社區驅動的研究與開發,Qwen3 Embedding模型在Apache 2.0許可下公開提供。
新兴的世界模型能够根据诸如相机移动和文本提示等控制信号,自回归地生成视频帧。由于时间上下文窗口大小的限制,这些模型在场景重访时往往难以维持一致性,导致对先前生成环境的严重遗忘。受人类记忆机制的启发,我们引入了一种新颖的框架,通过基于几何的长期空间记忆来增强视频世界模型的长期一致性。我们的框架包含从长期空间记忆中存储和检索信息的机制,并策划了定制数据集来训练和评估具有明确存储的三维记忆机制的世界模型。我们的评估显示,与相关基线相比,在质量、一致性和上下文长度方面均有提升,为长期一致的世界生成铺平了道路。
空間指稱是具身機器人與三維物理世界互動的基本能力。然而,即使借助強大的預訓練視覺語言模型(VLMs),現有方法仍難以精確理解複雜的三維場景並動態推理指令指示的互動位置。為此,我們提出了RoboRefer,這是一種具備三維感知能力的VLM,其首先通過監督微調(SFT)整合解耦但專用的深度編碼器,實現精確的空間理解。此外,RoboRefer通過強化微調(RFT)推進廣義的多步空間推理,並針對空間指稱任務設計了度量敏感的過程獎勵函數。為支持SFT和RFT訓練,我們引入了RefSpatial,這是一個包含2000萬問答對(是之前的2倍)的大規模數據集,涵蓋31種空間關係(之前為15種),並支持複雜的推理過程(最多5步)。此外,我們還提出了RefSpatial-Bench,這是一個填補多步推理空間指稱評估空白的挑戰性基準。實驗表明,經過SFT訓練的RoboRefer在空間理解方面達到了最先進水平,平均成功率為89.6%。經過RFT訓練的RoboRefer進一步大幅超越所有其他基線,甚至在RefSpatial-Bench上的平均準確率超過Gemini-2.5-Pro達17.4%。值得注意的是,RoboRefer可與多種控制策略集成,在多樣化機器人(如UR5、G1人形機器人)上執行長時程、動態任務,並在雜亂的真實場景中表現出色。
Transformer模型在处理长上下文推理时面临挑战,因其时间复杂度和内存复杂度分别呈二次方和线性增长。循环记忆Transformer(RMTs)通过将渐近成本降低至线性时间和恒定内存使用,提供了一种解决方案。然而,其内存更新机制导致了顺序执行,从而形成了性能瓶颈。 我们引入了对角线批处理(Diagonal Batching),这是一种调度方案,能够在保持精确循环的同时,解锁RMTs中跨段的并行性。该方法消除了顺序约束,使得即使对于单个长上下文输入,也能在不采用复杂批处理和流水线技术的情况下,实现高效的GPU推理。由于该技术纯粹是运行时计算的重排序,现有的RMT模型无需重新训练即可采用。 应用于LLaMA-1B ARMT模型时,对角线批处理在131,072个令牌序列上,相较于标准全注意力LLaMA-1B实现了3.3倍的加速,相较于顺序RMT实现则实现了1.8倍的加速。通过消除顺序瓶颈,对角线批处理降低了推理成本和延迟,从而增强了RMTs作为现实世界长上下文应用实用解决方案的地位。
大型語言模型(LLMs)通常基於大量未經授權的文本進行訓練,這一做法因可能涉及知識產權侵權及倫理問題而受到審視。使用公開授權的文本訓練LLMs,是解決這些問題的第一步,但先前的數據收集工作所獲得的數據集規模過小或質量欠佳,無法訓練出高效能的LLMs。為填補這一空白,我們收集、整理並發布了Common Pile v0.1,這是一個專為LLM預訓練設計的、包含八兆字節公開授權文本的集合。Common Pile涵蓋了來自30個來源的內容,涉及研究論文、代碼、書籍、百科全書、教育材料、音頻轉錄稿等多個領域。關鍵在於,我們通過在Common Pile文本上訓練兩個擁有70億參數的LLMs——Comma v0.1-1T和Comma v0.1-2T(分別基於1兆和2兆標記進行訓練)——來驗證我們的工作成果。這兩個模型在與使用未授權文本訓練、計算預算相似的LLMs(如Llama 1和2 7B)相比時,展現出了競爭力的性能。除了發布Common Pile v0.1本身,我們還公開了其創建過程中使用的代碼,以及Comma v0.1模型的訓練混合比例和檢查點。
我們推出Surfer-H,這是一款成本效益高的網路代理,整合了視覺-語言模型(VLM)來執行用戶定義的網路任務。我們將其與Holo1配對,這是一個新的開放權重VLM集合,專門用於網路導航和資訊提取。Holo1在精心策劃的數據源上進行了訓練,包括開放存取的網路內容、合成範例以及自產的代理數據。Holo1在通用用戶界面(UI)基準測試以及我們新的網路UI定位基準測試WebClick中均名列前茅。當由Holo1驅動時,Surfer-H在WebVoyager上達到了92.2%的頂尖性能,在準確性和成本效益之間實現了帕累托最優平衡。為了加速代理系統的研究進展,我們將開源我們的WebClick評估數據集和Holo1模型權重。
推理时扩展通过生成更长或更并行的序列,以效率换取更高的推理准确性。然而,在Transformer大型语言模型(LLMs)中,生成成本的关键瓶颈在于键值(KV)缓存的大小,而非生成的令牌数量。因此,我们探索了推理时的超扩展:通过压缩KV缓存,我们可以在相同的计算预算内生成更多令牌,并进一步提升扩展推理的准确性。然而,这一方法的成功关键在于压缩方法能否在高压缩率下仍保持准确性。为使超扩展实用化,我们引入了动态记忆稀疏化(DMS),这是一种新颖的KV缓存稀疏化方法,仅需1K训练步骤即可实现8倍压缩,同时保持比无需训练的稀疏注意力更高的准确性。DMS并非过早丢弃缓存的令牌,而是延迟令牌的移除,隐式合并表示并保留关键信息。我们在多个LLM家族上展示了结合DMS的推理时超扩展的有效性,证明其在相近的推理运行时间和内存负载下提升了准确性。例如,在AIME 24上,我们将Qwen-R1 32B的平均得分提高了9.1分,在GPQA上提高了7.6分,在LiveCodeBench上提高了9.6分,跨越了不同的计算预算。
本文提出了一種新穎的框架,通過利用基於流的生成模型作為先驗,將可學習的潛在空間對齊到任意目標分佈。我們的方法首先在目標特徵上預訓練一個流模型,以捕捉底層分佈。這個固定的流模型隨後通過對齊損失來正則化潛在空間,該對齊損失重新表述了流匹配目標,將潛在變量視為優化目標。我們正式證明,最小化這個對齊損失建立了一個計算上易處理的替代目標,用於最大化目標分佈下潛在變量的對數似然的變分下界。值得注意的是,所提出的方法消除了計算昂貴的似然評估,並在優化過程中避免了ODE求解。作為概念驗證,我們在受控環境中展示了對齊損失的景觀密切近似於目標分佈的負對數似然。我們進一步通過在ImageNet上進行大規模圖像生成實驗,並伴隨詳細的討論和消融研究,驗證了我們方法的有效性。通過理論和實證的雙重驗證,我們的框架為潛在空間對齊開闢了一條新途徑。
在現實世界的視頻環境中進行數學推理,與靜態圖像或文本相比,呈現出根本性的不同挑戰。它需要解讀細粒度的視覺信息,準確閱讀手寫或數字化文本,並整合口語提示,這些信息往往在時間上非線性地分散。在這種多模態情境下,成功的關鍵不僅在於感知,更在於從豐富而嘈雜的內容流中選擇性地識別並整合正確的上下文細節。為此,我們引入了VideoMathQA,一個旨在評估模型是否能在視頻上執行此類時間延展的跨模態推理的基準。該基準涵蓋了10個多樣的數學領域,視頻時長從10秒到超過1小時不等。它要求模型解讀結構化的視覺內容,理解教學敘述,並在視覺、音頻和文本模態之間共同錨定概念。我們聘請研究生級別的專家以確保高質量,總計超過920人時的註釋工作。為了反映真實世界場景,問題設計圍繞三個核心推理挑戰:直接問題解決,其中答案基於提出的問題;概念遷移,要求將學習到的方法應用於新問題;以及深度教學理解,涉及對延長解釋和部分解決方案的多步推理。每個問題都包含多步推理註釋,使得能夠對模型能力進行細粒度診斷。通過這一基準,我們強調了現有方法的局限性,並為那些必須在時間延展且模態豐富的數學問題設置中進行推理而非僅僅感知的模型,建立了一個系統的評估框架。我們的基準和評估代碼可在以下網址獲取:https://mbzuai-oryx.github.io/VideoMathQA。
近期,文本到视频(T2V)扩散模型的进展已能实现高保真且逼真的视频合成。然而,当前的T2V模型由于内在物理理解能力的局限,往往难以生成物理上合理的内容。我们发现,尽管T2V模型内部的表征具备一定的物理理解能力,但与近期视频自监督学习方法相比,仍存在显著差距。为此,我们提出了一种名为VideoREPA的新框架,该框架通过对齐令牌级关系,将视频理解基础模型中的物理理解能力蒸馏至T2V模型中,从而弥合物理理解的鸿沟,实现更为物理合理的生成。具体而言,我们引入了令牌关系蒸馏(TRD)损失,利用时空对齐提供适用于微调强大预训练T2V模型的软指导,这是对先前表征对齐(REPA)方法的关键突破。据我们所知,VideoREPA是首个专为微调T2V模型并特别用于注入物理知识而设计的REPA方法。实证评估表明,VideoREPA显著增强了基线方法CogVideoX的物理常识,在相关基准测试上取得了显著进步,并展现出生成符合直觉物理视频的强大能力。更多视频结果请访问https://videorepa.github.io/。
儘管在視頻理解方面取得了進展,當前的多模態大語言模型(MLLMs)在計數任務上仍面臨挑戰。現有的基準測試受限於短視頻、封閉式查詢、缺乏線索註釋以及多模態覆蓋不足。本文介紹了CG-AV-Counting,這是一個手動註釋的線索基礎計數基準,包含497個長視頻中的1,027個多模態問題和5,845個註釋線索。它支持黑盒和白盒評估,為端到端和基於推理的計數提供了全面的測試平台。為了探索提升模型計數能力的方法,我們提出了AV-Reasoner,這是一個通過GRPO和課程學習訓練的模型,旨在從相關任務中泛化計數能力。AV-Reasoner在多個基準測試中達到了最先進的結果,證明了強化學習的有效性。然而,實驗表明,在域外基準測試中,語言空間的推理未能帶來性能提升。代碼和基準測試已發佈於https://av-reasoner.github.io。
以Deepseek-R1-Distill系列為代表的推理模型,因其在數學、科學、編程等領域的卓越表現,已被開源社群廣泛採用。然而,我們的研究發現,這些模型的基準評估結果易受多種因素影響而產生顯著波動。評估條件的細微差異,便可能導致結果出現重大變化。類似現象亦見於基於Deepseek-R1-Distill系列微調的其他開源推理模型,以及QwQ-32B模型中,使得其所宣稱的性能提升難以穩定復現。因此,我們倡議建立更為嚴格的模型性能評估範式,並在此基礎上,對Deepseek-R1-Distill系列模型進行了實證評估。
空間認知對於人類智能至關重要,它使得我們能夠通過視覺模擬來解決問題,而不僅僅依賴於言語推理。然而,現有的人工智能基準測試主要評估言語推理能力,忽略了非言語、多步驟視覺模擬的複雜性。我們提出了STARE(空間變換與推理評估),這是一個旨在嚴格評估多模態大語言模型在更適合通過多步驟視覺模擬解決的任務上的基準測試。STARE包含4K個任務,涵蓋基礎幾何變換(2D和3D)、綜合空間推理(立方體網格折疊和七巧板拼圖)以及現實世界中的空間推理(透視和時間推理),反映了如物體組裝、機械圖解讀和日常空間導航等實際認知挑戰。我們的評估顯示,模型在較簡單的2D變換推理上表現出色,但在需要多步驟視覺模擬的更複雜任務(如3D立方體網格折疊和七巧板拼圖)上表現接近隨機猜測。人類在複雜任務上能達到近乎完美的準確率,但耗時較長(最多28.9秒),而通過中間視覺模擬能顯著加快速度(平均減少7.5秒)。相比之下,模型在視覺模擬上的性能提升不一致,在多數任務上有所改善,但在特定情況下(如七巧板拼圖中的GPT-4o、o1和立方體網格折疊中的Claude-3.5、Gemini-2.0 Flash)表現下降,表明模型可能不知道如何有效利用中間視覺信息。
搜索增强型语言模型将网络搜索与大型语言模型(LLMs)相结合,以提升回答的准确性和时效性。然而,分析这些系统仍具挑战性:现有数据集规模有限且范围狭窄,通常局限于静态、单轮的事实核查问题。在本研究中,我们引入了Search Arena,一个众包的大规模人类偏好数据集,包含超过24,000对多轮用户与搜索增强型LLMs的交互。该数据集涵盖多种意图和语言,并包含完整的系统追踪记录及约12,000次人类偏好投票。我们的分析显示,用户偏好受引用数量的影响,即使引用的内容并未直接支持所归因的主张,揭示了感知可信度与实际可信度之间的差距。此外,用户偏好因引用来源而异,表明社区驱动平台普遍更受青睐,而静态百科全书式来源并非总是恰当且可靠。为了评估不同环境下的性能,我们通过跨领域分析,在通用聊天环境中测试搜索增强型LLMs,并在搜索密集型环境中测试传统LLMs。我们发现,在非搜索环境中,网络搜索不会降低甚至可能提升性能;然而,在搜索环境中,若仅依赖模型的参数化知识,质量将受到显著影响。我们开源了该数据集以支持未来此方向的研究。我们的数据集和代码可在以下网址获取:https://github.com/lmarena/search-arena。
多模态大型語言模型(MLLMs)通常通過擴展預訓練的大型語言模型(LLMs)並賦予其視覺能力來構建。在本研究中,我們通過分析MLLMs的注意力機制,探討了它們如何處理視覺輸入。我們揭示了一個令人驚訝的稀疏性現象:在LLMs中,僅有少數(約少於5%)的注意力頭積極參與視覺理解,這些被稱為視覺頭。為了高效識別這些頭,我們設計了一種無需訓練的框架,通過針對性的響應分析來量化頭級別的視覺相關性。基於這一發現,我們引入了SparseMM,這是一種KV-Cache優化策略,它根據頭的視覺分數為LLMs中的頭分配非對稱計算預算,利用視覺頭的稀疏性來加速MLLMs的推理。與之前忽略視覺特殊性的KV-Cache加速方法相比,SparseMM在解碼過程中優先考慮並保留視覺語義。在主流多模態基準上的廣泛評估表明,SparseMM實現了優越的準確性與效率的平衡。值得注意的是,SparseMM在生成過程中實現了1.38倍的實時加速和52%的內存減少,同時在效率測試中保持了性能的同等水平。我們的項目已開源於https://github.com/CR400AF-A/SparseMM。
訓練語言模型於長序列數據上,是提升模型在複雜任務(如長鏈推理)能力的一項苛刻要求。然而,隨著序列長度的增加,在反向傳播(BP)過程中存儲激活值所需的記憶體成本變得巨大,即便應用梯度檢查點技術也難以緩解。為應對這一挑戰,我們提出了一種記憶體效率高且精確的BP方法——StreamBP,該方法沿序列維度逐層進行鏈式法則的線性分解,顯著降低了激活值和邏輯值的記憶體成本。所提出的方法適用於常見的目標函數,如SFT、GRPO和DPO。從實現角度來看,StreamBP通過利用語言模型的因果結構,實現了更少的計算FLOPs和更快的BP速度。與梯度檢查點相比,StreamBP將BP的最大序列長度擴展了2.8至5.5倍,同時使用相當甚至更少的BP時間。值得注意的是,StreamBP的序列長度擴展能力可直接轉化為批量大小擴展,以加速訓練。我們進一步開發了一種通信效率高的分布式StreamBP,有效支持多GPU訓練並擴大其適用範圍。我們的代碼可輕鬆集成到任何Transformer模型的訓練流程中,並可在https://github.com/Ledzy/StreamBP獲取。
多模态大语言模型(MLLMs)的兴起推动了以自我为中心视觉应用的突破性进展。这些应用要求对物体具有持续且情境感知的理解,因为用户是在动态且杂乱的环境中与工具进行交互。然而,现有的具身基准主要集中于静态场景探索,强调物体的外观和空间属性,而忽视了用户交互引发的动态变化评估。为填补这一空白,我们引入了EOC-Bench,一个旨在系统评估动态自我中心场景中物体中心具身认知的创新基准。特别地,EOC-Bench包含3,277个精心标注的问答对,分为三个时间类别:过去、现在和未来,涵盖了11个细粒度评估维度和3种视觉物体引用类型。为确保全面评估,我们开发了一个混合格式的人机循环标注框架,包含四种问题类型,并设计了一种新颖的多尺度时间准确性度量标准,用于开放式时间评估。基于EOC-Bench,我们对多种专有、开源及物体级别的MLLMs进行了全面评估。EOC-Bench作为提升MLLMs具身物体认知能力的关键工具,为开发可靠的具身系统核心模型奠定了坚实基础。
紋理貼圖生成是3D建模中的重要環節,直接影響渲染品質。近年來,基於擴散模型的方法為紋理生成開闢了新途徑。然而,受限的控制靈活性與有限的提示模式可能阻礙創作者獲得理想結果。此外,多視角生成圖像間的不一致性常導致紋理生成品質欠佳。為解決這些問題,我們提出了FlexPainter,一種新穎的紋理生成流程,它支持靈活的多模態條件引導,並實現高度一致的紋理生成。我們構建了一個共享的條件嵌入空間,以實現不同輸入模態間的靈活聚合。利用此嵌入空間,我們提出了一種基於圖像的CFG方法,分解結構與風格信息,實現基於參考圖像的風格化。借助圖像擴散先驗中的3D知識,我們首先使用網格表示同時生成多視角圖像,以增強全局理解。同時,我們在擴散採樣過程中引入了視角同步與自適應加權模塊,進一步確保局部一致性。最後,結合3D感知的紋理補全模型與紋理增強模型,生成無縫、高分辨率的紋理貼圖。全面實驗表明,我們的框架在靈活性與生成品質上均顯著優於現有最先進方法。
鏈式思維(CoT)已廣泛提升大型語言模型(LLMs)在數學推理上的表現,然而將其擴展至多模態領域仍具挑戰性。現有研究或採用類似文本推理方式處理圖像輸入,或嘗試將視覺信號交織入數學CoT中。然而,這些方法在解決數學問題時面臨三大限制:依賴於粗粒度的矩形圖像區域、視覺編碼器對數學內容的感知能力有限,以及對外部視覺修改能力的依賴。本文提出MINT-CoT,引入數學交織標記以實現鏈式思維的視覺推理。MINT-CoT通過交織標記自適應地將相關視覺標記融入文本推理步驟中,該標記能動態選擇數學圖形內任意形狀的視覺區域。為賦予此能力,我們構建了MINT-CoT數據集,包含54,000道數學問題,將每個推理步驟與視覺區域在標記層面精確對齊,並配備嚴謹的數據生成流程。我們進一步提出三階段MINT-CoT訓練策略,逐步結合純文本CoT SFT、交織CoT SFT及交織CoT RL,由此衍生出MINT-CoT-7B模型。大量實驗證明了我們方法在數學領域進行有效視覺交織推理的效能,其中MINT-CoT-7B在MathVista、GeoQA及MMStar上分別超越基準模型達+34.08%、+28.78%及+23.2%。我們的代碼與數據公開於https://github.com/xinyan-cxy/MINT-CoT。
深度圖廣泛應用於前饋式三維高斯潑濺(3DGS)流程中,通過將其反投影為三維點雲以實現新視角合成。此方法具有訓練效率高、可利用已知相機姿態及精確幾何估計等優勢。然而,物體邊界處的深度不連續性常導致點雲斷裂或稀疏,從而降低渲染質量——這是基於深度表示方法的一個公認限制。為解決此問題,我們引入了PM-Loss,這是一種基於預訓練變壓器預測的點圖的新型正則化損失。儘管點圖本身可能不如深度圖精確,但它能有效強化幾何平滑性,特別是在物體邊界周圍。通過改進後的深度圖,我們的方法在多種架構和場景下顯著提升了前饋式3DGS的性能,提供了始終更優的渲染結果。我們的項目頁面:https://aim-uofa.github.io/PMLoss
目前,建立语言与图像对齐的最主流方法是通过对比学习联合预训练文本和图像编码器,如CLIP及其变体。在本研究中,我们质疑这种高成本的联合训练是否必要。具体而言,我们探讨了预训练且固定的大型语言模型(LLM)是否能够提供足够优秀的文本编码器来指导视觉表示学习。即,我们提出仅训练图像编码器,利用LLM中的固定文本编码器学习语言与图像的对齐(LIFT)。令人惊讶的是,通过全面的基准测试和消融研究,我们发现这一大幅简化的框架LIFT极为有效,在涉及组合理解和长标题的大多数场景中超越了CLIP,同时在计算效率上取得了显著提升。我们的工作迈出了系统探索LLM文本嵌入如何指导视觉学习的第一步,并为学习语言对齐的视觉表示提供了一种替代设计选择。
自回归(AR)图像生成模型因其在合成质量上的突破而受到越来越多的关注,这凸显了防止滥用的鲁棒水印技术的必要性。然而,现有的生成过程中水印技术主要针对扩散模型设计,其中水印被嵌入扩散潜在状态中。这种设计对直接适应于通过令牌预测顺序生成图像的AR模型构成了重大挑战。此外,基于扩散的再生攻击能够通过扰动扩散潜在状态有效擦除此类水印。为解决这些挑战,我们提出了词汇偏置水印(Lexical Bias Watermarking, LBW),一种专为AR模型设计、能抵抗再生攻击的新颖框架。LBW通过在生成过程中将令牌选择偏向预定义的绿色列表,直接将水印嵌入令牌映射中。这种方法确保了与现有AR模型的无缝集成,并自然地扩展到事后水印处理。为增强对白盒攻击的安全性,每个图像的绿色列表并非单一,而是从绿色列表池中随机抽取。水印检测通过令牌分布的量化与统计分析完成。大量实验证明,LBW在抵抗再生攻击方面展现出卓越的水印鲁棒性。
基於多模態輸入(包括文本、圖像和視頻)引導的音頻條件化說話肖像生成與編輯仍處於探索階段。本文提出SkyReels-Audio,這是一個用於合成高保真且時間連貫的說話肖像視頻的統一框架。基於預訓練的視頻擴散變換器,我們的框架支持無限長度的生成與編輯,同時通過多模態輸入實現多樣化且可控的條件化。我們採用混合課程學習策略,逐步對齊音頻與面部運動,從而實現對長視頻序列的精細多模態控制。為增強局部面部連貫性,我們引入了面部掩碼損失和音頻引導的無分類器指導機制。滑動窗口去噪方法進一步融合了跨時間段的潛在表示,確保了在長時間和多樣化身份下的視覺保真度和時間一致性。更重要的是,我們構建了一個專用的數據管道,用於策劃由同步音頻、視頻和文本描述組成的高質量三元組。全面的基準評估表明,SkyReels-Audio在唇形同步準確性、身份一致性和真實面部動態方面表現優異,特別是在複雜和具有挑戰性的條件下。
本文探討了重建具有複雜運動的動態3D場景的挑戰。近期一些研究在規範空間中定義了3D高斯基元,並利用變形場將這些基元映射到觀測空間,從而實現了實時的動態視圖合成。然而,由於優化變形場的難度,這些方法在處理具有複雜運動的場景時往往表現不佳。為解決這一問題,我們提出了FreeTimeGS,這是一種新穎的4D表示方法,允許高斯基元在任意時間和位置出現。與規範高斯基元相比,我們的表示具有更強的靈活性,從而提升了對動態3D場景的建模能力。此外,我們為每個高斯基元賦予了運動函數,使其能夠隨時間推移移動到相鄰區域,這減少了時間上的冗餘。在多個數據集上的實驗結果表明,我們的方法在渲染質量上大幅超越了近期的方法。
我們從實際效率的角度重新審視了測試時的縮放定律,揭示了較小模型的有效性被顯著高估。先前基於計算最優性的研究忽略了推理策略(如Best-of-N、長鏈思維)引入的關鍵內存訪問瓶頸。我們對參數量從0.6B到32B的模型進行了全面分析,提出了一種新的動力學縮放定律,該定律通過結合計算和內存訪問成本,更好地指導資源分配。動力學縮放定律表明,測試時的計算資源在應用於超過某一閾值的模型時,比用於較小模型更為有效。一個關鍵原因在於,在測試時,注意力而非參數量成為主導成本因素。基於此,我們提出了一種以稀疏注意力為核心的新縮放範式,它降低了每個令牌的成本,並在相同的資源預算內實現了更長的生成和更多的並行樣本。實證表明,稀疏注意力模型在低成本區域始終優於密集模型,在AIME問題解決準確率上取得了超過60分的提升,在高成本區域也取得了超過5分的提升,涵蓋了對最新混合專家模型的評估。這些結果表明,稀疏注意力對於充分發揮測試時縮放的潛力至關重要,因為與訓練時參數縮放趨於飽和不同,測試時的準確率通過增加生成持續提升。代碼可在https://github.com/Infini-AI-Lab/Kinetics獲取。
通用物體合成(GOC)旨在將目標物體無縫地融入背景場景中,同時保持其精細的外觀細節,並滿足所需的幾何特性。近期的方法通過提取語義嵌入並將其整合到先進的擴散模型中,以實現幾何可編輯的生成。然而,這些高度壓縮的嵌入僅編碼了高層次的語義信息,不可避免地丟失了精細的外觀細節。我們提出了一種解耦的幾何可編輯與外觀保持擴散模型(DGAD),該模型首先利用語義嵌入隱式捕捉所需的幾何變換,然後採用交叉注意力檢索機制將精細的外觀特徵與幾何編輯後的表示對齊,從而實現精確的幾何編輯和忠實的外觀保持。具體而言,DGAD基於CLIP/DINO衍生的參考網絡提取語義嵌入和外觀保持表示,並以解耦的方式將其無縫整合到編碼和解碼流程中。我們首先將語義嵌入整合到預訓練的擴散模型中,這些模型具有強大的空間推理能力,能夠隱式捕捉物體幾何,從而實現靈活的物體操作並確保有效的可編輯性。然後,我們設計了一種密集的交叉注意力機制,利用隱式學習的物體幾何來檢索並將外觀特徵與其對應區域進行空間對齊,確保外觀的一致性。在公開基準上的大量實驗證明了所提出的DGAD框架的有效性。
在可迁移学习的研究中,针对多种重要基础模型,我们获得了尺度定律,以预测其在更大规模下的属性与性能。本文展示了如何利用尺度定律的推导进行模型与数据集的比较,从而决定哪种预训练程序更为优选。首次基于密集测量,在广泛的模型与样本规模范围内,我们为两种重要的语言-视觉学习程序——仅使用对比损失的CLIP和同时使用对比与文本生成损失的MaMMUT——推导出了完整的尺度定律。为确保对保留点的预测准确性,我们利用推导出的尺度定律对两模型进行了比较,发现MaMMUT在规模扩展下展现出更强的改进能力及优于标准CLIP的样本效率。为增强比较的有效性,我们展示了多种下游任务(分类、检索、分割)及不同开放数据集(DataComp、DFN、Re-LAION)的尺度定律,观察到一致的趋势。我们还表明,在采用恒定学习率计划推导尺度定律时,亦可进行比较,从而降低计算成本。因此,准确推导尺度定律为跨规模范围进行模型与数据集比较提供了手段,避免了仅基于单一参考尺度测量得出的误导性结论,为系统比较与改进开放基础模型及其创建数据集铺平了道路。我们发布了所有预训练模型及其中间检查点,包括在DataComp-1.4B的12.8B样本上训练、达到80.3%零样本ImageNet-1k准确率的openMaMMUT-L/14。论文中实验复现代码及原始实验数据可在https://github.com/LAION-AI/scaling-laws-for-comparison获取。
我們推出MedAgentGYM,這是首個公開可用的訓練環境,旨在提升大型語言模型(LLM)代理基於編碼的醫療推理能力。MedAgentGYM包含來自真實世界生物醫學場景的129個類別共72,413個任務實例。這些任務被封裝在可執行的編碼環境中,每個環境都配備了詳細的任務描述、互動反饋機制、可驗證的真實標註以及可擴展的訓練軌跡生成。對超過30個LLM的廣泛基準測試顯示,基於商業API的模型與開源模型之間存在顯著的性能差距。利用MedAgentGYM,Med-Copilot-7B通過監督微調(+36.44%)和持續強化學習(+42.47%)實現了顯著的性能提升,成為一個具有成本效益且保護隱私的替代方案,與gpt-4o競爭。通過提供全面的基準測試和統一執行環境中可訪問、可擴展的訓練資源,MedAgentGYM為開發基於LLM的先進生物醫學研究和實踐編碼助手提供了一個整合平台。
现有的大多数视觉编码器将图像映射为固定长度的标记序列,忽视了不同图像所含信息量各异的事实。例如,视觉上复杂的图像(如杂乱的房间)天然携带更多信息,因此应比简单图像(如空白的墙壁)分配更多的标记。针对这一效率低下的问题,我们提出了DOVE,一种动态视觉编码器,它生成可变数量的视觉标记(即连续表示向量)来重建每幅图像。我们的结果表明,DOVE在保持高重建质量的同时,显著减少了平均标记数量。在多项线性探测及下游多模态任务中,相较于固定长度编码,DOVE在使用远少标记的情况下,超越了现有的基于自编码器的标记化方法,捕捉到了更具表现力的语义特征。我们进一步扩展了DOVE,引入了查询条件化标记化技术。通过引导模型聚焦于与查询相关的区域,实现了更高效且有针对性的语义提取。我们的代码及检查点可在https://dove-encoder.github.io/dove-encoder获取。
3D高斯溅射(3DGS)因其在新视角合成和3D建模中的实时、照片级真实感渲染而备受关注。然而,现有方法在准确建模受瞬态物体影响的场景时存在困难,导致渲染图像中出现伪影。我们发现,高斯密度化过程虽然在增强场景细节捕捉方面效果显著,却无意中通过生成额外的高斯分布来模拟瞬态干扰,从而加剧了这些伪影。为解决这一问题,我们提出了RobustSplat,一种基于两个关键设计的鲁棒解决方案。首先,我们引入了一种延迟高斯增长策略,该策略优先优化静态场景结构,再允许高斯分裂/克隆,从而在早期优化中减少对瞬态物体的过拟合。其次,我们设计了一种尺度级联掩码自举方法,该方法首先利用较低分辨率的特征相似性监督进行可靠的初始瞬态掩码估计,充分利用其更强的语义一致性和对噪声的鲁棒性,然后逐步过渡到高分辨率监督,以实现更精确的掩码预测。在多个具有挑战性的数据集上进行的大量实验表明,我们的方法优于现有方法,清晰地展示了我们方法的鲁棒性和有效性。我们的项目页面是https://fcyycf.github.io/RobustSplat/。
隨著自主代理代表用戶做出決策的時代展開,確保情境完整性(Contextual Integrity, CI)——即在執行特定任務時應分享何種適當信息——成為該領域的核心問題。我們認為,CI要求一種推理形式,即代理需要對其運作的情境進行推理。為驗證這一點,我們首先促使大型語言模型(LLMs)在決定披露何種信息時,明確地對CI進行推理。隨後,我們通過開發一個強化學習(RL)框架來擴展這一方法,該框架進一步在模型中灌輸實現CI所需的推理能力。利用一個僅包含700個示例但具有多樣化情境和信息披露規範的合成、自動生成的數據集,我們展示了我們的方法在多種模型規模和家族中,大幅減少了不當信息披露,同時保持了任務表現。重要的是,這些改進從這一合成數據集轉移到了已建立的CI基準測試,如PrivacyLens,該基準測試包含人類註釋並評估AI助手在行動和工具調用中的隱私洩露情況。
我们提出了“修正点流”(Rectified Point Flow),这是一种统一的参数化方法,将成对点云配准与多部件形状装配表述为单一的条件生成问题。面对未定位的点云,我们的方法学习一个连续的点速度场,该场将噪声点向目标位置输送,从而恢复出部件的姿态。与先前通过临时对称性处理回归部件姿态的工作不同,我们的方法无需对称性标签即可内在地学习装配对称性。结合专注于重叠点的自监督编码器,我们的方法在涵盖成对配准与形状装配的六个基准测试中实现了新的最先进性能。尤为重要的是,这一统一公式使得在多样化数据集上进行有效联合训练成为可能,促进了共享几何先验的学习,进而提升了准确性。项目页面:https://rectified-pointflow.github.io/。
檢索增強生成(RAG)系統普遍面臨知識衝突的問題,即檢索到的外部知識與大型語言模型(LLMs)內在的參數化知識相矛盾。這對下游任務(如問答系統QA)的表現產生了不利影響。現有方法通常試圖通過直接並排比較兩種知識來源來緩解衝突,但這種做法可能會使LLMs陷入冗長或不相關的上下文之中,最終阻礙其識別和解決不一致性的能力。為解決這一問題,我們提出了Micro-Act框架,該框架具有分層的行動空間,能夠自動感知上下文複雜度,並自適應地將每個知識來源分解為一系列細粒度的比較。這些比較被表示為可執行的步驟,從而實現超越表層上下文的推理。通過在五個基準數據集上的廣泛實驗,Micro-Act在所有五個數據集和三種衝突類型上均顯著提升了QA準確率,尤其是在時間和語義類型上,所有基線方法均表現不佳。更重要的是,Micro-Act在非衝突問題上同時展現出穩健的性能,凸顯了其在實際RAG應用中的實用價值。
合成高品質的動態醫學視頻仍是一項重大挑戰,這主要源於需要同時建模空間一致性和時間動態性。現有的基於Transformer的方法面臨關鍵限制,包括通道交互不足、自注意力機制帶來的高計算複雜度,以及在處理不同噪聲水平時,時間步嵌入提供的去噪指導過於粗糙。在本研究中,我們提出了FEAT,一種全維度高效注意力Transformer,通過三項關鍵創新解決了這些問題:(1)採用序列化的空間-時間-通道注意力機制統一範式,以捕捉所有維度上的全局依賴關係;(2)為每個維度的注意力機制設計線性複雜度方案,利用加權鍵值注意力和全局通道注意力;(3)引入殘差值指導模塊,提供細粒度的像素級指導,以適應不同的噪聲水平。我們在標準基準測試和下游任務上對FEAT進行了評估,結果表明,僅擁有最先進模型Endora 23%參數的FEAT-S,達到了與之相當甚至更優的性能。此外,FEAT-L在多個數據集上超越了所有對比方法,展示了其卓越的有效性和可擴展性。代碼已公開於https://github.com/Yaziwel/FEAT。
基於示例圖像對圖像中物體材質進行編輯,是計算機視覺與圖形學領域的一個活躍研究方向。本文提出MARBLE方法,該方法通過在CLIP空間中尋找材質嵌入並利用其控制預訓練的文本到圖像模型,實現了材質混合與細粒度材質屬性的重構。我們通過定位去噪UNet中負責材質歸因的模塊,改進了基於示例的材質編輯。給定兩張材質示例圖像,我們在CLIP空間中找到了混合材質的方向。此外,利用淺層網絡預測期望材質屬性變化的方向,我們能夠實現對粗糙度、金屬感、透明度及發光等細粒度材質屬性的參數化控制。通過定性與定量分析,我們驗證了所提方法的有效性。同時,我們展示了該方法在單次前向傳播中執行多重編輯的能力及其在繪畫中的應用潛力。項目頁面:https://marblecontrol.github.io/
文本驅動的視頻編輯旨在根據自然語言指令修改視頻內容。儘管最近無需訓練的方法通過利用預訓練的擴散模型取得了進展,但它們通常依賴於基於反演的技術,將輸入視頻映射到潛在空間,這往往導致時間上的不一致性和結構保真度的降低。為解決這一問題,我們提出了FlowDirector,一種新穎的無反演視頻編輯框架。我們的框架將編輯過程建模為數據空間中的直接演化,通過常微分方程(ODE)引導視頻沿其固有的時空流形平滑過渡,從而保持時間一致性和結構細節。為實現局部化和可控的編輯,我們引入了一種注意力引導的遮罩機制,調節ODE速度場,在空間和時間上保留非目標區域。此外,為解決編輯不完整並增強與編輯指令的語義對齊,我們提出了一種受無分類器引導啟發的引導增強編輯策略,該策略利用多個候選流之間的差分信號,在不損害結構一致性的情況下,引導編輯軌跡朝向更強的語義對齊。跨基準的廣泛實驗表明,FlowDirector在指令遵循、時間一致性和背景保留方面達到了最先進的性能,為無反演的高效和連貫視頻編輯建立了新範式。
近期,慢思維語言模型(如OpenAI-o1和DeepSeek-R1)在模擬人類反思性認知方面展現了在複雜推理任務中的卓越能力。然而,將此類能力擴展至多模態大型語言模型(MLLMs)仍面臨挑戰,主要因為在升級底層推理器LLMs時,重新訓練視覺-語言對齊的高昂成本。一個直接的解決方案是將感知與推理分離,即把視覺輸入轉換為語言表示(如字幕),然後傳遞給一個強大的純文本推理器。然而,這種分離引入了一個關鍵挑戰:視覺提取器必須生成既忠實於圖像又足夠信息豐富以支持準確下游推理的描述。為解決這一問題,我們提出了通過字幕獎勵優化實現的推理對齊感知分離(RACRO)——一種推理引導的強化學習策略,該策略將提取器的字幕生成行為與推理目標對齊。通過基於獎勵的優化閉合感知-推理循環,RACRO顯著增強了視覺基礎並提取了推理優化的表示。在多模態數學和科學基準測試中的實驗表明,所提出的RACRO方法在實現最先進的平均性能的同時,還提供了卓越的可擴展性和即插即用的適應性,能夠無需昂貴的多模態重新對齊即可適應更先進的推理LLMs。
大型语言模型(LLMs)的水印技术对其输出质量具有显著影响,然而这些技术对真实性、安全性及实用性的影响却鲜有深入探讨。本文系统分析了两种主流水印方法——Gumbel与KGW——在四种对齐LLMs中对这些核心对齐属性的影响。实验揭示出两种不同的性能退化模式:防护衰减,即增强的实用性削弱了模型的安全性;以及防护放大,即过度的谨慎降低了模型的实用性。这些模式源于水印引发的令牌分布变化,凸显了对齐目标间存在的根本性张力。 为缓解此类退化,我们提出了对齐重采样(Alignment Resampling, AR),一种在推理阶段利用外部奖励模型恢复对齐的采样方法。我们建立了随着样本量增加,预期奖励分数改进的理论下限,并通过实证表明,仅对2至4个水印生成样本进行采样,即可有效恢复甚至超越基线(无水印)对齐分数。针对标准Gumbel水印响应多样性有限的问题,我们的改进实现牺牲了严格的失真无痕性,同时保持了强健的检测能力,确保了与AR的兼容性。实验结果证实,AR在两种水印方法中均成功恢复了基线对齐,同时保持了高水印检测率。本研究揭示了水印强度与模型对齐之间的关键平衡,为实践中负责任地部署带水印LLMs提供了一个简单的推理阶段解决方案。
精確的LiDAR-相機校準是實現自動駕駛與機器人系統中多模態感知融合的基礎。傳統校準方法需在受控環境下進行大量數據採集,且無法補償車輛/機器人運動過程中的變換變化。本文提出首個利用鳥瞰圖(BEV)特徵從原始數據中進行LiDAR-相機校準的模型,命名為BEVCALIB。為此,我們分別提取相機BEV特徵與LiDAR BEV特徵,並將其融合至共享的BEV特徵空間。為充分利用BEV特徵中的幾何信息,我們引入了一種新穎的特徵選擇器,用於在變換解碼器中篩選最關鍵的特徵,從而降低內存消耗並實現高效訓練。在KITTI、NuScenes及我們自建數據集上的廣泛評估表明,BEVCALIB樹立了新的技術標杆。在各種噪聲條件下,BEVCALIB在KITTI數據集上以(平移,旋轉)指標分別平均超越文獻中最佳基線(47.08%,82.32%),在NuScenes數據集上則分別為(78.17%,68.29%)。在開源領域,它將最佳可復現基線提升了一個數量級。我們的代碼與演示結果可於https://cisl.ucr.edu/BEVCalib獲取。
手物交互(HOI)生成具有显著的应用潜力。然而,当前的三维HOI运动生成方法严重依赖于预定义的三维物体模型和实验室捕获的运动数据,这限制了其泛化能力。同时,HOI视频生成方法优先考虑像素级的视觉保真度,往往牺牲了物理合理性。认识到视觉外观与运动模式在现实世界中共享基本的物理规律,我们提出了一种新颖的框架,该框架在同步扩散过程中结合了视觉先验和动态约束,以同时生成HOI视频和运动。为了整合异质的语义、外观和运动特征,我们的方法实现了三模态自适应调制以进行特征对齐,并结合三维全注意力机制来建模模态间和模态内的依赖关系。此外,我们引入了一种视觉感知的三维交互扩散模型,该模型直接从同步扩散输出中生成明确的三维交互序列,然后将其反馈回去,形成一个闭环反馈循环。这种架构消除了对预定义物体模型或明确姿态指导的依赖,同时显著增强了视频与运动的一致性。实验结果表明,我们的方法在生成高保真、动态合理的HOI序列方面优于最先进的方法,在未见过的现实场景中展现出显著的泛化能力。项目页面位于https://github.com/Droliven/SViMo\_project。
精確預測來自視覺輸入的3D佔用網格對於自動駕駛至關重要,但當前的判別式方法在處理噪聲數據、不完整觀測以及3D場景中固有的複雜結構時面臨挑戰。在本研究中,我們將3D佔用預測重新定義為使用擴散模型的生成建模任務,這些模型學習底層數據分佈並融入3D場景先驗。此方法增強了預測的一致性、噪聲魯棒性,並更好地處理了3D空間結構的複雜性。我們的大量實驗表明,基於擴散的生成模型超越了最先進的判別式方法,提供了更為真實和精確的佔用預測,特別是在遮擋或低能見度區域。此外,改進的預測顯著有益於下游規劃任務,凸顯了我們方法在現實世界自動駕駛應用中的實際優勢。
自動化運動技能評估需捕捉區分專家與新手表現的基本動作模式,然而現有的視頻採樣方法會破壞評估熟練度所需的時間連續性。為此,我們提出了一種新穎的採樣策略——熟練度感知時間採樣(Proficiency-Aware Temporal Sampling, PATS),該策略在連續時間段內保留完整的基本動作,以實現多視角技能評估。PATS自適應地分割視頻,確保每個分析部分包含關鍵表現組件的完整執行,並在多個片段中重複此過程,以在保持時間連貫性的同時最大化信息覆蓋範圍。在EgoExo4D基準上使用SkillFormer進行評估,PATS在所有視角配置下的準確率均超越了現有技術水平(+0.65%至+3.05%),並在具挑戰性的領域中取得了顯著提升(+26.22%攀岩,+2.39%音樂,+1.13%籃球)。系統分析表明,PATS成功適應了多樣化的活動特性——從動態運動的高頻採樣到序列技能的細粒度分割——展示了其作為一種適應性時間採樣方法在推進現實世界應用中自動化技能評估的有效性。
CT影像的自動解讀——尤其是在多平面及全身掃描中定位並描述異常發現——仍然是臨床放射學中的一項重大挑戰。本研究旨在通過四項關鍵貢獻來應對這一挑戰:(一)在分類學方面,我們與資深放射科醫師合作,提出了一套全面的層級分類系統,涵蓋所有身體區域的404種代表性異常發現;(二)在數據方面,我們貢獻了一個包含超過14.5K張來自多平面及所有人體區域CT影像的數據集,並精心提供了超過19K個異常的定位標註,每個異常均與詳細描述相連結並納入分類系統;(三)在模型開發方面,我們提出了OminiAbnorm-CT,該模型能夠基於文本查詢自動定位並描述多平面及全身CT影像上的異常發現,同時允許通過視覺提示進行靈活互動;(四)在基準測試方面,我們基於真實臨床場景建立了三項代表性評估任務。通過大量實驗,我們展示了OminiAbnorm-CT在所有任務和指標上均能顯著超越現有方法。
自監督模型學習的語音表徵在多大程度上具有語言特異性?已有研究表明,僅通過語音錄音訓練的端到端模型能夠成功解碼出一系列語言特徵。然而,針對特定語言的預訓練在多大程度上增強了語言特異性信息的捕捉,尚不明確。本文探討了自監督Wav2Vec2模型內部表徵中荷蘭語語音及詞彙信息的編碼情況。與在相似量的英語或更大規模的多語言數據上進行預訓練相比,僅在荷蘭語上進行預訓練顯著提升了對荷蘭語語言特徵的表達能力。這一語言特異性優勢可通過訓練有素的聚類或分類探針有效檢測,並在零樣本度量中部分顯現。此外,語言特異性對語言特徵編碼的益處與自動語音識別的下游任務表現相吻合。