每日精選AI研究論文及翻譯
歸一化層在現代神經網絡中無處不在,長期以來被認為是不可或缺的。本研究表明,無需歸一化的Transformer模型通過一種極為簡單的技術即可達到同等甚至更優的性能。我們引入了動態Tanh(DyT),這是一種元素級操作DyT(x) = tanh(alpha x),作為Transformer中歸一化層的直接替代品。DyT的靈感來自於觀察到Transformer中的層歸一化常常產生類似tanh的S形輸入輸出映射。通過融入DyT,無需歸一化的Transformer模型能夠匹配或超越其帶歸一化對應模型的性能,且大多無需進行超參數調優。我們在多種場景下驗證了帶有DyT的Transformer的有效性,範圍涵蓋從識別到生成、從監督學習到自監督學習,以及從計算機視覺到語言模型。這些發現挑戰了現代神經網絡中歸一化層不可或缺的傳統認知,並為其在深度網絡中的角色提供了新的見解。
隨著現今已有數百萬個公開可用的神經網絡,搜尋與分析大型模型庫變得日益重要。在如此眾多的模型中進行導航需要一份地圖集,但由於大多數模型缺乏完善的文檔,繪製這樣的地圖集頗具挑戰性。為了探索模型庫的潛在價值,我們繪製了一份初步的地圖集,代表了Hugging Face平台上已文檔化的部分。這份地圖集提供了模型景觀及其演變的驚人視覺化效果。我們展示了這份地圖集的幾種應用,包括預測模型屬性(例如準確率)以及分析計算機視覺模型的趨勢。然而,由於當前的地圖集仍不完整,我們提出了一種方法來繪製未文檔化的區域。具體而言,我們基於現實世界主流的模型訓練實踐,識別出高置信度的結構先驗。利用這些先驗,我們的方法能夠精確地映射地圖集中先前未文檔化的區域。我們公開釋出了我們的數據集、代碼及互動式地圖集。
如穩定擴散(Stable Diffusion)和DALLE-3等文本生成圖像模型,在多輪圖像編輯任務上仍面臨挑戰。我們將此類任務分解為一個工具使用的代理工作流程(路徑),通過不同成本的AI工具來處理一系列子任務。傳統的搜索算法需要進行昂貴的探索來找到工具路徑。儘管大型語言模型(LLMs)具備子任務規劃的先驗知識,但它們可能缺乏對工具能力和成本的準確估計,從而難以確定在每個子任務中應使用哪種工具。我們能否結合LLMs和圖搜索的優勢,找到成本效益高的工具路徑?我們提出了一種三階段方法“CoSTA*”,該方法利用LLMs創建子任務樹,這有助於為給定任務修剪AI工具圖,然後在小型子圖上進行A*搜索以找到工具路徑。為了更好地平衡總成本和質量,CoSTA*結合了每個工具在每個子任務上的兩個指標來指導A*搜索。每個子任務的輸出隨後由視覺語言模型(VLM)進行評估,若失敗則觸發對該工具在該子任務上成本和質量的更新。因此,A*搜索能夠快速從失敗中恢復,探索其他路徑。此外,CoSTA*能夠在子任務之間自動切換模式,以實現更好的成本質量權衡。我們構建了一個具有挑戰性的多輪圖像編輯新基準,在此基準上,CoSTA*在成本和質量方面均優於最先進的圖像編輯模型或代理,並能根據用戶偏好進行多樣化的權衡。
近期大型視覺語言模型(LVLMs)的進展在具身任務規劃方面展現了潛力,然而這些模型在依賴性約束和效率等基本挑戰上仍存在困難。現有方法要么僅優化動作選擇,要么在推理過程中利用世界模型,卻忽視了通過學習建模世界來增強規劃能力的好處。我們提出了雙重偏好優化(D^2PO),這是一種新的學習框架,通過偏好學習聯合優化狀態預測和動作選擇,使LVLMs能夠理解環境動態以實現更好的規劃。為了在無需人工註釋的情況下自動收集軌跡和逐步偏好數據,我們引入了一種樹搜索機制,通過試錯進行廣泛探索。在VoTa-Bench上的大量實驗表明,當應用於Qwen2-VL(7B)、LLaVA-1.6(7B)和LLaMA-3.2(11B)時,我們基於D^2PO的方法顯著優於現有方法和GPT-4o,以更高效的執行路徑實現了更高的任務成功率。
現有的圖像生成與編輯方法主要將文本提示作為直接輸入進行處理,而缺乏對視覺構圖和明確操作的推理。我們提出了生成思維鏈(Generation Chain-of-Thought, GoT),這是一種新穎的範式,通過在輸出圖像之前進行明確的語言推理過程來實現生成和編輯。這種方法將傳統的文本到圖像生成和編輯轉化為一個推理引導的框架,該框架分析語義關係和空間佈局。我們定義了GoT的公式,並構建了包含超過900萬個樣本的大規模GoT數據集,這些樣本詳細記錄了捕捉語義-空間關係的推理鏈。為了充分利用GoT的優勢,我們實現了一個統一的框架,該框架將Qwen2.5-VL用於推理鏈生成,並與一個由我們新穎的語義-空間引導模塊增強的全端到端擴散模型相結合。實驗表明,我們的GoT框架在生成和編輯任務上均表現出色,相較於基準方法有顯著提升。此外,我們的方法支持互動式視覺生成,允許用戶明確修改推理步驟以進行精確的圖像調整。GoT開創了推理驅動的視覺生成和編輯的新方向,生成的圖像更符合人類意圖。為了促進未來研究,我們在https://github.com/rongyaofang/GoT公開了我們的數據集、代碼和預訓練模型。
本文介紹了SANA-Sprint,一種用於超快速文本到圖像(T2I)生成的高效擴散模型。SANA-Sprint基於預訓練的基礎模型,並通過混合蒸餾技術進行增強,將推理步驟從20步大幅減少至1-4步。我們提出了三項關鍵創新:(1)我們提出了一種無需訓練的方法,將預訓練的流匹配模型轉化為連續時間一致性蒸餾(sCM),避免了從頭開始訓練的高昂成本,實現了高效的訓練。我們的混合蒸餾策略結合了sCM與潛在對抗蒸餾(LADD):sCM確保與教師模型的一致性,而LADD則提升了單步生成的保真度。(2)SANA-Sprint是一個統一的步數自適應模型,能夠在1-4步內實現高質量生成,消除了步數特定訓練的需求,提高了效率。(3)我們將ControlNet與SANA-Sprint集成,實現了實時交互式圖像生成,為用戶交互提供即時視覺反饋。SANA-Sprint在速度與質量的權衡中建立了新的帕累托前沿,僅在1步內便達到了7.59 FID和0.74 GenEval的頂尖性能,超越了FLUX-schnell(7.94 FID / 0.71 GenEval),同時速度提升了10倍(H100上0.1秒對比1.1秒)。此外,它在H100上實現了1024 x 1024圖像的0.1秒(T2I)和0.25秒(ControlNet)延遲,在RTX 4090上實現了0.31秒(T2I)的延遲,展示了其卓越的效率及在AI驅動消費應用(AIPC)中的潛力。代碼與預訓練模型將開源。
我們推出VisualPRM,這是一個擁有80億參數的先進多模態過程獎勵模型(PRM),它通過Best-of-N(BoN)評估策略提升了現有多模態大語言模型(MLLMs)在不同模型規模和家族中的推理能力。具體而言,我們的模型提升了三種類型MLLMs和四種不同模型規模的推理性能。即使應用於性能卓越的InternVL2.5-78B,它也在七個多模態推理基準上實現了5.9分的提升。實驗結果表明,在BoN評估中,我們的模型相比結果獎勵模型和自我一致性展現出更優異的性能。為了促進多模態PRMs的訓練,我們利用自動化數據管道構建了一個多模態過程監督數據集VisualPRM400K。針對多模態PRMs的評估,我們提出了VisualProcessBench,這是一個帶有人工註釋的逐步正確性標籤的基準,用於衡量PRMs在多模態推理任務中檢測錯誤步驟的能力。我們希望我們的工作能激發更多未來研究,並為MLLMs的發展做出貢獻。我們的模型、數據和基準已發佈於https://internvl.github.io/blog/2025-03-13-VisualPRM/。
文本到圖像擴散模型在根據文字提示生成高質量內容方面取得了顯著成功。然而,這些模型對公開可用數據的依賴以及微調數據共享的日益增長趨勢,使其特別容易受到數據投毒攻擊的影響。在本研究中,我們提出了一種名為「無聲品牌攻擊」的新型數據投毒方法,該方法能夠操縱文本到圖像擴散模型,使其在沒有任何文字觸發的情況下生成包含特定品牌標誌或符號的圖像。我們發現,當訓練數據中反覆出現某些視覺模式時,模型會自然地在其輸出中重現這些模式,即使提示中並未提及。基於這一發現,我們開發了一種自動化的數據投毒算法,能夠不引人注目地將標誌注入原始圖像中,確保它們自然融合且不易被察覺。在這種被投毒的數據集上訓練的模型能夠生成包含標誌的圖像,而不會降低圖像質量或文字對齊效果。我們在兩個現實場景下對大規模高質量圖像數據集和風格個性化數據集進行了實驗驗證,即使沒有特定的文字觸發,也取得了很高的成功率。通過人類評估和包括標誌檢測在內的定量指標,我們的方法能夠隱蔽地嵌入標誌。
使文本到图像(T2I)生成模型在采样时既快速又优质,代表了一个极具前景的研究方向。以往的研究通常侧重于以牺牲采样效率为代价来提升合成图像的视觉质量,或是在不提升基础模型生成能力的情况下显著加速采样。此外,几乎所有推理方法都未能同时在扩散模型(DMs)和视觉自回归模型(ARMs)上确保稳定的性能。本文中,我们引入了一种新颖的即插即用推理范式——CoRe^2,它包含三个子过程:收集(Collect)、反映(Reflect)和精炼(Refine)。CoRe^2首先收集无分类器引导(CFG)轨迹,随后利用收集的数据训练一个弱模型,该模型反映易于学习的内容,同时将推理过程中的函数评估次数减半。接着,CoRe^2采用弱到强引导来精炼条件输出,从而提升模型生成高频和真实内容的能力,这些内容对于基础模型而言难以捕捉。据我们所知,CoRe^2是首个在包括SDXL、SD3.5和FLUX在内的多种DMs,以及如LlamaGen的ARMs上均展现出效率与效果的方法。它在HPD v2、Pick-of-Pic、Drawbench、GenEval和T2I-Compbench等基准测试中均表现出显著的性能提升。此外,CoRe^2能够无缝集成最先进的Z-Sampling技术,在PickScore和AES上分别超越其0.3和0.16分,同时在使用SD3.5时节省了5.64秒的时间。代码已发布于https://github.com/xie-lab-ml/CoRe/tree/main。
學習4D語言場以實現動態場景中時間敏感、開放式語言查詢,對於許多現實世界應用至關重要。雖然LangSplat成功將CLIP特徵嵌入到3D高斯表示中,在3D靜態場景中實現了精確性和效率,但它無法處理動態4D場,因為CLIP專為靜態圖像-文本任務設計,無法捕捉視頻中的時間動態。現實環境本質上是動態的,物體語義隨時間演變。構建精確的4D語言場需要獲取像素對齊、物體級別的視頻特徵,而當前視覺模型難以實現這一點。為應對這些挑戰,我們提出了4D LangSplat,它學習4D語言場以高效處理動態場景中時間無關或時間敏感的開放詞彙查詢。4D LangSplat繞過從視覺特徵學習語言場,而是直接從通過多模態大語言模型(MLLMs)生成的物體級別視頻描述中學習。具體而言,我們提出了一種多模態物體級別視頻提示方法,包含視覺和文本提示,引導MLLMs為視頻中的物體生成詳細、時間一致、高質量的描述。這些描述使用大語言模型編碼為高質量句子嵌入,隨後作為像素對齊、物體特定的特徵監督,通過共享嵌入空間促進開放詞彙文本查詢。考慮到4D場景中的物體狀態呈現平滑過渡,我們進一步提出了一種狀態可變網絡,以有效建模這些隨時間的連續變化。我們在多個基準測試中的結果表明,4D LangSplat在時間敏感和時間無關的開放詞彙查詢中均達到了精確且高效的結果。
本文介紹了我們在Light-R1系列上的工作,並公開了模型、數據和代碼。我們首先專注於從零開始訓練長鏈思維(COT)模型,特別是從最初缺乏長鏈思維能力的模型入手。通過採用包含兩階段監督微調(SFT)和半在線策略直接偏好優化(DPO)的課程訓練方案,我們從Qwen2.5-32B-Instruct訓練出了Light-R1-32B模型,其在數學表現上優於DeepSeek-R1-Distill-Qwen-32B。儘管僅在數學數據上進行訓練,Light-R1-32B在其他領域也展現出強大的泛化能力。在後續工作中,我們強調了為第二階段SFT構建的3k數據集對提升其他模型的顯著益處。通過使用該數據集微調DeepSeek-R1-Distilled模型,我們在7B和14B規模上獲得了新的SOTA模型,而32B模型Light-R1-32B-DS的表現與QwQ-32B和DeepSeek-R1相當。此外,我們通過在長鏈思維模型上應用強化學習(特別是GRPO)進一步提升了推理性能。我們成功訓練出了最終的Light-R1-14B-DS模型,其在數學領域的14B參數模型中達到了SOTA水平。憑藉AIME24和AIME25分別為74.0和60.2的成績,Light-R1-14B-DS超越了許多32B模型以及DeepSeek-R1-Distill-Llama-70B。其強化學習訓練也展現出預期的良好行為,即響應長度和獎勵分數同步提升。Light-R1系列的工作驗證了從零開始訓練長鏈思維模型的可行性,展示了SFT數據的藝術,並通過強化學習發布了SOTA模型。
基於擴散的生成模型已革新了面向對象的圖像編輯領域,然而其在真實物體移除與插入中的應用仍受制於物理效應的複雜交互及配對訓練數據不足等挑戰。本研究提出OmniPaint,一個將物體移除與插入重新定義為相互依賴過程而非孤立任務的統一框架。通過利用預訓練的擴散先驗,結合包含初始配對樣本優化及後續大規模非配對CycleFlow精煉的漸進式訓練管道,OmniPaint實現了精確的前景消除與無縫的物體插入,同時忠實地保留了場景幾何與內在屬性。此外,我們新穎的CFD度量標準為上下文一致性與物體幻覺提供了無參考的穩健評估,為高保真圖像編輯設立了新基準。項目頁面:https://yeates.github.io/OmniPaint-Page/
視覺語言模型在許多以感知為核心的任務上取得了顯著進展,然而,由於缺乏高質量且多樣化的訓練數據,其在推理導向任務上的進展似乎受到限制。本研究旨在解決推理導向多模態數據集稀缺的問題。我們提出了VisualWebInstruct——一種新穎的方法,利用搜索引擎創建一個涵蓋數學、物理、金融、化學等多個學科領域的多樣化、高質量數據集。從精心挑選的30,000張種子圖像出發,我們運用Google圖片搜索來識別包含相似圖片的網站。我們收集並處理了超過70萬個獨特URL來源的HTML內容。通過內容提取、過濾與合成的流程,我們構建了一個包含約90萬個問答對的數據集,其中40%為視覺問答對,其餘為文本問答對。在VisualWebInstruct上微調的模型展現了顯著的性能提升:(1) 基於Llava-OV-mid的訓練在各基準測試中實現了10-20%的絕對分數提升,(2) 基於MAmmoTH-VL的訓練則獲得了5%的絕對提升。我們的最佳模型MAmmoTH-VL2在10B參數級別內,於MMMU-Pro-std(40.7%)、MathVerse(42.6%)及DynaMath(55.7%)上展現了領先的性能。這些卓越的成果凸顯了我們數據集在增強視覺語言模型處理複雜多模態任務推理能力方面的有效性。
大型推理模型(LRMs)的最新進展,尤其是那些利用思維鏈推理(CoT)的模型,為機器翻譯(MT)開闢了全新的可能性。本立場文件主張,LRMs通過將翻譯重新定義為一項需要上下文、文化和語言理解與推理的動態推理任務,從根本上轉變了傳統神經機器翻譯以及基於大型語言模型(LLMs)的翻譯範式。我們識別出三大基礎性轉變:1)上下文連貫性,LRMs通過對跨句子和複雜上下文甚至缺乏上下文的顯式推理來解決歧義並保持話語結構;2)文化意圖性,使模型能夠通過推斷說話者意圖、受眾期望和社會語言規範來調整輸出;3)自我反思,LRMs能夠在推理過程中進行自我反思,以糾正翻譯中的潛在錯誤,特別是在極端噪聲情況下,相比於簡單的X->Y映射翻譯,展現出更好的魯棒性。我們通過展示實證案例,探討了翻譯中的各種場景,包括風格化翻譯、文檔級翻譯和多模態翻譯,這些案例展示了LRMs在翻譯中的優越性。我們還識別了LRMs在機器翻譯中的幾個有趣現象,如自動樞紐翻譯,以及關鍵挑戰,如翻譯中的過度本地化和推理效率。總之,我們認為LRMs重新定義了翻譯系統,使其不僅僅是文本轉換器,而是能夠推理文本之外意義的多語言認知代理。這一範式轉變提醒我們,在更廣泛的背景下,利用LRMs思考翻譯問題——我們在此基礎上能實現什麼。
近期,长上下文大型语言模型(LLMs)的进展主要集中在处理扩展输入上下文上,从而在长上下文理解方面取得了显著进步。然而,生成长篇输出的同等重要方面却相对较少受到关注。本文主张在自然语言处理(NLP)研究中实现范式转变,以应对长输出生成的挑战。诸如小说创作、长期规划和复杂推理等任务,要求模型能够理解广泛上下文,并生成连贯、内容丰富且逻辑一致的长篇文本。这些需求凸显了当前LLM能力中的一个关键空白。我们强调这一尚未充分探索的领域的重要性,并呼吁集中精力开发专门用于生成高质量长篇输出的基础LLMs,这些模型在现实世界应用中具有巨大潜力。
像素接地(Pixel Grounding),包括指代表達式分割(Referring Expression Segmentation, RES)等任務,因其在視覺與語言模態之間架起橋樑的巨大潛力而受到廣泛關注。然而,該領域的進展目前受到現有數據集固有局限性的制約,包括有限的物體類別、文本多樣性不足以及高質量註解的稀缺。為緩解這些限制,我們引入了GroundingSuite,它包含:(1)一個利用多個視覺-語言模型(Vision-Language Model, VLM)代理的自動化數據註解框架;(2)一個大規模訓練數據集,涵蓋了956萬個多樣化的指代表達式及其對應的分割結果;(3)一個精心策劃的評估基準,包含3,800張圖像。GroundingSuite訓練數據集促進了性能的顯著提升,使基於其訓練的模型能夠達到最先進的成果,具體而言,在gRefCOCO上實現了68.9的cIoU,在RefCOCOm上實現了55.3的gIoU。此外,GroundingSuite註解框架展現出相較於當前領先數據註解方法(即GLaMM)更高的效率,速度快達4.5倍。
過去一年中,視頻生成模型取得了顯著進展。AI視頻的質量持續提升,但代價是模型規模更大、數據量增加以及對訓練計算資源的需求更高。在本報告中,我們介紹了Open-Sora 2.0,這是一個僅耗資20萬美元訓練的商業級視頻生成模型。通過該模型,我們展示了訓練頂尖視頻生成模型的成本是高度可控的。我們詳細介紹了所有促成這一效率突破的技術,包括數據策劃、模型架構、訓練策略和系統優化。根據人類評估結果和VBench評分,Open-Sora 2.0可與全球領先的視頻生成模型相媲美,包括開源的HunyuanVideo和閉源的Runway Gen-3 Alpha。通過將Open-Sora 2.0完全開源,我們旨在普及先進視頻生成技術的訪問,促進內容創作領域更廣泛的創新和創造力。所有資源均公開於:https://github.com/hpcaitech/Open-Sora。
在本研究中,我們對用於文本到圖像生成的擴散變換器(DiTs)進行了實證研究,重點探討了架構選擇、文本條件策略及訓練協議。我們評估了一系列基於DiT的架構——包括PixArt風格和MMDiT變體——並將其與直接處理串聯文本和噪聲輸入的標準DiT變體進行比較。令人驚訝的是,我們的研究結果顯示,標準DiT的性能與這些專門模型相當,同時展現出更優的參數效率,尤其是在規模擴大時。利用層級參數共享策略,我們相較於MMDiT架構進一步減少了66%的模型大小,且對性能影響極小。基於對文本編碼器和變分自編碼器(VAEs)等關鍵組件的深入分析,我們引入了DiT-Air和DiT-Air-Lite。通過監督和獎勵微調,DiT-Air在GenEval和T2I CompBench上達到了最先進的性能,而DiT-Air-Lite儘管體積緊湊,仍保持高度競爭力,超越了大多數現有模型。
大型语言模型在复杂文本任务中展现出了卓越的推理能力。然而,多模态推理——即需要整合视觉与文本信息的任务——仍然是一个重大挑战。现有的视觉-语言模型往往难以有效分析和推理视觉内容,导致在复杂推理任务中表现欠佳。此外,缺乏全面的基准测试也阻碍了对多模态推理能力的准确评估。本文中,我们介绍了R1-Onevision,一种旨在弥合视觉感知与深度推理之间差距的多模态推理模型。为此,我们提出了一种跨模态推理管道,将图像转化为形式化的文本表示,从而实现基于语言的精确推理。利用这一管道,我们构建了R1-Onevision数据集,该数据集提供了跨多个领域的详细、逐步的多模态推理标注。我们通过监督微调和强化学习进一步开发了R1-Onevision模型,以培养高级推理能力和强大的泛化能力。为了全面评估不同阶段的多模态推理性能,我们引入了R1-Onevision-Bench,这是一个与人类教育阶段对齐的基准测试,涵盖了从初中到大学及以上的考试。实验结果表明,R1-Onevision在多个具有挑战性的多模态推理基准测试中实现了最先进的性能,超越了GPT-4o和Qwen2.5-VL等模型。
蒸餾擴散模型面臨一個關鍵限制:與其基礎模型相比,樣本多樣性有所降低。在本研究中,我們發現儘管存在這種多樣性損失,蒸餾模型仍保留了基礎模型的基本概念表徵。我們展示了控制蒸餾——在基礎模型上訓練的控制機制(如概念滑塊和LoRAs)可以無縫轉移到蒸餾模型,反之亦然,從而有效地蒸餾控制而無需重新訓練。這種表徵結構的保留促使我們深入研究蒸餾過程中多樣性崩潰的機制。為了理解蒸餾如何影響多樣性,我們引入了擴散目標(DT)可視化,這是一種分析和調試工具,揭示了模型在中間步驟如何預測最終輸出。通過DT可視化,我們識別了生成偽影和不一致性,並證明初始擴散時間步長不成比例地決定了輸出多樣性,而後續步驟主要用於細節精煉。基於這些洞察,我們提出了多樣性蒸餾——一種混合推理方法,策略性地僅在關鍵的第一時間步使用基礎模型,然後轉向高效的蒸餾模型。我們的實驗表明,這一簡單修改不僅恢復了從基礎模型到蒸餾模型的多樣性能力,而且出乎意料地超越了它,同時保持了蒸餾推理的計算效率,所有這些都不需要額外的訓練或模型修改。我們的代碼和數據可在https://distillation.baulab.info獲取。
近期在視頻生成領域的進展,已能利用可擴展的擴散變換器產生逼真、長達一分鐘的單鏡頭視頻。然而,現實世界的敘事視頻需要多鏡頭場景,且各鏡頭間需保持視覺與動態的一致性。本研究提出長上下文調優(Long Context Tuning, LCT),這是一種訓練範式,旨在擴展預訓練單鏡頭視頻擴散模型的上下文窗口,使其能直接從數據中學習場景級別的一致性。我們的方法將全注意力機制從單個鏡頭擴展至涵蓋場景內所有鏡頭,結合交錯的3D位置嵌入與異步噪聲策略,實現了無需額外參數的聯合與自回歸鏡頭生成。經過LCT雙向注意力調整的模型,可進一步通過上下文因果注意力進行微調,促進基於高效KV緩存的自回歸生成。實驗表明,經過LCT的單鏡頭模型能夠生成連貫的多鏡頭場景,並展現出包括組合生成與互動鏡頭擴展在內的新興能力,為更實用的視覺內容創作鋪平了道路。更多詳情請參見https://guoyww.github.io/projects/long-context-video/。
隨著我們擴展至更龐大的機器學習模型,數據並行方法中固有的頻繁同步需求造成了顯著的減速,這對進一步的擴展構成了關鍵挑戰。近期研究開發了一種方法(DiLoCo),在無需犧牲模型質量的前提下,放寬了同步需求。然而,這些研究並未深入分析DiLoCo的行為如何隨模型規模變化。在本研究中,我們探討了在固定計算預算下訓練大型語言模型時,DiLoCo的擴展規律行為。我們聚焦於算法因素,包括模型副本數量、超參數及令牌預算如何影響訓練,這些影響可通過擴展規律準確預測。我們發現,DiLoCo在模型規模上的擴展既具可預測性又穩健。當調校得當時,DiLoCo在模型規模上的擴展優於數據並行訓練,甚至在小模型規模下也能超越數據並行訓練。我們的結果展示了DiLoCo比先前文獻記載更廣泛的優勢,包括增加的最佳批次大小、隨著規模提升的下游泛化能力,以及在固定令牌預算下改善的評估損失。
隨著深度生成模型,特別是擴散模型的出現,影片生成技術取得了顯著進展。儘管現有方法在從文字提示或單一圖像生成高質量影片方面表現出色,但個性化的多主體影片生成仍是一個尚未被充分探索的挑戰。這項任務涉及合成包含多個不同主體的影片,每個主體由獨立的參考圖像定義,同時確保時間和空間的一致性。當前的方法主要依賴於將主體圖像映射到文字提示中的關鍵詞,這引入了模糊性並限制了其有效建模主體關係的能力。在本文中,我們提出了CINEMA,這是一個利用多模態大語言模型(MLLM)進行一致性多主體影片生成的新框架。我們的方法消除了主體圖像與文字實體之間明確對應的需求,減少了模糊性並降低了註釋工作量。通過利用MLLM來解釋主體關係,我們的方法促進了可擴展性,使得能夠使用大規模且多樣化的數據集進行訓練。此外,我們的框架可以根據不同數量的主體進行條件設置,為個性化內容創作提供了更大的靈活性。通過廣泛的評估,我們展示了我們的方法在提升主體一致性和整體影片連貫性方面的顯著改進,為故事敘述、互動媒體和個性化影片生成等先進應用鋪平了道路。
本文探討了在零樣本設置下使用文本到圖像模型生成分類學概念圖像的可行性。雖然基於文本的分類學擴充方法已相當成熟,但視覺維度的潛力仍未被充分探索。為此,我們提出了一個全面的分類學圖像生成基準,用於評估模型理解分類學概念並生成相關高質量圖像的能力。該基準包括常識性及隨機抽樣的WordNet概念,以及大型語言模型生成的預測。我們使用9種新穎的分類學相關文本到圖像指標及人類反饋對12個模型進行了評估。此外,我們率先將GPT-4反饋的成對評估應用於圖像生成。實驗結果顯示,模型的排名與標準的文本到圖像任務有顯著差異。Playground-v2和FLUX在各項指標和子集中持續表現優異,而基於檢索的方法表現不佳。這些發現凸顯了自動化結構化數據資源整理的潛力。
視覺語言模型(VLMs)在多種下游任務中展現了顯著的潛力,包括圖像/視頻生成、視覺問答、多模態聊天機器人以及視頻理解。然而,這些模型在處理基本的圖像變換時往往表現不佳。本文深入探討了VLMs在圖像層面的理解能力,特別是OpenAI的CLIP和Google的SigLIP模型。我們的研究發現,這些模型對多種圖像層面的增強處理缺乏理解。為了支持這項研究,我們創建了Flickr8k數據集的增強版本,將每張圖像與所應用的變換詳細描述配對。我們進一步探討了這種缺陷如何影響下游任務,尤其是在圖像編輯方面,並評估了最先進的Image2Image模型在簡單變換上的表現。
風格遷移涉及將參考圖像的風格轉移到目標圖像的內容上。基於LoRA(低秩適應)方法的最新進展在有效捕捉單一圖像風格方面顯示出潛力。然而,這些方法仍面臨顯著挑戰,如內容不一致、風格錯位和內容洩漏。本文全面分析了標準擴散參數化(即學習預測噪聲)在風格遷移中的局限性。為解決這些問題,我們引入了ConsisLoRA,這是一種基於LoRA的方法,通過優化LoRA權重以預測原始圖像而非噪聲,從而增強內容和風格的一致性。我們還提出了一種兩步訓練策略,將內容和風格的學習從參考圖像中解耦。為了有效捕捉內容圖像的全局結構和局部細節,我們引入了一種逐步損失過渡策略。此外,我們提出了一種推理指導方法,使在推理過程中能夠連續控制內容和風格的強度。通過定性和定量評估,我們的方法在內容和風格一致性方面顯示出顯著改進,同時有效減少了內容洩漏。
我們提出了ARPG,這是一種新穎的視覺自回歸模型,它能夠實現隨機並行生成,從而解決了傳統光柵順序方法固有的限制。這些限制由於其順序性、預定義的標記生成順序,阻礙了推理效率和零樣本泛化能力。我們的關鍵洞見是,有效的隨機順序建模需要明確的指導來確定下一個預測標記的位置。為此,我們提出了一種新穎的引導解碼框架,該框架將位置引導與內容表示解耦,分別將其編碼為查詢和鍵值對。通過直接將這種引導整合到因果注意力機制中,我們的方法實現了完全隨機順序的訓練和生成,消除了對雙向注意力的需求。因此,ARPG能夠輕鬆泛化到零樣本任務,如圖像修補、擴展和分辨率提升。此外,它通過使用共享的KV緩存並行處理多個查詢來支持並行推理。在ImageNet-1K 256基準測試中,我們的方法僅用64個採樣步驟就達到了1.94的FID,與類似規模的代表性近期自回歸模型相比,吞吐量提高了20倍以上,同時減少了超過75%的內存消耗。
先進的生成模型在圖像合成方面表現卓越,但通常依賴於基於文本的條件設定。然而,視覺設計師的工作往往超越語言範疇,直接從現有的視覺元素中汲取靈感。在許多情況下,這些元素僅代表潛在概念的片段——例如一個獨特結構的翅膀,或一種特定的髮型——作為藝術家探索如何將它們創意性地融合成一個連貫整體的靈感來源。認識到這一需求,我們引入了一個生成框架,該框架無縫整合用戶提供的一組部分視覺組件,同時採樣生成一個合理且完整概念所需的缺失部分。我們的方法建立在一個強大且未被充分探索的表徵空間之上,該空間從IP-Adapter+中提取,在此基礎上我們訓練了IP-Prior,這是一個輕量級的流匹配模型,基於特定領域的先驗知識合成連貫的構圖,實現多樣化且上下文感知的生成。此外,我們提出了一種基於LoRA的微調策略,顯著提高了IP-Adapter+在特定任務中的提示遵循能力,解決了其在重建質量與提示遵循之間常見的權衡問題。
本文提出了一種通用的零樣本目標導航框架。現有的零樣本方法基於大型語言模型(LLM)構建特定任務的推理框架,這些方法在整體流程上差異較大,且難以泛化到不同類型的目標。為實現通用零樣本導航,我們提出了一種統一的圖表示方法,以整合不同類型的目標,包括物體類別、實例圖像和文本描述。同時,我們將智能體的觀測轉化為在線維護的場景圖。通過這種一致的場景與目標表示,相比純文本,我們保留了更多的結構信息,並能夠利用LLM進行顯式的基於圖的推理。具體而言,我們在每個時間點對場景圖和目標圖進行圖匹配,並根據不同的匹配狀態提出不同的策略來生成探索的長期目標。當零匹配時,智能體首先迭代搜索目標子圖;在部分匹配時,智能體利用座標投影和錨點對齊來推斷目標位置;最後,在完全匹配時應用場景圖校正和目標驗證。我們還引入了一種黑名單機制,以實現階段間的穩健切換。在多個基準上的大量實驗表明,我們的UniGoal在三個研究的導航任務上以單一模型實現了最先進的零樣本性能,甚至超越了特定任務的零樣本方法和監督式通用方法。
自動語音辨識(ASR)模型在字幕生成、語音翻譯及即時轉錄等應用中日益受到重視。本文探討了Whisper及其兩種模型變體:一種針對即時語音串流進行優化,另一種則專注於離線轉錄。值得注意的是,這些模型被發現會產生虛構內容,降低了轉錄的可靠性。此外,較大的模型變體顯示出更高的延遲,並對資源受限設備的部署提出了挑戰。本研究分析了三種Whisper模型之間的相似性與差異,定性探討了它們各自的能力。接著,本研究量化了模型量化對延遲的影響,並評估了其在邊緣設備部署中的可行性。利用開源的LibriSpeech數據集,本文評估了使用三種量化方法(INT4、INT5、INT8)的whispercpp的詞錯誤率(WER)及延遲分析。結果顯示,量化使延遲降低了19%,模型大小減少了45%,同時保持了轉錄的準確性。這些發現為不同Whisper模型的最佳使用場景及邊緣設備部署的可能性提供了洞見。所有程式碼、數據集及實作細節均公開於GitHub倉庫:https://github.com/allisonandreyev/WhisperQuantization.git。
視覺Transformer模型展現出強大的能力,卻仍難以被人類理解,這為實際應用帶來了挑戰與風險。儘管先前的研究嘗試通過輸入歸因和神經元角色分析來揭示這些模型的神秘面紗,但在考慮層級信息及跨層信息流動的整體路徑方面存在顯著空白。本文中,我們探討了視覺Transformer內部影響力神經元路徑的重要性,這是一條從模型輸入到輸出、對模型推理影響最為顯著的神經元路徑。我們首先提出了一種聯合影響度量方法,用於評估一組神經元對模型結果的貢獻。進一步地,我們提供了一種層級漸進的神經元定位方法,該方法高效地選取每一層中最具影響力的神經元,旨在發現目標模型內從輸入到輸出的關鍵神經元路徑。實驗結果表明,我們的方法在發現信息流動的最具影響力神經元路徑方面,優於現有的基準解決方案。此外,這些神經元路徑揭示了視覺Transformer在處理同一圖像類別內的視覺信息時,展現出特定的內部工作機制。我們進一步分析了這些神經元在圖像分類任務中的關鍵作用,展示出所發現的神經元路徑已保留了模型在下游任務上的能力,這也可能為模型剪枝等實際應用提供啟示。包含實現代碼的項目網站可訪問:https://foundation-model-research.github.io/NeuronPath/。
大型語言模型(LLMs)正迅速進入兒童的生活——通過家長的主動採用、學校教育以及同儕網絡——然而,當前的AI倫理與安全研究並未充分解決針對未成年人的特定內容相關風險。本文中,我們通過一個基於LLM的聊天機器人在中學環境中的實際案例研究,揭示了學生們如何使用乃至有時誤用該系統,從而凸顯這些不足。基於這些發現,我們提出了一個新的未成年人內容風險分類法,並介紹了MinorBench,這是一個開源基準,旨在評估LLMs在拒絕來自兒童的不安全或不恰當查詢方面的能力。我們在不同系統提示下評估了六個知名LLMs,展示了它們在兒童安全合規性上的顯著差異。我們的研究結果為構建更為堅固、以兒童為中心的安全機制提供了實用步驟,並強調了定制AI系統以保護年輕用戶的緊迫性。
物件幻覺(Object Hallucination, OH)已被公認為大型視覺語言模型(Large Vision-Language Models, LVLMs)中主要的可信度挑戰之一。近期大型語言模型(Large Language Models, LLMs)的進展表明,內部狀態(如隱藏狀態)編碼了生成回應的「整體真實性」。然而,LVLMs中的內部狀態如何運作,以及它們是否能夠作為「逐詞元」的幻覺指標,這對於緩解OH至關重要,目前仍未被充分探索。本文首先深入探討了LVLM內部狀態與OH問題的關聯,並發現:(1) LVLM內部狀態是幻覺行為的高特異性逐詞元指標。此外,(2) 不同的LVLMs在共同的潛在子空間中編碼了幻覺的普遍模式,這表明存在多種LVLMs共享的「通用真實方向」。基於這些發現,我們提出了真實引導預干預(Truthful-Guided Pre-Intervention, TruthPrInt),該方法首先學習LVLM解碼的真實方向,然後在LVLM解碼過程中應用真實引導的推理時間干預。我們進一步提出了ComnHallu,通過構建和對齊幻覺潛在子空間來增強跨LVLM和跨數據的幻覺檢測可轉移性。我們在多種實驗設置中評估了TruthPrInt,包括域內和域外場景,並在流行的LVLMs和OH基準上進行了測試。實驗結果表明,TruthPrInt顯著優於現有的最先進方法。代碼將在https://github.com/jinhaoduan/TruthPrInt上提供。
在開源軟體開發的協作過程中,錯誤報告討論中的毒性問題帶來了重大挑戰。錯誤報告對於識別和解決缺陷至關重要,然而其本質上以問題為導向的特性以及情緒化的語境,使其容易產生有害的互動。本研究透過對203個GitHub錯誤討論串(其中包括81個有毒討論)的質性分析,探討了錯誤報告中的毒性現象。我們的研究發現,毒性往往源於對錯誤嚴重性和優先級認知的不一致、對工具未解決的挫敗感,以及專業溝通的缺失。這些有害的互動不僅阻礙了富有成效的討論,還降低了可執行結果(如將問題與拉取請求關聯)的可能性。我們的初步研究結果提供了可操作的建議,以通過減輕毒性來改善錯誤解決流程。
在小批量最優傳輸耦合中,無條件流匹配的路徑被拉直。這導致了計算上更為簡便的推理,因為在測試時數值求解常微分方程時,可以使用更少的積分步驟和更簡單的數值求解器。然而,在條件設置下,小批量最優傳輸則顯得不足。這是因為默認的最優傳輸映射忽略了條件,導致在訓練過程中產生條件性偏斜的先驗分佈。相反,在測試時,我們無法訪問這個偏斜的先驗,而是從完整、無偏的先驗分佈中進行採樣。這種訓練與測試之間的差距導致了性能不佳。為彌補這一差距,我們提出了條件最優傳輸C^2OT,它在計算最優傳輸分配時,在成本矩陣中添加了一個條件加權項。實驗表明,這一簡單的修復方法在8gaussians-to-moons、CIFAR-10、ImageNet-32x32和ImageNet-256x256等數據集上,無論是離散還是連續條件下均能有效工作。與現有的基線方法相比,我們的方法在不同的函數評估預算下總體表現更佳。代碼可在https://hkchengrex.github.io/C2OT獲取。
儘管開源的大型視覺語言模型(LVLMs)表現出色,但基於遷移的針對性攻擊在面對黑箱商業LVLMs時往往失敗。分析失敗的對抗性擾動發現,這些擾動通常源自均勻分佈,缺乏清晰的語義細節,導致模型產生非預期的回應。這種語義信息的關鍵缺失使得商業LVLMs要麼完全忽略擾動,要麼誤解其嵌入的語義,從而導致攻擊失敗。為解決這些問題,我們注意到識別核心語義對象是使用多種數據集和方法訓練的模型的關鍵目標。這一洞察激發了我們的方法,即通過在局部區域編碼明確的語義細節來提升語義清晰度,從而確保互操作性並捕捉更細粒度的特徵,並將修改集中在語義豐富的區域而非均勻應用。為實現這一點,我們提出了一種簡單而高效的解決方案:在每個優化步驟中,對抗性圖像按控制的比例和尺度隨機裁剪,調整大小,然後在嵌入空間中與目標圖像對齊。實驗結果證實了我們的假設。我們使用聚焦於關鍵區域的局部聚合擾動製作的對抗樣本,在包括GPT-4.5、GPT-4o、Gemini-2.0-flash、Claude-3.5-sonnet、Claude-3.7-sonnet以及推理模型如o1、Claude-3.7-thinking和Gemini-2.0-flash-thinking的商業LVLMs上展現出驚人的遷移能力。我們的方法在GPT-4.5、4o和o1上的成功率超過90%,顯著優於所有現有的最先進攻擊方法。我們在不同配置下優化的對抗樣本及訓練代碼可在https://github.com/VILA-Lab/M-Attack獲取。
我們推出PerCoV2,這是一種新穎且開放的超低比特率感知圖像壓縮系統,專為帶寬和存儲受限的應用而設計。基於Careil等人的先前工作,PerCoV2將原始框架擴展至Stable Diffusion 3生態系統,並通過顯式建模離散超潛在圖像分佈來提升熵編碼效率。為此,我們對最新的自回歸方法(VAR和MaskGIT)進行了全面的比較,並在大規模MSCOCO-30k基準上評估了我們的方法。與之前的工作相比,PerCoV2(i)在更低的比特率下實現了更高的圖像保真度,同時保持了競爭性的感知質量,(ii)引入了混合生成模式以進一步節省比特率,以及(iii)完全基於公開組件構建。代碼和訓練模型將在https://github.com/Nikolai10/PerCoV2上發布。
本文介紹了PoseLess,這是一種新穎的機器人手控制框架,它通過使用投影表示直接將2D圖像映射到關節角度,從而消除了對顯式姿態估計的需求。我們的方法利用通過隨機化關節配置生成的合成訓練數據,實現了對現實場景的零樣本泛化以及從機器人手到人手的跨形態轉移。通過投影視覺輸入並採用基於transformer的解碼器,PoseLess在解決深度模糊性和數據稀缺性等挑戰的同時,實現了穩健、低延遲的控制。實驗結果表明,在不依賴任何人工標註數據集的情況下,PoseLess在關節角度預測準確性方面表現出競爭力。
無分類器指導已成為條件生成與去噪擴散模型結合的標準方法。然而,對於無分類器指導的全面理解仍顯不足。在本研究中,我們進行了一項實證研究,旨在提供對無分類器指導的新視角。具體而言,我們不僅限於探討無分類器指導,而是追溯其根源,即分類器指導,明確其推導過程中的關鍵假設,並系統性地研究分類器所扮演的角色。我們發現,無論是分類器指導還是無分類器指導,都是通過將去噪擴散軌跡遠離決策邊界來實現條件生成的,這些邊界區域通常是條件信息相互糾纏且難以學習的地方。基於這一以分類器為核心的理解,我們提出了一種基於流匹配的通用後處理步驟,旨在縮小預訓練去噪擴散模型所學分佈與真實數據分佈之間的差距,尤其是在決策邊界附近。多個數據集上的實驗驗證了所提方法的有效性。