每日精選AI研究論文及翻譯
最近在視覺語言模型方面的進展通過增加視覺標記的長度來提高性能,使其比文本標記長得多,但也大幅提高了計算成本。然而,我們觀察到由流行的視覺編碼器(如CLIP和SigLIP)生成的視覺標記存在顯著的冗余。為了解決這個問題,我們引入了VisionZip,這是一種簡單而有效的方法,它選擇了一組信息豐富的標記輸入到語言模型中,減少了視覺標記的冗余,提高了效率,同時保持了模型的性能。所提出的VisionZip可以廣泛應用於圖像和視頻理解任務,特別適用於現實場景中的多輪對話,以前的方法在這些場景中往往表現不佳。實驗結果顯示,VisionZip在幾乎所有設置中的表現至少比以前的最先進方法提高了5%。此外,我們的方法顯著提高了模型推斷速度,將預填充時間提高了8倍,使LLaVA-Next 13B模型比LLaVA-Next 7B模型更快地進行推斷並取得更好的結果。此外,我們分析了這種冗余的原因,鼓勵社區專注於提取更好的視覺特徵,而不僅僅是增加標記的長度。我們的代碼可在https://github.com/dvlab-research/VisionZip 找到。
我們提出了一種新穎的3D生成方法,用於多功能和高質量的3D資產創建。其核心是統一的結構化潛在(SLAT)表示,允許解碼為不同的輸出格式,如輻射場、3D高斯和網格。通過將稀疏填充的3D網格與從強大的視覺基礎模型中提取的密集多視圖視覺特徵集成在一起,全面捕獲結構(幾何)和紋理(外觀)信息,同時在解碼過程中保持靈活性。我們使用針對SLAT定制的矯正流轉換器作為我們的3D生成模型,並在包含50萬個多樣對象的大型3D資產數據集上訓練具有多達20億個參數的模型。我們的模型生成具有文本或圖像條件的高質量結果,明顯超越現有方法,包括最近在類似規模上的方法。我們展示了靈活的輸出格式選擇和本地3D編輯功能,這是以前模型所不具備的。代碼、模型和數據將會釋出。
圖形使用者介面(GUI)對人機互動至關重要,然而由於視覺環境的複雜性和變異性,自動化 GUI 任務仍然具有挑戰性。現有方法通常依賴 GUI 的文本表示,這會在泛化、效率和可擴展性方面帶來限制。本文介紹 Aguvis,一個統一的純視覺框架,用於跨不同平台運行的自主 GUI 代理。我們的方法利用基於圖像的觀察,將指令與自然語言中的視覺元素相結合,並使用一致的動作空間以確保跨平台泛化。為了解決先前工作的限制,我們在模型中整合了明確的規劃和推理,增強了其自主導航和與複雜數字環境互動的能力。我們構建了一個大規模的 GUI 代理軌跡數據集,融合了多模態推理和基礎知識,並採用了兩階段訓練流程,首先專注於一般 GUI 基礎知識,然後進行規劃和推理。通過全面的實驗,我們展示了 Aguvis 在離線和實時在線場景中均超越了先前的最新方法,實現了我們所知的第一個完全自主的純視覺 GUI 代理,能夠獨立執行任務,無需與外部封閉源模型合作。我們已將所有數據集、模型和訓練配方開源,以促進未來研究,網址為 https://aguvis-project.github.io/。
我們提出了Florence-VL,這是一個新的多模式大型語言模型(MLLMs)系列,其豐富的視覺表示是由Florence-2生成式視覺基礎模型產生的。與廣泛使用的對比學習訓練的CLIP風格視覺Transformer不同,Florence-2能夠捕捉不同層次和方面的視覺特徵,更適應於各種下游任務。我們提出了一種新穎的特徵融合架構和創新的訓練配方,有效地將Florence-2的視覺特徵整合到預訓練的LLMs中,如Phi 3.5和LLama 3。特別是,我們提出了“深度廣度融合(DBFusion)”,用於融合從不同深度和多個提示下提取的視覺特徵。我們的模型訓練包括整個模型的端到端預訓練,然後是對投影層和LLM的微調,使用精心設計的多樣開源數據集的配方,其中包括高質量的圖像標題和指示調整對。我們對Florence-VL的視覺特徵進行了定量分析和可視化,展示了其在視覺-語言對齊方面優於流行的視覺編碼器的優勢,其中豐富的深度和廣度發揮了重要作用。Florence-VL在各種多模式和以視覺為中心的基準測試中,包括通用VQA、感知、幻覺、OCR、圖表、知識密集型理解等方面,均實現了對現有最先進MLLMs的顯著改進。為了促進未來研究,我們的模型和完整的訓練配方已開源。 https://github.com/JiuhaiChen/Florence-VL
視覺語言模型(VLMs)近年來在準確性方面取得了顯著進展。然而,它們的效率卻受到較少關注。本文介紹了NVILA,一系列旨在優化效率和準確性的開放式VLMs。在VILA的基礎上,我們通過首先擴大空間和時間分辨率,然後壓縮視覺標記來改進其模型架構。這種“先擴大後壓縮”的方法使NVILA能夠高效處理高分辨率圖像和長視頻。我們還進行了系統性調查,以增強NVILA在整個生命周期中的效率,從訓練和微調到部署。NVILA在廣泛的圖像和視頻基準測試中與許多領先的開放式和專有VLMs的準確性相匹敵或超越。同時,它將訓練成本降低了4.5倍,微調記憶體使用量減少了3.4倍,預填充延遲時間減少了1.6-2.2倍,解碼延遲時間減少了1.2-2.8倍。我們將很快提供我們的代碼和模型以促進可重現性。
隨著在語言模型(LM)後訓練中合成數據的使用不斷增加,一個LM生成高質量數據的能力幾乎與其直接解決問題的能力一樣重要。雖然先前的研究專注於開發有效的數據生成方法,但它們缺乏對不同LM作為數據生成器在統一環境中的系統性比較。為了填補這一空白,我們提出了AgoraBench,一個提供標準化設置和指標來評估LM數據生成能力的基準。通過使用6個LM合成126萬個訓練實例並訓練99個學生模型,我們揭示了有關LM數據生成能力的關鍵見解。首先,我們觀察到LM表現出不同的優勢。例如,GPT-4o擅長生成新問題,而Claude-3.5-Sonnet在增強現有問題方面表現更好。此外,我們的分析顯示,LM的數據生成能力不一定與其解決問題的能力相關。相反,數據質量的多個內在特徵,包括回應質量、困惑度和指示難度,共同作為更好的指標。最後,我們展示了在輸出格式和成本意識型模型選擇方面的策略性選擇對數據生成效果產生重大影響。
在閉環機器人系統中,自動檢測和預防開放式失敗是至關重要的。最近的研究通常難以同時在意外失敗發生後以反應方式識別它們,並以主動方式預防可預見的失敗。為此,我們提出了代碼作為監控器(CaM),這是一種新穎的範式,利用視覺語言模型(VLM)來進行開放式反應和主動失敗檢測。我們方法的核心是將這兩個任務制定為一組統一的時空約束滿足問題,並使用VLM生成的代碼來進行實時監控。為了增強監控的準確性和效率,我們進一步引入了約束元素,將與約束相關的實體或其部分抽象為緊湊的幾何元素。這種方法提供了更廣泛的應用性,簡化了跟踪,並通過將這些元素作為視覺提示來促進基於約束的視覺編程。實驗表明,與三個模擬器和一個現實世界環境中的基準相比,CaM在嚴重干擾下實現了28.7%的更高成功率,並將執行時間減少了31.8%。此外,CaM可以與開環控制策略集成,形成閉環系統,從而實現在動態環境中的混亂場景中進行長視距任務。
擴散模型在生成高質量圖像方面表現出色。然而,目前的擴散模型在沒有輔助方法(如無分類器輔助指導)的情況下很難產生可靠的圖像。輔助方法是否真的必要?觀察到通過擴散反演獲得的噪音可以重建高質量圖像而無需輔助,我們專注於去噪流程的初始噪音。通過將高斯噪音映射到「無輔助噪音」,我們發現小的低幅度低頻成分顯著增強了去噪過程,消除了對輔助的需求,從而提高了推理吞吐量和內存效率。在此基礎上,我們提出了一種新方法 \ours,該方法用單一的初始噪音細化取代了輔助方法。這種經過精細調整的噪音使得在相同的擴散流程中無需輔助即可生成高質量圖像。我們的噪音精煉模型利用了高效的噪音空間學習,僅使用 50K 文本-圖像對即實現了快速收斂和優異性能。我們通過多樣的指標驗證了其有效性,並分析了精煉噪音如何消除對輔助的需求。請查看我們的項目頁面:https://cvlab-kaist.github.io/NoiseRefine/。
現有的多視角圖像生成方法通常對預先訓練的文本到圖像(T2I)模型進行侵入性修改,並需要進行完整的微調,這導致(1)高計算成本,尤其是對於大型基礎模型和高分辨率圖像,以及(2)由於優化困難和高質量3D數據稀缺而導致圖像質量下降。在本文中,我們提出了第一個基於適配器的多視角圖像生成解決方案,並引入MV-Adapter,這是一個多功能即插即用的適配器,可增強T2I模型及其衍生物,而無需改變原始網絡結構或特徵空間。通過更新較少的參數,MV-Adapter實現了高效的訓練,並保留了預先訓練模型中嵌入的先前知識,減輕了過度擬合的風險。為了有效地在適配器中建模3D幾何知識,我們引入了包括重複的自注意力層和平行注意力架構在內的創新設計,使適配器能夠繼承預先訓練模型的強大先驗知識,以建模新的3D知識。此外,我們提出了一個統一的條件編碼器,無縫集成相機參數和幾何信息,促進應用,如基於文本和圖像的3D生成和紋理。MV-Adapter在Stable Diffusion XL(SDXL)上實現了768分辨率的多視角生成,展示了其適應性和多功能性。它還可以擴展到任意視角生成,實現更廣泛的應用。我們展示了MV-Adapter為多視角圖像生成設定了新的質量標準,並由於其效率、適應性和多功能性而開啟了新的可能性。
最近在基於擴散模型的文本和圖像提示生成以服裝為中心的圖像方面取得了令人印象深刻的進展。然而,現有方法缺乏對各種服飾組合的支持,並且在保留服裝細節並保持對文本提示的忠實度方面存在困難,這限制了它們在不同場景下的性能。本文專注於一個新任務,即多服裝虛擬試衣,我們提出了一種新穎的AnyDressing方法,用於根據任何組合的服裝和任何個性化文本提示來定制角色。AnyDressing包括兩個主要網絡,分別命名為GarmentsNet和DressingNet,它們分別專門用於提取詳細的服裝特徵和生成定制圖像。具體來說,我們在GarmentsNet中提出了一個高效且可擴展的模塊,稱為服裝特定特徵提取器,用於並行地編碼服裝紋理。這種設計可以防止服裝混淆,同時確保網絡效率。同時,我們在DressingNet中設計了一個自適應的Dressing-Attention機制和一種新穎的Instance-Level Garment Localization Learning策略,以準確地將多服裝特徵注入到相應的區域。這種方法有效地將多服裝紋理提示整合到生成的圖像中,進一步增強文本-圖像一致性。此外,我們引入了一種增強服裝紋理學習策略,以改善服裝的細緻紋理細節。由於我們精心設計的原因,AnyDressing可以作為一個插件模塊,輕鬆與擴散模型的任何社區控制擴展集成,從而提高合成圖像的多樣性和可控性。大量實驗表明,AnyDressing實現了最先進的結果。
基於文字的對抗引導使用負面提示已成為一種廣泛採用的方法,可將輸出特徵推遠離不需要的概念。儘管有用,但僅使用文字進行對抗引導可能不足以捕捉複雜的視覺概念,並避免不需要的視覺元素,如受版權保護的角色。本文首次探索了一種在這個方向上使用替代模態的方法,通過直接使用參考圖像或批次中的其他圖像的視覺特徵來進行對抗引導。具體而言,我們引入了負面標記合併(NegToMe),這是一種簡單但有效的無需訓練的方法,通過在反向擴散過程中有選擇性地推開匹配的語義特徵(參考和輸出生成之間)來進行對抗引導。當與同一批次中的其他圖像一起使用時,我們觀察到NegToMe顯著增加了輸出的多樣性(種族、性別、視覺),而不會犧牲輸出圖像的質量。同樣,當針對參考的受版權資產使用時,NegToMe有助於將與受版權內容的視覺相似性降低34.57%。NegToMe易於實施,只需幾行代碼,推理時間僅略高於(<4%),並且適用於不原生支持使用單獨負面提示的不同擴散架構,如Flux。代碼可在https://negtome.github.io獲得。
大型語言模型(LLMs)已成為人工智慧領域的一個里程碑,隨著模型大小的增加,其性能也會提升。然而,這種擴展給訓練和推理效率帶來了巨大挑戰,尤其是在資源受限的環境中部署LLMs時,擴展趨勢變得日益不可持續。本文引入“容量密度”概念作為評估不同規模LLMs質量的新指標,並描述LLMs在有效性和效率方面的趨勢。為了計算特定目標LLM的容量密度,我們首先引入一組參考模型,並制定一個縮放定律來預測這些參考模型基於其參數大小的下游性能。然後,我們將目標LLM的有效參數大小定義為實現相同性能所需的參考模型參數大小,並將容量密度形式化為有效參數大小與目標LLM實際參數大小的比率。容量密度提供了評估模型有效性和效率的統一框架。我們對最近開源的基礎LLMs進行進一步分析,揭示了一個實證定律(密集定律),即LLMs的容量密度隨時間呈指數增長。具體來說,使用一些廣泛使用的基準進行評估,LLMs的容量密度大約每三個月翻倍。這個定律為引導未來LLM發展提供了新的觀點,強調提高容量密度的重要性,以實現最佳結果並減少計算開銷。
多語言資料集中的文化偏見對其作為全球基準的效力構成重大挑戰。這些偏見不僅來自語言,還來自解釋問題所需的文化知識,降低了像MMLU這樣翻譯資料集的實際效用。此外,翻譯通常會引入可能扭曲目標語言中問題的含義或清晰度的人為因素。在多語言評估中的一個常見做法是依賴機器翻譯的評估集,但僅僅翻譯資料集是不足以應對這些挑戰的。在這項工作中,我們追蹤這些問題對多語言評估和隨之而來的模型表現的影響。我們對最先進的開放式和專有模型進行的大規模評估顯示,對MMLU的進展在很大程度上取決於學習西方中心概念,其中28%的所有問題需要具有文化敏感知識。此外,對於需要地理知識的問題,驚人的84.9%集中在北美或歐洲地區。模型評估的排名會根據是在全部問題還是在被標記為文化敏感的子集上進行評估而改變,這顯示了在盲目依賴翻譯的MMLU時對模型排名的扭曲。我們發布了Global-MMLU,這是一個改進的MMLU,涵蓋了42種語言的評估範圍--通過與受薪專業和社區標註者合作驗證翻譯質量,同時嚴格評估原始資料集中存在的文化偏見,從而提高了整體質量。這個全面的Global-MMLU集還包括被標記為文化敏感和文化不可知的指定子集,以便進行更全面、完整的評估。
我們提出了Infinity,一種位元視覺自迴歸建模技術,能夠根據語言指示生成高解析度、照片般逼真的圖像。Infinity在位元標記預測框架下重新定義了視覺自迴歸模型,採用無限詞彙標記器和分類器,以及位元自我校正機制,顯著提升了生成能力和細節。通過在理論上將標記器詞彙大小擴展至無限,同時擴展變壓器大小,我們的方法相較於基本的VAR顯著釋放了強大的擴展能力。Infinity創下了自迴歸文本到圖像模型的新紀錄,勝過了頂尖的擴散模型如SD3-Medium和SDXL。值得注意的是,Infinity通過將GenEval基準分數從0.62提升至0.73,將ImageReward基準分數從0.87提升至0.96,取得了66%的勝率,勝過了SD3-Medium。在沒有額外優化的情況下,Infinity能在0.8秒內生成高質量的1024x1024圖像,比SD3-Medium快2.6倍,成為最快的文本到圖像模型。模型和代碼將被釋出,以促進對Infinity在視覺生成和統一標記器建模方面的進一步探索。
我們介紹了HumanEdit,這是一個高質量、經人類獎勵的數據集,專門為指導引導的圖像編輯而設計,通過開放形式的語言指令實現精確和多樣化的圖像操作。先前的大規模編輯數據集通常包含最少的人類反饋,導致數據集與人類偏好之間存在挑戰。HumanEdit通過聘請人類標註者構建數據對和管理員提供反饋來彌合這一差距。通過精心策劃,HumanEdit包括5,751張圖像,跨越四個階段需要超過2,500小時的人力,確保廣泛的圖像編輯任務的準確性和可靠性。該數據集包括六種不同類型的編輯指令:動作、添加、計數、關係、移除和替換,涵蓋了廣泛的現實場景。數據集中的所有圖像都附帶蒙版,對於部分數據,我們確保指令足夠詳細以支持無蒙版編輯。此外,HumanEdit提供了全面的多樣性和高分辨率1024x1024內容,來自各個領域,為指導式圖像編輯數據集設定了一個新的多功能基準。為了推進未來研究並在圖像編輯領域建立評估基準,我們在https://huggingface.co/datasets/BryanW/HumanEdit 上發布了HumanEdit。
由於其最先進的表現和整合多種數據模態(如文本、圖像和音頻)以高準確度執行複雜任務的能力,多模式大型語言模型(MLLMs)變得日益重要。本文提出了一份關於個性化多模式大型語言模型的全面調查,重點在於它們的架構、訓練方法和應用。我們提出了一個直觀的分類法,用於將用於個性化MLLMs的技術進行分類,並相應地討論這些技術。此外,我們討論了這些技術在適當時如何結合或適應,突出它們的優勢和基本原理。我們還提供了現有研究中探討的個性化任務的簡要摘要,以及常用的評估指標。此外,我們總結了用於基準測試個性化MLLMs的數據集。最後,我們概述了關鍵的開放挑戰。本調查旨在成為研究人員和實踐者理解和推進個性化多模式大型語言模型發展的寶貴資源。
瞭解大型語言模型(LLMs)的內部計算對於將其與人類價值觀保持一致並防止不良行為,如生成有毒內容,至關重要。然而,機械解釋性受到多義性的阻礙——單個神經元對多個不相關的概念作出反應。儘管稀疏自編碼器(SAEs)試圖通過稀疏字典學習來解開這些特徵,但由於依賴事後重建損失,它們危及了LLM的性能。為了解決這個問題,我們引入了用於變壓器的單義專家混合體(Monet)架構,該架構將稀疏字典學習直接融入端到端的專家混合預訓練中。我們的新穎專家分解方法使專家數量能夠擴展至每層262,144個,而總參數與專家數量的平方根成比例擴展。我們的分析顯示了專家之間知識的互斥性,展示了個別專家所包含的參數化知識。此外,Monet允許在領域、語言和毒性緩解之間進行知識操作,而不會降低通用性能。我們對透明的LLMs的追求突顯了擴展專家數量以增強機械解釋性並直接切除內部知識以根本調整模型行為的潛力。源代碼和預訓練檢查點可在https://github.com/dmis-lab/Monet 上找到。
我們介紹了 OmniFlow,一種新穎的生成模型,專為任務間的生成(any-to-any generation)設計,如文本到圖像、文本到音訊和音訊到圖像的合成。OmniFlow 在處理多模態聯合分佈時推進了用於文本到圖像模型的修正流(RF)框架。它在各種任務上均優於先前的任務間生成模型,如文本到圖像和文本到音訊的合成。我們的工作提供了三個關鍵貢獻:首先,我們將 RF 擴展到多模態設置,並引入一個新穎的引導機制,使用戶能夠靈活控制生成輸出中不同模態之間的對齊。其次,我們提出了一種新穎的架構,擴展了 Stable Diffusion 3 的文本到圖像 MMDiT 架構,並實現了音訊和文本生成。這些擴展模組可以有效地進行個別預訓練,並與基本文本到圖像 MMDiT 合併進行微調。最後,我們對用於大規模音訊和文本生成的修正流變壓器的設計選擇進行了全面研究,提供了有價值的見解,以優化跨不同模態的性能。代碼將在 https://github.com/jacklishufan/OmniFlows 上提供。
作為一項全球受歡迎的運動,足球吸引了來自世界各地球迷的廣泛興趣。本文旨在開發一個全面的多模態框架,用於足球視頻理解。具體而言,本文在以下方面做出貢獻:(i) 我們介紹了迄今為止最大的多模態足球數據集 SoccerReplay-1988,其中包含來自 1,988 場完整比賽的視頻和詳細注釋,並配備自動化注釋流程;(ii) 我們提出了足球領域的第一個視覺語言基礎模型 MatchVision,該模型利用足球視頻中的時空信息,在各種下游任務中表現出色;(iii) 我們對事件分類、評論生成和多視角犯規識別進行了廣泛實驗和消融研究。MatchVision 在所有這些任務上展現出最先進的性能,顯著優於現有模型,突顯了我們提出的數據和模型的優越性。我們相信這項工作將為體育理解研究提供一個標準範式。
對比訓練的視覺語言模型(VLMs)如CLIP已成為區分性視覺語言表示學習的事實上方法。然而,這些模型在語言理解方面存在限制,通常表現出"詞袋"行為。與此同時,大型視覺語言模型(LVLMs),將視覺編碼器與LLMs結合,已被證明能夠進行詳細的視覺語言推理,但其自回歸的特性使其不太適合用於區分性任務。 在這項工作中,我們提出結合"兩全其美"的方法:一種新的訓練方法,用於對LVLMs進行區分性微調,從而產生強大的區分性和組成能力。基本上,我們的方法將一個生成式的LVLM轉換為一個區分性的LVLM,發揮其強大的圖像-文本區分能力,並提升語言理解能力。 我們的貢獻包括:(1)一個精心設計的訓練/優化框架,利用可變長度和粒度的圖像-文本對來訓練模型,同時使用對比和下一令牌預測損失。這伴隨著消融研究,證明了我們框架組件的必要性。 (2)一種使用軟提示和LoRA適配器組合的參數高效適應方法。 (3)與同等大小的最新CLIP類似模型相比,包括標准的圖像-文本檢索基準和組成性方面的顯著改進。
大型語言模型(LLMs)近年來取得了顯著進展;然而,它們優異的表現仍然主要限於主要世界語言,尤其是英語。許多LLMs在多語言任務上仍然面臨挑戰,特別是在處理低資源語言時。為了應對這個問題,我們引入了Marco-LLM:用於跨語言增強LLM的大規模多語言訓練。我們已經為幾種低資源語言收集了大量多語言數據,並使用Qwen2模型進行了廣泛的持續預訓練。這一努力產生了一個名為Marco-LLM的多語言LLM。通過對各種多語言基準測試,包括MMMLU、AGIEval、Belebele、Flores-200、XCOPA等的全面評估,Marco-LLM展示了比最先進的LLMs更大的改進。此外,Marco-LLM在任意-任意機器翻譯任務中實現了顯著的增強,展示了我們多語言LLM的有效性。Marco-LLM是一個開創性的多語言LLM,旨在不僅在多語言任務中表現出色,包括低資源語言,還在英語和其他主要語言中保持強大表現,縮小高資源和低資源語言能力之間的表現差距。通過搭建語言之間的橋樑,這一努力展示了我們確保LLMs在各種語言中準確工作的承諾。
最近在影片擴散模型方面的進展為實現逼真的音頻驅動說話影片生成開啟了新的潛力。然而,實現無縫的音頻唇部同步、保持長期身份一致性以及在生成的說話影片中產生自然、音頻對齊的表情仍然是重大挑戰。為了應對這些挑戰,我們提出了記憶引導情感感知擴散(MEMO)方法,這是一種端到端的音頻驅動肖像動畫方法,用於生成具有身份一致性和表現力的說話影片。我們的方法圍繞兩個關鍵模塊構建:(1)一個記憶引導的時間模塊,通過開發記憶狀態來存儲來自更長過去上下文的信息,通過線性注意力引導時間建模,從而增強長期身份一致性和運動平滑度;以及(2)一個情感感知音頻模塊,它用多模態注意力取代傳統的交叉注意力,以增強音頻-影片交互作用,同時從音頻中檢測情感,通過情感自適應層規範來精煉面部表情。廣泛的定量和定性結果表明,MEMO在各種圖像和音頻類型上生成更逼真的說話影片,優於最先進的方法在整體質量、音頻唇部同步、身份一致性和表情-情感對齊方面。
本文提出了ZipAR,一個無需訓練、即插即用的並行解碼框架,用於加速自回歸(AR)視覺生成。動機源於觀察到圖像展現出局部結構,空間上遠離的區域往往具有最小的相互依賴性。給定一部分解碼的視覺標記集,除了在行維度上的原始下一標記預測方案外,與列維度中空間相鄰區域對應的標記可以並行解碼,實現“下一集預測”範式。通過在單個前向傳遞中同時解碼多個標記,生成圖像所需的前向傳遞次數顯著減少,從而顯著提高生成效率。實驗表明,ZipAR 可以在 Emu3-Gen 模型上將模型的前向傳遞次數降低高達 91%,而無需進行任何額外的重新訓練。
目前的大型語言模型主要基於僅解碼結構的Transformer,具有強大的上下文學習(ICL)能力。一般認為其ICL能力的重要基礎是感應頭機制,該機制至少需要兩層注意力。為了更有效地實現模型感應的能力,我們重新審視了感應頭機制並提出了KV位移注意力。我們在理論上證明了KV位移注意力降低了模型對感應頭機制深度和寬度的要求。我們的實驗結果表明,KV位移注意力有助於學習感應頭和語言建模,從玩具模型到具有超過10 B參數的預訓練模型,均可實現更好的性能或更快的收斂。
我們提出了4Real-Video,一個新穎的框架,用於生成4D視頻,組織為一個包含時間和觀點軸的視頻幀網格。在這個網格中,每一行包含共享相同時間步長的幀,而每一列包含來自相同觀點的幀。我們提出了一種新穎的雙流架構。一個流在列上執行觀點更新,另一個流在行上執行時間更新。在每個擴散變壓器層之後,一個同步層在兩個令牌流之間交換信息。我們提出了同步層的兩種實現,分別使用硬同步或軟同步。這種前向架構在三個方面改進了以前的工作:更高的推理速度,增強的視覺質量(通過FVD、CLIP和VideoScore測量),以及改善的時間和觀點一致性(通過VideoScore和Dust3R-Confidence測量)。
儘管多模式大型語言模型(MLLMs)在各種任務中表現出色,但龐大的訓練和推理成本阻礙了它們的進展。大部分計算來自於變壓器解碼器處理的龐大視覺標記數量。本文提出通過利用深度混合(MoD)機制來構建高效的MLLMs,其中每個變壓器解碼器層選擇要處理的關鍵視覺標記,同時跳過冗餘的標記。然而,將MoD整合到MLLMs中並不簡單。為了應對訓練和推理穩定性以及有限的訓練數據的挑戰,我們通過兩種新設計對MoD模塊進行了調整:tanh閘控權重歸一化(TanhNorm)和對稱標記重新加權(STRing)。此外,我們觀察到視覺標記在較深層中存在較高的冗餘性,因此設計了漸進比例衰減(PRD)策略,逐層逐步降低標記保留比例,採用了一個漸變的余弦時間表。這一關鍵設計充分發揮了MoD的潛力,顯著提升了我們模型的效率和性能。為驗證我們方法的有效性,我們在14個基準測試中對兩個基準模型進行了廣泛實驗。我們的模型p-MoD在推理過程中只使用了55.6%的TFLOPs和53.8%的KV緩存存儲,訓練過程中只使用了77.7%的GPU時數,與基準模型的性能相當甚至更優。
儘管視覺語言模型(VLMs)取得了重大進展,但目前仍缺乏有效方法來提升推論時計算的品質。這種能力被認為是近期大型語言模型研究中自我改進模型的核心步驟。本文提出了視覺價值模型(VisVM),可引導VLM推論時的搜索,以生成具有更好視覺理解的回應。具體而言,VisVM不僅評估當前搜索步驟中生成的句子品質,還預測可能由當前步驟產生的後續句子品質,從而提供長期價值。通過這種方式,VisVM引導VLM遠離生成容易出現幻覺或細節不足的句子,從而產生更高品質的回應。實驗結果表明,VisVM引導的搜索顯著提升了VLM生成具有更豐富視覺細節且幻覺較少的描述性標題的能力,相較於貪婪解碼和其他視覺獎勵信號搜索方法。此外,我們發現使用VisVM引導標題對模型進行自我訓練,改善了VLM在各種多模式基準上的表現,顯示了發展自我改進VLM的潛力。我們的價值模型和程式碼可在https://github.com/si0wang/VisVM 上找到。
最近,深度神經網絡在醫學影像分割方面取得了令人印象深刻的進展,然而異構模態和標記稀缺限制了在未標記模態上發展分割模型。本文探討了在醫學應用中利用生成模型的新範式:可控合成未標記模態的數據,而無需註冊數據對。具體而言,本文在以下方面做出了貢獻:(i)我們收集並整理了一個大規模放射學影像-文本數據集MedGen-1M,包括模態標籤、屬性、區域和器官信息,以及部分器官遮罩標註,以支持可控醫學影像生成的研究;(ii)我們提出了一種基於擴散的數據引擎,稱為MRGen,它可以根據文本提示和遮罩進行生成,合成缺乏遮罩標註的多樣模態的MR影像,以訓練未標記模態上的分割模型;(iii)我們在各種模態上進行了廣泛實驗,說明我們的數據引擎能夠有效合成訓練樣本,並將MRI分割擴展到未標記模態。
從文件圖像中提取表格是一個具有挑戰性的人工智慧問題,對許多內容領域來說,標記數據很難獲得。現有的表格提取數據集通常專注於科學表格,因為有大量學術文章和其源代碼可供使用。然而,在科學、金融和其他領域找到的表格之間存在顯著的版面和排印差異。目前的數據集通常缺乏表格中包含的文字及其位置,而是依賴不可靠的OCR來提取這些特徵,以訓練現代機器學習模型進行自然語言處理任務。因此,需要一種更通用的方法來獲取標記數據。我們提出SynFinTabs,這是一個大規模的、標記的合成金融表格數據集。我們希望我們生成這些合成表格的方法可以應用到其他領域。為了展示我們的數據集在訓練模型從表格圖像中提取信息方面的有效性,我們創建了FinTabQA,這是一個基於提取式問答任務訓練的佈局大型語言模型。我們使用真實世界的金融表格來測試我們的模型,並將其與最先進的生成模型進行比較,並討論結果。我們將數據集、模型和數據集生成代碼公開提供。
像Chatbot Arena這樣的開放社區驅動平台,從網站訪客中收集使用者偏好數據,已經成為LLM性能最可信賴的公開基準之一。雖然這已經成為標準,但實施有效的防護措施以從人類獲取高質量標註並不容易。在本文中,我們展示了三種不良標註的來源,包括惡意和其他方式,可能會損害開放排行榜排名的可靠性。特別是,我們發現只有10\%的低質量投票,來自對此漠不關心(網站訪客沒有適當激勵給出正確投票)或敵對(惡意行為者試圖提升目標模型排名)的標註者,就能將模型在排行榜上的排名改變多達5個位置。最後,我們討論確保高質量人類標註的開放挑戰。
我們發展了任務擴展定律和模型梯度,以預測預訓練語言模型(LMs)在過度訓練情況下的個別任務表現。標準的語言建模損失的冪定律無法準確地模擬任務表現。因此,我們利用了一種兩步預測方法:首先使用模型和數據大小來預測特定任務的損失,然後使用該任務損失來預測任務表現。我們訓練了一組小規模的“梯度”模型,收集數據點以擬合兩個預測步驟的參數化函數,並為兩個目標模型進行預測:一個訓練到4T標記的7B模型和一個訓練到5T標記的13B模型。訓練梯度模型僅耗費目標模型計算量的1%。在四個以排名分類格式編寫的多選任務中,我們可以預測兩個目標模型的準確度,誤差範圍在2個絕對值內。我們在另外四個任務上有較高的預測誤差(平均絕對誤差為6.9),發現這些任務通常具有較高的任務指標變異性。我們還發現,使用更少的計算量來訓練更少的梯度模型往往會使預測變差。最後,我們通過實證表明,我們的設計選擇和兩步方法在建立擴展定律方面具有卓越的性能。