每日精選AI研究論文及翻譯
本研究介紹了Depth Anything V2。我們不追求花俏的技巧,旨在揭示關鍵發現,為建立強大的單眼深度估計模型鋪平道路。值得注意的是,與V1相比,這個版本通過三個關鍵實踐產生了更精細和更穩健的深度預測:1)用合成圖像替換所有標記的真實圖像,2)擴大我們教師模型的容量,以及3)通過大規模虛擬標記的真實圖像的橋樑來教導學生模型。與基於穩定擴散的最新模型相比,我們的模型效率顯著提高(快10倍以上),並且更準確。我們提供不同規模的模型(參數範圍從25M到1.3B)以支持廣泛的場景。由於它們強大的泛化能力,我們將它們微調為具有度量深度標籤的度量深度模型。除了我們的模型之外,考慮到當前測試集的有限多樣性和頻繁噪音,我們構建了一個多功能的評估基準,具有精確標註和多樣場景,以促進未來研究。
本研究並未引入新方法。相反地,我們呈現了一個有趣的發現,質疑在現代計算機視覺架構中歸納偏差──即局部性的必要性。具體而言,我們發現純Transformer可以通過直接將每個像素視為一個標記來運作,並取得高效的結果。這與Vision Transformer中的流行設計截然不同,後者保留了從ConvNets對局部鄰域的歸納偏差(例如,將每個16x16塊視為一個標記)。我們主要展示了像素作為標記在計算機視覺中三個經常研究的任務中的有效性:對象分類的監督學習、通過遮罩自編碼的自監督學習,以及使用擴散模型進行圖像生成。雖然直接操作單個像素在計算上不太實際,但我們認為在設計下一代計算機視覺神經架構時,社群必須意識到這一令人驚訝的知識片段。
Transformer以其簡單而有效的架構改革了機器學習。在大量來自互聯網的文本數據集上預訓練Transformer已經帶來了無與倫比的自然語言理解(NLU)任務的泛化能力。然而,這類語言模型在需要準確和堅固的算法推理時仍然脆弱。為了解決這一限制,我們提出了一種新方法,將Transformer的語言理解能力與基於圖神經網絡(GNN)的神經算法推理器(NARs)的堅固性相結合。這種NARs在圖形形式下被證明對於算法任務是有效的通用求解器。為了使它們的嵌入可供Transformer訪問,我們提出了一種混合架構,採用兩階段訓練程序,使語言模型中的標記能夠跨越地訪問來自NAR的節點嵌入。我們在CLRS-Text上評估了我們的結果TransNAR模型,這是CLRS-30基準測試的文本版本,並證明了在算法推理方面,我們的模型在分布內外均明顯優於僅使用Transformer的模型。
大型政策預訓練模型,結合互聯網視覺語言數據和多樣化機器人示範,具有改變我們教導機器人新技能的潛力:不再從頭開始訓練新行為,我們可以微調這種視覺-語言-動作(VLA)模型,以獲得強大、可泛化的視覺運動控制政策。然而,廣泛應用VLA於機器人領域一直存在挑戰,原因是1)現有的VLA主要是封閉的,對公眾不可及,以及2)先前的研究未能探索有效微調VLA以應用於新任務的方法,這是應用的關鍵組成部分。為應對這些挑戰,我們介紹了OpenVLA,一個擁有70億參數的開源VLA,訓練於包含970k真實世界機器人示範的多樣化數據集。OpenVLA基於Llama 2語言模型,結合視覺編碼器,融合了來自DINOv2和SigLIP的預訓練特徵。由於增加的數據多樣性和新模型組件,OpenVLA在通用操作方面取得了出色的結果,對於29個任務和多個機器人實體,其絕對任務成功率比RT-2-X(550億)等封閉模型高出16.5%,並且參數數量少7倍。我們進一步展示,我們可以有效地對OpenVLA進行微調以適應新設置,在涉及多個對象和強語言基礎能力的多任務環境中表現出特別強大的泛化結果,並且在結果上表現優於從頭開始的模仿學習方法,如Diffusion Policy,提高了20.4%。我們還探索了計算效率;作為另一項貢獻,我們展示OpenVLA可以通過現代低秩適應方法在消費者GPU上進行微調,並通過量化高效地提供,而不會影響下游成功率。最後,我們釋放了模型檢查點、微調筆記本和我們的PyTorch代碼庫,內置支持在Open X-Embodiment數據集上規模訓練VLA。
有效地建模具有無限上下文長度的序列一直是一個長期存在的問題。過去的研究要麼受制於二次計算複雜度,要麼在長度泛化上具有有限的外推能力。在這項研究中,我們提出了Samba,一種簡單的混合架構,它將具有選擇性狀態空間模型(SSM)Mamba與滑動窗口注意力(SWA)逐層結合。Samba將一個給定的序列有選擇性地壓縮成循環隱藏狀態,同時仍保持著通過注意力機制精確回憶記憶的能力。我們將Samba擴展到38億個參數,使用32萬億個訓練標記,並展示Samba在廣泛的基準測試中顯著優於純注意力或SSM模型的最新模型。當在長度為4K的序列上進行訓練時,Samba可以有效地外推到256K的上下文長度,實現完美的記憶回憶,並在高達100萬上下文長度時顯示改進的標記預測。作為一種線性時間序列模型,Samba在處理128K長度用戶提示時比具有分組查詢注意力的Transformer擁有3.73倍的吞吐量,並在生成64K標記並具有無限流時加速3.64倍。Samba的一個示例實現可在https://github.com/microsoft/Samba上公開獲得。
本文提出了對擴散模型的創新增強,通過整合一個新穎的多分辨率網絡和時間依賴的層規範化。擴散模型因其在高保真度圖像生成方面的有效性而聲名鵲起。傳統方法依賴於卷積 U-Net 結構,而最近基於 Transformer 的設計表現出卓越的性能和可擴展性。然而,Transformer 結構通過對輸入數據進行標記化(通過“patchification”)而面臨著視覺保真度和計算複雜度之間的折衷,這是由於自注意力操作相對於標記長度的二次性質所導致的。較大的 patch 大小可以提高注意力計算效率,但它們難以捕捉細緻的視覺細節,導致圖像失真。為應對這一挑戰,我們提出了將多分辨率網絡(DiMR)與擴散模型相結合,該框架可以跨多個分辨率對特徵進行細化,逐步從低分辨率到高分辨率增強細節。此外,我們引入了時間依賴的層規範化(TD-LN),這是一種具有參數效率的方法,將時間依賴的參數納入層規範化中,以注入時間信息並實現卓越的性能。我們的方法在類別條件下的 ImageNet 生成基準上得到了驗證,其中 DiMR-XL 變體優於先前的擴散模型,在 ImageNet 256 x 256 上取得了 1.70 的新的 FID 分數,在 ImageNet 512 x 512 上取得了 2.89 的新的 FID 分數。項目頁面:https://qihao067.github.io/projects/DiMR
大型語言模型(LLMs)展示了卓越的推理能力,但仍然容易出現錯誤,尤其是在涉及複雜時間邏輯的時間推理任務中。現有研究已經探討了LLM在使用不同數據集和基準時的時間推理表現。然而,這些研究通常依賴於LLM在預訓練期間可能遇到的現實世界數據,或者採用可能無意中引入事實不一致性的匿名化技術。在這項工作中,我們通過引入新穎的合成數據集來解決這些限制,這些數據集專門設計用於評估LLM在各種情境下的時間推理能力。這些數據集中的問題類型的多樣性使得能夠系統地研究問題結構、大小、問題類型、事實順序和其他因素對LLM表現的影響。我們的研究結果提供了有關當前LLM在時間推理任務中優勢和劣勢的寶貴見解。為了促進這一領域的進一步研究,我們正在公開數據集和評估框架,該框架用於我們的實驗:https://huggingface.co/datasets/baharef/ToT。
擴散Transformer(DiT)在圖像和視頻生成方面表現出色,但由於自注意力的二次複雜度而面臨計算挑戰。我們提出了DiTFastAttn,這是一種新穎的後訓練壓縮方法,用於緩解DiT的計算瓶頸。我們在DiT推斷期間識別了注意力計算中的三個關鍵冗余:1. 空間冗余,其中許多注意力頭專注於本地信息;2. 時間冗余,相鄰步驟的注意力輸出之間存在高相似性;3. 條件冗余,條件和無條件推斷呈現顯著相似性。為應對這些冗余,我們提出了三種技術:1. 帶有剩餘緩存的窗口注意力以減少空間冗余;2. 時間相似性降低以利用步驟之間的相似性;3. 消除條件冗余以在條件生成期間跳過冗余計算。為了展示DiTFastAttn的有效性,我們將其應用於DiT、PixArt-Sigma進行圖像生成任務,並應用於OpenSora進行視頻生成任務。評估結果顯示,對於圖像生成,我們的方法可以減少高達88%的FLOPs,並在高分辨率生成時實現高達1.6倍的加速。
人類繪製圖像以促進推理:在解決幾何問題時,我們會繪製輔助線;在地圖推理時,我們會標記和圈出特定區域;我們使用草圖來擴展想法並減輕有限容量的工作記憶壓力。然而,目前的多模態語言模型(LMs)缺乏這樣的行為。目前的思維連貫和工具使用範式僅使用文本作為中間推理步驟。在這項工作中,我們介紹了Sketchpad,這是一個框架,為多模態LMs提供了一個視覺草圖板和繪製工具。LM根據其所繪製的視覺藝術品進行規劃和推理。與以往使用文本轉圖像模型使LMs能夠繪製不同,Sketchpad使LMs能夠使用線條、方框、標記等進行繪製,這更接近人類的草圖繪製方式並更有助於推理。Sketchpad還可以在繪製過程中使用專業視覺模型(例如,使用物體檢測模型繪製邊界框,使用分割模型繪製遮罩),進一步增強視覺感知和推理能力。我們對各種數學任務(包括幾何、函數、圖形和國際象棋)以及複雜的視覺推理任務進行了實驗。Sketchpad在所有任務上均顯著提高了性能,比沒有繪圖的強基礎模型平均提高了12.7%的數學任務和8.6%的視覺任務。具有Sketchpad的GPT-4o在所有任務上均創下了新的最佳表現,包括V*Bench(80.3%)、BLINK空間推理(83.9%)和視覺對應(80.8%)。所有代碼和數據都在https://visualsketchpad.github.io/。
我們研究了由大量定制擴散模型所涵蓋的權重空間。我們通過創建一個包含超過60,000個模型的數據集來填充這個空間,每個模型都是一個基礎模型,經過微調以插入不同的人的視覺身份。我們將這些權重的基礟流形建模為一個子空間,我們稱之為權重對權重。我們展示了這個空間的三個即時應用——取樣、編輯和反演。首先,由於空間中的每一個點對應一個身份,從中取樣一組權重將產生編碼新身份的模型。接下來,我們在這個空間中找到對應於身份語義編輯的線性方向(例如,添加鬍子)。這些編輯在生成的樣本中保持外觀。最後,我們展示了將單張圖像反演到這個空間中,即使輸入圖像不在分佈範圍內(例如,一幅畫),也能重建出一個逼真的身份。我們的結果表明,經過微調的擴散模型的權重空間行為就像是一個可解釋的身份潛在空間。
我們介紹了 MuirBench,這是一個專注於多模態語言模型 (LLMs) 的強健多圖像理解能力的全面基準測試。MuirBench 包含了12個多樣化的多圖像任務(例如場景理解、排序),涉及10個多圖像關係類別(例如多視圖、時間關係)。MuirBench 包含11,264張圖像和2,600個多選題,是以成對方式創建的,每個標準實例都與一個幾乎沒有語義差異的無法回答的變體配對,以進行可靠的評估。在對20個最近的多模態LLMs進行評估後,我們的結果顯示,即使是表現最佳的模型如GPT-4o和Gemini Pro,在解決MuirBench時也面臨著挑戰,準確率分別為68.0%和49.3%。基於單張圖像訓練的開源多模態LLMs幾乎無法泛化到多圖像問題,準確率低於33.3%。這些結果突顯了MuirBench在鼓勵社區開發能夠超越單張圖像的多模態LLMs方面的重要性,並提出了未來改進的潛在途徑。
高質量的偏好數據集對於訓練獎勵模型至關重要,這些模型可以有效地引導大型語言模型(LLMs)生成符合人類偏好的高質量回應。隨著LLMs變得更強大且更加對齊,像是Open Assistant、HH-RLHF和HelpSteer這樣的許可權寬鬆的偏好數據集需要不斷更新,以保持對於獎勵建模的有效性。從專有LLMs(如GPT-4)中提煉偏好數據的方法受到模型提供者對商業使用的限制。為了改進生成的回應和屬性標記質量,我們發布了HelpSteer2,這是一個許可權寬鬆的偏好數據集(CC-BY-4.0)。通過在HelpSteer2上訓練的強大內部基礎模型,我們能夠在Reward-Bench的主要數據集上實現SOTA得分(92.0%),超越了截至2024年6月12日目前列出的開放和專有模型。值得注意的是,HelpSteer2僅包含一萬對回應,比現有偏好數據集(例如HH-RLHF)少了一個數量級,這使其非常高效用於訓練獎勵模型。我們的廣泛實驗表明,使用HelpSteer2訓練的獎勵模型能夠有效地對齊LLMs。特別是,我們提出了SteerLM 2.0,這是一種模型對齊方法,可以有效地利用我們的獎勵模型預測的豐富多屬性分數。HelpSteer2可在https://huggingface.co/datasets/nvidia/HelpSteer2取得,代碼可在https://github.com/NVIDIA/NeMo-Aligner找到。
多模式大型語言模型(mLLMs)是通過大量的文本-圖像數據進行訓練的。儘管大多數mLLMs僅在類似標題的數據上進行訓練,Alayrac等人[2022]表明,此外將它們訓練在交錯的文本和圖像序列上可以導致上下文學習能力的出現。然而,他們使用的數據集M3W並非公開,僅為英文。已經有嘗試重現他們的結果,但發布的數據集僅限於英文。相比之下,當前的多語言和多模式數據集要麼僅由類似標題組成,要麼是中等規模或完全私有數據。這限制了對世界上其他7,000種語言的mLLM研究。因此,我們引入了mOSCAR,據我們所知,這是從網絡中爬取的第一個大規模多語言和多模式文檔語料庫。它涵蓋163種語言,3.15億文檔,2140億標記和12億圖像。我們仔細進行了一系列的篩選和評估步驟,以確保mOSCAR足夠安全、多樣化且質量良好。我們另外訓練了兩種類型的多語言模型來證明mOSCAR的好處:(1)一個在mOSCAR的子集和標題數據上進行訓練的模型和(2)僅在標題數據上進行訓練的模型。另外在mOSCAR上進行訓練的模型在各種多語言圖像-文本任務和基準測試中展現出強大的少樣本學習性能提升,這證實了先前對僅限英文mLLMs的發現。
計算機科學(CS)是人類智慧錯綜複雜的明證,深刻推動了人工智慧和現代社會的發展。然而,當前大型語言模型(LLMs)的社群過於專注於分析特定基礎技能(例如數學和代碼生成)的基準,忽略了對計算機科學領域的全面評估。為彌合這一差距,我們引入了 CS-Bench,這是第一個致力於評估語言模型在計算機科學中表現的雙語(中英文)基準。CS-Bench 包含約 5K 精心策劃的測試樣本,涵蓋計算機科學的 4 個主要領域中的 26 個子領域,包括各種任務形式和知識和推理的分類。利用 CS-Bench,我們對 30 多個主流語言模型進行了全面評估,揭示了計算機科學表現與模型規模之間的關係。我們還定量分析了現有語言模型失敗的原因,並突出了改進方向,包括知識補充和計算機科學特定推理。進一步的跨能力實驗顯示,語言模型在計算機科學方面的能力與其在數學和編碼方面的能力之間存在高度相關性。此外,專門從事數學和編碼的專家語言模型在幾個計算機科學子領域中也表現出色。展望未來,我們期待 CS-Bench 成為語言模型在計算機科學領域應用的基石,開拓評估語言模型多樣推理能力的新途徑。CS-Bench 的數據和評估代碼可在 https://github.com/csbench/csbench 上找到。
目前的多模態和多任務基礎模型,如4M或UnifiedIO,展示了令人鼓舞的結果,但在實踐中,它們開箱即用的能力接受多樣輸入並執行多樣任務的能力受到限制,這是由它們訓練的模態和任務數量(通常相當少)所決定的。在本文中,我們通過在大量多模態數據集和文本語料庫上進行聯合訓練,擴展了它們的能力,通過在數十種高度多樣的模態上訓練單一模型,執行共同訓練。這包括在幾個語義和幾何模態上進行訓練,來自最新技術模型(如DINOv2和ImageBind)的特徵圖,像SAM和4DHumans這樣的專家模型的虛擬標籤,以及一系列新的模態,允許以新穎的方式與模型互動並引導生成,例如圖像元數據或調色板。這個過程中的一個關鍵步驟是對各種模態執行離散標記化,無論它們是類似圖像的、神經網絡特徵圖、向量、結構化數據(如實例分割或人體姿勢)或可以表示為文本的數據。通過這一過程,我們擴展了多模態模型的開箱即用能力,並具體展示了訓練一個模型來解決至少比現有模型多3倍的任務/模態的可能性,而且在性能上不會有損失。這使得多模態生成能力更加精細和可控,並使我們能夠研究在多樣數據和目標上訓練的模型的提煉成統一模型。我們成功將訓練擴展到一個擁有三十億參數的模型,使用數十種模態和不同數據集。生成的模型和訓練代碼在4m.epfl.ch上開源。
最近在影像生成方面取得的進展使得能夠從文字條件中創建高質量的圖像。然而,當面對多模態條件時,例如將文字與參考外觀結合,現有方法往往難以有效平衡多個條件,通常會偏好某一模態而忽略其他模態。為了應對這一挑戰,我們引入了 EMMA,這是一個新穎的圖像生成模型,接受多模態提示,建立在最先進的文本到圖像(T2I)擴散模型 ELLA 的基礎上。EMMA 通過創新的多模態特徵連接器設計,無縫地將額外的模態與文字一起整合,通過特殊的注意機制有效地整合文本和補充模態信息來引導圖像生成。通過凍結原始 T2I 擴散模型中的所有參數,僅調整一些額外層,我們發現一個有趣的結果,即預先訓練的 T2I 擴散模型可以秘密接受多模態提示。這一有趣的特性有助於輕鬆適應不同的現有框架,使 EMMA 成為一個靈活且有效的工具,用於生成個性化和上下文感知的圖像甚至視頻。此外,我們介紹了一種策略,將學習的 EMMA 模塊組裝起來,以同時條件於多個模態的圖像,消除了需要使用混合多模態提示進行額外訓練的需求。大量實驗證明了 EMMA 在生成圖像時保持高保真度和細節的有效性,展示了其作為先進多模態條件圖像生成任務的強大解決方案的潛力。
我們提議建立全模態智能,能夠理解任何模態並學習通用表示。具體而言,我們提出了一種可擴展的預訓練範式,名為多模態上下文(MiCo),該範式可以在預訓練過程中擴展模態數量和數據量,以及模型參數。通過MiCo,預訓練模型展現出在多模態學習方面的顯著新能力,這些能力在以下任務上進行評估:i)對10種不同模態的單模態感知基準測試,ii)25個跨模態理解任務,包括檢索、問答、字幕生成,以及iii)18個多模態大型語言模型基準測試。我們的模型建立了37個最新性能的新紀錄。我們希望我們的研究能為全模態智能的發展做出貢獻。代碼和模型位於https://github.com/invictus717/MiCo
訓練世界模型的主要方法之一是在序列的輸出空間中進行自回歸預測,預測下一個元素。在自然語言處理(NLP)中,這以大型語言模型(LLMs)預測下一個標記的形式呈現;在計算機視覺(CV)中,這以自回歸模型預測下一幀/標記/像素的形式呈現。然而,這種方法在幾個方面與人類認知不同。首先,人類對未來的預測積極影響內部認知過程。其次,人類自然地評估關於未來狀態的預測是否合理。基於這種能力,第三,通過評估何時預測足夠,人類分配動態時間來進行預測。這種適應性過程類似於心理學中的系統2思維。所有這些能力對於人類在高層次推理和規劃方面的成功至關重要。因此,為了解決傳統自回歸模型缺乏這些類似人類能力的局限性,我們引入了基於能量的世界模型(EBWM)。EBWM涉及訓練一個基於能量的模型(EBM)來預測給定上下文和預測未來狀態的相容性。通過這樣做,EBWM使模型能夠實現所描述的人類認知的所有三個方面。此外,我們開發了一種針對基於能量模型量身定制的傳統自回歸變壓器,稱為基於能量的變壓器(EBT)。我們的結果表明,在CV中,EBWM與傳統自回歸變壓器相比,隨著數據和GPU時間的增加,性能更好,並且在NLP中,EBWM提供了有前途的早期擴展。因此,這種方法為訓練未來能夠進行系統2思維並智能搜索狀態空間的模型開辟了一條令人興奮的道路。
儘管大型語言模型(LLMs)如GPT-4和Claude等模型的進步,小規模語言模型如Llama和Mistral通常在生成深入且連貫的對話方面遇到困難。本文提出了一種新穎的兩步驟粗到細演員模型,以應對小型LLMs在對話和分析能力方面的固有限制。我們的方法始於基於策略的粗糙演員,採用我們稱之為“連續最大化”的技術。粗糙演員建立了一個增強的、知識豐富的池,擅長與人類偏好風格在分析和推理方面保持一致。通過RLHF過程,它採用了連續最大化,這是一種動態且自適應地擴展輸出長度限制的策略,從而實現更詳細和分析性內容的生成。隨後,細化演員對這些分析內容進行了精煉,解決了粗糙演員生成過多冗余信息的問題。我們引入了“知識殘留合併器”方法,從粗糙演員中精煉內容,並將其與現有的指導模型合併,以提高質量、正確性並減少冗余。我們將我們的方法應用於流行的Mistral模型,創建了Mistral-C2F,它在11個通用語言任務和MT-Bench對話任務中展現出卓越的性能,優於類似規模的模型,甚至超過具有130億和300億參數的更大模型。我們的模型顯著提高了對話和分析推理能力。
我們提出了一個新的任務和基準,用於評估文本生成圖像(T2I)模型產生符合現實常識的圖像能力,我們稱之為Commonsense-T2I。給定兩個對抗性文本提示,包含一組行動詞並帶有細微差異,例如“沒有電的燈泡”和“有電的燈泡”,我們評估T2I模型是否能進行視覺常識推理,例如產生符合“燈泡未點亮”和“燈泡已點亮”對應的圖像。Commonsense-T2I提出了一個對抗性挑戰,提供成對的文本提示以及期望的輸出。該數據集由專家精心手工策劃,並標註了細粒度標籤,如常識類型和預期輸出的可能性,以幫助分析模型行為。我們對各種最先進的T2I模型進行基準測試,令人驚訝地發現,圖像合成與現實照片之間仍存在很大差距——即使是DALL-E 3模型在Commonsense-T2I上也只能達到48.92%,而穩定的擴散XL模型僅實現24.92%的準確性。我們的實驗表明,GPT增強提示無法解決這一挑戰,我們對此不足的可能原因進行了詳細分析。我們希望Commonsense-T2I能夠成為T2I常識檢查的高質量評估基準,促進現實生活圖像生成的進步。
影片生成面臨許多獨特挑戰,超越了圖像生成的範疇。 時間維度引入了跨幀廣泛可能的變化, 其中一致性和連續性可能被破壞。在這項研究中,我們超越評估簡單動作,主張生成的影片應該 融入新概念的出現和它們之間的過渡,就像現實世界中的影片隨著時間的推移一樣。為了評估影片生成模型的時間 組成性,我們提出了TC-Bench,一個精心製作的文本提示、相應的真實影片和 堅固的評估指標基準。這些提示清晰表達了場景的初始和最終狀態, 有效減少了幀發展的模糊性,簡化了過渡完成的評估。此外,通過收集 與提示相對應的對齊現實世界影片,我們將TC-Bench的應用範圍擴展到 可以執行生成幀插值的圖像條件模型。我們還開發了新的指標來衡量 生成影片中組件過渡的完整性,這些指標與人類判斷有較高的相關性 相比現有指標。我們全面的實驗結果顯示,大多數影片生成器實現的組成變化不到20%, 突顯了未來改進的巨大空間。我們的分析表明,當前的影片生成模型難以解釋組成變化的描述 並在不同時間步驟中綜合合成各種組件。
訓練單視角大型重建模型(LRMs)的默認策略是採用完全監督的方式,使用大規模合成3D資產或多視角捕獲的數據集。儘管這些資源簡化了訓練過程,但很難擴展到現有數據集以外,並且不一定代表物體形狀的真實分佈。為了解決這些限制,在本文中,我們介紹了Real3D,這是第一個可以使用單視角真實世界圖像進行訓練的LRM系統。Real3D引入了一個新穎的自我訓練框架,可以從現有的合成數據和多樣的單視角真實圖像中受益。我們提出了兩種無監督損失,使我們能夠在像素級和語義級監督LRMs,即使對於沒有地面真實3D或新視角的訓練示例也是如此。為了進一步提高性能並擴展圖像數據,我們開發了一種自動數據整理方法,從野外圖像中收集高質量示例。我們的實驗表明,Real3D在包括真實和合成數據以及領域內外形狀在內的四種不同評估設置中始終優於先前的工作。代碼和模型可在此處找到:https://hwjiang1510.github.io/Real3D/
本研究旨在估計利用生成式人工智慧進行上下文學習(ICL)的幻覺率。在ICL中,條件生成模型(CGM)被提示使用數據集進行預測。ICL的貝葉斯解釋假設CGM正在計算一個未知的貝葉斯模型的潛在參數和數據的後驗預測分佈。從這個角度來看,我們將幻覺定義為在真實潛在參數下概率較低的生成預測。我們開發了一種新方法,該方法將ICL問題(即CGM、數據集和預測問題)作為輸入,並估計CGM生成幻覺的概率。我們的方法僅需要從模型生成查詢和響應,並評估其響應的對數概率。我們在合成回歸和自然語言ICL任務上,使用大型語言模型對我們的方法進行了實證評估。
Transformer 模型的自回歸推理大大受益於鍵-值(KV)緩存,但隨著模型大小、批次大小和序列長度的增長,可能導致主要的記憶體瓶頸。我們引入了多層鍵-值(MLKV)共享,這是一種新穎的方法,將 KV 共享擴展到 Transformer 層,以降低記憶體使用量,超越了多查詢注意力(MQA)和分組查詢注意力(GQA)所能實現的範圍。通過在各種自然語言處理基準測試和推理指標上使用經過訓練的 Pythia-160M 變體進行評估,顯示 MLKV 顯著降低了記憶體使用量,並且性能損失最小,將 KV 緩存大小降低到 MQA 的 6 倍。這些結果突顯了 MLKV 在大規模部署 Transformer 模型時的高效潛力。我們在 https://github.com/zaydzuhri/pythia-mlkv 提供了程式碼。
大型語言模型(LLMs)的快速發展需要堅固且具挑戰性的基準。像是Chatbot Arena這樣的排行榜根據模型回應與人類喜好的一致程度來評分LLMs。然而,許多任務,如情感智能、創意寫作或說服力等,都具高度主觀性,並且常常缺乏廣泛人類一致意見。評審可能對於何為更好的回應存在無法調和的分歧。為了應對在高度主觀性任務上評分LLMs的挑戰,我們提出了一個新穎的基準框架,即語言模型委員會(LMC)。LMC通過民主程序運作,以:1)透過平等參與制定測試集,2)在委員會成員間進行測試,以及3)作為集體陪審團評估回應。我們在一個開放式情感智能任務上部署了一個由20個最新LLMs組成的委員會:回應人際困境。我們的結果顯示,LMC產生的排名比任何單個LLM評審更具可分辨性、穩健性和較少偏見,並且與人類建立的排行榜更一致,相較於其他基準。
視覺問答(VQA)是多模式人工智慧中的重要任務,通常用於測試視覺語言模型理解和推理視覺和文本數據中的知識能力。然而,目前大多數VQA模型使用的數據集主要集中在英語和少數主要世界語言上,圖像通常以西方為中心。儘管最近的努力試圖擴大VQA數據集所涵蓋的語言數量,但仍然缺乏低資源語言的多樣性。更重要的是,這些數據集通常通過翻譯或其他方法擴展其語言範圍,但圖像通常保持不變,導致文化代表性狹窄。為解決這些限制,我們構建了CVQA,一個新的跨文化多語言視覺問答基準,旨在涵蓋豐富的語言和文化,我們在數據收集過程中邀請了母語使用者和文化專家參與。因此,CVQA包括來自四大洲28個國家的具有文化特色的圖像和問題,涵蓋26種語言,包括11種文字,提供總共9k個問題。然後,我們在CVQA上對幾個多模式大型語言模型(MLLMs)進行基準測試,並顯示該數據集對於當前最先進的模型來說是具有挑戰性的。這個基準測試可以作為評估多模式模型文化能力和偏見的探測評估套件,並希望能夠鼓勵更多的研究努力,以增加這一領域的文化意識和語言多樣性。
我們提出了LRM-Zero,一個完全基於合成的3D數據訓練的大型重建模型(LRM),實現了高質量的稀疏視圖3D重建。LRM-Zero的核心是我們的程序化3D數據集Zeroverse,它是從簡單的基本形狀自動合成的,具有隨機紋理和增強(例如,高度場、布爾差異和線框)。與以前的3D數據集(例如Objaverse)不同,它們通常是由人類捕捉或製作以逼真模擬真實3D數據不同,Zeroverse完全忽略了現實全局語義,但在幾何和紋理細節上豐富,這些細節在局部上與真實物體相似甚至更為複雜。我們展示了我們的LRM-Zero,通過我們完全合成的Zeroverse訓練,可以實現對真實世界物體的高視覺質量重建,與在Objaverse上訓練的模型相競爭。我們還分析了Zeroverse的幾個關鍵設計選擇,這些選擇有助於LRM-Zero的能力和訓練穩定性。我們的工作表明,3D重建,作為3D視覺中的核心任務之一,有可能在不考慮真實世界物體語義的情況下進行。Zeroverse的程序合成代碼和互動可視化可在以下網址找到:https://desaixie.github.io/lrm-zero/。
俗稱,基於擴散過程的影像生成模型常被說成展現「幻覺」,即在訓練數據中永遠不會出現的樣本。但這些幻覺從何而來呢?在本文中,我們研究了擴散模型中一種特定的失敗模式,我們稱之為模式插值。具體來說,我們發現擴散模型會平滑地在訓練集中的相鄰數據模式之間「插值」,以生成完全超出原始訓練分佈支持範圍的樣本;這種現象導致擴散模型生成從未存在於真實數據中的人工成果(即幻覺)。我們系統地研究了這種現象的原因和表現。通過對一維和二維高斯分佈的實驗,我們展示了擴散模型解碼器中不連續的損失地形如何導致一個區域,任何平滑近似都會引起這種幻覺。通過對具有各種形狀的人工數據集的實驗,我們展示了幻覺如何導致生成從未存在的形狀組合。最後,我們展示了擴散模型實際上知道何時超出支持範圍並產生幻覺。這是由生成樣本朝向最後幾個反向採樣過程的高變異性所捕捉的。通過使用一個簡單的指標來捕捉這種變異性,我們可以在生成時消除超過95%的幻覺,同時保留96%的支持內樣本。我們通過在MNIST和二維高斯數據集上進行實驗,展示了這種幻覺(及其消除)對於合成數據上遞歸訓練的崩潰(和穩定)的影響。我們在https://github.com/locuslab/diffusion-model-hallucination 上發布了我們的代碼。
超低位元率圖像壓縮是一個具有挑戰性且要求嚴格的議題。隨著大型多模型(LMMs)的發展,出現了一種圖像-文本-圖像的跨模態壓縮(CMC)範式。與傳統編解碼器相比,這種語義級別的壓縮可以將圖像數據大小降低到0.1\%甚至更低,具有強大的應用潛力。然而,CMC 在與原始圖像的一致性和感知質量方面存在一定缺陷。為了解決這個問題,我們引入了 CMC-Bench,這是一個用於圖像壓縮的圖像到文本(I2T)和文本到圖像(T2I)模型協同性能的基準。這個基準涵蓋了分別驗證了 6 個主流 I2T 和 12 個 T2I 模型的 18,000 和 40,000 張圖像,其中包括 160,000 個由人類專家標註的主觀偏好分數。在超低位元率下,本文證明了某些 I2T 和 T2I 模型的組合已經超越了最先進的視覺信號編解碼器;同時,本文突出了 LMMs 可以進一步優化以應對壓縮任務的方向。我們鼓勵 LMM 開發人員參與此測試,以促進視覺信號編解碼協議的演進。
在以主題驅動的文本到圖像生成中,最近的研究通過在合成數據集上訓練模型,其中包含眾多圖像對,已經實現了卓越的性能。通過在這些數據集上訓練,生成模型可以以零樣本的方式為特定主題從任意測試圖像生成與文本對齊的圖像。它們甚至優於需要在測試圖像上進行額外微調的方法。然而,創建這類數據集的成本對大多數研究人員來說是禁止的。為了生成單個訓練對,當前的方法是在主題圖像上對預先訓練的文本到圖像模型進行微調,以捕獲細粒度細節,然後使用微調後的模型基於創意文本提示為相同主題創建圖像。因此,構建包含數百萬主題的大規模數據集可能需要數十萬個 GPU 小時。為了應對這個問題,我們提出了 Toffee,一種有效的方法來構建用於主題驅動編輯和生成的數據集。具體來說,我們的數據集構建不需要任何主題級微調。在預訓練兩個生成模型之後,我們能夠生成無限數量的高質量樣本。我們構建了第一個用於主題驅動圖像編輯和生成的大規模數據集,其中包含 500 萬個圖像對、文本提示和遮罩。我們的數據集是先前最大數據集的 5 倍大小,但我們的成本要低數萬個 GPU 小時。為了測試提出的數據集,我們還提出了一個模型,能夠進行主題驅動的圖像編輯和生成。通過簡單地在我們提出的數據集上訓練模型,它獲得了競爭性的結果,說明了提出的數據集構建框架的有效性。