每日精選AI研究論文及翻譯
程式碼的大型語言模型(LLMs)在各個領域變得不可或缺,包括程式碼生成、推理任務和代理系統。雖然開放訪問的程式碼LLMs越來越接近專有模型的性能水平,但適用於嚴謹科學研究的高質量程式碼LLMs仍然有限,特別是那些具有可重現數據處理流程和透明訓練協議的模型。這種稀缺性是由於各種挑戰,包括資源限制、道德考量以及保持模型先進性的競爭優勢。為了填補這一差距,我們引入了OpenCoder,這是一個頂尖的程式碼LLM,不僅實現了與領先模型可比擬的性能,還為研究社區提供了一個“開放的食譜”。與大多數先前的努力不同,我們不僅釋放模型權重和推理程式碼,還釋放可重現的訓練數據、完整的數據處理流程、嚴格的實驗消融結果以及詳細的訓練協議,以支持開放的科學研究。通過這一全面釋放,我們確定了構建頂尖程式碼LLM的關鍵要素:(1)針對數據清理的程式碼優化啟發式規則和數據去重的方法,(2)與程式碼相關的文本語料的召回,以及(3)在退火和監督微調階段都有高質量的合成數據。通過提供這種程度的開放性,我們旨在擴大對頂尖程式碼LLM各個方面的訪問,OpenCoder既是一個強大的模型,也是一個開放的基礎,以加速研究並實現程式碼人工智能領域的可重現進步。
最近對於1位元大型語言模型(LLMs)的研究,如BitNet b1.58,提出了一個有望降低LLMs推論成本的方向,同時保持其性能。在這項工作中,我們介紹了BitNet a4.8,為1位元LLMs啟用4位元激活。BitNet a4.8採用混合量化和稀疏化策略,以減輕異常通道引入的量化誤差。具體而言,我們將4位元激活用於注意力和前饋網絡層的輸入,同時將中間狀態稀疏化,然後進行8位元量化。大量實驗表明,BitNet a4.8實現了與BitNet b1.58相當的性能,並具有相同的訓練成本,同時在啟用4位元(INT4/FP4)核心的推論速度更快。此外,BitNet a4.8僅激活55%的參數,並支持3位元KV快取,進一步增強了大規模LLM部署和推論的效率。
本文介紹了DimensionX,這是一個旨在通過視頻擴散從單張圖像生成逼真的3D和4D場景的框架。我們的方法始於一個洞察,即3D場景的空間結構和4D場景的時間演變可以通過視頻幀序列有效表示。儘管最近的視頻擴散模型在生成生動視覺效果方面取得了顯著成功,但由於在生成過程中存在空間和時間控制能力有限,它們在直接恢復3D/4D場景方面存在局限性。為了克服這一問題,我們提出了ST-Director,通過從維度變異數據中學習維度感知的LoRAs,將視頻擴散中的空間和時間因素解耦。這種可控的視頻擴散方法使我們能夠精確操縱空間結構和時間動態,從而通過空間和時間維度的結合從連續幀中重建3D和4D表示。此外,為了彌合生成的視頻與現實場景之間的差距,我們引入了一種用於3D生成的軌跡感知機制和一種用於4D生成的保持身份的去噪策略。對各種真實世界和合成數據集的大量實驗表明,與先前方法相比,DimensionX在可控視頻生成以及3D和4D場景生成方面取得了優異的結果。
大型語言模型(LLMs)的發展已擴展到多模態系統,能夠在統一框架內處理文本、圖像和語音。與僅處理文本的LLMs相比,訓練這些模型需要更大量的數據集和計算資源。為了應對規模挑戰,我們引入了Mixture-of-Transformers(MoT),這是一種稀疏的多模態Transformer架構,可以顯著降低預訓練的計算成本。MoT通過模態解耦模型的非嵌入參數,包括前饋網絡、注意力矩陣和層正規化,實現了對完整輸入序列的全局自注意力的模態特定處理。我們在多個設置和模型規模上評估MoT。在Chameleon 7B設置中(自回歸文本和圖像生成),MoT僅使用55.8%的FLOPs即可達到與密集基準性能相匹配的水平。當擴展到包含語音時,MoT僅使用37.2%的FLOPs即可達到與密集基準相當的語音性能。在Transfusion設置中,其中文本和圖像是根據不同目標進行訓練,一個7B的MoT模型以三分之一的FLOPs即可達到與密集基準相同的圖像模態性能,而一個760M的MoT模型在關鍵圖像生成指標上優於1.4B的密集基準。系統分析進一步凸顯了MoT的實際優勢,在AWS p4de.24xlarge實例上(搭載NVIDIA A100 GPU)的牆鐘時間中,以47.2%的時間達到密集基準的圖像質量,以75.6%的時間達到文本質量。
文件視覺問答(DocVQA)流程可以回答來自文件的問題,具有廣泛的應用。現有方法主要集中在處理單頁文件,使用多模態語言模型(MLM),或者依賴於基於文本檢索增強生成(RAG)的方法,使用文字提取工具如光學字符識別(OCR)。然而,在真實場景中應用這些方法存在困難:(a)問題通常需要跨不同頁面或文件的信息,MLM無法處理許多長文檔;(b)文件中常常包含重要信息的視覺元素,如圖表,但文字提取工具會忽略它們。我們引入M3DocRAG,一個新穎的多模態RAG框架,靈活適應各種文件上下文(封閉域和開放域)、問題跳躍(單跳和多跳)和證據模態(文本、圖表、圖片等)。M3DocRAG通過多模態檢索器和MLM找到相關文件並回答問題,因此可以有效處理單個或多個文件,同時保留視覺信息。由於先前的DocVQA數據集在特定文件上下文中提問,我們還提出M3DocVQA,這是一個新的基準,用於評估超過3,000份PDF文件,總頁數超過40,000頁的開放域DocVQA。在三個基準(M3DocVQA/MMLongBench-Doc/MP-DocVQA)中,實證結果顯示,M3DocRAG與ColPali和Qwen2-VL 7B相比,表現優越,超越了許多強基準,包括在MP-DocVQA中的最新表現。我們對不同索引、MLM和檢索模型進行了全面分析。最後,我們定性展示了M3DocRAG成功應對各種情況,例如當相關信息存在於多個頁面時,以及當答案證據僅存在於圖像中。
由於影片中複雜的空間和時間動態,影片與文本之間的細粒度對齊具有挑戰性。現有基於影片的大型多模型模型(LMM)可以處理基本對話,但在影片中精確的像素級對齊方面表現不佳。為了應對這一問題,我們引入了VideoGLaMM,這是一種針對影片中細粒度像素級對齊而設計的LMM,基於用戶提供的文本輸入。我們的設計無縫地連接了三個關鍵組件:一個大型語言模型、一個強調空間和時間細節的雙視覺編碼器,以及一個用於準確生成遮罩的時空解碼器。通過可調的V-L和L-V適配器實現了緊密的視覺-語言對齊。該架構被訓練以將影片內容的空間和時間元素與文本指示同步。為了實現細粒度對齊,我們通過半自動標註流程精心策劃了一個多模態數據集,其中包含了詳細的視覺對齊對話,結果形成了一個包含38k個視頻問答三元組、83k個對象和671k個遮罩的多樣化數據集。我們在三個具有挑戰性的任務上評估了VideoGLaMM:對話生成對齊、視覺對齊和參考視頻分割。實驗結果表明,我們的模型在所有三個任務中始終優於現有方法。
隨著基於Transformer的視覺和語言任務模型的引入,如LLaVA和Chameleon,對於圖像的離散標記表示再次引起了興趣。這些模型通常將圖像補丁視為離散標記,類似於自然語言中的單詞,學習視覺和人類語言之間的聯合對齊。然而,對於這些視覺語言的統計行為知之甚少 - 它們是否遵循類似的頻率分佈、語法結構或拓撲結構,如同自然語言一樣。在本文中,我們採取了以自然語言為中心的方法來分析離散視覺語言,揭示了顯著的相似之處和基本差異。我們證明,儘管視覺語言遵循Zipfian分佈,但更高的標記創新會帶來更大的熵和更低的壓縮,其中標記主要代表物體部分,表明中間粒度。我們還展示,視覺語言缺乏連貫的語法結構,導致更高的困惑度和比自然語言更弱的階層組織。最後,我們證明,雖然視覺模型與自然語言比其他模型更緊密地對齊,但這種對齊仍然明顯弱於自然語言內部的凝聚力。通過這些實驗,我們展示了了解離散視覺語言的統計特性如何有助於設計更有效的計算機視覺模型。
為了增進與對話者的社交聯繫,人類自然地獲得了在特定情況下適當回應的能力,透過考慮哪種對話技巧最適合作出回應 - 這個過程我們稱之為心智技能。對於基於大型語言模型(LLM)的對話代理人來說,像人類一樣計劃適當的對話技巧在社交對話的複雜性方面具有挑戰性,特別是在互動場景中。為了應對這一挑戰,我們提出了一個名為多面向心智技能(Multifaceted Skill-of-Mind)的對話數據集,其中包括各種互動場景(例如長期、輔導、任務導向)中的多輪和多面向對話技能,基於不同的社交背景(例如人口統計學、個人形象、經驗法則)。該數據集包含約10萬個對話。利用這個數據集,我們引入了一個新系列的注入心智技能的LLM,名為Thanos,模型規模分別為10億、30億和80億參數。通過大量實驗,這些模型成功展示了心智技能過程,並在推斷各種領域中的多面向技能方面表現出強大的泛化能力。此外,我們展示了Thanos明顯提升了基於LLM的對話代理人生成的回應質量,並在人類評估中促進了親社會行為。
擴散模型已被證實在生成高質量圖像方面非常有效。然而,隨著這些模型變得更大,它們需要更多的記憶體,並且遭受更高的延遲,這對部署構成了重大挑戰。在這項工作中,我們旨在通過將擴散模型的權重和激活量量化為4位元來加速這些模型。在這種激進水平下,權重和激活量都非常敏感,傳統的用於大型語言模型的後訓練量化方法,如平滑法,變得不夠。為了克服這一限制,我們提出了SVDQuant,一種新的4位元量化範式。與將異常值在權重和激活量之間重新分配的平滑法不同,我們的方法使用低秩分支吸收這些異常值。我們首先通過將異常值從激活量轉移到權重來整合這些異常值,然後利用高精度的低秩分支使用奇異值分解(SVD)來吸收權重的異常值。這個過程緩解了兩側的量化。然而,單獨運行低秩分支會產生額外的激活量數據移動,導致量化加速失效。為了解決這個問題,我們共同設計了一個推理引擎 Nunchaku,將低秩分支的核心融合到低位元分支的核心中,以切斷多餘的記憶體訪問。它還可以無縫支持即插即用的低秩適配器(LoRAs),無需重新量化。在SDXL、PixArt-Sigma和FLUX.1上進行的大量實驗驗證了SVDQuant在保持圖像質量方面的有效性。我們將12B FLUX.1模型的記憶體使用量減少了3.5倍,在16GB筆記本電腦4090 GPU上,相對於4位元僅權重量化基線,實現了3.0倍的加速,為PC上的更多互動應用鋪平了道路。我們的量化庫和推理引擎已開源。
隨著大型語言模型(LLMs)的上下文限制增加,可能應用和下游功能的範圍也擴大。在許多實際任務中,決策取決於散佈在通常包含大多數無關信息的不同文檔集合中的細節。長上下文LLMs似乎很適合這種複雜信息檢索和推理形式,這在傳統上被證明是昂貴且耗時的。然而,盡管近年來長上下文模型的發展取得了快速進展,我們對LLMs如何有效利用其上下文的理解卻沒有跟上。為了解決這個問題,我們進行了一系列檢索實驗,旨在評估17個領先的LLMs的能力,例如它們通過上下文窗口追踪信息串的能力。引人注目的是,我們發現許多模型在追踪信息串時表現出色:能夠同時跟踪多個信息串而性能損失不大。然而,對於許多模型來說,我們發現有效的上下文限制明顯短於支持的上下文長度,隨著上下文窗口的增長,準確性下降。我們的研究還突顯了一個重要觀點,即來自不同分詞器的標記計數不應直接進行比較--它們通常對應到完全不同數量的書寫字符。我們釋出我們的代碼和長上下文實驗數據。
在開放詞彙的移動操作方面取得了顯著進展,其目標是讓機器人在任何環境中執行任務,只需提供自然語言描述。然而,大多數當前系統假設環境是靜態的,這限制了系統在現實情況下的應用,因為環境經常因人為干預或機器人自身行為而發生變化。在這項工作中,我們提出了DynaMem,這是一種應用動態空間語義記憶來表示機器人環境的新方法。DynaMem構建了一個三維數據結構來維護點雲的動態記憶,並使用多模態LLMs或最先進的視覺語言模型生成的開放詞彙特徵來回答開放詞彙對象定位查詢。在DynaMem的支持下,我們的機器人可以探索新環境,在記憶中尋找未找到的對象,並在場景中的對象移動、出現或消失時持續更新記憶。我們在三個真實場景和九個離線場景中對Stretch SE3機器人進行了大量實驗,在非靜態對象上實現了70%的平均拾取和放置成功率,這比最先進的靜態系統提高了2倍以上。我們的代碼以及實驗和部署視頻是開源的,可以在我們的項目網站上找到:https://dynamem.github.io/
程式混合是指在單一句子中整合來自多種語言的詞彙和語法元素,是一種廣泛存在的語言現象,尤其在多語社會中尤為普遍。在印度,社交媒體用戶經常使用羅馬字母來進行程式混合對話,特別是在移民社區中形成的線上群組中分享相關的當地信息。本文專注於從程式混合對話中提取相關信息的挑戰,特別是在羅馬化孟加拉語與英語混合的情況下。本研究提出了一種新方法來應對這些挑戰,通過開發一個機制來自動識別程式混合對話中最相關的答案。我們在包含來自Facebook的查詢和文件以及查詢相關文件(QRels)的數據集上進行了實驗,以協助完成這項任務。我們的結果展示了我們的方法在從複雜的程式混合數字對話中提取相關信息方面的有效性,有助於豐富多語和非正式文本環境中自然語言處理領域。我們使用GPT-3.5 Turbo通過提示以及利用相關文件的序列性質來構建一個數學模型,有助於檢測與查詢相關的文件。
現有用於評估基礎模型的基準主要專注於單一文件、僅文字任務。然而,它們常常無法完全捕捉研究工作流程的複雜性,後者通常涉及解釋非文本數據並跨多個文件收集信息。為填補這一空白,我們引入了 M3SciQA,這是一個多模態、多文件科學問答基準,旨在更全面地評估基礎模型。M3SciQA 包含 1,452 個專家注釋問題,涵蓋 70 個自然語言處理論文叢集,每個叢集代表一篇主要論文以及其所有引用文件,反映了通過需要多模態和多文件數據來理解單篇論文的工作流程。通過 M3SciQA,我們對 18 個基礎模型進行了全面評估。我們的結果表明,當前的基礎模型在多模態信息檢索和跨多個科學文件進行推理方面仍然明顯遜於人類專家。此外,我們探討了這些發現對將基礎模型應用於多模態科學文獻分析的未來發展的影響。
我們提出了GazeGen,一個使用者互動系統,可根據使用者眼神指向的位置生成視覺內容(圖像和影片)。GazeGen允許通過注視感興趣的區域直觀地操作視覺內容。利用物體檢測和生成式人工智慧的先進技術,GazeGen執行了注視控制的圖像添加/刪除、重新定位以及圖像物件的表面材料變更,並將靜態圖像轉換為影片。GazeGen的核心是DFT Gaze(Distilled and Fine-Tuned Gaze)代理,這是一個超輕量級模型,僅有281K個參數,能夠針對個別使用者的眼睛在小型邊緣設備上進行準確的實時注視預測。GazeGen是第一個將視覺內容生成與實時注視估計結合在一起的系統,這僅有DFT Gaze才能實現。這種實時注視估計使各種視覺內容生成任務成為可能,並且由使用者的注視進行控制。DFT Gaze的輸入是使用者的眼睛圖像,而視覺內容生成的輸入則是使用者的視角和從DFT Gaze預測的注視點。為了實現高效的注視預測,我們通過新穎的知識蒸餾和個性化適應技術從大型模型(大10倍)中衍生出小型模型。我們將知識蒸餾與遮罩自編碼器相結合,開發了一個緊湊而強大的注視估計模型。這個模型進一步通過Adapters進行微調,實現高度準確和個性化的注視預測,並最小化使用者輸入。DFT Gaze確保低延遲和精確的注視追踪,支持各種注視驅動任務。我們在AEA和OpenEDS2020基準測試中驗證了DFT Gaze的性能,展示了在邊緣設備(Raspberry Pi 4)上低角度注視誤差和低延遲。此外,我們描述了GazeGen的應用,展示了其在各種使用情境中的多功能性和有效性。
圖像轉視頻生成的方法已經取得了令人印象深刻的照片般逼真的質量。然而,調整生成的視頻中的特定元素,如物體運動或攝像機移動,通常是一個繁瑣的試錯過程,例如,需要重新生成具有不同隨機種子的視頻。最近的技術解決了這個問題,通過微調預先訓練的模型來遵循條件信號,例如邊界框或點軌跡。然而,這種微調過程可能具有計算昂貴的特點,並且需要具有標註的物體運動的數據集,這可能難以獲得。在這項工作中,我們介紹了SG-I2V,一個用於可控圖像轉視頻生成的框架,它是自我學習的,僅依賴於預先訓練的圖像轉視頻擴散模型中存在的知識,無需進行微調或外部知識。我們的零樣本方法在視覺質量和運動保真度方面優於無監督基線,同時在視覺質量和運動保真度方面與監督模型競爭。
除了高保真度圖像合成外,擴散模型最近在密集視覺感知任務中展現出有希望的結果。然而,大多數現有工作將擴散模型視為感知任務的獨立組件,將其僅用於現成數據擴增或僅作為特徵提取器。與這些孤立且因此次優的努力相反,我們引入了一個統一、多功能的基於擴散的框架,Diff-2-in-1,通過對擴散去噪過程的獨特利用,可以同時處理多模態數據生成和密集視覺感知。在這個框架內,我們通過利用去噪網絡創建與原始訓練集分佈相似的多模態數據,進一步通過多模態生成增強區分性視覺感知。重要的是,Diff-2-in-1通過利用一種新型的自我改進學習機制,優化了所創建的多樣和忠實數據的利用。全面的實驗評估驗證了我們框架的有效性,展示了在各種區分性骨幹和高質量多模態數據生成方面的一致性性能改進,其特徵是現實感和實用性。