每日精選AI研究論文及翻譯
我們提出了LayerSkip,這是一個端對端解決方案,可加速大型語言模型(LLMs)的推論速度。首先,在訓練期間,我們應用層丟棄,較早的層使用較低的丟棄率,而較後的層使用較高的丟棄率,以及一個早期退出損失,其中所有變壓器層共享同一退出點。其次,在推論期間,我們展示了這種訓練配方如何增加在較早層的早期退出的準確性,而無需向模型添加任何輔助層或模塊。第三,我們提出了一種新穎的自我推測解碼解決方案,在此解決方案中,我們在較早層退出,並使用模型的其餘層進行驗證和修正。我們提出的自我推測解碼方法比其他推測解碼方法具有更小的記憶體占用量,並且受益於起草和驗證階段的共享計算和激活。我們對不同Llama模型大小進行了實驗,涉及不同類型的訓練:從頭開始的預訓練、持續預訓練、在特定數據領域上進行微調,以及在特定任務上進行微調。我們實現了我們的推論解決方案,並展示了在CNN/DM文檔摘要上高達2.16倍的加速,編碼上的1.82倍加速,以及TOPv2語義解析任務上的2.0倍加速。我們在https://github.com/facebookresearch/LayerSkip 上開源我們的代碼和檢查點。
在本報告中,我們介紹 InternVL 1.5,這是一個開源的多模態大型語言模型(MLLM),旨在彌合開源和專有商業模型在多模態理解方面的能力差距。我們引入了三項簡單的改進:(1)強大的視覺編碼器:我們探索了一種針對大規模視覺基礎模型 InternViT-6B 的連續學習策略,增強了其視覺理解能力,使其能夠在不同的LLM中進行轉移和重複使用。 (2)動態高分辨率:我們根據輸入圖像的寬高比和分辨率,將圖像分為1至40個448x448像素的瓷磚,支持高達4K分辨率的輸入。 (3)高質量的雙語數據集:我們精心收集了一個高質量的雙語數據集,涵蓋了常見場景、文檔圖像,並用英文和中文問答對進行了標註,顯著提升了OCR和與中文相關任務的性能。我們通過一系列基準測試和比較研究來評估 InternVL 1.5。與開源和專有模型相比,InternVL 1.5表現出競爭力,並在18個基準測試中的8個中取得了最先進的結果。代碼已在 https://github.com/OpenGVLab/InternVL 釋出。
儘管許多當代大型語言模型(LLMs)能夠處理冗長的輸入,但仍然難以充分利用長文本內的信息,這種情況被稱為中間遺失挑戰。我們假設這源於長文本訓練過程中缺乏足夠的明確監督,未能強調長文本中的任何位置都可能包含關鍵信息。基於這種直覺,我們的研究提出了信息密集(IN2)訓練,這是一種純粹基於數據的解決方案,用於克服中間遺失問題。具體來說,IN2訓練利用了一個合成的長文本問答數據集,其中答案需要(1)對合成長文本(4K-32K tokens)中的短段落(〜128 tokens)具有細粒度信息意識,以及(2)整合和推理來自兩個或更多短段落的信息。通過將這種信息密集訓練應用於Mistral-7B,我們提出了FILM-7B(填充中間)。為了全面評估FILM-7B利用長文本的能力,我們設計了三個探測任務,涵蓋各種文本風格(文檔、代碼和結構化數據文本)和信息檢索模式(向前、向後和雙向檢索)。探測結果表明,FILM-7B能夠穩健地從其32K文本窗口中的不同位置檢索信息。除了這些探測任務外,FILM-7B在真實世界的長文本任務上顯著提高了性能(例如,在NarrativeQA上的F1分數從23.5提高到26.9),同時在短文本任務上保持了可比的性能(例如,在MMLU上的準確率從59.3下降到59.2)。Github鏈接:https://github.com/microsoft/FILM。
3D物體生成已經取得了顯著的進展,產生了高質量的結果。然而,缺乏實現精確用戶控制,通常會產生與用戶期望不符的結果,從而限制了其應用範圍。用戶構想的3D物體生成面臨著重大挑戰,現有生成模型由於互動能力有限,難以實現其概念。現有方法主要提供兩種途徑:(i)解釋文本指令,具有受限的可控性,或者(ii)從2D圖像重建3D物體。這兩種方法都將定制限制在2D參考範圍內,並可能在3D轉換過程中引入不良藝術品,限制了直接和多功能的3D修改範圍。在這項工作中,我們介紹了Interactive3D,這是一個創新的互動3D生成框架,通過廣泛的3D互動功能,使用戶對生成過程具有精確控制。Interactive3D由兩個級聯階段構建,利用不同的3D表示。第一階段採用高斯樣板進行直接用戶互動,允許在任何中間步驟通過(i)添加和刪除組件,(ii)可變形和剛性拖動,(iii)幾何變換和(iv)語義編輯來修改和引導生成方向。隨後,高斯樣板被轉換為InstantNGP。我們引入了一個新的(v)互動哈希細化模塊,以進一步添加細節並在第二階段中提取幾何形狀。我們的實驗表明,Interactive3D顯著提高了3D生成的可控性和質量。我們的項目網頁位於https://interactive-3d.github.io/。
擴散式技術在個性化和定制化臉部生成方面取得了顯著進展。然而,現有方法在實現高保真度和詳細身份(ID)一致性方面面臨挑戰,主要是由於對面部區域的精細控制不足以及缺乏全面的身份保留策略,未能充分考慮微妙的面部細節和整體面部。為了解決這些限制,我們引入了ConsistentID,這是一種創新方法,專為在細粒度多模態面部提示下生成保持多樣性身份的肖像而設計,僅利用單張參考圖像。ConsistentID包括兩個關鍵組件:一個多模態面部提示生成器,結合面部特徵、相應的面部描述和整體面部背景,以增強面部細節的精確性,以及通過面部關注定位策略優化的身份保留網絡,旨在保持面部區域的ID一致性。這些組件共同通過從面部區域引入細粒度多模態ID信息,顯著提高了ID保留的準確性。為了促進ConsistentID的訓練,我們提出了一個細粒度肖像數據集FGID,其中包含超過50萬張面部圖像,比現有的公共面部數據集(如LAION-Face、CelebA、FFHQ和SFHQ)具有更大的多樣性和全面性。實驗結果證實,我們的ConsistentID在個性化臉部生成方面實現了卓越的精確性和多樣性,在MyStyle數據集中超越了現有方法。此外,儘管ConsistentID引入了更多多模態ID信息,但在生成過程中仍保持快速的推理速度。
大型語言模型(LLMs)展示了在語言理解和生成方面的深遠能力,促進了各種應用。然而,在有效地擴展LLMs超過500億參數的詳細、開源方法方面存在明顯的不足,並且需要最小的試錯成本和計算資源。在本報告中,我們介紹了Tele-FLM(又名FLM-2),這是一個擁有520億參數的開源多語言大型語言模型,具有穩定、高效的預訓練範式和增強的事實判斷能力。Tele-FLM展示了優越的多語言語言建模能力,通過文本語料庫上的BPB進行衡量。此外,在英文和中文基礎模型評估中,它與涉及更大預訓練FLOPs的強開源模型(如Llama2-70B和DeepSeek-67B)相當。除了模型權重,我們還分享了核心設計、工程實踐和訓練細節,我們期望這將使學術界和工業界都受益。
Mark集合(SoM)提示釋放了GPT-4V的視覺基準能力,使模型能夠將視覺物件與插入圖像的標籤相關聯。這些標籤以字母數字標記,可以通過文本標記進行索引以便輕鬆查閱。儘管GPT-4V表現出色,我們觀察到其他多模式大型語言模型(MLLMs)難以理解這些視覺標籤。為了促進開源模型對SoM提示的學習,我們提出了一種新的學習範式:“逐一列出項目”,該範式要求模型枚舉並描述圖像上按照字母數字順序放置的所有視覺標籤。通過將我們的策劃數據集與其他視覺指導調整數據集相結合,我們能夠為現有的MLLMs配備SoM提示能力。此外,我們在五個MLLM基準上評估了我們微調的SoM模型。我們發現,即使在相對較小的數據集(10k-30k張帶有標籤的圖像)中,這個新數據集也顯著增強了視覺推理能力,並減少了MLLMs的幻覺。也許令人驚訝的是,即使在推理過程中省略了輸入圖像中的視覺標籤,這些改進仍然持續存在。這表明“逐一列出項目”有潛力作為訓練MLLMs的新範式,通過在訓練階段使用視覺標籤來加強物件-文本對齊。最後,我們通過探測訓練模型來進行分析,以了解SoM的工作機制。我們的代碼和數據可在https://github.com/zzxslp/SoM-LLaVA找到。
儘管文字轉圖像(T2I)生成模型已變得無處不在,但它們並不一定生成與給定提示相符的圖像。先前的研究通過提出度量標準、基準和模板來評估T2I對齊性,但這些組件的質量並沒有得到系統性的評估。人工評分的提示集通常很小,評分的可靠性以及用於比較模型的提示集也沒有得到評估。我們通過進行一項廣泛的研究,評估自動評估指標和人工模板來填補這一空白。我們提供三個主要貢獻:(1)我們引入了一個全面的基於技能的基準,可以區分不同人工模板下的模型。這個基於技能的基準將提示劃分為子技能,使從業者不僅可以找出哪些技能具有挑戰性,還可以找出技能在什麼複雜程度下變得具有挑戰性。(2)我們跨四個模板和四個T2I模型收集了人工評分,總計超過100K個標註。這使我們能夠了解由於提示中固有的模棱兩可性而引起的差異,以及由於度量標準和模型質量的差異而引起的差異。(3)最後,我們引入了一個新的基於QA的自動評估指標,與我們的新數據集上現有指標相比,與不同的人工模板以及TIFA160上的人工評分更相關。
我們提出了 NeRF-XL,這是一種合理的方法,用於在多個 GPU 上分佈神經輻射場(NeRFs),從而實現對具有任意大容量的 NeRFs 進行訓練和渲染。我們首先重新檢視現有的多 GPU 方法,將大型場景分解為多個獨立訓練的 NeRFs,並識別出這些方法中的幾個基本問題,這些問題阻礙了隨著額外的計算資源(GPU)在訓練中的使用而提高重建質量。NeRF-XL 解決了這些問題,通過簡單地使用更多硬體,實現了對具有任意參數數量的 NeRFs 進行訓練和渲染。我們方法的核心是一種新穎的分佈式訓練和渲染公式,從數學上等價於經典的單 GPU 情況,並最小化 GPU 之間的通信。通過解鎖具有任意大參數數量的 NeRFs,我們的方法是首個揭示 NeRFs 的多 GPU 擴展規律,顯示隨著更大參數數量的改進重建質量以及隨著更多 GPU 的速度改進。我們在各種數據集上展示了 NeRF-XL 的有效性,包括迄今為止最大的開源數據集 MatrixCity,其中包含 25 平方公里城市區域的 258K 張圖像。
為了實際應用多模式大型語言模型(MLLMs),理解文本豐富的視覺內容至關重要,因為現實世界中充斥著以圖像為載體的大量文本內容。最近,具有出色多功能性的MLLMs的出現提高了我們對MLLMs的期望。然而,由於目前的MLLM基準主要集中於評估一般視覺理解能力,因此對它們在文本豐富情境中的熟練程度尚未得到全面和客觀的評估。在本研究中,我們介紹了SEED-Bench-2-Plus,這是一個專門設計用於評估MLLMs文本豐富視覺理解能力的基準。我們的基準包含2.3K個精確人工標註的多項選擇問題,涵蓋三個廣泛類別:圖表、地圖和網頁,每個類別都涵蓋了現實世界中各種文本豐富情境。這些類別由於其固有的複雜性和多樣性,有效地模擬了現實世界的文本豐富環境。我們進一步對34個知名MLLMs(包括GPT-4V、Gemini-Pro-Vision和Claude-3-Opus)進行了全面評估,並強調了MLLMs在文本豐富視覺理解方面的目前限制。我們希望我們的工作能成為現有MLLM基準的有價值補充,提供深入觀察並激發在MLLMs文本豐富視覺理解領域進一步研究的靈感。數據集和評估代碼可在https://github.com/AILab-CVC/SEED-Bench 上獲取。