每日精選AI研究論文及翻譯
結構信息對於理解文本豐富的圖像(如文檔、表格和圖表)的語義至關重要。現有的用於視覺文檔理解的多模態大型語言模型(MLLMs)具備文本識別能力,但缺乏對於文本豐富的文檔圖像的一般結構理解能力。在這項工作中,我們強調結構信息在視覺文檔理解中的重要性,並提出統一結構學習以提升MLLMs的性能。我們的統一結構學習包括結構感知解析任務和跨5個領域(文檔、網頁、表格、圖表和自然圖像)的多粒度文本定位任務。為了更好地編碼結構信息,我們設計了一個簡單而有效的視覺到文本模塊H-Reducer,它不僅可以保持布局信息,還可以通過卷積合併水平相鄰的塊來減少視覺特徵的長度,使LLM能夠更有效地理解高分辨率圖像。此外,通過構建結構感知文本序列和多粒度文本和邊界框對於公開可用的文本豐富圖像,我們構建了一個全面的訓練集DocStruct4M來支持結構學習。最後,我們構建了一個小而高質量的推理調整數據集DocReason25K,以觸發文檔領域中的詳細解釋能力。我們的模型DocOwl 1.5在10個視覺文檔理解基準測試中實現了最先進的性能,將MLLMs的SOTA性能提高了超過10個百分點中的5個基準測試。我們的代碼、模型和數據集可在以下鏈接公開獲取:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5。
本文專注於任務不可知的提示壓縮,以提高通用性和效率。考慮到自然語言中的冗餘性,現有方法通過根據從因果語言模型(如LLaMa-7B)獲得的信息熵來刪除令牌或詞彙單元來壓縮提示。挑戰在於信息熵可能是一個次優的壓縮度量:(i)它僅利用單向上下文,可能無法捕捉所有提示壓縮所需的所有基本信息;(ii)它與提示壓縮目標不一致。 為了解決這些問題,我們提出了一個數據蒸餾程序,從LLM中提取知識以在不丟失關鍵信息的情況下壓縮提示,同時引入了一個抽取式文本壓縮數據集。我們將提示壓縮定義為一個令牌分類問題,以確保壓縮後的提示對原始提示的忠實性,並使用Transformer編碼器作為基礎架構,從完全雙向上下文中捕捉提示壓縮所需的所有基本信息。我們的方法通過明確學習與較小模型(如XLM-RoBERTa-large和mBERT)一起的壓縮目標,實現了更低的延遲。 我們在領域內和領域外數據集上對我們的方法進行評估,包括MeetingBank、LongBench、ZeroScrolls、GSM8K和BBH。儘管模型規模較小,但我們的模型在強基線上顯示出顯著的性能提升,並展示了在不同LLM上的強大泛化能力。此外,我們的模型比現有的提示壓縮方法快3倍至6倍,同時將端到端延遲加速1.6倍至2.9倍,壓縮比為2倍至5倍。
將非結構化文本轉換為結構化且有意義的形式,並按照有用的類別標籤進行組織,是文本挖掘中供下游分析和應用的基本步驟。然而,目前大多數現有的方法用於生成標籤分類法和構建基於文本的標籤分類器,仍然嚴重依賴領域專業知識和手動編輯,使得這個過程變得昂貴且耗時。當標籤空間未明確定義且大規模數據標註不可用時,這尤其具有挑戰性。在本文中,我們通過大型語言模型(LLMs)來應對這些挑戰,其基於提示的界面有助於誘導和使用大規模虛擬標籤。我們提出了TnT-LLM,一種兩階段框架,利用LLMs自動化端到端標籤生成和分配過程,對於任何特定用例,僅需最少的人力。在第一階段,我們引入了零-shot、多階段推理方法,使LLMs能夠迭代地生成和精煉標籤分類法。在第二階段,LLMs被用作數據標記者,提供訓練樣本,以便可以可靠地構建、部署和規模化提供輕量級監督分類器。我們將TnT-LLM應用於對Bing Copilot(前身為Bing Chat)的用戶意圖和對話領域的分析,這是一個開放域基於對話的搜索引擎。使用人工和自動評估指標進行的廣泛實驗表明,與最先進的基線相比,TnT-LLM生成的標籤分類法更準確且相關,並在規模化分類的準確性和效率之間取得了良好的平衡。我們還分享了使用LLMs進行大規模文本挖掘在實際應用中的挑戰和機遇的實踐經驗和見解。
開源的大型語言模型(LLMs)在各種自然語言處理任務中取得了巨大成功,然而,當充當代理時,它們仍遠遠不及基於API的模型。如何將代理能力整合到一般的LLMs中變得至關重要且迫切。本文首先提出三個關鍵觀察結果:(1)當前的代理訓練語料庫既包含遵循格式又包含代理推理,這與其預訓練數據的分佈明顯不同;(2)LLMs在代理任務所需的能力上表現出不同的學習速度;以及(3)通過引入幻覺來提高代理能力的當前方法存在副作用。基於上述發現,我們提出Agent-FLAN,以有效地對語言模型進行Fine-tune以用於代理。通過對訓練語料庫進行細致的分解和重新設計,Agent-FLAN使Llama2-7B在各種代理評估數據集上比先前最佳成果提高了3.5%。通過全面構建負樣本,Agent-FLAN在我們建立的評估基準上極大地緩解了幻覺問題。此外,當擴展模型大小時,Agent-FLAN持續提高LLMs的代理能力,同時稍微增強了LLMs的一般能力。代碼將在https://github.com/InternLM/Agent-FLAN 上提供。
我們提出了 AnimateDiff-Lightning 用於快速生成影片。我們的模型採用漸進式對抗擴散蒸餾,實現了在少步驟影片生成方面的新最先進技術。我們討論了我們對其進行的修改,以適應影片模式。此外,我們提議同時蒸餾多個基礎擴散模型的概率流,從而產生一個具有更廣泛風格兼容性的單一蒸餾運動模組。我們很高興釋出我們蒸餾的 AnimateDiff-Lightning 模型供社群使用。
儘管大型機器人系統通常依賴文字指令來執行任務,本研究探討了一種不同的方法:機器人是否能夠直接從觀察人類中推斷任務?這種轉變要求機器人能夠解碼人類意圖並將其轉化為可在其物理限制和環境中執行的動作。我們介紹了Vid2Robot,一種新型的端對端基於視頻學習框架,適用於機器人。給定一個操作任務的視頻演示和當前的視覺觀察,Vid2Robot直接生成機器人動作。這是通過在大量人類視頻和機器人軌跡數據集上訓練的統一表示模型實現的。該模型利用交叉關注機制將提示視頻特徵融合到機器人的當前狀態中,並生成模仿觀察任務的適當動作。為了進一步提高策略性能,我們提出輔助對比損失,增強人類和機器人視頻表示之間的對齊。我們在現實世界的機器人上評估了Vid2Robot,展示了與使用人類演示視頻時其他基於視頻的策略相比,性能提高了20%。此外,我們的模型表現出新興能力,例如成功地將觀察到的動作從一個對象轉移到另一個對象,以及長時間範圍的組合,從而展示了其在現實應用中的潛力。項目網站:vid2robot.github.io
視覺語言模型(VLMs)在多模式任務上的表現日益強大。然而,特別是對於較小的VLMs,其推理能力仍然有限,而大型語言模型(LLMs)的推理能力則已經得到許多改進。我們提出了一種從LLMs轉移能力到VLMs的技術。在最近推出的ChartQA上,我們的方法在應用於chen2023pali3的PaLI3-5B VLM時獲得了最先進的表現,同時還在PlotQA和FigureQA上實現了更好的表現。 我們首先通過繼續使用liu2023deplot改進的圖表到表格翻譯任務的改進版本來改進圖表表示。然後,我們提出構建比原始訓練集大20倍的數據集。為了提高一般推理能力和改進數值運算,我們使用圖表的表格表示來合成推理軌跡。最後,我們的模型使用hsieh2023distilling引入的多任務損失進行微調。 我們的變體ChartPaLI-5B的表現甚至優於PaLIX-55B等10倍大的模型,而無需使用上游OCR系統,同時與PaLI3-5B基線相比保持推理時間恆定。當使用chen2023program提出的簡單思維程序進一步優化原因時,我們的模型的表現優於最近推出的Gemini Ultra和GPT-4V。
從影像或視頻中創建高斯擴散的4D場是一項具有挑戰性的任務,因為它存在著不完全約束的特性。儘管優化可以從輸入視頻中獲取光度參考或受到生成模型的調節,但直接監督高斯運動仍然是一個未被充分探索的領域。在本文中,我們引入了一個新概念,高斯流,它將3D高斯和相鄰幀之間的像素速度的動態相連。高斯流可以通過將高斯動態傳播到圖像空間中來有效地獲得。這種可微分的過程使得可以從光流中直接進行動態監督。我們的方法顯著地有利於使用高斯擴散進行4D動態內容生成和4D新視角合成,特別適用於那些現有方法難以處理的具有豐富運動的內容。改進的高斯動態還解決了在4D生成中常見的顏色漂移問題。在廣泛實驗中展示出的卓越視覺質量證明了我們方法的有效性。定量和定性評估表明,我們的方法在4D生成和4D新視角合成的兩項任務上均取得了最先進的結果。專案頁面:https://zerg-overmind.github.io/GaussianFlow.github.io/
從給定的圖像生成高質量的3D資產在各種應用中非常理想,如AR/VR。最近在單圖像3D生成方面的進展探索了前饋模型,這些模型學習推斷對象的3D模型而無需進行優化。儘管在單個對象生成方面取得了令人鼓舞的結果,但這些方法通常難以建模包含多個對象的複雜3D資產。在這項工作中,我們提出了ComboVerse,一個3D生成框架,通過學習結合多個模型來生成具有複雜組成的高質量3D資產。1) 我們首先從模型和數據角度對這種“多對象差距”進行深入分析。2) 接下來,通過重建不同對象的3D模型,我們試圖調整它們的大小、旋轉角度和位置,以創建與給定圖像匹配的3D資產。3) 為了自動化這個過程,我們應用了從預訓練擴散模型中空間感知的分數蒸餾取樣(SSDS)來引導對象的定位。我們提出的框架強調對象的空間對齊,相較於標準分數蒸餾取樣,因此實現了更準確的結果。大量實驗驗證了ComboVerse在生成組合式3D資產方面明顯優於現有方法。
在這項研究中,我們深入探討從預訓練擴散模型生成高解析度圖像的過程,解決了當模型應用於超出其訓練分辨率時出現的重複模式和結構失真等持久性挑戰。為了應對這個問題,我們從頻率域分析的角度引入了一種創新的、無需訓練的方法 FouriScale。我們通過在預訓練擴散模型中替換原始卷積層,並結合一種擴張技術和低通操作,旨在實現跨分辨率的結構一致性和尺度一致性。進一步通過填充後裁剪策略的增強,我們的方法可以靈活處理各種長寬比的文本到圖像生成。通過使用 FouriScale 作為指導,我們的方法成功平衡了生成圖像的結構完整性和保真度,實現了任意大小、高解析度和高質量生成的驚人能力。憑藉其簡單性和兼容性,我們的方法可以為未來對超高解析度圖像合成的探索提供寶貴的見解。代碼將在 https://github.com/LeonHLJ/FouriScale 上發布。
文字到圖像擴散模型的卓越效能激發了人們對其在視頻領域潛在應用的廣泛探索。零樣本方法旨在將圖像擴散模型擴展到視頻,而無需進行模型訓練。最近的方法主要集中在將幀間對應納入注意機制中。然而,在確定要關注有效特徵的位置時所施加的軟約束有時可能不足,導致時間上的不一致性。在本文中,我們引入了FRESCO,將幀內對應與幀間對應結合,以建立更強大的時空約束。這種增強確保了跨幀之間語義相似內容更一致的轉換。除了僅僅的注意引導之外,我們的方法涉及對特徵的明確更新,以實現與輸入視頻高度時空一致性,顯著提高了所生成翻譯視頻的視覺一致性。大量實驗證明了我們提出的框架在生成高質量、一致性視頻方面的有效性,明顯優於現有的零樣本方法。
近年來,3D高斯點擴散技術已成為一種強大的3D重建和生成技術,以其快速和高質量的渲染能力而聞名。為解決這些缺點,本文介紹了一種新的基於擴散的框架,GVGEN,旨在從文本輸入中高效生成3D高斯表示。我們提出了兩種創新技術:(1) 結構化體積表示。我們首先將零散的3D高斯點排列為結構化的高斯體積。這種轉換允許在由固定數量的高斯組成的體積中捕獲複雜的紋理細節。為了更好地優化這些細節的表示,我們提出了一種名為候選池策略的獨特修剪和致密化方法,通過選擇性優化增強細節的保真度。(2) 粗到細的生成流程。為了簡化GaussianVolume的生成並使模型能夠生成具有詳細3D幾何的實例,我們提出了一種粗到細的流程。它首先構建基本的幾何結構,然後預測完整的高斯屬性。我們的框架GVGEN在質性和量性評估中表現優異,相較於現有的3D生成方法,同時保持著快速的生成速度(約7秒),有效地在質量和效率之間取得平衡。
利用語義 UV 地圖對 3D 人物進行紋理處理仍然是一個挑戰,因為獲取合理展開的 UV 面困難。儘管最近在監督多視角渲染方面取得了進展,使用大型文本到圖像(T2I)模型,但在生成速度、文本一致性和紋理質量方面仍存在問題,導致現有數據集中存在數據稀缺問題。我們提出 TexDreamer,這是第一個零樣本多模式高保真 3D 人體紋理生成模型。利用高效的紋理適應微調策略,我們將大型 T2I 模型調整為語義 UV 結構,同時保留其原始泛化能力。通過一個新穎的特徵翻譯器模組,訓練後的模型能夠在幾秒內從文本或圖像生成高保真的 3D 人體紋理。此外,我們介紹了 ArTicuLated humAn textureS(ATLAS),這是最大的高分辨率(1024 X 1024)3D 人體紋理數據集,其中包含 50k 高保真紋理與文本描述。