每日精選AI研究論文及翻譯
大型語言模型(LLM)已經在自然語言處理(NLP)領域引起了革命,提升了許多現有任務的最新技術水平並展現出新興的能力。然而,LLM 尚未成功應用於半結構文件信息提取,這是許多文件處理工作流程的核心,包括從視覺豐富文件(VRD)中提取關鍵實體,並給定預定義的目標架構。LLM 在該任務中應用的主要障礙是缺乏在LLM 內部進行版面編碼,這對於高質量提取至關重要,以及缺乏確保答案不是虛構的基礎機制。在本文中,我們介紹基於語言模型的文件信息提取和定位(LMDX)方法,用於適應任意LLM 進行文件信息提取。LMDX 可以進行單個、重複和階層實體的提取,無論是否有訓練數據,同時提供基礎保證並定位文件中的實體。特別是,我們將 LMDX 應用於 PaLM 2-S LLM,並在 VRDU 和 CORD 基準上進行評估,創立了新的技術水平,展示了 LMDX 如何實現高質量、高效的解析器的創建。
本文揭示了擴散 U-Net 的潛力,它被視為一種「免費午餐」,顯著提高了即時生成的質量。我們首先研究了 U-Net 結構對降噪過程的關鍵貢獻,發現其主幹主要貢獻於降噪,而其跳躍連接主要將高頻特徵引入解碼器模塊,導致網絡忽略主幹語義。基於這一發現,我們提出了一種簡單而有效的方法,稱為「FreeU」,它可以提高生成質量,無需額外的訓練或微調。我們的關鍵見解是從戰略上重新加權來自 U-Net 跳躍連接和主幹特徵圖的貢獻,以利用 U-Net 結構的兩個組成部分的優勢。在圖像和視頻生成任務上取得的令人期待的結果表明,我們的 FreeU 可輕鬆集成到現有的擴散模型中,例如 Stable Diffusion、DreamBooth、ModelScope、Rerender 和 ReVersion,只需幾行代碼即可提高生成質量。您只需在推理過程中調整兩個縮放因子即可。項目頁面:https://chenyangsi.top/FreeU/。
本文提出了DreamLLM,這是一個學習框架,首次實現了功能強大的多模態大型語言模型(MLLMs),並賦予其多模態理解和創作之間經常被忽視的協同作用。DreamLLM運作基於兩個基本原則。第一個著重於透過在原始多模態空間中直接取樣,生成語言和圖像後驗模型。這種方法避開了外部特徵提取器(如CLIP)固有的限制和信息損失,從而獲得更全面的多模態理解。第二,DreamLLM促進生成原始的交錯文檔,對文本和圖像內容以及非結構化布局進行建模。這使DreamLLM能夠有效地學習所有條件、邊際和聯合多模態分佈。因此,DreamLLM是第一個能夠生成自由形式交錯內容的MLLM。全面的實驗突顯了DreamLLM作為零-shot多模態通才的卓越表現,從增強的學習協同作用中受益。
我們提出了Kosmos-2.5,這是一個用於機器閱讀以文本為主的圖像的多模式文學模型。在大規模文本為主的圖像上預訓練的Kosmos-2.5在兩個不同但互補的轉錄任務中表現出色:(1)生成具有空間感知的文本塊,其中每個文本塊被分配其在圖像中的空間坐標,以及(2)生成以Markdown格式捕捉風格和結構的結構化文本輸出。這種統一的多模式文學能力是通過共享的Transformer架構、任務特定提示和靈活的文本表示實現的。我們在端到端文檔級文本識別和圖像到Markdown文本生成上評估了Kosmos-2.5。此外,通過監督微調,該模型可以輕鬆適應不同提示的任何文本為主的圖像理解任務,使其成為涉及文本豐富圖像的現實應用的通用工具。這項工作還為未來多模式大型語言模型的擴展鋪平了道路。
在大型語言模型中,產生看似合理但事實不正確的資訊,稱為幻覺,是一個尚未解決的問題。我們研究語言模型在給出回應時審慎考慮並更正錯誤的能力。我們開發了「驗證鏈」(CoVe)方法,模型首先(i)起草初始回應;然後(ii)計劃驗證問題以核實起草的內容;(iii)獨立回答這些問題,以避免受其他回應的影響;最後(iv)生成最終經過驗證的回應。在實驗中,我們展示了CoVe在各種任務中減少幻覺的效果,包括來自Wikidata的基於列表的問題、閉書式MultiSpanQA和長文本生成。
在 AI 社群中,透過大規模多模態資料集驅動,已取得重大進展,發展出強大的基礎模型。然而,在音訊表示學習社群中,目前的音訊語言資料集存在著容量不足、內容過於簡單以及收集程序繁瑣等限制。為了應對這些挑戰,我們提出了一個創新且自動的音訊標題生成流程,基於一系列公共工具或 API,並建立了一個大規模、高品質的音訊語言資料集,名為 Auto-ACD,包含超過 1.9 百萬個音訊文本對。為了展示所提出資料集的有效性,我們在我們的資料集上訓練了流行的模型,並展示在各種下游任務上的性能改進,即音訊語言檢索、音訊標題生成、環境分類。此外,我們建立了一個新穎的測試集,並為音訊文本任務提供了一個基準。所提出的資料集將在 https://auto-acd.github.io/ 上發布。
近年來,大型語言模型(LLMs)由於其出色的性能和泛化能力,受到研究界的廣泛關注。在本文中,我們介紹了一種新方法,用於將LLMs納入上下文的語音識別模型中。我們的方法將語音識別視為一種基於預訓練LLM的混合模態語言建模任務。我們提供音頻特徵,以及可選的文本標記來訓練系統以解碼器方式完成轉錄。因此,系統在訓練過程中被隱式激勵學習如何利用非結構化的上下文信息。我們的實驗結果表明,在提供額外文本上下文時,性能顯著提高,WER減少了6%。此外,我們發現我們的方法在整體性能上競爭力強,對於罕見詞語的WER提高了17%,相對於基準上下文化的RNN-T系統,在訓練時使用了超過25倍大的語音數據集。總的來說,我們證明通過添加少量可訓練參數透過適配器,我們可以為預訓練的LLM解鎖上下文化的語音識別能力,同時保持相同的僅文本輸入功能。
Languini Kitchen 既是一個研究集體,也是一個程式碼庫,旨在賦予計算資源有限的研究人員能力,以對語言建模領域做出有意義的貢獻。我們引入了一個實驗性協議,使模型比較基於等效計算,以加速器小時為度量單位。模型訓練的標記數量由模型的吞吐量和所選計算類別所定義。值得注意的是,這種方法避免了對影響總參數或浮點運算的關鍵超參數施加限制。為了評估,我們對現有的大型、多樣化和高質量的書籍數據集進行預處理,該數據集在質量、多樣性和文件長度方面超越現有的學術基準。我們在此基礍上比較了基於實證縮放趨勢的方法,這些趨勢是通過在不同計算級別進行實驗來估計的。此工作還提供了兩個基準模型:一個是從 GPT-2 架構衍生的前饋模型,另一個是一個具有十倍吞吐量的新型 LSTM 循環模型。儘管 GPT 基準在我們所有的計算級別上都實現了更好的困惑度,我們的 LSTM 基準展現了一個可預測且更有利的縮放定律。這是由於改進的吞吐量以及實現相同測試困惑度減少所需的訓練標記較少。對兩個模型的縮放定律進行外推,結果在大約 50,000 加速器小時處相交。我們希望這項工作能成為有意義且可重現的語言建模研究的基礎。
最近在神經輻射場(Neural Radiance Fields,NeRFs)方面的進展使得重建和重新製作動態肖像場景成為可能,並可控制頭部姿勢、面部表情和觀看方向。然而,訓練這些模型需要假設變形區域內的光度一致性,例如,隨著頭部姿勢和面部表情的變化,臉部必須均勻照亮。即使在工作室環境中,跨視頻幀的這種光度一致性很難保持,因此在重新製作過程中,創建的可重新製作的神經肖像容易出現瑕疵。在這項工作中,我們提出了CoDyNeRF,這是一個系統,可以在現實世界的拍攝條件下創建完全可控的3D肖像。CoDyNeRF通過在規範空間中的動態外觀模型來學習近似光線依賴效應,該模型受到預測表面法線以及面部表情和頭部姿勢變形的條件影響。表面法線的預測是通過作為人頭法線的粗略先驗的3DMM法線來引導的,由於頭部姿勢和面部表情變化引起的剛性和非剛性變形,直接預測法線是困難的。通過僅使用智能手機拍攝的被試者短視頻進行訓練,我們展示了我們的方法在具有明確頭部姿勢和表情控制以及逼真照明效果的肖像場景的自由視圖合成方面的有效性。項目頁面可在此處找到:http://shahrukhathar.github.io/2023/08/22/CoDyNeRF.html