每日精選AI研究論文及翻譯
企業文件,如表格、發票、收據、報告、合同等類似記錄,通常在文本和空間模式的交集處具有豐富的語義。它們複雜的版面設計提供的視覺線索在有效理解這些文件方面起著至關重要的作用。在本文中,我們提出了DocLLM,這是傳統大型語言模型(LLMs)的一個輕量級擴展,用於推理視覺文件,同時考慮文本語義和空間版面。我們的模型與現有的多模態LLMs不同,它避免使用昂貴的圖像編碼器,並專注於利用邊界框信息來納入空間版面結構。具體來說,文本和空間模式之間的交叉對齊是通過將傳統變壓器中的注意機制分解為一組解耦矩陣來捕捉的。此外,我們制定了一個預訓練目標,學習填充文本片段。這種方法使我們能夠應對視覺文件中經常遇到的不規則版面和異構內容。預訓練模型使用一個大規模指令數據集進行微調,該數據集涵蓋四個核心文件智能任務。我們展示了我們的解決方案在所有任務的16個數據集中有14個超越了現有技術的LLMs,並且對於以前未見過的5個數據集中的4個有很好的泛化能力。
本文介紹了一種新穎且簡單的方法,僅使用合成數據和不到1k個訓練步驟即可獲得高質量的文本嵌入。與現有方法不同,現有方法通常依賴於使用數十億個弱監督文本對進行多階段中間預訓練,然後再通過少量標記數據進行微調。我們的方法不需要構建複雜的訓練流程,也不依賴於通常受任務多樣性和語言覆蓋範圍限制的手動收集數據。我們利用專有的LLMs在近100種語言中為數十萬個文本嵌入任務生成多樣的合成數據。然後,我們使用標準對比損失在合成數據上對開源的僅解碼器LLMs進行微調。實驗表明,我們的方法在高度競爭的文本嵌入基準測試中取得了優異表現,而無需使用任何標記數據。此外,當使用合成和標記數據混合進行微調時,我們的模型在BEIR和MTEB基準測試上創下了新的最佳結果。
通過監督微調(SFT)利用人類標註數據的能力對於推進大型語言模型(LLMs)至關重要。在本文中,我們探討在無需獲取額外人類標註數據的情況下,如何從弱模型中發展出強大的LLM。我們提出了一種名為自我對弈微調(SPIN)的新微調方法,該方法從一個監督微調的模型開始。SPIN的核心是自我對弈機制,LLM通過與自身實例對戰來提升自身能力。更具體地說,LLM從其先前迭代中生成自己的訓練數據,通過區分這些自生成的回應與從人類標註數據獲得的回應來完善其策略。我們的方法逐步將LLM從新生模型提升為強大模型,發揮人類標註示範數據在SFT中的全部潛力。從理論上來說,我們證明了我們方法的訓練目標函數的全局最優解僅在LLM策略與目標數據分佈一致時才能實現。在實證方面,我們在幾個基準數據集上評估了我們的方法,包括HuggingFace Open LLM Leaderboard、MT-Bench以及來自Big-Bench的數據集。我們的結果顯示,SPIN能夠顯著提高LLM在各種基準測試中的性能,甚至優於通過直接偏好優化(DPO)搭配額外GPT-4偏好數據訓練的模型。這為自我對弈的潛力帶來曙光,實現了在LLMs中達到人類水平性能而無需專家對手的可能性。
近年來,大型語言模型(LLMs)取得了顯著的進展,如ChatGPT所展示的,在各種複雜任務中表現出卓越的能力。然而,許多主流的LLMs(例如LLaMA)是在以英語為主的語料庫上預訓練的,這限制了它們在其他非英語語言中的表現。本文專注於如何有效地將語言生成和遵循指示的能力轉移到非英語語言。為了回答這個問題,我們基於LLaMA進行了一項廣泛的實證研究,耗時超過1440 GPU小時。我們分析了詞彙擴展、進一步的預訓練和指示調整等關鍵因素對轉移的影響。為了準確評估模型的知識水平,我們使用了四個廣泛使用的標準化測試基準:C-Eval、MMLU、AGI-Eval和GAOKAO-Bench。此外,我們進行了對模型回應質量的全面評估,考慮了準確性、流暢性、信息量、邏輯連貫性和無害性等方面,基於LLM-Eval,這是一個包含來自17個不同類別指示任務的基準。我們的評估結果表明,在知識對齊和回應質量方面,可以在不到1%的預訓練數據下實現與最先進轉移模型相當的性能。此外,十三種低資源語言的實驗結果也呈現出類似的趨勢。我們預期實驗揭示的結論將有助於社群開發非英語LLMs。
大型語言模型(LLM)的擴展定律是一種經驗公式,用於估計隨著參數數量和訓練數據增加而導致模型質量變化。然而,這些公式,包括流行的DeepMind Chinchilla擴展定律,在計算時忽略了推理成本。我們修改了Chinchilla擴展定律,以計算最佳的LLM參數數量和預訓練數據大小,以訓練和部署具有特定質量和推理需求的模型。我們進行了分析,既考慮計算預算,也考慮現實世界成本,發現預期有相當大的推理需求(約10億次請求)的LLM研究人員應該訓練比Chinchilla最佳模型更小且更長的模型。
本研究揭示了大型語言模型(LLMs)在無需微調的情況下處理長文本的固有能力。在訓練期間訓練序列的長度限制可能會限制大型語言模型(LLMs)對於推論中長輸入序列的應用。在本研究中,我們認為現有的LLMs本身具有處理長文本的固有能力。基於這一觀點,我們建議通過擴展LLMs的上下文窗口來充分利用這種固有能力。我們提出了自我擴展(Self-Extend)來激發LLMs處理長文本的潛力。基本思想是構建雙層注意力信息:組級別和鄰居級別。這兩個級別是通過原始模型的自注意力計算的,這意味著所提出的方法不需要任何訓練。通過僅需四行程式碼修改,所提出的方法可以輕鬆擴展現有LLMs的上下文窗口,而無需進行任何微調。我們進行了全面的實驗,結果顯示所提出的方法可以有效地擴展現有LLMs上下文窗口的長度。
對於大型語言模型(LLMs)的全參數微調(FFT)成本高昂,因此出現了一系列參數高效微調(PEFT)方法。然而,目前仍不清楚在不同模型規模下,哪些方法提供了最佳的成本效能平衡。我們介紹了Astraios,這是一套包含28個經過指令調整的OctoCoder模型,使用7種微調方法和4種模型規模,最高達到160億個參數。通過對5個任務和8個不同數據集的研究,涵蓋了代碼理解和代碼生成任務,我們發現在各種規模下,FFT通常會帶來最佳的下游性能,而基於模型規模,PEFT方法在效能上存在顯著差異。LoRA通常提供了成本和性能之間最有利的平衡。進一步研究這些方法對模型的穩健性和代碼安全性的影響發現,較大的模型往往表現出較低的穩健性和較差的安全性。最後,我們探討了更新參數、交叉熵損失和任務性能之間的關係。我們發現在小型模型中觀察到的微調效果在較大模型中也有很好的泛化性,而指令調整中的驗證損失可以作為整體下游性能的可靠指標。
最近擴散模型的創新和突破顯著擴展了為給定提示生成高質量視頻的可能性。大多數現有作品處理單場景情況,只有一個視頻事件發生在單一背景中。然而,擴展到生成多場景視頻並不簡單,需要妥善處理場景之間的邏輯,同時保持視頻場景中關鍵內容的一致視覺外觀。本文提出了一個新的框架,名為VideoDrafter,用於生成內容一致的多場景視頻。從技術上講,VideoDrafter利用大型語言模型(LLM)將輸入提示轉換為全面的多場景劇本,從LLM學習的邏輯知識中受益。每個場景的劇本包括描述事件的提示,前景/背景實體,以及攝像機運動。VideoDrafter識別整個劇本中的共同實體,並要求LLM詳細描述每個實體。然後,生成的實體描述被餵入文本到圖像模型,為每個實體生成參考圖像。最後,VideoDrafter通過考慮參考圖像、事件的描述提示和攝像機運動,通過擴散過程生成每個場景視頻,輸出多場景視頻。擴散模型將參考圖像作為條件和對齊,以加強多場景視頻的內容一致性。大量實驗表明,VideoDrafter在視覺質量、內容一致性和用戶偏好方面優於最先進的視頻生成模型。
大型語言模型(LLMs)展現出非凡的能力,能夠理解並生成與人類溝通密切相似的文本。然而,其主要限制在於訓練過程中對計算資源的巨大需求,這源於其龐大的參數化。這個挑戰進一步受到世界動態性的加劇,需要對LLMs進行頻繁更新,以修正過時信息或整合新知識,從而確保其持續相關性。許多應用需要在訓練後持續調整模型以解決缺陷或不良行為。對於即時模型修改,人們對高效輕量級方法越來越感興趣。近年來,知識編輯技術蓬勃發展,旨在有效修改LLMs在特定領域內的行為,同時保持其在各種輸入上的整體性能。本文首先定義知識編輯問題,然後全面評估最新方法。我們從教育和認知研究理論中汲取靈感,提出一個統一的分類標準,將知識編輯方法分為三組:利用外部知識、將知識合併到模型中,以及編輯內在知識。此外,我們引入一個新的基準,KnowEdit,用於對代表性知識編輯方法進行全面實證評估。此外,我們對知識定位進行了深入分析,這可以更深入地理解LLMs內在的知識結構。最後,我們討論了知識編輯的幾個潛在應用,概述了其廣泛而深遠的影響。
在視覺-語言預訓練的演進中,從短文本理解轉向包含擴展文本上下文是至關重要的。最近的自回歸視覺-語言模型,如flamingo、palme,利用大型語言模型的長文本能力,在少樣本文本生成任務中表現出色,但在對齊任務中面臨挑戰。為彌補這一差距,我們將對比損失引入文本生成模型,提出了對比優化多模態框架(\ModelName),將語言模型策略性地劃分為專用的單模態文本處理和熟練的多模態數據處理組件。\ModelName,我們的統一框架,融合了單模態和多模態元素,增強了模型在涉及文本和視覺數據的任務中的性能,同時顯著減少了可學習參數。然而,這些模型需要大量的長文本數據集,但高質量的長文本視頻數據集的可用性仍然有限。為彌合這一差距,本研究引入了\VideoDatasetName,這是一個首創的交錯視頻-文本數據集,具有全面的標題,標誌著一個重大進步。通過展示其影響,我們說明了如何在圖像-文本任務中提升模型性能。我們的模型具有34%的可學習參數,利用了72%的可用數據,顯著優於OpenFlamingo~openflamingo。例如,在4-shot flickr標題任務中,性能從57.2%顯著提高到65%。在跨越14個不同的下游數據集,包括圖像-文本和視頻-文本任務時,\ModelName 和 \VideoDatasetName 的貢獻通過在性能上的顯著增益得到了強調。
在最近的文本到視頻(T2V)生成方法中,實現合成視頻的可控性通常是一個挑戰。通常,這個問題是通過提供低層次的逐幀指導,如邊緣地圖、深度地圖或現有視頻以供修改來解決的。然而,獲取這樣的指導可能需要大量的勞動。本文旨在通過使用簡單的邊界框在不需要神經網絡訓練、微調、推斷時優化或使用預先存在的視頻的情況下,增強視頻合成中的可控性。我們的算法TrailBlazer是建立在預訓練的(T2V)模型之上,易於實施。通過提出的空間和時間關注地圖編輯,主題通過邊界框進行引導。此外,我們引入了關鍵幀的概念,允許主題軌跡和整體外觀通過移動的邊界框和相應提示來引導,而無需提供詳細的遮罩。該方法效率高,與基礎預訓練模型相比,額外的計算幾乎可以忽略不計。儘管邊界框引導的簡單性,但所得到的運動出奇地自然,出現的效果包括隨著框大小增加而朝向虛擬攝像機的透視和運動。
大型語言模型(LLMs)在自然語言處理方面取得了顯著進展,同時將語言能力擴展到其他形式,如語音和視覺。然而,先前的大部分工作集中在以感知能力(如聽覺理解)提示LLMs,對於如何有效地增強LLMs的語音合成能力的方法仍不明確。本文通過結合預先訓練的LLM LLaMA/OPT和文本轉語音合成模型VALL-E,對提升LLMs生成語音的能力進行了全面的實證探索。我們比較了LLMs和語音合成模型之間的三種整合方法,包括直接微調LLMs、LLMs和VALL-E的疊加層,以及使用LLMs作為強大文本編碼器的耦合LLMs和VALL-E。實驗結果表明,直接使用LoRA方法對LLMs進行微調以提升語音合成能力效果不佳,而疊加LLMs和VALL-E可以提高生成語音的質量,無論是在語者相似性還是字錯誤率(WER)方面。在這三種方法中,利用LLMs作為文本編碼器的耦合方法可以達到最佳性能,使其在語者相似性和顯著(10.9%)WER降低方面優於原始語音合成模型。
在各個領域中,訓練大規模語言模型變得日益重要,但常常受到頻繁失敗的阻礙,導致顯著的時間和經濟成本。目前基於雲端的失敗恢復方法未能充分應對出現的各種複雜情況,主要僅關注消除個別任務的停機時間,而沒有考慮整個叢集的總體成本影響。我們引入了Unicron,一個針對大規模語言模型訓練的高效自我修復工作負載管理器。Unicron通過最小化叢集內多個同時任務中與失敗相關的成本,優化訓練過程。其關鍵功能包括用於實時錯誤識別的帶內錯誤檢測,無需額外開銷,動態成本感知計劃生成機制以實現最佳重構,以及有效的轉換策略以減少狀態變化期間的停機時間。在一個128-GPU分佈式叢集上部署,Unicron展示了相對於最先進方法高達1.9倍的訓練效率改進,顯著降低失敗恢復成本,增強大規模語言模型訓練的可靠性。
近年來,隨著文本轉圖像(T2I)模型的快速演進,其生成結果的不理想性已成為一個挑戰。然而,對不同質量的人工智慧生成圖像(AIGIs)進行統一的優化不僅限制了對低質量AIGIs的優化能力,還對高質量AIGIs帶來了負面影響。為了解決這個問題,提出了一種名為Q-Refine的質量獎勵精煉器。基於人類視覺系統(HVS)的偏好,Q-Refine首次使用圖像質量評估(IQA)指標來引導精煉過程,並通過三個自適應管道修改不同質量的圖像。實驗表明,對於主流T2I模型,Q-Refine能夠有效優化不同質量的AIGIs。它可以成為一個通用的精煉器,從忠實度和美學質量兩個層面優化AIGIs,從而擴展T2I生成模型的應用。
大型語言模型(LLMs)以其廣泛的知識和解決自然語言處理(NLP)中各種任務的能力取得了巨大成功。由於其令人印象深刻的能力,LLMs為利用人工智慧(AI for science, AI4S)促進特定領域科學發現的潛在跨學科應用帶來了新的希望。與此同時,在地球科學研究和實踐中利用NLP技術是廣泛而複雜的,從知識提取和文檔分類到問答和知識發現都有貢獻。在這項工作中,我們採取了一個比較直接的方法,利用LLM進行科學專業化。我們試圖將一個LLM專門化為地球科學,通過進一步對模型進行大量地球科學文本的預訓練,以及使用我們自定義收集的指導調整數據集對結果模型進行監督微調(SFT)。這些努力產生了一個包含300億參數的模型GeoGalactica。據我們所知,這是地球科學領域最大的語言模型。更具體地說,GeoGalactica是對Galactica進行進一步預訓練的結果。我們使用從大型科學項目Deep-time Digital Earth(DDE)的廣泛數據源中提煉出的包含650億標記的地球科學相關文本語料庫對GeoGalactica進行訓練,保留為最大的地球科學專用文本語料庫。然後,我們使用包含100萬對指導調整數據的問題對模型進行微調,這些問題需要專業的地球科學知識才能回答。在這份技術報告中,我們將詳細說明GeoGalactica的所有方面,包括數據收集、數據清理、基礎模型選擇、預訓練、SFT和評估。我們將我們的數據整理工具和GeoGalactica在前3/4預訓練期間的檢查點開源。
分數蒸餾已成為文字轉3D資產合成中最普遍的方法之一。基本上,分數蒸餾通過提升和反向傳播在不同視角上平均的分數來更新3D參數。在本文中,我們揭示了分數蒸餾中的梯度估計與高變異性有關。從減少變異性的角度來看,SDS和VSD的有效性可以被解釋為對蒸餾分數的蒙特卡羅估計器應用各種控制變量。在這種重新思考的基礎上,並基於斯坦恩恆等式,我們提出了一個更通用的解決方案來減少分數蒸餾的變異性,稱為斯坦恩分數蒸餾(SSD)。SSD包含由斯坦恩恆等式構造的控制變量,允許任意基線函數。這使我們能夠將靈活的引導先驗和網絡架構納入,以明確優化變異性的降低。在我們的實驗中,整體流程,被稱為斯坦恩夢想家,通過將控制變量實例化為單眼深度估計器來實現。結果表明,SSD可以有效降低蒸餾的變異性,並持續改善對象和場景級生成的視覺質量。此外,我們展示了斯坦恩夢想家由於更穩定的梯度更新而實現比現有方法更快的收斂。