每日精選AI研究論文及翻譯
本文介紹了邊緣書寫(Writing in the Margins,WiM),這是一種針對大型語言模型設計的新推論模式,旨在優化處理檢索導向任務中的長輸入序列。該方法利用分塊預填充的鍵-值緩存來執行分段式推論,從而實現對廣泛上下文的高效處理,並生成和分類中間信息(“邊緣”),引導模型朝向特定任務。此方法在略微增加計算開銷的同時,顯著提高了現成模型的性能,而無需進行微調。具體而言,我們觀察到WiM平均提高了7.5%的推理技能準確性(HotpotQA,MultiHop-RAG),以及聚合任務(CWE)的F1分數增加超過30.0%。此外,我們展示了所提出的模式如何適應互動式檢索設計,為最終用戶提供有關上下文處理進度的持續更新,並准確指出相關信息如何整合到最終回應中。我們在https://github.com/writer/writing-in-the-margins 上使用Hugging Face Transformers庫釋出了WiM的實現。
我們介紹了 GameNGen,這是第一個完全由神經模型驅動的遊戲引擎,能夠以高質量在複雜環境中長時間軌跡的實時互動。GameNGen 可以在單個 TPU 上以每秒超過 20 幀的速度互動模擬經典遊戲 DOOM。下一幀預測實現了 PSNR 為 29.4,與有損 JPEG 壓縮相當。人類評分者僅略優於隨機機會來區分遊戲短片和模擬短片。GameNGen 訓練分為兩個階段:(1) 一個強化學習代理學會玩遊戲並記錄訓練過程,以及 (2) 訓練擴散模型以在過去幀和動作序列的條件下生成下一幀。條件增強使得在長軌跡上穩定自回歸生成成為可能。
線性循環神經網絡結構,如 Mamba,在語言建模方面可以與 Transformer 模型競爭,同時具有有利的部署特性。鑒於目前對訓練大規模 Transformer 模型的關注,我們考慮將這些預訓練模型轉換為部署模型的挑戰。我們展示了通過重複使用注意力層中的線性投影權重,將大型 Transformer 模型提煉為線性循環神經網絡是可行的,並且使用學術 GPU 資源。結果得到的混合模型,其中包含四分之一的注意力層,實現了在聊天基準測試中與原始 Transformer 相當的性能,並且在聊天基準測試和通用基準測試中勝過從頭開始訓練的具有數萬億標記的開源混合 Mamba 模型。此外,我們引入了一種硬體感知的推斷解碼算法,加速了 Mamba 和混合模型的推斷速度。總的來說,我們展示了如何在有限的計算資源下,可以去除許多原始的注意力層,並更有效地生成從結果模型。我們從 Llama3-8B-Instruct 提煉出的表現最佳模型,在 AlpacaEval 2 上實現了 29.61 的長度控制勝率,超越了 GPT-4,並在 MT-Bench 上達到了 7.35,優於最佳的指令調整線性循環神經網絡模型。
我們提出了一種方法,用於生成具有連貫運動的影片序列,這些影片序列位於一對輸入關鍵幀之間。我們適應了一個預訓練的大規模圖像到影片擴散模型(最初訓練用於從單個輸入圖像生成向前移動的影片)來進行關鍵幀插值,即在兩個輸入幀之間生成影片。我們通過一種輕量級微調技術來實現這種適應,該技術生成了一個模型的版本,該模型預測從單個輸入圖像向後移動的影片。這個模型(以及原始的向前運動模型)隨後用於雙向擴散採樣過程,該過程結合了從兩個關鍵幀開始的重疊模型估計。我們的實驗表明,我們的方法優於現有基於擴散的方法和傳統的幀插值技術。
AI系統可用於在資料庫上回答自然語言問題,有望帶來巨大價值。這樣的系統將允許用戶利用語言模型(LMs)強大的推理和知識能力,並結合數據管理系統的可擴展計算能力。這些結合的能力將賦予用戶在自定義數據來源上提出任意自然語言問題的能力。然而,現有方法和基準不足以探索這種情況。Text2SQL方法僅專注於可以用關係代數表達的自然語言問題,這代表了真實用戶希望提出的問題的一小部分。同樣地,檢索增強生成(RAG)考慮了只能通過對數據庫中的一個或幾個數據記錄進行點查找來回答的有限子集查詢。我們提出了表格增強生成(TAG),這是一種統一且通用的範式,用於回答資料庫上的自然語言問題。TAG模型代表了LM和數據庫之間的各種互動,這些互動以前尚未被探索,並為利用LM在數據上的世界知識和推理能力創造了令人興奮的研究機會。我們系統地開發了基準來研究TAG問題,發現標準方法僅能正確回答不超過20%的查詢,這證實了在這個領域需要進一步研究。我們在https://github.com/TAG-Research/TAG-Bench 上釋出了基準的代碼。
我們提出了一種基於擴散的方法,用於具有互動式3D佈局控制的文本到圖像(T2I)生成。佈局控制已被廣泛研究,以減輕T2I擴散模型在理解對象的放置和與文本描述的關係方面的缺點。然而,現有的佈局控制方法僅限於2D佈局,需要用戶事先提供靜態佈局,並且無法在佈局更改時保留生成的圖像。這使得這些方法不適用於需要3D對象控制和迭代細化的應用,例如室內設計和複雜場景生成。為此,我們利用了最近在深度條件T2I模型方面的進展,提出了一種新穎的互動式3D佈局控制方法。我們將佈局控制中傳統的2D框替換為3D框。此外,我們將T2I任務改為多階段生成過程,在每個階段,用戶可以在3D中插入、更改和移動對象,同時保留早期階段的對象。我們通過我們提出的動態自注意(DSA)模塊和一致的3D對象平移策略來實現這一點。實驗表明,我們的方法可以基於3D佈局生成複雜場景,將對象生成成功率提高了2倍以上,超越了標準深度條件T2I方法。此外,與其他方法相比,在佈局更改時保留對象方面表現更好。項目頁面:https://abdo-eldesokey.github.io/build-a-scene/
逼真且可控制的3D頭像對於各種應用至關重要,如虛擬與混合現實(VR/MR)、遠程存在、遊戲和電影製作。傳統的頭像創建方法通常涉及耗時的掃描和重建過程,對於每個頭像都有所限制,這限制了它們的可擴展性。此外,這些方法並不提供抽樣新身份或修改現有身份的靈活性。另一方面,通過從數據中學習強大的先驗知識,生成模型為傳統重建方法提供了一個有前途的替代方案,緩解了數據捕獲和處理的時間限制。此外,生成方法使得在重建之外的下游應用成為可能,如編輯和風格化。然而,關於生成式3D頭像的研究仍處於起步階段,因此當前的方法仍存在諸如創建靜態頭像、缺乏逼真性、面部細節不完整或可驅動性有限等限制。為了解決這個問題,我們提出了一種文本條件的生成模型,可以生成具有多樣身份的逼真面部頭像,具有更完整的細節,如頭髮、眼睛和口腔內部,並且可以通過強大的非參數潛在表達空間進行驅動。具體來說,我們將潛在擴散模型的生成和編輯能力與頭像表達驅動的強先驗模型相結合。我們的模型可以生成和控制高保真度的頭像,甚至可以處理那些超出分佈範圍的頭像。我們還強調了它在下游應用中的潛力,包括頭像編輯和單次拍攝頭像重建。
數十年來,從圖像(包括自然場景或文件)中讀取文字一直是一個歷史悠久的研究課題,這是因為其高度的技術挑戰和廣泛的應用範圍。過去,為了應對文字閱讀的子任務(例如場景文字識別、手寫文字識別和數學表達式識別),通常會開發單獨的專家模型。然而,這些專家模型通常無法有效地應用於不同的子任務。最近,像是GPT-4V這樣的通用模型,在統一方式下訓練了大量數據,展現了在各種情境中閱讀文字的巨大潛力,但卻存在準確性有限和效率低的缺點。在這項工作中,我們提出了Platypus,一個針對文字閱讀的通用專家模型。具體來說,Platypus結合了兩者的優勢:能夠使用單一統一的架構識別各種形式的文字,同時實現卓越的準確性和高效率。為了更好地利用Platypus的優勢,我們還構建了一個文字閱讀數據集(名為Worms),其中的圖像是從先前的數據集中精心挑選並進行部分重新標記。在標準基準測試上的實驗證明了所提出的Platypus模型的有效性和優越性。模型和數據將在以下網址公開提供:https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus。
我們介紹了SHADOW,這是一個在中間任務上使用聯想演繹推理訓練的微調語言模型,並測試其在知識庫構建任務中使用Wikidata三元組完成的表現。我們在LM-KBC 2024挑戰中評估了SHADOW,並展示其以68.72%的F1分數優於基準解決方案20%。
我們引入語義塔,一種外部知識表示方法,並將其與大型語言模型中的內在知識進行本體論學習進行比較。我們的實驗表明,與內在知識的精細調校模型相比,外部知識在性能和語義基礎之間存在一種折衷。我們在2024年大型語言模型本體論學習挑戰(LLMs4OL)中報告了我們的研究結果。
本文討論了海鳥的三維重建,最近成為環境科學家關注的焦點,作為環境變化的有價值生物指標。這樣的三維信息有助於分析鳥類的行為和生理形態,例如通過跟踪運動、形狀和外觀變化。從計算機視覺的角度來看,鳥類特別具有挑戰性,因為它們的運動往往是快速的且非剛性的。我們提出了一種方法,從單眼視頻中重建特定品種海鳥 - 普通海鸚鵡的三維姿態和形狀。我們的方法包括檢測、跟踪、分割和時間一致的三維重建完整流程。此外,我們提出了一種時間損失,將當前的單幅圖像三維鳥類姿態估計擴展到時間域。此外,我們提供了一個現實世界的數據集,平均包含10000幀視頻觀測,同時捕捉九只鳥,包括各種運動和互動,還有一個帶有鳥類特定關鍵點標籤的較小測試集。使用我們的時間優化,我們在數據集中具有挑戰性的序列中實現了最先進的性能。
工業4.0通過推動數字化並將範式轉向增材製造(AM),徹底改變了製造業。熔融沉積建模(FDM),作為一項關鍵的AM技術,通過逐層擠壓實現高度定制、具有成本效益的產品製造,並極大地減少了材料浪費,對傳統的減法方法構成了重大挑戰。然而,材料擠壓技術易受錯誤影響,通常需要專家介入以檢測和緩解可能嚴重影響產品質量的缺陷。儘管存在自動化錯誤檢測和機器學習模型,但它們在不同的3D打印機設置、固件和感應器之間的泛化能力有限,深度學習方法需要大量標記數據集,這限制了可擴展性和適應性。為應對這些挑戰,我們提出了一個過程監控和控制框架,利用預先訓練的大型語言模型(LLMs)與3D打印機結合,以檢測和解決打印缺陷。LLM通過分析在每一層或打印段之後捕獲的圖像來評估打印質量,識別失敗模式並查詢打印機相關參數。然後生成並執行糾正行動計劃。我們通過將其與具有多樣AM專業知識的工程師對照組進行比較,驗證了所提出框架在識別缺陷方面的有效性。我們的評估表明,基於LLM的代理不僅能夠準確識別常見的3D打印錯誤,如擠壓不一致、絲狀物、翹曲和層間粘附,還能有效確定導致這些失敗的參數,並在無需任何人工干預的情況下自主進行修正。