每日精選AI研究論文及翻譯
我們提出了一個框架,用於分類人工通用智能(AGI)模型及其前身的能力和行為。該框架引入了AGI性能、通用性和自主性的層次。我們希望這個框架能夠像自動駕駛的級別一樣,提供一種共同語言來比較模型、評估風險,並衡量通往AGI之路上的進展。為了發展我們的框架,我們分析了現有的AGI定義,並提煉出一個有用的AGI本体論應滿足的六個原則。這些原則包括專注於能力而非機制;分別評估通用性和性能;以及定義通往AGI的階段,而非專注於終點。憑藉這些原則,我們提出了基於能力的深度(性能)和廣度(通用性)的「AGI級別」,並反思當前系統如何符合這個本体論。我們討論了未來基準的挑戰性要求,以量化AGI模型的行為和能力與這些級別的對應。最後,我們討論了這些AGI級別如何與部署考量(如自主性和風險)互動,並強調慎重選擇人工智能與人類互動範式,以負責任且安全地部署高度能力的人工智能系統的重要性。
大型多模型(LMM)將大型語言模型擴展到視覺領域。對於LMM的最初努力使用整體圖像和文本提示生成未接地的文本回應。最近,區域級LMM已被用於生成視覺接地的回應。然而,它們僅限於一次僅涉及單個物件類別,需要用戶在輸入中指定區域,或無法提供密集的像素級對象接地。在這項工作中,我們提出了Grounding LMM(GLaMM),這是第一個可以生成自然語言回應並與相應的對象分割遮罩無縫交織的模型。GLaMM不僅將對話中出現的對象接地,而且足夠靈活,可以接受文本和可選視覺提示(感興趣區域)作為輸入。這使用戶能夠在文本和視覺領域的各個層面與模型互動。由於缺乏針對生成視覺接地詳細對話的新設置的標準基準,我們引入了一個包含我們精心策劃的接地對話的全面評估協議。我們提出的接地對話生成(GCG)任務要求在大規模自然場景中密集接地的概念。為此,我們提出了一個密集標註的接地任何數據集(GranD),使用我們提出的自動標註流程,其中包含了810M個區域的810M個區域中接地的750萬個獨特概念。除了GCG,GLaMM還在幾個下游任務上表現出色,例如指代表達分割、圖像和區域級標題以及視覺語言對話。項目頁面:https://mbzuai-oryx.github.io/groundingLMM。
最近,由於擴散模型的快速發展,影片合成取得了顯著進展。然而,在語義準確性、清晰度和時空連續性方面仍然面臨挑戰。這些挑戰主要源於文本-影片數據匹配不足以及影片固有複雜結構,使模型難以同時確保語義和質量上的卓越。在本報告中,我們提出了一種分級I2VGen-XL方法,通過解耦這兩個因素並利用靜態圖像作為重要指導,提高模型性能並確保輸入數據的對齊。I2VGen-XL包括兩個階段:i)基礎階段通過使用兩個階層編碼器確保一致的語義並保留來自輸入圖像的內容,ii)精細化階段通過納入額外簡短文本來增強影片的細節並將分辨率提高至1280x720。為了提高多樣性,我們收集了約3500萬個單拍文本-影片對和60億個文本-圖像對來優化模型。通過這種方式,I2VGen-XL能夠同時提高語義準確性、細節的連續性和生成影片的清晰度。通過大量實驗,我們研究了I2VGen-XL的基本原則並將其與當前頂尖方法進行了比較,這可以展示其對多樣數據的有效性。源代碼和模型將公開在https://i2vgen-xl.github.io。
在部署大型語言模型時,通常採用「預訓練後微調」範式。低秩調適(LoRA)是一種參數高效的微調方法,常用於將基礎模型適應多項任務,從而產生大量LoRA適配器。我們觀察到這種範式在服務期間提供了批次推論的重要機會。為了充分利用這些機會,我們提出了S-LoRA,一個旨在可擴展提供多個LoRA適配器的系統。S-LoRA將所有適配器存儲在主記憶體中,並將當前運行查詢使用的適配器提取到GPU記憶體中。為了有效利用GPU記憶體並減少碎片化,S-LoRA提出了統一分頁。統一分頁使用統一記憶體池來管理具有不同秩和不同序列長度的動態適配器權重和KV快取張量。此外,S-LoRA採用了一種新穎的張量並行策略和高度優化的自定義CUDA內核,用於異構批次處理LoRA計算。這些功能共同使S-LoRA能夠在單個GPU上或跨多個GPU上提供數千個LoRA適配器,並且僅具有輕微開銷。與HuggingFace PEFT和vLLM等最先進的庫(僅具有對LoRA服務的基本支持)相比,S-LoRA的吞吐量提高了多達4倍,並且服務的適配器數量增加了數個數量級。因此,S-LoRA實現了多個特定任務微調模型的可擴展服務,並提供了大規模定制微調服務的潛力。
我們介紹了 CogVLM,一個功能強大的開源視覺語言基礎模型。 與流行的淺層對齊方法不同,該方法將圖像特徵映射到語言模型的輸入空間中,CogVLM 通過可訓練的視覺專家模塊在注意力和 FFN 層中橋接了凍結的預訓練語言模型和圖像編碼器之間的差距。因此,CogVLM 實現了視覺語言特徵的深度融合,而不會在自然語言處理任務上犧牲任何性能。 CogVLM-17B 在包括 NoCaps、Flicker30k 標題生成、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA 和 TDIUC 在內的 10 個經典跨模態基準測試中實現了最先進的性能,並在 VQAv2、OKVQA、TextVQA、COCO 標題生成等方面排名第二,超越或匹敵了 PaLI-X 55B。代碼和檢查點可在 https://github.com/THUDM/CogVLM 找到。
在現代機器學習工作負載中,動態形狀計算已變得至關重要,尤其是在新興的大型語言模型中。這些模型的成功推動了將它們部署到各種後端環境的需求。本文介紹了一種名為Relax的編譯器抽象,用於優化端到端的動態機器學習工作負載。Relax引入了一流的符號形狀註釋,以在整個程序中全局跟踪動態形狀計算。它還引入了一種跨層次的抽象,將計算圖、循環級張量程序和庫調用封裝在單一表示中,以實現跨層次的優化。我們使用提出的方法構建了一個端到端的編譯框架來優化動態形狀模型。對大型語言模型的實驗結果顯示,Relax在各種平台上提供了與最先進的手動優化系統相競爭的性能,並且能夠將新興的動態模型部署到更廣泛的環境中,包括手機、嵌入式設備和網頁瀏覽器。
近年來提出了各種大型語言模型(LLMs),包括封閉和開源模型,不斷在多個基準測試中創下新紀錄。然而,LLMs 的發展仍面臨一些問題,例如從頭開始訓練模型的高成本,以及持續的預訓練導致災難性遺忘等。儘管許多這類問題在 LLMS 研究中得到解決,但一個重要且實際的限制是,許多研究過於追求擴大模型規模,而沒有全面分析和優化在學習過程中使用預訓練數據的方法,以及在成本效益設置下訓練 LLMS 時適當組織和利用這些數據。在這項工作中,我們提出了 Ziya2,這是一個擁有 130 億參數的模型,採用 LLaMA2 作為基礎模型,並在 7000 億令牌上進行進一步的預訓練,我們專注於預訓練技術,並使用以數據為中心的優化來增強 Ziya2 在不同階段的學習過程。實驗表明,Ziya2 在多個基準測試中明顯優於其他模型,特別是與代表性的開源模型相比具有令人期待的結果。Ziya2(基礎版)已在以下網址釋出:https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base 和 https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary。
我們提出了一個端到端系統,用於在虛擬現實中使用神經輻射場高保真地捕捉、建模重建和實時渲染可步行空間。為此,我們設計並構建了一個自定義的多攝像機架,以高保真度密集捕捉可步行空間,並使用多視圖高動態範圍圖像以前所未有的質量和密度。我們通過引入一種新穎的知覺色彩空間來擴展即時神經圖形基元,以學習準確的高動態範圍外觀,並使用高效的mip-mapping機制進行細節層級渲染和抗鋸齒,同時仔細優化質量和速度之間的平衡。我們的多GPU渲染器能夠以36 Hz在我們的自定義演示機器上以雙2K x 2K的全VR分辨率高保真地渲染我們的神經輻射場模型。我們展示了我們在具有挑戰性的高保真度數據集上的結果質量,並將我們的方法和數據集與現有基準進行了比較。我們在項目網站上發布了我們的數據集。
在人類撰寫的文章中,我們常常利用文本風格的微妙之處,例如粗體和斜體,來引導讀者的注意力。這些文本強調對於讀者理解所傳達的信息至關重要。當與大型語言模型(LLMs)互動時,我們有類似的需求 - 引導模型更加關注用戶指定的信息,例如指示。然而,現有方法受限於處理純文本,不支持這樣的機制。這促使我們引入PASTA - 後期注意力引導方法,一種允許LLMs閱讀帶有用戶指定強調標記的文本的方法。為此,PASTA識別出一小部分注意力頭部,並對它們進行精確的注意力重新加權,將模型的注意力引導到用戶指定的部分。類似提示,PASTA應用於推理時間,不需要更改任何模型參數。實驗表明,PASTA可以顯著增強LLMs遵循用戶指令或整合來自用戶輸入的新知識的能力,從而在各種任務上實現顯著的性能改進,例如對於LLAMA-7B的平均準確率提高了22%。我們的代碼公開在https://github.com/QingruZhang/PASTA。
潛在擴散模型已被證實在創建和操作視覺輸出方面處於領先地位。然而,就我們所知,深度地圖與 RGB 的生成仍然受到限制。我們引入了LDM3D-VR,這是一套針對虛擬實境開發的擴散模型,包括LDM3D-pano和LDM3D-SR。這些模型使得能夠基於文本提示生成全景RGBD,以及將低分辨率輸入升級為高分辨率RGBD。我們的模型是從包含全景/高分辨率RGB圖像、深度地圖和標題的數據集中微調而來的預訓練模型。這兩個模型與現有相關方法進行了評估比較。
代碼語言模型已成為一個專業的研究領域,致力於通過對預訓練模型進行微調來增強模型的編碼能力,並有出色的研究專注於此。先前的微調方法通常針對特定的下游任務或情境進行定制,這意味著每個任務需要單獨進行微調,需要大量的訓練資源,並在部署和維護方面存在挑戰。此外,這些方法未能充分利用不同與代碼相關任務之間的內在聯繫。為了克服這些限制,我們提出了一個多任務微調框架,MFTcoder,可以在多個任務上實現同時且並行的微調。通過結合各種損失函數,我們有效地應對多任務學習中的常見挑戰,如數據不平衡、難度不同和收斂速度不一致。大量實驗已明確證明,我們的多任務微調方法優於單個任務的個別微調以及混合任務的微調。此外,MFTcoder提供了高效的訓練能力,包括高效的數據標記模式和PEFT微調,相較於傳統的微調方法,速度顯著提高。MFTcoder與幾個主流的開源代碼語言模型無縫集成,如CodeLLama和Qwen。利用CodeLLama基礎,我們的MFTcoder微調模型,CodeFuse-CodeLLama-34B,在HumaneEval基準測試中取得了令人印象深刻的74.4\% pass@1分數,超越了GPT-4的性能(67\%,零-shot)。MFTCoder在https://github.com/codefuse-ai/MFTCOder上開源。
人類的一項卓越能力在於組合推理,即具備「有限手段實現無限用途」的能力。然而,目前的大型視覺語言基礎模型(VLMs)由於其「詞袋」行為和無法構建正確代表視覺實體及實體間關係的詞彙,因此缺乏這種組合能力。為此,我們提出了CoVLM,可以引導LLM明確地組合視覺實體和文本間的關係,並動態地與視覺編碼器和檢測網絡進行通信,實現視覺語言交互解碼。具體而言,我們首先為LLM設計了一組新型通信令牌,用於視覺檢測系統與語言系統之間的動態通信。通信令牌是由LLM生成的,根據視覺實體或關係,通知檢測網絡提出與迄今為止生成的句子相關的區域。然後,提出的感興趣區域(ROIs)被反饋到LLM中,以便根據相關區域進行更好的語言生成。因此,LLM能夠通過通信令牌組合視覺實體和關係。視覺到語言和語言到視覺的通信是迭代進行的,直到生成整個句子為止。我們的框架無縫地橋接了視覺感知和LLMs之間的差距,在組合推理基準測試中表現遠超過以往的VLMs(例如,在HICO-DET mAP上提高約20%,在Cola頂部1準確度上提高約14%,在ARO頂部1準確度上提高約3%)。我們還在傳統的視覺語言任務上取得了最先進的表現,如指代表達理解和視覺問答。
知識蒸餾(KD)通過將計算昂貴的預訓練語言模型(PLMs)的知識轉移到更小的模型,從而將其壓縮,使其可以在資源受限或實時環境中使用。然而,大多數較小的模型無法超越原始較大模型的性能,這導致犧牲性能以提高推理速度。為了解決這個問題,我們提出了一個新穎的框架,稱為共訓練和共蒸餾(CTCD),通過共同訓練兩個模型並相互蒸餾知識,從而同時提高性能和推理速度。CTCD框架成功實現了這一點,基於兩個重要發現:1)在共訓練期間從較小模型向較大模型蒸餾知識可以提高較大模型的性能。2)較大模型的增強性能進一步提升了較小模型的性能。CTCD框架顯示出潛力,因為它可以與現有技術(如架構設計或數據擴增)結合,取代單向KD方法,以實現進一步的性能改進。廣泛的消融研究證明了CTCD的有效性,並且由CTCD蒸餾的小模型在GLUE基準測試中的表現優於原始較大模型1.66個顯著的邊際。
本文介紹了一種名為Consistent4D的新方法,用於從未經校準的單眼視頻生成4D動態物體。獨特之處在於,我們將360度動態物體重建視為4D生成問題,消除了繁瑣的多視圖數據收集和相機校準的需求。這是通過利用物體級3D感知圖像擴散模型作為訓練動態神經輻射場(DyNeRF)的主要監督信號來實現的。具體來說,我們提出了一種級聯DyNeRF,以促進在時間軸上離散的監督信號下的穩定收斂和時間連續性。為了實現空間和時間一致性,我們進一步引入了一種基於插值的一致性損失。通過最小化DyNeRF渲染幀與預先訓練的視頻插值模型插值幀之間的差異來進行優化。大量實驗表明,我們的Consistent4D能夠與先前的方法競爭,為從單眼視頻生成4D動態物體開辟了新的可能性,同時還展示了在傳統的文本轉3D生成任務中的優勢。我們的項目頁面為https://consistent4d.github.io/。
大型語言模型(LMs)能夠生成自由文本理由以幫助問答。然而,先前的研究1)表明,有用的自我理性化僅在大規模(例如,175B參數的GPT-3)時才會出現;2)主要關注下游性能,忽略了理由本身的語義,例如,它們是否忠實、真實且對人類有幫助?在這項研究中,我們使小型LMs(約比GPT-3小約200倍)能夠生成理由,不僅提高下游任務性能,而且更加合理、一致和多樣,通過自動和人工評估進行評估。我們的方法MaRio(多獎勵理性化)是一種多獎勵條件化的自我理性化算法,優化多個不同屬性,如合理性、多樣性和一致性。在五個困難的問答數據集StrategyQA、QuaRel、OpenBookQA、NumerSense和QASC上的結果表明,MaRio不僅提高了任務準確性,還改善了小型LMs在上述軸上的自我理性化質量,優於監督微調(SFT)基線。廣泛的人工評估確認MaRio理由優於SFT理由,以及在合理性和一致性方面的定性改進。
本文中,我們展示了一個簡單的自監督預訓練音頻模型能夠達到與更複雜的具有語音轉換編碼器的預訓練模型相當的推論效率。這些語音轉換器依賴於將卷積模組與自注意力模組相混合。它們在自動語音識別方面取得了最先進的性能並具有頂尖的效率。我們首先展示了將這些語音轉換器用作編碼器顯著提高了預訓練音頻模型的效率。然而,我們的研究表明,僅使用先進的自注意力就能達到可比擬的效率。我們證明了這種更簡單的方法在使用神經網絡的低比特權重量化技術來提高效率時特別有益。我們假設這可以防止在不同量化模組之間傳播錯誤,相較於最近將量化卷積和量化自注意力模組相混合的語音轉換器。
在長序列上訓練的Transformer模型通常比短序列實現更高的準確性。不幸的是,傳統的Transformer在長序列訓練方面遇到了巨大的計算和記憶體需求問題。現有的長序列訓練方法提供的速度提升和記憶體減少有限,可能會影響準確性。本文提出了一種新穎且高效的分佈式訓練方法,即長短序列Transformer(LSS Transformer),用於訓練具有長序列的Transformer。它將一個長序列分發到不同GPU之間的段中,每個GPU計算其段的部分自注意力。然後,它使用融合通信和新穎的雙梯度平均技術,避免聚合部分自注意力的需要並最小化通信開銷。我們在Wikipedia enwik8數據集上評估了LSS Transformer和最先進的Nvidia序列並行方法之間的性能。結果顯示,相較於144個Nvidia V100 GPU上最先進的序列並行方法,我們提出的方法實現速度提升5.6倍,記憶體效率提高10.2倍。此外,我們的算法可擴展到極端序列長度為50,112,使用3,456個GPU實現161%超線性並行效率和32 petaflops的吞吐量。