每日精選AI研究論文及翻譯
我們介紹TinyLlama,一個緊湊的 11 億語言模型,預先訓練約 1 兆標記,大約進行 3 個時代。基於 Llama 2 的架構和分詞器,TinyLlama 利用開源社區貢獻的各種進展(例如 FlashAttention),實現更好的計算效率。儘管體積相對較小,TinyLlama 在一系列下游任務中展現出卓越的性能。它明顯優於現有的具有相當大小的開源語言模型。我們的模型檢查點和代碼可在 GitHub 上公開獲取,網址為 https://github.com/jzhang38/TinyLlama。
ChatGPT 的推出大幅提升了大型語言模型(LLMs)在應對下游任務中的利用率。在這一背景下,對於成本效益高的訓練和部署越來越受到關注。低成本的LLMs訓練和部署代表了未來的發展趨勢。本文回顧了大型語言模型訓練技術和推斷部署技術隨著這一新興趨勢的演變。訓練方面的討論包括多個方面,如數據預處理、訓練架構、預訓練任務、並行訓練,以及與模型微調相關的內容。在推斷方面,本文涵蓋了模型壓縮、並行計算、內存調度和結構優化等主題。同時探討了LLMs的應用並提供了對其未來發展的見解。
人類通常在獲得新技能的同時不會放棄舊技能;然而,對於大型語言模型(LLMs)則恰恰相反,例如從LLaMA到CodeLLaMA。為此,我們提出了一種針對LLMs的新後預訓練方法,其中包括擴展Transformer blocks。我們僅使用新語料庫調整擴展的blocks,有效地提升模型的知識,而不會出現災難性遺忘。在本文中,我們在代碼和數學語料庫上進行實驗,得到了LLaMA Pro-8.3B,這是一個多才多藝的基礎模型,從LLaMA2-7B初始化而來,在一般任務、編程和數學方面表現出色。LLaMA Pro及其遵循指令的對應模型(LLaMA Pro-Instruct)在各種基準測試中取得了先進的表現,顯示出在LLaMA系列現有開放模型中以及作為智能代理進行推理和處理各種任務的巨大潛力。我們的研究結果為整合自然語言和編程語言提供了寶貴見解,為開發能夠在各種環境中有效運作的先進語言代理奠定了堅實基礎。
具備數十億參數的基礎模型,經過大量資料訓練後,在各種領域展現出非平凡的技能。然而,由於它們的單一結構,要對其進行擴充或賦予新技能具有挑戰性且成本高昂。另一方面,由於它們的適應能力,有幾個這些模型的新實例正在被訓練用於新的領域和任務。在這項研究中,我們探討現有基礎模型與更具體模型的有效且實用的組合問題,以實現新的功能。為此,我們提出了CALM -- Composition to Augment Language Models -- 介紹了模型之間的交叉注意力,以組合它們的表示並啟用新功能。CALM的顯著特點包括:(i) 通過“重用”現有LLM以及一些額外的參數和數據,在新任務上擴展LLMs的規模,(ii) 保持現有模型權重不變,因此保留現有功能,以及(iii) 適用於不同的領域和設置。我們說明了將PaLM2-S與在低資源語言上訓練的較小模型進行擴充,對於像是翻譯成英語和低資源語言的算術推理等任務,結果顯示絕對改進高達13%。同樣地,當PaLM2-S與特定於代碼的模型進行擴充時,我們看到在代碼生成和解釋任務上相對改進了40%,與完全微調的對應模型不相上下。
從人類示範中學習的模仿學習在機器人技術中展現了令人印象深刻的表現。然而,大多數研究結果集中在桌面操作,缺乏對於一般實用任務所需的移動性和靈巧性。在這項研究中,我們開發了一個系統,用於模仿雙手雙足控制的移動操作任務。我們首先提出了Mobile ALOHA,這是一個用於數據收集的低成本全身遠程操作系統。它通過增加移動底盤和全身遠程操作界面來擴展ALOHA系統。利用Mobile ALOHA收集的數據,我們進行了監督式行為克隆,發現與現有靜態ALOHA數據集進行聯合訓練可以提高移動操作任務的性能。對於每個任務的50個示範,聯合訓練可以將成功率提高多達90%,使Mobile ALOHA能夠自主完成複雜的移動操作任務,例如炒和上菜一塊蝦、打開一個雙門壁櫥以存放沉重的炊具、呼叫並進入電梯,以及使用廚房水龍頭輕輕沖洗使用過的平底鍋。項目網站:https://mobile-aloha.github.io
本文介紹了 instruct-imagen,一個應對異構圖像生成任務並在未見任務間泛化的模型。我們引入了*多模指示*用於圖像生成,這是一種任務表示,能準確表達各種生成意圖。它使用自然語言來整合不同的模態(例如文本、邊緣、風格、主題等),使得豐富的生成意圖可以以統一格式標準化。 然後,我們通過對預訓練的文本到圖像擴散模型進行微調,構建了 instruct-imagen,使用了一個兩階段框架。首先,我們使用檢索增強訓練來適應模型,以增強模型在外部多模上下文中生成的能力。隨後,我們對適應後的模型進行微調,應用於各種需要視覺-語言理解的圖像生成任務(例如基於主題的生成等),每個任務都配對一個多模指示,概括了任務的本質。對各種圖像生成數據集的人類評估顯示,instruct-imagen在領域內與先前的特定任務模型相匹敵或優越,並展示了對未見和更複雜任務的有前景的泛化能力。
本文介紹了LLaVA-phi(LLaVA-Phi),一個高效的多模態助手,利用最近先進的小型語言模型Phi-2的能力來促進多模態對話。 LLaVA-Phi 在緊湊多模態模型領域取得了顯著進展。它表明,即使是具有僅2.7B參數的較小語言模型,只要經過高質量語料庫的訓練,就可以有效地參與融合文本和視覺元素的複雜對話。我們的模型在包括視覺理解、推理和基於知識的感知在內的公開基準測試中表現出色。除了在多模態對話任務中表現出色外,我們的模型為應用於時間敏感環境和需要實時交互的系統開辟了新途徑,例如具身代理。它突顯了較小語言模型實現複雜水平的理解和交互的潛力,同時保持更高的資源效率。該項目可在{https://github.com/zhuyiche/llava-phi}找到。
3D感知生成對抗網絡(GANs)在通過神經體積渲染從2D圖像集合生成多視角一致圖像和場景的3D幾何形狀方面取得了顯著進展。然而,在體積渲染中密集採樣的顯著內存和計算成本迫使3D GANs採用基於補丁的訓練或採用低分辨率渲染並進行後處理的2D超分辨率,這會犧牲多視角一致性和解析幾何形狀的質量。因此,3D GANs還無法完全解析2D圖像中存在的豐富3D幾何形狀。在這項工作中,我們提出了將神經體積渲染擴展到本地2D圖像更高分辨率的技術,從而以前所未有的細節解析精細的3D幾何形狀。我們的方法採用基於學習的取樣器,加速神經渲染以用於3D GAN訓練,使用多達5倍少的深度採樣。這使我們能夠在訓練和推斷期間明確“渲染每個像素”完整分辨率圖像,而無需在2D進行後處理超分辨率。結合我們學習高質量表面幾何的策略,我們的方法合成高分辨率3D幾何形狀和嚴格一致的圖像,同時保持與依賴後處理超分辨率的基準線相當的圖像質量。我們在FFHQ和AFHQ上展示了最先進的3D幾何質量,為3D GANs中無監督學習3D形狀設定了新標準。
當前在像ScanNet這樣的當代3D感知基準上的最先進模型,會使用並標記由數據集提供的3D點雲,通過對感知的多視角RGB-D圖像進行後處理獲得。這些模型通常在領域內進行訓練,放棄大規模的2D預訓練,並且勝過對處理過的RGB-D多視角圖像進行特徵提取的替代方法。消耗處理過的圖像與消耗後處理過的3D點雲之間的性能差距,推動了一種觀念,即2D和3D感知需要不同的模型架構。在本文中,我們挑戰這一觀點,提出了ODIN(Omni-Dimensional INstance segmentation),一種能夠使用變壓器架構在2D RGB圖像和3D點雲上進行分割和標記的模型,該模型在2D視圖內部和3D視圖之間的信息融合之間進行交替。我們的模型通過所涉及的標記的位置編碼來區分2D和3D特徵操作,這些位置編碼捕捉了2D補丁標記的像素坐標和3D特徵標記的3D坐標。ODIN在ScanNet200、Matterport3D和AI2THOR 3D實例分割基準上實現了最先進的性能,並在ScanNet、S3DIS和COCO上實現了具有競爭力的性能。當感知到的3D點雲取代從3D網格採樣的點雲時,它勝過了所有先前的作品。當作為可指導的具體化代理架構中的3D感知引擎時,它在TEACh從對話中獲取動作基準上設立了新的最先進水平。我們的代碼和檢查點可在項目網站上找到:https://odin-seg.github.io。
學習地球上所有動物的3D模型需要大幅擴展現有的解決方案。擁有這個終極目標,我們開發了3D-Fauna,這是一種方法,可以聯合學習100多種動物物種的全類別可變形3D動物模型。建模動物的一個關鍵瓶頸是訓練數據的有限可用性,我們通過簡單地從2D互聯網圖像中學習來克服這一挑戰。我們展示了先前的特定類別嘗試無法推廣到訓練圖像有限的稀有物種。我們通過引入皮膚模型語義庫(SBSM)來應對這一挑戰,該庫通過將幾何歸納先驗與自監督特徵提取器隱式捕獲的語義知識相結合,自動發現一小組基本動物形狀。為了訓練這樣的模型,我們還貢獻了一個新的大規模多樣動物物種數據集。在推斷時,給定任何四足動物的單張圖像,我們的模型可以在幾秒內以前向傳遞的方式重建一個有關節的3D網格。
隨著ChatGPT和LLaMA等大型語言模型(LLMs)的出現,這些模型在特定領域任務中遇到了限制,通常在專業領域缺乏深度和準確性,並在微調時表現出一般能力下降,特別是小型模型的分析能力。為了解決這些差距,我們引入ICE-GRT,利用基於Proximal Policy Optimization(PPO)的人類反饋強化學習(RLHF),在領域內情境中展現出卓越的能力,而不影響一般任務表現。我們對ICE-GRT的探索突顯了其理解和推理能力,不僅能生成強大答案,還能提供答案背後的詳細分析。這種能力標誌著ICE-GRT在監督微調模型範疇之外的重大進展。ICE-GRT的成功取決於幾個關鍵因素,包括適當的數據、獎勵大小縮放、KL控制、優勢歸一化等。ICE-GRT模型在特定領域任務和12個一般語言任務中展現出最先進的性能,與同等大小甚至更大的LLMs相比,突出了我們方法的有效性。我們對ICE-GRT進行了全面分析,強調了它為LLMs領域帶來的重大進展。
擴散模型是一種新型生成模型,顯著提升了具有前所未有品質和多樣性的圖像生成。現有的擴散模型主要嘗試從受損的圖像中重建輸入圖像,並沿著空間軸進行像素級或特徵級的約束。然而,這種基於點的重建可能無法使每個預測的像素/特徵完全保留其鄰域上下文,從而損害了基於擴散的圖像合成。作為自動監督信號的強大來源,上下文已被廣泛研究用於學習表示。受此啟發,我們首次提出ConPreDiff來改善基於擴散的圖像合成,通過上下文預測。我們在訓練階段在擴散去噪塊的末尾添加上下文解碼器,明確地強化每個點以預測其鄰域上下文(即多步長特徵/標記/像素),並在推論時刪除解碼器。通過這種方式,每個點可以更好地通過保留與鄰域上下文的語義聯繫來重建自身。ConPreDiff這種新的範式可以廣泛應用於任意離散和連續的擴散骨幹,而不需要在採樣過程中引入額外的參數。在無條件圖像生成、文本到圖像生成和圖像修補任務上進行了大量實驗。我們的ConPreDiff在MS-COCO上始終優於先前的方法,並在文本到圖像生成任務上取得了新的SOTA結果,零樣本FID分數為6.21。
精確感知現實世界3D物體的幾何和語義特性對於增強現實和機器人應用的持續演進至關重要。為此,我們提出了一種方法,將基礎模型的視覺-語言嵌入融入到3D高斯濺射(GS)中。本研究的關鍵貢獻是提出了一種有效的方法來重建和表示3D視覺-語言模型。這是通過將基於圖像的基礎模型生成的特徵映射提煉到我們的3D模型中所實現的。為確保高質量的渲染和快速的訓練,我們引入了一種新穎的場景表示方法,該方法整合了GS和多分辨率哈希編碼(MHE)的優勢。我們的有效訓練程序還引入了像素對齊損失,使相同語義實體的渲染特徵距離接近,遵循像素級語義邊界。我們的結果展示了出色的多視角語義一致性,有助於各種下游任務,並在開放詞彙語言為基礎的物體檢測上,優於最先進的方法10.2%,儘管我們的推斷速度快了851倍。這項研究探索了視覺、語言和3D場景表示的交集,為在不受控制的現實世界環境中增強場景理解鋪平了道路。我們計劃在論文被接受後發布代碼。
視覺推理主要由擁有數十億模型參數和訓練示例的端到端神經網絡所主導。然而,即使是最大的模型也在組合推理、泛化、細粒度空間和時間推理以及計數方面遇到困難。利用大型語言模型(LLMs)作為控制器進行視覺推理,原則上可以通過將任務分解並通過協調一組(視覺)工具來解決子任務,從而解決這些限制。最近,這些模型在組合視覺問答、視覺對應和視頻時間推理等任務上取得了出色的表現。然而,在它們目前的形式中,這些模型嚴重依賴於在提示中的上下文示例的人工設計,這些示例通常是數據集和任務特定的,需要高技能程序員進行大量工作。在這項工作中,我們提出了一個框架,通過引入空間和時間抽象例程,並利用少量標記示例來自動生成上下文示例,從而避免了人工創建的上下文示例。在多個視覺推理任務中,我們展示了我們的框架在性能上持續取得穩定的增益,使LLMs作為控制器設置更加強健,並消除了對人工設計上下文示例的需求。