每日精選AI研究論文及翻譯
大型語言和視覺模型(LLVMs)的快速發展是由於視覺指導調整的進步。最近,開源的LLVMs已經整理了高質量的視覺指導調整數據集,並利用額外的視覺編碼器或多個計算機視覺模型,以縮小與功能強大的封閉源LLVMs之間的性能差距。這些進展歸因於對多樣能力所需的多面信息,包括基本圖像理解、關於常識和非物體概念(例如圖表、圖解、符號、標誌和數學問題)的現實世界知識,以及解決複雜問題的逐步程序。借鑒多面信息,我們提出了一種新的高效LLVM,基於Mamba的理性遍歷(Meteor),利用多面理性來增強理解和回答能力。為了嵌入包含豐富信息的冗長理性,我們採用了具有線性時間複雜度的Mamba架構,可以處理序列數據。我們引入了一個新概念的理性遍歷,促進理性的高效嵌入。隨後,骨幹多模態語言模型(MLM)被訓練來生成答案,並借助理性。通過這些步驟,Meteor在多個評估基準上實現了顯著的視覺語言性能改進,這些基準需要多樣能力,而無需擴大模型大小或使用額外的視覺編碼器和計算機視覺模型。
高解析度的大型多模型模型(LMM)面臨著過多的視覺標記和二次視覺複雜性的挑戰。目前的高解析度LMM解決了二次複雜性問題,但仍然生成過多的視覺標記。然而,視覺標記中的冗餘是主要問題,因為它導致了更多的計算量。為了緩解這個問題,我們提出了ConvLLaVA,它採用ConvNeXt作為LMM的視覺編碼器,以取代Vision Transformer(ViT)。ConvLLaVA將高解析度圖像壓縮為信息豐富的視覺特徵,有效地防止生成過多的視覺標記。為了增強ConvLLaVA的能力,我們提出了兩個關鍵優化。由於低解析度預訓練的ConvNeXt在直接應用於高解析度時表現不佳,我們對其進行了更新以彌合差距。此外,由於ConvNeXt的原始壓縮比對於更高解析度的輸入來說是不足夠的,我們訓練了一個連續階段來進一步壓縮視覺標記,從而減少冗餘。這些優化使ConvLLaVA能夠支持1536x1536解析度的輸入,僅生成576個視覺標記,能夠處理任意長寬比的圖像。實驗結果表明,我們的方法在主流基準測試中實現了與最先進模型競爭力相當的性能。ConvLLaVA模型系列可在https://github.com/alibaba/conv-llava 公開獲得。
我們研究了transformer是否能夠學會對參數化知識進行隱式推理,這是即使對於最具能力的語言模型來說也很具挑戰性的技能。著重於兩種具代表性的推理類型,即組合和比較,我們一貫地發現transformer能夠學會隱式推理,但只有通過深入訓練,即遠超過過度擬合的程度,才能實現。推理類型的泛化水平也因情況而異:當面對分布外的例子時,transformer在組合方面無法系統性地泛化,但在比較方面則取得成功。我們在整個訓練過程中深入研究模型的內部,進行分析實驗揭示:1)grokking背後的機制,例如泛化電路的形成及其與泛化和記憶電路的相對效率之間的關係,以及2)系統性與泛化電路配置之間的聯繫。我們的研究結果指導了數據和訓練設置,以更好地誘導隱式推理,並提出了對transformer架構的潛在改進,例如鼓勵跨層知識共享。此外,我們展示了對於一個具有大型搜索空間的具挑戰性推理任務,基於非參數化記憶的GPT-4-Turbo和Gemini-1.5-Pro無論提示風格或檢索增強如何,表現都很糟糕,而一個完全grokked的transformer可以實現接近完美的準確性,展示了參數化記憶在複雜推理中的威力。
本技術報告介紹Aya 23,這是一個多語言語言模型系列。Aya 23基於最近釋出的Aya模型(\"Ust\"un等人,2024年),著重於將高性能的預訓練模型與最近釋出的Aya收藏(Singh等人,2024年)相結合。結果是一個功能強大的多語言大型語言模型,支援23種語言,將最先進的語言建模能力擴展到全球約一半的人口。Aya模型覆蓋了101種語言,而Aya 23則是一個深度與廣度的實驗,探索在預訓練期間將更多容量分配給較少的語言對效果的影響。Aya 23在其覆蓋的語言上表現優於先前的大規模多語言模型,如Aya 101,以及廣泛使用的模型,如Gemma、Mistral和Mixtral,在廣泛範圍的區分性和生成性任務上。我們釋出8B和35B模型的開放權重,作為我們持續致力擴大多語言進展可及性的一部分。
由於其大規模,LLM的預訓練在計算上是昂貴的。 模型增長作為一種有前途的方法,通過利用較小的模型來加速較大模型的訓練。然而,這些模型增長方法在高效的LLM預訓練中的可行性尚未得到充分探討。本研究確定了三個關鍵的障礙:(O1) 缺乏全面評估,(O2) 對於擴展性的可行性未經測試,以及 (O3) 缺乏實證指南。為了應對O1,我們將現有方法總結為四個基本增長運算符,並在標準化的LLM預訓練環境中對它們進行系統性評估。我們的研究結果顯示,一種稱為G_{stack}的深度堆疊運算符在訓練中表現出顯著的加速效果,導致在八個標準NLP基準測試中相較於強基線,損失減少並且整體性能得到改善。受這些有希望的結果激勵,我們進行了大量實驗,深入探討G_{stack}以應對O2和O3。對於O2(未經測試的擴展性),我們的研究表明G_{stack}是可擴展的,並且在成長後的實驗中一直表現良好,包括使用750B標記進行LLM預訓練。例如,與使用300B標記的傳統訓練的7B模型相比,我們的G_{stack}模型在使用194B標記時達到相同的損失,實現了54.6%的加速。我們進一步通過制定指南來確定G_{stack}的增長時機和增長因子,以應對O3(缺乏實證指南),使其在一般LLM預訓練中更具實用性。我們還提供了關於G_{stack}的深入討論和全面的消融研究。我們的代碼和預訓練模型可在以下網址獲得:https://llm-stacking.github.io/。
現有的學習率調度表,在不需要指定優化停止步驟 T 的情況下,其表現遠遠不及依賴於 T 的學習率調度表。我們提出了一種方法,通過完全避免使用調度表,避免了對於停止時間的需求,同時在一個廣泛的問題族中展示了與調度表相比的最先進性能,這些問題從凸問題到大規模深度學習問題不等。我們的「無調度表」方法在標準帶動項優化器上不引入額外的超參數。我們的方法是我們開發的一個新理論的直接結果,該理論統一了調度和迭代平均。我們的方法的開源實現可在以下網址找到 (https://github.com/facebookresearch/schedule_free)。
我們介紹了 AutoCoder,這是第一個超越 GPT-4 Turbo(2024 年 4 月)和 GPT-4o 在 Human Eval 基準測試 pass@1 上的大型語言模型(90.9% vs. 90.2%)。此外,相較於 GPT-4 Turbo 和 GPT-4o,AutoCoder 提供了更多功能的程式碼解釋器。它的程式碼解釋器可以安裝外部套件,而不僅限於內建套件。AutoCoder 的訓練數據是由系統結合代理互動和外部程式碼執行驗證創建的多輪對話數據集,我們稱之為 AIEV-Instruct(指導調校與代理互動和執行驗證)。相較於先前的大規模程式碼數據集生成方法,AIEV-Instruct 減少了對專有大型模型的依賴,並提供了經執行驗證的程式碼數據集。程式碼和演示影片可在 https://github.com/bin123apple/AutoCoder 找到。
我們提出了一種新穎的生成式3D建模系統,名為CraftsMan,可以生成具有高保真度的3D幾何形狀,具有高度多樣化的形狀、規則網格拓撲和詳細表面,並且特別是可以通過互動方式來精緻幾何形狀。儘管在3D生成方面取得了顯著進展,但現有方法仍然在優化過程冗長、網格拓撲不規則、表面帶有噪點以及難以適應用戶編輯等方面存在困難,因此阻礙了它們在3D建模軟件中的廣泛應用和實施。我們的工作受到工匠的啟發,通常先粗略勾勒出作品的整體輪廓,然後再細緻呈現表面細節。具體來說,我們採用了一種3D本地擴散模型,它在從潛在集合式3D表示學習的潛在空間上運行,以在幾秒鐘內生成具有規則網格拓撲的粗略幾何形狀。特別是,此過程以文本提示或參考圖像作為輸入,並利用強大的多視圖(MV)擴散模型生成粗略幾何形狀的多個視圖,這些視圖被輸入到我們的MV條件3D擴散模型中,用於生成3D幾何形狀,從而顯著提高了韌性和泛化能力。隨後,使用基於法線的幾何細化器來顯著增強表面細節。這種細化可以自動執行,也可以與用戶提供的編輯進行互動。大量實驗表明,與現有方法相比,我們的方法在生成優質3D資產方面取得了高效果。首頁:https://craftsman3d.github.io/,代碼:https://github.com/wyysf-98/CraftsMan
自我監督特徵是現代機器學習系統的基石。它們通常在需要大量人力的數據集上進行預訓練,這些數據集的構建和整理通常需要大量人力。這種手動過程存在一些類似於監督學習中遇到的限制,例如,眾包選擇數據成本高昂且耗時,阻礙了數據集規模的擴展。在這項工作中,我們考慮了自我監督預訓練高質量數據集的自動整理問題。我們認為這些數據集應該是大規模、多樣且平衡的,並提出了一種基於聚類的方法來滿足所有這些標準。我們的方法涉及在大規模多樣數據庫上連續和分層應用k-means,以獲得均勻分佈在數據概念之間的聚類,然後從這些聚類中進行分層平衡抽樣步驟。對包括基於網絡的圖像、衛星圖像和文本在內的三個不同數據領域進行了大量實驗,結果顯示我們自動整理的數據集訓練的特徵優於在未整理數據上訓練的特徵,並且與在手動整理數據上訓練的特徵相當或更好。
世界模型賦予基於模型的代理人在想像環境中進行互動式探索、推理和規劃,以進行真實世界的決策。然而,對互動性的高需求在利用最近視頻生成模型的進展來開發大規模的世界模型時存在挑戰。本研究介紹了互動式VideoGPT(iVideoGPT),這是一個可擴展的自回歸變壓器框架,將多模態信號--視覺觀察、動作和獎勵--整合到一個令牌序列中,促進通過下一個令牌預測的代理人的互動體驗。iVideoGPT具有一種新穎的壓縮式標記化技術,可以有效離散化高維視覺觀察。利用其可擴展的架構,我們能夠在數百萬人類和機器人操作軌跡上預先訓練iVideoGPT,建立一個多才多藝的基礎,可適應作為各種下游任務的互動式世界模型。這些任務包括動作條件下的視頻預測、視覺規劃和基於模型的強化學習,iVideoGPT在這些任務中與最先進的方法相比取得了競爭性表現。我們的工作推動了互動式通用世界模型的發展,彌合了生成式視頻模型與實際基於模型的強化學習應用之間的差距。
語言模型(LMs)長期以來被用來改善自動語音識別(ASR)系統的結果,但它們對ASR系統的錯誤毫不知情。錯誤校正模型旨在修正ASR錯誤,然而,由於缺乏監督式訓練數據,它們在傳統LMs上顯示出的改進有限。本文介紹了去噪LM(DLM),這是一種經過大量合成數據訓練的規模化錯誤校正模型,明顯超越先前的嘗試,同時實現了新的最先進的ASR性能。我們使用文本轉語音(TTS)系統合成音頻,將其餵入ASR系統以生成含噪假設,然後將其與原始文本配對以訓練DLM。DLM具有幾個關鍵要素:(i)放大模型和數據;(ii)使用多說話者TTS系統;(iii)結合多種噪聲增強策略;以及(iv)新的解碼技術。憑藉Transformer-CTC ASR,在Librispeech的test-clean上達到1.5%的字錯誤率(WER),在test-other上達到3.3%的WER,據我們所知,這是在不使用外部音頻數據的情況下報告的最佳數字,甚至與使用外部音頻數據的自監督方法相匹敵。此外,單個DLM適用於不同的ASR,遠遠超越基於傳統LM的波束搜索重評分的性能。這些結果表明,經過適當研究的錯誤校正模型有可能取代傳統LMs,為ASR系統的新準確性水平打開大門。
大型語言模型展現出卓越的泛化能力,主要歸因於對多元來源數據的利用。然而,傳統整合這些多元數據的做法主要依賴啟發式方案,缺乏理論指導。本研究通過探討基於低成本代理的數據混合策略,旨在精簡數據整理以提升訓練效率,以應對這些限制。具體而言,我們提出了一個統一的縮放定律,稱為BiMix,能準確地模擬數據數量和混合比例的雙變量縮放行為。我們進行系統性實驗,並提供BiMix 預測能力和基本原則的實證證據。值得注意的是,我們的研究結果顯示,基於熵驅動的無需訓練的數據混合方法可以達到與甚至更好於更耗資源的方法的性能。我們希望我們的定量見解能為成本效益的語言建模中的進一步明智的研究和開發提供一些啟示。
高動態範圍(HDR)新視角合成(NVS)旨在使用HDR成像技術從新視角創建逼真的圖像。渲染的HDR圖像捕捉了比普通低動態範圍(LDR)圖像更多場景細節的更廣泛亮度範圍。現有的HDR NVS方法主要基於NeRF。它們受長時間訓練和緩慢推斷速度的困擾。本文提出了一個新的框架,高動態範圍高斯飛灰(HDR-GS),可以有效地渲染新的HDR視角並重建具有用戶輸入曝光時間的LDR圖像。具體來說,我們設計了一個雙動態範圍(DDR)高斯點雲模型,使用球面調和來擬合HDR顏色,並使用基於MLP的色調映射器來渲染LDR顏色。然後,HDR和LDR顏色被餵入兩個平行可微光柵化(PDR)過程以重建HDR和LDR視角。為了為基於3D高斯飛灰方法的HDR NVS研究建立數據基礎,我們重新校準相機參數並計算高斯點雲的初始位置。實驗表明,我們的HDR-GS在LDR和HDR NVS上超越了最先進的基於NeRF的方法,推斷速度提高了1000倍,僅需6.3%的訓練時間,LDR和HDR NVS分別提高了3.84和1.91 dB。