每日精選AI研究論文及翻譯
最近在多模型方面的進展凸顯了改寫標題以提升效能的價值,然而仍存在關鍵挑戰。例如,雖然合成標題通常提供優越的品質和圖像-文字對齊,但目前尚不清楚它們是否能完全取代AltTexts:合成標題在預訓練中的作用及與原始網頁抓取的AltTexts的互動仍不明確。此外,不同的多模型基礎模型可能對特定標題格式有獨特偏好,但目前對於為每個模型確定最佳標題的努力仍受限。在這項工作中,我們提出了一種新穎、可控且可擴展的標題生成流程,旨在產生多樣的標題格式,以適應各種多模型模型。通過將短合成標題(SSC)轉向密集合成標題(DSC+)作為案例研究,我們系統地探索它們在模型(如CLIP、多模型LLMs和擴散模型)中與AltTexts的影響和互動。我們的研究發現,保留合成標題和AltTexts的混合方法可以優於僅使用合成標題,從而改善對齊和效能,並且每個模型都展現對特定標題格式的偏好。這一全面分析提供了優化標題策略的寶貴見解,從而推動多模型基礎模型的預訓練。
Transformer 架構在各種模型中占主導地位。作為 Transformer 的核心,注意力機制的計算複雜度為 O(N^2),而線性轉換為 O(N)。在處理大序列長度時,注意力機制成為主要耗時組件。儘管量化已被證明是加速模型推斷的有效方法,現有的量化方法主要集中在優化線性層。為此,我們首先詳細分析了在注意力機制中進行量化的可行性。隨後,我們提出了 SageAttention,這是一種高效且準確的注意力機制量化方法。我們的方法的每秒操作數(OPS)優於 FlashAttention2 和 xformers 約 2.1 倍和 2.7 倍。SageAttention 在準確性能上也優於 FlashAttention3。全面的實驗證實,我們的方法在各種模型上幾乎不會造成端到端指標的損失,包括用於大型語言處理、圖像生成和視頻生成的模型。
我們提出了一個用於零標記度量單眼深度估計的基礎模型。我們的模型Depth Pro 可以合成具有無與倫比的銳度和高頻細節的高分辨率深度圖。預測是度量的,具有絕對尺度,並且不依賴於相機內部參數等元數據的可用性。該模型速度快,可以在標準 GPU 上在 0.3 秒內生成一張 2.25 百萬像素的深度圖。這些特點得益於多項技術貢獻,包括用於密集預測的高效多尺度視覺Transformer、結合真實和合成數據集以實現高度度量準確性和細微邊界追踪的訓練協議、用於估計深度圖中邊界準確性的專用評估指標,以及從單張圖像中獲得最先進的焦距估計。大量實驗分析了特定的設計選擇,並展示了Depth Pro 在多個維度上優於先前的工作。我們在 https://github.com/apple/ml-depth-pro 上釋出了代碼和權重。
由於從網絡中收集大量高質量原始數據的困難,影響了視頻大型多模型(LMMs)的發展。為了解決這個問題,我們提出了一種替代方法,通過為視頻指令跟隨創建一個高質量合成數據集,即LLaVA-Video-178K。該數據集包括詳細字幕、開放式問答(QA)和多選擇QA等關鍵任務。通過在這個數據集上訓練,結合現有的視覺指令調整數據,我們引入了一個新的視頻LMM,名為LLaVA-Video。我們的實驗表明,LLaVA-Video在各種視頻基準測試中取得了出色的表現,突出了我們數據集的有效性。我們計劃發布數據集、生成流程和模型檢查點。
在幾分鐘的時間尺度內生成內容豐富的長視頻是一個值得期待但具有挑戰性的任務。自回歸大型語言模型(LLMs)在自然語言處理領域中生成連貫且長序列的標記方面取得了巨大成功,然而,對於視頻生成,自回歸LLMs的探索僅限於生成幾秒鐘的短視頻。在這項工作中,我們對阻礙基於自回歸LLMs的視頻生成器生成長視頻的挑戰進行了深入分析。基於觀察和分析,我們提出了Loong,一種新的基於自回歸LLMs的視頻生成器,可以生成長達一分鐘的視頻。具體來說,我們將文本標記和視頻標記建模為自回歸LLMs的統一序列,並從頭開始訓練模型。我們提出了漸進式的從短到長的訓練方法,並使用損失重新加權方案來緩解長視頻訓練中的損失不平衡問題。我們進一步研究了推斷策略,包括視頻標記的重新編碼和抽樣策略,以減少推斷過程中的錯誤累積。我們提出的Loong可以在10秒的視頻上進行訓練,並可以擴展到根據文本提示生成長達一分鐘的長視頻,這一點已經通過實驗結果證明。更多樣本可在以下網址找到:https://epiphqny.github.io/Loong-video。
對比式語言-圖像預訓練(CLIP)一直是一種備受讚譽的方法,用於訓練視覺編碼器以生成圖像/文本表示,從而促進各種應用。最近,CLIP已被廣泛採用作多模式大型語言模型(MLLMs)的視覺骨幹,以連接圖像輸入進行語言交互。CLIP作為視覺-語言基礎模型的成功依賴於在圖像層面對齊網絡爬取的噪聲文本標註。然而,這樣的標準對於需要精細視覺表示的下游任務可能不足,特別是對於MLLMs而言,區域級別的理解尤為困難。在本文中,我們通過幾項進步來提高CLIP的定位能力。我們提出了一種名為對比式局部語言-圖像預訓練(CLOC)的預訓練方法,通過補充CLIP與區域-文本對比損失和模塊。我們提出了一個新概念,即可提示嵌入,其中編碼器產生的圖像嵌入易於轉換為區域表示,並提供空間提示。為了支持大規模預訓練,我們設計了一個視覺豐富且空間局部化的字幕框架,以有效生成大規模的區域-文本虛標籤。通過擴展到數十億個帶標註圖像,CLOC實現了高質量的區域嵌入,用於圖像區域識別和檢索任務,並可作為CLIP的替代方案,以增強MLLMs,特別是在指代和定位任務上。
我們介紹了LLaVA-Critic,這是第一個開源的大型多模態模型(LMM),旨在作為一個通用評估器,用於評估各種多模態任務的性能。LLaVA-Critic是使用高質量的評論指示遵循數據集進行訓練的,該數據集包含多樣的評估標準和場景。我們的實驗證明了該模型在兩個關鍵領域的有效性:(1)LMM作為評判,LLaVA-Critic提供可靠的評估分數,在多個評估基準上表現媲美或超越GPT模型;以及(2)偏好學習,它為偏好學習生成獎勵信號,增強模型對齊能力。這項工作突顯了開源LMM在自我評論和評估中的潛力,為未來研究提供了舞台,以探索可擴展的、超人類對齊反饋機制用於LMM。
大型語言模型(LLMs)已被證明在廣泛的自然語言處理任務以及其他領域中都非常高效。然而,對於它們出色表現的根源進行全面的理論分析仍然是困難的。在本文中,我們通過將具有大小為 T 的詞彙和大小為 K 的上下文窗口的通用自回歸語言模型與在大小為 O(T^K) 的有限狀態空間上定義的馬爾可夫鏈進行等效來應對這一挑戰。我們得出了幾個關於馬爾可夫鏈的平稳分布存在、其收斂速度以及溫度對後者的影響的令人驚訝的發現。然後,我們證明了預訓練和上下文泛化界限,並展示了如何通過所繪製的等效性來豐富它們的解釋。最後,我們通過對幾個最近的LLMs進行實驗來說明我們的理論保證,以突顯它們如何捕捉實踐中觀察到的行為。
在擴散模型中,無分類器引導(CFG)對於提高生成品質和輸入條件與最終輸出之間的對齊至關重要。儘管通常需要高引導比例來增強這些方面,但這也會導致過飽和和不現實的人工痕跡。在本文中,我們重新審視了CFG更新規則並引入修改以解決此問題。我們首先將CFG中的更新項分解為與條件模型預測平行和正交組件,並觀察到平行組件主要導致過飽和,而正交組件則增強了圖像品質。因此,我們提出降低平行組件的權重以實現高質量生成而不過飽和。此外,我們將CFG與梯度上升之間建立聯繫,並基於此洞察力引入了一種新的重新縮放和動量方法,用於CFG更新規則。我們的方法被稱為自適應投影引導(APG),保留了CFG的質量提升優勢,同時使得可以在不過飽和的情況下使用更高的引導比例。APG易於實施,並且在採樣過程中幾乎不會引入額外的計算開銷。通過大量實驗,我們證明APG與各種有條件的擴散模型和採樣器兼容,從而提高了FID、召回率和飽和度分數,同時保持了與CFG相當的精度,使我們的方法成為標準無分類器引導的優越即插即用替代方案。
大型語言模型(LLMs)越來越多地應用於需要在獲得任何獎勵之前執行多個複雜步驟的複雜推理任務。正確地將功勞分配給這些步驟對於提升模型性能至關重要。Proximal Policy Optimization(PPO)是一種用於LLM微調的最先進的強化學習(RL)算法,採用價值網絡來應對功勞分配。然而,價值網絡在複雜推理任務中準確預測預期累積獎勵方面面臨挑戰,通常導致高變異更新和次優性能。在這項工作中,我們系統評估了價值網絡的有效性,揭示了它們在重度推理的LLM任務中的顯著缺陷,顯示在比較替代步驟時,它們幾乎只比隨機基準線稍強。為了應對這一問題,我們提出了VinePPO,一種利用語言環境靈活性來計算無偏蒙特卡洛估計的簡單方法,從而避免了對大型價值網絡的需求。我們的方法在MATH和GSM8K數據集上一貫優於PPO和其他無RL基準線,並且需要較少的梯度更新(最多9倍),較少的牆鐘時間(最多3.0倍)。這些結果強調了在LLM的RL微調中準確的功勞分配的重要性,並展示了VinePPO作為一種優越替代方案的潛力。
語音助理,如Siri和Google助理,通常將音訊和文字分開建模,導致語音信息的丟失和複雜性增加。最近的努力通過使用監督微調(SFT)訓練的端到端語音大型語言模型(LLMs)來解決這個問題,導致模型“遺忘”了從僅文本LLMs獲得的功能。我們的工作提出了一種替代範式,用於訓練語音LLMs,無需指導數據,而是使用僅文本LLMs對轉錄的響應作為自我監督。重要的是,這個過程可以在沒有標註響應的情況下進行。我們展示了我們的精煉語音助理(DiVA)可以泛化到口語問答、分類和翻譯。此外,我們展示了DiVA更符合用戶偏好,與Qwen 2 Audio等最先進的模型相比,取得了72%的勝率,盡管使用的訓練計算量少了100倍以上。
密集文件嵌入是神經檢索的核心。主導範式是通過直接在單個文件上運行編碼器來訓練和構建嵌入。在這項工作中,我們認為這些嵌入雖然有效,但對於檢索的目標用例來說,隱含地脫離了上下文,因此建議一個具有上下文的文件嵌入應該考慮文檔本身和上下文中的相鄰文檔 - 類似於具有上下文的詞嵌入。我們提出了兩種互補的方法來獲得具有上下文的文件嵌入:首先,是一種替代的對比學習目標,明確地將文檔鄰居納入批內上下文損失中;其次,是一種新的上下文架構,明確地將鄰居文檔信息編碼到編碼表示中。結果表明,這兩種方法在幾個設置中均實現了比雙編碼器更好的性能,特別是在域外時表現更為顯著。我們在MTEB基準測試中取得了最新成果,而無需進行困難的負採樣、分數蒸餾、特定於數據集的指令、GPU內部範例共享或極大的批量大小。我們的方法可應用於提高任何對比學習數據集和任何雙編碼器的性能。
近年來,對比語言-圖像預訓練(CLIP)已成為多模態智能的基石。然而,最近的研究發現,在CLIP編碼過程中存在著相當大的信息損失,且CLIP傾向於僅捕捉輸入中的粗粒度特徵。這種不足顯著地限制了單個CLIP模型處理視覺細節豐富的圖像的能力。在本研究中,我們提出了一種簡單而有效的模型無關策略,稱為多樣化多重升級(DMU),用於CLIP。DMU從一個密集預訓練的CLIP檢查點高效地微調一系列捕捉不同特徵空間的CLIP模型,這些模型共享參數,除了前饋網絡(FFN)。然後,這些模型可以轉換為具有更大模型容量的CLIP-MoE,從而在最小計算開銷下顯著提升性能。據我們所知,多樣化多重升級是第一種將稀疏激活MoE引入CLIP基礎模型的方法。大量實驗證明了CLIP-MoE在各種零樣本檢索、零樣本圖像分類任務以及作為視覺編碼器的下游多模態大型語言模型(MLLM)基準測試中的顯著性能。此外,多樣化多重升級使得任何密集CLIP模型都可以無縫地轉換為CLIP-MoEs,可以在下游框架中取代CLIP,而無需進行進一步的適應。通過多樣化多重升級,我們旨在為未來開發更高效和有效的多模態學習系統提供有價值的見解。
軟體工程師主要通過編輯現有程式碼來撰寫程式碼。相比之下,大型語言模型(LLMs)在單次通過中自動回歸地合成程式碼。其中一個解釋是開源編輯數據的稀缺性。儘管程式碼合成的高質量指導數據已經稀缺,高質量的編輯數據甚至更加稀缺。為了填補這一空白,我們開發了一個名為LintSeq的合成數據生成算法。該算法通過使用linter對現有程式碼進行重構,將其轉換為一系列程式碼編輯,以程序化地採樣無錯誤插入,這些插入可用於順序地撰寫程式。它將編輯序列輸出為由連續程式差異組成的文本字符串。為了測試LintSeq,我們使用它將一組指令+程式對重構為指令+程式差異序列元組。然後,我們對一系列從26億到140億參數的較小LLMs在這個數據集的重構和原始版本上進行指令微調,比較零-shot性能在程式碼合成基準測試上的表現。我們展示了在重複採樣過程中,經過編輯序列微調的模型生成比基準更多樣化的程式。這導致基於樣本的基準覆蓋性能在推斷時間上的擴展更好,即任何嘗試在給定“k”次嘗試時解決的問題“pass@k”的分數。例如,在HumanEval pass@50上,經過合成編輯序列微調的小型LLMs在絕對分數上與GPT-4競爭,並在基準數據集上的模型表現比+20%(+/-3%)更好。最後,我們還對我們自己的微型LM進行程式碼理解的預訓練。我們展示了在合成程式碼編輯上對微型模型進行微調導致了在設備模型類別中的最先進程式碼合成。我們的1.5億參數編輯序列LM在重複採樣與否的情況下,與兩倍參數的程式碼模型(包括Codex和AlphaCode)相匹敵或優於其表現。
近年來,長文本模型(LCMs)取得了顯著進展,為處理涉及長篇文本的任務(如文件摘要)提供了極大便利。隨著社群日益重視生成結果的忠實性,僅確保LCM輸出的準確性是不夠的,因為人類很難驗證來自極長文本的結果。儘管一些工作旨在評估LCMs是否真實地基於上下文作出回應,但這些工作要麼僅限於特定任務,要麼嚴重依賴於像GPT-4這樣的外部評估資源。在本研究中,我們介紹了L-CiteEval,這是一個針對帶引用的長文本理解的全面多任務基準,旨在評估LCMs的理解能力和忠實性。L-CiteEval涵蓋了來自不同領域的11個任務,涵蓋的上下文長度範圍從8K到48K,並提供了一套完全自動化的評估套件。通過對11個尖端的封閉源和開源LCMs進行測試,我們發現這些模型在生成結果上雖有細微差異,但開源模型在引用準確性和召回率方面明顯遠遠落後於封閉源模型。這表明目前的開源LCMs很容易基於其固有知識而作出回應,而非根據給定的上下文,這對實際應用中的用戶體驗構成重大風險。我們還評估了RAG方法,觀察到RAG能夠顯著提高LCMs的忠實性,儘管在生成質量上略微降低。此外,我們發現LCMs的注意機制與引文生成過程之間存在相關性。
檢索增強生成(RAG)已被證明能夠提高大型語言模型(LLMs)的事實準確性,但現有方法在有效利用檢索證據時往往受限於有限的推理能力,特別是在使用開源LLMs時。為彌補這一差距,我們引入了一個新穎的框架,Open-RAG,旨在增強開源LLMs中RAG的推理能力。我們的框架將任意的密集LLM轉換為一個能處理復雜推理任務的參數高效的稀疏專家混合(MoE)模型,包括單跳和多跳查詢。Open-RAG獨特地訓練模型來導航出現相關但具有誤導性的具有挑戰性干擾物。因此,Open-RAG利用潛在學習,動態選擇相關專家並有效整合外部知識,以獲得更準確和具有上下文相關性的回應。此外,我們提出了一種混合自適應檢索方法,以確定檢索的必要性並平衡性能增益和推理速度之間的折衷。實驗結果表明,基於Llama2-7B的Open-RAG在各種知識密集型任務中優於最先進的LLMs和RAG模型,如ChatGPT、Self-RAG和Command R+。我們在https://openragmoe.github.io/開源我們的代碼和模型。
我們研究視覺語言模型(VLMs)的內部表示,以應對幻覺問題,儘管模型規模和訓練取得進展,但幻覺仍是一個持久的挑戰。我們將VLMs的內部圖像表示投影到它們的語言詞彙,觀察到對於真實物體,輸出概率比對於幻覺物體更有信心。此外,我們使用這些輸出概率來空間定位真實物體。基於這種方法,我們引入了一種知識消除算法,通過對圖像特徵與幻覺物體特徵進行線性正交化,從而消除幻覺。我們展示了對模型潛在表示進行有針對性編輯可以在COCO2014數據集上將幻覺減少多達25.7%,同時保持性能。我們的研究結果顯示,對VLMs的潛在表示有更深入的理解可以增強可靠性,並實現新的功能,如零樣本分割。
大型語言模型(LLMs)以其在文本數據中的多功能性而聞名,越來越多地被探索其潛力,以增強醫學影像分割,這是準確診斷影像的關鍵任務。本研究通過整合預訓練的LLM變壓器塊,探索了增強用於醫學影像分割的Vision Transformers(ViTs)。我們的方法將一個凍結的LLM變壓器塊整合到基於ViT的模型的編碼器中,從而在各種醫學影像模態下實現了分割性能的顯著改進。我們提出了一種混合注意機制,將全局和局部特徵學習與多尺度融合塊相結合,以跨不同尺度聚合特徵。增強模型展現出顯著的性能提升,包括平均Dice分數從0.74增加到0.79,以及在準確性、精確度和Jaccard指數方面的改進。這些結果證明了基於LLM的變壓器在精煉醫學影像分割方面的有效性,突出了它們顯著提升模型準確性和韌性的潛力。源代碼和我們的實現可在以下鏈接找到:https://bit.ly/3zf2CVs
自主代理已展示出在自動化複雜多步決策任務方面具有顯著潛力。然而,即使是最先進的視覺語言模型(VLMs),如GPT-4o,仍然無法達到人類水平的表現,特別是在複雜的網絡環境和長期規劃任務中。為了解決這些限制,我們引入了反思蒙特卡羅樹搜索(R-MCTS),這是一種新穎的測試時間算法,旨在增強AI代理的能力,例如由GPT-4o提供支持,以即時探索決策空間。R-MCTS通過以下方式擴展了傳統MCTS:1)融入對比反思,使代理能夠從過去的互動中學習並動態提高其搜索效率;以及2)使用多代理辯論來提供可靠的狀態評估。此外,我們通過自學來改進代理的性能,使用R-MCTS生成的樹遍歷來微調GPT-4o,而無需任何人工提供的標籤。在具有挑戰性的VisualWebArena基準測試中,我們基於GPT-4o的R-MCTS代理相對於先前最先進技術,在各種任務中實現了6%至30%的相對改進。此外,我們展示了從測試時間搜索中獲得的知識可以通過微調有效地轉移回GPT-4o。經過微調的GPT-4o與R-MCTS的性能匹配率為97%,同時在測試時間將計算使用量減少了四倍。此外,定性結果顯示,經過微調的GPT-4o模型展示了探索環境、評估狀態以及在檢測到當前狀態無法成功時回溯到可行狀態的能力。此外,我們的工作展示了在訓練 - 通過R-MCTS進行數據收集 - 和測試時間中的計算擴展特性。這些結果表明了一個有前途的研究方向,即通過測試時間搜索和自學來增強VLMs的推理和規劃能力,以應用於代理應用。
最近在體積渲染方面的研究,例如 NeRF 和 3D 高斯光斑(3DGS),在學習到的隱式神經輻射場或 3D 高斯函數的幫助下,顯著提高了渲染質量和效率。在明確表示的基礎上,普通的 3DGS 及其變體通過在訓練期間每次迭代優化參數模型以單視圖監督的方式實現了實時效率,這種方法源自 NeRF。因此,某些視圖被過度擬合,導致新視圖合成的外觀不理想且 3D 幾何形狀不精確。為了解決上述問題,我們提出了一種新的 3DGS 優化方法,具有四個關鍵的新貢獻:1)我們將傳統的單視圖訓練範式轉換為多視圖訓練策略。通過我們提出的多視圖調節,進一步優化 3D 高斯函數的屬性,避免過度擬合某些訓練視圖。作為一種通用解決方案,我們在各種情境和不同高斯變體中提高了整體準確性。2)受到額外視圖帶來的好處的啟發,我們進一步提出了一種交叉內在引導方案,引導進行關於不同分辨率的從粗到細的訓練程序。3)在我們的多視圖調節訓練基礎上,我們進一步提出了一種交叉射線密集化策略,從選定的視圖中在射線交叉區域中加入更多高斯核。4)通過進一步研究密集化策略,我們發現當某些視圖差異明顯時,密集化效果應當增強。作為解決方案,我們提出了一種新穎的多視圖增強密集化策略,鼓勵 3D 高斯函數根據需要增加密集化,從而提高重建準確性。
最近有越來越多的觀點認為,現代大型多模型(LMMs)已經解決了與短視頻理解相關的大部分關鍵挑戰。因此,學術界和工業界逐漸將注意力轉向更複雜的長視頻理解所帶來的挑戰。然而,這是否屬實?我們的研究顯示,即使處理短視頻,LMMs 仍然缺乏許多基本的推理能力。我們引入了 Vinoground,一個包含 1000 個短自然視頻-標題配對的時間反事實 LMM 評估基準。我們展示現有的 LMMs 在區分不同動作和物體變換之間的時間差異時嚴重困難。例如,最佳模型 GPT-4o 在我們的文本和視頻分數上僅獲得約 50%,與人類基準約 90% 的巨大差距。所有開源多模型和基於 CLIP 的模型表現更差,主要產生隨機機會表現。通過這項工作,我們揭示了短視頻中的時間推理仍然是一個尚未完全解決的問題。數據集和評估代碼可在 https://vinoground.github.io 獲得。
通過研究基於規則系統的複雜性如何影響訓練模型以預測這些規則的能力,我們探索了人工系統中智能行為的出現。我們的研究聚焦於基本元胞自動機(ECA),這是一維系統,生成的行為從簡單到高度複雜不等。通過在不同的ECA上訓練不同的大型語言模型(LLMs),我們評估了規則行為的複雜性與LLMs展現的智能之間的關係,這在它們在下游任務上的表現中得以體現。我們的研究結果顯示,具有更高複雜性的規則導致模型展現出更高的智能,這表現在它們在推理和棋藝預測任務上的表現。無論是均勻的、周期性的系統,還是高度混沌的系統,都導致下游表現較差,突顯了有利於智能的複雜性的平衡點。我們推測智能來自於預測複雜性的能力,並且創造智能可能僅需要接觸複雜性。
我們提出了Synthio,一種新穎的方法,用於通過合成數據來擴充小規模音頻分類數據集。我們的目標是在有限標記數據的情況下提高音頻分類的準確性。傳統的數據擴充技術,通常應用人工轉換(例如添加隨機噪音或遮罩段),往往難以創建捕捉真實世界音頻中真正多樣性的數據。為了解決這個缺陷,我們提議通過從文本到音頻(T2A)擴散模型生成的合成音頻來擴充數據集。然而,合成有效的擴充是具有挑戰性的,因為生成的數據不僅應該在聲學上與基礎小規模數據集保持一致,還應該具有足夠的組成多樣性。為了克服第一個挑戰,我們使用偏好優化來對齊T2A模型的生成與小規模數據集,以確保生成數據的聲學特徵保持與小規模數據集一致。為了應對第二個挑戰,我們提出了一種新穎的標題生成技術,利用大型語言模型的推理能力來(1)生成多樣且有意義的音頻標題,以及(2)迭代地改進其質量。生成的標題然後用於提示對齊的T2A模型。我們在十個數據集和四個模擬有限數據設置上對Synthio進行了廣泛評估。結果表明,我們的方法在僅在弱標題AudioSet上訓練的T2A模型上始終優於所有基準,性能提升0.1%-39%。
我們展示了具有數百萬參數的小型預訓練基礎生成語言模型能夠從與該過程相關的數據中學習過程的潛在規則。受斯特凡·茨威格的中篇小說《與魔鬼對弈》啟發,我們展示了具有 28M 和 125M 參數的預訓練基礎小型語言模型(SLMs)可以通過 1,000 到 1,000,000 個示例進行指導微調,以學習棋盤遊戲的規則,提出合法移動並準確解決棋題。我們還探討了連續語言模型微調時期對改善結果的影響,並通過增加指導微調示例數量來展示模型幻覺的減少。
模型合併,例如模型混合,是將具有相同架構的不同模型結合在一起而無需進行進一步訓練的做法。在這項工作中,我們提出了一種模型合併方法,以應對在非英語語言中為目標任務微調大型語言模型(LLMs)時所面臨的困難,因為特定任務的數據通常是不可用的。我們專注於數學推理,在缺乏語言內數學數據的情況下,通過組合語言和數學能力來促進跨語言轉移。從相同的預訓練模型開始,我們在英語數學指導數據和目標語言的通用指導數據上對數學專家進行單獨的微調。然後,我們直接用語言專家的層替換數學專家的頂部和底部變壓器層,從而增強目標語言中的數學性能。結果合併的模型在四種主要語言上的數學基準測試MGSM上表現優於單獨的專家和其他合併方法,其中數學指導數據稀缺。此外,這種層替換方法簡單、成本低廉且直觀,因為它基於對每個專家微調期間最重要參數變化的解釋性分析。成功以這種方式重新組合LLMs以進行跨語言轉移的能力,為將來結合模型專業知識、創建模塊化解決方案以及在事後跨語言轉移推理能力開啟了新的可能性。
最近在3D大型語言模型(3DLLMs)方面的進展突顯了它們在建構3D真實世界中通用代理的潛力,然而由於缺乏高質量堅固的指示跟隨數據,導致3DLLMs的辨識能力和泛化能力有限,挑戰依然存在。在本文中,我們介紹了Robin3D,這是一個強大的3DLLM,通過我們的新型數據引擎Robust Instruction Generation(RIG)引擎生成的大規模指示跟隨數據進行訓練。RIG生成了兩類關鍵指示數據:1)對抗式指示跟隨數據,其中包含混合的負面和正面樣本,以增強模型的辨識理解。2)多樣化指示跟隨數據,其中包含各種指示風格,以增強模型的泛化能力。因此,我們構建了100萬條指示跟隨數據,其中包括344K對抗式樣本、508K多樣化樣本和165K基準訓練集樣本。為了更好地處理這些複雜的指示,Robin3D首先引入了關係增強投影機來增強空間理解,然後通過ID-Feature Bonding加強對象引用和定位能力。Robin3D在五個廣泛使用的3D多模態學習基準測試中始終優於先前的方法,而無需進行任務特定的微調。值得注意的是,在定位任務(Multi3DRefer)中實現了7.8%的改進,在字幕任務(Scan2Cap)中實現了6.9%的改進。
基於提示的微調已成為引發預先訓練語言模型中編碼的資訊的重要方法,適用於各種任務,包括文本分類。對於多類別分類任務,在低資源情況下進行基於提示的微調已導致性能水平與完全微調方法相當。先前的研究使用精心設計的提示模板和語言化器,從標籤術語空間映射到類別空間,將分類問題解決為遮罩語言建模任務。然而,跨領域和細粒度的基於提示的微調與自動增強的語言化器仍未被探索,主要是因為手動選擇領域標籤術語以用於語言化器的困難和成本,需要具有領域專業知識的人類。為應對這一挑戰,我們引入了SciPrompt,一個旨在自動檢索科學主題相關術語以進行低資源文本分類任務的框架。為此,我們在科學文獻的上下文中選擇語義相關且特定於領域的標籤術語,以進行語言化器增強。此外,我們提出一種新的語言化策略,使用相關分數作為額外權重,以增強語言模型在模型微調期間的預測性能。我們的方法在科學文本分類任務中的少量和零-shot設置下優於最先進的基於提示的微調方法,特別是在對細粒度和新興科學主題進行分類時。