每日精選AI研究論文及翻譯
對於擴展大型語言模型(LLMs)的研究主要集中在模型參數和訓練數據大小,忽略了詞彙大小的作用。從直觀上看,更大的詞彙庫可以通過用更少的標記來表示句子,實現更有效的標記化,但也增加了對於罕見標記的欠擬合風險。我們通過在多達500B個字符上訓練範圍從33M到3B參數的模型,並使用各種詞彙配置,來研究詞彙大小如何影響LLM的擴展定律。我們提出了三種互補的方法來預測計算最佳詞彙大小:IsoFLOPs分析、導數估計和損失函數的參數擬合。我們的方法收斂於同一結果,即最佳詞彙大小取決於可用的計算預算,並且更大的模型應該使用更大的詞彙庫。然而,大多數LLMs使用的詞彙大小都太小。例如,我們預測Llama2-70B的最佳詞彙大小應該至少為216K,比其32K的詞彙庫大7倍。我們通過在不同FLOPs預算下訓練具有3B參數的模型來實證我們的預測。採用我們預測的最佳詞彙大小一致地提高了在常用詞彙大小上的下游性能。通過將詞彙大小從傳統的32K增加到43K,我們在相同的2.3e21 FLOPs上將ARC-Challenge的性能從29.1提高到32.0。我們的工作強調了共同考慮模型參數和詞彙大小以實現有效擴展的必要性。
關於訓練數據量和參數數量的比例律,讓我們能夠預測在不同配置下預訓練語言模型(LMs)的成本效益折衷。在本文中,我們考慮另一個比例律:推理時可用數據的量。具體而言,我們發現增加檢索型LM使用的數據存儲庫的大小會單調地改善語言建模和幾個下游任務,並沒有明顯的飽和現象,因此,一個較小的模型搭配一個大型數據存儲庫在知識密集型任務上勝過僅有較大LM的模型。通過繪製具有不同數據存儲庫、模型和預訓練數據大小的計算最優比例曲線,我們展示了使用更大的數據存儲庫可以顯著提高模型性能,而在相同的訓練計算預算下進行。我們通過構建一個名為MassiveDS的包含1.4兆令牌的數據存儲庫來進行研究,這是迄今為止最大且最多樣化的開源檢索型LM數據存儲庫,並設計了一個有效的流程來以可計算的方式研究數據存儲庫的比例律。最後,我們分析了改進檢索器、數據存儲庫質量篩選和其他設計選擇對我們觀察到的比例律趨勢的影響。總的來說,我們的結果顯示,應將數據存儲庫大小視為LM效率和性能折衷的一部分。為了促進未來研究,我們在https://github.com/RulinShao/retrieval-scaling 開源了我們的數據存儲庫和代碼。
單眼動態重建是一個具有挑戰性且歷史悠久的視覺問題,這是因為任務的高度不良定義性。現有方法存在局限性,要麼依賴模板,只在幾乎靜態的場景中有效,要麼未能明確建模三維運動。在這項工作中,我們介紹了一種能夠從隨意拍攝的單眼視頻中重建通用動態場景的方法,該方法具有明確的、完整序列長的三維運動。我們通過兩個關鍵見解應對問題的不完全約束性:首先,我們利用三維運動的低維結構,通過用一組緊湊的SE3運動基表示場景運動。每個點的運動被表示為這些基的線性組合,有助於將場景軟性分解為多個剛性移動組。其次,我們利用包括單眼深度地圖和長程2D軌跡在內的全面數據驅動先驗,並設計了一種方法來有效整合這些噪聲監督信號,從而產生動態場景的全局一致表示。實驗表明,我們的方法在長程3D/2D運動估計和動態場景的新視角合成方面實現了最先進的性能。項目頁面:https://shape-of-motion.github.io/
本文介紹了長上下文 Granite 程式碼模型,支援高達 128K 個標記的有效上下文窗口。我們對 Granite 3B/8B 程式碼模型的上下文長度進行擴展,從 2K/4K 擴展到 128K 的解決方案包括輕量級持續預訓練,逐步增加其 RoPE 基頻率,並使用存儲庫級檔案打包和長上下文數據進行長度上採樣。此外,我們還釋出了支援長上下文的指令調整模型,通過進一步在許可權寬鬆的短和長上下文指令-回應對上對長上下文基礎模型進行微調而得到。與原始短上下文 Granite 程式碼模型相比,我們的長上下文模型在長上下文任務上取得了顯著改進,而在常規程式碼完成基準測試(例如 HumanEval)上並未觀察到性能下降。我們釋出所有長上下文 Granite 程式碼模型,採用 Apache 2.0 許可證,供研究和商業用途使用。
我們提出了一種方法,用於生成街景 - 通過即時合成的城市規模場景的一系列視圖。我們的生成受語言輸入(例如城市名稱、天氣)以及包含所需軌跡的底層地圖/佈局的條件限制。與最近用於視頻生成或3D視圖合成的模型相比,我們的方法可以擴展到更長範圍的相機軌跡,跨越多個城市街區,同時保持視覺質量和一致性。為了實現這一目標,我們基於最近關於視頻擴散的研究,該研究在可以輕鬆擴展到長序列的自回歸框架中使用,我們引入了一種新的時間插補方法,防止我們的自回歸方法偏離現實城市圖像的分佈。我們在Google Street View的引人入勝的數據提供的圖像以及上下文地圖數據上訓練我們的Streetscapes系統,這使用戶可以生成基於任何所需城市佈局的城市視圖,並具有可控相機姿勢。請在我們的項目頁面https://boyangdeng.com/streetscapes 查看更多結果。
直接偏好優化(DPO)已成為大型語言模型(LLMs)微調訓練的廣泛使用方法。在這項研究中,我們探討了DPO的一個少受關注的方面 - 它對參考模型或策略的依賴性。這些參考策略通常被實例化為進一步微調的模型,因為它們可以對DPO的效果施加上限,所以它們很重要。因此,我們在這項研究中探討了三個相關的研究問題。首先,我們探討了在DPO中KL散度約束的最佳強度,該約束懲罰與參考策略的偏差,並發現DPO對這種強度很敏感。接下來,我們通過在DPO和相關學習目標之間提供理論和實證比較,來檢驗參考策略對於指導微調的必要性,展示了DPO的優越性。此外,我們調查了DPO是否受益於更強的參考策略,發現更強的參考策略可以提高性能,但只有當它與被微調的模型相似時才會發生。我們的研究結果突顯了參考策略在DPO中的混淆作用,為最佳實踐提供了見解,同時也確定了未來研究的開放問題。
儘管多模式大型語言模型(MLLMs)在各種任務中具有卓越的能力,但它們仍然面臨著重大的可信度挑戰。然而,目前關於評估可信度的MLLMs的文獻仍然有限,缺乏全面的評估以提供對未來改進的深入見解。在這項工作中,我們建立了MultiTrust,這是關於MLLMs可信度的第一個全面統一基準,涵蓋了五個主要方面:真實性、安全性、韌性、公平性和隱私性。我們的基準採用了一種嚴格的評估策略,既考慮了多模式風險,又包括了交叉模式影響,其中包含了32個不同任務的自定義數據集。對21個現代MLLMs進行了大量實驗,揭示了一些以前未曾探索的可信度問題和風險,突顯了多模式引入的複雜性,並強調了提高它們可靠性的高級方法的必要性。例如,典型的專有模型仍然難以理解視覺上混淆的圖像,容易受到多模式越獄和對抗性攻擊的影響;MLLMs更傾向於在文本中透露隱私,並在推論時即使與無關的圖像配對,也會透露意識形態和文化偏見,這表明多模式從基礎LLMs引入了內部風險。此外,我們釋出了一個可擴展的工具箱,用於標準化的可信度研究,旨在促進這一重要領域的未來進步。代碼和資源可在以下網址公開獲得:https://multi-trust.github.io/。
在數位創意領域中,我們往往受到現有數位工具的限制,這些工具要求豐富的專業知識和努力,使我們難以從想像中精細地打造立體的3D世界。為了縮小這種差距,我們引入了CLAY,一個3D幾何和材質生成器,旨在輕鬆將人類想像轉化為精細的3D數位結構。CLAY支援經典文本或圖像輸入,以及來自不同基本元素(多視圖圖像、體素、邊界框、點雲、隱式表示等)的3D感知控制。其核心是由多分辨率變分自編碼器(VAE)和極簡潛在擴散變壓器(DiT)組成的大規模生成模型,可直接從多樣的3D幾何中提取豐富的3D先驗知識。具體而言,它採用神經場來表示連續完整的表面,並在潛在空間中使用純變壓器塊的幾何生成模組。我們提出了一種漸進式訓練方案,通過精心設計的處理流程獲取超大型3D模型數據集來訓練CLAY,從而產生具有15億參數的3D本地幾何生成器。對於外觀生成,CLAY旨在通過採用多視圖材質擴散模型來生成基於物理的渲染(PBR)紋理,可生成具有漫反射、粗糙度和金屬性的2K分辨率紋理。我們展示了使用CLAY進行一系列可控的3D資產創作,從草圖概念設計到具有精細細節的生產就緒資產。即使是首次使用者也可以輕鬆使用CLAY將他們生動的3D想像變為現實,釋放無限創造力。
大型語言模型(LLMs)可以從提示中列出的項目中提供建議缺失的元素,這可用於完成列表或基於用戶歷史的推薦。然而,當它們面對太多項目時,性能會下降,因為它們開始建議已包含在輸入列表中的項目。這在2024年中期旗艦LLMs的情況下大約發生在100個項目左右。我們在合成問題(例如,在打亂的整數範圍中查找缺失的數字)和現實電影推薦情境中評估這一現象。我們將這個問題稱為注意力溢出,因為防止重複需要同時關注所有項目。儘管迭代循環可以緩解這個問題,但它們的成本隨著重複率的增加而增加,影響語言模型從冗長輸入中獲得新穎性的能力。
現有的檢索基準主要包含尋求資訊的查詢(例如從搜索引擎聚合的問題),在這些情況下,基於關鍵字或語義的檢索通常是足夠的。然而,許多複雜的現實世界查詢需要深入推理,以識別超越表面形式匹配的相關文件。例如,為了找到編碼問題的文檔,需要理解所涉函數的邏輯和語法。為了更好地在這些具有挑戰性的查詢上進行檢索基準測試,我們介紹了BRIGHT,這是第一個需要深入推理才能檢索相關文件的文本檢索基準。BRIGHT由從不同領域(如經濟學、心理學、機器人學、軟體工程、地球科學等)收集的1,398個現實世界查詢構建而成,這些查詢來自自然發生或經過精心策劃的人類數據。廣泛的評估顯示,即使是最先進的檢索模型在BRIGHT上表現不佳。在MTEB排行榜上領先的模型[38],在MTEB上達到59.0的nDCG@10分數,在BRIGHT上則產生了18.0的nDCG@10分數。我們進一步展示,通過使用大型語言模型(LLMs)生成的Chain-of-Thought推理來擴充查詢,可以使性能提高多達12.2個點。此外,BRIGHT對於在基準模型預訓練期間的數據洩漏具有魯棒性,我們通過展示即使在訓練數據中包含基準文檔時也表現出類似的性能來進行驗證。我們相信BRIGHT為未來在更現實和具有挑戰性的環境中進行檢索系統研究鋪平了道路。我們的代碼和數據可在https://brightbenchmark.github.io 上獲得。
隨著現代處理器設計日益複雜和成本高昂,導致對處理器設計自動化的需求急劇增加。調整指令的大型語言模型(LLMs)已展示出在自動生成Python等通用程式語言代碼方面的卓越性能。然而,這些方法在硬體描述語言(HDLs)如Verilog上失敗,原因在於缺乏高質量的指令調整數據,即使像GPT-3.5這樣的先進LLMs在Verilog生成方面的表現也受限。針對這個問題,我們觀察到(1)從現實世界中收集的Verilog代碼比LLMs生成的代碼質量更高。 (2)像GPT-3.5這樣的LLMs在總結Verilog代碼方面表現出色,而非生成代碼。基於這些觀察,本文介紹了CodeV,一系列開源的調整指令Verilog生成LLMs。與從先進LLMs首先生成描述,然後獲取相應代碼不同,我們通過多級總結提示LLMs提供Verilog代碼,讓LLMs生成相應的自然語言描述。實驗結果顯示,CodeV在VerilogEval中相對於先前的開源SOTA分別提高了14.4%(VerilogEval中的BetterV)和11.3%(RTLLM中的RTLCoder),並且在VerilogEval中相對於先前的商業SOTA GPT-4提高了22.1%。
在語言建模領域中,搭配檢索組件的模型已經成為解決自然語言處理(NLP)領域中面臨的幾個挑戰的一個有前途的解決方案,包括知識基礎、可解釋性和可擴展性。儘管主要關注於NLP,我們認為檢索增強範式可以擴展到更廣泛的機器學習(ML)領域,如計算機視覺、時間序列預測和計算生物學。因此,本研究通過綜合ML各個領域的文獻,引入了一個正式的框架,稱為檢索增強機器學習(REML),其中包含了一致的符號,這在當前文獻中尚未出現。此外,我們發現,雖然許多研究利用檢索組件來增強其模型,但缺乏與基礎資訊檢索(IR)研究的整合。我們通過研究構成REML框架的每個組件,來彌合這一重要的IR研究和當代REML研究之間的差距。最終,本研究的目標是為各個學科的研究人員提供一個全面、正式結構化的檢索增強模型框架,從而促進跨學科的未來研究。
最近語言模型(LMs)的進步催生了多個基準,旨在評估這些模型的一般能力。然而,一個至關重要的任務是評估這些基準本身的有效性。最常見的方法是通過基準協議測試(BAT)來進行,其中新的基準會使用某種協議度量(例如,排名相關性)來與已建立的基準進行驗證。儘管BAT對於基準構建者和使用者至關重要,但目前尚無標準化的程序進行此類協議測試。這種不足可能導致無效的結論,從而培養對基準的不信任,並破壞正確選擇適當基準的能力。通過分析40多個知名基準,我們展示了一些被忽視的方法選擇如何顯著影響BAT結果,潛在地削弱結論的有效性。為了解決這些不一致性,我們提出了一套BAT最佳實踐,並展示了如何利用這些方法極大地提高了BAT的韌性和有效性。為了促進採用並促進未來研究,我們推出了BenchBench,一個用於BAT的Python套件,並發布了BenchBench排行榜,這是一個設計用於使用同行基準來評估基準的元基準。我們的研究強調了標準化BAT的必要性,確保在語言模型研究不斷發展的格局中基準評估的韌性和有效性。 BenchBench套件:https://github.com/IBM/BenchBench 排行榜:https://huggingface.co/spaces/per/BenchBench
本研究旨在探索利用自然語言處理(NLP)和機器學習(ML)技術來自動編碼醫療信件,並實現可視化的可解釋性和輕量級的本地計算機設置。目前在臨床環境中,編碼是一個手動過程,涉及為患者的文件(例如,使用 SNOMED CT 代碼的 56265001 心臟病)中的每個疾病、程序和藥物分配代碼。在這一領域已有關於使用最先進的 ML 模型進行自動編碼的初步研究;然而,由於模型的複雜性和大小,尚未實現實際部署。為了進一步促進自動編碼實踐的可能性,我們在本地計算機環境中探索了一些解決方案;此外,我們探討了可解釋性功能以提高 AI 模型的透明度。我們使用了公開可用的 MIMIC-III 數據庫和 HAN/HLAN 網絡模型進行 ICD 代碼預測。我們還對 ICD 和 SNOMED CT 知識庫之間的映射進行了實驗。在我們的實驗中,模型為 97.98% 的代碼提供了有用信息。這一研究結果可以為實踐中實現自動臨床編碼提供一些啟示,例如在醫院環境中,醫生使用的本地計算機上,項目頁面 https://github.com/Glenj01/Medical-Coding。
大型語言模型(LLMs)有潛力在某些過程挖掘(PM)分析中實現半自動化。雖然商業模型已經足夠應對許多分析任務,但開源LLMs在PM任務中的競爭水平尚不明確。本文提出了PM-LLM-Benchmark,這是第一個針對PM的全面基準,專注於領域知識(特定於過程挖掘和特定於過程)以及不同的實施策略。我們還關注創建這樣一個基準所面臨的挑戰,包括數據的公開可用性以及LLMs對評估的偏見。總的來說,我們觀察到大多數考慮的LLMs可以在滿意水平上執行一些過程挖掘任務,但在邊緣設備上運行的微型模型仍然不足夠。我們還得出結論,雖然所提出的基準對於確定適合處理過程挖掘任務的LLMs很有用,但需要進一步研究來克服評估偏見,並對競爭LLMs進行更全面的排名。