每日精選AI研究論文及翻譯
大型推理模型(LRMs)如 OpenAI-o1 通過大規模強化學習展示了令人印象深刻的長步驟推理能力。然而,它們的延伸推理過程常常受到知識不足的困擾,導致頻繁的不確定性和潛在的錯誤。為了解決這一限制,我們引入了 Search-o1,一個增強 LRMs 的框架,其中包括一個增強型檢索增強生成(RAG)機制和一個用於精煉檢索文檔的“文檔中的推理”模塊。Search-o1 將一個主動式搜索工作流整合到推理過程中,使 LRMs 在遇到不確定的知識點時能夠動態檢索外部知識。此外,由於檢索文檔的冗長性,我們設計了一個獨立的“文檔中的推理”模塊,在將信息注入推理鏈之前對檢索到的信息進行深入分析,以減少噪音並保持連貫的推理流程。在科學、數學和編碼等複雜推理任務以及六個開放領域問答基準測試中進行了大量實驗,證明了 Search-o1 的強大性能。這種方法增強了 LRMs 在複雜推理任務中的可信度和應用性,為更可靠和多功能的智能系統鋪平了道路。代碼可在 https://github.com/sunnynexus/Search-o1 找到。
有一個廣泛流傳的說法是,生成對抗網絡(GANs)很難訓練,文獻中的GAN架構充斥著經驗性技巧。我們提供證據反駁這一說法,並以更為原則性的方式建立一個現代GAN基線。首先,我們推導出一個行為良好的正則化相對論GAN損失,解決了以往通過一堆臨時技巧來應對的模式丟失和不收斂問題。我們從數學上分析我們的損失並證明它具有局部收斂保證,這與大多數現有的相對論損失不同。其次,我們的新損失使我們能夠放棄所有臨時技巧,並將常見GAN中使用的過時骨幹替換為現代架構。以StyleGAN2為例,我們提出了一個簡化和現代化的路線圖,形成了一個新的極簡主義基線 - R3GAN。儘管簡單,我們的方法在FFHQ、ImageNet、CIFAR和Stacked MNIST數據集上超越了StyleGAN2,並與最先進的GAN和擴散模型相比表現出色。
本文探討了如何使大型語言模型(LLMs)更具人類化的進展。我們專注於增強自然語言理解、對話連貫性和情感智能的技術。該研究評估了各種方法,包括使用多樣化數據集進行微調、納入心理學原則,以及設計更好地模擬人類推理模式的模型。我們的研究結果表明,這些改進不僅提高了用戶互動,還為不同領域的人工智能應用開辟了新的可能性。未來的工作將解決這些人類化特徵引入的道德問題和潛在偏見。
我們從實證角度研究了從影片中進行自回歸預訓練。為了進行我們的研究,我們構建了一系列自回歸影片模型,名為 Toto。我們將影片視為視覺標記的序列,並訓練變壓器模型以自回歸方式預測未來的標記。我們的模型在包含超過 1 兆視覺標記的多樣數據集上進行了預訓練。我們探索了不同的架構、訓練和推理設計選擇。我們在一系列下游任務上評估了所學習的視覺表示,包括圖像識別、影片分類、物體追蹤和機器人技術。我們的結果表明,儘管具有最少的歸納偏差,自回歸預訓練在所有基準測試中都具有競爭力的表現。最後,我們發現,對影片模型進行規模化會導致類似於語言模型中所見的規模化曲線,儘管速率不同。更多詳細信息請參閱 https://brjathu.github.io/toto/
最近在視覺語言模型(VLMs)方面的進展引起了人們對其在自動駕駛中應用的興趣,特別是通過自然語言生成可解釋的駕駛決策。然而,VLMs固有地提供視覺基礎、可靠和可解釋的駕駛解釋這一假設仍然未經深入研究。為了填補這一空白,我們引入了DriveBench,這是一個旨在評估VLM在17個設置(乾淨、損壞和僅文本輸入)中的可靠性的基準數據集,包括19,200幀、20,498個問答對、三種問題類型、四種主流駕駛任務和總共12個熱門VLMs。我們的研究發現,VLMs通常生成合理的回答,這些回答來自於一般知識或文本線索,而非真正的視覺基礎,特別是在視覺輸入受損或缺失的情況下。這種行為被數據集不平衡和不足的評估指標所掩蓋,對於像自動駕駛這樣的安全關鍵場景構成重大風險。我們進一步觀察到,VLMs在多模態推理方面存在困難,對輸入損壞表現出較高的敏感性,導致性能不一致。為了應對這些挑戰,我們提出了精煉的評估指標,優先考慮強大的視覺基礎和多模態理解。此外,我們強調利用VLMs對損壞的感知潛力,以增強它們的可靠性,提供了在現實世界自動駕駛情境中開發更可信賴和可解釋的決策系統的路徑。這個基準工具包是公開可訪問的。
迄今為止,大多數大型視覺語言模型(LVLMs)主要在英文數據上進行訓練,這使它們難以理解非英文輸入並無法生成所需目標語言的輸出。現有的努力通過添加多語言訓練數據來緩解這些問題,但這樣做在很大程度上是臨時應變的,缺乏對不同訓練組合如何影響不同語言群體的洞察。在這項工作中,我們對大規模多語言LVLMs的訓練策略進行了全面調查。首先,我們進行了一系列跨越13個下游視覺語言任務和43種語言的多階段實驗,系統地研究了:(1)可以包含多少訓練語言而不降低英文性能,以及(2)預訓練的最佳語言分佈,以及(3)指導調整數據。此外,我們(4)研究了如何改進多語言文本在圖像中的理解,並為該任務引入了一個新的基準。令人驚訝的是,我們的分析顯示,可以(i)同時包含多達100種訓練語言,(ii)只需25-50%的非英文數據,就可以大大提高多語言性能,同時保持強大的英文性能。我們進一步發現,(iii)在預訓練和指導調整中包含非英文OCR數據對於改善多語言文本在圖像中的理解至關重要。最後,我們將所有發現綜合起來,訓練了Centurio,一個100種語言的LVLM,在涵蓋14個任務和56種語言的評估中提供了最先進的性能。
大型語言模型(LLMs)展示了在各種複雜任務上的卓越能力。LLMs的一個重要應用是應對軟體工程挑戰,特別是通過修復基於用戶報告的問題來解決GitHub上的實際任務。然而,許多當前方法依賴於專有的LLMs,這限制了可重現性、可訪問性和透明度。LLMs解決軟體工程問題的關鍵組件以及如何有效增強其能力仍不清楚。為應對這些挑戰,我們介紹了SWE-Fixer,這是一個新穎的開源LLM,旨在有效且高效地解決GitHub問題。SWE-Fixer包括兩個基本模塊:代碼文件檢索模塊和代碼編輯模塊。檢索模塊採用BM25以及一個輕量級LLM模型實現粗到細的文件檢索。隨後,代碼編輯模塊利用另一個LLM模型為識別的文件生成修補程式。然後,為了彌補公開可用數據集的不足,我們編制了一個包括110K GitHub問題及其相應修補程式的廣泛數據集,並分別訓練了SWE-Fixer的兩個模塊。我們在SWE-Bench Lite和Verified基準上評估我們的方法,分別取得了23.3%和30.2%的最先進性能。這些結果突顯了我們方法的功效。我們將在https://github.com/InternLM/SWE-Fixer 上公開提供我們的模型、數據集和代碼。
最近,視覺自回歸(VAR)模型在圖像生成領域引入了一項突破性進展,通過一種從粗到細的“下一尺度預測”範式提供了可擴展的方法。然而,在[Tian, Jiang, Yuan, Peng和Wang, NeurIPS 2024]中,VAR模型的最新算法需要O(n^4)的時間,這在計算上效率低下。在這項工作中,我們通過一個細粒度的複雜度視角分析了VAR模型的計算限制和效率標準。我們的主要貢獻是確定了VAR計算可以實現次二次時間複雜度的條件。具體來說,我們確立了在VAR注意機制中使用的輸入矩陣範數的臨界閾值。在此閾值之上,假設從細粒度複雜度理論中的強指數時間假設(SETH),對於VAR模型來說,次四次時間算法是不可能的。為了證實我們的理論發現,我們提出了利用低秩近似的高效構造,與所得標準相符。這項工作從理論角度開始研究VAR模型的計算效率。我們的技術將有助於推動VAR框架中可擴展和高效的圖像生成。
專有語言模型的普及引起了關鍵的隱私擔憂,需要在私密推論(PI)方面取得進展,即在不洩漏用戶敏感信息的情況下直接對加密數據執行計算。儘管私密推論提供了一個有前途的解決方案,但其實際部署受到大量通信和延遲開銷的阻礙,主要源於非線性操作。為了解決這個問題,我們引入了一個信息理論框架,來描述解碼器專用語言模型中非線性的作用,為優化針對私密推論需求的Transformer架構奠定了基礎。 通過利用香農熵作為量化指標,我們揭示了非線性的雙重重要性,這是以前未曾探索的:除了確保訓練穩定性外,它們對於保持注意力頭多樣性至關重要。具體而言,我們發現它們的移除會觸發兩種關鍵失敗模式:深層中的「熵崩潰」破壞了訓練,以及早期層中的「熵過載」導致多頭注意力(MHA)表徵能力的低利用率。 我們提出了一種以熵為指導的注意機制,配合一種新穎的熵正則化技術,以減輕熵過載。此外,我們探索了對抗熵崩潰並穩定具有降低非線性的LLM訓練的PI友好替代方案。我們的研究彌合了信息理論和架構設計之間的差距,將熵動力學確立為開發高效PI架構的原則指南。代碼和實現可在以下鏈接找到:https://github.com/Nandan91/entropy-guided-attention-llm{entropy-guided-llm}。
本文介紹了自然語言處理(NLP)歷史土耳其語的基礎資源和模型,這是在計算語言學領域中尚未得到充分探索的領域。我們提出了第一個命名實體識別(NER)數據集 HisTR 和第一個通用依存樹庫 OTA-BOUN,用於土耳其語歷史形式的基於轉換器的模型,這些模型是使用這些數據集進行訓練,用於命名實體識別、依存分析和詞性標記任務。此外,我們還介紹了奧斯曼文本語料庫(OTC),這是一個乾淨的歷史土耳其文本的語料庫,涵蓋了廣泛的歷史時期。我們的實驗結果顯示,在歷史土耳其語的計算分析中取得了顯著的改進,在需要理解歷史語言結構的任務中取得了令人期待的結果。它們還突出了現有的挑戰,例如領域適應和隨時間變化的語言變化。所有提出的資源和模型都可在 https://huggingface.co/bucolin 上獲得,以作為未來歷史土耳其語NLP進展的基準。