每日精選AI研究論文及翻譯
我們提出 rStar-Math 來展示小型語言模型(SLMs)可以在沒有來自優越模型的精煉的情況下,與 OpenAI o1 的數學推理能力相媲美甚至超越。rStar-Math 通過利用蒙特卡洛樹搜索(MCTS)進行“深度思考”,其中數學策略 SLM 通過基於 SLM 的過程獎勵模型引導的測試時間搜索來實現這一目標。rStar-Math 引入了三項創新來應對訓練兩個 SLMs 中的挑戰:(1)一種新穎的代碼增強的 CoT 數據合成方法,通過進行大量 MCTS 展開來生成用於訓練策略 SLM 的逐步驗證推理軌跡;(2)一種新穎的過程獎勵模型訓練方法,避免了天真的步驟級得分標註,產生更有效的過程偏好模型(PPM);(3)一種自我演進的方法,其中策略 SLM 和 PPM 從頭開始構建並逐步演進以提高推理能力。通過對 747k 個數學問題進行 4 輪自我演進,經過數百萬個合成解的 rStar-Math 將 SLMs 的數學推理提升到最先進的水平。在 MATH 基準測試中,它將 Qwen2.5-Math-7B 從 58.8% 提升至 90.0%,將 Phi3-mini-3.8B 從 41.4% 提升至 86.4%,超越 o1-preview 分別達到 +4.5% 和 +0.9%。在美國數學奧林匹克(AIME)中,rStar-Math 平均解決了 53.3%(8/15)的問題,位列最優秀的高中數學學生前 20%。代碼和數據將在 https://github.com/microsoft/rStar 上提供。
我們提出了一個新穎的框架,稱為「元思維鏈」(Meta-CoT),它擴展了傳統的思維鏈(CoT),通過明確地對到達特定思維鏈所需的基礎推理進行建模。我們提出了來自最先進模型的實證證據,展示了符合上下文搜索的行為,並探索通過過程監督、合成數據生成和搜索算法來生成元思維鏈的方法。最後,我們概述了一個具體的流程,用於訓練一個模型來生成元思維鏈,包括將指導調整與線性化搜索軌跡和訓練後的強化學習相結合。最後,我們討論了一些開放性研究問題,包括擴展定律、驗證者角色以及發現新型推理算法的潛力。這項工作提供了一個理論和實踐路線圖,以實現在大型語言模型中的元思維鏈,為人工智能中更強大和更接近人類推理的可能性鋪平了道路。
從歷史來看,科學發現一直是一個漫長且昂貴的過程,從最初的構想到最終結果都需要大量的時間和資源。為了加速科學發現、降低研究成本並提高研究質量,我們引入了Agent Laboratory,這是一個基於自主LLM的框架,能夠完成整個研究過程。該框架接受人類提供的研究想法,並通過三個階段——文獻回顧、實驗和報告撰寫,生成包括代碼庫和研究報告在內的全面研究輸出,同時讓用戶在每個階段提供反饋和指導。我們使用各種最先進的LLM部署Agent Laboratory,並邀請多位研究人員通過參與調查來評估其質量,提供人類反饋以指導研究過程,然後評估最終論文。我們發現:(1)由o1-preview驅動的Agent Laboratory產生了最佳的研究結果;(2)生成的機器學習代碼能夠達到與現有方法相比的最先進性能;(3)人類參與,在每個階段提供反饋,顯著提高了研究的整體質量;(4)Agent Laboratory大幅降低了研究費用,與以往的自主研究方法相比,實現了84%的減少。我們希望Agent Laboratory能讓研究人員將更多精力投入於創意構想,而不是低級編碼和撰寫,從而加速科學發現。
鏈式思維(CoT)推理已被廣泛應用於大型語言模型(LLMs)的數學推理中。最近,在CoT軌跡上引入導數過程監督已引發關於在測試時增強擴展能力的討論,從而提升這些模型的潛力。然而,在多模態數學推理中,高質量CoT訓練數據的稀缺阻礙了現有模型實現高精度的CoT推理,並限制了測試時推理潛力的實現。在這項工作中,我們提出了一種三模塊綜合策略,將CoT蒸餾、軌跡格式重寫和格式統一相結合。這將產生一個高質量的多模態數學CoT推理指導微調數據集MMathCoT-1M。我們全面驗證了訓練過的URSA-7B模型在多個多模態數學基準測試中的最新技術(SOTA)表現。對於測試時擴展,我們引入了一種數據綜合策略,自動生成過程標註數據集,稱為DualMath-1.1M,重點放在解釋和邏輯上。通過在DualMath-1.1M上進一步訓練URSA-7B,我們從CoT推理能力過渡到堅固的監督能力。訓練過的URSA-RM-7B充當驗證器,有效提升了URSA-7B在測試時的表現。URSA-RM-7B還展示了出色的超出分佈(OOD)驗證能力,展示了其泛化能力。模型權重、訓練數據和代碼將開源。
近年來,大型語言模型(LLMs)的快速發展已經改變了科學研究的格局,為研究週期的各個階段提供了前所未有的支持。本文提出了第一份專門探索LLMs如何革新科學研究過程的系統調查。我們分析了LLMs在研究的四個關鍵階段中扮演的獨特角色:假設發現、實驗計劃與實施、科學寫作和同行評審。我們的評論全面展示了任務特定的方法論和評估基準。通過確定當前的挑戰並提出未來的研究方向,這份調查不僅突顯了LLMs的轉型潛力,還旨在激勵和指導研究人員和從業者善用LLMs推動科學探究。相關資源可在以下存儲庫獲得:https://github.com/du-nlp-lab/LLM4SR
以多模式大型語言模型(MLLMs)為動力的圖形用戶界面(GUI)代理已展現出在計算設備(如電腦和手機)上進行任務自動化的巨大潛力。然而,現有代理面臨多步推理和依賴文本標註等挑戰,限制了它們的效能。我們引入了InfiGUIAgent,這是一個基於MLLM的GUI代理,通過兩階段監督微調管道進行訓練。第一階段增強了基本技能,如GUI理解和基礎,而第二階段則使用合成數據集成了階層推理和期望-反思推理技能,從而使代理的本地推理能力得以實現。InfiGUIAgent在多個GUI基準測試中取得了競爭性表現,突顯了本地推理技能對增強GUI互動以進行自動化任務的影響。資源可在https://github.com/Reallm-Labs/InfiGUIAgent找到。
文件檢索技術是發展大規模資訊系統的基礎。目前主流的方法是構建雙編碼器並計算語義相似度。然而,這種標量相似度難以反映足夠的信息,並阻礙我們對檢索結果的理解。此外,這種計算過程主要強調全局語義,忽略了查詢與文檔中複雜文本之間的細粒度語義關係。本文提出了一種名為生成增強檢索(GeAR)的新方法,該方法融合了精心設計的融合和解碼模塊。這使得GeAR能夠基於查詢和文檔的融合表示生成相關文本,從而學習“聚焦”於細粒度信息。此外,作為檢索器使用時,GeAR不會給雙編碼器增加任何計算負擔。為了支持新框架的訓練,我們引入了一個流程,通過利用大型語言模型高效合成高質量數據。GeAR在各種場景和數據集中展現出競爭力的檢索和定位性能。此外,通過GeAR生成的定性分析和結果提供了對檢索結果解釋的新見解。代碼、數據和模型將在完成技術審查後發布,以促進未來研究。
在本文中,我們將精細的3D生成的範疇推進至真正具有創意的領域。目前的方法要麼缺乏細緻的細節,要麼僅僅模仿現有的物體 - 我們實現了兩者兼具。通過將2D細緻理解提升至3D,通過多視圖擴散和將部分潛在因素建模為連續分佈,我們解鎖了通過插值和抽樣生成全新但合理部分的能力。自監督特徵一致性損失進一步確保了這些未曾見過部分的穩定生成。結果是第一個能夠創建具有超越現有示例的物種特定細節的新穎3D物體的系統。雖然我們在鳥類上展示了我們的方法,但基礎框架超越了能夠鳴叫的事物!代碼將在https://github.com/kamwoh/chirpy3d 上發布。
我們研究單張圖像的三維物體重建問題。最近的研究分為兩個方向:基於回歸的建模和生成式建模。回歸方法能有效推斷可見表面,但在被遮擋區域方面表現不佳。生成方法通過建模分佈更好地處理不確定區域,但計算成本高且生成的結果常與可見表面不一致。在本文中,我們提出了SPAR3D,一種新的兩階段方法,旨在兼顧這兩個方向的優勢。SPAR3D的第一階段使用輕量級點擴散模型生成稀疏的三維點雲,具有快速採樣速度。第二階段利用採樣的點雲和輸入圖像創建高度詳細的網格。我們的兩階段設計實現了對單張圖像三維任務的概率建模,同時保持高計算效率和出色的輸出保真度。使用點雲作為中間表示進一步允許互動式用戶編輯。在多樣數據集上評估,SPAR3D展示了優於先前最先進方法的性能,在推理速度為0.7秒。項目頁面連結包含代碼和模型:https://spar3d.github.io
有效的指令調整對於優化程式語言模型代碼、對齊模型行為與使用者期望以及增強模型在實際應用中的性能至關重要。然而,大多數現有方法專注於代碼片段,這些片段僅限於特定功能和嚴格結構,限制了合成數據的複雜性和多樣性。為了解決這些限制,我們引入了一種新穎的基於特徵樹的合成框架,靈感來自於抽象語法樹(AST)。與AST不同,後者捕捉代碼的語法結構,我們的框架模擬代碼元素之間的語義關係,從而實現更微妙和多樣化數據的生成。特徵樹從原始數據構建,並通過迭代進行精煉,以增加提取特徵的數量和多樣性。這個過程使得能夠識別代碼中更複雜的模式和關係。通過採樣具有受控深度和廣度的子樹,我們的框架允許對生成代碼的複雜性進行精確調整,支持從簡單的函數級操作到複雜的多文件情景的廣泛任務。我們對廣泛使用的基本模型進行了微調,創建了EpiCoder系列,並在多個基準測試中實現了功能和文件級別的最新性能。值得注意的是,實證證據表明我們的方法在合成高度複雜的存儲庫級代碼數據方面具有顯著潛力。進一步的分析通過軟體工程原則和LLM作為評判方法,闡明了這種方法的優點,嚴格評估數據的複雜性和多樣性。
大型語言模型(LLMs)的快速崛起開啟了許多應用,但也凸顯了將它們與多樣價值觀和偏好相協調的挑戰。直接偏好優化(DPO)對於協調至關重要,但受到固定差異和有限特徵轉換的限制。我們提出了DPO-Kernels,它融合了核方法來應對這些問題,通過四個關鍵貢獻:(i)使用多項式、RBF、馬氏距離和譜核的核化表示,實現更豐富的轉換,並結合基於嵌入和基於概率的目標的混合損失;(ii)差異替代方案(Jensen-Shannon、Hellinger、Renyi、Bhattacharyya、Wasserstein 和 f-差異)以提高穩定性;(iii)數據驅動的選擇指標,自動選擇最佳的核-差異配對;以及(iv)用於局部精度和全局建模的分層核混合。在12個數據集上的評估顯示,在事實性、安全性、推理和指令遵循方面實現了最先進的性能。基於重尾自正則化的基礎,DPO-Kernels 為LLMs保持了強健的泛化能力,為進一步的協調研究提供了全面的資源。
檢索增強生成(RAG)在部署大型語言模型(LLM)時變得普遍,因為它可以解決典型限制,如生成幻覺或過時信息。然而,在構建真實世界的RAG應用時,會出現實際問題。首先,檢索到的信息通常是特定於領域的。由於對LLM進行微調的計算成本較高,因此更可行的是微調檢索器以提高包含在LLM輸入中的數據質量。其次,隨著更多應用在同一真實世界系統中部署,無法負擔部署獨立的檢索器。此外,這些RAG應用通常檢索不同類型的數據。我們的解決方案是對各種特定於領域的任務進行指導微調小型檢索器編碼器,以使我們能夠部署一個編碼器來滿足許多用例,從而實現低成本、可擴展性和速度。我們展示了這個編碼器如何泛化到跨領域設置,以及在真實企業用例中對未見過的檢索任務的應用。