每日精選AI研究論文及翻譯
長上下文建模對於下一代語言模型至關重要,然而標準注意力機制的高計算成本帶來了顯著的計算挑戰。稀疏注意力提供了一條提升效率同時保持模型能力的有前景的方向。我們提出了NSA,一種原生可訓練的稀疏注意力機制,它將算法創新與硬件對齊的優化相結合,以實現高效的長上下文建模。NSA採用了一種動態分層稀疏策略,結合了粗粒度的令牌壓縮與細粒度的令牌選擇,以保持全局上下文感知和局部精確性。我們的方法在稀疏注意力設計上取得了兩項關鍵創新:(1) 通過算術強度平衡的算法設計,並針對現代硬件進行實現優化,實現了顯著的加速。(2) 我們實現了端到端的訓練,在不犧牲模型性能的情況下減少了預訓練的計算量。如圖1所示,實驗表明,使用NSA預訓練的模型在通用基準測試、長上下文任務和基於指令的推理中保持或超越了全注意力模型。同時,NSA在64k長度序列的解碼、前向傳播和反向傳播上相較於全注意力實現了顯著的加速,驗證了其在模型整個生命週期中的高效性。
我們介紹了 SWE-Lancer,這是一個包含超過 1,400 個來自 Upwork 的自由軟體工程任務的基準,總價值超過 1 百萬美元的實際支付。SWE-Lancer 包括獨立的工程任務,範圍從 50 個錯誤修復到 32,000 美元的功能實現,以及管理任務,其中模型在技術實現提案之間進行選擇。獨立任務通過經驗豐富的軟體工程師三重驗證的端對端測試進行評分,而管理決策則根據最初聘用的工程經理的選擇進行評估。我們評估模型的表現並發現,前沿模型仍無法解決大多數任務。為了促進未來研究,我們開源了一個統一的 Docker 映像檔和一個公共評估分割,SWE-Lancer Diamond(https://github.com/openai/SWELancer-Benchmark)。通過將模型表現映射到金錢價值,我們希望 SWE-Lancer 能夠促進對 AI 模型開發經濟影響的更深入研究。
在人形機器人可靠部署之前,自動恢復站立是一個至關重要的前提條件。由於人形機器人在跌倒後可能處於各種不同的配置,以及預期在具有挑戰性的地形上運行,因此手工設計用於起身的控制器是困難的。本文開發了一個學習框架,以產生控制器,使人形機器人能夠從不同配置和不同地形中起身。與先前成功應用於人形機器人運動學習的應用不同,起身任務涉及複雜的接觸模式,這需要準確建模碰撞幾何和較少的獎勵。我們通過一個遵循課程的兩階段方法來應對這些挑戰。第一階段專注於在對平滑度或速度/扭矩限制最小的情況下發現良好的起身軌跡。然後,第二階段將發現的動作精煉為可部署(即平滑且緩慢)的動作,對初始配置和地形的變化具有韌性。我們發現這些創新使得真實世界中的 G1 人形機器人能夠從我們考慮的兩個主要情況中起身:a)仰臥和b)俯臥,均在平坦、可變形、滑溜的表面和斜坡(例如斜坡草地和雪地)上進行測試。據我們所知,這是在真實世界中首次成功展示了人形機器人學習起身策略的示例。項目頁面:https://humanoid-getup.github.io/
本文提出了一種名為ThinkDiff的新穎對齊範式,該範式通過整合視覺語言模型(VLMs)的優勢,賦予文本到圖像擴散模型多模態上下文理解與推理能力。現有的多模態擴散微調方法主要集中於像素級重建而非上下文推理,且受限於基於推理的數據集的複雜性和有限可用性。ThinkDiff通過將視覺語言訓練作為代理任務來應對這些挑戰,將VLMs與編碼器-解碼器大型語言模型(LLM)的解碼器對齊,而非擴散解碼器。這一代理任務基於以下觀察:LLM解碼器與使用相應LLM編碼器進行提示嵌入的擴散解碼器共享相同的輸入特徵空間。因此,通過與LLM解碼器對齊,可以簡化VLMs與擴散解碼器的對齊過程。無需複雜的訓練和數據集,ThinkDiff有效釋放了擴散模型中的理解、推理和組合能力。實驗表明,ThinkDiff在具有挑戰性的多模態上下文推理生成基準CoBSAT上,僅在4塊A100 GPU上訓練5小時,就將準確率從19.2%顯著提升至46.3%。此外,ThinkDiff在將多個圖像和文本組合成邏輯連貫的圖像方面展現出卓越性能。項目頁面:https://mizhenxing.github.io/ThinkDiff。
目前針對大型語言模型的遺忘方法通常依賴反向優化來降低目標標記機率。然而,這種範式會干擾後續標記的預測,降低模型性能和語言連貫性。此外,現有的評估指標過分強調情境遺忘,同時未能充分評估回應流暢度和相關性。為應對這些挑戰,我們提出了 ReLearn,這是一個用於有效遺忘的數據擴增和微調流程,以及一個全面的評估框架。該框架引入了知識遺忘率(KFR)和知識保留率(KRR)來衡量知識級別的保留,以及語言分數(LS)來評估生成質量。我們的實驗表明,ReLearn 成功實現了有針對性的遺忘,同時保留了高質量的輸出。通過機制分析,我們進一步展示了反向優化如何干擾連貫文本生成,而 ReLearn 保留了這一基本能力。代碼可在 https://github.com/zjunlp/unlearn 找到。
儘管大型語言模型(LLMs)在知識密集任務中具有卓越的能力,但它們在理解如何內化新知識,特別是如何在神經計算中結構性地嵌入獲得的知識方面存在一個關鍵差距。我們通過知識電路演化的角度來解決這個問題,識別促進知識存儲和處理的計算子圖。我們對持續預訓練期間電路演化的系統分析揭示了幾個關鍵發現:(1)新知識的獲取受其與現有知識的相關性影響;(2)知識電路的演化展現出從形成到優化的明顯相位轉變;(3)知識電路的演化遵循深到淺的模式。這些見解不僅推動了我們對LLMs中新知識獲取機制的理論理解,還為改進持續預訓練策略以提高模型性能提供了潛在啟示。代碼和數據將在https://github.com/zjunlp/DynamicKnowledgeCircuits 上提供。
程式碼生成、符號數學推理和其他任務需要LLMs產生既符法又語義正確的輸出。受限LLM生成是一個有前途的方向,可以強制遵守正式語法,但先前的研究實證觀察到,對正式約束的嚴格執行通常會降低LLMs的推理能力。在這項工作中,我們首先提供了一個理論解釋,解釋為什麼將LLM輸出限制在只允許語法上有效的最終答案的非常嚴格語法會降低模型的推理能力。其次,我們展示了通過精心設計附加規則來擴充輸出語法,始終可以保留LLM的推理能力,同時確保其輸出的語法和語義正確。基於這些理論見解,我們提出了一種推理增強的受限解碼算法CRANE,有效平衡了受限生成的正確性和非受限生成的靈活性。在多個開源LLMs和基準測試上的實驗表明,CRANE明顯優於最先進的受限解碼策略和標準的非受限解碼,在具有挑戰性的符號推理基準測試GSM-symbolic和FOLIO上,準確度比基準線提高了高達10個百分點。
我們研究了在自然影片中預測遮罩區域的通用深度神經網路模型,其直覺物理理解能力的形成。利用違反期望框架,我們發現訓練於預測學習表示空間中結果的影片預測模型,展現了對多種直覺物理特性的理解,如物體恆存性與形狀一致性。相比之下,在像素空間進行的影片預測以及通過文本推理的多模態大型語言模型,其表現更接近隨機猜測。我們對這些架構的比較揭示,聯合學習一個抽象表示空間同時預測感官輸入的缺失部分,類似於預測編碼,足以獲得對直覺物理的理解,並且即使僅訓練於一週獨特影片的模型也能達到超越隨機的表現。這挑戰了核心知識——一套幫助理解世界的先天系統——需要被硬編碼才能發展出直覺物理理解的觀點。
指令層級結構,從系統訊息到用戶訊息、對話歷史及工具輸出,確立了優先順序,對於確保語言模型(LMs)行為的一致性和安全性至關重要。儘管其重要性不言而喻,這一主題卻鮮少受到關注,且缺乏全面評估模型遵循指令層級能力的基準測試。我們通過引入IHEval填補了這一空白,這是一個包含3,538個範例、涵蓋九項任務的新穎基準,這些任務涉及不同優先級指令間既協調又衝突的情況。對主流LMs的評估揭示出它們在識別指令優先級上的困境。所有被評估的模型在面對衝突指令時,相比於其原有的指令遵循表現,均出現了顯著的性能下降。此外,最具競爭力的開源模型在解決此類衝突時僅達到了48%的準確率。我們的結果凸顯了在未來LMs開發中進行針對性優化的必要性。
Sailor2 是一系列針對東南亞(SEA)語言的尖端多語言模型,提供 1B、8B 和 20B 三種規模,以滿足多樣化的應用需求。基於 Qwen2.5 的基礎,Sailor2 經過了 5000 億詞元(其中 4000 億為 SEA 專用詞元,1000 億為重放詞元)的持續預訓練,支援 13 種 SEA 語言,同時保持對中文和英文的熟練度。Sailor2-20B 模型在 SEA 語言上與 GPT-4o 的對比中達到了 50-50 的勝率。我們還提供了一份全面的指南,詳細介紹如何高效開發多語言模型,涵蓋數據整理、預訓練、後訓練、模型定制和評估五個關鍵方面。我們希望 Sailor2 模型(採用 Apache 2.0 許可證)能推動 SEA 地區的語言發展,而 Sailor2 指南則能激勵研究人員為其他未被充分服務的語言構建更具包容性的大型語言模型。
大型語言模型(LLMs)由於依賴於靜態訓練數據,常面臨幻覺和知識過時的問題。檢索增強生成(RAG)通過整合外部動態信息來緩解這些問題,從而增強事實性和時效性。近年來,多模態學習的進展促進了多模態RAG的發展,該技術融合了文本、圖像、音頻和視頻等多種模態,以提升生成內容的質量。然而,跨模態對齊與推理為多模態RAG帶來了獨特的挑戰,使其有別於傳統的單模態RAG。本調查對多模態RAG系統進行了結構化且全面的分析,涵蓋了數據集、指標、基準、評估方法、以及檢索、融合、增強和生成等方面的創新。我們詳細審視了訓練策略、魯棒性增強和損失函數,同時探討了多模態RAG的各種應用場景。此外,我們還討論了該領域的開放性挑戰和未來研究方向,以支持這一不斷發展領域的進步。本調查為開發更強大、更可靠的AI系統奠定了基礎,這些系統能有效利用多模態動態外部知識庫。相關資源可於https://github.com/llm-lab-org/Multimodal-RAG-Survey獲取。
自回歸範式的卓越成功在多模式大型語言模型(MLLMs)方面取得了重大進展,強大的模型如Show-o、Transfusion和Emu3在統一的圖像理解和生成方面取得了顯著進步。我們首次揭示了一個共同現象:MLLMs的理解能力通常強於生成能力,兩者之間存在顯著差距。基於這一洞察,我們提出了HermesFlow,這是一個簡單而通用的框架,旨在無縫地彌合MLLMs中理解和生成之間的差距。具體而言,我們將同源數據作為輸入,以編輯理解和生成的同源偏好數據。通過Pair-DPO和自我對弈迭代優化,HermesFlow有效地使用同源偏好數據對齊多模式理解和生成。大量實驗證明了我們方法相對於先前方法的顯著優越性,特別是在縮小多模式理解和生成之間差距方面。這些發現突顯了HermesFlow作為下一代多模式基礎模型的通用對齊框架的潛力。程式碼:https://github.com/Gen-Verse/HermesFlow
我們提出了「擴散-銳化」(Diffusion-Sharpening)的微調方法,通過優化採樣軌跡來增強下游對齊。現有基於強化學習的微調方法專注於單個訓練時間步,忽略了軌跡級別的對齊,而最近的採樣軌跡優化方法則帶來了顯著的推論 NFE 成本。擴散-銳化通過使用路徑積分框架在訓練期間選擇最佳軌跡,利用獎勵反饋並攤銷推論成本來克服這一問題。我們的方法展示了卓越的訓練效率,收斂速度更快,並且在不需要額外 NFE 的情況下實現了最佳推論效率。大量實驗表明,擴散-銳化在文本對齊、組合能力和人類偏好等多個指標上優於基於強化學習的微調方法(例如 Diffusion-DPO)和採樣軌跡優化方法(例如 Inference Scaling),為未來擴散模型微調提供了一個可擴展且高效的解決方案。代碼:https://github.com/Gen-Verse/Diffusion-Sharpening
系統訊息在與大型語言模型(LLMs)互動中扮演著至關重要的角色,通常作為啟動對話的提示。透過系統訊息,使用者可以指定特定角色、執行預期任務、整合背景資訊、指定各種輸出格式和溝通風格。儘管具有如此多樣性,公開可用的數據通常缺乏系統訊息,並受到行業領域嚴格的許可限制。將公開可用的數據手動標記上符合使用者指示的系統訊息需要大量資源。鑑於這些挑戰,我們的工作引入了SysGen,一個從帶有系統訊息的監督微調數據集中生成更好對齊助理回應的流程。在SysGen數據上進行訓練已經顯示出模型回應與系統訊息和使用者指示之間對齊程度的顯著提升,這在Multifacet基準測試中的各種開源模型上得到了證明,同時對其他未見基準測試(如Open LLM Leaderboard 2)的影響最小。我們的定性分析凸顯了多樣的系統訊息對確保在不同情境下更好地適應的重要性。
最近在基於LLM的多智能體(LLM-MA)系統方面取得了一些進展,但在智能體協作處理複雜任務時,仍存在著重大挑戰,特別是在管理溝通和改進方面。本文提出了一個名為「結構化對話,階層化行動」(TalkHier)的新框架,該框架引入了一個結構化通訊協議,用於豐富上下文的交流,以及一個階層化改進系統,以應對不正確的輸出、虛假信息和偏見等問題。TalkHier在各種任務上超越了各種類型的最先進技術,包括推理擴展模型(OpenAI-o1)、開源多智能體模型(例如AgentVerse)和當前LLM和單智能體基準(例如ReAct、GPT4o)上的多數投票策略,這些任務包括開放領域問答、特定領域的選擇性提問和實用廣告文本生成。這些結果突顯了其為LLM-MA系統設定新標準的潛力,為更有效、適應性強且協作性強的多智能體框架鋪平了道路。代碼可在https://github.com/sony/talkhier找到。
近期,大型多模态模型(LMMs)的成功催生了能够自主完成复杂网络任务的智能代理的广泛应用。尽管开源LMM代理在离线评估基准上取得了显著进展,但在更贴近实际的在线环境中,其性能仍远未达到人类水平。一个关键瓶颈在于缺乏跨多个领域的多样化、大规模轨迹级数据集,而这类数据的收集成本高昂。本文通过开发一种可扩展的方法,合成了迄今为止最大且最多样化的轨迹级数据集,包含超过94,000条成功的多模态网络轨迹,涵盖49,000个唯一URL、720,000张截图及3,300万个网页元素。特别地,我们利用广泛的网络探索与优化来获取多样化的任务意图。每条成功轨迹的平均成本仅为28美分,使其对社区内的广大用户而言经济实惠。基于此数据集,我们训练了Explorer,一个多模态网络代理,并在Mind2Web-Live、Multimodal-Mind2Web及MiniWob++等离线与在线网络代理基准测试中展现了强劲性能。此外,我们的实验强调了数据规模作为提升网络代理能力的关键驱动力。我们期望本研究能推动更大规模基于LMM的先进代理研究更加普及。
儘管在人工評估中取得了近乎完美的結果,模型編輯在實際應用中的有效性仍未被探索。為彌補這一差距,我們提出在問答系統(QA)中研究模型編輯,建立嚴格的評估實踐來衡量編輯方法在修正大型語言模型(LLMs)錯誤方面的效果。這包括QAEdit,一個源自流行QA數據集的新基準,以及一個標準化的評估框架。我們的單次編輯實驗表明,當前的編輯方法表現遠低於先前報告的水平(38.5% vs. ~96%)。通過模塊分析和對照實驗,我們證明這種性能下降源於先前編輯研究評估實踐中的問題。一個關鍵問題是在測試中不當使用教師強制,通過輸入真實標記(在現實場景中無法獲得)來防止錯誤傳播。此外,我們通過連續編輯模擬了實際部署情況,發現現有方法在僅進行1000次編輯後便急劇失效。我們的分析對現有模型編輯方法的實際應用性及其評估實踐進行了根本性的重新審視,並建立了一個嚴格的評估框架,提供了關鍵見解以推動可靠且實用的模型編輯研究。
大型語言模型(LLMs)在與程式碼相關的任務中展現出卓越的能力,如程式碼理解和程式碼生成。然而,一個同等重要但尚未深入探討的問題是,LLMs是否可以作為通用的代碼執行器,預測程序的輸出和行為,而無需實際運行它。為了系統地研究這種能力,我們引入了SURGE,一個包含八個關鍵方面的全面基準測試:多語言編程任務、競賽級別的編程問題、存儲庫級別的代碼分析、高成本科學計算、時間複雜度密集型算法、錯誤代碼分析、依賴於特定編譯器或執行環境的程序,以及正式數學證明驗證。我們在SURGE上評估了多個開源和專有LLMs,並進行了一項規模研究,分析模型大小和訓練數據規模對代碼執行準確性的影響。此外,我們對模型預測錯誤進行分類,並探索潛在的改進領域。我們的研究結果表明,雖然LLMs在某些情況下可以預測代碼執行結果,但在通用代碼執行方面存在局限性。本研究提供了使用LLMs作為代碼執行器的可行性的實證見解。代碼和數據集已在https://github.com/Imbernoulli/SURGE上發布。
隨著三維內容創作的爆炸式增長,對於將靜態三維模型自動轉換為支持逼真動畫的關節化版本的需求日益增加。傳統方法嚴重依賴於手動標註,這既耗時又耗力。此外,大規模基準數據集的缺乏阻礙了基於學習的解決方案的發展。在本研究中,我們提出了MagicArticulate,這是一個有效的框架,能夠自動將靜態三維模型轉化為關節化資源。我們的主要貢獻有三方面。首先,我們引入了Articulation-XL,這是一個大規模基準數據集,包含超過33,000個帶有高質量關節標註的三維模型,這些模型是從Objaverse-XL中精心挑選的。其次,我們提出了一種新穎的骨架生成方法,將該任務表述為序列建模問題,利用自迴歸變換器來自然處理骨架中不同數量的骨骼或關節及其在不同三維模型之間的固有依賴關係。第三,我們使用功能性擴散過程來預測蒙皮權重,該過程結合了頂點與關節之間的體積測地距離先驗。大量實驗表明,MagicArticulate在多樣化的物體類別上顯著優於現有方法,實現了能夠支持逼真動畫的高質量關節化。項目頁面:https://chaoyuesong.github.io/MagicArticulate。
最近推理優化方面的進展顯著增強了大型語言模型(LLMs)的能力,然而現有的改進推理的努力僅限於解決數學問題和專注於視覺圖形輸入,忽略了在一般視頻理解方面的更廣泛應用。本文提出了video-SALMONN-o1,這是第一個針對一般視頻理解任務設計的開源推理增強型音視覺LLM。為了增強其推理能力,我們開發了一個推理密集型數據集,其中包含具有挑戰性的音視覺問題及逐步解決方案。我們還提出了過程直接偏好優化(pDPO),利用對比步驟選擇來實現針對多模態輸入的高效步驟級獎勵建模。此外,我們引入了RivaBench,這是第一個推理密集型視頻理解基準,包括超過4,000個高質量、專家精心策劃的問答對,涵蓋諸如脫口秀喜劇、學術演講和合成視頻檢測等場景。video-SALMONN-o1在不同視頻推理基準測試中相對於LLaVA-OneVision基線實現了3-8%的準確度改進。此外,pDPO在RivaBench上相對於監督微調模型實現了6-8%的改進。增強的推理使得video-SALMONN-o1具有零樣本合成視頻檢測能力。
本文提出了一種新穎的訓練目標——模型引導(Model-guidance, MG),旨在解決並取代目前廣泛使用的無分類器引導(Classifier-free guidance, CFG)。我們的創新方法超越了僅對數據分佈進行建模的標準做法,轉而將條件後驗概率納入考量。該技術源自CFG的理念,既簡便又高效,可作為即插即用模塊應用於現有模型。我們的方法顯著加速了訓練過程,使推理速度翻倍,並達到了與甚至超越當前採用CFG的擴散模型相媲美的卓越質量。大量實驗證明了該方法在不同模型和數據集上的有效性、效率及可擴展性。最終,我們在ImageNet 256基準測試中取得了1.34的FID值,創下了最新記錄。代碼已開源於https://github.com/tzco/Diffusion-wo-CFG。
大型語言模型在多個領域展現出卓越的能力,尤其是在數學和邏輯推理方面。然而,目前的評估忽略了基於物理的推理——這是一項需要物理定理和約束的複雜任務。我們提出了PhysReason,一個包含1,200道問題的基準測試,其中知識型問題佔25%,推理型問題佔75%,後者又分為三個難度級別(簡單、中等、困難)。值得注意的是,這些問題平均需要8.1個解題步驟,而困難問題則需要15.6個步驟,反映了基於物理推理的複雜性。我們提出了物理解題自動評分框架,結合了高效的答案級評估和全面的步驟級評估。表現最佳的模型如Deepseek-R1、Gemini-2.0-Flash-Thinking和o3-mini-high在答案級評估中的得分不到60%,且從知識型問題(75.11%)到困難問題(31.95%)的表現逐漸下降。通過步驟級評估,我們識別了四個關鍵瓶頸:物理定理應用、物理過程理解、計算和物理條件分析。這些發現使PhysReason成為評估大型語言模型基於物理推理能力的新穎且全面的基準。我們的代碼和數據將發佈於https://dxzxy12138.github.io/PhysReason。
Text-to-SQL 旨在將自然語言問題轉換為可執行的 SQL 查詢。雖然先前的方法,如骨架遮罩選擇,通過檢索類似的訓練示例來引導大型語言模型(LLMs),已經展示出強大的性能,但在現實情況下,這些示例不可用時,它們會遇到困難。為了克服這一限制,我們提出了一種名為「自我增強上下文學習與精細篩選示例的 Text-to-SQL(SAFE-SQL)」的新框架,通過生成和篩選自我增強示例來改進 SQL 生成。SAFE-SQL 首先提示一個LLM生成多個與測試輸入相關的 Text-to-SQL 示例。然後,SAFE-SQL 通過三個相關性評估篩選這些示例,構建高質量的上下文學習示例。使用自生成的示例,SAFE-SQL 超越了先前的零-shot 和少-shot Text-to-SQL 框架,實現更高的執行準確性。值得注意的是,我們的方法在額外困難和未知情況下提供了額外的性能增益,而傳統方法通常失敗。
我們提出Dyve,這是一個動態過程驗證器,它通過整合快速與慢速思維來增強大型語言模型中的推理錯誤檢測,其靈感來自卡尼曼的系統理論。Dyve自適應地應用即時詞元級確認的系統1來處理簡單步驟,並運用全面分析的系統2來應對複雜情況。借助一種新穎的逐步共識過濾過程監督技術,該技術結合了蒙特卡羅估計與基於LLM的評估,Dyve從噪聲數據中提煉出高質量的監督信號。在ProcessBench和MATH數據集上的實驗結果證實,Dyve顯著優於現有的基於過程的驗證器,並在最佳N選設置中提升了性能。
潛在生成模型已成為高質量圖像合成的主要方法。這些模型依賴於自動編碼器將圖像壓縮到潛在空間,然後由生成模型學習潛在分佈。我們發現現有的自動編碼器缺乏對語義保持變換(如縮放和旋轉)的等變性,導致潛在空間複雜,從而阻礙生成性能。為解決這一問題,我們提出了EQ-VAE,這是一種簡單的正則化方法,可在不降低重建質量的情況下強制潛在空間的等變性,從而降低其複雜性。通過使用EQ-VAE微調預訓練的自動編碼器,我們提升了多種最先進生成模型的性能,包括DiT、SiT、REPA和MaskGIT,僅需五個epoch的SD-VAE微調即可在DiT-XL/2上實現7倍加速。EQ-VAE兼容連續和離散的自動編碼器,因此為廣泛的潛在生成模型提供了多功能的增強。項目頁面和代碼:https://eq-vae.github.io/。
利用數學大型語言模型(LLMs)進行證明生成是LLMs研究中的基本主題。我們認為當前LLMs證明陳述的能力很大程度上取決於它們在訓練過程中是否遇到相應的證明過程。這種依賴限制了它們對數學定理及相關概念的深入理解。受到人類數學教育中常用的“反例證明”教學方法的啟發,我們的工作旨在通過反例來增強LLMs進行數學推理和證明的能力。具體而言,我們手動創建了一個高質量的大學水平數學基準CounterMATH,要求LLMs通過提供反例來證明數學陳述,從而評估它們對數學概念的掌握。此外,我們開發了一個數據工程框架,以自動獲取訓練數據以進一步改進模型。廣泛的實驗和詳細的分析表明CounterMATH具有挑戰性,表明像OpenAI o1這樣的LLMs在反例驅動的證明能力方面不足。此外,我們對模型訓練的探索顯示,加強LLMs的反例驅動概念推理能力對於提高它們的整體數學能力至關重要。我們相信我們的工作為數學LLMs社區提供了新的視角。
現有的語言模型在證明導向編程方面遇到困難,主要是由於數據稀缺,這表現在兩個關鍵方面:(1) 缺乏足夠的語料庫,用於證明導向編程語言,如 F*;以及 (2) 缺乏大規模的、項目級的證明導向實現,這可以教導模型在執行證明導向編程時進行複雜的推理過程。我們提出了第一個針對項目級證明導向編程的合成數據增強方法,用於生成和修復。我們的方法通過合成基本的證明導向編程問題,以提高對該語言的熟練程度;將多樣化的編碼數據納入推理能力的引發,並在現有存儲庫中創建新的證明和修復數據。這種方法使語言模型能夠為功能和存儲庫級別的代碼合成和修復證明。我們展示了我們微調的 140 億參數模型 PoPilot,可以超越在項目級證明導向編程方面表現優於 GPT-4o 的模型,相對邊際提高了 64%,並且通過修復其輸出,可以將 GPT-4o 的性能提高 54%。
為培育先進的大型語言模型(LLMs),已精心準備了大量高質量的數據,包括預訓練的原始文本和後訓練的標註。相比之下,對於信息提取(IE),很難擴展的是預訓練數據,例如BIO標記的序列。我們展示了IE模型可以利用LLM資源作為免費騎手,將下一個令牌預測重新定義為提取已存在於上下文中的令牌。具體來說,我們提出的下一個令牌提取(NTE)範式學習了一個多功能的IE模型,名為Cuckoo,其中包含從LLM的預訓練和後訓練數據轉換而來的1.026億提取數據。在少樣本設置下,Cuckoo能夠有效地適應傳統和複雜的指令跟隨IE,並且表現優於現有的預訓練IE模型。作為一個免費騎手,Cuckoo可以自然地隨著LLM數據準備的不斷改進而演變,從LLM訓練管道的改進中受益,而無需額外的手動努力。
記憶對於使智慧體能夠處理具有時空依賴性的複雜任務至關重要。雖然許多強化學習(RL)算法都融入了記憶機制,但該領域仍缺乏一個通用基準來評估智慧體在各種情境下的記憶能力。這一不足在桌面機器人操作中尤為明顯,在該領域,記憶對於解決部分可觀測性任務和確保穩健性能至關重要,然而目前尚無標準化的基準測試。為此,我們推出了MIKASA(記憶密集型技能評估套件),這是一個全面的記憶強化學習基準,具有三大貢獻:(1) 我們提出了一個記憶密集型強化學習任務的綜合分類框架,(2) 我們收集了MIKASA-Base——一個統一的基準,支持在不同場景下系統性地評估增強記憶的智慧體,以及(3) 我們開發了MIKASA-Robo——一個包含32個精心設計的記憶密集型任務的新基準,用於評估桌面機器人操作中的記憶能力。我們的貢獻為推進記憶強化學習研究建立了一個統一框架,推動了更可靠系統在實際應用中的發展。相關代碼可在https://sites.google.com/view/memorybenchrobots/獲取。
具備API調用能力的大型語言模型(LLMs)不僅促成了高效語言代理(LA)的構建,也徹底革新了傳統的任務導向對話(TOD)範式。然而,當前方法面臨一個關鍵困境:TOD系統通常僅在有限的目標API集上進行訓練,需新增數據以維持其與新服務交互時的品質;而LA則未經訓練以在多輪對話中保持用戶意圖。鑑於穩健的多輪對話管理與高級函數調用對於高效對話代理至關重要,我們在三個主流基準測試上評估了這些能力:MultiWOZ 2.4(TOD)、BFCL V3(LA)及API-Bank(LA),分析結果顯示,專精於某一領域的方法在另一領域表現欠佳。為彌合此鴻溝,我們提出了CALM(會話式代理語言模型),一種融合對話與代理能力的統一方法。我們創建了CALM-IT,這是一個精心構建的多任務數據集,其中交織了多輪ReAct推理與複雜API使用。利用CALM-IT,我們訓練了三個模型——CALM 8B、CALM 70B及CALM 405B,它們在所有三個基準測試上均超越了包括GPT-4o在內的頂尖領域專用模型。
本研究介紹了ILIAS,一個用於大規模實例級圖像檢索的新測試數據集。該數據集旨在評估當前及未來基礎模型與檢索技術在識別特定物體方面的能力。相比現有數據集,ILIAS的主要優勢包括大規模、領域多樣性、精確的真實標註,以及遠未飽和的性能表現。ILIAS包含1,000個物體實例的查詢圖像和正樣本圖像,這些圖像均為手動收集,以捕捉具有挑戰性的條件和多樣化的領域。大規模檢索是針對來自YFCC100M的1億張干擾圖像進行的。為了避免假陰性而無需額外標註工作,我們僅包含確認在2014年(即YFCC100M的編譯日期)之後出現的查詢物體。我們進行了廣泛的基準測試,並得出以下觀察:i) 在特定領域(如地標或產品)上微調的模型在該領域表現出色,但在ILIAS上表現不佳;ii) 使用多領域類別監督學習線性適應層能帶來性能提升,尤其是對視覺-語言模型;iii) 在檢索重排序中,局部描述符仍然是關鍵要素,特別是在存在嚴重背景雜亂的情況下;iv) 視覺-語言基礎模型的文本到圖像性能與相應的圖像到圖像案例驚人地接近。網站:https://vrg.fel.cvut.cz/ilias/
大型語言模型與生成式人工智慧在網路媒體中的普及,加劇了對有效自動化事實查核的需求,以協助事實查核員應對日益增加且複雜的錯誤資訊。事實查核的複雜性要求自動化事實查核系統提供解釋,使事實查核員能夠審查其輸出結果。然而,這些解釋應如何與事實查核員的決策和推理過程保持一致,以便有效整合到其工作流程中,目前尚不明確。透過與事實查核專業人員的半結構化訪談,我們彌合了這一差距,具體做法包括:(i) 描述事實查核員如何評估證據、做出決策並解釋其過程;(ii) 探討事實查核員在實踐中如何使用自動化工具;以及 (iii) 確定事實查核員對自動化事實查核工具的解釋需求。研究結果顯示了未滿足的解釋需求,並指出了可重複事實查核解釋的重要標準,這些解釋應追蹤模型的推理路徑、引用具體證據,並突出不確定性和資訊缺口。
本文探討了大型語言模型(LLMs)在50個新建立的高中級單詞問題中的數學推理能力。與先前僅關注答案正確性的研究不同,我們嚴格分析最終答案和解題步驟,以確定推理失敗。評估了包括Mixtral、Llama、Gemini、GPT-4o和OpenAI的o1變體在內的八種最先進模型,我們發現,雖然新模型(例如o3-mini、deepseek-r1)實現了更高的準確性,但所有模型都存在空間推理、戰略規劃和算術方面的錯誤,有時通過錯誤的邏輯產生正確答案。常見的失敗模式包括毫無根據的假設、過度依賴數字模式和難以將物理直覺轉化為數學步驟。手動分析顯示,模型在需要多步推斷或現實世界知識的問題上遇到困難,儘管具有廣泛的數學知識。我們的結果強調了評估推理過程的重要性,而不僅僅是答案,並警告不要高估LLMs的解決問題能力。該研究突出了LLMs在泛化能力方面存在的持續差距,強調了有必要針對結構化推理和約束處理進行有針對性的改進。
本文挑戰了近期原子屬性預測領域中將進展與日益增長的數據集規模和計算資源相連結的範式。我們證明,在精心挑選、與任務相關的數據集上進行預訓練,不僅能匹配甚至超越大規模預訓練的效果,同時僅需使用1/24的計算成本。我們引入了化學相似性指數(CSI),這是一種受計算機視覺中Fr\'echet Inception Distance啟發的新指標,用於量化分子圖譜的上游預訓練數據集與下游任務之間的對齊程度。通過選擇CSI距離最小的最相關數據集,我們展示了在較小、聚焦的數據集上預訓練的模型,其表現始終優於在如JMP等大規模混合數據集上預訓練的模型,即便這些大型數據集包含了相關數據。反直覺的是,我們還發現,當額外數據與手頭任務對齊不佳時,不加選擇地增加數據反而會降低模型性能。我們的研究結果強調,在原子屬性預測的預訓練中,質量往往勝過數量。
影響函數為模型訓練提供了關鍵洞察,但現有方法存在計算成本高和泛化能力有限的問題。特別是,近期研究提出了多種利用語言模型計算數據影響的指標和算法,這些方法在處理大型模型和數據集時難以擴展。這是由於計算過程中需要進行昂貴的前向和反向傳播、存儲大型模型所需的大量內存,以及影響估計對新數據的泛化能力較差。本文探討了使用小型神經網絡——我們稱之為影響網絡(InfluenceNetwork)——來估計影響值,實現了高達99%的成本降低。我們的評估表明,僅需使用完整語言模型(我們使用7B和8B版本)0.0027%大小的模型即可估計影響值。我們將估計影響值的算法(稱為NN-CIFT:用於高效指令微調的神經網絡)應用於通用指令微調的子集選擇下游任務。在研究中,我們納入了四種最先進的影響函數,並展示了NN-CIFT與原始影響函數在性能上無妥協,儘管速度大幅提升。我們提供了NN-CIFT的深入超參數分析。我們方法的代碼可在此處找到:https://github.com/agarwalishika/NN-CIFT。
儘管大型語言模型(LLMs)展現了卓越的能力,但其學習到的詞語表徵卻呈現出一個不良且尚不為人充分理解的特徵——各向異性。本文提出,Adam優化器中的第二動量是導致嵌入向量各向異性的原因之一,並建議採用一種名為耦合Adam(Coupled Adam)的改進優化器來緩解這一問題。實驗結果表明,耦合Adam顯著提升了嵌入向量的質量,同時在足夠大的數據集上,也能帶來更好的上游與下游任務性能。
大型語言模型(LLMs)在自然語言生成方面取得了顯著進展,但在需要精確計算和結構分析的任務中常常面臨挑戰。本文通過計算 LIX 可讀性指標和平均依存距離(ADD),研究了最先進的LLMs在語言複雜度測量任務上的表現。我們使用瑞典高中和大學水平的文章,評估模型計算LIX分數和執行依存分析的能力,並將其結果與已建立的基準進行比較。我們的研究發現,儘管所有模型都展示了一定的這些任務能力,但 ChatGPT-o1-mini 表現最為一致,無論是在 LIX 計算還是依存分析方面都取得了最高的準確性。此外,我們觀察到在計算LIX的準確性和模型在 Massive Multitask Language Understanding(MMLU)基準測試中的整體表現之間存在著強烈的顯著負相關-0.875 p 0.026(N=6)。這些結果表明,語言複雜度測量能力可以作為評估LLMs整體能力的一種噪聲零樣本代理,為模型評估提供了一種實用方法,無需大量基準測試數據集。
偵測由大型語言模型(LLMs)生成的文本可能導致嚴重錯誤,例如損害學生的學術尊嚴,這源於錯誤的判斷。因此,LLM文本檢測需確保決策的可解釋性,以幫助用戶判斷其預測的可靠性。當人類驗證一段文本是人類撰寫還是LLM生成時,他們會直覺地探究該文本與哪一方共享更多相似的片段。然而,現有的可解釋檢測器並未與人類的決策過程對齊,未能提供用戶易於理解的證據。為彌合這一差距,我們引入了ExaGPT,這是一種基於人類決策過程的可解釋檢測方法,用於驗證文本的來源。ExaGPT通過檢查文本是否與數據庫中的人類撰寫文本或LLM生成文本共享更多相似片段來識別文本。此方法能為文本中的每個片段提供有助於決策的相似片段示例作為證據。我們的人類評估表明,提供相似片段示例比現有的可解釋方法更有效地幫助判斷決策的正確性。此外,在四個領域和三種生成器上的廣泛實驗顯示,ExaGPT在1%的假陽性率下,準確率大幅超越先前強大的檢測器,提升幅度高達40.9個百分點。