每日精選AI研究論文及翻譯
大型語言模型(LLMs)的持續擴展是否會帶來收益遞減?現實世界的價值往往源自於代理能夠完成任務的長度。我們從觀察一個簡單卻反直覺的事實開始這項工作:單步準確性的邊際增益可以複合成模型能夠成功完成任務長度的指數級提升。接著,我們論證當簡單任務被延長時,LLMs的失敗源於執行中的錯誤,而非推理能力的不足。我們提出通過明確提供解決長時程任務所需的知識和計劃來隔離執行能力。我們發現,即使小型模型在單步準確性上達到100%,更大的模型也能正確執行顯著更多的步驟。我們觀察到,隨著步驟數量的增加,模型的每步準確性會下降。這不僅僅是由於長上下文限制——有趣的是,我們觀察到一種自我條件效應——當上下文中包含先前步驟的錯誤時,模型更容易犯錯。僅僅通過擴展模型規模並不能減少這種自我條件效應。相比之下,近期的思維模型不會自我條件,並且能夠在單一步驟中執行更長的任務。我們最後通過基準測試前沿思維模型在單一步驟中能夠執行的任務長度來總結。總體而言,通過聚焦於執行能力,我們希望調和關於LLMs如何能夠解決複雜推理問題卻在簡單任務被延長時失敗的辯論,並強調擴展模型規模和序列測試時計算對於長時程任務的巨大益處。
任意分辨率圖像生成技術為不同設備間提供了一致的視覺體驗,對生產者與消費者均具有廣泛應用價值。當前擴散模型在分辨率提升時,其計算需求呈二次方增長,導致生成4K圖像的延遲超過100秒。為解決此問題,我們探索了基於潛在擴散模型的第二代技術,將擴散模型生成的固定潛在變量視為內容表示,並提出利用一步生成器從緊湊生成的潛在變量中解碼出任意分辨率的圖像。據此,我們提出了InfGen,以新型生成器替代VAE解碼器,實現了從固定大小潛在變量生成任意分辨率圖像,無需重新訓練擴散模型,簡化了流程,降低了計算複雜度,並可應用於使用相同潛在空間的任何模型。實驗表明,InfGen能夠將多種模型提升至任意高分辨率時代,同時將4K圖像生成時間縮短至10秒以內。
自主人工智能代理的迅速普及正在催生一个新的经济层面,其中代理以超越人类直接监管的规模和速度进行交易与协调。我们提出“沙盒经济”作为分析这一新兴系统的框架,并从两个关键维度对其进行特征描述:其起源(自发形成与人为设计)及其与现有人类经济的分离程度(可渗透与不可渗透)。当前的发展趋势指向一个自发形成且高度可渗透的人工智能代理经济,这为我们提供了前所未有的协调机遇,同时也带来了系统性经济风险和加剧不平等等重大挑战。在此,我们探讨了若干可能的设计选择,以期引导出安全可控的人工智能代理市场。特别地,我们考虑了公平资源分配和偏好解决的拍卖机制、围绕实现集体目标而设计的AI“使命经济”,以及确保信任、安全与问责所需的社会技术基础设施。通过这一系列探讨,我们主张主动设计可控的代理市场,以确保即将到来的技术变革与人类长期集体繁荣相契合。
在部件層面生成3D形狀對於網格重拓撲、UV映射和3D打印等下游應用至關重要。然而,現有的基於部件的生成方法往往缺乏足夠的可控性,並且在語義上有意義的分解方面表現不佳。為此,我們引入了X-Part,這是一種可控生成模型,旨在將整體3D對象分解為語義上有意義且結構連貫的部件,並具有高幾何保真度。X-Part利用邊界框作為部件生成的提示,並注入點級語義特徵以實現有意義的分解。此外,我們設計了一個可編輯的管道,用於交互式部件生成。大量實驗結果表明,X-Part在部件層面形狀生成方面達到了最先進的性能。這項工作為創建生產就緒、可編輯且結構合理的3D資產建立了新範式。代碼將公開以供研究使用。
參與度和動機對於第二語言習得至關重要,然而在教育對話中保持學習者的興趣仍然是一大挑戰。儘管先前的研究已探討了教育文本的有趣性因素,但對於驅動對話參與度的語言特徵仍知之甚少。為填補這一空白,我們引入了IntrEx,這是首個針對師生互動中有趣性及預期有趣性進行註釋的大規模數據集。基於教師-學生聊天室語料庫(TSCC),IntrEx通過引入序列級別的註釋擴展了先前的工作,使得研究能夠超越單一輪次的參與度,捕捉興趣在長時間對話中的演變。我們採用嚴格的註釋流程,邀請超過100名第二語言學習者參與,並借鑒基於人類反饋的強化學習(RLHF)中的比較評分方法,以提高註釋一致性。我們探討了大語言模型(LLMs)是否能夠預測人類對有趣性的判斷。結果顯示,經過有趣性評分微調的LLMs(7B/8B參數)在性能上超越了如GPT-4o等更大的專有模型,這表明專門數據集在教育場景中建模參與度的潛力。最後,我們分析了具體性、可理解性(可讀性)及接納度等語言和認知因素如何影響教育對話中的參與度。
檢索增強生成(RAG)方法通過整合資訊檢索(IR)技術與大型語言模型(LLMs),提升了問答系統和對話生成任務的效能。此策略從外部知識庫中檢索資訊以增強生成模型的回應能力,已取得一定成功。然而,現有的RAG方法在處理多跳查詢時仍面臨諸多挑戰。例如,某些方法過度依賴迭代檢索,在處理複合查詢時浪費了過多檢索步驟。此外,使用原始複雜查詢進行檢索可能無法捕捉到與特定子查詢相關的內容,導致檢索結果含有噪聲。若噪聲未得到妥善處理,將導致噪聲累積問題。為解決這些問題,我們提出了HANRAG,這是一個基於啟發式的新框架,旨在高效應對不同複雜度的問題。HANRAG由一個強大的揭示器驅動,負責路由查詢、將其分解為子查詢,並從檢索到的文件中過濾噪聲。這增強了系統的適應性和抗噪能力,使其能夠出色地處理多樣化的查詢。我們將所提框架與其他領先的業界方法在多個基準上進行了比較。結果顯示,我們的框架在單跳和多跳問答任務中均表現出優異的性能。
隨著視覺-語言模型(VLMs)日益精進,其推理能力正受到越來越多的關注。儘管這些模型在許多任務上表現出色,但對於基礎科學原理(如物理學)的理解仍是一個未被充分探索的領域。為了反映這些能力的進展,我們引入了一個新穎且易於使用的框架,旨在嚴格評估VLMs對二維物理學的理解。該框架配備了一個實用的場景生成器,能夠在四個核心領域(拋體運動、碰撞動力學、力學和流體動力學)中創建超過400個多樣化的測試問題。通過對四種最先進的VLMs進行全面評估,我們展示了模型規模與推理能力之間的強烈相關性,其中表現最佳的模型Qwen2.5-VL-7B獲得了0.815的總分。我們發現,雖然模型在公式化問題上表現優異,但在需要抽象空間推理的領域中卻面臨顯著挑戰。通過設計這一框架,我們希望普及對VLMs科學推理能力的研究,並促進對其能力和局限性的深入理解。
掩碼擴散大型語言模型(dLLMs)正逐漸成為自回歸LLMs的有力替代方案,不僅展現出競爭性的性能,還支持諸如圖像修復等獨特的生成能力。我們探討了如何利用圖像修復技術來指導dLLMs的強化學習算法設計。將LLMs與強化學習對齊面臨一個探索挑戰:稀疏的獎勵信號以及當模型未能發現正確解決方案時的樣本浪費。雖然這種低效性廣泛影響LLMs,但dLLMs提供了一個獨特的機會——它們的圖像修復能力可以引導探索。我們引入了IGPO(圖像修復引導策略優化),這是一個在線採樣過程中策略性地插入部分真實推理軌跡的強化學習框架。與提供完整解決方案不同,圖像修復將探索引向有希望的軌跡空間,同時保留自我生成的推理,從而橋接監督微調與強化學習。我們將IGPO應用於基於群組的優化方法如GRPO中,其中探索失敗會導致零優勢和梯度。IGPO恢復了有意義的梯度,同時提高了樣本效率。我們還提出了對合成重寫的簡潔軌跡進行監督微調,這些軌跡更符合dLLM的生成模式。結合基於熵的過濾等額外技術,我們的訓練方案在三個數學基準測試——GSM8K、Math500和AMC——上取得了顯著提升,為全注意力掩碼dLLMs實現了新的最優結果。
模型上下文协议(MCP)正迅速崛起为一项关键的开放标准,旨在增强代理与工具的集成及互操作性,并有望开启一个强大、互联且真正实用的代理式人工智能新时代。然而,尽管MCP的采用日益广泛,现有基准测试往往未能捕捉到这一新范式下代理在现实世界中的表现,导致对其真实操作价值的认知偏差,以及无法可靠地区分其能力水平。为弥合这一关键评估缺口,我们推出了MCP-AgentBench——一个专门设计的综合性基准测试,用于严格评估语言代理在MCP介导的工具交互中的能力。MCP-AgentBench的核心贡献包括:构建了一个包含33个运行服务器和188种独特工具的稳健MCP测试平台;开发了一个包含600个系统设计查询的基准测试,这些查询分布在6个不同类别中,涵盖多种交互复杂度;以及引入了MCP-Eval,一种新颖的以结果为导向的评估方法,优先考虑现实世界任务的成功。通过对领先语言代理的广泛实证评估,我们提供了基础性见解。MCP-AgentBench旨在为研究界提供一个标准化且可靠的框架,以构建、验证并推进能够充分利用MCP变革性优势的代理,从而加速真正具备能力和互操作性的人工智能系统的进步。
近期,大型語言模型(LLMs)在金融推理與市場理解方面展現了令人矚目的能力。如TradingAgent和FINMEM等多代理LLM框架,通過利用基本面與情緒導向的輸入,增強了這些模型在長期投資任務中的表現。然而,此類系統並不適合高頻交易(HFT)對高速與精確性的嚴苛要求。HFT需要基於結構化、短期信號(包括技術指標、圖表形態及趨勢特徵)做出快速且風險意識的決策,這與傳統金融LLM應用中典型的長期語義推理截然不同。為此,我們推出了QuantAgent,這是首個專為高頻算法交易設計的多代理LLM框架。該系統將交易分解為四個專業代理:指標、形態、趨勢與風險,每個代理均配備了領域專用工具與結構化推理能力,以捕捉短期時間窗口內市場動態的不同面向。在涵蓋比特幣與納斯達克期貨等十種金融工具的零樣本評估中,QuantAgent在4小時交易區間內的預測準確度與累計收益上均展現出優異表現,超越了強大的神經網絡與基於規則的基準模型。我們的研究表明,將結構化金融先驗知識與語言本質推理相結合,為高頻金融市場中可追溯的實時決策系統開闢了新的潛力。
開發高效的視覺-語言-動作(VLA)策略對於實際機器人部署至關重要,然而當前方法面臨著高昂的計算成本和資源需求。現有的基於擴散的VLA策略需要數十億參數的模型和龐大的數據集才能實現強勁性能。我們通過兩項貢獻來應對這一效率挑戰:中間模態融合,通過修剪高達50%的大型語言模型層來重新分配容量至擴散頭部;以及針對動作的全局自適應層歸一化(Global-AdaLN)條件化,通過模塊化適應將參數減少20%。我們將這些進展整合到一個名為FLOWER的新型950M參數VLA中。僅在200個H100 GPU小時內進行預訓練,FLOWER在涵蓋十個模擬和現實世界基準的190項任務中展現出與更大VLA相媲美的性能,並展示了對多樣化機器人實體的魯棒性。此外,FLOWER在CALVIN ABC基準上達到了4.53的新SoTA成績。演示、代碼及預訓練權重可於https://intuitive-robots.github.io/flower_vla/獲取。
長尾學習因其在現實場景中的廣泛適用性而受到越來越多的關注。在現有的方法中,長尾半監督學習(LTSSL)通過將大量未標記數據整合到不平衡的標記數據集中,已成為一種有效的解決方案。然而,大多數先前的LTSSL方法旨在從頭開始訓練模型,這往往會導致過度自信和低質量偽標籤等問題。為了解決這些挑戰,我們將LTSSL擴展到基礎模型微調範式,並提出了一種新框架:LoFT(通過參數高效微調實現的長尾半監督學習)。我們證明,微調後的基礎模型能夠生成更可靠的偽標籤,從而有益於不平衡學習。此外,我們通過研究開放世界條件下的半監督學習,探索了一種更為實用的設置,其中未標記數據可能包含分佈外(OOD)樣本。為了解決這個問題,我們提出了LoFT-OW(開放世界場景下的LoFT)以提高區分能力。在多個基準測試上的實驗結果表明,與先前的方法相比,即使僅使用1%的未標記數據,我們的方法也能實現優越的性能。
我們提出了概率結構整合(Probabilistic Structure Integration, PSI)系統,這是一個從數據中學習具有豐富可控性和靈活提示性的世界模型的系統。PSI由一個三步循環組成。第一步,概率預測,涉及構建數據的概率圖模型Psi,其形式為隨機訪問的自回歸序列模型。Psi支持一整套學習到的條件分佈,這些分佈描述了數據中任何變量對其他任何變量集的依賴關係。在第二步,結構提取中,我們展示了如何通過對Psi進行因果推理,以零樣本的方式提取數據中對應於多種有意義的“中間結構”的潛在低維特性。第三步,整合,通過將這些結構轉換為新的標記類型來完成循環,這些標記類型隨後作為條件信號和預測目標不斷混合回訓練數據中。每個這樣的循環都增強了Psi的能力,使其既能更好地建模基礎數據,又能創建新的控制手柄——類似於大型語言模型(LLM)的通用提示語言。我們在1.4萬億個互聯網視頻數據的標記上訓練了一個Psi實例;我們用它來執行各種有用的視頻預測和理解推理;我們提取了最先進的光流、自監督深度和對象分割;並且我們利用這些結構來支持一個完整的預測改進循環。
在文本到圖像(T2I)生成中,精確的色彩對齊對於時尚、產品視覺化和室內設計等應用至關重要。然而,當前的擴散模型在處理細微和複合色彩詞彙(如蒂芙尼藍、萊姆綠、熱粉紅)時往往力不從心,生成的圖像常與人類意圖不符。現有方法依賴於交叉注意力操控、參考圖像或微調,但未能系統性地解決模糊的色彩描述。為在提示模糊的情況下精確渲染色彩,我們提出了一種無需訓練的框架,該框架通過利用大型語言模型(LLM)來消除色彩相關提示的歧義,並直接在文本嵌入空間中指導色彩混合操作,從而提升色彩保真度。我們的方法首先使用大型語言模型(LLM)來解析文本提示中的模糊色彩詞彙,然後根據這些色彩詞彙在CIELAB色彩空間中的空間關係來精煉文本嵌入。與先前方法不同,我們的方法無需額外訓練或外部參考圖像即可提高色彩準確性。實驗結果表明,我們的框架在不影響圖像質量的情況下改善了色彩對齊,彌合了文本語義與視覺生成之間的差距。
口語語言模型(SLMs)已成為語音理解與生成的統一範式,促進了自然的人機互動。然而,儘管多數進展集中於語義準確性和指令遵循,SLMs根據口語指令調整其說話風格的能力卻鮮少受到關注。我們提出了語音風格適應(VSA)這一新任務,旨在探討SLMs能否依據自然語言口語指令修改其說話風格,如音色、韻律或角色扮演。為研究此任務,我們推出了VStyle,一個涵蓋語音生成四大類別(聲學屬性、自然語言指令、角色扮演及隱含同理心)的雙語(中文與英文)基準。此外,我們引入了大型音頻語言模型作為評判者(LALM as a Judge)框架,該框架逐步評估輸出在文本忠實度、風格遵循度及自然度上的表現,確保評估的可重複性與客觀性。對商業系統及開源SLMs的實驗表明,當前模型在可控風格適應方面存在明顯限制,凸顯了此任務的新穎性與挑戰性。通過發布VStyle及其評估工具包,我們期望為社區提供推動以人為本的口語互動發展的基礎。數據集與代碼已公開於https://junzhan2000.github.io/VStyle.github.io/{項目主頁}。
大型語言模型(LLMs)在多個領域取得了顯著成功。然而,一個根本性問題仍然存在:LLMs能否有效利用因果知識進行預測和生成?通過實證研究,我們發現直接在大規模數據上訓練的LLMs往往捕捉到的是虛假相關性而非真實的因果關係,這導致了性能欠佳,尤其是在分佈外(OOD)場景中。為應對這一挑戰,我們提出了因果注意力調節(Causal Attention Tuning, CAT),這是一種新穎的方法,將細粒度的因果知識注入注意力機制中。我們提出了一個自動化流程,利用人類先驗知識自動生成詞元級別的因果信號,並引入了重注意力機制來指導訓練,幫助模型聚焦於因果結構,同時減輕注意力分數中的噪聲和偏差。在我們提出的虛假詞元遊戲(Spurious Token Game, STG)基準測試和多個下游任務上的實驗結果表明,我們的方法有效利用了因果知識進行預測,並在OOD場景中保持了魯棒性。實現細節可參見https://github.com/Kairong-Han/CAT。
融入外部上下文能顯著提升大型語言模型(LLMs)的回應品質。然而,現實世界中的上下文往往混雜著相關資訊與不成比例的不當內容,這帶來了可靠性風險。LLMs如何處理並優先考慮混合上下文?為研究此問題,我們引入了「污染上下文測試平台」,將查詢與包含相關及不當內容的現實世界上下文配對。受動物聯想學習的啟發,我們從神經科學中借鑒了Rescorla-Wagner(RW)模型,以量化競爭性上下文信號如何影響LLM的輸出。我們改編後的模型揭示了一致的行為模式:LLMs展現出強烈傾向於採納在上下文中較不普遍的信息。這種易感性在現實場景中是有害的,因為少量不當內容即可大幅降低回應品質。在我們測試平台上的實證評估進一步確認了這一脆弱性。為解決此問題,我們提出了RW-Steering,一種基於兩階段微調的方法,使模型能夠內部識別並忽略不當信號。與先前依賴於多樣化上下文混合中廣泛監督的方法不同,RW-Steering在不當內容比例變化的情況下展現出強大的泛化能力。實驗表明,我們最佳微調模型提升了39.8%的回應品質,並逆轉了不良行為曲線,確立了RW-Steering作為一種穩健、可泛化的上下文工程解決方案,用於提升LLM在現實應用中的安全性。
針對結構化數據(如表格)的視覺推理能力,對於現代視覺語言模型(VLMs)而言至關重要。然而,現有的基準測試在規模、多樣性或推理深度方面仍顯不足,尤其是在處理渲染後的表格圖像時。為填補這一空白,我們推出了Visual-TableQA,這是一個大規模、開放領域的多模態數據集,專門設計用於評估和提升對複雜表格數據的視覺推理能力。我們的生成流程模塊化、可擴展且完全自動化,涉及多個推理大型語言模型(LLMs)在不同角色間協作:生成、驗證和啟發。Visual-TableQA包含2.5千個結構豐富的LaTeX渲染表格和6千個推理密集的問答對,所有這些的製作成本低於100美元。為了促進多樣性和創造性,我們的流程通過跨模型提示(“啟發”)和LLM評審過濾實現多模型協作數據生成。更強的模型負責佈局和主題的初步構建,而較弱的模型則進行細節擴展,共同將多樣的推理模式和視覺結構提煉到數據集中。實驗結果表明,在Visual-TableQA上微調的模型能夠穩健地泛化到外部基準測試,儘管數據集是合成的,但仍超越多個專有模型。完整的流程和資源已公開於https://github.com/AI-4-Everyone/Visual-TableQA。
本系统论文介绍了DeMeVa团队针对第三届"学习分歧"共享任务(LeWiDi 2025;Leonardelli等人,2025)所采用的方法。我们探索了两个方向:一是基于大语言模型的上下文学习(ICL),在此我们比较了不同的示例采样策略;二是基于RoBERTa(Liu等人,2019b)的标签分布学习(LDL)方法,我们评估了多种微调方法。我们的贡献主要体现在两个方面:(1)我们证明了ICL能够有效预测特定标注者的注释(视角主义注释),并且将这些预测聚合为软标签可以获得具有竞争力的性能;(2)我们认为LDL方法在软标签预测方面具有潜力,值得视角主义社区进一步探索。
大型語言模型(LLMs)正迅速改變社會科學研究,它們能夠自動化處理如數據標註和文本分析等耗時任務。然而,LLM的輸出結果會因研究者的實施選擇(例如模型選擇、提示策略或溫度設置)而顯著不同。這種變異可能引入系統性偏差和隨機誤差,這些誤差會傳播到下游分析中,導致第一類、第二類、S類或M類錯誤。我們將此現象稱為LLM駭客攻擊。 我們通過複製21篇已發表社會科學研究中的37個數據標註任務,並使用18種不同模型,量化了LLM駭客攻擊的風險。在分析1300萬個LLM標籤後,我們測試了2361個現實假設,以衡量研究者的選擇如何影響統計結論。我們發現,基於LLM標註數據的結論在大約三分之一的最先進模型假設中是不正確的,而在小型語言模型中,這一比例達到一半。雖然我們的研究表明,更高的任務性能和更好的模型通用能力可以降低LLM駭客攻擊的風險,但即使是高度準確的模型也無法完全消除這種風險。隨著效應量的增加,LLM駭客攻擊的風險降低,這表明在顯著性閾值附近需要更嚴格的驗證。我們對LLM駭客攻擊緩解技術的廣泛分析強調了人工標註在減少假陽性發現和改進模型選擇中的重要性。令人驚訝的是,常見的回歸估計器校正技術在降低LLM駭客攻擊風險方面效果甚微,因為它們在第一類和第二類錯誤之間進行了大量權衡。 除了意外錯誤外,我們還發現,有意進行的LLM駭客攻擊異常簡單。只需使用少數幾個LLM和幾個提示改寫,任何結果都可以被呈現為統計顯著。
中國的少數民族語言,如藏語、維吾爾語和傳統蒙古語,因其獨特的書寫系統與國際標準不同而面臨重大挑戰。這種差異導致了相關語料庫的嚴重缺乏,特別是在監督式任務如標題生成方面。為填補這一空白,我們引入了一個新穎的數據集——中國少數民族標題生成(CMHG),其中包含10萬條藏語條目,以及各5萬條的維吾爾語和蒙古語條目,專門為標題生成任務而精心策劃。此外,我們提出了一個由母語者註釋的高質量測試集,旨在為該領域的未來研究提供基準。我們希望這一數據集能成為推動中國少數民族語言標題生成發展的寶貴資源,並為相關基準的開發做出貢獻。