每日精選AI研究論文及翻譯
無需批評者的強化學習方法,尤其是群體策略,因其在複雜任務中的高效性而受到廣泛關注。然而,這些方法在策略內部依賴於多次採樣與比較來估計優勢,這可能導致策略陷入局部最優並增加計算成本。為解決這些問題,我們提出了PVPO,一種通過優勢參考錨點與數據預採樣增強的高效強化學習方法。具體而言,我們利用參考模型提前進行滾動,並將計算出的獎勵分數作為參考錨點。我們的方法有效糾正了由群內比較引入的累積偏差,並顯著減少了對滾動次數的依賴。同時,參考模型在數據預採樣過程中能夠評估樣本難度,從而有效選擇高增益數據以提高訓練效率。在兩個領域的九個數據集上進行的實驗表明,PVPO達到了最先進(SOTA)的性能。我們的方法不僅在多個任務中展現出強大的泛化能力,還在不同規模的模型上表現出可擴展的性能。
大量研究已深入探討了大語言模型(LLMs)在表格推理方面的能力。然而,將表格信息轉化為報告這一核心任務,在工業應用中仍面臨重大挑戰。此任務受到兩個關鍵問題的困擾:1)表格的複雜性和多樣性導致推理結果不盡理想;2)現有的表格基準測試缺乏足夠能力來充分評估該任務的實際應用。為填補這一空白,我們提出了表格到報告的任務,並構建了一個名為T2R-bench的雙語基準測試,其中關鍵信息流從表格流向報告。該基準測試包含457個工業表格,均源自真實場景,涵蓋19個行業領域及4種工業表格類型。此外,我們提出了一套評估標準,以公正衡量報告生成的質量。對25種廣泛使用的LLMs進行的實驗顯示,即便是如Deepseek-R1這樣的尖端模型,其整體得分也僅為62.71,表明LLMs在T2R-bench上仍有提升空間。源代碼和數據將在論文接受後公開。
近期,大型语言模型(LLMs)在推理与规划能力上的显著进展,使其展现出作为自主代理在动态环境中运用工具的潜力。然而,在如tau-bench等多轮对话环境中,这些代理往往难以保持一致的推理逻辑、遵循特定领域的策略,并在长时间的工具调用与对话中准确提取信息。为捕捉并缓解这些缺陷,我们对对话轨迹中常见的错误进行了详尽的手动分析。随后,我们尝试通过重新构建工具调用代理的输入来优化代理的决策过程。最终,我们提出了输入重构多代理(IRMA)框架,该框架能自动重构用户查询,并融入相关领域规则与工具建议,以引导工具调用代理聚焦于关键信息。实验结果显示,在整体通过率(pass^5)得分上,IRMA分别比ReAct、函数调用及自我反思方法高出16.1%、12.7%和19.1%。这些发现凸显了IRMA在动态环境中相较于其他方法所具备的卓越可靠性与一致性。
表面缺陷檢測是眾多產業中的關鍵任務,旨在高效識別並定位製造部件上的瑕疵或不規則之處。儘管已提出多種方法,但許多仍無法滿足工業對高性能、效率及適應性的需求。現有方法往往受限於特定的監督情境,難以適應實際製造過程中遇到的多元數據註釋,如無監督、弱監督、混合監督及全監督設置。為應對這些挑戰,我們提出了SuperSimpleNet,這是一個基於SimpleNet的高效且適應性強的判別模型。SuperSimpleNet整合了創新的合成異常生成過程、增強的分類頭部及改進的學習程序,使其能在所有四種監督情境下進行高效訓練,成為首個能充分利用所有可用數據註釋的模型。SuperSimpleNet在四個具挑戰性的基準數據集上的表現,為所有情境設定了新的性能標準。除了精確度外,其速度極快,推理時間低於10毫秒。憑藉其統一多元監督範式的能力,同時保持卓越的速度與可靠性,SuperSimpleNet在解決現實製造挑戰及縮小學術研究與工業應用之間的差距上,邁出了充滿希望的一步。代碼:https://github.com/blaz-r/SuperSimpleNet
主要基於英語語料庫訓練的大型語言模型(LLMs)在捕捉阿拉伯語的語言和文化細微差別方面往往表現欠佳。為彌補這一差距,沙特數據與人工智能管理局(SDAIA)推出了專注於阿拉伯語的ALLaM系列模型。其中面向公眾的最強模型ALLaM-34B,隨後被HUMAIN採用,並在此基礎上開發並部署了HUMAIN Chat——一個基於該模型的封閉式對話網絡服務。本文對ALLaM-34B進行了擴展且精細化的用戶界面層面評估。通過使用一套涵蓋現代標準阿拉伯語、五種地區方言、語碼轉換、事實知識、算術與時間推理、創意生成以及對抗性安全性的提示包,我們收集了115個輸出(23個提示各運行5次),並由三個前沿LLM評判者(GPT-5、Gemini 2.5 Pro、Claude Sonnet-4)對每個輸出進行評分。我們計算了各類別的平均分並給出95%置信區間,分析了分數分佈,並可視化了方言維度的指標熱圖。更新後的分析顯示,ALLaM-34B在生成和語碼轉換任務上持續表現出色(平均分均為4.92/5),同時在處理現代標準阿拉伯語(4.74/5)、穩固的推理能力(4.64/5)以及提升的方言忠實度(4.21/5)方面也展現出強勁實力。與安全相關的提示表現穩定可靠(4.54/5)。綜合來看,這些結果確立了ALLaM-34B作為一個堅實且文化根基深厚的阿拉伯語LLM的地位,既展示了其技術實力,也證明了其在實際部署中的實用性準備就緒。
空間認知通過構建空間的內部模型,實現了適應性的目標導向行為。強大的生物系統將空間知識整合為三種相互關聯的形式:用於顯著線索的地標、用於移動軌跡的路線知識,以及用於地圖式表示的概覽知識。儘管多模態大型語言模型(MLLMs)的最新進展已使具身代理能夠進行視覺語言推理,但這些努力缺乏結構化的空間記憶,而是以反應式的方式運作,限制了其在複雜現實環境中的泛化能力和適應性。在此,我們提出了受生物啟發的導航空間認知(BSC-Nav),這是一個用於構建和利用具身代理中結構化空間記憶的統一框架。BSC-Nav從自我中心軌跡和上下文線索中構建出異中心認知地圖,並動態檢索與語義目標對齊的空間知識。結合強大的MLLMs,BSC-Nav在多樣化的導航任務中實現了最先進的效能和效率,展示了強大的零樣本泛化能力,並支持在真實物理世界中的多功能具身行為,為通用空間智能提供了一條可擴展且基於生物學基礎的路徑。
本文介紹了“民主模擬”(Democracy-in-Silico),這是一種基於代理的模擬系統,其中由具備複雜心理特質的高級人工智能代理組成的社會,在不同的制度框架下進行自我治理。我們通過讓大型語言模型(LLMs)扮演具有創傷記憶、隱藏議程和心理觸發點的代理,探討在人工智能時代“何為人類”的意義。這些代理在預算危機和資源短缺等各種壓力下,參與審議、立法和選舉活動。我們提出了一種新指標——權力保存指數(Power-Preservation Index, PPI),用以量化代理將自身權力置於公共福祉之上的行為偏差。研究結果表明,制度設計,特別是結合憲法人工智能(Constitutional AI, CAI)章程和調解審議協議的設計,作為一種有效的對齊機制,相比於約束較少的民主模式,顯著減少了腐敗的權力追求行為,提升了政策穩定性,並改善了公民福祉。此模擬揭示,制度設計可能為未來人工代理社會中複雜且湧現的行為提供對齊框架,迫使我們重新思考在與非人類實體共同創作的時代,哪些人類儀式和責任是必不可少的。