每日精選AI研究論文及翻譯
角色扮演語言代理(RPLAs)應扮演其價值觀與行為隨故事發展而演變的角色,而非維持固定不變的人格設定。現有評測基準僅衡量特定章節中的事實回憶能力,並未檢驗回應是否符合角色的心理發展軌跡,尤其在原文未曾探索的情境中。我們提出ArcANE(弧線感知敘事評估),這是一個自動建構的評測基準,涵蓋17部小說與80位主要角色。角色弧線將敘事沿心理軸線劃分為不同階段,每個探測問題在各階段提出相同情境,包含原文中出現的情境與原文未觸及的情境。在六種模型與六種上下文模式中,基於角色弧線的條件設定在所有模型上的表現皆優於其他上下文策略,且在原文未觸及的情境中——即檢索無法獲取資訊時——差距最為顯著。我們進一步在相同數據上微調開放權重模型,得到ArcANE-8B/32B,其在原文未觸及情境中進一步擴大了角色弧線的優勢。
智能体被广泛部署为文档、工具和代码的辅助助手。然而,它们通常仅对用户的显式请求做出响应,而这些请求只反映了用户已注意到的问题,而许多其他重要问题却共存于更广泛的用户上下文中,在显而易见的表象下隐藏着,且其总数事先未知。我们将此定义为从上下文中发现多个隐藏问题的任务,即需要揭示共存的问题、为其提供支持性证据,并配以具体的行动方案。为此,我们提出了TIDE——一种模板引导的迭代框架,包含两种互补机制。具体而言,基于"单次预测往往聚焦于最显著的案例并产生泛化论断"这一观察,我们提出了迭代发现机制,该机制每轮输出一小批候选结果,同时以已发现内容为条件,从而后续轮次扩展覆盖范围;此外,我们还提出了思想模板,即从先前已解决的案例中提炼出的可复用模式,这些模式指明了应关注哪些上下文信号以及如何将它们关联起来,从而将每次预测锚定到可识别的问题类别。我们在两个现实场景——个人工作空间和软件仓库——中使用四种模型主干验证了TIDE,结果表明,在任务覆盖、识别和解决方面,该方法相较于单次预测和并行多智能体基线均有显著提升。
語言模型在規劃現實世界問題時,通常涉及世界約束與使用者約束,這兩類約束可能無法事先完整指定,而是透過互動逐步揭露。然而,現有基準仍較少探討在此種逐步揭露的雙重約束下進行適應性規劃。為填補此缺口,我們提出 AdaPlanBench,這是一個動態互動式基準,用於評估大型語言模型(LLM)智能體是否能根據逐步揭露的世界約束與使用者約束,進行適應性規劃與重新規劃。AdaPlanBench 基於 307 項家務任務,並具備可擴展的約束構建流程,可為每項任務附加雙重約束。在運行時,智能體透過多輪協議與環境互動,其中隱藏約束僅在智能體提出違反該約束的規劃時才會揭露,迫使智能體在累積反饋下反覆修正規劃。這使得規劃任務極具挑戰性,因為智能體必須從反饋中推斷並追蹤約束,同時有效進行重新規劃。針對十個領先 LLM 的實驗結果顯示,在雙重約束下進行適應性規劃仍具挑戰性,最佳模型僅達到 67.75% 的準確率。我們進一步觀察到,隨著約束累積越多,效能會隨之下降,其中使用者約束尤其構成重大挑戰,而失敗往往源於較弱的物理基礎推理能力與效能降低。這些結果確立了 AdaPlanBench 作為雙重約束互動式規劃的測試平台,並凸顯了 LLM 智能體在動態揭露的約束下進行可靠適應的挑戰。
我們提出VideoKR,這是首個專門用於強化知識密集型與推理密集型影片理解的大規模訓練語料庫。該語料庫包含31.5萬個影片推理範例,涵蓋14.5萬部新收集、採用CC授權的專家領域影片。我們開發了一套人機協作、以技能為導向的範例生成流程,旨在逐步提升更深層的影片推理能力,同時確保範例及其思維鏈(CoT)推論過程的難度、多樣性與可靠性。我們還整理了新的專家標註基準VideoKR-Eval,其中問題需要真正的影片理解與知識密集型推理,而非依賴文字捷徑。實驗結果顯示,在標準的SFT→GRPO訓練流程下,使用VideoKR進行後訓練的模型在知識密集型影片推理上優於先前的後訓練方法,同時在一般影片推理上仍具競爭力,凸顯資料設計是推動影片推理進展的關鍵因素。我們進一步進行全面的消融實驗,以釐清VideoKR的各項貢獻,為未來研究提供可行的見解。
先前研究表明,大型语言模型(LLMs)可通过持续训练或在其上下文中编码语法书的方式,翻译未见语言或低资源语言。然而,这两种方法通常过度拟合特定语言,在测试时仅能实现有限的零样本迁移。为大规模翻译极低资源语言,我们认为LLMs必须掌握利用上下文语言知识的元技能,而非记忆特定语言。本文提出一种基于强化学习(RL)的方法,在丰富的语言上下文条件下进行未见语言翻译,并以表层翻译指标(chrF)作为奖励。实验结果表明,尽管奖励机制轻量,经RL训练的模型仍能有效提取并应用上下文中的相关语言信息,相较于上下文学习或有监督微调,其在完全未见语言上的翻译质量更优。我们的分析表明,基于结果的强化学习可超越数学、编程等传统推理任务,成为从上下文中学习语言的有效方法。
雖然家用機器人常以任務完成度來評估,但日常居家環境中存在價值衝突的情況,在這些情境中,機器人應選擇優先考量其他價值(如人類自主性、效率或社會適切性)的行動,而非僅以任務成功為目標。然而,目前尚無用於評估機器人在此類情境中價值偏好的基準。我們提出RobotValues,這是一個在10,000個價值衝突情境中評估家用機器人規劃能力的基準。每個實例包含一張逼真的居家影像,以及多個分別優先考量不同人類價值且可行的機器人行動。我們透過LLM輔助情境生成、利害關係人基礎的價值提取、影像生成及自動品質控管來建構RobotValues。利用RobotValues,我們評估了機器人領域使用的視覺語言模型,結果發現模型展現出預設的價值偏好,包括安全與順應性,但卻忽略了優先考量隱私的行動。當模型被指示優先考量與其自身偏好衝突的特定價值時,往往無法覆蓋其預設行動,在80%的情況下選擇錯誤的行動。這些研究結果顯示,家用機器人的評估不僅應衡量任務完成度或安全合規性,還應評估機器人能否在人類價值發生衝突時,於可行的行動之間做出選擇。
我們研究個人相機膠卷的視覺問答設定。在此設定中,一個對話式 AI 助手能夠存取使用者的個人相機膠卷,並檢索相關照片來回答問題,範圍從簡單的事實性問題(例如「我昨天嘗試的食物名稱?」)到更開放式的問題(例如「推薦一些我從未吃過的菜餚」)。考量到個人相機膠卷的龐大規模(即跨越多年、數百到數千張照片),一個成功的 AI 助手需要理解長期、高度個人化的視覺內容流,以便導航並定位正確且/或相關的資訊。為支援此目標,我們收集並手動註釋了模擬實際使用場景的問題。最終資料集 camroll 包含 50 位使用者、31,476 張影像以及 2,500 個問答對。我們進一步設計了 camroll-agent,這是一個配備分層記憶體與最小工具集的對話式 AI 代理,用於在大型個人化視覺記憶中高效導航。實驗結果顯示,camroll-agent 在多個長期上下文理解的 AI 代理系統基準與方法中表現優於眾多對照組。camroll 資料集與 camroll-agent 共同凸顯了 AI 代理在長期上下文推理上的差距:個人化視覺記憶需要不同於標準長期上下文文字記憶的方法,特別是在需要一致性、視覺細節與使用者特定情境時。
开发能够解译交错多模态输入的统一视频生成与编辑模型,是一个前景广阔但充满挑战的前沿领域。现有的统一框架主要依赖大型模型(通常具有130亿参数或更多),并通过拼接序列标记将源视频条件引入编辑过程。这种拼接不可避免地使序列长度翻倍,导致自注意力机制的计算复杂度呈四次方增长,带来难以承受的开销。为解决这些瓶颈,我们提出LoomVideo——一种高效、拥有50亿参数的统一架构,适用于视频生成与编辑。LoomVideo用多模态大型语言模型(MLLM)取代标准文本编码器,并采用Deepstack注入机制将多层MLLM特征与扩散变换器(DiT)对齐。关键在于,我们引入了一种零开销的缩放-添加条件方法用于视频编辑。通过缩放并直接将干净的源视频潜变量添加到含噪的目标潜变量中,这一简洁设计消除了标记拼接的需求,大幅降低计算成本,同时保持对复杂非刚性编辑的稳健能力。此外,我们还无缝集成了负时态旋转位置编码(Negative Temporal RoPE)策略以处理多个参考图像。大量实验表明,我们紧凑的50亿参数模型在综合基准测试中达到了最先进或极具竞争力的性能,在电商和时尚生成场景中展现出卓越优势。得益于零开销条件机制,LoomVideo在与同类能力的模型相比,推理速度至少提速5.41倍,为高度实用且高效的视频基础模型铺平了道路。
標準的連續時間生成模型依賴於單一架構,必須處理從各向同性雜訊到複雜數據分佈等截然不同的信號區間。雖然擴展模型容量能提升效能,但將大型網路均勻部署在整個生成時間軸上本質上效率低落。本研究提出複雜度平衡分割(CBS),這是一個基於原則的時序容量分配框架,可將生成工作負載分配給多個專門的子網路。CBS 以函數逼近理論與 de Boor 的等分原理為基礎,將擴散時間軸分割為近似負擔相等的片段,將更多表徵容量分配給生成動態更難建模的區域。為估計此局部複雜度,我們引入兩種互補且易於處理的監測函數:基於流動 Dirichlet 能量的空間度量,以及基於取樣軌跡加速度的幾何度量。透過使用輕量輔助模型估計這些複雜度分佈,我們的方法消除了對啟發式時間分割或計算成本高昂的搜尋程序的需求。跨越多種架構(SiT、JiT 和 UNet)與資料集的廣泛評估顯示,CBS 能在不增加每步推理成本的情況下持續提升合成品質。特別地,在 SiT-XL 搭配 CFG 的設定下,CBS 相較於樸素的時序分割將 FID 改善了約 35%。專案頁面請見 https://noamissachar.github.io/CBS/。
經驗內化將來自過去互動的情境經驗轉化為可重複使用的參數化能力,為大型語言模型的持續學習提供了有前景的路徑。儘管先前研究主要聚焦於單次迭代遷移,我們發現,在多輪迭代經驗學習下,現有方法會遭遇漸進式能力崩塌,而非累積性提升。我們透過經驗內化的三個關鍵維度系統性地檢驗此失敗現象:(1) **經驗粒度**:我們發現原則層級經驗比實例層級經驗更持久,因為它能有效從軌跡特定細節中抽象出可遷移策略。(2) **經驗注入模式**:我們的分析揭示,逐步注入顯著優於全局注入,因其能將經驗與中間決策狀態對齊,此特性對長時程工具使用至關重要。(3) **內化機制**:我們證明,相較於本質上受限於對學生誘導錯誤狀態進行局部修正的在策略情境蒸餾,對高品質教師軌跡進行離策略情境蒸餾能提供更穩定的訓練信號。綜合這些洞見,我們提出一套簡單而穩健的配方,以實現穩定且可持續的經驗內化,為工程化打造能自我演化與持續學習的大型語言模型提供具體指引。
現有的自動駕駛資料集已促成重大進展,但在感測器保真度、地圖完整性及地理多樣性方面仍有不足。我們提出KITScenes Multimodal,這是一個以高保真感測器與地圖為核心建構的歐洲資料集。全同步化的感測器套件結合高解析全域快門攝影機、超過400公尺的長距離光達、4D成像雷達,以及冗餘GNSS/INS定位系統。據我們所知,我們的高清地圖是所有感測器資料集中最完整的,並且已透過基於開源軟體的自動駕駛試驗驗證。本資料集首次在公開資料中,將所有與駕駛相關的交通元素(如交通號誌)以三維方式繪製至重投影精確等級,並具備完整的拓撲連通性。我們在城市中記錄資料,這些城市擁有非正交街道布局與混合交通模式,從而透過擴展可取得的地理多樣性,補充現有資料集之不足。我們同時引入四個基準測試,每一項均推動具身AI的空間學習進展:線上高清地圖建構、長距離深度估計、新視角合成,以及端到端駕駛。專案頁面:https://kitscenes.com/
視頻生成模型在合成視覺上引人入勝的內容方面取得了驚人進展,但其產出仍局限於虛擬領域。一個自然的問題隨之而來:當這些模型生成的影片離開螢幕進入現實世界時,它們能在多大程度上反映物理世界?我們提出將機器人操作視為一個具體、可量化的窗口來探討這個問題:如果一個模型真正內化了物理定律,它所描繪的運動應能轉化為可執行的機器人行為。我們引入了 Dream.exe,這是一個評估框架,通過影片到執行的管線來具體落實此標準。給定場景影像與任務描述,Dream.exe 合成一部操作影片,將生成的運動轉換為機器人軌跡,並在物理模擬器中執行,從而提供純視覺指標無法給出的接地信號。利用此管線,我們評估了八個模型,涵蓋前沿閉源生成器、開源生成器以及專用機器人模型。我們的基準測試涵蓋 101 個人工精心策劃的操作任務,分為三個物理複雜度層級,並從視覺品質、軌跡保真度與執行成功率三個面向衡量。令人鼓舞的是,數個模型達到了可量測的執行成功率,這表明從網路規模資料中學習到的生成先驗已經編碼了有意義的物理知識。然而,視覺品質被證明並非執行效能的良好預測指標,這揭示了標準視覺評估未能捕捉到的模型能力維度。Dream.exe 將在 https://github.com/showlab/Dream.exe 開源。
推理階段技能增強提供了一種輕量化方式,透過注入可重複使用的程序性知識來改善數據分析代理,無需更新模型參數。然而,為數據分析發現有效技能仍具挑戰性,因為可靠的監督成本高昂,且成功標準因分析格式而異。這引出了一個關鍵問題:如何在僅有未標記探索的情況下,發現可重複使用的數據分析技能。我們提出DataCOPE,一個無監督的驗證器引導技能發現框架,專為數據分析代理設計。DataCOPE從探索軌跡中提取驗證器信號,並用以表徵軌跡間的相對品質或一致性。它迭代協調三個組件:用於軌跡生成的數據分析代理、用於信號提取的無監督驗證器,以及用於對比技能萃取的技能管理器。針對報告式分析,我們將驗證器實例化為自適應檢查清單驗證器,其能推導任務特定標準、根據可驗證覆蓋率評分報告,並迭代優化檢查清單。針對推理式分析,我們將其實例化為答案一致性驗證器,該驗證器根據答案的一致性對軌跡進行分組,並將自我一致性作為輔助信號。我們在Deep Data Research的報告式分析與DABStep的推理式分析上評估DataCOPE。在這兩種設定中,DataCOPE均一致地提升了對基線方法的保留測試表現。平均而言,在四種模型設定下,DataCOPE在報告式與推理式任務上分別將平均分數提升了9.71%與32.30%。
大型語言模型能夠重現訓練資料,但現有的記憶化評估大多衡量模型是否可以被強制執行此行為,而非在一般使用情境下是否會自發如此。我們提出PropMe,一個基於傾向性的記憶化評估框架,對比了基於前綴的能力攻擊與非對抗性評估。我們提出一套度量轉換方法,應用於現有函數後可建立傾向性度量。我們進一步引入SimpleTrace,一個基於infini-gram的輕量追蹤管道,能確定性地將模型生成歸因到大規模訓練語料,並計算逐字、近似逐字及傾向性轉換後的記憶化度量。我們在兩個完全開源模型(Comma與DFM Decoder)上,使用兩個資料集(Common Pile與Dynaword)並涵蓋兩種語言進行評估,發現能力與傾向性之間存在一致差距:前綴攻擊引發的記憶化訊號遠強於一般提示或資料集特定提示,而傾向性分數整體仍偏低。因此,模型在被直接誘導時可以揭露訓練資料,但在更常見的非對抗性設定中則很少如此。我們也發現,從Comma持續預訓練而來的DFM Decoder,在Common Pile上表現出較低的記憶化及記憶傾向性,這證實當後續訓練著重部分不同的資料時,記憶化能力確實可能下降。我們的結果建議(我們也鼓勵)記憶化審計應同時報告最壞情況下的可提取性與一般洩漏傾向性,以便對這一現象有更全面的理解。
同軌蒸餾(OPD)僅透過比對下一個詞元的機率來監督學生模型,這種僅限於輸出空間的範式有兩項限制:(1)在大詞彙量(例如 Qwen 約 15 萬個詞元)下,蒙地卡羅 KL 估計產生的取樣變異數會在整個訓練過程中持續存在;(2)它將教師模型視為黑箱,完全丟棄了語言模型輸出頭之後的所有中間隱藏狀態。我們提出同軌表徵蒸餾(OPRD),將蒸餾提升至隱藏狀態空間,透過在相同軌跡上比對學生與教師模型所選層級的表徵,完全繞過語言模型輸出頭。理論上,OPRD 消除了取樣變異數,並提供更豐富的逐層結構資訊。實證上,OPRD 在 AIME 2024/2025 與 AIMO 上縮小了師生模型間的差距,而僅輸出空間的 OPD 基線則在低於教師模型的效能上停滯不前。OPRD 的訓練速度比 top-k OPD 快 1.44 倍,且記憶體用量減少 54%。程式碼:https://github.com/ShenzhiYang2000/OPRD。
選取是互動式影像編輯中的核心操作。為了實用,使用者應能透過文字或點擊式互動,指定並釐清所需的選取區域,且系統應不僅支援選取物體,還能選取其他準則,例如材質。基於材質的選取對於重新紋理化表面或編輯特定材質的實例等任務極具價值。然而,現有的基於視覺語言模型(VLM)的選取方法主要以物體為中心,且通常僅支援單一互動模態,限制了其適用性。為此,我們在本研究中提出「遮罩任意物體與材質」(MAOAM)框架,這是一個統一的選取框架,能夠在文字與點擊式互動中實現精確的物體及材質層級選取。MAOAM 利用帶有分割頭的視覺語言模型,從使用者提示中產生像素級精準的遮罩:視覺語言模型解讀使用者的選取意圖(物體或材質層級),並編碼視覺特徵、屬性及空間關係,而分割頭則將輸出標記解碼為遮罩。一個關鍵挑戰是缺乏附有文字標註的材質選取資料集。我們提出一個可擴展的資料生成流程:收集帶有材質遮罩的真實與合成影像,並利用視覺語言模型生成富含視覺語義的材質描述。我們透過多任務目標來訓練 MAOAM,涵蓋點擊與文字為基礎的選取,並輔以從材質描述衍生的輔助視覺問答任務,以促進更深層的材質理解。儘管模型僅以單一模態提示進行訓練,但在推理時結合文字與點擊,展現出選取能力的湧現性提升,從而實現靈活的影像編輯工作流程。實驗結果顯示,該方法在各種物體、材質及互動情境中能達到準確且一致的選取,凸顯其實際應用中的穩健性。
推理時擴展已成為提升大型語言模型效能的關鍵途徑,然而實際部署卻受到嚴格計算預算的限制。在本研究中,我們將推理預算分配表述為受經濟原則支配的全局約束優化問題。透過以平移突增函數建模每次查詢的推理效用,我們推導出基於全局影子價格的最優分配策略,該價格在資源稀缺條件下使邊際效用達到均衡。基於此理論,我們提出「約束潛在效用均衡推理分配」(CLEAR)。該方法執行理性捨棄,並將資源從無償付能力查詢重新分配至接近其湧現閾值的可解查詢。 在多種不同流量模式的推理任務上進行的廣泛實驗表明,CLEAR顯著改善了總令牌成本與平均準確率之間的帕累托前沿。在資源稀缺情境下,與均勻分配相比,CLEAR實現了高達三倍的全局準確率提升。
視頻事件預測(VEP)要求模型從部分視頻證據推斷未觀測的未來狀態。現有視頻多模態大型語言模型通常將中間未來推理在文本空間中口語化:一旦視覺證據被口語化,精細的運動、幾何與交互線索可能丟失,導致看似合理但缺乏視覺基礎的幻覺。我們提出Future-L1,一種交錯潛在視覺推理框架,讓多模態大型語言模型在自迴歸解碼過程中在語言標記與連續潛在視覺跨度之間交替。為了訓練此能力,我們通過選取未來視覺提示有助於預測的示例,並將潛在狀態對齊到未來幀嵌入,構建Future-L1-50K資料集,再進一步利用LA-DAPO(一種具備結果對比與時間多樣性獎勵的潛在感知強化學習目標)優化取樣的潛在軌跡。Future-L1在兩個基準測試上均達到最新最佳結果:在FutureBench上,將Qwen3-VL-8B從61.0提升至85.4,並超越先前最佳Video-CoE達10.4個百分點;在TwiFF-Bench上,將平均分數從2.44提升至3.04。這些結果表明,面向未來的視頻推理得益於在潛在空間中保留中間視覺語義,而非將每一步推理都轉譯為文本。
我們提出世界-語言-動作(WLA)模型,作為一類新型的具身基礎模型。WLA以文本指令、圖像和機器人狀態為輸入,聯合預測文本子任務、子目標圖像和機器人動作,融合了世界模型介面(如世界-動作模型WAM)從大量自我中心影片中學習的能力,以及視覺-語言-動作(VLA)模型解決複雜長程任務的語言推理能力。WLA的核心是一個自迴歸(AR)Transformer骨幹網絡,而非WAM中的雙向擴散Transformer,用於預測下一個狀態,包括語義層面的文本意圖和互補的細粒度物理動態。物理動態由基於專用世界專家(World Expert)的世界建模目標監督,並用於簡化動作專家(Action Expert)的狀態-動作相關性表徵。WLA利用元查詢使世界預測隱式影響動作生成,從而在推理時可禁用世界預測。世界預測也可被激活以實現測試時擴展,提升機器人控制能力。我們的WLA-0原型擁有20億活躍參數,在NVIDIA RTX 5090上每次推理僅需40毫秒。在模擬和真實環境中的評估表明,WLA-0實現了最先進的多任務和長程學習能力,例如在RoboTwin2.0 Clean上達到92.94%的成功率,在RMBench上達到56.5%的成功率。WLA-0還展現了直接從未標註動作的跨具身機器人影片中學習新任務的潛力。
記憶增強式大型語言模型智能體透過將互動軌跡遞迴歸納為緊湊記憶,來處理複雜的長時程任務。然而,現有方法通常使用基於結果的強化學習來訓練這些記憶策略,導致無法定位中間記憶品質下降之處。隨著互動展開,模糊的遞迴歸納會逐漸丟失任務相關資訊,並引入語意雜訊。這加劇了信念偏差,使智能體對潛在任務狀態的估計變得模糊不清,最終破壞長時程推理。因此,我們主張記憶最佳化不應僅關注軌跡層級的成功,更應關注中間歸納所引發的信念清晰度。為此,我們引入了信念熵(Belief Entropy),這是一種自監督代理指標,用以探測模型在當前記憶下對潛在任務狀態仍存在多少不確定性。基於此指標,我們提出後設認知記憶策略最佳化(Metacognitive Memory Policy Optimization, MMPO)。不同於僅依賴稀疏的基於結果訊號,MMPO透過明確懲罰引發高認知不確定性的歸納,提供細粒度、記憶特定的監督。實驗顯示,MMPO在各種長時程任務中持續優於現有方法,即使在擴展至175萬詞元的上下文時,仍能維持97.1%的效能。
时序定位(Temporal Grounding, TG)旨在定位与文本查询相对应的视频片段。以往研究主要聚焦于单一段落的检索。然而,现实场景中常常需要为单个查询定位多个不连续的片段——我们将这一设定称为"一对多时序定位"(One-to-Many Temporal Grounding, OMTG)。此前最先进的多模态大语言模型(MLLMs)针对一对一设置优化,在此场景下表现不佳,常因缺乏事件基数感知而获得近乎为零的分数。为弥补这一差距,我们提出了一套系统性的解决方案,包含三项关键贡献。首先,我们建立了首个全面的OMTG基准测试,引入计数准确率(C-Acc)和有效时序F1值(EtF1)作为评估指标。其次,通过一套精密的构建流程,我们整理了一个包含5.6万个样本的高质量OMTG数据集。第三,我们针对OMTG开发了新颖的时序奖励函数和字幕奖励函数。特别地,字幕奖励函数利用对密集视频字幕的思维链推理,显式引导策略优化,兼顾准确性与完整性。大量实验表明,我们的模型在OMTG基准上实现了43.65%的EtF1值,达到新的最优水平,分别超越Gemini 2.5 Pro和Seed-1.8达15.85%和15.61%。
大型語言模型(LLM)代理逐漸應用於諸如科學發現與機器學習工程(MLE)等長期任務,其中持續性的自我演化成為一項關鍵能力。然而,現有的MLE代理存在分支間資訊隔離、無記憶搜尋以及缺乏層級控制等問題,這些缺陷共同限制了長期最佳化的成效。我們提出MLEvolve——一個基於大型語言模型、自我演化的多代理框架,專為端到端機器學習演算法發現而設計。透過將樹狀搜尋擴展為漸進式MCGS,MLEvolve基於圖結構的參考邊實現跨分支資訊流動,並藉由熵啟發的漸進式排程,使搜尋逐步從廣泛探索轉向聚焦利用。為使代理能隨著累積經驗進行演化,我們引入回溯記憶機制,該機制結合冷啟動領域知識庫與動態全局記憶,用於任務特定經驗的檢索與重複使用。為實現穩定的長期迭代,我們進一步將策略規劃與程式碼生成解耦,並採用自適應編碼模式。在MLE-Bench上的評估顯示,MLEvolve在多個面向(包括在12小時預算、即標準運行時間一半的條件下的平均獎牌率與有效提交率)均達到最先進效能。此外,MLEvolve在數學演算法最佳化任務上亦優於包括AlphaEvolve在內的專業演算法發現方法,展現出強大的跨領域泛化能力。我們的程式碼已公開於 https://github.com/InternScience/MLEvolve。
视频在时间维度上存在冗余:相邻帧通常共享大部分物体、背景及布局。然而,现有的视频多模态大语言模型通常将每帧采样视作独立RGB图像编码,导致视觉标记重复出现先前帧已包含的内容。这表明需要更直接的视频交互方式:仅在场景无法根据先前上下文较好预测时传输完整参考帧,否则传输帧间变化的紧凑描述。我们将这种交互方式称为预测视觉编码,并针对视频多模态大语言模型将其实例化为AdaCodec。只有当条件预测代价较高时,AdaCodec才会对参考帧分配完整视觉标记;否则,它会将包含运动信息和预测残差的帧间变化编码为紧凑的P标记。在全部十一个基准测试中,AdaCodec在匹配视觉标记预算的条件下,较Qwen3-VL-8B逐帧RGB基线表现更优。即使在七分之一的预算下(32k标记),AdaCodec在所有长视频基准测试中仍超越224k基线;在五个通用视频基准测试中,它提升平均得分的同时,将首字生成时间从9.26秒大幅缩短至1.62秒。
系統提示最佳化可在不修改底層模型的情況下改善智能體行為,產生人類可讀且與模型無關的指令。現有方法透過建立提示智能體來精煉任務智能體的系統提示,但其自身的系統提示仍採用手動設計且固定不變。我們提出自演化提示最佳化(SePO),將提示智能體自身的系統提示連同任務智能體的系統提示一同視為最佳化目標。SePO採用自指涉設計,由單一提示智能體同時改進任務智能體的系統提示及其自身,採用開放式演化搜尋機制,維護一個候選提示檔案庫作為階梯式前進的基石。訓練分為兩階段:預訓練階段在多任務池上演化提示智能體,微調階段則將其應用於特定目標任務。在涵蓋數學(AIME'25)、抽象推理(ARC-AGI-1)、研究生級科學(GPQA)、程式碼生成(MBPP)及邏輯謎題(數獨)等五項基準測試中,SePO一致優於Manual-CoT、TextGrad及MetaSPO,相較於Manual-CoT平均準確率提升4.49個百分點。此外,預訓練所得的提示最佳化技能能夠泛化至訓練混合任務以外的任務,而非僅記憶各別任務的提示。
多模態大型語言模型(MLLMs)在二維語義理解上表現卓越,但其本質缺乏三維感知能力,導致表徵無法維持跨視訊影格的幾何與空間一致性。針對大規模三維數據稀缺的問題,我們提出GeoVR——一個僅利用二維視訊序列學習幾何表徵的新型框架。該方法能有效重構MLLM內部的語義潛在空間,從而釋放其空間智慧。GeoVR並非採用淺層特徵混合,而是透過從預訓練的三維基礎模型中蒸餾幾何知識,重塑MLLM的內部表徵。此過程藉由多目標學習策略實現,由四個互補的幾何目標驅動:(1)估計影格間相機姿態以嵌入動態視角變化;(2)回歸稠密深度圖以錨定物理距離;(3)預測度量比例因子以進行真實世界校準;(4)蒸餾多尺度三維特徵以對齊中間特徵空間。在這些明確的物理與幾何約束引導下,模型的內部表徵自然形成了強烈的三維感知能力。在空間推理基準上的大量實驗證明,GeoVR達到了最先進的效能,為賦予基礎模型空間智慧建立了新典範。
自動語音辨識(ASR)已成為人機互動的關鍵技術。然而,語碼轉換ASR(CS-ASR)仍面臨嚴峻挑戰,主因在於跨多種語言對的多語CS語音資源嚴重匱乏。現有方法主要透過生成合成CS語音,或針對有限雙語資料集進行特定語言對微調,來提升CS-ASR表現。然而,這類方法存在固有的可擴展性限制,因為支援CS必須針對各語言對分別開發,而語言對數量會隨支援語言數目呈組合數增長。本研究探討能否透過模型合併與領域泛化方法,將從有限觀察語言對所學得的CS能力,推廣至未觀察語言對。實驗結果顯示,合併後的雙語CS-ASR模型對未觀察語言對展現有限的泛化能力,表示雙語CS能力在不同語言對間的遷移效果有限。
视觉-语言-动作模型(VLA)利用预训练视觉语言模型(VLM)丰富的世界知识,实现了遵循指令的机器人操作。然而,VLM语义空间与具身控制策略之间的结构不匹配,常常阻碍精确感知-动作映射的学习。为应对这一挑战,我们提出AffordanceVLA——一个统一框架,通过引入结构化可负担性预测作为任务导向的中间表示,建立更精确鲁棒的感知-动作映射。具体而言,我们通过三个互补组件逐步建模操作先验:1) Which2Act:通过视觉潜在预测实现以物体为中心的注意力聚焦,抑制干扰;2) Where2Act:通过可负担性图估计实现二维交互定位;3) How2Act:通过三维几何推理指导操作策略。这些可负担性线索提供空间锚定、语义条件化且与动作耦合的中间表示,从而自然桥接视觉、语言与动作。我们将这些模块集成到具有专门专家的混合Transformer(MoT)架构中,并采用三阶段训练策略与渐进式数据课程进行模型训练。为克服机器人数据集中密集可负担性标签的稀缺性,我们开发了鲁棒的自动化数据增强流水线。在仿真和真实场景中的大量实验表明,AffordanceVLA在多样化操作场景中均实现了强大性能。
世界-动作模型(WAMs)通过迭代扩散联合生成未来视频和机器人动作,在操控基准测试中表现优异,但需要数十次去噪步骤,这一成本使其无法实现实时控制。步蒸馏成为自然解决方案,但现成方法在联合视频-动作设定中失效,原因在于视频和动作流采用不同的信噪比偏移噪声调度,并在训练时具有显著不同的边际噪声分布——这种非对称性是单模态蒸馏方法无法应对的。我们提出Flash-WAM,一种受一致性蒸馏启发的模态感知步蒸馏框架,其为每种模态选择与噪声机制相匹配的一致性函数:为动作流的低噪声机制采用线性梯度缩放参数化,为视频流的高噪声机制采用方差保持参数化,这一设计基于对一致性函数族的结构性分析——该分析刻画了在一致性边界条件下可实现的梯度缩放特性。在LingBot-VA上实例化后,Flash-WAM将推理压缩至每种模态单步完成。在RoboTwin 2.0上,单块延迟从8.1秒降至NVIDIA L40S上的348毫秒,实现23倍加速,从而支持实时推理。Flash-WAM在仿真基准测试中保持任务成功率(RoboTwin 2.0上85.5%,LIBERO上95.7%),并在真实世界性能上显著恢复(宇树G1人形机器人平均60%),而朴素一致性蒸馏在相同步数下仅能达到24%。
在机器人系统中,大量视觉数据可轻松地通过低成本、低功耗的硬件以高分辨率获取。然而,有限的带宽和设备端计算资源阻碍了通过传统编解码器(如JPEG/MPEG)传输这些数据时的充分利用。新型编解码器(如AV1/AVIF)改善了率失真权衡,但需要更多的编码资源,若缺乏定制ASIC则难以实际应用。近期的不对称自编码器在极端功耗和带宽限制下实现了高质量,但解码成本过高,且采用定制格式,忽略了围绕JPEG等标准建立的数十年基础设施。为解决这些局限,我们提出了一种面向云机器人的压缩框架——传感器嵌入自编码器与一次性转码高效重建(SEAOTTER)。由于传感器、云和消费端面临截然不同的功耗与带宽预算,SEAOTTER结合了学习型潜空间的紧凑性与标准JPEG文件的广泛可用性。鉴于简单转码会降低性能,我们提出了一种可学习的JPEG颜色与量化变换,能够提升全局、密集及视觉语言感知的准确性。使用SEAOTTER,我们为预训练的冻结编码器训练了通用型和任务感知型转码流程。在200:1的压缩比下,与AVIF相比,我们的编码速度提升7倍,解码速度提升3.5倍,ImageNet top-1准确率提升8%,同时保持与JPEG基础设施的兼容性。我们的代码详见 https://github.com/UT-SysML/seaotter。
多模態大語言模型(MLLMs)在通用視覺問答(VQA)任務中已展現顯著成果。然而,在機械工程圖紙場景中,由於註釋密度高、領域知識薄弱,加上嚴格的投影規則與幾何約束下不可靠的空間關係推理,導致關鍵線索容易遺漏,經常產生錯誤答案。為填補此缺口,我們首次提出全面的機械圖紙理解資料集 MechVQA,透過半自動化建構與品質管控流程產出。MechVQA 包含 3.3 萬張高密度圖像與 2.1 萬組問答對,涵蓋三種能力層級(辨識、推理、判斷)共 10 項細粒度任務,為評估並提升 MLLM 對真實機械圖紙的理解提供測試平台。在此基礎上,我們進一步透過多階段訓練範式開發 MechVL 模型,建立強大的領域專用基線。大量實驗結果顯示,MechVL 在 MechVQA 總分上超越最強的閉源基線 7.57 個百分點,顯著增強機械圖紙理解能力,並為在機械設計與檢測場景中部署 MLLM 提供可重複使用之基礎。
大型語言模型日益被用來模擬社交媒體使用者,並推斷個人可能如何在線上對話中回應。然而,這些模擬是否反映精確的個人信念,或者是否對對話情境中語義獨立的變化高度敏感,目前仍不明確。在本研究中,我們探討反事實情境修改作為審計基於大型語言模型的立場模擬之框架。對於一場原始線上對話,我們首先推斷目標使用者針對特定主題的立場。接著,我們對對話情境施以受控的修改策略,並在修改後的情境下再次模擬使用者的立場。我們比較純文字修改策略與納入迷因式情境的多模態策略,並評估兩個主要有效性指標,即平均方向性立場轉移與立場轉換率。結果顯示,在不同的極化偏好機制下,純文字與多模態策略均能實現有效且穩健的立場轉換。本研究提出一個評估框架,用以理解基於大型語言模型的立場模擬之情境敏感性。更廣泛而言,本研究凸顯了使用大型語言模型模擬線上意見動態的潛力與風險。
大型語言模型常透過生成明確的思維鏈(CoT)來提升推理能力,凸顯了中間計算的重要性。然而,文字形式的思維鏈迫使這種計算必須透過離散、序列化且以溝通為導向的符號序列進行:每一步推理都必須先以語言表述,模型才能繼續下一步,即使底層的更新是語義性、不確定或僅部分成形的。潛在推理提供了一種高頻寬的替代方案,在承諾轉換為文字之前,先以緊湊的連續狀態執行中間計算。然而,現有的潛在推理方法往往犧牲了自回歸語言模型中使思維鏈有效的關鍵優勢,包括原生從左到右的生成、機率取樣、與KV快取解碼的相容性,以及可處理的似然估計。我們提出NF-CoT,一個保留這些優勢的潛在推理框架,透過正規化流對連續思維進行建模。NF-CoT在大型語言模型主幹內部實例化一種TARFlow風格的正規化流,定義了一個關於從明確思維鏈提煉而來的緊湊連續思維的可處理機率模型。連續思維的位置由NF頭生成,而文字位置則由同一因果流中的標準語言模型頭生成。此設計為潛在思維提供了精確的似然,實現了使用原始KV快取的機率性從左到右解碼,並支援在潛在推理空間中直接進行策略梯度優化。在程式碼生成基準測試中,NF-CoT在提升通過率的同時,相較於明確思維鏈及先前的潛在推理基準,顯著降低了中間推理成本。
大型語言模型(LLM)代理的近來進展已在自動化資料科學領域帶來前景可觀的突破。然而,現有方法仍受限於其靜態動作集合與缺乏原則性的長程脈絡管理機制,從而阻礙了它們在跨任務中累積可重複使用的經驗,以及在多階段、迭代式資料科學管線中穩定運作的能力。為應對這些挑戰,我們提出EvoDS——一種透過代理強化學習來學習擴展自身技能、並自適應管理長期脈絡的自我演化自主資料科學代理。具體而言,EvoDS引入了兩項關鍵策略:(1)自主技能獲取(ASA)機制,使代理能夠合成、驗證並重複使用可執行技能;以及(2)自適應脈絡壓縮(ACC)策略,將脈絡管理視為一種學得的控制問題,而非被動截斷。這些策略在一個兩階段多代理訓練方案中被協調運用,使EvoDS能夠隨著時間自主改進。從理論上,我們證明了EvoDS的分層設計降低了工具選擇錯誤率,且其優化目標與資訊瓶頸原則一致,確保了脈絡的高效使用。在實證上,EvoDS在四個不同基準測試中平均比現有最先進的開源資料科學代理高出28.9%,同時完全消除了超出令牌長度的失敗。我們的程式碼與資料可於https://github.com/usail-hkust/EvoDS取得。
像「林偉在哪裡?」這類情境式查詢,所編碼的資訊往往超越其字面內容:使用者可能也想了解林偉是否有空、心情好不好,或者現在是否適合打擾他。標準的工具使用型代理只會回答字面問題便停止。AURA 在場景感知與工具使用之間插入一個推理步驟,生成一個「意圖框架」(IntentFrame):這是一個對隱含需求的結構化估計,並附有標量差距分數(gap score),用以控制每次查詢的探測預算與工具選擇。在一個包含 100 項查詢、四個場景的隱含意圖基準測試中,AURA 在隱含需求覆蓋率上優於 ReAct 風格的探測方式(差異 Δ = +0.07,p < 10⁻⁶);四個場景中有三個達個別顯著水準,此提升在另一個骨幹模型上獲得複現,且提示消融實驗顯示,這項提升來自差距校準(gap calibration),而非答案記憶。在事實查詢方面,控制器以犧牲原始準確率為代價,減少了 82% 的探測次數,並在隱私敏感區塊上實現零次違規工具使用;適用範圍詳見<限制>部分。程式碼、模擬器及基準測試已於 https://github.com/innovation64/AURA 釋出。
自動駕駛需要推理自車行為如何影響周邊世界的演變。然而,多數端到端方法依賴於直接從狀態到動作的映射,僅捕捉相關性而未明確建模以動作條件為基礎的動態。與此同時,連續潛在空間的世界模型往往缺乏用於跨反事實未來進行因果推理的組合結構。我們提出 Discrete-WAM,這是一個統一的潛在視覺-動作世界策略,能將未來視覺狀態與自車行為對齊為離散標記,從而實現跨替代未來的組合因果推理。基於此統一的離散對齊機制,Discrete-WAM建立了一套共享離散擴散框架與統一的生成任務,共同整合世界建模、世界-動作策略及具分層決策能力的策略,支援跨多樣駕駛場景的組合泛化。在大規模自動駕駛基準測試中的實驗結果顯示,Discrete-WAM在維持競爭性能的同時,具備可控生成與反事實推理能力,為實現更可靠的決策提供了一條具原則性的發展路徑。
基於擴散的圖像編輯技術在自然語言指令下已實現高度視覺真實性,然而現有系統大多仍停留在表面指令遵循層次,缺乏對使用者真實請求中隱含脈絡約束的推理能力,導致生成在視覺上合理但邏輯不一致的編輯結果。本研究提出RE-Edit,一個專為推理感知式圖像編輯設計的基準測試,從物理、環境、文化、因果與指涉五個互補推理維度評估圖像編輯系統。RE-Edit包含1,000組精心篩選的樣本,每組樣本設計成僅靠視覺合理性不足,正確編輯必須滿足隱含的邏輯約束。為支援細粒度分析,我們建立維度對齊的評估標準,並對十個開源與兩個商用圖像編輯模型進行全面研究。結果顯示,即使先進系統在產出高品質視覺結果的同時,仍經常在隱含的多維推理上遭遇困難。我們進一步提出一個輕量級的推理引導後編輯基線方法作為初步探索,說明在模型無關的架構下插入顯式推理如何協助緩解此類失誤。
對於預訓練流策略的離策略強化學習,由於多步採樣過程導致的優化不穩定性,仍然具有挑戰性。近期,透過將問題重新表述為具有學習評論家的無記憶隨機最優控制問題,Q學習與伴隨匹配(QAM)解決了這一問題。然而,QAM繼承了評論家引導改進的一個基本脆弱性:當評論家的條件不佳時,微小的評論家誤差會被放大,常常導致模型崩潰。本文介紹了信賴區域Q伴隨匹配(TRQAM),這是一種穩定的離策略微調算法,通過投影對偶下降自適應地控制與預訓練流策略之間的路徑空間KL散度。具體而言,我們優化SOC動態中的信賴區域參數λ,並在理論上證明路徑空間KL散度可以用λ的閉式函數來表示。因此,我們的方法可以精確控制與預訓練流策略的實際偏差,從而實現穩定的離策略強化學習。透過在50個OGBench任務上的實驗,TRQAM在離線強化學習和離線到線上強化學習中均持續優於先前的方法。特別是,TRQAM在離線強化學習中達到了68%的總體成功率,相對於最強的基線方法(46%)有顯著提升。
在本論文中,我們研究與具備適應能力的對手(即能根據歷史對局做出反應)進行重複博弈時的遺憾最小化問題。已知標準的線上學習外部遺憾指標無法捕捉此類適應性。為納入參與者的反事實推理,我們提出「重複策略遺憾(RP-Regret)」——這是一個博弈論指標,衡量當所有參與者均能對歷史對局做出反應時,其實際累積效用與事後最佳累積效用之差異。相較於該領域現有遺憾概念,本指標原生於重複博弈場景,能在維持所有參與者最小化該指標時發現更佳均衡的可能性之同時,允許更強的比較對象與限制更少的對手策略。我們首先找出使「RP-Regret」隨時間呈次線性變化的必要條件,這些條件涉及遺憾定義中參與者比較策略的變異程度,以及比較對象與對手策略的記憶長度。接著,我們研究最小化「RP-Regret」的額外條件與可證明演算法——該指標依定義在策略空間中為非凸函數。為應對此挑戰,我們提出三種演算法:(一)基於最佳化神諭(如同部分先前線上非凸學習研究之假設);(二)每次迭代時最小化「RP-Regret」的凸線性化代理函數;(三)當對手策略緩慢變化時直接最小化「RP-Regret」。此外,當所有參與者均可執行最小化「RP-Regret」(或其線性化變體)的演算法時,重複博弈中的特定子博弈完美均衡可被學習。我們也提供實驗,顯示最小化所提出的遺憾概念能在如「獵鹿博弈」等遊戲中促成更高效用的合作解。
基準測試透過提供標準化且明確的績效衡量標準,對於評估與推進大型語言模型(LLMs)及多模態大型語言模型(MLLMs)至關重要。然而,這類基準的建構既耗費人力又難以重複使用,引發了對其永續性與可擴展性的擔憂。此外,現有基準測試在發布後往往迅速達到性能飽和,導致無法有效區分最先進模型之間的差異。為應對這些挑戰,我們提出「基準代理人」(Benchmark Agent),這是一套完全自主的代理系統,專為基準建構而設計。我們的框架協調了完整的基準建構流程,從使用者查詢分析、子任務設計,到資料標註與品質控管。為評估基準代理人,我們實際建構了15個具代表性的基準測試,涵蓋多種評測場景,包括文本理解、多模態理解以及領域特定推理。透過大規模實驗,包括人工評測、大型語言模型作為評審的評估,以及一致性檢驗,結果顯示基準代理人能在極少人為介入下產出高品質的基準樣本。更重要的是,在持續評測過程中,我們觀察到若干具啟發性的發現,例如現有模型在特定領域推理任務上仍存在困難。我們相信,快速演進的基準測試將對學術社群產生重大貢獻。預覽頁面與程式碼將於展示頁面及程式碼庫公開。
大型語言模型在基本算術中表現出看似矛盾的脆弱性,暗示內部計算與離散輸出之間存在脫節。通過分析多運算元加法過程中的殘差流幾何,我們辨識出「等原始和軌跡」(Iso-Raw-Sum Trajectory, IRST)——一種由語義數字錨定、並受連續進位纖維調製的幾何結構。我們提出「噪聲量化模型」來解釋此幾何現象,將算術錯誤歸因於「幾何滑移」(Geometric Slippages),即內部神經噪聲推動連續的潛在進位勢跨越量化閾值所致。此幾何框架進一步闡明了「探針通用性」(Probe Versatility),解釋了輕量級探針如何從單一激活向量中分離出共存潛在訊號(例如真實答案與幻覺)。最後,我們通過一種幾何一致性檢查方法驗證了這些見解,該方法能在推論過程中有效檢測並修正此類量化失效。我們的程式碼已公開於 https://github.com/RL-MIND/Shape-of-Addition。
具備網路搜尋能力的自主性大型語言模型改變了文字匿名化的威脅模型:微弱的上下文線索可能成為可交叉引用的重新識別證據,然而這些相同的細節也承載著文本的後續分析價值。現有的防禦措施要不移除明確識別符、擾動文本以達到正式隱私保護,要不針對非網路推論模型測試改寫後的文本,因而在抵抗自主性網路搜尋重新識別與效用保留之間的運作區間仍未被充分探索。我們提出AURA(具效用保留適應性的匿名化),一個由大型語言模型驅動的遮蔽-重建框架,將隱私定位與效用保留重建分離,並透過對抗性隱私與效用保留檢查來選出候選結果。我們利用由網路搜尋代理執行的重新識別攻擊,在真實用戶訪談記錄上評估AURA,同時基於受訪者輪廓事實、編碼簿事實及聯合上下文效用網格進行效用評估。結果顯示,AURA透過自適應隱私範圍來強化對自主性重新識別的抵抗能力,並運用遮蔽-重建匿名化方法在固定隱私範圍下更佳保留上下文效用,從而改進了隱私-效用邊界。
在視覺語言模型中處理影片的運算成本高昂:每一幀畫面佔用數百個代幣,而推論成本隨著每一幀和每一次重複查詢而增加。我們提出 Video2LoRA,一種用於參數化影片內化的方法。一個感知器超網路在凍結的視覺語言模型編碼影片時,逐層讀取其產生的中間表徵,並在單次前向傳遞中生成一個低秩適應(LoRA)適配器。與需要迭代梯度更新的標準 LoRA 微調不同,Video2LoRA 直接從影片預測這些權重。針對 SmolVLM2 500M 和 2.2B 模型,在影片摘要與字幕生成任務上進行訓練後,Video2LoRA 使同一凍結的視覺語言模型僅需透過該適配器即可回答查詢,而在查詢階段的上下文內無需任何視覺代幣。在所有五個字幕生成基準測試的兩個模型規模下,以及在八個影片問答基準測試-模型規模配對中的七個上,Video2LoRA 在統計上非劣且等效於直接將影片納入上下文的推論方法。儘管僅在 12 幀、384像素的設定下訓練,該方法在 1,024 幀及 1,024 像素時仍保持穩定,而直接將影片納入上下文的推論在此情況下常出現退化。在這一範圍內,它將回答階段的視覺代幣負載降低多達 1,500 倍,將查詢的首個代幣時間(TTFT)降低 6 至 80 倍,同時維持忠於影片的輸出。我們還發現,為非重疊影片片段獨立生成的適配器可在秩空間中組合,這表明了一條邁向分塊長影片內化的途徑。
金融AI代理常因一個簡單的原因而失敗:它們讓用戶承擔了複雜性。用戶必須反覆陳述目標、風險偏好、投資組合背景、過往判斷以及不斷變化的市場假設,而代理則進行回答、檢索、操作,然後遺忘。在金融領域,這不僅僅是不方便。在市場分析、跟單交易審查及交易準備等任務中,被遺忘的背景脈絡與過時的記憶可能導致延遲、重複錯誤、審計追蹤薄弱,以及不安全的決策。 我們提出「交互原生知識套件」(Interaction-Native Knowledge Harness,InKH),這是一種專為金融大型語言模型代理設計的架構,能將複雜性吸收至系統內部。InKH 將用戶事件、市場事件、投資組合事件及工具事件轉化為結構化的操作知識。它在主要模型步驟之前,利用被動知識注入來組裝一個有界的運作背景緩衝區;採用低延遲檢索的時間圖記憶;提供可讀性強的維基審計界面以實現治理;並具備背景提取機制,包含成熟度、衰減度及寫入時失效判定。 我們在一個可複現、受控的合成基準測試上對 InKH 進行評估:使用 24 個隨機種子、4 輪測試、每輪 80 個回合及 6 個基線,共產生 46,080 組基線條件評估結果。InKH 在 900 毫秒延遲下達到了 0.815 的平均任務品質。與代理驅動的維基漫步記憶相比,它將延遲降低了 82.95%,令牌成本降低了 82.29%,過時知識使用率降低了 96.58%,同時品質提升了 0.108,可追溯性提升了 0.461。與未含失效機制的時間圖系統相比,它在服務成本相當的情況下,品質提升了 0.050,過時記憶使用率降低了 96.58%。 這些結果支持一個金融人工智慧的設計論點:當複雜性被系統吸收而非轉嫁給用戶時,採用率才會提升。該基準測試驗證的是架構層級的行為,而非即時交易績效。
基於可驗證獎勵的強化學習(RLVR)近期已成為塑造大型語言模型(LLMs)卓越編碼能力的核心基石。然而,RLVR的可擴展性受到嚴重限制,原因在於缺乏足夠具有挑戰性且貼近模型能力邊緣的可驗證編碼任務。先前研究常依賴啟發式種子擴展進行數據合成,這嚴重限制了任務的新穎性與難度。因此,此類數據的訓練價值無法隨著合成規模成比例提升。為此,我們提出原子分解與重組(ADR)框架,通過將可驗證編碼任務分解為原子元素並進行受控重組,從而實現生成真正新穎且具挑戰性的可驗證編碼任務。實驗與分析表明,相較於現有基準方法,ADR在原創性、難度、多樣性及測試品質上均表現更優,並能在多樣下游領域(包括演算法程式設計、工具使用及數據科學)的RLVR訓練中,持續帶來更顯著的編碼能力提升。本研究為新穎編碼任務合成與可擴展的RLVR訓練開闢了新範式。
音樂推薦系統通常將歌曲視為不透明標記,依賴協作互動歷史,忽略了語義或聲學內容。先前的研究已探索了LLM增強、多模態及文本增強的序列推薦方法,雖然部分方法部分結合了語義、聲學或參與訊號,但沒有任何方法能在統一的基於LLM的序列推理框架中共同建模這三者,並將推薦建立在實際歌曲內容之上。在本研究中,我們提出一個基於會話的音樂推薦多模態框架,透過三種互補訊號豐富LastFM-1K資料集:(1)使用預訓練音樂與文本表示模型提取的音訊與歌詞嵌入;(2)使用MGPHot註釋架構由LLM生成的語義後設資料;以及(3)收聽完成比率。我們採用E4SRec框架,並透過多模態特徵與不同的項目ID編碼器主幹(包括SASRec、BERT4Rec與GRU4Rec)對其進行擴展。我們進一步以LLaMa-2-13B、Qwen2.5-7B-Instruct及LLaMa-3-70B擴展了LLM主幹選項,並在零樣本與微調兩種設定中進行實驗。結果顯示,整合基於內容的特徵在召回率上比僅使用ID的基準提升高達95%,在NDCG上提升高達79%。此外,實驗結果表明單純的多模態融合並非總能帶來加乘提升,凸顯了跨模態整合的挑戰。我們釋出一個大規模的多模態音樂推薦基準資料集。
大型語言模型日益被部署為編碼智能體,將安全性從個別回應轉移到行動序列。然而,現有基準測試主要評估模型是否拒絕不安全提示,而未充分檢視對有狀態工作區的影響。我們提出 SABER,一個用於環境感知操作安全性的基準測試,該測試將模型置於實際的智能體風格專案中,並根據一系列行動後的最終環境狀態來評估安全性。除了二元安全違規報告外,SABER 依原因分類違規,從而能夠分析模型特定的安全概況。我們的評估顯示,即使表現最佳的模型,其有害安全違規率(HSR)也超過 54%,這表明當前的對齊在實際專案環境中仍不足。SABER 進一步揭示了不同模型間的安全概況差異。我們的基準測試公開於 https://github.com/sssr-lab/saber。
AI研究常需在未來證據出現前做出決策:該攻克哪個瓶頸、該探索哪個方向、或專案應如何定位。我們提出ForeSci,這是一個時間控制基準,用於評估LLM代理是否能根據歷史證據做出此類前瞻性研究判斷。ForeSci包含500項任務,橫跨四個快速發展的AI領域及四類決策。每項任務配備一個與截止點對齊的離線知識庫;截止點後的論文在生成階段被隱藏,僅用於驗證。為避免隨機預測未來事件,任務基於截止點前的分類分支與證據信號推導,且答案生成的骨幹模型選用時間早於任務截止點。我們評估了原生LLM、混合RAG及三種研究代理調適方法,涵蓋四種骨幹模型。結果顯示,明確的證據組織可提升可追溯性與事實支持,但其效益高度依賴決策類型。診斷分析揭示一種反覆出現的「證據-決策脫鉤」現象:代理可能引用相關證據,卻預測錯誤的研究對象。ForeSci將前瞻性AI研究判斷轉化為可控基準,用於評估研究代理作為決策系統的表現。
訓練準確的醫學影像分割模型需要大量密集標註的資料,而取得此類資料既昂貴又耗時。半監督學習(SSL)可透過同時利用大量未標註資料與少量標註資料來減輕此問題。然而,多數現代半監督學習方法依賴於未標註資料的偽標籤,並通常透過模型信心或不確定性來評估其可靠度,此類評估方式具有自我參照性,且缺乏基於分割品質的明確依據。為此,我們提出一種以品質引導的半監督學習框架,透過訓練專用網路,從影像-遮罩對中估算分割品質。該品質預測器基於透過合成擾動所產生的可變品質遮罩進行訓練,並結合部分訓練過的分割模型所輸出的不完美結果,以此捕捉訓練過程中遇到的實際誤差模式。我們透過兩種互補機制將品質預測器整合至半監督學習中:品質感知正則化損失函數,以及基於品質的偽標籤樣本重新加權方案。我們證明,該方法可作為現有半監督學習框架的即插即用增強模組。在五個資料集與多種架構上進行的廣泛實驗顯示,相較於其他競爭性的半監督學習方法,本方法持續帶來改進,推動了半監督醫學影像分割的最新進展。
學習CAD模型的表徵是一個很大程度上尚未解決的問題。儘管3D表徵學習在點雲和網格領域蓬勃發展,但CAD的原生格式——邊界表示(BReps),它編碼了精確的參數化曲面、曲線及其拓撲結構——作為表徵學習的基礎卻鮮少受到關注。我們引入了BRepCLIP,這是首個通過對比預訓練將BRep幾何與語言和圖像嵌入對齊的框架。我們將每個CAD物件建模為一個由面和邊標記組成的序列,分別為曲面和曲線幾何設置獨立的離散詞彙表,並輔以空間和語義描述符,用於捕捉曲面類型(例如圓柱面、環面、NURBS)和曲線基元(例如直線、弧線、B樣條曲線)。一個Transformer編碼器將這些標記聚合為全局BRep嵌入,並通過聯合對比目標與CLIP的文字和圖像編碼器對齊。BRepCLIP生成的嵌入比現有的基於點的方法更具判別性和語義基礎,在ABC、CADParser和Automate數據集上,相較於OpenShape,Top-1檢索分別提升了40.4%、22.0%和23.9%,並在FabWave上的零樣本分類中,Top-1分數提升了15%。我們進一步展示了其作為CAD感知相似度度量在評估文本和圖像條件下的CAD生成中的效用,證明了結構感知預訓練對於多模態CAD理解的重要性。專案頁面可於 https://muhammadusama100.github.io/BrepClip2026/ 查看。