每日精選AI研究論文及翻譯
公共交通路线规划传统上依赖结构化的地图基础设施和复杂的路由引擎,而现有数据集不支持训练模型以绕过这种依赖。我们提出TransitLM——一个覆盖中国四座城市、包含超过1300万条公共交通路线规划记录的大规模数据集,涵盖120,845个站点和13,666条线路。该数据集以持续预训练语料库和基准数据的形式发布,用于三个评估任务并配有互补指标。实验表明,在TransitLM上训练的大语言模型能够以高准确率生成结构有效的路线,并隐式地将任意GPS坐标映射到合适的站点,而无需任何显式地图。这些结果表明,公共交通路线规划完全可以仅从数据中学习,从而实现直接从起止点信息到路线的端到端、无地图生成。数据集和基准可从 https://huggingface.co/datasets/GD-ML/TransitLM 获取,评估代码见 https://github.com/HotTricker/TransitLM。
多模態大型語言模型(MLLMs)日益被部署於需要人格感知的人機互動場景中,然而現有基準僅透過數值化的大五人格分數預測評估此能力,未能釐清模型究竟是透過行為理解真正感知人格,抑或僅憑表面模式匹配進行偏誤判斷。我們提出三項貢獻以填補此缺口:(i)新任務——定義「基於證據的人格推理」(Grounded Personality Reasoning, GPR),要求 MLLMs 透過「評分→推理→依據」的鏈路,將每項大五人格評分錨定於可觀察證據;(ii)新數據集——釋出 MM-OCEAN(1,104 支影片、5,320 道選擇題),經由多智能體管線與人工驗證產製,內含時間戳記的行為觀察、證據導向的特質分析,以及七大類線索依據選擇題;(iii)基準與分析——設計三層評估(評分、推理、依據),加上四項樣本層級失效指標:偏見率(Prejudice Rate, PR)、虛構率(Confabulation Rate, CR)、整合失敗率(Integration-failure Rate, IR)與整體依據率(Holistic-grounding Rate, HR),並對 27 個 MLLMs(13 個封閉源、14 個開源)進行基準測試。分析揭示一項驚人的「偏見鴻溝」:整體而言,51% 的正確評分並未奠基於檢索到的線索,而整體依據率僅落在 0–33.5% 之間。這些發現暴露了「答對分數」與「合理推理」之間的斷層,為 MLLMs 的接地社會認知發展繪製了路線圖。
可驗證獎勵強化學習(RLVR)已成為提升大型語言模型推理能力的核心技術。儘管其效果顯著,但回應層級獎勵如何轉化為詞元層級機率變化,至今仍未被充分理解。我們引入了RLVR更新的鑑別器觀點,指出策略梯度更新方向隱含地充當了詞元梯度向量上的線性鑑別器,從而決定學習過程中哪些詞元的機率被增加或減少。在標準的序列層級RLVR下,此鑑別器由優勢加權平均詞元梯度向量所形成的正側與負側質心建構而成。然而,這種質心建構可能被共有的高頻模式(例如格式符號)主導,從而削弱了那些能更好區分高獎勵回應與低獎勵回應的稀疏但具鑑別性的方向。為了解決此限制,我們提出了DelTA,這是一種鑑別性詞元信用分配方法,通過估算詞元係數來放大特定側的詞元梯度方向,並降低共享或弱鑑別方向的權重。這些係數重新加權了自我正規化的RLVR替代函數,使有效的側向質心更具對比性,從而重塑RLVR更新方向。在七個數學基準測試上,DelTA在Qwen3-8B-Base和Qwen3-14B-Base上分別比最強的同規模基線高出3.26和2.62個平均點。在程式碼生成、不同骨幹模型及領域外評估上的額外結果,進一步證明了DelTA的泛化能力。
個人助理代理(如OpenClaw)的興起,凸顯了大規模語言模型在支援用戶日常生活與工作方面的潛力日益增長。此類場景的核心挑戰在於主動式輔助,因為用戶常以模糊不清的請求出發,並未明確表達重要的需求、限制或偏好。然而,現有的基準測試鮮少評估代理是否能在隱藏意圖被明確說出前加以識別並採取行動,特別是在用戶需求逐漸浮現的持續多輪互動情境中。為填補此缺口,我們提出π-Bench,一個專為主動式輔助設計的基準測試,包含橫跨5個特定領域用戶角色的100項多輪任務。透過納入隱藏用戶意圖、任務間相依性及跨會話連續性,π-Bench評估代理在長時間互動中預測並因應用戶需求的能力,同時衡量長期任務軌跡中的主動性與任務完成度,更貼近真實使用情境。實驗顯示:(1) 主動式輔助仍具挑戰;(2) 任務完成度與主動性之間存在明顯區別;(3) 過往互動對於後續任務中主動意圖解析具有重要價值。
大語言模型中的長上下文推理受到完整注意力二次計算成本的制約。現有的高效替代方案通常依賴於原生稀疏訓練或啟發式 Token 淘汰,這在效率、訓練成本與準確性之間造成了不良的取捨。在本研究中,我們證明完整注意力的大型語言模型本質上已具備稀疏性,只需極少的調整即可轉化為高度稀疏的模型。我們的方法基於三項觀察:(1) 僅有少部分注意力頭真正需要完整的長上下文處理;(2) 長距離檢索主要由低維子空間主導,從而可藉由 16 維索引器高效檢索相關 Token;(3) 有用的 Token 預算高度依賴於查詢,因此動態 top-p 選擇比固定 top-k 稀疏化更為合適。基於這些見解,我們提出 RTPurbo,該方法僅為檢索頭保留完整的 KV 快取,並引入輕量級 Token 索引器以實現稀疏注意力。透過利用模型內在的稀疏性,RTPurbo 僅需數百步訓練即可完成稀疏化。在長上下文基準測試與推理任務上的實驗表明,RTPurbo 在保持近乎無損準確度的同時,帶來了顯著的效率提升,包括在 1M 上下文長度下高達 9.36 倍的預填充加速,以及約 2.01 倍的解碼加速。這些結果表明,無需昂貴的原生稀疏預訓練,即可從標準的完整注意力訓練中獲得強大的稀疏推理能力。
近年来,智能体的发展重新激发了对大语言模型长上下文推理能力的需求。然而,训练大语言模型具备这种能力需要昂贵的长文档整理或启发式上下文合成。我们观察到,智能体在解决问题时会产生大量轨迹,在多轮交互中调用工具并接收环境反馈。回答原始问题所需的证据因此分散在这些交互轮次中,需要整合远距离的上下文片段。然而,标准的智能体SFT会屏蔽工具响应,仅训练轮次级别的工具选择,造成监督盲区,使得这些分散的信号未被利用。我们提出智能体上下文编译(ACC),该方法将来自搜索、软件工程和数据库查询智能体的轨迹转换为长上下文问答对,将原始问题与多轮交互中收集的工具响应和环境观察结合,训练模型在不使用工具的情况下直接回答问题。这使问题与证据之间的依赖关系变得明确,从而能够直接监督跨越远距离片段的长上下文推理,且无需额外标注。ACC是一种简单但有效的方法,可与任何现有的长上下文扩展或训练方法结合,提供可扩展的监督微调数据。我们通过MRCR和GraphWalks验证了ACC在长程依赖建模任务上的效果,这两个基准测试要求跨轮次共指消解和长上下文图遍历。使用ACC训练的Qwen3-30B-A3B在MRCR上达到68.3(+18.1),在GraphWalks上达到77.5(+7.6),结果与Qwen3-235B-A22B相当,同时在GPQA、MMLU-Pro、AIME和IFEval上保持了通用能力。进一步的机理分析表明,ACC训练的模型表现出任务自适应的注意力重组和专家专业化。
可直接用于仿真的物理3D资产因其在下游任务中的广泛适用性而成为一个充满前景的研究方向。然而,现有的大多数3D生成方法要么忽略了物理属性,要么局限于单一资产类别(例如刚体、可变形体或铰接物体)。为解决这些局限性,我们提出了PhysX-Omni,一个面向多样化资产类型的统一框架,用于生成可直接用于仿真的物理3D模型。具体而言,我们开发了一种新颖且高效的几何表征方法,专为视觉语言模型设计,能够在不经压缩的情况下直接编码高分辨率3D结构,显著提升了生成性能。此外,我们构建了首个通用的可直接用于仿真的3D数据集PhysXVerse,涵盖多样化的室内外类别。更进一步,为全面且灵活地评估在真实环境中的生成与理解能力,我们提出了PhysX-Bench,包含六个关键属性:几何、绝对尺度、材质、可供性、运动学和功能描述。通过传统评估指标与PhysX-Bench的大量实验表明,PhysX-Omni在生成与理解任务中均表现出色。此外,补充研究进一步验证了PhysX-Omni在可直接用于仿真的场景生成与机器人策略学习等应用中的潜力。我们相信PhysX-Omni将显著推动广泛的下游应用,特别是在具身智能与基于物理的仿真领域。
聯合音視頻推理對於全方位理解至關重要,然而當前多模態大型語言模型在需要從兩種模態中提取細粒度證據進行推理時,仍面臨困難。一個核心限制在於,基於明確文本的思維鏈會將連續的音視頻信號壓縮為離散標記,削弱時間定位能力,並使中間推理偏向語言先驗。我們認為,統一的潛空間是此類推理更佳的媒介,因為它保留了密集的感官信息,同時仍與自回歸生成兼容。基於此見解,我們提出LatentOmni,這是一個跨模態推理框架,將文本推理與音視頻潛狀態交錯結合。LatentOmni引入特徵層級監督,使潛推理狀態與任務相關的感官特徵對齊,並使用Omni-Sync位置嵌入來維持潛在音頻與視頻狀態之間的時間一致性。我們進一步建構了LatentOmni-Instruct-35K數據集,其中包含用於監督潛空間推理的音視頻交錯推理軌跡。跨越多個音視頻推理基準的全面評估顯示,LatentOmni在評估的開源模型中表現最佳,並持續優於明確文本思維鏈基線,驗證了潛空間聯合推理是邁向更強大全方位理解的有效途徑。
試算表系統(例如 Microsoft Excel、Google Sheets)在現今以資料為核心的工作流程中扮演關鍵角色。隨著 AI 代理在自動化複雜任務(如操控電腦與生成簡報)方面能力日益增強,建構以 AI 驅動的試算表代理已成為一個具有前景的研究方向。現有大多數試算表代理依賴於對通用大型語言模型進行專門的提示設計;此設計雖在簡單試算表操作上具備潛力,卻難以處理真實應用中常見的複雜多步驟工作流程。 我們提出 Spreadsheet-RL,一個專門針對在真實 Microsoft Excel 環境中訓練試算表代理的強化學習微調框架。Spreadsheet-RL 具備自動化管線,可從線上論壇大規模收集配對的起始與目標試算表,並包含在財務與供應鏈管理等領域的特定領域評估任務,我們將這些任務彙編成新的 Domain-Spreadsheet 基準資料集。此外,它還包含一個專為多回合強化學習設計的 Spreadsheet Gym 環境:Spreadsheet Gym 透過 Python 沙盒暴露 Excel 的廣泛功能,並搭配一個精煉的驅動器,該驅動器整合了完整的工具集以及針對試算表任務精心設計的工具路由規則。透過全面的實驗,我們證明 Spreadsheet-RL 能顯著提升 AI 代理在通用與特定領域試算表任務上的表現:它在 SpreadsheetBench 上將 Qwen3-4B-Thinking-2505 的 Pass@1 從 12.0% 提升至 23.4%,並在我們策劃的 Domain-Spreadsheet 資料集上將 Pass@1 從 8.4% 提升至 17.2%。這些結果凸顯了 Spreadsheet-RL 在試算表自動化方面強大的泛化潛力與實際應用前景,廣義而言,它也展現了推動日常工作中基於 LLM 的資料介面互動的潛力。
自回歸視頻擴散模型已實現即時、動作條件下的世界生成。然而,維持一個持久的世界——即重新訪問先前視角時能產生一致內容——仍然是個待解決的問題。完整 KV 緩存注意力可確保此一致性,但會破壞即時性限制:記憶體佔用與注意力成本隨展開長度線性增長。滑窗推論雖恢復了吞吐量,卻失去了長期一致性。我們提出 WorldKV,一個免訓練框架,包含兩個組件:世界檢索與世界壓縮。世界檢索將被驅逐的 KV 緩存區塊儲存在 GPU/CPU 記憶體中,並透過相機/動作對應選擇性地檢索場景相關區塊,將其插回原生注意力視窗,無需重新編碼。世界壓縮則透過鍵-鍵相似度與錨定幀比較,修剪每個區塊中的冗餘標記,使每區塊儲存減半,從而在固定預算下容納兩倍以上的歷史資訊。在 Matrix-Game-2.0 與 LingBot-World-Fast 上,WorldKV 在約兩倍吞吐量下達到或超越完整 KV 記憶體的保真度,且無需任何微調即可與經過記憶體訓練的基線競爭。專案頁面:https://cvlab-kaist.github.io/WorldKV/
人工智慧(AI)正日益融入科學發現的過程,但其是否能預測科學進展仍屬未知。為探討此問題,我們提出一個基於時間錨定的評估框架,在可控知識限制下預測科學進展。我們介紹CUSP(截止條件限制下的未知科學進展),這是一個跨學科、事件層級的基準,透過可行性評估、機制推理、生成式解決方案設計及時間預測,評估AI系統的科學預測能力。在4,760個科學事件中,我們觀察到當前前沿模型存在系統性且依領域而定的限制。雖然模型能從競爭選項中辨識出合理的研究方向,但它們無法可靠地預測科學進展是否會實現,並系統性地錯誤估計其發生時間。各領域的表現高度異質,其中AI進展的時間預測性優於生物學、化學與物理學。模型對事件發生於訓練截止時間前後的敏感度極低,顯示此限制無法僅以訓練資料中的知識暴露解釋。在受控資訊存取下,額外的截止前知識能提升表現,但無法彌補與完整資訊情境的差距,而此差距在高引用進展中更為顯著。模型亦展現系統性的過度自信與強烈的回應偏誤,顯示不確定的估計不可靠。整體而言,當前AI系統在預測科學進展的工具角色上仍顯不足。既有知識的存取並未轉化為可靠的預測,且模型從事後資訊中獲益的程度,遠高於前瞻性的預測。
擴散變換器(Diffusion Transformers, DiTs)已成為文本到圖像生成的主流架構,然而在生成高於其訓練範圍的解析度影像時,其效能會下降。現有的免訓練方法透過修改推論階段的注意力行為來緩解此問題,通常結合旋轉位置嵌入(RoPE)外推與注意力縮放。然而,這些策略對具有不同頻率特性的RoPE分量施加統一且與內容無關的縮放,導致在保留整體結構與恢復細節之間產生取捨。我們提出SEGA,一種免訓練方法,能根據每個去噪步驟中潛在特徵的空間頻率結構,動態調整RoPE分量上的注意力縮放。這種自適應縮放能同時改善結構連貫性與細節保真度。實驗顯示,SEGA在多個目標解析度下持續提升高解析度合成品質,優於現有最先進的免訓練基準方法。
自動駕駛系統(ADS)的穩健訓練與驗證需要大量且多樣化的數據集。由自動駕駛車隊收集的專有數據雖然保真度高,但在規模、感測器配置的多樣性、地理覆蓋範圍以及長尾行為場景的涵蓋上均有所限制。相比之下,來自行車記錄器等來源的野外數據則具備極大的規模與多樣性,能捕捉關鍵的長尾場景與新環境。然而,這類非結構化的野外影像數據,與預期接收結構化多模態感測器輸入以進行驗證與訓練的自動駕駛系統並不相容。為了解決此數據缺口,我們提出 Sensor2Sensor,一種新穎的生成式建模典範,可將野外的單眼行車記錄器影片轉換為高保真度的多模態感測器套件(自動駕駛車輛日誌),包含多視角相機影像與光達點雲。核心挑戰在於缺乏配對的訓練數據。我們透過 4D 高斯潑濺(4DGS)重建與新視角渲染,將真實的自動駕駛車輛日誌轉換為行車記錄器風格的影片來解決此問題。Sensor2Sensor 隨後利用擴散架構執行生成式轉換。我們對所生成感測器數據的保真度與真實性進行了全面的量化評估。透過將具挑戰性的野外網路與行車記錄器影像轉換為逼真的多模態數據格式,我們展示了 Sensor2Sensor 的實用價值,進一步為自動駕駛車輛的開發解鎖了龐大的外部數據來源。
將視頻擴散模型的生成範圍擴展到長序列仍是一個長期且重要的挑戰。現有的免訓練方法可分為兩類:雙向模型的擴展(與特定架構緊密耦合,且在長序列中出現品質退化)與自回歸模型(因曝光偏差累積漂移誤差,並傾向產生重複動作模式)。為解決這些問題,我們提出一種新穎且簡單的推論時方法用於長視頻生成,該方法不受架構限制且無需額外訓練。我們的方法通過重疊滑動窗口生成長視頻,利用Tweedie匹配混合相鄰窗口的預測乾淨樣本,以在重疊區域同時強制流形約束與時間一致性。隨後,隨機早期採樣通過在高噪聲階段每次Tweedie匹配校正後注入新鮮噪聲來同步各窗口軌跡,再轉向確定性ODE採樣以保留細粒度視覺保真度。應用於多種視頻生成模型時,我們的方法能生成比原始窗口長度多倍的視頻,在時間一致性與視覺品質上優於免訓練與自回歸基線,並可進一步延伸至音頻-視頻聯合生成與文本到3DGS,無需任何微調。
多模態大語言模型(MLLMs)在空間智能方面取得了快速進展,然而現有的空間推理基準大多假設輸入為完美視覺,忽略了現實部署中常見的退化現象,例如動態模糊、低光照、惡劣天氣、鏡頭畸變和壓縮偽影。這引發了一個根本性問題:當視覺觀測不完美時,當前MLLMs的空間智能有多穩健?為回答此問題,我們提出了SpaceDG——首個大規模的感知退化空間理解數據集。該數據集基於物理驅動的退化合成引擎構建,將退化形成過程嵌入3D高斯潑濺(3DGS)渲染中,從而能真實模擬九種退化類型。最終數據集包含來自近1,000個室內場景的約100萬個問答對。我們進一步引入了SpaceDG-Bench,一個經人工驗證的基準,包含1,102道問題,涵蓋11個推理類別和9種視覺退化類型,提供超過1萬個視覺問答實例。對25個開源與閉源MLLMs的評估顯示,視覺退化會持續且顯著地損害空間推理能力,暴露了關鍵的穩健性差距。最後,我們證明在SpaceDG上進行微調能顯著提升退化穩健性,甚至在退化條件下超越人類表現,且在乾淨圖像上無任何性能下降,凸顯了以感知退化訓練實現穩健空間智能的前景。
大型語言模型(LLMs)與模組化技能的普及,賦予自主代理日益強大的能力。現有框架通常依賴單一的大型語言模型與固定邏輯來調用這些技能,這導致一個關鍵瓶頸:不同的LLM在不同領域各有優勢,然而現有框架未能充分利用模型與技能之間的互補特性,從而限制了其在下游任務上的表現。本文提出Maestro(Multimodal Agent for Expert-Skill Targeted Reinforced Orchestration),一個基於強化學習(RL)的編排框架,將異質多模態任務重新定義為在層級式模型-技能註冊表上的序列決策過程。Maestro並非將所有知識整合至單一模型,而是訓練一個輕量級策略,動態組合凍結的專家模型與雙層技能庫,每一步決定是否調用外部專家、選擇哪個模型-技能配對,以及何時終止。該策略透過基於結果的RL進行最佳化,無需步驟層級監督。我們在十個具代表性的多模態基準上評估Maestro,涵蓋數學推理、圖表理解、高解析度感知及領域特定分析。僅使用4B的編排器,Maestro平均準確率達70.1%,超越GPT-5(69.3%)與Gemini-2.5-Pro(68.7%)。關鍵的是,所學到的協調策略能泛化至未見過的模型與技能,無需重新訓練:在註冊表中加入領域外專家後,Maestro在四個具挑戰性的基準上平均達59.5%,超越所有閉源基線。此外,Maestro保持高計算效率與低延遲。原始碼已公開於 https://github.com/jinyangwu/Maestro。
自回归视频扩散模型(ARVDs)已成为流式视频生成领域一种极具前景的架构,为实时交互式视频生成和世界建模铺平了道路。尽管潜力巨大,但ARVDs高昂的推理成本仍是实际部署的主要障碍,因此模型量化成为提升效率的自然方向。然而,针对ARVDs的量化研究仍基本处于空白。我们的实证分析表明,直接将现有为标准扩散Transformer设计的量化方案应用于ARVDs会导致性能欠佳,揭示出与双向扩散模型截然不同的量化行为。本文中,我们识别出量化ARVDs面临的两大关键挑战:(C1)帧级量化敏感度严重不均衡。自回归生成过程中的误差累积会导致各帧的量化敏感度出现严重偏斜,呈现近似指数衰减的模式。(C2)权重中显著且异质的异常值模式。权重分布存在显著的异常值通道,这些通道的模式在不同层类型和模块深度间差异巨大。为解决这些问题,我们提出了Q-ARVD,一种用于精确量化ARVDs的新型框架。(S1)针对帧级敏感度严重不均衡,Q-ARVD将最终质量感知的帧加权机制融入量化目标中。(S2)为防止异质异常值降低性能,Q-ARVD引入了异常值感知的自适应双尺度量化,能够自动检测任意层的异常值通道是否存在及其数量,并将其隔离以保护正常通道。大量实验证明了Q-ARVD的优越性。
過程獎勵模型(PRM)是一種強大的機制,透過提供細粒度的步驟層級監督來引導大型語言模型的推理過程。然而,這種有效性伴隨著顯著的代價:PRM需要每個推理步驟的專家註解,使其成本高昂且難以擴展。在此,我們提出一種訓練無監督PRM(uPRM)的方法,該方法無需任何人工監督,既不需要逐步註解,也不需要最終答案的真實標註驗證。我們方法的關鍵想法是定義一個源自LLM下一個token機率的評分函數,該函數能共同評估一批推理軌跡中第一個錯誤步驟的候選位置。我們在各種場景中展示了uPRM的有效性:(i)在ProcessBench資料集上,uPRM在識別第一個錯誤步驟方面,比以LLM作為裁判的方法達到高達15%的絕對準確率提升;(ii)作為測試時擴展的驗證器,uPRM的表現與有監督的PRM相當,並比多數投票基線高出最多6.9%;(iii)當用作強化學習中的獎勵訊號時,與使用真實標籤訓練的有監督PRM相比,uPRM在整個訓練過程中實現了更穩健的策略最佳化。總體而言,我們的結果為複雜推理任務的可擴展獎勵建模開闢了一條道路。
線性注意力將 softmax 注意力的無界快取替換為固定大小的循環狀態,從而將序列混合降至線性時間,並將解碼記憶體降至常數。其困難不僅在於忘記什麼,更在於如何編輯這個壓縮後的記憶體,而不會擾亂既有的關聯性。Delta 規則模型會在寫入新值之前先減去當前讀取值,而Kimi Delta 注意力(KDA)則透過逐通道衰減來強化遺忘機制。然而,其主動編輯仍使用單一標量閘控來控制兩個不同的事情:在鍵(key)側要擦除多少舊內容,以及在值(value)側要提交多少新內容。我們提出 Gated DeltaNet-2,它透過繼承適應性遺忘與逐通道衰減,同時解決其共同限制(即擦除與寫入之間的標量綁定),來推廣 Gated DeltaNet 與 KDA。Gated Delta Rule-2 以逐通道擦除閘 b_t 與逐通道寫入閘 w_t 來分離這兩個角色;當兩個閘都收縮為相同標量時,它退化為 KDA;當衰減也收縮時,則退化為 Gated DeltaNet。我們推導出快速權重更新視角、一種將逐通道衰減吸收到非對稱擦除因子的分塊 WY 演算法,以及一種保持高效平行訓練的閘感知反向傳播。在 100B FineWeb-Edu 令牌上訓練的 1.3B 參數模型中,Gated DeltaNet-2 在語言建模、常識推理與檢索任務上,相較於 Mamba-2、Gated DeltaNet、KDA 及 Mamba-3 變體,取得了最全面的最佳結果。其優勢在長上下文 RULER「大海撈針」基準測試中尤為顯著,不僅在評估的多鍵檢索設定中獲得改善,而且在循環與混合設定下都保持強勁表現。程式碼已公開於 https://github.com/NVlabs/GatedDeltaNet-2。
開放式影像生成已不再是一個單純的提示詞到影像的問題。高品質生成往往需要一個智能體結合模型的內在生成能力與外部資源。隨著需求變得更多樣且更具挑戰性,我們致力於開發一個通用的影像生成智能體,該智能體能夠透過軌跡自我演化,並在不同生成挑戰中更有效地運用工具。為此,我們提出GenEvolve,一個基於工具編排視覺經驗蒸餾的自我演化框架。在GenEvolve中,每次生成嘗試都被建模成一條工具編排的軌跡,智能體從中收集證據、選擇參考、調用生成技巧,並將它們組合成一個提示-參考程式。與現有主要依賴影像層級標量獎勵的智能體生成方法不同,GenEvolve針對同一請求比較多條軌跡,並將最佳與最差之間的差異抽象為結構化視覺經驗,僅提供給特權教師分支。受線上策略自我蒸餾啟發,視覺經驗蒸餾提供密集的標記層級監督,幫助學生內部化更好的搜尋、知識啟動、參考選擇及提示建構。我們進一步構建了GenEvolve-Data與GenEvolve-Bench。在公開基準與GenEvolve-Bench上的實驗顯示,相較於強基線方法有顯著提升,達成了當前影像生成框架中的最佳性能。我們的網站如下:https://ephemeral182.github.io/GenEvolve/
大型語言模型(LLM)廣泛應用於生產環境,對推論系統的效能提出嚴峻考驗。分離式LLM服務(例如PD分離與KV狀態解耦)提升了可擴展性與成本效益,但同時也使KV成為跨越網路與儲存邊界的顯式傳輸負載,導致KV成為端到端的主要瓶頸。現有的KV壓縮通常採用靜態執行時期配置,然而生產服務情境在工作負載組合、頻寬及SLO/品質預算上隨時間變化,因此固定的選擇可能導致次佳表現,甚至增加延遲。我們提出《KVServe》,首個針對分離式LLM服務的感知服務且自適應的KV通訊壓縮框架:KVServe (1) 將KV壓縮統一為模組化策略空間,包含新元件與跨方法重組;(2) 引入貝葉斯分析引擎,高效搜尋此空間並提煉出3D帕累托候選集,將離線搜尋開銷降低50倍;(3) 部署感知服務的線上控制器,結合分析性延遲模型與輕量級強盜演算法,在限制條件下選擇設定檔並修正離線與線上的不匹配。整合至vLLM並於多個數據集、模型、GPU及網路上進行評估,KVServe在PD分離服務中實現高達9.13倍的JCT加速,在KV解耦服務中實現高達32.8倍的TTFT降低。
語言模型開發的進展,往往來自於比較性的決策:要採用哪種架構、使用哪個預訓練語料庫、或應用哪種訓練配方。要做出明智的決策,就需要可靠的性能預測,然而目前兩種常用的信號卻存在根本上的局限。交叉熵損失與下游能力的對齊程度不佳,而直接進行下游評估不僅成本高昂、稀疏,且在訓練早期往往無法提供有用資訊。為此,我們提出透過匯總候選模型在專家編寫的解決方案上,其下一個 token 分佈的 token 層級統計值(例如熵、top-k 準確率、專家 token 排名)來建構代理指標。在三種情境下,我們的代理指標一致地優於基於損失與計算量的基準方法:1)跨家族模型選擇時,它們能對一組異質的推理模型進行排序,平均斯皮爾曼相關係數(Spearman Rho)為 0.81(而交叉熵損失僅為 0.36);2)預訓練資料選擇時,它們能以約直接評估所需計算量的萬分之一,可靠地為目標模型排序 25 個候選語料庫,將帕累托前沿推至現有方法之上;3)訓練時預測時,它們能將下游準確率外推至 18 倍的計算量範圍,且誤差約為現有替代方案的一半。綜合這些結果顯示,專家軌跡是評估模型能力時廣泛有用的訊號來源,能在整個模型開發生命週期中實現可靠的性能預測。
現有的數位短劇製作方法通常依賴單次大語言模型生成的腳本與鬆散耦合的流程,無法滿足短劇生成的三項關鍵需求:(1)敘事節奏——導致鉤子薄弱、情節升級不足、結尾缺乏吸引力;(2)空間一致性——造成場景佈局漂移,以及不同片段的角色位置不一致;(3)製作品質控管——需要在腳本與視覺階段進行大量人工審查與修正。我們提出「一句一劇」(One Sentence, One Drama),這是一個分層多智能體框架,能將用戶的單句構想透過結構化的中間模組與迭代優化,轉化為完整的短劇。我們的方法建立在三個核心組件之上:(1)基於多智能體辯論的故事生成模組,用以強化短劇的節奏與敘事連貫性;(2)基於三維空間的首幀生成機制,建立統一的空間參考,確保跨片段的角色位置與場景佈局一致;(3)多階段審查循環,在腳本、視覺與影片生成的各個階段進行全面的錯誤檢測與有針對性的修正。我們還引入場景級背景音樂匹配與場景轉換規劃,以提升觀眾的沉浸體驗。為了系統性評估此任務,我們提出短劇基準(Short-Drama-Bench),該基準在標準影片品質指標之外,加入了短劇特有的評估標準。實驗結果顯示,我們的方法在敘事品質、跨片段一致性與整體觀看體驗上,顯著優於現有流程。
大型語言模型(LLMs)與智能代理系統在臨床決策支持方面已展現出潛力,但現有研究大多假設證據已預先整理好並直接提供給模型。實際的臨床工作流程則要求代理主動搜尋、迭代規劃,並從異質來源中綜合多模態證據。本文提出 ClinSeekAgent,這是一個自動化的動態多模態證據搜尋代理框架,將模式從被動的證據消費轉變為主動的證據獲取。僅依據臨床查詢與原始資料來源的存取權限,ClinSeekAgent 即可透過查詢醫學知識庫、瀏覽原始電子健康紀錄(EHR)以及調用醫學影像工具來收集證據;隨著新資訊出現,它會調整假設;並將收集到的證據整合為有根據的臨床決策。ClinSeekAgent 既可作為前沿 LLM 的推理時代理,也可作為訓練時管線,將高品質的代理軌跡提煉至精簡的開源模型中。為驗證其推理時效能,我們建構了 ClinSeek-Bench,該基準將基於固定預選證據的 Curated Input 推理與基於原始臨床資料的自動證據搜尋(Automated Evidence-Seeking)進行配對。在純文字 EHR 任務中,ClinSeekAgent 將 Claude Opus 4.6 的整體 F1 從 60.0 提升至 63.2,將 MiniMax M2.5 從 43.1 提升至 47.3,且在 9 個受評主模型中,有 7 個在風險預測上獲得正向提升。在多模態任務中,ClinSeekAgent 將 Claude Opus 4.6 從 47.5 提升至 62.6(+15.1);所有受評模型在三個與 CXR 相關的任務群組中均有所改善。我們進一步驗證 ClinSeekAgent 作為訓練管線的效果,將代理式證據搜尋軌跡提煉至 ClinSeek-35B-A3B 中,其在現有 AgentEHR-Bench 上達到 34.0 的平均 F1,相較其 Qwen3.5-35B-A3B 基線提升 11.9 分,並接近 Claude Opus 4.6 的表現。
长影片中的多数帧都带有冗余信息,关键信息往往存在于时间上的惊喜时刻:即实际视觉特征偏离其预测演变轨迹的瞬间。受人类大脑预测编码机制的启发,我们提出Swift Sampling——一种简洁且无需训练的帧选取算法,可自动识别影片中的高信息量时刻。具体而言,我们将影片建模为视觉潜空间中的可微分轨迹,并计算其特征的速度与加速度。接着,运用泰勒展开预测后续帧的期望路径。那些与预测流形严重偏离的帧,即被识别为时间上的惊喜帧并予以选取。相较于先前依赖辅助网络或视频特定超参数调优的免训练方法,Swift Sampling极为轻量,在基准线上仅增加0.02倍计算成本,使其开销比领先基准低30倍。在三个长影片问答基准测试与10个不同下游任务中,Swift Sampling均优于均匀采样及过往的查询无关基准方法。尤其对于帧预算有限的长影片,其准确率提升最多可达12.5个百分点。
模型卡透過文字描述與結構化成品(包括效能、組態及資料集表格)的混合方式來描述模型行為。現有的模型搜尋系統主要依賴於文字的語義相似度,這可能產生同質化的結果集,限制對替代方案的探索。我們主張模型搜尋本質上是比較性的:使用者希望模型既能與任務對齊,又能在可量化的指標上表現出差異。我們假設,要達到此平衡,需要從精簡、高品質的證據中進行檢索,而非冗長的描述,而這些證據大多集中在結構化表格中。我們提出 StructuredSemanticSearch,這是一個基於 ModelTables 基準的表格驅動模型搜尋框架。給定一個查詢,StructuredSemanticSearch 結合了用於任務對齊的語義基準,以及一個結構感知的流程,該流程利用表格發現運算子(如可聯集性、可連結性與關鍵字搜尋)來發現與查詢相關的模型卡表格。檢索到的表格會在受控的 top-k 預算下映射回模型卡,從而實現基於文本與基於表格的檢索之間的公平比較。除了檢索之外,StructuredSemanticSearch 還透過方向感知整合,將表格整合適配到模型表格領域,從部分重疊且有時轉置的證據表格中產出緊湊的整合視圖。在評估方面,我們引入了一個基於 nugget 的可審計協議,該協議從模型卡中提取緊湊的證據項目,將查詢匹配到特定條件或意圖的 nugget,並衡量檢索到的模型卡候選集中的證據覆蓋率與多樣性。該協議也為在動態模型湖中實現近似、基於證據的標註提供了可擴展的路徑。在 597 個模型推薦查詢上的實驗顯示,與語義基準相比,結構感知流程改善了 nugget 覆蓋率。
智能體應如何決定何時及如何規劃?主流方法是將智能體構建為具備適應性計算的反應式策略(例如思維鏈),並通過端到端訓練,期望規劃能力自然湧現。然而,在缺乏對規劃的存在性、結構或深度的明確控制下,此類系統會大幅增加推理長度,導致代幣使用效率低落,且無法保證準確率的可靠提升。我們認為,高效能的智能推理應將決策過程分解為三個系統:模擬推理(系統II)透過世界模型基於未來狀態預測來紮根深思熟慮;自我調節(系統III)藉由學習型配置器決定何時及多深入地進行規劃;以及反應執行(系統I)負責細粒度行動。模擬推理能在無需特定領域工程的情況下,跨多樣任務提供統一的規劃機制,而自我調節則確保規劃器僅在必要時被啟用。為驗證此觀點,我們開發了SR^2AM(Self-Regulated Simulative Reasoning Agentic LLM),將兩者實作為大型語言模型思維鏈中的不同階段,並以LLM本身作為世界模型。我們探索了兩種實現方式:從提示式多模組系統記錄決策(v0.1),以及從預先訓練的推理型LLM的軌跡中重建結構化規劃(v1.0),並透過監督學習結合強化學習進行訓練。在數學、科學、表格分析及網路資訊搜尋等任務中,v0.1-8B與v1.0-30B分別在Pass@1指標上達到與120-355B及685B-1T參數系統相當的表現;同時,v1.0-30B的推理代幣使用量比同級別的智能LLM減少了25.8%至95.3%。強化學習使平均規劃長度增加22.8%,但規劃頻率僅上升2.0%,顯示其學會的是更長遠的規劃,而非更頻繁的規劃。更廣泛而言,學習型自我調節體現了一項原則,我們預期此原則將超越規劃範疇,擴展至智能體如何管理自身的學習與適應過程。
傳統視覺目標追蹤(VOT)方法通常依賴於任務特定的監督式訓練,限制了其在未見過目標及具有干擾物、遮蔽與非線性運動等挑戰場景中的泛化能力。近期以 SAM 2 為代表的視覺基礎模型,透過大規模預訓練學習到強大的影片理解先驗知識,為建構更穩健且具泛化能力的追蹤器提供了有前景的基礎。然而,直接將 SAM 2 應用於 VOT 仍未達到最佳效果,因為它並未明確建模目標的運動動態,也未能強制跨影格間的幾何與語意一致性——這兩者對於可靠的追蹤至關重要。為了解決此問題,我們提出 SAMOSA,一個新的追蹤框架,透過明確利用運動、幾何與語意線索,將 SAM 2 適應於複雜的 VOT 場景。具體來說,我們引入一個輕量級的非線性運動預測器來建模目標動態,並引導遮罩選取及記憶體過濾。我們進一步利用語意線索來偵測目標位移並從追蹤失敗中恢復,同時將幾何線索作為結構約束條件融入,以提升追蹤穩定性。透過這種方式,SAMOSA 彌補了 SAM 2 隱含的影片理解先驗與明確的追蹤導向建模之間的差距。大量實驗顯示,SAMOSA 在通用基準測試上持續優於基於 SAM 2 的最新方法,展現出比監督式 VOT 方法更強的泛化能力,並在典型的複雜非線性運動場景——反無人機資料集上取得顯著增益。我們的程式碼已開源於 https://github.com/DurYi/SAMOSA。
多模态大型语言模型(MLLMs)與擴散模型各自已達到顯著的成熟度:MLLMs擅長基於異質多模態輸入進行推理,具備強大的語義錨定能力;而擴散模型則能合成具有照片級真實感的圖像與影片。我們認為,這兩個系列可透過簡單的分工整合:MLLMs負責語義規劃,擴散模型則根據高階語義引導與低階視覺特徵渲染像素。基於此理念,我們提出Bernini——一個統一的影片生成與編輯框架。基於MLLM的規劃器直接在ViT嵌入空間中預測目標語義表示,而基於DiT的渲染器則依據此規劃條件合成像素,並輔以文字特徵;在編輯任務中,額外使用來源VAE特徵以保留細節。由於語義充當了介面,規劃器與渲染器可分開訓練,僅需少量聯合訓練,從而保留兩個組件各自預訓練的優勢,同時維持訓練效率。為更妥善處理多個視覺輸入,我們引入了分段感知3D旋轉位置編碼(SA-3D RoPE),並進一步在規劃器中融入思維鏈推理,以更有效地將理解遷移至生成任務。Bernini在廣泛的影片生成與編輯基準測試中達到了最先進的表現,其中MLLM預訓練的理解能力轉化為在挑戰性編輯任務上的強大泛化能力。
许多公共建築物會提供帶有「您在此處」標示的平面圖,以協助訪客辨識方位。平面圖定位旨在透過計算方式重現此功能,判斷視覺觀測資料在平面圖中的擷取位置。然而,現有方法通常假設受控制的小型環境與精確的向量化平面圖,限制了其在大型建築物及柵格化平面圖中的應用能力。本研究提出一種實際場景下的平面圖定位方法,將該任務建立在重建的三維場景表示上。給定無限制的影像集合,我們的方法會重建重力對齊的三維場景,並將其投影為二維密度圖,作為平面圖的替代表示。接著,平面圖定位被形式化為透過二維相似性轉換,將此替代表示與輸入的平面圖進行對齊。為填補密度圖與建築平面圖之間的外觀差距,我們調整二維基礎模型以學習跨模態對應,並引入一種微調機制,在保持結構一致性的同時促進語義對齊的匹配。大量實驗證明,我們的方法相較於既有方法有顯著改進,即便在極稀疏的設定下(僅使用單一輸入影像)也表現優異。我們的程式碼與資料將公開提供。
將文字生成圖像(T2I)模型與人類偏好對齊,日益依賴於能根據提示對齊程度與感知品質對生成圖像進行評分或排序的圖像獎勵模型。現有獎勵模型通常在大規模人類偏好語料庫上以 Bradley-Terry(BT)偏好模型的形式進行訓練,這使得它們訓練成本高昂、難以適應,且評估標準不透明。與此同時,視覺語言模型(VLM)評估者能透過文字評分規則提供更細緻的評估,但其手動設計或啟發式生成的評分規則可能無法可靠反映人類偏好。本文提出 AutoRubric-T2I,這是 T2I 領域首個自動合成並選擇明確評分規則以引導 VLM 評估者的評分規則學習框架。AutoRubric-T2I 首先從偏好對中合成推理軌跡作為候選評分規則,接著使用 VLM 評估者在每條規則下對成對圖像進行評分,產生每對規則分數差異以進行偏好學習。為去除雜訊與冗餘規則,我們進一步採用 ℓ1 正則化邏輯回歸精煉器,選出最具區分力的前 N 條規則。廣泛評估顯示,AutoRubric-T2I 使用不到 0.01% 的標註偏好數據即可產生高品質、可解釋的獎勵信號,大幅降低對大規模獎勵模型訓練的需求。在 MMRB2 等圖像獎勵基準上,AutoRubric-T2I 超越了強大的獎勵模型基準。我們進一步在下游 T2I 任務(包括 TIIF 與 UniGenBench++)中驗證 AutoRubric-T2I 作為強化學習獎勵的效果,發現在擴散模型上使用 Flow-GRPO 管線時,它比純量獎勵模型更能提升生成品質。
我們推出了TerminalWorld,這是一個可擴展的資料引擎,能自動從「真實世界」的終端機錄製中逆向工程出高保真度的評估任務。透過處理80,870筆終端機錄製,該引擎產出了一套完整的基準測試,包含1,530個經驗證的任務,涵蓋18個真實世界類別,範圍從簡短的日常操作到超過50個步驟的工作流程,並覆蓋1,280個獨特指令。從中,我們精心挑選出一個由200個具代表性且經人工審查的任務組成的Verified子集。在TerminalWorld-Verified上對八個前沿模型和六個智能體進行全面基準測試後發現,現有系統在處理真實終端工作流程時仍力有未逮,最高通過率僅達62.5%。此外,TerminalWorld所捕捉到的真實終端能力與現有專家策劃的基準測試(例如Terminal-Bench)有別,與其分數僅呈現弱相關(皮爾森相關係數r=0.20)。透過建構方式,自動化引擎使TerminalWorld具備真實性與可擴展性,使其能在開發者實務演進的過程中,於真實終端環境下評估智能體。資料與程式碼可於 https://github.com/EuniAI/TerminalWorld 取得。
纵向临床记录包含了患者随时间变化的丰富证据,但将这些信号转化为临床预测的训练监督信号仍具挑战性。我们将前瞻学习扩展到临床预测领域,通过将按时间顺序排列的MIMIC-III笔记转化为包含患者既往背景、针对未来可能事件的自然语言问题以及从后续记录中解析出的标签的示例。这一过程从702次入院记录中提取了6,900个预测示例,涵盖用药、手术、器官支持、微生物学和死亡率。基于这些示例训练的小型LoRA适配器在提示基础模型上实现了改进,将预期校准误差从0.1269降至0.0398,布里尔分数从0.199降至0.145,同时在保留问题上略优于GPT-5的点估计。该方法无需人工设计的结构化特征或针对特定终点的分类器,即可从纵向记录中实现可复用的临床预测监督。
可製造的晶片布局必須遵守數千條基於幾何的設計規則,而設計規則檢查(DRC)透過在布局上執行可運行的DRC腳本來強制實施這些規則。將自然語言規則轉換為正確的DRC腳本耗費人力且需要專業知識,這促使LLM代理被用於DRC腳本合成與除錯。然而,現有基準測試的評估集規模較小,且常以程式碼相似度而非執行正確性來評估腳本;此外,先前基於機器學習的方法要么忽略執行反饋,要么需要標記的測試布局作為代理的輸入。為此,我們提出了Rule2DRC,這是一個大規模的DRC腳本編碼代理基準測試,包含1,000個規則轉腳本任務與13,921個評估晶片布局,用於基於執行結果的評分。Rule2DRC提供了一個評估流程,透過DRC執行結果來衡量功能正確性,且無需將評估布局作為代理的輸入。我們還提出了SplitTester,一個用於程式選取的測試代理,它利用執行反饋來生成具區分性的測試案例,並分離先前難以區分的候選腳本,從而顯著提升該領域中N選一最優選擇的效能。我們在 https://github.com/snu-mllab/Rule2DRC 發布了程式碼。
基于可验证奖励的强化学习(RLVR)在提升大语言模型推理能力方面展现出巨大潜力,但基于结果驱动的RLVR在处理难题时效率依然低下,原因在于正确最终答案的生成过程罕见,且样本层面的信用分配无法利用失败尝试中的部分进展。为此,我们提出了SCRL(子问题课程强化学习),这是一种课程式强化学习框架,通过从参考推理链中提取可验证的子问题,并将最终子问题固定为原始问题。这一设计将难题的部分进展转化为可验证的学习信号。在算法层面,SCRL采用子问题级归一化,即针对每个子问题位置独立地归一化奖励,并将由此产生的优势值分配给相应的答案片段,从而无需外部评分标准或奖励模型即可实现更细粒度的信用分配。我们的分析表明,子问题课程能够将难题从梯度死区中解放出来,且原始问题越难,相对增益越显著。在七个数学推理基准测试中,SCRL的表现优于强课程学习基线:在Qwen3-4B-Base上,平均准确率比GRPO高出4.1个百分点;在Qwen3-14B-Base上则高出1.9个百分点。在AIME24、AIME25和IMO-Bench上,SCRL进一步将Qwen3-4B-Base的pass@1提升了3.7个百分点,pass@64提升了4.6个百分点,表明其在复杂推理问题上具有更优的探索能力。
随着可穿戴和移动设备日益融入日常生活,它们提供了一种在自然场景下持续感知人体运动的实用方式。然而,惯性信号高度依赖于传感设置,包括身体位置、安装方位、传感器朝向、设备硬件及采样协议。这种对传感设置的依赖性使得学习能够跨设备与数据集迁移的运动表征变得困难,并限制了可穿戴惯性测量单元在封闭集识别之外更广泛的应用。我们提出AnyMo——一种面向设置无关的人体运动建模的几何感知框架。AnyMo利用基于物理的惯性测量单元仿真,在密集的体表布设位置上生成多样化且合理的合成信号;通过配对合成布设视图与掩码部分观测预训练图编码器;将多位置惯性测量单元信号令牌化为全身运动令牌;并将这些令牌与大语言模型对齐以实现运动-语言理解。我们在三项互补任务上评估AnyMo:跨14个未见下游数据集的零样本活动识别、跨模态检索,以及可穿戴惯性测量单元运动描述生成。在人类活动识别任务上,平均准确率/F1分数/R@2分别提升11.7%/11.6%/22.6%;零样本惯性测量单元到文本及文本到惯性测量单元检索的平均倒数排名分别提升15.9%和28.6%;零样本描述生成的BERT-F1提升18.8%。这些结果支持AnyMo作为野外可穿戴运动理解的通用模型。项目页面:https://baiyuchen.com/project/AnyMo。
表示自编码器(RAE)利用冻结的视觉基础模型(VFM)作为分词器编码器,提供鲁棒的高层表示,从而促进潜在扩散模型的快速收敛与高质量生成。然而,冻结VFM本质上限制了其空间重建能力,制约了细粒度生成与图像编辑;相反,通过微调引入面向重建的信号会破坏预训练语义空间,降低生成保真度。为解决这一权衡问题,我们提出DecQ——一种简洁而有效的RAE框架。具体而言,DecQ通过冷凝器模块引入轻量级细节浓缩查询,从VFM中间特征中提取细粒度信息。这些查询被整合到解码器中以支持重建,并在生成建模过程中与补丁令牌联合生成。通过聚合浅层与深层信息,DecQ有效缓解了重建与生成之间的权衡,同时提升了重建质量与生成性能。实验表明:(1)仅需额外8个查询和3.9%的计算开销,DecQ在基于冻结DINOv2的RAE上将重建PSNR从19.13 dB提升至22.76 dB;(2)在生成建模中,DecQ的收敛速度是RAE的3.3倍,在无引导条件下FID达1.41,有引导时达1.05。
在政治文本中檢測施瓦茨價值觀相當困難,因為隱含線索往往依賴於上下文論述以及相鄰價值觀之間的細微區別。本研究探討何時上下文與明確的道德知識有助於句子層級的價值觀檢測。我們採用 ValuesML/Touché ValueEval 格式,比較以下設定:句子層級、視窗層級與全文文件輸入;無檢索增強(no-RAG)與搭配策展道德知識庫的檢索增強設定;監督式 DeBERTa-v3-base 與 large 編碼器;以及參數量從 120 億到 1230 億的零樣本大型語言模型(LLM)。結果顯示,更多上下文並非總是更好:全文文件上下文使監督式 DeBERTa 編碼器的宏平均 F1 分數比僅使用句子輸入提高 3.8 至 4.8 個百分點,但對零樣本 LLM 則無一致助益。在配對比較中,檢索獲取的道德知識更為穩定有用,在早期融合(early fusion)條件下,能改善每個受測模型家族與上下文條件。然而,從 DeBERTa-v3-base 擴展到 large,或從 120 億參數擴展到更大的 LLM,並未確保效能提升,且簡單的早期融合優於編碼器領域中測試的後期融合(late-fusion)與交叉注意力(cross-attention)RAG 變體。針對各別價值觀的分析顯示,上下文與檢索對社會情境性強或概念上易混淆的價值觀幫助最大。這些發現表明,進行價值觀敏感的自然語言處理時,應聯合評估上下文、知識與模型家族,而非將更長的輸入或更大的模型視為普遍改善手段。
全方位主動流式視訊理解,亦即從連續的音視頻串流中自主決定何時發言以及發言內容,是全模態大型語言模型的一項新興能力。現有基準在三個關鍵面向存在不足:主要依賴視覺訊號、採用輪詢或固定時間戳協議而非真正的主動評估,以及涵蓋的任務範圍有限,導致無法可靠評估與區分全方位主動流式模型。我們提出 OmniPro,這是首個同時評估全模態感知、主動回應及多樣化視訊理解任務的基準。該基準包含 2,700 個人類驗證樣本,涵蓋 9 個子任務與 3 個認知層級,覆蓋 6 種基礎視訊理解能力。值得注意的是,84% 的樣本需要音頻訊號(語音或非語音),且每個樣本皆標註了模態隔離標籤,以實現細粒度的多模態分析。我們進一步引入了雙模式評估協議:探測模式在每個真實觸發點前後查詢模型,以評估內容理解能力;線上模式則要求模型在串流輸入中自主決定回應時機,以評估完整的自主能力。對 11 個具代表性模型的評估揭示了三項關鍵發現:(1)音頻帶來一致的性能提升,但各模型對其利用率差異顯著;(2)性能隨時間推移明顯下降,顯示長期穩健性有限;(3)非語音音頻感知仍是最薄弱的維度。
隨著大型語言模型(LLMs)日益影響使用者形成、精煉與擴展自身目標的方式,在人機協作中歸因貢獻,對於使用者校準自身的依賴程度,以及評估者評量AI輔助工作,皆變得至關重要。然而現有方法僅聚焦於最終產出成果,忽略了目標本身透過過程共同塑造的面向。我們提出一套目標層級的歸因框架——CoTrace,將明確目標拆解為可驗證的需求,並追溯對話輪次中直接的貢獻與間接的影響。將CoTrace應用於638份真實協作記錄後,我們發現:雖然模型在目標塑造貢獻中僅佔11%至26%,但在引入較低層級的具體需求方面貢獻顯著,並產生多種間接貢獻。透過控制模擬實驗,我們證明互動設計選擇會顯著影響模型的目標塑造行為。在一項使用者研究中,讓參與者接觸目標層級的分析後,其在5分量表上的感知貢獻產生近2分的偏移,顯示使用者對自身AI輔助工作的理解存在系統性失準。
我們提出 Lean Refactor,這是一個即插即用的檢索增強代理框架,專為 Lean 證明進行多目標、可控且具版本穩健性的重構。LLM 生成的證明以「正確但冗長」且在各函式庫版本間脆弱著稱,然而現有的重構工作忽略了三個實務挑戰:1) Lean 的重構本質上具有多目標性(證明長度、編譯成本與版本相容性經常相互衝突);2) Lean 儲存庫的相容性脆弱,而 LLM 的發布卻不考慮 Lean/Mathlib 版本;3) 基於訓練的流水線在每次新的 LLM 發布時都需要反覆微調,既無法隨模型更迭規模化,也無法跟上 Lean 的發布週期。Lean Refactor 透過從精心設計的多目標重構策略資料庫中進行檢索,來引導一個凍結的代理 LLM,該資料庫中的每條策略都附帶豐富的元數據,例如支援的 Lean/Mathlib 版本與預期的編譯成本降低。實驗結果顯示,在競賽基準測試上實現超過 70% 的詞元級壓縮,在研究型儲存庫上超過 20%,同時編譯時間最多減少 60%,優於先前的工作與 Claude Code。基於版本的過濾檢索進一步改善了目標 Lean 版本上的壓縮效果,且經過重構的 miniF2F 證明在向未來 Lean 版本進行零樣本版本遷移時,表現優於未經重構的證明。
类别不平衡是医学图像分割中的一个基本挑战,其中频繁出现的类别通常主导训练过程,而稀有类别则被忽视。基于损失的方法通过在批次内对逐像素损失进行重新加权来缓解不平衡,而采样策略则控制哪些图像进入批次。然而,这两种方法均未明确控制批次中出现的类别,导致稀有类别仅得到部分重新平衡。在本工作中,我们采用少样本学习中的情节采样,以在全监督设置下促进类别平衡的批次构建。我们将情节采样从其传统的度量学习背景中解耦,并在CT身体成分分割任务中对其进行评估。我们基于公共SAROS数据集的210次扫描,对九种肌肉和脂肪组织,将情节采样与随机采样和加权采样进行了比较。训练在全数据和低数据场景下进行,并在匹配的训练迭代预算下进行了额外比较。在全数据训练下,三种策略表现相当(情节采样平均Dice为0.882,随机和加权采样为0.878)。在低数据训练下,情节采样优于随机和加权采样(0.787对比0.758和0.762),这得益于训练迭代次数12倍的差异。在匹配的训练预算下,随机和加权采样更早出现过拟合,而情节采样在趋稳前持续改善了约三倍的迭代次数。我们的发现将训练迭代预算识别为采样策略中未被充分认识的混杂因素,从而为小数据集提出了迭代感知的评估协议。此外,情节采样的残余优势与类别平衡批次的隐式正则化效应一致,为类别不平衡的医学图像分割提供了一种低成本、模型无关的策略。代码可在https://github.com/iasonsky/episodic-sampling获取。
縮放定律使得語言模型性能可從模型大小、數據量和計算量中預測,但這些定律通常將優化器視為固定的訓練細節。我們證明此假設忽略了表徵縮放的一個基本面向:優化器如何有效地將新增的FFN寬度轉化為可用的頻譜容量。透過前饋網路表徵的特徵譜(以軟、硬頻譜秩衡量),我們發現即使採用相同的Transformer架構,若使用不同的優化器進行訓練,會實現截然不同的頻譜縮放定律。在固定架構與寬度調度下,AdamW在稀有詞元(TAIL)表徵上表現出較弱的硬秩縮放(β=0.44),而該區域已知是學習最困難之處;相較之下,Muon在同一區域達到線性縮放(β=1.02),縮放指數提升了2.3倍。此差異無法簡化為驗證損失:AdamW配置可在延長訓練後,於困惑度上匹配低秩的Dion變體,但卻呈現截然不同的頻譜幾何,證明損失匹配並不意味著表徵結構匹配。硬-軟秩不對稱進一步揭示,優化器不僅在實現的容量多寡上有所差異,也在該容量如何分佈於不同特徵模態上有所不同。為區分優化器效應與架構效應,我們將其與架構干預(如注意力秩與位置編碼)進行比較,發現優化器引起的頻譜偏移往往超越架構效應。這些結果顯示,優化應被視為表徵縮放的第一級面向,從而激發優化器-架構的協同設計。
强柏拉图表征假说指出,人工神经网络中的表征收敛可以被建设性地利用:无需配对数据,嵌入即可通过通用潜在空间在不同模型间进行翻译。我们探究人脑中是否存在类似的几何结构。利用自然场景数据集的功能性磁共振成像数据,我们提出一种自监督编码器,该编码器通过重复刺激呈现,仅从脑数据中学习受试者特定的嵌入。我们证明,这些独立学习的空间可以通过无监督正交旋转在不同受试者之间进行翻译,无需跨受试者配对样本或中间模型表征。将成对旋转同步至单一共享潜在空间,能进一步提升跨受试者检索效果,表明受试者特定空间与公共坐标系统相互兼容。这些结果为人类视觉皮层中存在共享神经几何结构提供了证据:受试者特定的fMRI表征在不同个体之间近似等距,并可通过纯几何变换进行翻译。
互動式串流音樂生成承諾將生成模型應用於現場表演與共同創作,這在離線模型中無法實現。然而,現有最佳模型存在於離散自迴歸(AR)範式,其訓練與推論都需要工業級的計算資源。在本研究中,我們探討了音頻擴散模型——雖在開源社群中有廣泛支援,但本質上為非串流的雙向模型——能否被高效地重新利用,成為可在消費級硬體上運行的互動式模型。透過批判性地審視當今區塊式外補擴散管線,我們識別出推論過程中的關鍵效率瓶頸,導致其計算效率嚴格劣於離散自迴歸模型。我們提出「現場音樂擴散模型」(Live Music Diffusion Models, LMDMs),這是對生成式擴散過程的簡單修改,透過區塊式鍵值快取(KV Caching)恢復並超越了離散現場音樂模型(Live Music Models, LMMs)的推論複雜度。與LMMs不同,LMDMs透過我們新穎的ARC-強制(ARC-Forcing)範式,實現穩定的訓練後對齊,無需任何顯式的強化學習或獎勵模型即可減少誤差累積。我們在多個創意領域展示了LMDMs的應用,包括文字條件生成、基於草稿的音樂合成,以及即興演奏。最後,我們展示了LMDMs如何在真實的藝術家與AI協作中作為生成式樂器使用——將LMDMs作為「生成式延遲」,即時轉換音樂家的即興演奏以產生多變的音色效果,同時能在消費級遊戲筆電上本地運行。
在野外进行3D动物重建仍具挑战性,原因包括物种差异大、频繁遮挡以及多动物场景的普遍存在,而现有方法主要集中于单动物设定。我们提出SAM 3D Animal——首个面向单张图像多动物3D重建的可提示框架。该方法基于SMAL+参数化动物模型,能够联合重建多个实例,并支持以关键点和遮罩形式提供的灵活提示,从而在拥挤与遮挡场景中实现更可靠的歧义消解。为训练此类模型,我们进一步引入Herd3D——一个包含超过5000张图像的多动物3D数据集,旨在增加物种、交互及遮挡模式的多样性。在Animal3D、APTv2和Animal Kingdom数据集上的实验表明,我们的框架在现有基于模型与无模型方法中均达到最优结果,为野外环境中提示驱动的动物3D重建提供了可扩展且有效的解决方案。
视觉惯性里程计(VIO)对移动机器人导航至关重要,它依赖搭载大量像素的摄像头进行工作。然而,捕捉和处理相机图像需要大量计算资源。本研究提出了一种面向平面里程计的极简方案,证明仅凭四个视觉测量值和一个惯性测量单元(IMU)即可为差分驱动机器人提供稳健的运动估计。我们的核心洞见在于:四个朝下的光电二极管通过光学Gabor掩膜感知外部环境,产生的信号可直接编码速度信息。基于这一原理,我们利用物理驱动仿真器联合优化了掩膜参数与时间卷积网络(TCN)。最终模型仅需解码光电二极管产生的四个测量值即可获得速度信息,将这些速度估计值与IMU的角速度数据结合,便能生成连续的平面运动轨迹。我们在搭载原型传感器的差分驱动机器人上验证了这一方法。在多种室内外地形测试中,该系统无需任何真实场景微调即可紧密追踪参考真值。本研究证明,极简感知方案能够实现高效且精准的平面里程计。
時尚影像檢索是現代電子商務系統的基石。在實際應用中,一個能夠支援多樣化查詢格式與搜尋意圖的統一框架備受期待。然而,現有方法多聚焦於狹義的檢索任務,未能充分涵蓋此類多樣性。因此,本研究旨在開發一個能夠處理多種實際時尚檢索場景的統一框架,實現真正通用的時尚影像檢索。為建立資料基礎,我們首先引入U-FIRE,一個整合零散時尚資料集為統一集合的全面基準,並輔以兩個手動建構的資料集以測試泛化能力。在此基礎上,我們提出FashionLens,一個基於多模態大型語言模型的統一框架。為處理分歧的匹配目標,我們設計了提案引導的球面查詢校準器,透過自適應球面線性插值動態將查詢表示轉換至任務對齊的度量空間。此外,為緩解不同任務複雜度與資料規模所導致的優化失衡,我們開發了梯度引導的自適應取樣策略,根據即時學習難度與資料規模先驗自動重新加權任務。在U-FIRE上的實驗顯示,FashionLens在多樣檢索場景中達到最先進效能,並對未見過的任務展現強健泛化能力。資料與程式碼已公開於 https://github.com/haokunwen/FashionLens。