每日精選AI研究論文及翻譯
在Transformer模型中,旋转位置嵌入(RoPE)存在固有的限制,这些限制削弱了长度外推的能力。我们将带有位置编码的注意力图重新解释为一种含噪的特征图,并提出了一种无需训练的降噪位置编码方法(DoPE),该方法基于截断矩阵熵来检测特征图中的异常频带。利用特征图的噪声特性,我们进一步通过无参数的高斯分布对其进行重新参数化,以实现稳健的外推。我们的方法从理论上揭示了注意力下沉现象的根本原因及其与截断矩阵熵之间的联系。在“大海捞针”任务和多样本上下文学习任务上的实验表明,DoPE在扩展上下文(高达64K个标记)中显著提高了检索准确性和推理稳定性。结果表明,位置嵌入的降噪策略有效缓解了注意力下沉,恢复了均衡的注意力模式,为提升长度泛化能力提供了一个简单而强大的解决方案。我们的项目页面是:https://The-physical-picture-of-LLMs.github.io。
近期統一多模態模型(UMMs)的突破性進展,顯著推動了視覺理解與生成領域的發展。然而,現有數據集與評測基準主要聚焦於單輪互動,未能捕捉真實世界圖像創作與編輯所需的多輪次、上下文關聯特性。為填補此空白,我們提出首個支援上下文交錯跨模態理解與生成的評估套件WEAVE。該套件包含兩個互補部分:WEAVE-100k作為大規模數據集,收錄10萬個交錯樣本,涵蓋37萬次對話輪轉與50萬張圖像,包含需要歷史上下文推理的理解、編輯及生成任務;WEAVEBench則是基於480張圖像構建的100項人工標註評測任務,採用結合參考圖像與「原始圖像+編輯指令」的混合式VLM評判框架,系統評估模型在多輪生成、視覺記憶及跨領域常識推理等方面的能力。實驗表明,基於WEAVE-100k的訓練能有效提升視覺理解、圖像編輯以及理解-生成協同能力,更可促使UMMs湧現視覺記憶能力;而對WEAVEBench的廣泛評估則揭示當前方法在多輪上下文感知圖像生成與編輯方面存在的持續性局限與挑戰。我們相信WEAVE為多模態社群研究上下文交錯理解與生成提供了全新視角與基礎框架。
我們提出虛擬寬度網路(VWN),這套框架能在不增加隱藏層大小所引發的二次方計算成本的前提下,實現更寬表徵的優勢。VWN將表徵寬度與骨幹網路寬度解耦,在保持骨幹計算量近乎不變的同時擴展嵌入空間。大規模實驗顯示,8倍擴展使下個詞元預測的優化速度提升逾2倍,下兩個詞元預測速度提升3倍。隨著訓練進行,損失差距擴大且收斂加速比持續增長,表明VWN不僅具有詞元效率,更會隨規模擴展持續增強效能。此外,我們發現虛擬寬度與損失降低之間存在近似對數線性的縮放關係,這為探索虛擬寬度縮放作為大型模型效率的新維度提供了實證基礎與研究動機。
統一多模態模型的出現標誌著人工智慧領域的範式轉變,從被動感知邁向主動的跨模態生成。儘管其具備前所未有的資訊合成能力,評估體系仍存在關鍵缺口:現有基準主要分別評估判別性理解或無約束圖像生成,未能衡量生成式推理的整合認知過程。為彌合這一缺口,我們提出幾何建構可作為理想測試平台,因其本質上需要語言理解與精確視覺生成的融合。我們推出專為評估幾何生成推理能力設計的基準測試GGBench,該框架能系統性診斷模型不僅理解推理、更能主動建構解決方案的能力,從而為新一代智慧系統設立更嚴格的標準。項目網站:https://opendatalab-raiser.github.io/GGBench/。
使用者介面(UI)程式設計是現代軟體開發的核心環節,卻也具備高度複雜性。近期視覺語言模型(VLM)的進展展現了自動化 UI 程式碼生成的潛力,但現有方法面臨兩大侷限:多模態程式碼生成能力尚未成熟,且單輪對話模式難以有效利用迭代式視覺回饋。為解決這些挑戰,我們提出互動式 UI 轉程式碼範式,該範式更貼近真實工作流程,並提升了可實現效能的理論上限。在此範式下,我們推出 UI2Code^N——透過分階段預訓練、微調與強化學習訓練而成的視覺語言模型,實現多模態程式碼生成能力的基礎性突破。該模型整合三大核心能力:UI 轉程式碼生成、UI 編輯與 UI 精修。我們進一步探索互動式生成的測試時擴展機制,實現多輪視覺回饋的系統性運用。在 UI 轉程式碼與 UI 精修基準測試中,UI2Code^N 在開源模型中創下最新效能標竿,並達到與 Claude-4-Sonnet、GPT-5 等領先閉源模型相當的表現。程式碼與模型已開源於:https://github.com/zai-org/UI2Code_N。
影片生成領域的發展重心正在轉移:從專注於生成視覺效果吸引人的片段,轉向建構能支援互動且維持物理合理性的虛擬環境。這些進展預示著影片基礎模型的崛起,此類模型不僅作為視覺生成器,更扮演著隱性世界模型的角色——能夠模擬現實或虛想世界中物理動態、智能體與環境互動及任務規劃的系統。本文系統性梳理此演進歷程,將現代影片基礎模型概念化為兩個核心組件的結合:隱性世界模型與影片渲染器。世界模型編碼了關於世界的結構化知識,包含物理法則、互動動態與智能體行為,其作為潛在的模擬引擎,能實現連貫的視覺推理、長期時間一致性與目標驅動的規劃;影片渲染器則將此潛在模擬轉化為逼真的視覺觀測,使生成的影片成為透視模擬世界的「窗口」。我們沿四個世代追溯影片生成的演進脈絡,其核心能力逐步提升,最終形成以影片生成模型為基礎的世界模型,具備內在物理合理性、即時多模態互動能力,以及跨越多重時空尺度的規劃功能。針對每個世代,我們界定其核心特徵,列舉代表性研究,並剖析其在機器人、自動駕駛、互動遊戲等領域的應用。最後,我們探討下一代世界模型的開放挑戰與設計原則,包括智能體智慧在形塑與評估這些系統時的角色。相關研究的最新清單維護於此連結。
擴散變換器在影片生成領域已實現卓越的生成品質,但其二次方注意力複雜度會導致難以承受的計算延遲。現有加速方法面臨根本性難題:在每個去噪步驟動態估算稀疏注意力模式會產生高計算開銷與估算誤差,而靜態稀疏模式雖固定不變,卻往往在整個去噪過程中處於次優狀態。我們發現擴散注意力具有關鍵的結構特性——其稀疏模式在跨去噪步驟間展現出強烈的時間連貫性。在步驟t中被判定為非關鍵的計算區塊,通常到步驟t+δ時仍保持非關鍵狀態。基於此發現,我們提出LiteAttention方法,利用時間連貫性實現跨去噪序列的演化式計算跳躍。通過早期標記非關鍵區塊並向前傳播跳躍決策,該方法無需重複分析開銷即可消除冗餘注意力計算,兼具動態方法的自適應性與靜態方法的高效性。我們在FlashAttention基礎上實現了高度優化的LiteAttention核心,並在商用影片擴散模型中驗證了顯著加速效果,且無任何品質損耗。程式碼與實作細節將公開釋出。
新型離子液體(IL)的發現正面臨著性質預測方面的關鍵挑戰,包括數據匱乏、模型精度不足及工作流程碎片化。我們借助大型語言模型(LLM)的強大能力,推出AIonopedia——據我們所知,這是首個用於離子液體發現的LLM智能體。該系統由LLM增強的多模態離子液體領域基礎模型驅動,能夠實現精準的性質預測,並採用分層搜索架構進行分子篩選與設計。基於新構建的綜合性離子液體數據集進行訓練與評估,我們的模型展現出卓越性能。對文獻報導系統的補充評估表明,該智能體可有效執行離子液體改性任務。在突破離線測試的局限後,我們通過真實濕實驗驗證進一步確認其實用效能:該智能體在具有挑戰性的分佈外任務中表現出卓越的泛化能力,彰顯其加速現實世界離子液體發現的潛力。
多模態大型語言模型(MLLMs)在視覺語言任務中取得了顯著進展,但在空間理解方面仍存在不足。現有的空間MLLMs通常依賴顯式3D輸入或特定架構修改,且受制於大規模數據集或稀疏監督。為解決這些局限性,我們提出SpatialThinker——一種通過強化學習訓練的3D感知MLLM,能將結構化空間定位與多步推理相結合。該模型通過構建任務相關物體與空間關係的場景圖譜,並藉助密集空間獎勵進行推理,模擬類人的空間感知能力。SpatialThinker包含兩大核心貢獻:(1)生成高質量空間視覺問答數據集STVQA-7K的數據合成流程;(2)採用多目標密集空間獎勵的線上強化學習機制以強化空間定位。SpatialThinker-7B在空間理解與真實世界VQA基準測試中表現優於監督微調和稀疏強化學習基線,其基礎模型增益較稀疏強化學習提升近一倍,並超越GPT-4o。這些成果證明了將空間監督與獎勵校準推理相結合的有效性,能在有限數據下實現魯棒的3D空間理解,推動MLLMs向人類級別的視覺推理邁進。
近期大型語言模型的進展主要得益於可驗證獎勵強化學習(RLVR)與測試時擴展技術。然而,LLM有限的輸出長度制約了單次推理過程中的推理深度。多智能體推理系統通過引入求解器、驗證器和校正器等多個智能體進行迭代優化,為此提供了可行方案。儘管該方法在Gemini 2.5 Pro等閉源模型中表現優異,但由於開源模型缺乏足夠的批判與校正能力,其泛化效果受限。為解決此問題,我們提出MarsRL——一種具備智能體管道並行特性的新型強化學習框架,可對系統中所有智能體進行聯合優化。MarsRL通過引入智能體專屬獎勵機制降低獎勵噪聲,並採用管道式訓練提升長軌跡處理效率。在Qwen3-30B-A3B-Thinking-2507模型上的實驗表明,MarsRL將AIME2025準確率從86.5%提升至93.3%,BeyondAIME從64.9%提升至73.8%,甚至超越了Qwen3-235B-A22B-Thinking-2507的表現。這些成果彰顯了MarsRL在推進多智能體推理系統發展、拓展其在不同推理任務中應用潛力的價值。
開放詞彙檢測器在COCO數據集上表現卓越,但往往難以泛化至包含預訓練未見分佈外類別的現實世界數據集。與其直接對重型視覺語言模型進行新領域微調,我們提出RF-DETR——一種輕量級專用檢測變換器,通過權重共享神經架構搜索為任意目標數據集生成精度-延遲帕累托曲線。我們的方法在目標數據集上微調預訓練基礎網絡,無需重新訓練即可評估數千種具有不同精度-延遲權衡的網絡配置。此外,我們重新審視NAS的"可調節參數"以提升DETR模型在多元目標領域的遷移能力。值得注意的是,RF-DETR在COCO和Roboflow100-VL數據集上顯著超越先前最先進的實時檢測方法:RF-DETR(nano)在COCO上達到48.0 AP,以相近延遲擊敗D-FINE(nano)達5.3 AP;而RF-DETR(2x-large)在Roboflow100-VL上以20倍運行速度超越GroundingDINO(tiny)達1.2 AP。據我們所知,RF-DETR(2x-large)是首個在COCO上突破60 AP的實時檢測器。代碼已開源於:https://github.com/roboflow/rf-detr
為聽障人士的日常交流提供統一且靈活的解決方案,我們將全能模型範式引入輔助科技領域,推出HI-TransPA——一款指令驅動的視聽個人助理。該模型通過融合模糊語音與高幀率唇部動態,在單一多模態框架內實現翻譯與對話雙重功能。針對原始數據噪聲多樣性及現有全能模型對聽障語音適應性不足的挑戰,我們構建了完整的預處理與校準流程,包括面部關鍵點檢測、唇部區域分離穩定化處理,以及多模態樣本質量的量化評估。這些質量評分指導課程學習策略,使模型先從清晰的高置信度樣本開始訓練,逐步納入難樣本以增強魯棒性。我們進一步採用SigLIP編碼器結合統一3D重採樣器,高效編碼高幀率唇部運動。在自建HI-Dialogue數據集上的實驗表明,HI-TransPA在字面準確度與語義保真度方面均達到頂尖水平。本研究為全能模型應用於輔助溝通技術奠定了基礎,為未來研究提供了端到端建模框架與核心處理工具。
优化推薦系統以實現超越準確性的目標(如多樣性、新穎性及個性化)對於提升長期用戶滿意度至關重要。為此,工業界實踐者已積累了大量結構化領域知識,我們稱之為人類先驗(例如物品分類體系、時序模式)。這類知識通常通過排名或後排名階段的後處理調整來應用,但這種方式始終與核心模型學習相分離——隨著行業向端到端生成式推薦基礎模型轉型,此種脫節尤為不利。另一方面,許多針對超越準確性目標的方法往往需要針對特定架構進行修改,並以完全無監督的方式學習用戶意圖,從而捨棄了這些寶貴的人類先驗知識。 我們提出了一種與基礎模型無關的框架,旨在將歷經多年實踐積累的人類先驗知識無縫整合到生成式推薦模型的端到端訓練中,而非將其捨棄。受高效大語言模型解碼策略啟發,我們通過輕量級的先驗條件適配頭,引導模型沿人類可理解的維度(如互動類型、長期與短期興趣)解耦用戶意圖。同時,針對不同先驗類型間的複雜交互,我們引入了層級化組合策略進行建模。在三個大規模數據集上的廣泛實驗表明,我們的方法能顯著提升準確性及超越準確性的各項指標。研究還證實,人類先驗知識可幫助基礎模型更有效地利用更長的上下文長度與更大的模型規模。
尽管语篇级翻译对知识传播和跨语言学术交流至关重要,但专业领域的语篇级翻译评估仍存在不足。这类翻译既要求语篇层面的连贯性,又需要严格的术语准确性,而现有评估方法主要聚焦于片段级的准确度和流畅度。为弥补这一缺陷,我们推出了DiscoX——一个面向专业领域汉英语篇翻译的新基准数据集。该数据集涵盖7个专业领域的200篇经专家审校的文本,平均长度超过1700个词符。针对DiscoX的评估需求,我们同时开发了无参考评估系统Metric-S,可从准确性、流畅度和适配性三个维度进行细粒度自动评测。Metric-S与人工评判保持高度一致,显著优于现有评估指标。实验结果显示存在显著性能差距:即使最先进的大语言模型在这些任务上仍落后于人类专家。这一发现验证了DiscoX的难度,也凸显了实现专业级机器翻译面临的挑战。本研究提出的基准数据集和评估体系为更严格的翻译质量评估提供了可靠框架,将推动基于大语言模型的翻译技术发展。
如何让具备自主行为能力的AI系统能够基于训练后的交互经验调整其问题解决策略,仍是一个根本性挑战。尽管已有研究提出在推理阶段更新和维护记忆的系统,但现有设计仅通过修改语言模型或智能体的文本输入来引导系统,这意味着无法调整采样参数、移除工具、修改系统提示或在自主行为与工作流模式间切换。另一方面,具备更强适应性的系统仍需离线优化,且部署后保持静态。我们提出经验引导推理器(EGuR),该系统能基于累积经验在推理时动态生成定制化策略——包含LLM调用、工具使用、采样参数与控制逻辑的完整计算流程。这一突破通过基于LLM的元策略(即输出策略的策略)实现,使得所有策略组件(提示词、采样参数、工具配置与控制逻辑)均可自适应调整。EGuR通过双组件运作:引导器根据当前问题及结构化经验记忆生成多个候选策略,整合器则通过执行反馈优化后续策略生成。该系统能产出针对每个问题优化的完整可运行策略,这些策略可被缓存、检索并按需执行,从而避免资源浪费。在五项挑战性基准测试(AIME 2025、3-SAT及三项Big Bench Extra Hard任务)中,EGuR相较最强基线模型实现了最高14%的准确率提升,同时将计算成本降低达111倍,且两项指标均随系统经验积累持续优化。
情感在视频表达中具有核心地位,但现有视频生成系统主要关注低层次视觉指标而忽视情感维度。尽管情感分析在视觉领域已取得进展,视频学界仍缺乏专门资源来衔接情感理解与生成任务,尤其在风格化非现实场景中。为填补这一空白,我们推出EmoVid——首个专为创意媒体设计的多模态情感标注视频数据集,包含卡通动画、电影片段和动态贴纸。每个视频均标注有情感标签、视觉属性(亮度、色彩饱和度、色调)及文本描述。通过系统性分析,我们揭示了不同视频形式中视觉特征与情感感知的时空关联模式。基于这些发现,我们通过微调Wan2.1模型开发出情感条件视频生成技术。实验结果表明,该方法在文本到视频和图像到视频任务中,生成视频的量化指标与视觉质量均实现显著提升。EmoVid为情感化视频计算建立了新基准,不仅为艺术风格视频的视觉情感分析提供重要见解,更为增强视频生成中的情感表达提供了实用方法。
工具增强型语言模型能够调用外部工具来解决超出其参数能力范围的问题。然而,这些工具带来的性能提升是否反映可信推理仍不明确。本研究以代码解释器工具为焦点,发现即使工具被正确选择和执行,工具增强型语言模型仍会将工具输出视为推理的替代品,生成看似正确但缺乏连贯论证的解决方案。我们将这种失效模式称为"工具诱导短视",并基于PYMATH基准(包含1,679个竞赛级数学问题,其中Python代码有助但非充分条件)展开研究。我们进一步开发了多维评估体系,量化工具增强型语言模型相较于无工具版本的推理退化程度。研究结果表明:虽然工具增强型语言模型的最终答案准确率最高提升19.3个百分点,但其推理行为持续恶化(例如在推理过程的双盲比较中,无工具大型语言模型的胜出率最高可提升41.5%)。这种退化随工具使用频次增加而加剧:模型调用工具越频繁,其推理连贯性越差。此外,工具使用会使错误类型从算术失误转向全局推理失败(逻辑、假设、创造性错误),约55%的高风险案例中存在工具诱导短视现象。最后,我们提出基于偏好优化的对齐框架,使工具增强型语言模型能将工具作为辅助证据使用,从而在工具应用场景下同步提升最终答案准确率与推理深度。代码与数据详见:https://github.com/megagonlabs/TIM。
科學思想生成是科學發現的核心,它驅動著人類進步——無論是通過解決未解難題,還是提出新穎假說來解釋未知現象。與標準的科學推理或一般創造性生成不同,科學領域的思想生成是一項多目標、開放式的任務,其中貢獻的新穎性與其實證嚴謹性同等重要。大型語言模型(LLMs)近年來已成為極具潛力的科學思想生成工具,能夠憑藉驚人的直覺和可接受的推理產出連貫且符合事實的內容,但其創造能力仍存在不穩定性且缺乏深入理解。本文對LLM驅動的科學思想生成方法進行了結構化綜述,探討不同方法如何平衡創造力與科學嚴謹性。我們將現有方法歸納為五類互補的範疇:外部知識增強、基於提示的分佈導向、推理時尺度調整、多智能體協作以及參數層級適應。為闡釋其貢獻,我們採用兩個互補框架:以博登的創造力分類法(組合型、探索型與變革型)來界定各類方法預期生成的思想層級,並藉助羅茲的4P框架(人格、過程、環境與產物)來定位各方法強調的創造力維度。通過將方法論進展與創造力框架相結合,本文明晰了該領域的發展現狀,並為實現LLM在科學發現中可靠、系統化且具變革性的應用指明關鍵方向。
我们从一个参与数学奥林匹克竞赛的AI系统视角,对miniF2F基准测试中的形式化与非形式化命题进行了全面分析。该竞赛包含miniF2F中的所有题目,模型需要完成以下流程:阅读理解自然语言描述的题目、将其形式化为Lean语言、接着进行定理证明。只有当形式化证明与原始非形式化命题相符时,模型才能获得相应题目的分数。评估结果显示,采用文献中的最先进模型时,该流程的最高准确率约为36%,远低于自动形式化和定理证明领域分别报告的97%和69%的单项最优准确率。 通过分析错误模式,我们发现准确率下降的主要根源在于:超过半数的miniF2F题目存在形式化与非形式化命题之间的差异。我们系统修正了形式化与非形式化命题中的所有错误、差异及简化问题,推出了包含完整验证的形式化/非形式化命题及证明的miniF2F-v2。在该升级版本上进行全流程定理证明评估后,最佳准确率提升至70%,较原版miniF2F的40%实现显著进步,但仍反映出自动形式化模型与定理证明器之间存在显著偏差。 深入分析表明,更高质量的基准测试有助于学界更准确地评估形式推理领域的进展,并能更精准地诊断自动形式化与定理证明模型的成败模式。本数据集已发布于https://github.com/roozbeh-yz/miniF2F_v2。
本文提出了一种现代工作负载调度器分类的新方法。我们详细描述了三类调度器:操作系统进程调度器、集群系统作业调度器以及大数据调度器。通过考察算法的应用场景与功能特性,我们阐述了这些调度器从早期雏形到现代实现的演进历程。总结部分系统比较了各类调度器的差异,并梳理了其历时性发展脉络。最终我们指出,无论是本地系统还是分布式系统,其调度策略设计在核心关注点上具有高度相似性。
网络上自主AI代理的日益部署正受到一个根本性错位的阻碍:代理必须从人类导向的用户界面推断功能可见性,导致交互变得脆弱、低效且不安全。为解决这一问题,我们推出VOIX——一种原生网络框架,通过简单的声明式HTML元素,使网站能够为AI代理提供可靠、可审计且保护隐私的能力。VOIX引入<tool>和<context>标签,允许开发者明确定义可用操作及相关状态,从而为代理行为建立清晰的机器可读契约。该方法将控制权转移至网站开发者,同时通过将会话交互与网站分离来保护用户隐私。我们通过为期三天的黑客松研究(16名开发者参与)评估了该框架的实用性、易学性和表达力。结果表明无论参与者先前经验如何,都能快速构建多样化且功能完善的代理驱动型网络应用。最终,这项工作为实现"代理化网络"提供了基础机制,为未来网络中人机无缝安全协作奠定了基础。
本文提出一種雲端系統服務配置策略,該策略能在避免節點超載的同時維持系統穩定性,並實現成本最小化。我們建立了雲端資源利用的抽象模型,該模型涵蓋多類資源並考量服務遷移成本。研究展示了一種原型元啟發式負載均衡器,並對實驗結果進行闡述與討論。此外,我們提出一種新穎的遺傳演算法,其初始族群是透過其他元啟發式演算法的輸出結果進行播種生成。
车对车(V2V)协同感知技术通过克服复杂不利交通场景下的感知局限,在提升自动驾驶性能方面具有巨大潜力。与此同时,数据作为现代自动驾驶AI的基础设施至关重要。然而受限于严苛的数据采集条件,现有数据集主要聚焦常规交通场景,制约了协同感知的效能提升。为应对这一挑战,我们推出业界首个面向复杂不利交通场景的V2V协同感知真实场景数据集CATS-V2V。该数据集通过两辆硬件时间同步的车辆采集,涵盖10个不同地理位置的10类天气与光照条件,包含100段场景片段、6万帧10Hz激光雷达点云、126万张多视角30Hz相机图像,以及75万条经过匿名化处理的高精度RTK固定解GNSS/IMU记录。我们同步提供了时序一致的物体3D边界框标注及静态场景数据,以构建4D鸟瞰图表征。在此基础上,我们提出基于目标的时序对齐方法,确保所有物体在多传感器模态间实现精准匹配。我们相信,CATS-V2V这一迄今同类数据集中规模最大、支持性最强、质量最高的资源,将有力推动自动驾驶领域相关研究的发展。