每日精選AI研究論文及翻譯
傑出科學家具備卓越的判斷力與前瞻視野,這與我們所稱的「科學品味」密切相關。此處我們將該術語定義為:對具有高潛在影響力的研究思路進行判斷與提出建議的能力。然而現有研究多聚焦於提升AI科學家的執行能力,如何增強AI的科學品味仍屬探索不足的領域。本研究提出「社群反饋強化學習」(RLCF)訓練範式,以大規模社群信號作為監督訊號,將科學品味學習構建為偏好建模與對齊問題。在偏好建模方面,我們基於70萬組領域與時序匹配的高被引/低被引論文對訓練「科學評判者」,使其具備研究思路的評估能力。在偏好對齊階段,以科學評判者作為獎勵模型,訓練策略模型「科學思考者」提出具高潛在影響力的研究思路。實驗表明:科學評判者優於SOTA大語言模型(如GPT-5.2、Gemini 3 Pro),並能泛化至未來年份測試、未見領域及同行評審偏好;而科學思考者所提研究思路的潛在影響力亦超越基準模型。我們的發現證明AI能夠習得科學品味,這標誌著向人類級別AI科學家邁進的關鍵一步。
我們提出HSImul3R——一個從隨意捕捉數據(包括稀疏視角圖像和單目影片)實現人-場景互動三維重建的統一框架。現有方法存在感知-模擬鴻溝:視覺上合理的重建結果常違反物理約束,導致物理引擎不穩定並在具身智能應用中失效。為彌合此鴻溝,我們引入物理基礎的雙向優化流程,將物理模擬器作為主動監督器,聯合優化人體動態與場景幾何。在正向流程中,採用場景導向的強化學習,在動作逼真度與接觸穩定性的雙重監督下優化人體運動。在反向流程中,提出直接模擬獎勵優化,利用重力穩定性與互動成功率的模擬反饋來優化場景幾何。我們進一步推出HSIBench基準數據集,包含多樣化物體與互動場景。大量實驗表明,HSImul3R首次生成穩定且可直接用於模擬的人-場景互動重建結果,並能直接部署至真實世界人形機器人。
深度搜尋能力已成為前沿大型語言模型(LLM)代理不可或缺的核心競爭力,然而由於缺乏透明、高品質的訓練數據,高性能搜尋代理的開發至今仍由工業界巨頭主導。這種持續的數據匱乏問題從根本上阻礙了更廣泛研究社群在該領域的發展與創新。為彌合這一鴻溝,我們推出首個完全開源的搜尋代理(含模型與數據)OpenSeeker,其通過兩項核心技術創新實現前沿級性能:(1)基於事實的可擴展可控問答生成技術,通過拓撲擴展與實體混淆對網絡圖進行逆向工程,產生具可控覆蓋範圍與複雜度的多跳推理任務;(2)去噪軌跡合成技術,採用回顧式摘要機制淨化軌跡噪聲,從而引導教師LLM生成高質量動作。實驗結果表明,僅用11.7k合成樣本進行單次訓練的OpenSeeker,在BrowseComp、BrowseComp-ZH、xbench-DeepSearch及WideSearch等多個基準測試中均達到最先進性能。值得注意的是,僅通過簡單的監督微調訓練,OpenSeeker不僅顯著優於第二佳全開源代理DeepDive(如在BrowseComp上以29.5%對比15.3%),更在BrowseComp-ZH上超越同濟深研(採用持續預訓練、監督微調與強化學習聯合訓練)等工業界競品(48.4%對比46.7%)。我們將完整訓練數據集與模型權重全面開源,以推動前沿搜尋代理研究的民主化,構建更透明、協作的研究生態。
大型語言模型正從被動的資訊提供者轉變為面向複雜工作流程的主動型智慧體。然而,企業要將其部署為可靠AI工作者的進程,卻因現有基準測試無法捕捉專業環境的複雜性而受阻——特別是需要在持續狀態變更與嚴格存取協議下進行長程規劃的特性。本研究提出EnterpriseOps-Gym基準測試,專為評估真實企業場景中的智慧體規劃能力而設計。該框架採用容器化沙箱環境,包含164張資料表與512種功能工具,以模擬現實中的搜尋摩擦。在此環境中,我們透過涵蓋客戶服務、人力資源、資訊科技等八大關鍵業務領域的1,150項專家策劃任務,對智慧體進行評估。對14個前沿模型的測試揭示出關鍵侷限:表現最佳的Claude Opus 4.5成功率僅達37.4%。進一步分析顯示,提供預設人類規劃方案可將效能提升14-35個百分點,證實策略推理是主要瓶頸。此外,智慧體經常無法拒絕不可行任務(最佳模型僅達53.9%成功率),導致非預期且可能有害的副作用。研究結果表明,現有智慧體尚未具備自主部署於企業環境的成熟度。更廣泛而言,EnterpriseOps-Gym為提升專業工作流程中智慧體規劃的穩健性提供了具體測試平台。
若世界模擬模型能呈現的不僅是虛構環境,而是真實存在的城市,將會如何?過往的生成式世界模型透過全內容想像來合成視覺合理但虛擬的環境。我們提出首爾世界模型(SWM),這是一個以真實首爾城市為基礎的城域級世界模型。SWM透過鄰近街景圖像的檢索增強條件化,實現自迴歸影片生成的錨定。然而,此設計帶來多項挑戰:檢索參考幀與動態目標場景間的時間錯位、車輛間歇採集導致的軌跡多樣性受限及數據稀疏性。我們透過跨時序配對技術、支援多樣化攝影機軌跡的大規模合成數據集,以及從稀疏街景圖像生成連貫訓練影片的視角插值流程來解決這些難題。我們更引入虛擬前瞻錨點機制,透過持續將每個生成片段重新錨定至未來位置的檢索圖像,穩定長時序生成效果。針對首爾、釜山與安娜堡三座城市,我們將SWM與近期影片世界模型進行比較評估。結果顯示SWM在生成空間精準、時間連貫且錨定於真實都市環境的長時序影片(軌跡長度達數百公尺)方面優於現有方法,同時支援多樣化攝影機運動與文字引導的場景變化。
在現代大型語言模型中,帶有預歸一化的殘差連接已成為標準配置,但它們會以固定的單位權重累積所有層的輸出。這種均勻聚合會導致隱藏狀態隨深度無控制地增長,逐漸稀釋每一層的貢獻。我們提出注意力殘差(AttnRes),通過對前置層輸出進行softmax注意力計算來替代固定累積機制,使每一層能夠根據學習到的輸入依賴權重,選擇性聚合先前表徵。為解決大規模模型訓練中因關注所有前置層輸出而產生的記憶體與通信開銷,我們進一步提出分塊注意力殘差(Block AttnRes),將網絡層劃分為多個區塊,僅在區塊級表徵上進行注意力計算,在保留完整AttnRes大部分優勢的同時顯著降低記憶體佔用。結合基於快取的流水線通信與兩階段計算策略,Block AttnRes可作為標準殘差連接的實用替代方案,且額外開銷極低。 縮放律實驗證實該改進在不同模型規模下均保持一致性,消融研究則驗證了內容依賴的深度選擇機制的有效性。我們進一步將AttnRes整合至Kimi Linear架構(總參數480億/激活參數30億),並在1.4兆詞元上進行預訓練。結果表明AttnRes有效緩解了預歸一化稀釋問題,使輸出幅值與梯度分佈在深度維度上更均勻,並在所有評估的下游任務中均取得性能提升。
深度擴展是大型語言模型(LLM)發展的關鍵驅動力。然而,隨著模型深度增加,訊號衰減問題日益顯著:淺層形成的資訊特徵在殘差更新的反覆作用下逐漸稀釋,導致深層更難恢復這些特徵。本文提出混合深度注意力機制(MoDA),使每個注意力頭能同時處理當前層的序列鍵值對與前序層的深度鍵值對。我們進一步設計了硬體高效演算法,解決非連續記憶體存取模式問題,在序列長度64K時達到FlashAttention-2效能的97.3%。在15億參數模型上的實驗表明,MoDA持續優於強基線模型:在10個驗證基準上平均困惑度降低0.2,在10個下游任務中平均效能提升2.11%,而計算浮點運算量僅增加3.7%。此外,我們發現MoDA與後歸一化結合的效能優於其與前歸一化的組合。這些結果證明MoDA是極具潛力的深度擴展基礎模組。程式碼已發佈於https://github.com/hustvl/MoDA。
歷來已有眾多嘗試試圖將基於二次注意力機制的大型語言模型(LLM)蒸餾為次二次線性化架構。然而,儘管經過廣泛研究,這類蒸餾模型在各種下游任務中仍難以匹敵其教師LLM的表現。我們確立了無損蒸餾的目標,並以師生模型在任務集上的容錯校正「勝平率」作為衡量標準。為此,我們針對基於xLSTM的學生模型提出一套高效蒸餾流程,創新性地引入合併階段,將獨立線性化的專家模型整合為單一模型。通過蒸餾Llama、Qwen和Olmo系列的基础模型與指令微調模型,我們驗證了該流程的有效性。在多種設定下,基於xLSTM的學生模型不僅能恢復教師模型的大部分性能,甚至在某些下游任務中實現超越。此項貢獻為取代基於Transformer的LLM邁出重要一步,有望實現更節能、更具成本效益的語言模型方案。
视觉语言模型(VLM)常出现"幻觉"现象——生成看似合理但事实错误的陈述——这成为其可信部署的关键障碍。本研究提出一种诊断幻觉的新范式,将其从静态输出错误重新定义为模型计算认知的动态病理现象。我们的框架基于计算理性化的规范原则,将VLM的生成过程建模为动态认知轨迹。我们设计了一套信息论探针,将该轨迹投射到可解释的低维认知状态空间。核心发现是被我们称为"几何-信息对偶性"的支配原则:认知轨迹在状态空间内的几何异常性本质上等同于其高信息论惊异值。幻觉检测由此转化为几何异常检测问题。在多样化场景的评估中——从严谨的二元问答(POPE)和综合推理(MME)到无约束开放描述(MS-COCO)——我们的框架均实现了最先进性能。关键在于,该框架能在弱监督下高效运行,即使校准数据严重污染仍保持高度鲁棒性。这种方法实现了故障的因果归因,将可观测错误映射至不同病理状态:感知不稳定性(通过感知熵度量)、逻辑因果失效(通过推理冲突度量)以及决策模糊性(通过决策熵度量)。这最终为构建具有透明、可审计、可诊断特性的AI系统开辟了新路径。
扩散变换器(DiTs)在图像和视频生成领域已展现出卓越的可扩展性与生成质量,这促使研究者日益关注其向可控生成与编辑任务的拓展。然而相较于图像领域,视频控制与编辑的进展仍相对有限,主要受限于配对视频数据的稀缺性以及视频扩散模型训练的高计算成本。针对这一问题,本文提出了一种无需视频数据的调优框架ViFeEdit,专为视频扩散变换器设计。该框架无需任何形式的视频训练数据,仅通过二维图像适配即可实现多功能视频生成与编辑。我们的方法核心在于架构重参数化——将现代视频扩散变换器中的全三维注意力机制解耦为空间独立模块,此举既能保持视觉编辑的保真度,又能以极少的附加参数维持时序一致性。此外,该设计采用双路径流水线结构,配备独立的噪声调度时间步嵌入,展现出对多样化条件信号的强适应性。大量实验表明,本方法仅需对二维图像数据进行极简训练,即可实现可控视频生成与编辑的优异效果。代码已开源:https://github.com/Lexie-YU/ViFeEdit。
训练自主网络智能体的根本局限在于其学习环境:真实网站既存在探索风险又难以重置,且极少提供可验证反馈。我们提出VeriEnv框架,将语言模型作为环境生成器,自动将真实网站克隆为完全可执行、可验证的合成环境。通过Python SDK提供受控的内部访问接口,VeriEnv使智能体能够自主生成任务并获得可程序化验证的确定性奖励,从而摆脱对启发式或LLM评判器的依赖。该设计将智能体学习与不安全的真实交互解耦,同时通过环境扩展实现可规模化的自我进化。在网络智能体基准测试中,采用VeriEnv训练的智能体不仅能够泛化至未知网站,还能通过自我进化训练实现站点专属的精通程度,并受益于训练环境数量的扩展。代码与资源将在论文录用后发布于https://github.com/kyle8581/VeriEnv。
針對從大型語言模型提示到多輪智能體的複雜系統優化,傳統上需要耗費大量人力的手動迭代。我們將此挑戰形式化為一個隨機生成優化問題:生成式語言模型作為優化器,在數值獎勵和文本反饋的引導下探索最佳系統。我們提出具備局部上下文聚合的優先級優化框架(POLCA),該可擴展框架旨在處理優化過程中的隨機性(如噪聲反饋、採樣小批量數據和隨機系統行為),同時有效管理解空間的無限制擴張。POLCA通過維護優先級隊列來平衡探索與利用,系統化追蹤候選解及其評估歷史。為提升效率,我們整合了ε-Net機制以保持參數多樣性,並採用LLM摘要器實現歷史試驗的元學習。我們從理論上證明POLCA在隨機條件下能收斂至接近最優的候選解。通過在τ-bench、HotpotQA(智能體優化)、VeriBench(代碼翻譯)和KernelBench(CUDA內核生成)等多個基準測試上的評估,實驗結果表明POLCA在確定性與隨機性問題中均能實現魯棒、樣本高效且時間高效的性能,持續超越現有最先進算法。本研究代碼庫已公開於https://github.com/rlx-lab/POLCA。
大型推理模型(LRMs)通过思维链(CoT)推理在复杂推理任务中展现出卓越性能,该机制使其能在得出最终答案前生成中间思考标记。然而,LRMs常存在严重过度思考现象,即便答案已提前生成仍消耗过量计算时间。已有研究指出存在最优推理长度阈值,在此截断推理可显著缩短CoT输出长度且几乎不影响性能。但确定实际数据集的最优CoT长度极具挑战性,因其完全取决于具体任务与模型。本文针对该问题提出TERMINATOR——一种面向LRMs推理阶段的早退策略以缓解过度思考。TERMINATOR的核心思想是:LRM首次出现最终答案的时刻具有可预测性,我们利用这些首次答案位置构建了新颖的最优推理长度数据集来训练模型。基于该方法,TERMINATOR在MATH-500、AIME 2025、HumanEval和GPQA四个高难度实际数据集上实现了CoT长度14%-55%的平均缩减,同时性能超越当前最先进方法。
现有网页生成基准主要依赖文本提示或静态截图作为输入。然而视频天然蕴含更丰富的信号,如交互流程、转场时机和动效连续性,这些对于精准还原网页至关重要。尽管存在这种潜力,基于视频条件的网页生成研究仍处于探索空白阶段,目前尚无针对该任务的专用基准。为填补这一空白,我们推出WebVR基准,用于评估多模态大语言模型能否根据演示视频精准复现网页。WebVR涵盖多元类别的175个网页,全部通过可控合成流程构建(而非网络爬取),确保演示内容的多样性和真实性,且与现有在线网页无重叠。我们还设计了细粒度、符合人类偏好的视觉评估标准,从多维度对生成网页进行评测。对19个模型的实验表明,现有模型在还原细粒度样式和动效质量方面存在显著差距,而基于本评估标准的自动评测与人类偏好的一致性达到96%。我们公开数据集、评估工具包和基线结果,以支持未来视频到网页生成的研究。
所有分类器(包括最先进的视觉模型)都具有不变性特征,这种特征部分源于其线性映射的几何结构。这些存在于分类器零空间中的不变量会诱导生成映射到相同输出的等效输入集。由于现有方法难以提供人类可解读的信息,这些不变量的语义内容始终含糊不清。为解决这一问题,我们提出零空间几何语义解释法(SING),该方法能构建相对于神经网络的等效图像,并为可用变异赋予语义解释。我们通过将网络特征映射到多模态视觉语言模型,从而获得语义偏移的自然语言描述和视觉示例。SING既可应用于单张图像以揭示局部不变量,也可应用于图像集以实现在类别和模型层面的大规模统计分析。例如,我们的方法表明ResNet50会将相关语义属性泄露至零空间,而基于自监督DINO预训练的视觉Transformer模型DinoViT在保持不变量空间的类别语义方面表现更优。
大型语言模型在推理过程中常出现"顿悟时刻",例如在"等等"类提示词后表现出明显的自我修正行为,但其内在机制尚不明确。我们提出一种信息论框架,将推理分解为程序性信息与认知外化——即支撑下游控制行为的不确定性显性表达。研究表明纯程序性推理会导致信息停滞,而认知外化能持续获取信息,对实现信息充分性至关重要。实证结果证实,卓越的推理性能源自不确定性外化过程,而非特定表层标记。该框架统一了关于顿悟时刻与训练后实验的既有发现,并为未来推理模型设计提供了新视角。
动机作为人类行为的核心驱动力,深刻影响着决策制定、目标设定及任务表现。随着大语言模型与人类偏好的对齐程度日益提升,我们不禁追问:它们是否展现出类似动机的特质?本研究通过考察大语言模型是否会"呈现"不同层级的动机水平、这些动机表征如何关联其行为模式,以及外部因素能否对其产生影响,发现了一系列与人类心理学相呼应的结构化规律:模型自陈的动机水平不仅与不同的行为特征相匹配,还会随任务类型产生变化,且能被外部干预手段调节。这些发现表明,动机可作为解释大语言模型行为的连贯组织框架,系统性地联结模型的自我报告、选择偏好、努力程度与绩效表现,呈现出与人类心理学记载高度相似的动机动态机制。该研究视角不仅深化了我们对模型行为的理解,更揭示了其与人类心理概念的内在关联。
尽管有效运动遵循结构化非欧几里得几何特性,人体运动生成技术通常仍在欧几里得空间中学习。我们提出黎曼运动生成(RMG)框架,该统一框架在乘积流形上表示运动,并通过黎曼流匹配学习动力学。RMG将运动分解为多个流形因子,生成具有内在归一化特性的无标度表示,并采用测地插值、切空间监督及保流形常微分方程积分进行训练与采样。在HumanML3D数据集上,RMG在HumanML3D格式下达到最先进的FID指标(0.043),并在MotionStreamer格式下所有已报道指标中排名第一。在MotionMillion数据集上,其表现亦超越强基线模型(FID 5.6,R@1 0.86)。消融实验表明,紧凑的T+R(平移+旋转)表示最具稳定性与有效性,印证了几何感知建模是实现高保真运动生成的实用且可扩展路径。
我们推出PokeAgent挑战赛——一个基于《宝可梦》多智能体对战系统与广阔角色扮演游戏(RPG)环境构建的大规模决策研究基准。部分可观测性、博弈论推理与长程规划仍是前沿人工智能亟待解决的问题,但现有基准鲜少能在真实条件下同时检验这三项能力。PokeAgent通过两条互补赛道规模化突破这些局限:竞技赛道要求参与者在部分可观测的宝可梦对战中展现策略推理与泛化能力,速通赛道则要求玩家在宝可梦RPG中完成长程规划与序列决策。我们为竞技赛道提供包含2000万条对战轨迹的数据集,以及具备高水平竞技能力的启发式、强化学习与基于大语言模型的基线系统;速通赛道则首次建立RPG速通标准化评估框架,包含开源的多智能体编排系统,可对基于控制框架的大语言模型方法进行模块化、可复现的比较。NeurIPS 2025竞赛中逾百支队伍参与双赛道角逐,获奖方案详见于论文,印证了资源质量与研究界对宝可梦主题的高度关注。参赛方案与基线系统的对比表明,通用模型(大语言模型)、专用模型(强化学习)与人类顶尖水平存在显著差距。基于BenchPress评估矩阵的分析显示,宝可梦对战能力与标准大语言模型基准近乎正交,可衡量现有测试集未覆盖的能力维度,使其成为能推动强化学习与大语言模型研究的未解基准。我们已将其转化为可持续更新的动态基准,在https://pokeagentchallenge.com 提供竞技赛道实时排行榜与速通赛道独立评估系统。
基於單元測試通過率的可驗證獎勵是程式碼生成強化學習的基礎。然而高品質測試集稀缺、現有數據集覆蓋有限,且靜態獎勵無法隨模型進化而調整。近期自我博弈方法雖將程式碼與測試生成統一於單一模型,卻面臨固有困境:白盒訪問會導致模型為獲取簡單獎勵而生成瑣碎測試的自我合謀現象,而黑盒限制又會產生忽略實現細節缺陷的泛化測試。我們提出Code-A1對抗共進化框架,通過對立目標聯合優化程式碼大語言模型與測試大語言模型:程式碼模型以通過更多測試獲取獎勵,測試模型則以暴露更多缺陷為目標。這種架構分離不僅消除了自我合謀風險,更安全實現白盒測試生成——測試模型可審查候選程式碼以生成針對性對抗測試。我們進一步引入用於經驗回放的錯題本機制,以及平衡測試有效性與對抗難度的複合獎勵函數。在Qwen2.5-Coder模型上的實驗表明,Code-A1達成了媲美甚至超越人工標註測試訓練模型的程式碼生成性能,同時顯著提升了測試生成能力。
在具身人工智能领域,可供性预测是连接感知与行动的关键桥梁。然而现有研究局限于针孔相机模型,其存在视场角狭窄和观测碎片化的问题,常常遗漏关键的整体环境上下文。本文首次探索全景可供性预测,利用360度图像捕捉全局空间关系与整体场景理解。为推进这一新颖任务,我们首先提出PAP-12K大规模基准数据集,包含逾千张超高分辨率(12k,11904×5952)全景图像,并标注超过1.2万个精心设计的问答对及可供性掩码。进一步地,受人类中央凹视觉系统启发,我们提出PAP训练无关的由粗到精处理流程,以应对全景图像固有的超高分辨率和严重畸变。该框架通过网格提示递归执行视觉路由来逐步定位目标,采用自适应注视机制校正局部几何畸变,并利用级联接地管道提取精确的实例级掩码。在PAP-12K上的实验表明,针对标准透视图像设计的现有可供性预测方法因全景视觉的特殊挑战而出现严重性能退化甚至失效。相比之下,PAP框架有效克服了这些障碍,显著超越现有先进基线,彰显了全景感知对构建鲁棒具身智能的巨大潜力。
多模态大语言模型(MLLMs)在独立评估视觉与听觉理解任务时已展现出强劲性能。然而,这些模型在长时复杂视频中处理全模态(视觉、听觉及文本)信号进行联合推理的能力仍待探索。我们推出MMOU基准测试,旨在系统评估模型在挑战性现实场景下的多模态理解与推理能力。该基准包含15,000道精心设计的问题,配以903段从网络采集的时长不一的视频,覆盖多元领域并呈现丰富的紧密耦合型音视频内容。基准测试涵盖13项基础技能类别,所有任务均需跨模态、跨时间整合证据。全部问题均由专业标注人员通过多轮次人工标注,确保高质量与推理保真度。我们对20余个开源及商业多模态模型进行MMOU评估,结果揭示显著性能差距:最优闭源模型准确率仅达64.2%,而最强开源模型仅为46.8%。研究结果凸显了长时全模态理解面临的挑战,表明当前模型在长视频中常无法运用基础技能。通过细化分析,我们进一步识别出系统性失误模式,为揭示现有模型的失效环节及原因提供洞见。
預訓練大型語言模型(LLM)已展現出廣泛的能力,然而在特定任務或領域中,要實現更高精度與更可靠的推理,通常需透過監督式微調(SFT)或強化學習(RL)進行後續訓練。儘管這兩種方法常被視為獨立技術,但最新理論與實證研究顯示,SFT與RL存在緊密關聯。本研究提出一個全面且統一的視角,探討結合SFT與RL的LLM後訓練框架。我們首先深入剖析兩種技術的目標、算法結構與數據需求,接著系統性分析其相互作用,重點闡釋整合SFT與RL的框架、混合訓練流程,以及發揮兩者互補優勢的方法。透過選取2023至2025年間具代表性的實證研究,我們歸納出新興趨勢,刻畫後訓練範式快速向混合模式轉型的特徵,並提煉出關鍵結論,明確指出每種方法最適用的情境與優勢根源。本研究融合理論洞見、實務方法與實證依據,在統一框架下建立對SFT與RL的連貫理解,最後為可擴展、高效率且具泛化能力的LLM後訓練技術,指出極具潛力的未來研究方向。
正如细粒度MoE的缩放定律所揭示,当中间维度粒度超过最优阈值后,模型性能便无法继续提升,这限制了单维度细粒度设计的增益空间。为突破此瓶颈,我们提出FineRMoE(双维度细粒度MoE)架构,将细粒度专家设计扩展至中间维度和输出维度,旨在突破单维度限制提升专家专业化程度。我们进一步引入双层级稀疏前向计算范式与专用路由机制来控制激活状态。此外,为避免从头训练FineRMoE的巨额成本,我们设计了一种广义升级再造方法,以经济高效的方式构建FineRMoE。大量实验表明,FineRMoE在十项标准基准测试中均实现了卓越性能:相较于最强基线模型,FineRMoE在推理时实现了6倍的参数效率提升、281倍的前向计算延迟降低以及136倍的解码吞吐量提升。
随着文本和图像生成领域的重大突破,视频生成领域迅速崛起,能够产出高度逼真且可控的连续画面。在这一进展的同时,此类模型也引发了关于虚假信息的严重担忧,使得可靠检测合成视频变得愈发关键。基于图像的检测器存在根本局限,因其仅能逐帧分析而忽略时序动态特征;而有监督视频检测器对未知生成模型的泛化能力较差——面对新型模型的快速涌现,这一缺陷尤为致命。这些挑战催生了零样本检测方法,其避免使用合成数据,转而通过比对真实数据统计特征来评估内容,从而实现无需训练、与模型无关的检测。我们提出STALL检测器,这种无需训练的简易方法具备理论依据,可在概率框架内联合建模空时证据,为视频提供基于似然度的评估分数。我们在两个公开基准上测试STALL,并推出包含前沿生成模型的新基准ComGenVid。实验表明STALL始终优于现有基于图像和视频的基线方法。代码与数据详见https://omerbenhayun.github.io/stall-video。
单图像重照明具有高度欠约束性:微小的光照变化可能引发阴影、高光和反射区域的剧烈非线性变化,而几何结构与材质属性却无法直接观测。现有基于扩散模型的方法要么依赖需要密集且脆弱监督的本征分解或G缓冲管线,要么仅在潜空间运行而缺乏物理基础,导致对光照方向、强度和色彩的细粒度控制不可靠。我们发现精确重照明并不需要完整的本征分解,而是仅需稀疏但具有物理意义的提示线索——即指示光照变化区域及材质响应方式的信号——便足以引导扩散模型。基于此洞见,我们提出LightCtrl框架,通过双层物理先验进行融合:其一是基于小样本学习的潜空间代理编码器,从有限PBR监督中提取紧凑的材质-几何线索;其二是光照感知掩码,用于识别光照敏感区域并引导去噪器关注与着色相关的像素。为弥补PBR数据稀缺性,我们采用基于DPO的目标函数对代理分支进行优化,确保预测线索的物理一致性。同时我们构建了ScaLight数据集——一个包含系统化光照变化及完整相机-光源元数据的大规模物体级数据集,为物理一致的可控训练提供支持。在物体与场景级基准测试中,本方法实现了光度测量级精准的重照明效果,具备精确的连续控制能力,显著超越现有扩散模型及基于本征分解的基线方法,在受控光照变换下PSNR指标最高提升+2.4 dB,RMSE降低达35%。
遥感世界模型旨在同时解释观测到的变化并预测合理的未来情景,这两项任务共享时空先验知识。然而现有方法通常将二者割裂处理,限制了跨任务迁移能力。我们提出RS-WorldModel——一个统一处理时空变化理解与文本引导未来场景预测的遥感世界模型,并构建了包含110万样本、覆盖双任务的带丰富语言标注数据集RSWBench-1.1M。该模型采用三阶段训练框架:(1)地理感知生成预训练通过地理和采集元数据约束预测条件;(2)协同指令微调实现理解与预测的联合训练;(3)可验证强化优化利用可验证的任务特定奖励微调输出。仅凭20亿参数的RS-WorldModel在多数时空变化问答指标上超越了参数规模达其120倍的开源模型,其文本引导未来场景预测的FID指标达到43.13,优于所有开源基线及闭源的Gemini-2.5-Flash Image(Nano Banana)模型。
人工智能能否在重要的未解数学问题上取得突破?当前大语言模型已具备复杂的数学与科学推理能力,但其能否开展创新性研究仍存在广泛争议且探索不足。我们推出HorizonMath基准测试集,涵盖计算数学与应用数学8大领域的百余个未解难题,并配套开源自动化验证框架。该基准聚焦于一类发现困难(需要深刻数学洞察力)、但验证计算高效简捷的问题。由于这些问题的解决方案尚未可知,HorizonMath能有效避免数据污染问题,目前最先进模型的得分率接近0%。现有研究级基准依赖形式化证明验证或人工评审,均难以规模化应用。通过该平台,我们发现GPT 5.4 Pro针对两个问题提出的解决方案优于已知最佳公开结果,可能构成创新性贡献(待专家评审)。我们将HorizonMath作为开放性挑战和持续更新的社区资源发布,其中未解问题类的正确答案有望成为数学文献中的新发现。
视频推理要求模型能够在多帧画面中定位并追踪与问题相关的证据。尽管采用可验证奖励的强化学习提升了推理准确性,但在推理过程中仍难以实现可靠的时空定位。此外,改进定位能力通常需要扩大训练数据规模或依赖推理时的感知工具,这会增加标注成本或计算开销。为解决这一难题,我们提出VisonCoach框架——一种输入自适应的强化学习系统,通过视觉提示作为训练阶段的指导来提升时空定位能力。在强化学习训练过程中,视觉提示会针对具有挑战性的输入选择性激活,以增强问题相关证据并抑制干扰信息。随后模型通过自蒸馏机制内化这些改进,最终实现无需视觉提示即可直接对原始视频进行具象推理。VisonCoach包含两个核心组件:(1)视觉提示选择器:根据视频和问题内容预测合适的提示类型;(2)时空推理器:在视觉提示引导下进行强化学习优化,并采用强制物体身份一致性与多区域边界框重叠的对象感知定位奖励机制。大量实验表明,在可比设置下,VisonCoach在多样化视频推理(V-STAR、VideoMME)、视频理解(World-Sense、VideoMMMU)及时空定位基准测试(PerceptionTest、Charades-STA)中均达到最先进性能,同时保持单一高效推理路径且无需外部工具。我们的研究证实:训练阶段的视觉提示能有效提升具象视频推理能力,而自蒸馏技术可使模型在推理时无需提示即可内化这种能力。
近期軌跡可控影片生成技術取得了顯著進展。現有方法主要基於適配器架構實現預定義軌跡的精確運動控制,但均依賴多步去噪過程,導致顯著的時間冗餘與計算開銷。雖然現有影片蒸餾技術能成功將多步生成器壓縮為少步模型,但直接應用於軌跡可控影片生成時會導致影片質量與軌跡精度明顯下降。為解決這一問題,我們提出FlashMotion——專為少步軌跡可控影片生成設計的新型訓練框架。我們首先在多步影片生成器上訓練軌跡適配器以實現精確軌跡控制,接著將生成器蒸餾為少步版本以加速生成過程,最後採用結合擴散模型與對抗目標的混合策略對適配器進行微調,使其與少步生成器協同生成高質量、高軌跡精度的影片。為評估性能,我們構建了FlashBench基準測試集,專門針對包含不同數量前景物體的長序列軌跡可控影片生成任務,同時衡量影片質量與軌跡精度。在兩種適配器架構上的實驗表明,FlashMotion在視覺質量與軌跡一致性方面均優於現有影片蒸餾方法及傳統多步模型。
近期研究表明,大型语言模型(LLMs)存在深度诅咒现象:深层网络对学习和表征的贡献度低于浅层。这种利用不足的问题与预层归一化中方差累积增长有关,该机制会使深层模块趋近恒等映射行为。本文论证了稀疏性不仅能提升效率,还可作为方差传播的调节器,从而改善深度利用率。我们探究了两种稀疏性来源:(一)隐式稀疏性,产生自训练与数据条件,包括权重衰减诱导的权重稀疏性和长上下文输入诱导的注意力稀疏性;(二)显式稀疏性,通过架构设计强制实现,包括分组查询注意力中的键值共享稀疏性和混合专家模型中的专家激活稀疏性。通过受控的深度扩展实验和针对性层效能干预,我们的主张获得了充分验证。在所有设定中,我们观察到一致规律:稀疏性通过降低输出方差和促进功能分化来提升层利用率。最终我们将研究结果提炼为可实践的深度高效LLMs训练经验法则,在下游任务中实现了4.6%的显著准确率提升。本研究揭示出稀疏性——这种源自标准设计选择的内在特性,是LLMs实现有效深度扩展的关键机制,而该机制此前一直被忽视。代码已发布于https://github.com/pUmpKin-Co/SparsityAndCoD。
随着具身智能体日益需要从共享观察中并行执行具有不同时间约束的多个任务(如操作控制、对话交互和记忆构建),混合Transformer架构的视觉-语言-动作模型虽在结构上支持此类异构输出,但现有推理系统因冗余计算和资源竞争难以实现适用于终端部署的高效多任务并行。我们发现孤立管理的KV缓存是问题根源。为此提出统一KV缓存管理范式,将KV缓存视为跨任务、跨时序的一级共享资源。该抽象实现两大优化:跨任务KV共享消除共享观察的重复预填充,而跨帧连续批处理则将变长语言解码与固定频率的动作生成在控制周期内解耦。我们在最流行的混合Transformer VLA模型π_{0.5}上实现该范式,并在典型机器人配置下评估。OxyGen相比孤立执行最高可实现3.7倍加速,在保持动作质量的同时达成超过200词/秒的语言吞吐量与70赫兹的动作频率。
生成準確的字形以實現視覺化文字渲染至關重要卻充滿挑戰。現有方法通常通過大量高質量場景文字圖像進行訓練來提升渲染效果,但字形變體覆蓋範圍有限與過度風格化往往會損害字形準確性,尤其對複雜或領域外字符更為明顯。部分方法採用強化學習緩解此問題,但其獎勵模型通常依賴對細粒度字形誤差不敏感的文字識別系統,導致含錯誤字元的圖像仍可能獲得高獎勵。受直接偏好優化(DPO)啟發,我們提出基於偏好的文字渲染方法GlyphPrinter,無需顯式獎勵模型。然而標準DPO目標僅建模樣本間的整體偏好關係,對於字形錯誤常集中於局部區域的視覺文字渲染而言並不充分。為此,我們構建帶區域級字形偏好標註的GlyphCorrector數據集,提出區域分組DPO(R-GDPO),通過基於標註區域的樣本間與樣本內偏好優化顯著提升字形準確性。此外,我們引入區域獎勵引導推理策略,從具有可控字形準確度的最優分佈中採樣。大量實驗表明,GlyphPrinter在保持風格化與精確度良好平衡的同時,字形準確性優於現有方法。
近期视频扩散模型在视觉质量方面取得了显著进展,但精确的细粒度控制仍是限制内容创作实际可定制性的关键瓶颈。对于AI视频创作者而言,三种控制形式至关重要:(i)场景构图,(ii)多视角一致的主体定制,以及(iii)相机位姿或物体运动调整。现有方法通常孤立处理这些维度,对任意姿态变化下的多视角主体合成与身份保持的支持有限。这种统一架构的缺失导致难以实现多功能联合可控视频。我们提出三提示法——一个集成场景构图、多视角主体一致性与运动控制的统一框架及两阶段训练范式。该方法采用由背景场景的3D追踪点与前景主体的降采样RGB线索驱动的双条件运动模块。为确保可控性与视觉真实感之间的平衡,我们进一步提出推理控制网络尺度调度机制。三提示法支持创新工作流,包括将3D感知主体插入任意场景以及对图像中现有主体进行操控。实验结果表明,三提示法在多视角主体身份保持、3D一致性和运动准确性方面显著优于Phantom、DaS等专业基线模型。
本文研究变分自编码器(VAE)在潜在扩散中的可扩散性(可学习性)。首先,我们证明采用均方误差目标的像素空间扩散存在固有偏差,会优先学习低频和中频空间分量,而自然图像的幂律功率谱密度(PSD)使得这种偏差在感知上具有益处。基于此发现,我们提出频谱匹配假说:具有优异可扩散性的潜在表征应满足(i)遵循平坦化的幂律功率谱分布(编码频谱匹配,ESM),以及(ii)通过解码器保持频率分量间的语义对应关系(解码频谱匹配,DSM)。实践中,我们通过匹配图像与潜在表征的功率谱密度实现ESM,并采用频域对齐重建的共享频谱掩码实现DSM。重要的是,频谱匹配提供了统一视角,既澄清了先前关于潜在表征过噪或过平滑的观察结果,又将多种近期方法(如VA-VAE、EQ-VAE)阐释为特例。实验表明,频谱匹配在CelebA和ImageNet数据集上实现了更优的扩散生成效果,且优于现有方法。最后,我们将频谱视角拓展至表征对齐(REPA):证明目标表征的方向性频谱能量对REPA至关重要,并提出基于DoG的方法进一步提升REPA性能。代码已开源:https://github.com/forever208/SpectrumMatching。
随着AI智能体日益作为长期运行系统被部署,自主构建并持续演进定制化软件以实现在动态环境中交互变得至关重要。然而,现有基准测试仅针对孤立的单次编码任务评估智能体,忽略了现实软件演进中固有的时序依赖性和技术债务。为弥补这一差距,我们提出DeepCommit——一种能从含噪提交日志中重构可验证里程碑有向无环图的智能体流程,其中里程碑被定义为语义连贯的开发目标。这些可执行序列支撑了EvoClaw这一新型基准测试,要求智能体在长期软件演进中维持系统完整性并控制错误累积,这两个维度在当前基准测试中普遍缺失。通过对4种智能体框架下的12个前沿模型进行评估,我们发现一个关键缺陷:整体性能得分从孤立任务中的>80%骤降至持续设置下的最高38%,暴露出智能体在长期维护和错误传播方面存在严重不足。
联邦公开市场委员会(FOMC)声明是货币政策信息的主要来源,其措辞的细微变化甚至能牵动全球金融市场。因此,核心任务在于量化这些文本传递的鹰派-鸽派立场。现有方法通常将立场检测视为标准分类问题,对每份声明进行独立标注。然而,货币政策沟通的解读本质上是相对的:市场反应不仅取决于声明的基调,更关键的是其相较于历次会议的立场变化。我们提出Delta一致性评分(DCS)框架,该无标注方法通过联合建模绝对立场与会议间相对变化,将冻结的大语言模型(LLM)表征映射为连续立场分数。DCS不依赖人工标注的鹰派-鸽派标签,而是以连续会议作为自监督信号,同步学习每份声明的绝对立场分数及连续声明间的相对变化分数。通过delta一致性目标函数,确保绝对分数的变化与相对变化保持一致,从而在没有人工标注的情况下还原时间连贯的立场轨迹。在四种LLM骨干网络的测试中,DCS始终优于监督式探测器和LLM作为评判员的基线模型,在句子级鹰派-鸽派分类任务中准确率最高达71.1%。所得会议级分数亦具经济意义:与通胀指标显著相关,且与国债收益率波动存在显著关联。总体而言,研究结果表明LLM表征中编码的货币政策信号可通过相对时间结构进行有效提取。
视觉-语言-动作模型在静态操作任务中表现出色,但在移动目标构成的动态环境中表现欠佳。这一性能差距主要源于动态操作数据集的稀缺,以及主流模型依赖单帧观测而受限的时空推理能力。为此,我们推出DOMINO——一个面向可泛化动态操作的大规模数据集与基准测试平台,包含35项具有层次化复杂度的任务、超过11万条专家演示轨迹,以及多维度的评估体系。通过系统化实验,我们不仅评估了现有模型在动态任务上的表现,探索了提升动态感知能力的有效训练策略,还验证了动态数据的泛化价值。此外,我们提出PUMA这一动态感知的VLA架构:通过融合以场景为中心的历史光流信息和专用世界查询模块,隐式预测以物体为中心的未来状态,该架构实现了历史感知与短时预测的耦合。实验结果表明,PUMA取得了最先进的性能,成功率较基线模型绝对提升6.3%。研究还发现,动态数据训练能形成可迁移至静态任务的鲁棒时空表征。所有代码与数据均已开源:https://github.com/H-EmbodVis/DOMINO。
概念定制方法通常将稀有标记与目标概念进行绑定。然而这类方法存在性能不稳定的缺陷,因为预训练数据中很少包含这些稀有标记。与此同时,这些稀有标记难以承载目标概念的内在知识。为此,我们提出知识感知概念定制这一新任务,旨在将多样化文本知识绑定到目标视觉概念上。该任务要求模型能够识别文本提示中的知识要素,从而实现高保真度的定制化生成,同时需要高效地将所有文本知识绑定至目标概念。基于此,我们提出创新框架MoKus,其核心洞见在于跨模态知识迁移——当文本模态中的知识被修改时,这种变化会在生成过程中自然传递到视觉模态。受此启发,MoKus包含两个阶段:(1) 视觉概念学习阶段,首先通过锚点表征存储目标概念的视觉信息;(2) 文本知识更新阶段,将知识查询的答案更新为锚点表征,从而实现高保真定制生成。为系统评估新任务上的表现,我们构建了首个知识感知概念定制基准KnowCusBench。大量实验表明,MoKus在各项指标上均优于现有最优方法。此外,跨模态知识迁移特性使MoKus能轻松扩展至虚拟概念创建、概念擦除等知识感知应用场景。我们还在世界知识基准测试中验证了本方法带来的性能提升。
我们推出ScienceClaw + Infinite框架——一种去中心化的自主科研体系。在该系统中,独立智能体无需中央协调即可开展研究,任何参与者都能向共享生态部署新智能体。该框架包含三大核心组件:涵盖300余种可互操作科研技能的可扩展注册库、以有向无环图(DAG)完整保存计算谱系的成果层,以及支持溯源治理的结构化智能体科研交流平台。智能体根据其科研特征配置调用工具链,生成带有类型化元数据和父系溯源关系的不可变成果,同时将未满足的信息需求广播至全局索引。ArtifactReactor模块实现无规划器协同:通过压力驱动评分机制,智能体可自主发现并填补开放需求;而模式重叠匹配会触发跨独立分析的多父系合成。自主变异层能主动修剪持续扩张的成果DAG以解决工作流冲突或冗余,持久化内存则支持智能体在多次研究周期中持续构建复杂认知状态。Infinite模块通过结构化报告、溯源视图和机器可读的论述关系,将这些输出转化为可审计的科研记录,社区反馈将引导后续研究周期。在肽类SSTR2受体设计、轻质抗冲击陶瓷筛选、跨域共振(连接生物/材料/音乐领域)及城市形态与晶界演化的形式类比构建四项自主研究中,本框架展现出异构工具链整合、独立智能体间涌现式收敛、以及从原始计算到发表成果的可追溯推理能力。
文件解析作为一项基础却关键的视觉任务,正受到视觉语言模型(VLM)的革命性影响。然而,VLM固有的自回归解码机制形成了显著瓶颈,严重制约了解析速度。本文提出并行令牌预测(PTP),这是一种可插拔、模型无关且简洁高效的方法,能使VLM在提升样本效率的同时并行生成多个未来令牌。具体而言,我们在输入序列中插入可学习的令牌,并通过设计相应的训练目标赋予模型并行解码能力。此外,为支持有效训练,我们开发了综合数据生成流程,可高效产出大规模、高质量的VLM文件解析训练数据。在OmniDocBench和olmOCR-bench上的大量实验表明,该方法不仅显著提升解码速度(1.6-2.2倍),还能减少模型幻觉并展现出强大的泛化能力。
解译视觉语言模型的内部推理机制对于在安全关键领域部署人工智能至关重要。基于概念的可解释性方法通过语义化组件表征模型行为,提供了符合人类认知的理解视角。然而现有方法主要局限于单模态图像分析,忽视了跨模态交互作用。诸如CLIP模型生成的图文嵌入向量存在模态鸿沟问题——视觉与文本特征遵循不同分布规律,这限制了模型的可解释性。典型相关性分析(CCA)为对齐不同分布的特征提供了理论框架,但尚未被应用于多模态概念级分析。我们证明CCA与InfoNCE损失函数的目标密切关联,优化CCA实则隐式优化InfoNCE目标,从而在不影响预训练InfoNCE目标的前提下,提供了一种无需重新训练的简易跨模态对齐机制。基于此发现,我们将概念可解释性与CCA相结合,提出概念典型相关性分析(CoCCA)框架,在实现跨模态嵌入对齐的同时支持可解释的概念分解。进一步我们提出稀疏概念典型相关性分析(SCoCCA),通过施加稀疏性约束生成更具解耦性和判别性的概念,显著提升激活、消融及语义操控等任务的性能。该方法将基于概念的解释推广至多模态嵌入空间,在概念发现任务中达到最先进水平,这通过重构与操控任务(如概念消融)得到了验证。
虚拟试衣技术虽已实现单件服装的可视化,但现实时尚场景以包含多件服装、配饰、细粒度品类、叠穿搭配及多样风格的整体造型为核心,这仍是当前虚拟试衣系统的盲区。现有数据集存在品类局限且缺乏造型多样性。我们推出首个面向整体造型虚拟试衣的大规模多模态数据集Garments2Look,包含8万组多服装至单造型配对,涵盖40个主要品类与300余个细分子类别。每组数据包含含3-12张参考服装图像(平均4.48张)的完整造型、模特上身效果图,以及详细的单品描述与试穿文本标注。为平衡真实性与多样性,我们提出合成流水线:先启发式构建造型清单再生成试穿效果,全程经过严格自动过滤与人工校验以确保数据质量。通过适配现有顶尖虚拟试衣方法与通用图像编辑模型建立基准测试,发现当前方法难以无缝试穿完整造型,也无法准确推断叠穿逻辑与搭配风格,导致错位与伪影问题。
针对交互系统的全流程文本转语音(TTS)技术需在文本增量输入时实现极低延迟的语音启动,同时保持可控性。我们提出VoXtream2模型,这是一种具备动态语速控制功能的零样本全流程TTS系统,可在语音生成过程中实时调整语速。该模型通过时长状态的分布匹配机制与条件信号的分类器无关引导相结合,有效提升了控制能力与合成质量。提示文本掩码技术实现了无需文本的音频提示功能,消除了提示转录的需求。在标准零样本测试集和专用语速测试集上,VoXtream2以更小的模型规模和更少的训练数据,在客观指标和主观听感方面均达到与主流基线模型相当的结果。全流程运行模式下,该系统在消费级GPU上可实现4倍于实时速度的处理效率,首包延迟仅为74毫秒。
近期离散图像生成领域的研究进展表明,扩大VQ码本规模可显著提升重建保真度。然而,采用大型VQ码本训练生成模型仍存在挑战,通常需要更大的模型规模与更长的训练周期。本研究提出随机邻域交叉熵最小化(SNCE),这是一种针对大型码本离散图像生成器优化难题设计的新型训练目标。与传统硬性独热标注监督不同,SNCE通过构建邻域标记集合上的柔性分类分布进行训练,每个标记的概率分配与其编码嵌入和真实图像嵌入的邻近度成正比,从而促使模型在量化嵌入空间中捕捉具有语义意义的几何结构。我们在类别条件ImageNet-256生成、大规模文本到图像合成及图像编辑任务上开展了广泛实验。结果表明,相较于标准交叉熵目标,SNCE能显著提升收敛速度与整体生成质量。
基於電子健康記錄(EHR)的臨床問答系統能幫助醫護人員和患者更有效率地獲取相關醫療資訊。然而,當前許多方法依賴大型雲端模型,由於隱私限制和計算資源需求,這類模型難以在臨床環境中部署。本研究探討在僅使用單台筆記型電腦的條件下,基於EHR的實證問答系統能達到何種效能水平。我們參與了ArchEHR-QA 2026聯合任務的全部四個子任務,並評估了多種專為商用硬體設計的解決方案。所有實驗均在本地端完成,未使用外部API或雲端基礎設施。結果表明,此類系統在聯合任務排行榜上能展現具競爭力的表現:我們的提交在兩個子任務中表現高於平均水平,且發現經過適當配置後,較小模型能接近大型系統的效能。這些發現證實,基於現有模型和商用硬體實現完全本地化運行的隱私保護型EHR問答系統具有可行性。原始碼已開源於https://github.com/ibrahimey/ArchEHR-QA-2026。