每日精選AI研究論文及翻譯
基於影片的世界模型主要沿著兩大主流範式發展:影片生成與三維重建。然而現有評估基準要么側重於生成模型的視覺保真度與文本-影片對齊能力,要么依賴於根本上忽略時序動態的靜態三維重建指標。我們認為世界建模的未來在於四維生成,這種範式能同步建模空間結構與時序演變。在此範式中,核心能力是互動響應:即準確反映互動行為如何驅動時空狀態轉變的能力。但目前尚無系統性評估這一關鍵維度的基準框架。為填補此空白,我們提出Omni-WorldBench——專為評估四維場景下世界模型互動響應能力而設計的綜合基準。該基準包含兩大核心組件:Omni-WorldSuite(涵蓋多層級互動與多類型場景的系統化提示集)和Omni-Metrics(基於智能體的評估框架,通過量化互動行為對最終結果與中間狀態演變軌跡的因果影響來評估世界建模能力)。我們對18個代表性世界模型進行跨範式廣泛評估,分析揭示了當前模型在互動響應方面的關鍵侷限性,為未來研究提供可行方向。Omni-WorldBench將公開釋出以促進互動式四維世界建模的發展。
我們推出daVinci-MagiHuman——一個開源的人本生成式音視頻基礎模型。該模型採用單流Transformer架構,僅通過自注意力機制在統一標記序列中處理文本、視頻和音頻數據,實現同步音視頻生成。這種單流設計避免了多流或交叉注意力架構的複雜性,同時能利用標準訓練推理基礎設施輕鬆優化。該模型在人本生成場景表現卓越,可生成富有表現力的面部演繹、自然的口型語音協調、逼真的肢體運動以及精準的音畫同步。其支持多語言語音生成,涵蓋中文(普通話與粵語)、英語、日語、韓語、德語及法語。為實現高效推理,我們將單流主幹網絡與模型蒸餾、潛空間超分辨率以及Turbo VAE解碼器相結合,在單張H100 GPU上僅需2秒即可生成5秒長的256p視頻。在自動評估中,daVinci-MagiHuman在主流開源模型中獲得最高視覺質量與文本對齊度,並以14.60%的字錯誤率實現最佳語音清晰度。在2000次雙盲人工評測中,其對Ovi 1.1和LTX 2.3的勝率分別達80.0%和60.9%。我們將開源完整模型棧,包括基礎模型、蒸餾模型、超分辨率模型及推理代碼庫。
訓練深度研究智能體需要能夠交錯進行搜尋、證據匯總與多步驟推理的長程軌跡。然而現有的資料收集流程通常依賴專有網路API,導致大規模軌跡合成成本高昂、穩定性差且難以重現。我們提出OpenResearcher——一個可重現的流程,將一次性語料庫引導建置與多輪軌跡解耦,並透過三種明確的瀏覽器基礎操作(搜尋、開啟、查找)在包含1,500萬份文件的語料庫中完全離線執行「搜尋-瀏覽」循環。使用GPT-OSS-120B作為教師模型,我們合成了超過9.7萬條軌跡,其中包含大量工具調用次數達100+的長程軌跡。基於30B-A3B骨幹模型對這些軌跡進行監督式微調後,在BrowseComp-Plus上達到54.8%的準確率,相較基礎模型提升34.0個百分點,同時在BrowseComp、GAIA和xbench-DeepSearch基準上保持競爭力。由於環境完全離線且具備全流程監測機制,該系統還支持可控分析:我們的研究揭示了深度研究管道設計的實用洞察,包括資料過濾策略、智能體配置選擇,以及檢索成功率與最終答案準確性的關聯。我們已於https://github.com/TIGER-AI-Lab/OpenResearcher 開源此流程、合成軌跡、模型檢查點及離線搜尋環境。
視覺語言模型通常以原生高解析度處理影像,這迫使模型必須在準確性與計算效率之間做出權衡:高解析度輸入能捕捉細部特徵卻伴隨顯著計算成本,而低解析度輸入雖提升效率,卻可能遺失關鍵視覺資訊(如細小文字)。我們提出AwaRes——一種按需取樣的空間處理框架,透過在低解析度全域視野上運作,並利用工具呼叫機制僅擷取查詢所需的高解析度區塊,從而化解此準確性與效率的衝突。我們採用自動化監督資料建構方法:由評判模組比對低/高解析度答案以標註是否需要裁剪區域,再由標定模組定位正確答案的證據區域,並將其映射至離散裁剪集合以形成多輪次工具使用軌跡。訓練框架採用冷啟動監督微調,接續進行多輪次群體策略優化,其複合獎勵函數結合語意答案正確性與顯性裁剪成本懲罰機制。專案頁面:https://nimrodshabtay.github.io/AwaRes
我們推出旗艦級開源模型LongCat-Flash-Prover——一個擁有5600億參數的混合專家模型,通過工具集成推理代理技術在Lean4中推進原生形式推理能力。我們將原生形式推理任務解構為三個獨立的形式化能力:自動形式化、證明草圖構建與定理證明。為強化這些能力,我們提出混合專家迭代框架以擴展高質量任務軌跡,包括根據非形式化問題生成形式化命題、直接從命題生成完整證明或引理式證明草圖。在代理強化學習階段,我們提出分層重要性採樣策略優化算法,旨在穩定混合專家模型在長週期任務上的訓練。該算法採用梯度掩碼策略,同時考慮策略陳舊性以及序列與詞元層面的訓練-推理引擎固有差異。此外,我們還引入定理一致性與合法性檢測機制以消除獎勵欺詐問題。大量實驗表明,LongCat-Flash-Prover在自動形式化與定理證明任務上為開源權重模型設立了新標杆:憑藉卓越的樣本效率,在MiniF2F測試集上僅用每題72次推理預算即達成97.1%通過率;在更具挑戰性的基準測試中,以每題不超過220次嘗試解決了ProverBench的70.8%和PutnamBench的41.5%問題,顯著超越現有開源權重基準模型。
由於上下文窗口有限,長影片理解對多模態大語言模型(MLLMs)仍是挑戰,這需要識別稀疏的查詢相關影片片段。然而現有方法主要僅基於查詢進行線索定位,忽略了影片的內在結構與不同片段的差異化相關性。為解決此問題,我們提出VideoDetective框架,該框架整合查詢-片段相關性與片段間親和力,以實現長影片問答中的高效線索搜尋。具體而言,我們將影片分割為多個片段,並基於視覺相似性與時間鄰近性構建視覺-時間親和圖來表徵片段關係。隨後通過假設-驗證-優化循環流程,計算已觀測片段與查詢的相關性分數,並將其傳播至未觀測片段,從而生成全局相關性分佈以指導關鍵片段定位,最終實現稀疏觀測下的精準回答。實驗表明,我們的方法在多個主流MLLMs與代表性基準測試中均取得顯著提升,其中VideoMME-long數據集的準確率最高提升7.5%。程式碼已開源於https://videodetective.github.io/。
儘管大規模預訓練圖像表徵模型(即視覺編碼器)在各類視覺任務中取得了顯著成功,但由於其訓練數據主要基於二維圖像,這些模型往往難以捕捉現實世界中物體與背景之間的三維空間關係,從而限制了其在許多下游應用中的效能。為解決這一問題,我們提出SpatialBoost——一個可擴展的框架,通過注入以語言描述表達的三維空間知識來增強現有預訓練視覺編碼器的空間感知能力。其核心思想是將二維圖像中的密集三維空間信息轉化為語言表達,再透過大型語言模型將此類空間知識注入視覺編碼器。為實現這一目標,我們採用多輪思維鏈推理過程,逐步融合密集空間知識並建立層次化的空間理解。為驗證有效性,我們將SpatialBoost適配至DINOv3等先進視覺編碼器,並在需要三維感知與通用視覺能力的一系列基準測試中評估其效能提升。例如在ADE20K數據集上,SpatialBoost將DINOv3的表現從55.9 mIoU提升至59.7 mIoU,以3.8%的增益超越預訓練DINOv3並達到最先進性能。
尽管生成式隐空间的最新进展已推动单图像生成领域取得显著进步,但适用于新视角合成任务的最优隐空间仍属探索不足的领域。尤其值得注意的是,新视角合成要求在不同视角间保持几何一致的生成效果,而现有方法通常基于视角无关的VAE隐空间进行运算。本文提出几何隐扩散模型,该框架将几何基础模型中具有几何一致性的特征空间重新定位为多视角扩散的隐空间。我们证明这些特征不仅支持高保真度的RGB重建,还能编码强视角间几何对应关系,从而为新视角合成提供适配度极高的隐空间。实验表明,GLD在二维图像质量与三维一致性指标上均优于VAE和RAE,同时相较VAE隐空间将训练速度提升超4.4倍。值得关注的是,尽管GLD的扩散模型完全从头开始训练而未借助大规模文生图预训练,其性能仍可与利用此类生成式预训练的先进方法相媲美。
当前语言模型训练普遍采用均质计算预算的多任务监督微调方法,这种方案存在根本性缺陷:异构学习动态会导致快速学习任务过早过拟合,而慢速学习任务仍欠拟合。为此,我们提出mSFT算法——一种面向多任务数据混合的迭代式过拟合感知搜索方法。mSFT通过在动态混合数据集上训练模型,识别并排除最早过拟合的子数据集,并回退至该子数据集的最优检查点后继续训练。大量实验表明,mSFT在10个基准测试和6个基础模型中均稳定优于4种基线方法。进一步分析证实,mSFT在不同数据规模、任务粒度下均能保持稳健增益,且对其唯一新增超参数(计算预算)不敏感。值得注意的是,在低计算预算下,mSFT能在降低训练FLOPs的同时提升性能。最终,mSFT为多任务监督微调建立了一种实用的过拟合感知算法,可最大化模型在不同数据混合场景下的潜力。
針對影片生成的群組相對策略優化(GRPO)方法(如FlowGRPO)的可靠性仍遠不及語言模型與影像領域的對應技術。此差距源於影片生成具有複雜的解空間,且用於探索的ODE-to-SDE轉換可能引入過多噪聲,導致生成品質下降與獎勵估計可靠性降低,進而影響訓練後對齊的穩定性。為解決此問題,我們將預訓練模型視為定義了一個有效的影片數據流形,並將核心問題轉化為將探索限制在該流形鄰域內,以確保生成品質與獎勵估計的可靠性。我們提出SAGE-GRPO(基於探索的穩定對齊方法),在微觀與宏觀層面施加雙重約束:微觀層面推導具對數曲率校正的精確流形感知SDE,並引入梯度範數均衡器以穩定時間步的採樣與更新;宏觀層面採用雙重信賴域機制,通過週期性移動錨點與分步約束,使信賴域追蹤更接近流形的檢查點並限制長時程漂移。我們在HunyuanVideo1.5上以原始VideoAlign作為獎勵模型進行評估,結果顯示SAGE-GRPO在VQ、MQ、TA及視覺指標(CLIPScore、PickScore)上均穩定超越現有方法,展現出更優異的獎勵最大化能力與整體影片品質。程式碼與視覺展示見於 https://dungeonmassster.github.io/SAGE-GRPO-Page/。
前馈式3D高斯泼溅方法能够实现单次重建与实时渲染,但其通常采用刚性的像素-高斯或体素-高斯处理流程,均匀分配高斯函数导致多视角间存在冗余高斯元素。此外,这类方法缺乏在保持重建保真度的同时有效控制高斯元素总量的机制。针对这些局限性,我们提出F4Splat方法,通过执行面向前馈式3G高斯泼溅的前馈预测性致密化,引入基于致密化分数引导的分配策略,该策略能根据空间复杂度和多视角重叠度自适应分布高斯函数。我们的模型通过预测区域级致密化分数来估算所需高斯密度,并允许在不重新训练的情况下显式控制最终高斯预算。这种空间自适应分配机制减少了简单区域的冗余,并最小化重叠视角间的重复高斯元素,从而生成紧凑且高质量的3D表征。大量实验表明,相较于现有未经校准的前馈方法,我们的模型在使用更少高斯元素的同时,实现了更优异的新视角合成性能。
开放词汇3D物体检测旨在定位和识别超出固定训练分类体系的对象。在多视角RGB场景中,现有方法通常将基于几何的实例构建与语义标注解耦,先生成类别无关的片段再后验分配开放词汇类别。虽然灵活,但这种解耦使实例构建主要受几何一致性主导,在合并过程中缺乏语义约束。当几何证据存在视角依赖性和不完整性时,这种纯几何合并可能导致不可逆的关联错误,包括不同物体的过度合并或单个实例的碎片化。我们提出Group3D——一种将语义约束直接整合到实例构建过程中的多视角开放词汇3D检测框架。该方法通过多模态大语言模型维护场景自适应词汇表,并将其组织为编码合理跨视角类别等价关系的语义兼容组。这些组别作为合并时的约束条件:3D片段仅当同时满足语义兼容性和几何一致性时才会被关联。这种语义门控合并机制在吸收多视角类别变异性的同时,能有效缓解几何驱动导致的过度合并问题。Group3D支持位姿已知和位姿无关两种设置,仅依赖RGB观测数据。在ScanNet和ARKitScenes上的实验表明,Group3D在多视角开放词汇3D检测中实现了最先进的性能,并在零样本场景中展现出强大的泛化能力。项目页面详见https://ubin108.github.io/Group3D/。
提升多模态大语言模型(MLLMs)的具身推理能力,对于在其基础上构建视觉-语言-动作模型(VLAs)以实现多模态理解向低层级动作的即时转化至关重要。近期研究尝试通过视觉问答类监督来增强MLLMs的具身推理能力,但据报告这些方法会导致VLA性能不稳定,往往仅产生微弱增益甚至出现性能倒退。本文提出一种更系统化的MLLM训练框架RoboAlign,可稳定提升VLA性能。我们的核心思路是通过零样本自然语言推理采样动作令牌,并利用强化学习(RL)优化推理过程以提高动作准确性。RoboAlign由此弥合了MLLMs中语言与低层级动作的模态鸿沟,促进了从MLLM到VLA的知识迁移。为验证RoboAlign的有效性,我们在MLLM骨干网络上添加基于扩散模型的动作头来训练VLAs,并在主流机器人基准上进行评估。值得注意的是,仅使用不足1%的数据进行监督微调(SFT)后实施基于RL的对齐,RoboAlign在LIBERO、CALVIN和真实环境中的性能较SFT基线分别提升17.5%、18.9%和106.6%。
大型语言模型(LLMs)在知识密集型任务中会出现幻觉问题。基于图谱的检索增强生成(RAG)已成为一种有前景的解决方案,但在处理黑盒知识图谱(即图谱模式和结构未知的图谱)时,现有方法存在根本性的召回率和精确度限制。我们识别出导致召回损失(语义实例化不确定性和结构路径不确定性)与精确度损失(证据比较不确定性)的三项核心挑战。为解决这些挑战,我们将检索任务形式化为最优信息子图检索(OISR)问题——该问题是群斯坦纳树问题的变体,并证明其具有NP难和APX难特性。我们提出BubbleRAG这一免训练流程,通过语义锚点分组、启发式气泡扩展以发现候选证据图(CEGs)、复合排序及感知推理的扩展机制,系统化地同步优化召回率与精确度。在多跳问答基准测试上的实验表明,BubbleRAG实现了最先进的性能,在F1分数和准确率上均优于强基线方法,并保持即插即用特性。
可验证奖励强化学习(RLVR)显著提升了大型语言模型的推理能力。现有分析虽指出RLVR引发的模型更新具有稀疏性,但主要关注更新幅度,却忽视了更新方向的重要性。本文提出更新方向是理解RLVR效果更关键的视角,可通过基础模型与最终RLVR模型之间的符号化词元级对数概率差Δlog p来捕捉。通过统计分析和词元替换干预实验,我们证明相较于基于幅度的指标(如散度或熵),Δlog p能更有效识别稀疏却对推理至关重要的更新。基于此发现,我们提出两种实际应用:(1)测试时外推法——沿习得的Δlog p方向放大策略,无需额外训练即可提升推理准确率;(2)训练时重加权法——将学习重点集中于低概率(对应较高Δlog p)词元,从而在不同模型和基准测试中提升推理性能。本研究确立了变化方向作为分析与改进RLVR的核心原则。
针对长视野智能体任务的后训练存在计算效率与泛化能力之间的张力。监督微调虽具计算效率,却常受域外性能退化困扰;反之,端到端强化学习虽能保持域外能力,但因需多轮同策略 rollout 而计算成本高昂。我们提出PivotRL创新框架,该框架基于现有SFT轨迹运行,兼具SFT的计算效率与E2E RL的域外准确性。其核心机制包括:首先执行局部同策略rollout并筛选关键转折点——即采样行动在结果中呈现高方差的强信息量中间轮次;其次采用功能等效行动奖励机制,而非苛求与SFT演示数据的严格字符串匹配。理论分析表明,这些机制能激励具有高自然梯度范数的强学习信号,同时最大限度保持与训练任务无关行动的策略概率顺序。在相同数据上的实验显示,PivotRL在四个智能体领域平均实现+4.17%的域内准确率提升,在非智能体任务中域外准确率提升达+10.04%。值得注意的是,在智能体编程任务中,PivotRL仅需E2E RL四分之一轮次的rollout即可达到相当精度。该框架已被英伟达Nemotron-3-Super-120B-A12B模型采用,成为生产级智能体后训练的核心技术。
现有的提示优化技术依赖局部信号来更新行为,往往忽略跨任务中更广泛且重复出现的模式,导致泛化能力不足;这些技术还依赖于完整提示重写或非结构化合并,造成知识损失。这些局限在研究型编程工作流中尤为突出——这类工作流涉及异构代码库、未明确指定的环境及弱反馈机制,且以复现公共代码库结果作为既定评估标准。我们提出反射式演进研究工程师框架,该框架通过持续学习全局训练上下文,识别跨代码库执行轨迹中的重复故障模式,将其提炼为可复用的启发式规则,并对三个可配置字段(系统提示、任务提示模板和累积速查表)进行定向编辑。实验表明,借助这种反射式优化框架,在研究型编程任务上的表现相较此前最优的人工编写指令分别提升:SUPER基准4.50%、ResearchCodeBench基准3.51%、ScienceAgentBench基准4.89%。这些结果证明,具备持续学习与全局记忆整合机制的智能体能够随时间推移实现能力的实质性演进。
连接视觉与语言能力的模型(如CLIP)是多模态人工智能的核心组件,但其大规模非精选训练数据会引入严重的社会偏见与伪相关偏差。现有的事后去偏方法通常直接在稠密的CLIP嵌入空间中操作,该空间中偏见信息与任务相关信息高度耦合,导致在保持语义保真度的同时消除偏见的能力受限。本研究提出稀疏嵌入调制(SEM),一种基于稀疏自编码器(SAE)潜在空间的事后零样本去偏框架。通过将CLIP文本嵌入解耦为特征分量,SEM能够识别并调控偏见相关神经元,同时保留查询相关神经元,从而实现更精确的非线性干预。在四个基准数据集和两种CLIP主干网络上的实验表明,SEM在检索和零样本分类任务中显著提升了公平性。研究结果证明,稀疏潜在表征为视觉语言模型的事后去偏提供了有效基础。
生成式模型与视觉编码器长期以来基本沿着各自独立的路径发展,其优化目标不同且基于不同的数学原理。然而它们共享一个基本特性:潜在空间的高斯性。生成式模型将高斯噪声映射为图像,而编码器则将图像映射为语义嵌入——其坐标在经验上呈现高斯分布特性。我们假设二者实为同一潜在源的不同视图,即通用正态嵌入(UNE):这是一个近似高斯分布的潜在空间,编码器嵌入和DDIM逆推噪声均可视为其带噪声的线性投影。为验证此假设,我们构建了NoiseZoo数据集,其中包含每张图像对应的DDIM逆推扩散噪声与匹配的编码器表征(CLIP、DINO)。在CelebA数据集上的实验表明,两个空间中的线性探针均能实现强效且对齐的属性预测,证明生成式噪声沿着线性方向编码了有意义的语义信息。这些线性方向进一步实现了无需改变模型架构的可控图像编辑(如微笑、性别、年龄等),通过简单的正交化处理即可缓解虚假纠缠效应。综合来看,我们的实验结果从实证角度支持了UNE假说,揭示了连接编码与生成过程的共享高斯型潜在几何结构。代码与数据详见https://rbetser.github.io/UNE/。
權重分解的低秩適配(DoRA)通過將權重幅度與方向解耦來擴展LoRA,但其前向傳播需計算W + sBA的行範數,而我們調查的所有主流框架均通過實例化稠密的[d_out, d_in]乘積BA來實現該計算。當d_in=8192且秩r=384時,單一模組的範數計算在bf16精度下需要約512 MB的瞬態工作記憶體,這使得高秩DoRA在涉及數百個適配模組和檢查點機制時成本高昂,且在多數單GPU環境中難以實現。 我們提出兩項系統級改進:因式分解範數將平方範數拆解為可通過O(d_out r + r^2)中間量計算的基礎項、交叉項和格拉姆項,從而消除稠密乘積運算;融合Triton核心將四核心DoRA組合操作壓縮為單次處理,減少約4倍的記憶體傳輸量,並採用數值穩定形式避免在實際幅度縮放集中近單位縮放區域出現災難性抵消。 在三款NVIDIA GPU(RTX 6000 PRO/H200/B200)上對六個80億至320億參數的視覺語言模型進行bf16精度下r=384的測試表明:融合實現在推理時比Hugging Face PEFT的DoRA實現快1.5-2.0倍,梯度計算(不含優化器步驟)快1.5-1.9倍,峰值顯存降低最高達7 GB。跨四代架構(L40S/A100/RTX 6000 PRO/H200/B200/B300)的六款GPU微基準測試確認組合核心速度提升達1.5-2.7倍。所有模型/GPU組合的最終邏輯餘弦相似度均超過0.9999,且多種子訓練曲線在2000步內的每步損失差值均值保持在7.1×10^-4以內。
大型语言模型(LLMs)通过扩展测试时推理已实现显著的可靠性提升和先进能力。然而,由于高质量长链推理数据与优化训练流程的严重匮乏,将此类能力拓展至多模态大语言模型(MLLMs)仍面临重大挑战。为弥补这一鸿沟,我们提出统一的多智能体视觉推理框架,从以图像为核心的基础模型Insight-V系统性地演进为通用时空架构Insight-V++。我们首先构建具备多粒度评估能力的可扩展数据生成流程,无需人工干预即可自主合成跨图像与视频领域的结构化复杂推理轨迹。鉴于直接使用此类复杂数据监督MLLMs会导致次优结果,我们设计了双智能体架构:推理智能体负责执行广泛分析链,摘要智能体则对最终结果进行批判性评估与提炼。虽然初始框架采用直接偏好优化(DPO),但其离策略特性从根本上限制了强化学习潜力。为突破这一局限(尤其针对长时序视频理解),Insight-V++引入ST-GRPO与J-GRPO两种新型算法,分别增强时空推理能力与评估鲁棒性。关键创新在于:通过利用摘要智能体的可靠反馈,我们引导迭代式推理路径生成过程,使整个多智能体系统在持续自我优化的循环中完成再训练。基于LLaVA-NeXT和Qwen2.5-VL等基础模型的大规模实验表明,该框架在挑战性图像视频推理基准上取得显著性能提升,同时保持传统感知任务的强健能力。
我们提出广义离散扩散快照法(GDDS),这是一个支持大型离散状态空间任意噪声化过程的统一离散扩散建模框架。我们的公式体系不仅涵盖所有现有离散扩散方法,还允许在破坏动态选择上获得显著更高的灵活性。前向噪声化过程基于均匀化理论,可实现快速的任意破坏。对于逆向过程,我们基于快照潜变量(而非整个噪声化路径)推导出简明的证据下界(ELBO),使得能够以清晰的概率解释高效训练标准生成建模架构。在大型词汇表离散生成任务上的实验表明,所提框架在训练效率和生成质量方面均优于现有离散扩散方法,并首次在此规模上超越自回归模型。相关代码及技术博客已发布于项目页面:https://oussamazekri.fr/gdds。
人们常将"AI奇点"误读为单一神性心智的降临。然而进化论揭示了另一条路径:智能本质上是多元、社会性与关系性的。近期具身AI的进展表明,前沿推理模型(如DeepSeek-R1)的突破并非源于"更长时间的思考",而是通过模拟内在的"思维社会"——那些自发进行辩论、验证与调和的认知辩论会。我们正迈入人机融合的"半人马时代":集体能动性超越个体控制的混合行动体。要实现智能的规模扩展,需从二元对齐(RLHF)转向制度性对齐。通过借鉴组织与市场机制设计数字协议,我们就能构建具有制衡功能的社会基础设施。下一次智能爆发不会催生单一的硅基大脑,而将形成如城市般专业分工、有机延展的复杂组合型社会。世间从无孤岛般的心智。
提示路由技術能夠針對每個查詢從候選模型中動態選擇最合適的大型語言模型,在優化性能的同時有效控制成本。隨著模型池規模擴展至包含數十個性能差距微小的前沿模型,現有方法面臨重大挑戰:手動定義的任務分類法無法捕捉細粒度的能力差異,而單體式路由架構難以區分不同任務間的細微差別。為此,我們提出一種兩階段路由架構,通過自動化細粒度任務發現和任務感知的質量評估來解決這些局限性。第一階段採用基於圖的聚類方法發現潛在任務類型,並訓練分類器將提示分配至已發現的任務;第二階段使用混合專家架構,配備針對特定任務的預測頭以實現專業化質量評估。在推理時,我們整合兩個階段的預測結果,實現任務級穩定性與提示特定適應性之間的平衡。在包含11個前沿模型的10個基準測試中,本方法始終優於現有基準方案,其表現超越最強單體模型的同時,成本不足後者的一半。
代码复用与调用仍面临高成本与低可靠性问题,这主要源于实用工具大多嵌入异构代码库且缺乏标准化可执行接口。尽管大语言模型(LLMs)和基于模型上下文协议(MCP)的工具调用框架支持自然语言任务执行,但现有方法严重依赖人工工具整理与标准化,从根本上制约了可扩展性。本文提出ToolRosetta统一框架,能自动将开源代码库和API转换为符合MCP标准的工具,供LLMs可靠调用。面对用户任务时,ToolRosetta可自主规划工具链、识别相关代码库,并将其转化为可执行的MCP服务,实现端到端任务完成且无需过多人工干预。该框架还集成安全检测层以降低执行任意代码的固有风险。跨学科大规模实验表明,ToolRosetta能自动标准化大量开源工具,显著减少代码复现与部署的人力成本。值得注意的是,通过无缝集成专业开源工具,基于ToolRosetta的智能体在任务完成效果上持续优于商用LLMs及现有智能体系统。
低秩自适应(LoRA)作为从预训练扩散模型生成个性化图像的事实微调策略,其秩的选择至关重要——它直接权衡性能与内存消耗,但当前业界往往仅依据社群共识确定秩值,而未考虑个性化主题的复杂度。原因显而易见:为每个LoRA组件选择最佳秩的成本呈组合爆炸式增长,因此我们通常采用固定所有组件秩值的实用捷径。本文首次尝试突破这一困境。受神经网络自适应宽度学习的变分方法启发,我们让各层秩在针对特定主题的微调过程中自由适配。通过强制规定秩位置的重要性排序,该方法能有效促使模型仅在严格必要时生成更高秩值。定性与定量实验表明,我们的方法LoRA^2在29个主题上实现了DINO、CLIP-I和CLIP-T指标的均衡权衡,同时比高秩版本LoRA节省更多内存并降低秩值。代码地址:https://github.com/donaldssh/NotAllLayersAreEqual。
人工智能代理在执行孤立软件工程任务(如解决GitHub问题)方面已日益成熟。然而涉及多个相互依赖子任务的长期任务仍面临挑战,既体现在准确率方面,也体现在及时完成方面。解决这类长期任务的天然途径是采用异步多智能体协作模式,即多个代理同时处理任务的不同部分。但实践表明多智能体系统的有效应用存在惊人难度:多代理的并发编辑会相互干扰,依赖关系难以同步,部分进展的整合也充满挑战。相比之下,人类开发者长期依赖成熟的协作基础设施来应对大型软件项目中的这些难题。受这些协作原语的启发,我们提出了集中式异步隔离委托(CAID)——一种基于三大软件工程核心原语的结构化多智能体协调范式:集中式任务委托、异步执行和隔离工作区。CAID通过中央管理器构建具备依赖感知的任务计划,在隔离工作区中并行执行子任务,并通过基于可执行测试验证的结构化集成来整合进展。实证评估显示,在论文复现任务(PaperBench)上CAID相较单智能体基线绝对准确率提升26.7%,在Python库开发任务(Commit0)上提升14.3%。通过系统分析,我们发现分支合并是多智能体协作的核心协调机制,而诸如git worktree、git commit和git merge等软件工程原语能够以可靠可执行的方式实现该机制。
大型视觉语言模型(LVLM)在语义理解方面表现出色,但在细粒度空间定位方面存在不足,因为模型需要隐式推断复杂几何关系而从未生成空间解释。我们提出Perceptio——一种具备2D与3D空间推理能力的感知增强型LVLM,通过直接在自回归序列中生成的显式语义分割标记和深度标记实现该能力。具体而言,我们(i)从强单目深度估计模型中蒸馏出VQ-VAE深度码本,将稠密深度信息编码为紧凑序列;(ii)将基于SAM2的语义分割标记与VQ-VAE深度标记集成到LLM中,使模型先输出空间标记再生成答案。为稳定深度标记生成,我们引入新型复合深度标记目标函数(标记符损失、标记损失和计数损失)及支持微分重建的软融合技术。通过在多数据集上采用多任务协同训练策略,模型可学习感知标记以处理多种下游任务。基于InternVL架构的Perceptio在多项基准测试中达到最先进性能:在RefCOCO/+/g数据集上指代表达式分割cIoU指标提升+0.8/+1.4/+1.1,HardBLINK空间理解准确率提高10.3%,MMBench准确率提升1.0%,证明显式空间思维链能实质性增强LVLM的空间定位能力。
扩散变换器(DiTs)虽能驱动高保真视频世界模型,但由于序列去噪和高成本时空注意力机制,其计算开销依然巨大。基于免训练的特征缓存技术通过跨去噪步骤复用中间激活值来加速推理,然而现有方法主要依赖零阶保持假设——即当全局漂移较小时将缓存特征作为静态快照复用。这常导致动态场景中出现重影伪影、模糊和运动不一致问题。我们提出WorldCache,一种感知约束的动态缓存框架,从“何时复用”和“如何复用”两个维度进行优化。该框架引入运动自适应阈值、显著性加权的漂移估计、基于混合与形变的最优近似方法,以及跨扩散步骤的相位感知阈值调度。我们的协同方案无需重新训练即可实现自适应、运动一致的特征复用。在PAI-Bench上对Cosmos-Predict2.5-2B的评估表明,WorldCache在保持基线模型99.4%生成质量的同时实现2.3倍推理加速,显著优于现有免训练缓存方法。代码已开源:https://umair1221.github.io/World-Cache/。
離線安全強化學習旨在從靜態數據集中,在嚴格安全約束下尋找獎勵最大化策略。現有方法通常依賴軟性期望成本目標或迭代式生成推斷,這對安全關鍵的實時控制而言可能不足。我們提出安全流Q學習(SafeFQL),通過將漢密爾頓-雅可比可達性啟發的安全值函數與高效單步流策略相結合,將FQL擴展至離線安全強化學習。SafeFQL通過自洽貝爾曼遞歸學習安全值,通過行為克隆訓練流策略,並將其提煉為單步行動器,在部署時無需拒絕採樣即可實現獎勵最大化的安全動作選擇。為應對學習安全邊界中有限數據近似誤差,我們增加了保形預測校準步驟,可調整安全閾值並提供有限樣本概率安全覆蓋。實證表明,相比擴散式安全生成基線方法,SafeFQL以適度增加的離線訓練成本換取推理延遲的大幅降低,這對實時安全關鍵部署具有優勢。在船舶導航與Safety Gymnasium MuJoCo任務中,SafeFQL在保持或超越現有離線安全強化學習性能的同時,顯著降低了約束違反次數。
动物发声为野生动物评估提供了关键洞察,尤其在森林等复杂环境中,有助于物种识别与生态监测。深度学习的最新进展使得通过动物鸣声实现自动物种分类成为可能。然而,对训练阶段未见过物种的分类仍是挑战。为突破此局限,我们提出AnimalCLAP——一个包含层级生物信息的语谱框架,由新型数据集和模型构成。具体而言,我们的动物发声数据集包含4,225小时录音,涵盖6,823个物种,并标注了22种生态特征。AnimalCLAP模型基于该数据集,利用生物分类结构对齐音频与文本表征,从而提升对未知物种的识别能力。实验表明,我们提出的模型能直接从动物鸣声中推断物种的生态与生物学属性,其性能显著优于CLAP模型。相关数据集、代码及模型将公开于https://dahlian00.github.io/AnimalCLAP_Page/。
世界模型通过学习预测环境未来状态,实现规划与心理模拟。当前方法普遍采用基于Transformer的预测器在潜在空间中进行操作,但这带来了代价:O(N²)的计算复杂度且缺乏显式空间归纳偏置。本文提出一个基础性问题:自注意力机制是否为预测性世界建模所必需?其他计算基质能否实现相当或更优的效果?我们提出FluidWorld概念验证世界模型,其预测动力学由反应-扩散型偏微分方程控制。该模型无需独立神经网络预测器,而是通过PDE积分直接生成未来状态预测。在无条件UCF-101视频预测任务中(64x64分辨率,约80万参数,采用相同编码器、解码器、损失函数及数据),我们进行了严格参数匹配的三向消融实验,将FluidWorld与Transformer基线(自注意力)和ConvLSTM基线(卷积循环)进行对比。虽然三者均收敛至相当的单步预测损失,但FluidWorld实现了2倍更低的重构误差,其表征空间结构保持度提升10-15%,有效维度增加18-25%,关键能在多步推演中保持连贯性,而两个基线模型均迅速退化。所有实验均在单台消费级PC(Intel Core i5, NVIDIA RTX 4070 Ti)上完成,未使用任何大规模算力。这些结果表明:基于PDE的动力学机制天然具备O(N)空间复杂度、自适应计算能力以及通过扩散实现的全局空间一致性,是替代注意力和卷积循环机制进行世界建模的可行且参数高效的方案。
擴散語言模型(DLMs)相較自迴歸模型具有顯著優勢,例如全注意力並行解碼和靈活生成能力。然而其存在明顯的訓練-推論失配問題:DLMs採用靜態單步掩碼預測目標進行訓練,卻需通過多步漸進去噪軌跡進行部署。我們提出記憶增強型DLM(MemDLM),通過雙層優化將模擬去噪過程嵌入訓練階段以縮小這一差距。內層循環更新一組快速權重,形成參數化記憶體以捕獲每個樣本的局部軌跡經驗,而外層循環則基於此記憶體更新基礎模型。通過將記憶壓力從詞元表徵卸載至參數,MemDLM實現了更快的收斂速度與更低的訓練損失。此外,內層循環可在推論時作為自適應步驟重新激活,從而在長上下文理解任務中產生額外增益。我們發現,在推論時激活的參數化記憶體會湧現為一種權重內檢索機制,幫助MemDLM在挑戰性的"大海撈針"檢索任務中進一步緩解詞元級注意力瓶頸。代碼地址:https://github.com/JarvisPei/MemDLM。
近期文本转语音技术的进步使得生成高保真合成语音已近乎与真人声音难以区分。虽然最新研究表明基于自监督学习的语音编码器在深度伪造检测方面具有效能,但这些模型难以对未见过的新说话人实现泛化。我们的定量分析表明,这些编码器表征显著受到说话人信息的影响,导致检测器利用说话人特异性关联而非伪影相关线索。我们将此现象称为说话人纠缠。为减弱这种依赖性,我们提出SNAP框架——一种说话人信息消除方法。通过估计说话人子空间并应用正交投影来抑制说话人相关成分,从而在残差特征中分离出合成伪影。通过降低说话人纠缠度,SNAP促使检测器聚焦于伪影相关模式,最终实现了最先进的检测性能。
深度神经网络在计算机视觉领域取得了显著成功,但其对抗攻击的脆弱性依然突出。其中伪装攻击通过改变物体的可见外观来欺骗检测器,同时保持对人类观察者的隐蔽性。本文提出一种新框架,将车辆伪装攻击建模为条件图像编辑问题。具体而言,我们探索了图像级和场景级两种伪装生成策略,通过微调ControlNet直接在真实图像上合成伪装车辆。我们设计了统一目标函数,同时保证车辆结构保真度、风格一致性和对抗有效性。在COCO和LINZ数据集上的大量实验表明,本方法实现了显著更强的攻击效果(导致AP50下降超过38%),同时较现有方法能更好地保持车辆结构并提升人类感知的隐蔽性。此外,我们的框架能有效泛化至未见过的黑盒检测器,并展现出良好的物理世界可迁移性。项目页面详见https://humansensinglab.github.io/CtrlCamo
视听导航技术使具身智能体能够利用听觉与视觉线索,向声源目标行进。然而现有方法大多依赖预计算的房间脉冲响应进行双耳音频渲染,将智能体限制在离散网格位置,导致空间观测不连续。为构建更真实的场景,我们提出连续环境下的语义视听导航框架(SAVN-CE),使智能体可在三维空间自由移动,并感知时空连贯的视听流。在此设定下,目标可能间歇性静默或完全停止发声,导致智能体丢失目标信息。为解决这一挑战,我们提出基于多模态Transformer的MAGNet模型,该模型联合编码空间与语义目标表征,并通过整合历史上下文与自运动线索实现记忆增强型目标推理。综合实验表明,MAGNet显著优于现有最优方法,成功率绝对提升幅度达12.1%。实验结果还凸显了其对短时声音和长距离导航场景的强鲁棒性。代码已开源:https://github.com/yichenzeng24/SAVN-CE。
強化學習(RL)對於將大型語言模型(LLM)進化為具備長程規劃能力的自主智能體至關重要,然而在複雜多輪環境中擴展強化學習的實用方法仍屬空白。本文通過TravelPlanner(一個需要工具協調以滿足多維約束的挑戰性測試平台)開展系統性實證研究,將智能體強化學習的設計空間分解為五個維度:獎勵塑形、模型擴展、數據構成、算法選擇與環境穩定性。我們的對照實驗得出7項關鍵結論,例如:(1)獎勵與算法選擇具有規模依賴性——較小模型受益於分階段獎勵與增強探索,而較大模型使用簡單稠密獎勵即可高效收斂;(2)約1,000個訓練樣本配合難度均衡的混合數據,能實現領域內與跨領域性能的最佳平衡;(3)環境穩定性對防止策略退化至關重要。基於提煉的實踐方案,我們經強化學習訓練的模型在TravelPlanner上實現了最先進性能,顯著超越主流大型語言模型。
行为克隆是机器学习中的基础范式,能够通过专家示范实现从机器人学、自动驾驶到生成模型等领域的策略学习。自回归模型(如Transformer)已被证明具有显著效力,其应用范围从大语言模型延伸至视觉-语言-动作系统。然而,将自回归模型应用于连续控制任务时,需通过量化对动作进行离散化处理——这一做法虽被广泛采用,但其理论机制尚未得到充分阐释。本文为该实践建立了理论基础:我们分析了量化误差如何沿时间轴传播并与统计样本复杂度相互作用,证明了在系统动态稳定且策略满足概率平滑条件的前提下,采用量化动作和对数损失的行为克隆能达到最优样本复杂度(与现有下界匹配),且量化误差仅引起多项式级别的时间轴依赖。我们进一步揭示了不同量化方案满足或违反这些条件的情形,并提出一种基于模型的增强方法,可在不要求策略平滑性的情况下可证明地改善误差界。最后,我们建立了能同时捕捉量化误差与统计复杂度影响的基本极限。
我们研究非周期层级结构是否能在无损压缩方面提供优于周期层级的结构性优势。研究表明,斐波那契准晶铺砌能避免周期层级存在的有限深度坍缩问题:可用的n元词组查找位置在各层级均保持非零值,而周期为p的周期铺砌在O(log p)层级后即发生坍缩。这形成了非周期层级优势:字典复用可在所有尺度实现,而非在有限深度后消失。我们的分析得出四个主要结论:首先,黄金补偿特性表明位置数量的指数衰减恰好被词组长度的指数增长所平衡,使得潜在覆盖范围保持尺度不变性,其渐近值为Wφ/5;其次,基于斯特姆序列复杂度定律p(n)=n+1,我们证明斐波那契/斯特姆层级在二元非周期铺砌中实现了最大码本覆盖效率;第三,在长程依赖条件下,该层级结构比同类周期层级具有更低的编码熵;第四,冗余度随深度呈超指数衰减,而周期系统在发生坍缩的深度即陷入停滞。我们通过Quasicryth压缩器验证了这些结论——该无损文本压缩器基于十层斐波那契层级构建,词组长度为{2,3,5,8,13,21,34,55,89,144}。在控制变量实验中,使用相同码本时,非周期结构相较于周期-5基准线的优势从3MB时的36,243字节增长至1GB时的11,089,469字节,这源于更深层级结构的激活。在enwik9数据集上,Quasicryth实现225,918,349字节(22.59%)的压缩效果,其中斐波那契铺砌相较无铺砌方案节省20,735,733字节。
基于知识的对话系统旨在通过引入外部知识源生成信息丰富、上下文相关的回复。然而现有方法大多仅关注英语,缺乏验证事实主张的显式引用机制,且模型决策透明度有限。我们提出XKD-Dial——一个面向双语(英语-印地语)可解释知识对话生成的渐进式四阶段训练框架,包含:(1)多语言适配;(2)带引用的英语对话监督微调;(3)双语对话监督微调;(4)基于引用感知奖励的生成式强化策略优化对齐。我们在每个阶段对六款涵盖编码器-解码器(2.5亿-30亿参数)和纯解码器(10亿-70亿参数)架构的模型进行评估。核心贡献包括:(i)系统化应用三种事后可解释性分析——交叉注意力对齐、积分梯度归因和基于遮挡的因果溯源,沿训练轨迹揭示引用行为的学习机制而非仅验证学习效果;(ii)带引用的监督微调使编码器-解码器模型从第二阶段起幻觉率降至0.0%;(iii)渐进式框架在提升印地语能力的同时避免灾难性遗忘;(iv)较小模型经监督微调后英语表现可媲美大模型;(v)针对结构化引用任务,生成式强化策略优化相较精心设计的监督微调仅产生边际改善。我们采用六项自动指标(BLEU、ROUGE、BERTScore、FactScore、Citation-F1和幻觉率)进行全面评估。
本研究推出AdditiveLLM2——一个基于Gemma 3指令调优模型构建的多模态领域自适应大语言模型,其训练使用了约5000万token的小规模数据集。该数据集(AdditiveLLM2-OA)由开放获取的增材制造期刊论文构成,通过数据提取技术服务于领域自适应预训练与视觉指令调优流程。我们采用由已公开资源汇编的增材制造领域专项任务基准(Additive-Manufacturing-Benchmark)对开发模型的各个阶段进行评估。AdditiveLLM2在语言与视觉任务中均展现出卓越能力,在通用增材制造知识问答中准确率超过90%。这种领域自适应预训练与指令调优策略为大型语言模型实现增材制造等专业领域的适配提供了一条可行的技术路径。