每日精選AI研究論文及翻譯
蒸餾自迴歸影片模型雖能實現高效串流生成,卻常與人類視覺偏好產生偏差。現有強化學習框架難以自然適配此類架構,通常需依賴昂貴的重新蒸餾或耦合求解器的反向過程優化,導致顯著的記憶體與計算開銷。我們提出專為蒸餾自迴歸模型設計的高效線上強化學習框架Astrolabe。為突破現有瓶頸,我們基於負向感知微調技術,提出一種正向過程強化學習架構。透過在推理端點直接對比正負樣本,該方法無需展開反向過程即可建立隱式策略改進方向。為實現長影片對齊,我們設計了串流訓練機制:透過滾動KV快取逐步生成序列,僅對局部片段窗口應用強化學習更新,同時以歷史上下文為條件確保長程連貫性。最後為抑制獎勵破解,我們整合了由不確定性感知選擇性正則化與動態參考更新穩定的多獎勵目標。大量實驗表明,本方法能持續提升多種蒸餾自迴歸影片模型的生成品質,成為具可擴展性的穩健對齊方案。
視覺語言模型雖展現出強大的多模態能力,但在細粒度視覺語言推理方面仍存在不足。我們發現長鏈思維推理會暴露多種失敗模式,包括感知錯誤、推理錯誤、知識錯誤和幻覺錯誤,這些錯誤可能在多個中間步驟中疊加放大。然而,現有用於強化學習視覺推理的多數視覺語言數據並未包含全程依賴視覺證據的複雜推理鏈,使得這些弱點難以被充分暴露。為此,我們提出HopChain——一個可擴展的框架,專門用於合成多跳躍視覺語言推理數據以訓練視覺語言模型的強化學習視覺推理能力。每個合成的多跳躍查詢都形成邏輯依賴的實例錨定鏈,其中前期跳躍建立後續跳躍所需的實例、集合或條件,而最終答案保持為可驗證獎勵所需的具體明確數值。我們將HopChain合成的多跳躍數據添加到用於訓練Qwen3.5-35B-A3B和Qwen3.5-397B-A17B的原始強化學習視覺推理數據中,並在涵蓋STEM與謎題、通用視覺問答、文字識別與文檔理解、影片理解等24個基準測試上,與僅使用原始強化學習視覺推理數據的訓練結果進行比較。儘管這批多跳躍數據並非針對特定基準設計,但其加入使兩個模型在24個基準中的20個表現提升,顯示出廣泛且可泛化的增益。為驗證完整鏈式查詢的重要性,我們將其替換為半多跳躍或單跳躍變體,導致24個基準平均準確率分別下降5.3和7.0分。多跳躍訓練還強化了長鏈思維視覺語言推理能力,在超長鏈思維機制下準確率提升峰值超過50分。這些實驗證實HopChain能有效生成可擴展的多跳躍數據,持續提升視覺語言推理的泛化能力。
視覺語言模型(VLMs)在地球觀測(EO)領域展現出潛力,但在需要將複雜空間推理與精確像素級視覺表徵相結合的任務中仍存在困難。為解決此問題,我們提出 TerraScope——一個能實現像素級地理空間推理的統一視覺語言模型,具備兩大核心能力:(1)模態靈活推理:可處理單模態輸入(光學或合成孔徑雷達),並在雙模態可用時自適應融合不同模態至推理過程;(2)多時序推理:能整合時間序列數據,實現多時間點的變化分析。此外,我們構建了 Terra-CoT 大規模數據集,包含來自多來源的100萬個嵌入像素級遮罩的推理鏈樣本。我們還提出首個像素級地理空間推理基準 TerraScope-Bench,透過六項子任務同步評估答案準確性與遮罩品質,以確保真實的像素級推理。實驗表明,TerraScope 在像素級地理空間推理任務上顯著超越現有視覺語言模型,同時提供可解釋的視覺證據。
自我改進式人工智慧系統旨在透過學習優化自身的學習與問題解決流程,以降低對人類工程設計的依賴。現有的自我改進方法依賴於固定、人工設計的元層級機制,從根本上限制了此類系統的改進速度。達爾文·哥德爾機(DGM)透過反覆生成並評估自我修改的變體,展現了在程式編寫領域中開放式的自我改進能力。由於評估與自我修改均屬程式任務,程式能力的提升可直接轉化為自我改進能力的增強。然而,這種協同性在程式領域之外通常難以成立。我們提出超智慧體(hyperagents)——一種自我指涉的智慧體,將任務智慧體(解決目標任務)與元智慧體(修改自身及任務智慧體)整合為單一可編輯程式。關鍵在於,元層級的修改程序本身亦可編輯,從而實現元認知層面的自我改進,不僅優化任務解決行為,更能提升未來改進機制的生成能力。我們通過擴展DGM框架實例化此概念,創建DGM-超智慧體(DGM-H),摒棄了「任務表現與自我修改技能需具領域特定協同性」的假設,有望在任何可計算任務上實現自我加速進步。在多樣化領域中,DGM-H隨時間推移持續提升性能,其表現優於無自我改進或開放探索的基準系統,也超越先前的自我改進系統。更重要的是,DGM-H能改進其生成新智慧體的流程(如持久記憶、性能追蹤),這些元層級改進具跨領域遷移能力,並在多次運行中持續累積。DGM-超智慧體預示著開放式AI系統的雛形:它們不僅搜尋更優解,更持續優化「如何改進」的搜尋機制本身。
有效的協作始於懂得何時尋求協助。例如在嘗試辨識被遮擋物體時,人類會請他人移開障礙物。多模態大語言模型能否通過請求簡單的使用者介入,展現出類似的「主動性」行為?為探究此問題,我們提出ProactiveBench——一個基於七個改編數據集構建的基準測試,用於檢驗模型在識別遮擋物體、提升圖像質量、解讀粗略草圖等多種任務中的主動性。我們對22個MLLMs進行評估後發現:(一)模型普遍缺乏主動性;(二)主動性與模型能力無關;(三)給予主動性提示僅能帶來有限提升。令人驚訝的是,對話歷史和上下文學習會產生負面偏差,反而降低模型表現。最後我們探索基於強化學習的微調策略:結果表明模型可以習得主動性,甚至能泛化至未見過的場景。我們公開釋出ProactiveBench,作為構建主動式多模態模型的第一步。
大型語言模型(LLM)正日益被用作通用推理工具,但固定長度的上下文窗口仍是處理長輸入的瓶頸。遞歸語言模型(RLM)通過將提示外部化並遞歸解決子問題來應對這一挑戰。然而現有的RLM依賴於開放式讀取-求值-輸出循環(REPL),模型在該循環中生成任意控制代碼,導致執行過程難以驗證、預測和分析。 我們提出λ-RLM這一長上下文推理框架,它採用基於λ演算的類型化函數式運行時系統,取代了自由形式的遞歸代碼生成。該框架執行經過預驗證的緊湊組合子庫,僅對有界葉子子問題進行神經推理,從而將遞歸推理轉化為具有顯式控制流的結構化函數式程序。我們證明λ-RLM能實現標準RLM缺乏的形式化保障,包括終止性、閉式成本界限、隨遞歸深度可控的精度擴展,以及簡單成本模型下的最優分割規則。在四項長上下文推理任務和九個基礎模型的實證研究中,λ-RLM在36組模型-任務對比中有29項表現優於標準RLM,在不同模型層級中平均準確率最高提升21.9個百分點,延遲最高降低4.1倍。這些結果表明,類型化符號控制相比開放式遞歸代碼生成,能為長上下文推理提供更可靠高效的基礎。λ-RLM的完整實現已在以下網址開源:https://github.com/lambda-calculus-LLM/lambda-RLM。
場景生成具有廣泛的工業應用需求,既要求高真實感,又需精確控制幾何結構與外觀。基於語言的檢索方法能從大型物件數據庫中組合出合理的場景,但忽略了物件層級的控制,且往往難以保證場景層級的風格一致性。基於圖結構的建模方法通過顯式關係建模提供了更高的物件可控性與整體一致性,然而現有方法難以生成高保真度的紋理結果,限制了其實用性。我們提出FlowScene——一個基於多模態圖條件的三分支場景生成模型,協同生成場景佈局、物件形狀與物件紋理。其核心是緊耦合的修正流模型,在生成過程中交換物件信息,實現跨圖結構的協同推理。該方法不僅能細粒度控制物件的形狀、紋理與關係,還能確保跨結構與外觀的場景級風格一致性。大量實驗表明,FlowScene在生成真實感、風格一致性及與人類偏好契合度方面,均優於基於語言條件和圖結構條件的基準方法。
近期擴散模型的進展顯著提升了文字到視訊的生成能力,使個性化內容創作能夠對前景與背景元素進行細粒度控制。然而,跨主體的精準臉部屬性對齊仍具挑戰性,現有方法缺乏確保群組內一致性的顯式機制。解決這一難題需要顯式建模策略與臉部屬性感知數據資源的雙重突破。為此,我們提出LumosX框架,在數據與模型設計層面同步推進。在數據層面,通過定製化的採集流程協調獨立視訊中的描述文本與視覺線索,並藉助多模態大語言模型推斷並分配主體特定依賴關係。這些提取的關係先驗施加了更細粒度的結構,既增強了個性化視訊生成的表達控制力,也支持構建綜合性基準測試集。在建模層面,關係自注意力與關係交叉注意力機制將位置感知嵌入與優化的注意力動態交織融合,刻畫顯式的主體-屬性依賴關係,從而強化群組內凝聚力並放大不同主體集群間的區隔性。在我們構建的基準測試上的綜合評估表明,LumosX在細粒度、身份一致性及語義對齊的個性化多主體視訊生成任務中實現了最先進的性能。程式碼與模型已開源於:https://jiazheng-xing.github.io/lumosx-home/。
思维链提示技术虽能提升大语言模型在复杂任务上的准确率,但常伴随令牌使用量与推理成本的增加。现有"预算强制"方法通过采用启发式长度惩罚的微调来降低成本,却同时抑制了关键推理与冗余填充内容。我们将高效推理重新定义为信息瓶颈原则下的有损压缩问题,并发现直接应用朴素IB到Transformer时存在关键理论缺陷:注意力机制违反了提示、推理轨迹与响应之间的马尔可夫性质。为解决此问题,我们在条件信息瓶颈框架下建立CoT生成模型,其中推理轨迹Z作为计算桥梁,仅包含无法直接从提示X获取的响应Y相关信息。由此推导出强化学习的通用目标函数:在给定推理轨迹先验分布的条件下,最大化任务奖励的同时压缩生成内容,该框架将常见启发式方法(如长度惩罚)作为特例(如均匀先验)纳入其中。与基于简单令牌计数的方案不同,我们引入语义先验,通过语言模型先验下的惊异值来度量令牌成本。实验表明,我们的CIB目标函数能有效剔除认知冗余的同时保持流畅性与逻辑性,在适度压缩下提升准确率,并在激进压缩时实现最小精度损失。
基于大型语言模型(LLM)的智能体已成为数字环境(包括移动界面、操作系统和网络浏览器)中强大的自主控制器。以网页导航为例,该任务需要处理动态内容和长序列操作,因而具有特殊挑战性。现有基于LLM的智能体在长程规划方面主要存在两大困境:在线执行过程中,智能体常因新信息涌入而偏离轨道,缺乏清晰且自适应的最终目标实现路径;这一难题在强化学习(RL)微调阶段更为突出,稀疏且延迟的奖励信号使智能体难以识别成功关键动作,无法在扩展任务中保持连贯推理。为应对这些挑战,我们提出两项创新:首先设计了一种通过子目标分解实现在线规划的智能体框架,利用专有模型进行动态决策;其次推出MiRA(里程碑式强化学习增强智能体),该RL训练框架采用基于里程碑的密集奖励信号。实时规划机制使Gemini等专有模型在WebArena-Lite基准测试中的成功率绝对提升约10%。同时,将MiRA应用于开源模型Gemma3-12B后,其成功率从6.4%跃升至43.0%,不仅超越GPT-4-Turbo(17.6%)和GPT-4o(13.9%)等专有系统,也优于此前开源模型的最佳成绩WebRL(38.4%)。研究表明,显式推理时规划与里程碑奖励机制的融合能显著增强智能体的长程任务能力,为构建更稳健的通用自主系统开辟新路径。
近年来,受控视频生成技术取得了显著进展。然而,对现实世界视频中的动作与动态事件进行编辑,或插入会影响其他物体行为的内容,仍然是一项重大挑战。现有训练模型难以处理复杂编辑任务,这很可能源于相关训练数据收集的困难。同样,现有的免训练方法本质上受限于保持结构和运动的编辑操作,无法支持对运动或交互关系的修改。本文提出DynaEdit这一免训练编辑方法,通过预训练的文本-视频流模型实现多功能视频编辑能力。我们的方法基于近期提出的免反演技术,该技术不干预模型内部结构,因此具备模型无关性。研究发现,直接将该技术应用于无约束通用编辑会导致严重的低频错位和高频抖动问题。我们分析了这些现象的产生根源,并提出了创新机制予以克服。大量实验表明,DynaEdit在基于文本的复杂视频编辑任务(包括动作修改、插入与场景交互的物体以及添加全局特效)上达到了最先进水平。
循环语言模型(LoopLMs)通过迭代式潜在计算来优化内部表征,为显式思维链推理提供了一种前景广阔的替代方案。然而现有的强化学习范式主要针对输出词元进行优化,与循环架构中推理过程隐式展开的特性存在结构错配。本研究提出LoopRPT——专为循环语言模型设计的强化预训练框架。通过将下一词元预测重构为下一词元推理任务,LoopRPT采用指数移动平均教师参考和带噪潜在展开机制,直接将强化信号分配给潜在计算步骤。这种设计使强化学习能够直接塑造中间表征,将有效推理压缩至更少迭代次数。我们在不同规模Ouro架构上实例化LoopRPT,实验结果表明该方法能持续提升单步表征质量,在准确率-计算量权衡中实现帕累托占优。值得注意的是,模型在困难词元上的显著提升表明LoopRPT真正增强了早期阶段推理能力,而非仅鼓励提前退出机制。我们的研究证实了强化预训练可作为学习循环语言模型中高效潜在推理的原则性范式。
大型语言模型在处理非结构化表格的复杂长程分析任务时常常表现不佳,这类表格通常具有层次化双向表头和非常规布局。我们将此挑战形式化为深度表格研究(DTR),要求对相互依存的表格区域进行多步推理。针对DTR问题,我们提出了一种新颖的智能体框架,将表格推理视为闭环决策过程。我们精心设计了耦合式查询与表格理解机制,用于路径决策和操作执行。具体而言:(i)DTR首先构建层次化元图来捕获双向语义,将自然语言查询映射到操作级搜索空间;(ii)为在此空间导航,我们引入具备预期感知的选择策略,优先选择高效用执行路径;(iii)关键的是,历史执行结果会被合成至连体结构化记忆(即参数化更新与抽象文本)中,实现持续优化。在具有挑战性的非结构化表格基准测试上的大量实验验证了该方法的有效性,并凸显了将战略规划与底层执行相分离对于长程表格推理的必要性。
鉴于二维基础图像模型生成高保真输出的卓越能力,我们探究了一个根本性问题:二维基础图像模型是否固有地具备三维世界建模能力?为此,我们系统评估了多种前沿图像生成模型和视觉语言模型在三维世界合成任务上的表现。为利用并评估其潜在的隐式三维能力,我们提出一种智能体框架来促进三维世界生成。该方法采用多智能体架构:基于VLM的导演模块制定提示词引导图像合成,生成器合成新视角图像,以及采用VLM支持的双步验证机制从二维图像和三维重建空间评估并筛选生成帧。关键的是,我们证明了该智能体方法能实现连贯稳健的三维重建,生成可通过新视角渲染进行探索的输出场景。通过对多种基础模型的大量实验,我们证实二维模型确实内蕴着对三维世界的理解。通过利用这种理解,我们的方法成功合成了具有广阔空间感、真实感且三维一致的世界。
大型语言模型上下文窗口的指数级扩展虽然解锁了长文档理解能力,却引发了推理延迟和信息利用效率的严重瓶颈。现有压缩方法因采用激进的令牌剪枝策略,往往存在训练成本高昂或语义碎片化的问题。本文提出BEAVER这一无需训练的新型框架,将压缩机制从线性令牌删除转向结构感知的层次化选择。该框架通过双路径池化将变长上下文映射为稠密的页级张量以最大化硬件并行度,并采用融合语义与词汇双分支选择的混合规划器,结合语句平滑技术保障语篇完整性。在四个长上下文基准测试上的广泛评估表明,BEAVER达到了与LongLLMLingua等前沿方法相当的性能。值得注意的是,在RULER基准测试中,当基线模型表现恶化时,BEAVER仍能保持多针检索任务的高保真度。效率方面,BEAVER在128k上下文长度上实现26.4倍的延迟降低,为高吞吐量应用提供了可扩展解决方案。代码已开源:https://cslikai.cn/BEAVER/。
关于生成式推荐模型为何优于传统基于物品ID的模型,一个普遍假设是前者具有更强的泛化能力。然而除粗略的整体性能比较外,目前缺乏系统性方法来验证这一假设。为解决这一空白,我们根据正确预测所需的具体能力对数据实例进行分类:记忆(复用训练中观察到的物品转移模式)或泛化(组合已知模式以预测未见过的物品转移)。大量实验表明,生成式推荐模型在需要泛化的实例上表现更佳,而基于物品ID的模型在记忆更重要时表现更好。为解释这种差异,我们将分析从物品层面转向标记层面,揭示生成式推荐模型中看似物品层面的泛化往往可归结为标记层面的记忆。最后我们证明这两种范式具有互补性,并提出一种简单的记忆感知指标,在实例层面自适应地结合二者,从而提升整体推荐性能。
生成式世界模型在动态环境模拟方面展现出潜力,但以自我为中心的视频仍面临挑战,这源于快速变化的视角、频繁的手物交互以及受潜在人类意图影响的目标导向行为序列。现有方法要么局限于以手部为中心的教学合成而缺乏场景演化,要么仅实现静态视角转换而未建模动作动态,或需依赖密集监督信息(如相机轨迹、长视频前缀、同步多相机采集等)。本研究提出EgoForge——一种以自我为中心的目标导向世界模拟器,仅需最小化静态输入(单张自我中心图像、高层级指令及可选辅助外部视角)即可生成连贯的第一人称视频序列。为提升意图对齐与时序一致性,我们提出VideoDiffusionNFT轨迹级奖励引导优化算法,在扩散采样过程中同步优化目标完成度、时序因果性、场景一致性与感知保真度。大量实验表明,EgoForge在语义对齐、几何稳定性和运动保真度上均优于强基线模型,并在现实智能眼镜实验中展现出鲁棒性能。
長影片問答任務需對延展時序上下文進行推理,使得幀選取策略對於受有限上下文窗口制約的大型視覺語言模型(LVLM)至關重要。現有方法面臨尖銳的取捨困境:基於相似度的選取器雖速度快,但將組合式查詢壓縮為單一稠密向量,導致子事件順序與跨模態關聯丟失;基於智能體的方法通過迭代式LVLM推理恢復此結構,卻伴隨難以承受的計算成本。我們提出HiMu這一無需訓練的框架以彌合此鴻溝:僅需調用純文本LLM一次即可將查詢解構為分層邏輯樹,其葉節點為原子謂詞,每個謂詞被路由至涵蓋視覺(CLIP、開放詞彙檢測、OCR)與音頻(ASR、CLAP)的輕量專家模組。生成的訊號經過歸一化與時序平滑處理以對齊不同模態,並通過強制時序連續性與鄰接性的模糊邏輯算子自底向上組合,最終生成連續的滿足度曲線。在Video-MME、LongVideoBench和HERBench-Lite上的評估表明,HiMu推動了效率-準確率的帕累托前沿:在16幀條件下搭配Qwen3-VL 8B模型時,其表現優於所有競爭性選取器;而搭配GPT-4o時,僅需約十分之一的浮點運算量,即可超越需處理32-512幀的智能體系統。
目前,离散扩散模型的蒸馏仍存在困难。相比之下,连续扩散模型领域已有多种蒸馏方法,能将采样步骤缩减至个位数。我们提出的离散矩匹配蒸馏法(D-MMD)借鉴了连续域中极为成功的思路。在先前离散蒸馏方法失效的情况下,D-MMD仍能保持高质量和多样性(在采样步骤充足时)。这一优势在文本和图像数据集上均得到验证。此外,新蒸馏出的生成器性能甚至能超越原始教师模型。
强化学习(RL)已成为大型语言模型(LLM)后训练与对齐的标准范式,但近期研究表明该方法存在持久的"能力天花板":与能发现新策略的经典RL系统不同,用于LLM的RL往往仅能微调预训练权重中已有的潜在模式。本文指出一个根本性结构瓶颈:经典RL依赖紧凑且信息丰富的马尔可夫状态,而当前LLM后训练方案却受制于持续增长的行动历史记录。 我们重新审视了长期居于RL理论核心却未在LLM后训练中应用的经典原则:显式马尔可夫状态。理论上,我们通过严格证明揭示了利用估计马尔可夫状态可显著降低样本复杂度。实证方面,我们在一系列复杂逻辑谜题任务中证明,引入马尔可夫状态能持续突破标准RL后训练的性能边界。研究结果表明,超越"以历史为状态"的建模方式,转向结构化马尔可夫表征,对于开启生成式AI的开放式发现及真正新颖的推理能力至关重要。
数据科学在将复杂数据转化为跨领域可执行洞察方面发挥着关键作用。大型语言模型与人工智能代理的最新进展显著推动了数据科学工作流的自动化进程。然而,人工智能代理在领域特定数据科学任务上究竟能在多大程度比肩人类专家,以及人类专业能力在哪些方面仍具优势,目前尚不明确。我们推出AgentDS评估框架暨竞赛平台,旨在系统评估人工智能代理及人机协作在领域特定数据科学任务中的表现。该平台涵盖商业、食品生产、医疗保健、保险、制造和零售银行六大行业的17项挑战任务。通过举办有29支队伍、80名参赛者参与的公开竞赛,我们实现了人机协作方案与纯人工智能基准线的系统性对比。研究结果表明,当前人工智能代理在领域特定推理方面仍存在局限——纯AI基准线表现仅接近或低于参赛者中位数水平,而最优解决方案均诞生于人机协作模式。这些发现对"AI可实现完全自动化"的论调提出挑战,既彰显了人类专业能力在数据科学中的持久价值,也为下一代人工智能发展指明了方向。访问AgentDS官网https://agentds.org/ 及开源数据集https://huggingface.co/datasets/lainmn/AgentDS 获取更多信息。
我们研究LLM策略合成技术:利用大语言模型为多智能体环境迭代生成程序化智能体策略。与通过强化学习训练神经策略不同,我们的框架通过提示LLM生成Python策略函数,在自我对弈中评估这些函数,并基于迭代中的性能反馈进行优化。我们重点研究反馈工程(即设计在优化过程中向LLM展示哪些评估信息),比较了稀疏反馈(仅标量奖励)与密集反馈(奖励加社会指标:效率、平等、可持续性、和平)的效果。在两个经典序列社会困境(采集游戏与清理游戏)和两个前沿LLM(Claude Sonnet 4.6、Gemini 3.1 Pro)上的实验表明,密集反馈在所有指标上均持续达到或超越稀疏反馈。这种优势在清理公共物品博弈中最为显著,社会指标的提供能帮助LLM校准成本高昂的清理-收获权衡。社会指标并未引发对公平性的过度优化,而是作为协调信号引导LLM形成更有效的合作策略,包括领地划分、自适应角色分配以及避免无效攻击行为。我们还进行了对抗性实验以验证LLM是否会对此类环境进行奖励攻击,归纳出五类攻击模式并探讨缓解方案,揭示了LLM策略合成中表达能力与安全性之间的内在矛盾。 代码详见:https://github.com/vicgalle/llm-policies-social-dilemmas。
我们开发了一种逐部分生成矢量草图的方法。通过监督微调后,采用新颖的多轮过程奖励强化学习策略,训练基于多模态语言模型的智能体。这一方法的实现得益于我们构建的ControlSketch-Part数据集,该数据集通过创新的通用自动标注流程,将矢量草图分割为语义部件,并采用结构化多阶段标注方式为部件分配路径,从而提供了丰富的部件级草图标注。实验结果表明,结合结构化部件级数据并通过过程可视化反馈,能够实现可解释、可控制且支持局部编辑的文本到矢量草图生成。
大型视觉语言模型(VLM)通常采用冻结的视觉骨干网络,其图像特征通过轻量级连接器映射至大语言模型。虽然基于Transformer的编码器是标准视觉骨干方案,但我们探究状态空间模型(SSM)视觉骨干能否成为有力替代方案。我们在受控环境下系统评估了SSM视觉骨干在VLM中的应用。在匹配的ImageNet-1K初始化条件下,SSM骨干在视觉问答与定位任务中均展现出最优的综合性能。我们进一步通过检测或分割训练对SSM和ViT系列骨干进行适配,发现密集任务调优能普遍提升各系列模型的性能;经过此类适配后,SSM骨干在显著更小的模型规模下仍保持竞争力。我们还发现:(i)更高的ImageNet准确率或更大的骨干网络未必能稳定转化为更好的VLM性能;(ii)部分视觉骨干在定位任务中存在不稳定性。基于这些发现,我们提出了稳定性增强策略以提升两类骨干网络的鲁棒性,并论证了SSM骨干可作为VLM中基于Transformer视觉编码器的有力替代方案。
我们提出了一种基于可微分不确定性感知光束法平差的鲁棒实时RGB SLAM系统,能够有效处理动态环境。传统SLAM方法通常假设场景静态,在存在运动物体时会导致跟踪失败。近期动态SLAM方案尝试通过预定义动态先验或不确定性感知建图来解决这一挑战,但在遇到未知动态物体或几何建图不可靠的高度杂乱场景时仍存在局限。与之相反,我们的方法通过利用多视角视觉特征不一致性来估计逐像素不确定性,即使在真实世界动态环境中也能实现鲁棒的跟踪与重建。该系系统在杂乱动态场景中实现了最先进的相机位姿估计与场景几何重建效果,同时以约10帧/秒的速度实时运行。代码与数据集详见https://github.com/MoyangLi00/DROID-W.git。
大型语言模型(LLMs)展现出强大的通用智能,但其多语言性能仍存在显著不平衡。尽管LLMs在统一语义空间中编码了丰富的跨语言知识,却往往难以可靠地将这些知识接口应用于低资源或未见语言。值得庆幸的是,预训练的编码器-解码器翻译模型已具备均衡的多语言能力,这为LLMs提供了天然的补充。本研究提出XBridge框架——一种组合式编码器-LLM-解码器架构,该架构将多语言理解与生成任务卸载给外部预训练翻译模型,同时保留LLM作为英语核心处理器以承担通用知识处理。针对由此产生的模型间表征失准问题,我们引入轻量级跨模型映射层和基于最优传输的对齐目标,从而实现细粒度语义一致的多语言生成。在涵盖多语言理解、推理、摘要和生成的四个LLM上的实验表明,XBridge在低资源及未见语言场景下显著优于强基线模型,且无需对LLM进行重新训练。
程式碼審查是一項關鍵的軟體工程實踐,開發者在整合前覆核程式碼變更以確保品質、偵測缺陷並提升可維護性。近年來,能理解程式碼語境、規劃審查行為並與開發環境互動的AI代理程式,已日益融入程式碼審查流程。然而,目前尚缺乏實證研究比較AI代理程式與人類審查者在協作流程中的效能差異。為填補此空白,我們對300個GitHub開源專案中的278,790場程式碼審查對話展開大規模實證分析。本研究旨在比較人類審查者與AI代理程式所提供回饋的差異,透過審查對話中的人機協作模式,探究互動如何影響審查結果。此外,我們分析了人類審查者與AI代理程式提出的程式碼建議被程式庫採納的情況,以及已採納建議對程式碼品質的影響。研究發現:人類審查者比AI代理程式提供更多元化的回饋,包括理解性回饋、測試建議與知識轉移;審查AI生成程式碼時,人類審查者的對話輪次比審查人類撰寫程式碼時增加11.8%;AI代理程式的建議採納率顯著低於人類審查者,其中過半未採納建議存在錯誤或已被開發者透過其他修復方式處理;當建議被採納時,AI代理程式的建議會導致程式碼複雜度與規模的增幅顯著大於人類審查者。研究結果表明,雖然AI代理程式能擴展缺陷篩檢規模,但人類監督對於確保建議品質及提供AI缺乏的情境化回饋仍不可或缺。
离策略学习中的策略陈旧性与训练推理失配等问题,已成为制约大语言模型强化学习训练稳定性及深度探索的关键瓶颈。为提升推理效率,更新策略与推理策略间的分布差异会不断扩大,导致重要性权重出现重尾现象。当策略在局部呈现尖锐化特征时,重尾权重会进一步放大梯度陡峭度,使策略更新突破置信区域。针对此问题,我们提出自适应分层扰动法(ALP),通过在更新阶段向每层输入的隐藏状态注入可学习的微小扰动,并将其作为目标函数中重要性权重的分子项,与保持不变的推理策略形成对比。该方法通过向中间表示施加受控噪声,既防止更新策略相对推理策略发生剧烈偏离,又通过引入失配噪声扩展策略族覆盖范围。由此产生的分布平坦化效应能自然缩小更新策略与推理策略的差距,降低重要性权重的尾部厚度,从而维持训练稳定性。实证研究进一步验证了该方法的有效性:在单轮数学推理和多轮工具集成推理任务中,ALP不仅提升了最终性能,还避免了迭代训练中重要性权重尾部爆炸和KL散度尖峰现象,同时增强了探索能力。消融实验表明,全分层表示级扰动效果最为显著,明显优于部分分层扰动及仅对逻辑单元施加扰动的变体方法。
大型语言模型(LLMs)在具有社会影响力的应用中的部署日益增多,引发了对其所编码文化偏见的担忧。我们通过评估LLMs在零样本设定下能否根据歌曲歌词进行作者画像分析(即无需任务特定微调即可推断歌手的性别和种族),来探究这些表征。基于对超过10,000首歌词的多个开源模型测试,我们发现LLMs实现了显著的画像分析性能,但表现出系统性的文化对齐倾向:多数模型默认偏向北美种族,而DeepSeek-1.5B则更倾向于亚洲种族。这一发现既来自模型的预测分布,也来自对其生成归因的分析。为量化这些差异,我们引入了两个公平性指标——模态准确度差异(MAD)和召回率差异(RD),并表明Ministral-8B在所有评估模型中表现出最强的种族偏见,而Gemma-12B则展现出最均衡的行为。我们的代码已发布于GitHub(https://github.com/ValentinLafargue/CulturalProbingLLM)。
近期,结合大型语言模型与形式化方法的神经符号方法在数学导向的定理证明基准测试中取得了显著成果。然而,竞赛风格数学问题的成功本身并不能证明其具备对现实世界实现进行证明构建的能力。我们通过一个源自工业密码库的基准测试来填补这一空白——该密码库的汇编例程已在HOL Light中完成验证。s2n-bignum是AWS使用的密码学快速汇编例程库,其正确性通过形式化验证得以确立。对该库进行形式化验证是自动化推理研究组的重要成果,涉及两项任务:(1) 将程序的正确行为精确表述为数学命题;(2) 证明该命题的正确性。在s2n-bignum项目中,这两项任务均由人类专家完成。在s2n-bignum-bench基准测试中,我们提供形式化规范,要求大型语言模型生成能在限定证明检查时限内被HOL Light接受的证明脚本。据我们所知,s2n-bignum-bench是首个专注于HOL Light工业级底层密码汇编例程的机器可验证证明合成的公开基准。该基准为评估基于大型语言模型的定理证明能力提供了超越竞赛数学范畴、具有挑战性且实践相关的测试平台。基准测试的设置与使用代码详见:https://github.com/kings-crown/s2n-bignum-bench。
长期以来,从图像重建3D资源需要分别处理几何重建、材质估算和光照还原的独立流程,每个流程都存在各自的局限性且需要额外计算开销。我们提出ReLi3D——首个统一端到端流程,能够在一秒内从稀疏多视角图像中同步重建完整3D几何结构、基于物理的空间变化材质及环境光照。我们的核心发现是:多视角约束能显著提升材质与光照的解耦效果,而这对于单图像方法始终是本质上的不适定问题。本方法的关键在于通过Transformer交叉条件架构融合多视角输入,继而采用新颖的统一双路径预测策略:第一路径预测物体的结构与外观,第二路径通过图像背景或物体反射来预测环境光照。结合可微分蒙特卡洛多重重要性采样渲染器,这一方案构建出最优的光照解耦训练流程。此外,通过融合合成PBR数据集与真实世界RGB采集的混合域训练方案,我们在几何精度、材质准确性和光照质量方面实现了可泛化的成果。通过将原先独立的重建任务统一至单次前向传播,我们实现了近乎即时生成完整可重光照3D资源的能力。项目页面:https://reli3d.jdihlmann.com/
多模态大语言模型在离线视频理解领域已取得显著成功,但其在流式视频处理中的应用却因视觉标记数量的线性激增而严重受限,常引发内存溢出错误或灾难性遗忘问题。现有视觉记忆保留与管理方法通常依赖均匀采样、低层物理指标或被动缓存淘汰策略,然而这些方法往往缺乏内在语义感知能力,可能破坏上下文连贯性并模糊短暂但关键的语义转换节点。为解决这些局限,我们提出CurveStream——一种基于曲率感知的层级化视觉记忆管理框架,该框架无需训练即可运行。我们的研究动机源于关键发现:连续特征轨迹上的高曲率区域与全局关键语义转换高度吻合。基于这一几何洞察,CurveStream通过曲率评分实时评估语义强度,并集成在线K-Sigma动态阈值机制,在严格标记预算下自适应地将视频帧路由至清晰记忆与模糊记忆状态。跨多时间尺度的评估表明,该轻量级框架在StreamingBench和OVOBench基准测试中分别较基线模型实现10.69%和13.58%的绝对性能提升,创造了流式视频感知的新标杆。相关代码将在https://github.com/streamingvideos/CurveStream 开源。
大型语言模型的迅速扩散显著增加了区分人类撰写文本与AI生成文本的难度,在学术、出版及社会领域引发关键问题。本文通过设计、实现并比较评估多种基于机器学习的检测器,对AI生成文本的检测问题展开研究。我们开发并分析了四种神经架构:多层感知机、一维卷积神经网络、基于MobileNet的CNN以及Transformer模型。所提出的模型与广泛使用的在线检测工具(包括ZeroGPT、GPTZero、QuillBot、Originality.AI、Sapling、IsGen、Rephrase和Writer)进行了基准测试。实验在COLING多语言数据集上开展,涵盖英语和意大利语两种配置,同时还在一个专注于艺术与心理健康的原创主题数据集上进行测试。结果表明,在不同语言和领域间,有监督检测器比商业工具表现出更稳定、更鲁棒的检测性能,凸显了当前检测策略的核心优势与局限。
医学超声图像分割面临标记数据有限及固有成像伪影(包括斑点噪声和低对比度边界)带来的重大挑战。虽然半监督学习方法已涌现以应对数据稀缺问题,但现有方法存在未标记数据利用欠佳且缺乏鲁棒特征表示机制的问题。本文提出Switch这一新型半监督学习框架,其具备两项核心创新:(1)采用分层块混合实现均匀空间覆盖的多尺度切换策略;(2)在傅里叶空间通过幅度切换执行对比学习的频域切换策略。本框架将上述组件集成于师生架构中,以有效利用标记与未标记数据。在六个多样化超声数据集(淋巴结、乳腺病灶、甲状腺结节和前列腺)上的综合评估表明,该方法始终优于现有最优方法。在5%标记比例下,Switch实现显著提升:LN-INT数据集Dice系数达80.04%,DDTI数据集达85.52%,前列腺数据集达83.48%,其半监督性能甚至超越全监督基线。该方法在保持参数效率(180万参数)的同时提供卓越性能,验证了其在资源受限的医学影像应用中的有效性。源代码已公开于https://github.com/jinggqu/Switch。
为未贴图三维模型自动生成具有照片级真实感且自洽的外观是数字内容创作中的关键挑战。大规模视频生成模型的进展提供了一种自然解决方案:直接合成360度旋转展示视频。这种视频不仅能作为高质量动态预览,还可作为驱动纹理合成与神经渲染的中间表征。然而,现有通用视频扩散模型难以在全方位视角下保持严格的几何一致性与外观稳定性,导致其输出不适用于高质量三维重建。为此,我们提出TAPESTRY框架,通过显式三维几何条件生成高保真旋转视频。我们将三维外观生成任务重新定义为几何条件视频扩散问题:给定三维网格,首先渲染并编码多模态几何特征,以像素级精度约束视频生成过程,从而实现高质量且一致的旋转视频生成。在此基础上,我们还设计了针对旋转视频输入的下游重建方法,采用包含三维感知修复的多阶段流程。通过旋转模型并执行上下文感知的二次生成,该流程能有效补全自遮挡区域以实现全表面覆盖。TAPESTRY生成的视频不仅是高质量动态预览,更可作为可靠的三维感知中间表征,能无缝反投影至UV纹理或用于指导3DGS等神经渲染方法,从而实现从未贴图网格到生产级完整三维资产的自动化创建。实验结果表明,本方法在视频一致性与最终重建质量方面均优于现有方法。
现有的篡改检测基准主要依赖物体掩码,这与真实的编辑信号存在严重偏差:掩码内的许多像素未被修改或仅轻微改动,而掩码外具有重要意义的细微编辑却被视为自然图像。我们将VLM图像篡改检测重新定义为从粗粒度区域标注转向以像素为基础、兼具语义理解与语言感知的任务。首先,我们提出了涵盖编辑基本类型(替换/移除/拼接/修复/属性修改/色彩调整等)及其篡改对象语义类别的分类体系,将底层视觉变化与高层语义理解相连接。其次,我们发布了包含逐像素篡改图谱和配对类别标注的新基准数据集,通过统一协议评估检测与分类性能。第三,我们提出了量化像素级正确性的训练框架与评估指标:通过定位置信度或真实编辑强度的预测评估检测效果,并借助语义感知分类和自然语言描述来度量对篡改含义的理解。我们还基于最新强效篡改检测器重新评估了现有分割/定位基线方法,发现仅使用掩码指标会导致严重的高估或低估,并揭示了微篡改和掩码外修改的失效模式。我们的框架将研究维度从掩码拓展至像素、语义和语言描述,为篡改定位、语义分类和描述建立了严谨标准。代码与基准数据详见https://github.com/VILA-Lab/PIXAR。
降低延迟与能耗对提升现代计算中内存系统效率至关重要。本文提出ReLMXEL(基于可解释能耗与延迟优化的内存控制器强化学习框架),这一可解释多智能体在线强化学习框架通过奖励分解机制动态优化内存控制器参数。ReLMXEL在内存控制器内部运行,利用细粒度的内存行为指标指导决策。多样化工作负载下的实验评估表明,该框架在基准配置基础上实现了持续性能提升,且优化效果由工作负载特定的内存访问行为驱动。通过将可解释性融入学习过程,ReLMXEL不仅提升了系统性能,更增强了控制决策的透明度,为构建更具可问责性与自适应能力的内存系统设计开辟了新途径。