每日精選AI研究論文及翻譯
近年來,以超連接(HC)為代表的研究通過擴展殘差流寬度與多樣化連接模式,拓展了過去十年間確立的普適性殘差連接範式。儘管這種多樣化帶來了顯著的性能提升,但從根本上損害了殘差連接固有的恆等映射特性,導致嚴重的訓練不穩定性與受限的可擴展性,並額外產生顯著的記憶體存取開銷。為解決這些挑戰,我們提出流形約束超連接(mHC)——一個將HC的殘差連接空間投影至特定流形以恢復恆等映射特性的通用框架,同時結合嚴格的基礎設施優化以確保效率。實證實驗表明,mHC能有效支持大規模訓練,提供實質性性能提升與更優越的可擴展性。我們預期mHC作為HC的靈活實用擴展,將有助於深化對拓撲架構設計的理解,並為基礎模型的演進指明具有前景的方向。
我們推出Youtu-LLM——一款輕量級卻強大的語言模型,在高效計算性能與原生智能體能力之間實現完美平衡。與依賴蒸餾技術的典型小模型不同,Youtu-LLM(1.96B)從零開始進行預訓練,系統性培養推理與規劃能力。其核心技術突破包括:(1)支持長上下文的緊湊架構:基於稠密多潛在注意力架構與創新型STEM導向詞表構建,Youtu-LLM支持128k上下文窗口。該設計在最小內存佔用下實現強健的長上下文推理與狀態追蹤,特別適合長週期智能體與推理任務。(2)系統化的「常識-STEM-智能體」課程策略:我們構建了約11T標記的大規模語料庫,實施多階段訓練策略。通過將預訓練數據分佈從通用常識逐步過渡至複雜STEM與智能體任務,確保模型獲得深層認知能力而非表面對齊。(3)可擴展的智能體中期訓練:針對智能體中期訓練,我們採用多樣化數據構建方案,在數學、編程及工具使用領域合成豐富多元的行動軌跡。高質量數據使模型能有效內化規劃與反思行為。大量評估表明,Youtu-LLM為20億參數以下模型設立了新標杆:在通用基準測試中與更大模型競逐,而在智能體專項任務中顯著超越現有SOTA基線,證明輕量級模型同樣可具備強大的內生智能體能力。
智慧體構建要求大型語言模型在現實環境中透過多輪操作執行行動、觀察結果並迭代優化產出物。儘管其重要性日益凸顯,開源社群仍缺乏一套系統化的端到端生態系統來簡化智慧體開發流程。我們推出智慧體學習生態系統(ALE),這是一套優化智慧體LLM生產管線的基礎架構。ALE包含三大核心組件:用於權重優化的後訓練框架ROLL、用於軌跡生成的沙箱環境管理器ROCK,以及實現高效上下文工程的智慧體框架iFlow CLI。我們同步開源基於ALE架構構建的智慧體模型ROME(顯然是智慧體模型),該模型經過超過百萬條軌跡數據訓練。我們的方法包含合成複雜行為的數據組合協議,以及創新的策略優化算法「基於互動的策略對齊」(IPA),該算法透過語義互動塊而非單個詞元進行信號分配,從而提升長週期訓練穩定性。實證研究中,我們在結構化環境下評估ROME,並推出具有更優規模與污染控制能力的終端基準測試套件Terminal Bench Pro。ROME在SWE-bench Verified和Terminal Bench等基準測試中表現卓越,證明了ALE基礎架構的有效性。
日誌異常檢測對於維護作業系統安全至關重要。根據日誌資料收集來源的不同,各類被記錄的資訊可視為不同的日誌模態。基於此洞察,單模態方法常因忽略日誌資料的多模態特性而表現不佳,而多模態方法又未能有效處理模態間的互動關係。我們將多模態情感分析技術應用於日誌異常檢測,提出CoLog框架,該框架通過協同編碼機制整合多種日誌模態。CoLog採用協同轉換器與多頭加權注意力機制來學習多模態間的交互作用,確保實現全面的異常檢測。為處理模態交互產生的異質性問題,CoLog引入模態適應層來調整不同日誌模態的表徵。此方法使CoLog能學習數據中的細微模式與依賴關係,從而提升異常檢測能力。大量實驗證明CoLog在七個日誌異常檢測基準數據集上均優於現有最先進方法,在點異常和集體異常檢測中平均精確率達99.63%、平均召回率達99.59%、平均F1分數達99.61%。CoLog的全面檢測能力使其極適用於網路安全、系統監控和運維效率優化場景。該框架通過統一架構為點異常與集體異常檢測提供精準有效的解決方案,並成功應對自動化日誌資料分析中的複雜挑戰,標誌著日誌異常檢測領域的重大進展。我們已在https://github.com/NasirzadehMoh/CoLog開源CoLog的實現代碼。
近期三維重建技術雖在密集多視角影像的高品質場景採集方面取得顯著進展,但在輸入視角有限的場景中仍面臨挑戰。為解決此問題,學界已實施多種方法,包括正則化技術、語義先驗和幾何約束。最新的基於擴散模型的方法通過從新相機位姿生成新視角來擴充訓練數據,已展現出顯著改進,超越了早期的正則化與基於先驗的技術。儘管取得這些進展,我們發現當前最先進方法存在三個關鍵局限:已知視角周邊的覆蓋範圍不足、生成視角間的幾何不一致性,以及計算密集的處理流程。為此,我們提出GaMO(幾何感知多視角外繪框架),該框架通過多視角外繪技術重新定義稀疏視角重建。與生成新視點不同,GaMO從現有相機位姿擴展視野範圍,這種方式本質上保持幾何一致性的同時提供更廣闊的場景覆蓋。我們的方法採用零樣本方式實現多視角條件化與幾何感知去噪策略,無需額外訓練。在Replica和ScanNet++數據集上的大量實驗表明,該方法在3、6、9個輸入視角下均實現最先進的重建質量,在PSNR和LPIPS指標上超越先前方法,並以低於10分鐘的處理時間實現比當前最先進擴散方法25倍的加速效果。項目頁面:https://yichuanh.github.io/GaMO/
記憶作為連接過去與未來的關鍵樞紐,為人類和人工智慧系統提供了駕馭複雜任務的寶貴概念與經驗。近期自主智能體的研究日益借鑒認知神經科學,致力於設計高效的記憶工作流程。然而受學科壁壘制約,現有研究難以真正吸收人類記憶機制的精髓。為彌合這一鴻溝,我們系統性整合跨學科記憶知識,將認知神經科學的洞見與基於大語言模型的智能體相銜接。具體而言,我們首先沿著從認知神經科學到大語言模型再到智能體的遞進路徑,闡釋記憶的定義與功能;接著從生物與人工雙重視角,對記憶分類體系、存儲機制及完整管理生命週期展開對比分析;隨後評述評估智能體記憶的主流基準測試;此外從攻擊與防禦雙維度探討記憶安全性;最後展望多模態記憶系統與技能習得等重點研究方向。
視覺-語言-動作模型已實現了語言條件化的長時程機器人操作,但現有系統多侷限於夾爪機械手。將VLA策略擴展至配備高自由度靈巧雙手的雙臂機器人仍面臨挑戰,原因在於動作空間擴展、頻繁的手物遮擋以及真實機器人數據採集成本。我們提出GR-Dexter——一個面向雙臂靈巧手機器人的VLA通用操作整體框架,整合了緊湊型21自由度機械手設計、直觀的雙臂遙操作數據採集系統,以及融合遙操作軌跡、大規模視覺語言數據與精選跨具身數據的訓練方案。在涵蓋長時程日常操作與泛化性抓放的現實場景測試中,GR-Dexter不僅展現出優異的域內性能,更對未見過物體與指令表現出更強健的適應能力。我們期望GR-Dexter能為實現通用靈巧手機器人操作邁出實質性一步。
近期文字轉影片(T2V)生成技術在視覺品質上取得顯著進展,但如何合成嚴格遵循物理定律的影片仍是待解難題。現有方法主要基於圖形學或提示詞擴展,難以在簡單模擬環境之外實現泛化,或無法有效學習隱式物理推理。此外,富含物理互動現象的訓練數據匱乏也是關鍵瓶頸。本文首先提出物理增強影片數據建構流程PhyAugPipe,通過視覺語言模型(VLM)的思維鏈推理構建大規模訓練數據集PhyVidGen-135K;進而建立具理論基礎的物理感知分組直接偏好優化框架PhyGDPO,基於分組Plackett-Luce概率模型捕捉超越成對比較的整體偏好關係。在PhyGDPO中,我們設計了物理引導獎勵(PGR)機制,嵌入基於VLM的物理獎勵以引導模型朝向物理一致性優化,同時提出LoRA切換參考(LoRA-SR)方案,消除記憶體密集的參考模型複製以實現高效訓練。實驗表明,本方法在PhyGenBench和VideoPhy2基準上顯著超越現有開源方案。更多影片結果請參閱項目頁面https://caiyuanhao1998.github.io/project/PhyGDPO,程式碼、模型與數據將開源於https://github.com/caiyuanhao1998/Open-PhyGDPO。
本文提出JavisGPT——首个面向音视频联合理解与生成任务的多模态大语言模型统一框架。该模型采用简洁的编码器-LLM-解码器架构,通过时空音视频融合模块SyncFusion与同步感知可学习查询机制,桥接预训练的音视频DiT生成器,实现多模态指令驱动下时序连贯的音视频理解与生成。我们设计了三阶段渐进式训练流程:多模态预训练、音视频微调与大规模指令调优,从而基于现有视觉语言模型逐步构建多模态理解与生成能力。为支撑训练,我们进一步构建了JavisInst-Omni高质量指令数据集,包含逾20万条由GPT-4o标注的音视频文本对话,覆盖多样化、多层级的理解与生成场景。在音视频理解与生成基准测试上的大量实验表明,JavisGPT显著优于现有多模态大模型,尤其在复杂时序同步任务中表现突出。
我们提出PFP神经网络结构,该结构能够将长视频压缩为短上下文,其显式预训练目标是在任意时间位置保留单帧的高频细节。基线模型可将20秒视频压缩至约5k长度的上下文,其中随机帧的提取能够保持感知层面的外观完整性。此类预训练模型可直接微调为自回归视频模型的记忆编码器,实现以低上下文成本存储长时记忆,且保真度损失相对较低。我们通过消融实验评估该框架,并探讨不同神经网络架构设计的权衡关系。
高風險決策涉及在未來不確定性下的推理。本研究旨在訓練語言模型對開放式預測問題進行預測。為擴充訓練數據規模,我們基於每日新聞報導的全球事件,採用全自動化精密策展流程合成新型預測問題。我們使用OpenForesight數據集對Qwen3思維模型進行訓練。為防止訓練與評估期間未來信息洩露,我們採用離線新聞語料庫進行數據生成及預測系統中的檢索。通過小型驗證集的指導,我們展示了檢索技術與改進的強化學習獎勵函數的優勢。在完成最終預測系統後,我們於2025年5月至8月期間進行了保留集測試。我們的專用模型OpenForecaster 8B在預測準確性、校準度與一致性方面均能媲美規模更大的專有模型。研究發現,預測訓練帶來的校準改進可泛化至多個主流基準測試。我們將所有模型、代碼及數據開源,以促進語言模型預測研究的廣泛開展。
儘管近期大型語言模型(LLM)的推理能力不斷增強,其推理過程的內部機制仍待深入探索。現有方法通常依賴人工定義的詞級概念(如過度思考、反思),以監督方式分析推理行為。然而這類方法存在侷限性,因為難以全面捕捉潛在的推理行為譜系——許多行為在詞元空間中本就難以明確定義。本研究提出一種無監督框架(稱為RISE:基於稀疏自編碼器的推理行為可解釋性方法),用於發現推理向量(即編碼特定推理行為的激活空間方向)。通過將思維鏈軌跡分割為句子級「步驟」,並在步驟級激活上訓練稀疏自編碼器(SAE),我們分離出對應可解釋行為的特徵(如反思與回溯)。可視化與聚類分析表明,這些行為在解碼器列空間中佔據可分離區域。更重要的是,對SAE衍生向量進行定向干預,能可控地增強或抑制特定推理行為,從而改變推理軌跡而無需重新訓練。除行為特異性解耦外,SAE還能捕捉結構性特徵(如回應長度),揭示長短推理軌跡的聚類現象。更有趣的是,SAE可發現超越人類監督的新行為。我們通過識別SAE解碼器空間中與置信度相關的向量,展示了調控回應置信度的能力。這些發現凸顯了無監督潛在發現技術在解釋與可控引導LLM推理方面的潛力。
我们提出SpaceTimePilot——一种通过解耦时空维度实现可控生成式渲染的视频扩散模型。给定单目视频输入,该模型可在生成过程中独立调整摄像机视角与运动序列,实现跨时空连续自由探索的场景重渲染。为实现这一目标,我们在扩散过程中引入了高效的动画时间嵌入机制,从而显式控制输出视频相对于源视频的运动序列。鉴于现有数据集缺乏同一动态场景下具有连续时间变化的配对视频,我们提出了一种简单而有效的时间扭曲训练方案,通过重构现有多视角数据集来模拟时间差异。该策略有效监督模型学习时间控制,实现鲁棒的时空解耦。为提升双控精度,我们进一步引入两项创新:改进的摄像机条件机制支持从首帧开始调整视角,以及首个时空全覆盖的合成渲染数据集CamxTime,该数据集提供场景内完全自由的时空视频轨迹。结合时间扭曲方案与CamxTime数据集的联合训练实现了更精准的时间控制。我们在真实场景与合成数据上评估SpaceTimePilot,结果表明相较于现有方法,该模型展现出清晰的时空解耦特性与卓越的生成效果。项目页面:https://zheninghuang.github.io/Space-Time-Pilot/ 代码库:https://github.com/ZheningHuang/spacetimepilot
扩散模型展现出捕捉完整(条件)数据分布的强大能力。然而由于缺乏足够训练数据来学习覆盖低概率区域,模型会因未能生成对应这些区域的高质量图像而受惩罚。为提升生成质量,可采用无分类器引导(CFG)等指导策略,在采样阶段将样本导向高概率区域。但标准CFG常导致样本过度简化或失真。另一方面,采用劣化版本引导扩散模型的替代方案受限于精心设计的退化策略、额外训练及附加采样步骤。本文提出一种简单有效的内部引导(IG)策略:在训练阶段对中间层引入辅助监督,在采样阶段通过外推中间层与深层输出来获得生成结果。该策略在多种基线模型上显著提升了训练效率和生成质量。在ImageNet 256×256数据集上,SiT-XL/2+IG在80和800轮训练时分别达到FID=5.31和FID=1.75。更令人瞩目的是,LightningDiT-XL/1+IG实现了FID=1.34,显著优于所有对比方法。结合CFG后,LightningDiT-XL/1+IG更以1.19的FID刷新当前最优纪录。
随着自动驾驶汽车和无人机等自主系统的快速发展,从多模态车载传感器数据中构建真正空间智能的需求日益迫切。尽管基础模型在单模态场景中表现出色,但如何整合摄像头与激光雷达等异构传感器的能力以形成统一的环境感知,仍面临严峻挑战。本文提出一个全面的多模态预训练框架,系统梳理了推动该领域进展的核心技术体系。我们深入剖析基础传感器特性与学习策略之间的相互作用,评估特定平台数据集对技术发展的支撑作用。核心贡献在于构建了预训练范式的统一分类体系:从单模态基线方法到学习三维目标检测、语义占据预测等高级任务整体表征的融合框架。此外,我们探索文本输入与占据表征的融合机制,以支持开放世界感知与规划。最后,针对计算效率与模型可扩展性等关键瓶颈,我们提出了实现适用于现实世界部署的通用多模态基础模型的技术路线图。
基于呼吸音分类的研究因ICBHI 2017等基准数据集存在规模有限、噪声干扰显著及类别严重失衡等问题而进展缓慢。虽然基于Transformer的模型具备强大的特征提取能力,但在处理此类受限医疗数据时容易过拟合,且常收敛至损失空间的尖锐极小值。为此,我们提出通过锐度感知最小化(SAM)增强音频频谱Transformer(AST)的框架。该方法不仅最小化训练损失,更通过优化损失曲面的几何形态,引导模型朝向泛化能力更优的平坦极小值收敛。同时采用加权采样策略以有效应对类别失衡问题。在ICBHI 2017数据集上,本方法以68.10%的综合评分达到当前最优水平,显著超越现有CNN及混合基线模型。更重要的是,其68.31%的敏感度指标为临床可靠筛查提供了关键性提升。通过t-SNE降维可视化与注意力图谱的进一步分析证实,该模型能够学习具有判别力的鲁棒特征,而非简单记忆背景噪声。
複雜推理問題往往涉及文本中未明確編碼的隱性空間、幾何與結構關係。儘管當前推理模型在多個領域表現優異,純文本推理在複雜情境下仍難以表徵全局結構約束。本文提出FIGR模型,通過端到端強化學習將主動視覺思維融入多輪次推理過程。FIGR在解題時通過構建視覺表徵來外化中間結構假設,藉由自適應調控視覺推理的觸發時機與方式,實現對文本難以單獨捕捉的全局結構屬性進行更穩定連貫的推理。在具有挑戰性的數學推理基準測試中,FIGR顯著優於強勁的純文本思維鏈基線模型,尤其在AIME 2025和BeyondAIME數據集上分別將基礎模型性能提升13.12%和11.00%,彰顯了圖形引導多模態推理在增強複雜推理穩定性與可靠性方面的有效性。
近期视频语言模型在视频理解方面展现出巨大潜力,但在事件级感知的精确时间定位方面仍存在困难。我们发现视频理解中的两个核心要素(即时间定位与文本响应)构成逻辑层次:准确的时间证据定位是可靠文本响应的基础。然而现有研究通常以耦合方式处理这两项任务,缺乏清晰的逻辑结构,导致目标函数难以达到最优。我们尝试从因子化学习的角度解决这一问题:首先提出D²VLM框架,在解耦两项任务学习的同时强调其内在依赖关系。采用"先定位后举证应答"范式,引入证据标记进行证据定位,其重点超越现有研究对时间戳表示的关注,更强调事件级视觉语义的捕获。为促进两项任务的协同学习,我们提出新型因子化偏好优化算法:与标准偏好优化不同,该算法将概率化时间定位建模显式纳入优化目标,实现时间定位与文本响应的联合偏好学习。针对现有数据集缺乏显式时间标注的问题,我们还构建了合成数据集以支持因子化偏好学习。多任务实验结果表明该方法具有明显优势,项目代码已开源。
戰略對話要求智慧體執行不同的對話行為,這其中信念估測至關重要。雖然現有研究通常能準確估測信念,但缺乏在生成過程中運用這些信念的規範機制。我們通過以下方式彌合這一差距:首先將對抗性與協同性這兩類核心行為形式化,並透過對智慧體生成內容的概率約束實現操作化。我們將此理念具體實現於BEDA框架,該框架包含世界集、用於信念估測的信念估計器,以及能根據推斷信念選擇行為並實現話語生成的條件生成器。在條件型守衛盜賊(CKBG,對抗性)、共同好友(MF,合作性)和CaSiNo(協商性)三種設定中,BEDA始終優於強基線模型:在CKBG任務中,不同骨幹模型的成功率至少提升5.0個百分點,使用GPT-4.1-nano時更提升20.6個百分點;在共同好友任務中平均提升9.3個百分點;在CaSiNo任務中達成了相較所有基線模型的最優協議。這些結果表明,將信念估測轉化為約束條件,為實現可靠戰略對話提供了一種簡潔通用的機制。
现代人工智能系统依赖基于浮点运算存储和检索的向量嵌入。虽然这种设计能有效实现近似相似性搜索,但其本质引入了非确定性:即使模型、输入数据和代码完全相同,在不同硬件架构(如x86与ARM)上也会产生不同的内存状态和检索结果。这导致系统无法实现结果复现与安全部署,引发难以察觉的数据偏差,使得受监管领域的事后验证与审计追踪无法实现。我们提出Valori——一种确定性AI内存底层架构,通过采用定点运算(Q16.16格式)替代浮点内存操作,并将内存建模为可复现状态机。Valori能确保跨平台位级一致的内存状态、快照及搜索结果。我们论证了非确定性在索引或检索操作之前就已产生,并展示Valori如何在内存边界层面强制执行确定性。研究结果表明,确定性内存是构建可信AI系统的必要基础组件。该参考实现已开源,详见https://github.com/varshith-Git/Valori-Kernel(归档于https://zenodo.org/records/18022660)。