每日精選AI研究論文及翻譯
當前最先進的影片生成模型通常學習VAE空間中的影片潛在變量分佈,並透過VAE解碼器將其映射至像素。雖然這種方法能生成高品質影片,但存在收斂速度慢的問題,且在生成長影片時計算成本高昂。本文提出SemanticGen,透過在語義空間中生成影片來解決這些限制。我們的核心洞見在於:由於影片固有的冗餘性,生成過程應始於緊湊的高層語義空間進行全域規劃,再添加高頻細節,而非直接使用雙向注意力建模大量低階影片標記。SemanticGen採用兩階段生成流程:第一階段由擴散模型生成緊湊的語義影片特徵,定義影片的全域佈局;第二階段由另一擴散模型基於這些語義特徵生成VAE潛在變量以產生最終輸出。我們觀察到,相較於VAE潛在空間,語義空間中的生成能實現更快的收斂速度。本方法在擴展至長影片生成時亦展現出卓越效能與計算效率。大量實驗證明,SemanticGen能產出高品質影片,其表現優於當前最先進的方法與強基線模型。
現有的強化學習方法將大型語言模型視為單一統合策略,忽視了其內部運作機制。因此,理解策略在層級與模組間的演變過程,對於實現更具針對性的優化及釐清複雜推理機制至關重要。本文透過利用Transformer殘差流的內在分割特性,以及隱藏狀態與解嵌入矩陣的組合等效於可採樣策略的特性,對語言模型策略進行分解。此分解揭示了對應單一層級貢獻的內部層級策略,以及與每層中自注意力機制和前饋網路組件對齊的內部模組化策略。透過分析內部策略的熵值,我們發現:(a)底層保持高熵值以進行探索,頂層收斂至接近零熵值以實現精煉,且收斂模式因模型系列而異;(b)LLama的預測空間在最終層快速收斂,而Qwen系列模型(尤其是Qwen3)則展現出更類人化的漸進式結構化推理模式。基於這些發現,我們提出自底向上策略優化——一種在早期訓練階段直接優化內部層級策略的新型強化學習範式。透過在底層對齊訓練目標,BuPO能重建基礎推理能力並實現卓越性能。在複雜推理基準測試上的大量實驗證明了我們方法的有效性。程式碼已開源於:https://github.com/Trae1ounG/BuPO。
近期多模態大型語言模型及運用工具進行長影片問答的系統進展,展現了對時長達數小時影集進行推理的潛力。然而,現有方法仍多將內容壓縮為有損摘要或依賴有限工具集,這會削弱時間定位能力並遺漏細粒度線索。我們提出一個多智能體框架:由主控LLM協調定位智能體來標定問題相關片段,並調度視覺智能體提取目標文本觀察結果。主控智能體在步數限制下進行規劃,並通過強化學習訓練以促進簡潔、準確且高效的多智能體協作。此設計使主控智能體能透過定位專注相關片段,以視覺細節補充字幕資訊,並產生可解釋的決策軌跡。在我們基於TVQA/TVQA+彙整的影集級數據集LongTVQA與LongTVQA+上,本多智能體系統顯著優於強力非智能體基線模型。實驗同時表明,強化學習能進一步增強已訓練智能體的推理與規劃能力。程式碼與數據將於 https://longvideoagent.github.io/ 公開分享。
認知科學研究表明,空間能力呈現從感知到推理再到互動的漸進發展規律。然而在多模態大語言模型(MLLMs)中,這種層級結構仍未被充分理解,現有研究多侷限於狹窄的任務集。我們提出受認知科學啟發的SpatialTree層級框架,將空間能力劃分為四個層級:低階感知(L1)、心理表徵(L2)、模擬推演(L3)和具身協同(L4)。基於此分類體系,我們構建了首個以能力為中心的層級化基準測試,對主流MLLMs在27項子能力上進行全面評估。評估結果揭示出清晰的結構特徵:L1技能基本相互獨立,而高階技能呈現強相關性,表明能力間依賴性隨層級提升而增強。透過定向監督微調實驗,我們發現了有趣的遷移動態——L1層級存在負遷移現象,但從低階到高階能力存在顯著的跨層級正向遷移與協同效應。最後我們探索了全面提升層級能力的方法:發現鼓勵過度「思考」的樸素強化學習(RL)策略不可靠,雖有助複雜推理卻會損害直覺感知。為此我們提出簡潔的自動思考調控機制,抑制不必要的思維鏈長度,使RL能夠穩定提升所有層級的性能。SpatialTree的建立為理解並系統化擴展MLLMs的空間能力提供了概念驗證框架。
自我演化記憶系統正以前所未有的方式重塑基於大型語言模型(LLM)的智能體演化範式。現有研究主要依賴人工設計的記憶架構來儲存軌跡、提煉經驗並合成可重用工具,使智能體能在環境互動中實時演化。然而,這種範式本質上受制於記憶系統自身的靜態性:雖然記憶促進了智能體層面的演化,但其底層記憶架構無法針對多樣化任務情境進行元適應。為解決這一侷限,我們提出MemEvolve——一個元演化框架,能同步演化智能體的經驗知識與記憶架構,使智能體系統不僅能積累經驗,更能持續優化其從經驗中學習的方式。為將MemEvolve紮根於既有研究並促進未來自我演化系統的開放性,我們構建了EvolveLab:一個統一的自我演化記憶代碼庫,將十二種代表性記憶系統提煉為模組化設計空間(編碼、儲存、檢索、管理),既提供標準化實現基底,也構建了公平的實驗場域。在四項具挑戰性的智能體基準測試中,廣泛實驗表明MemEvolve實現了:(I)顯著性能提升,將SmolAgent、Flash-Searcher等框架的表現最高提升17.06%;(II)強大的跨任務與跨LLM泛化能力,其設計的記憶架構能有效遷移至不同基準測試與骨幹模型。
基於大型語言模型(LLM)的智慧體雖在複雜推理與多輪互動中展現卓越能力,但在新環境部署時仍難以實現持續改進與適應。建構技能庫成為一項極具潛力的解決方案,可使智慧體學習、驗證並應用新技能。然而,現有技能庫方法主要依賴LLM提示技術,導致技能庫的穩定實施面臨挑戰。為突破此限制,我們提出一種基於強化學習(RL)的方法,透過技能庫增強智慧體的自我改進能力。具體而言,我們創新性地引入「技能增強型GRPO自進化框架」(SAGE),該RL框架能系統性地將技能整合至學習過程中。其核心組件「序列化滾動執行」機制,會在每次滾動時將智慧體迭代部署於一系列相似任務鏈中。隨著智慧體在任務鏈中推進,過往任務生成的技能將持續累積至技能庫,供後續任務調用。此外,框架透過「技能整合獎勵」機制強化技能生成與運用,此機制與原有基於結果的獎勵形成互補。在AppWorld環境的實驗結果顯示,SAGE應用於具專家經驗的監督微調模型時,情境目標完成率提升8.9%,同時減少26%的互動步驟與59%的標記生成量,在準確性與效率方面顯著超越現有方法。
隨著大型語言模型逐漸轉向自主智慧體發展,深度研究能力已成為關鍵評估指標。然而現有的學術基準(如BrowseComp)往往難以滿足開放式研究的實際需求,這類研究需要具備精準的意圖識別、長週期決策和跨來源驗證能力。為此,我們推出Step-DeepResearch——一個具備成本效益的端到端智慧體。我們提出基於原子能力的數據合成策略,通過從智慧體中期訓練到SFT與RL的漸進式學習路徑,強化規劃與報告撰寫能力,並結合清單式評判機制顯著提升系統魯棒性。針對中文領域的評估空白,我們進一步構建了貼近真實場景的ADR-Bench評估體系。實驗結果表明,Step-DeepResearch(32B)在Scale AI研究量規中獲得61.4%的評分,在ADR-Bench上顯著超越同規模模型,並可與OpenAI、Gemini DeepResearch等閉源SOTA模型媲美。這些成果證明,通過精細化訓練策略,中型模型能夠以業界領先的性價比實現專家級深度研究能力。
通用音訊源分離是多模態人工智慧系統感知與推理聲音的關鍵能力。儘管近年取得顯著進展,現有分離模型仍存在局限:要么是針對語音或音樂等固定類別的領域特定模型,要么可控性不足,僅支持文本等單一提示模態。本研究提出SAM Audio——一個通用音訊分離基礎模型,首次將文本、視覺和時間跨度提示統一於單一框架。該模型基於擴散轉換器架構,通過流匹配技術在涵蓋語音、音樂及通用聲音的大規模音訊數據上訓練,能靈活分離由語言描述、視覺遮罩或時間跨度指定的目標聲源。該模型在多元基準測試中實現最先進性能,包括野外錄音與專業製作音訊中的通用聲音、語音、音樂及樂器分離任務,顯著超越先前通用型與專用型系統。此外,我們引入帶有人工標注多模態提示的真實場景分離基準,以及與人類判斷高度相關的無參考評估模型。
我們推出INTELLECT-3——一個基於端到端強化學習基礎設施棧訓練的1060億參數混合專家模型(活躍參數120億)。該模型在數學、編程、科學和推理基準測試中,以同等規模實現了最先進的性能表現,超越許多參數量更大的前沿模型。我們將開源該模型及其完整創建基礎設施棧,包括強化學習框架、完整訓練方案,以及通過驗證器庫構建、來自環境中心社區平台的豐富訓練評估環境集。為此我們同步推出prime-rl開放框架,這款專為大規模異步強化學習設計的框架可實現從單節點到數千張GPU的無縫擴展,並針對智能體強化學習特性提供多輪交互與工具使用的原生支持。基於該技術棧,我們在GLM-4.5-Air-Base模型基礎上同步開展SFT與RL訓練,成功將強化學習訓練擴展至512張H200 GPU並保持高訓練效率。
代码大语言模型(Code LLM)虽功能强大但训练成本高昂,其性能通常可通过模型规模、数据量和计算资源的缩放定律进行预测。然而,不同编程语言在预训练阶段产生的差异性影响会显著改变基础模型性能,导致现有预测方法失准。此外,现有研究多关注语言无关场景,忽视了现代软件开发本质上具有的多语言特性。因此,需先探究不同编程语言的独立缩放规律,再考量其相互影响以建立最终的多语言缩放定律。本文首次系统性地探索多语言代码预训练的缩放定律,通过开展超过1000次实验(等效于336,000+ H800显卡小时),覆盖多种编程语言、模型规模(0.2B至14B参数)及数据集规模(1T标记)。我们建立了跨编程语言的完整缩放定律体系,发现解释型语言(如Python)相较编译型语言(如Rust)更能从模型规模与数据量提升中获益。研究证实多语言预训练能产生协同效应,尤其在语法相似的编程语言间更为显著。进一步地,采用并行配对策略(将代码片段与其翻译版本拼接训练)可显著增强模型的跨语言能力,且该策略具备良好的缩放特性。最终,我们提出比例依赖型多语言缩放定律,通过优先分配资源给高效用语言(如Python)、平衡高协同语言对(如JavaScript-TypeScript)、缩减快速饱和语言(如Rust)的配额,在相同计算预算下实现了优于均匀分配策略的整体平均性能。
在實際應用中(例如檢索增強生成與文本摘要),辨識大型語言模型的輸出是否包含忠實性幻覺至關重要。本文提出FaithLens——一種兼具成本效益與高效能的忠實性幻覺檢測模型,能同步提供二元判斷與對應解釋以提升可信度。為實現此目標,我們首先透過先進大型語言模型合成含解釋的訓練數據,並採用嚴謹的數據篩選策略以確保標籤正確性、解釋品質與數據多樣性。接著以精製訓練數據對模型進行冷啟動微調,再透過基於規則的強化學習進一步優化,同時以預測準確度與解釋品質作為獎勵指標。在12項多樣化任務上的實驗結果顯示,僅80億參數的FaithLens勝過GPT-4.1及o3等先進模型,且能產出高品質解釋,在可信度、效率與效能間達成卓越平衡。
流式语音到文本翻译(StreamST)要求在处理输入语音的同时实时生成译文,这既施加了严格的延迟限制,又需要模型在部分信息决策与高质量翻译之间取得平衡。该领域的研究工作迄今主要依赖SimulEval代码库,但该库已停止维护,且不支持输出修订型系统。此外,该工具原为模拟短音频片段处理而设计,不适用于长音频流场景,也未提供便捷的系统演示功能。为此,我们推出simulstream——首个专用于流式语音翻译系统统一评估与演示的开源框架。该框架专为长语音流处理设计,不仅支持增量解码方法,还兼容重翻译机制,可在同一框架内进行质量与延迟的双维度对比。同时,其交互式网页界面支持展示基于该工具构建的任何系统。
针对长程多轮对话的时间推理能力是对话智能体的关键需求。然而现有研究及我们的初步实验表明,当对话历史长度增加且包含噪声时,当前的长上下文模型难以准确识别时间相关信息,严重影响了推理性能。为此,我们提出Memory-T1框架,该框架通过强化学习训练具有时间感知能力的记忆选择策略。该方法采用由粗到精的双阶段策略:首先通过时间和相关性过滤器对对话历史进行剪枝生成候选集,再由强化学习智能体精确选择证据会话段。强化学习训练采用优化三重目标的层级奖励函数:(i)答案准确性,(ii)证据可溯源性,以及(iii)时间一致性。其中时间一致性奖励通过评估会话级(时序邻近性)和语句级(时序保真度)与查询时间范围的匹配度,提供密集信号以解决细微的时间歧义。在Time-Dialog基准测试中,Memory-T1将70亿参数模型的综合得分提升至67.0%,创造了开源模型的新标杆,较140亿参数基线模型提升10.2%。消融实验表明时间一致性与证据可溯源性奖励共同带来15.0%的性能增益。此外,当基线模型在12.8万令牌长度下性能崩溃时,Memory-T1仍保持稳健性,证明了其对长对话历史噪声的有效处理能力。代码与数据集已开源:https://github.com/Elvin-Yiming-Du/Memory-T1/
理解物理世界对通用人工智能体至关重要。然而,当前最先进的视觉感知模型(如大型视觉语言模型)是否具备定量推理物理属性的能力仍不明确。现有评估方法主要基于视觉问答范式且偏向定性分析,难以深入考察这些模型能否从视频观察中推断运动物体的运动学量值。为此,我们推出QuantiPhy——首个专为定量评估视觉语言模型物理推理能力设计的基准测试。该数据集包含3,300余个带数值真值的视频-文本实例,通过将物体尺寸、速度或加速度中的某一属性作为输入先验,评估模型在给定时间点估算另外两个属性的表现。该基准采用标准化提示词与评分机制来检验数值准确性,确保模型间可比性。我们对前沿视觉语言模型的实验表明,其定性合理性与实际数值准确性之间存在系统性差距。通过深入分析背景干扰、反事实先验及策略性提示等关键因素,发现现有模型在定量推理运动学属性时严重依赖预训练的世界知识,而非忠实参照提供的视觉与文本输入。QuantiPhy首次构建了严谨可扩展的测试平台,推动视觉语言模型突破语言合理性层面,迈向基于数值的物理认知。
当前视频虚拟人生成方法在身份保持和动作对齐方面表现优异,但缺乏真正的自主性——它们无法通过自适应环境交互自主追求长期目标。为此,我们提出L-IVA(长程交互式视觉虚拟人)这一用于评估随机生成环境中目标导向规划能力的任务与基准,并开发了首个实现视频虚拟人主动智能的框架ORCA(在线推理与认知架构)。ORCA通过两大创新实现了内部世界模型能力:(1)采用观察-思考-行动-反思的闭环OTAR周期,通过持续比对预测结果与实际生成效果,在生成不确定性下保持稳健的状态追踪;(2)构建分层双系统架构,其中系统2负责带状态预测的战略推理,系统1则将抽象计划转化为精确的模型专用动作指令。通过将虚拟人控制建模为部分可观测马尔可夫决策过程,并实施结合结果验证的持续信念更新,ORCA实现了开放域场景下的自主多步任务完成。大量实验表明,ORCA在任务成功率和行为连贯性上显著优于开环与非反思基线,验证了我们受内部世界模型启发的设计能有效推动视频虚拟人智能从被动动画向主动目标导向行为演进。
质性研究面临着一个关键的可靠性挑战:传统评分者间一致性方法需要多位人工编码员,耗时且通常只能达到中等一致性水平。我们提出一个基于大语言模型的主题分析多视角验证框架,该框架将集成验证与双重可靠性指标相结合:科恩卡帕(κ)用于评分者间一致性评估,余弦相似度用于语义一致性衡量。我们的框架支持可配置的分析参数(1-6个随机种子,温度值0.0-2.0),提供含变量替换功能的定制化提示词结构,并能从任意JSON格式中提取共识主题。作为概念验证,我们使用致幻艺术治疗访谈文本对三大主流LLM(Gemini 2.5 Pro、GPT-4o、Claude 3.5 Sonnet)进行评估,每个模型独立运行六次。结果表明Gemini可靠性最高(κ=0.907,余弦相似度=95.3%),其次是GPT-4o(κ=0.853,余弦相似度=92.6%)和Claude(κ=0.842,余弦相似度=92.1%)。所有模型均达到高度一致性水平(κ>0.80),验证了多轮集成方法的有效性。该框架成功实现了跨轮次共识主题提取,其中Gemini识别出6个共识主题(一致性50-83%),GPT-4o识别5个主题,Claude识别4个主题。我们的开源实现为研究者提供了透明的可靠性指标、灵活配置选项和结构无关的共识提取功能,为可靠的AI辅助质性研究奠定了方法论基础。
開源軟體(OSS)社區中的惡性互動會降低貢獻者參與度並威脅項目可持續性。要預防此類毒性對話的產生,需清晰掌握有害對話的演變規律。然而現有主動審核策略多依賴人工操作,耗費社區維護者大量時間精力。為支持更可擴展的解決方案,我們從GitHub討論區構建了包含159個脫軌毒性對話線程和207個非毒性線程的數據集。分析表明,緊張觸發點、情感轉變及特定對話模式可預測毒性演變。 我們提出基於大語言模型(LLM)的新型框架,通過兩階段提示流程預測GitHub對話脫軌:首先採用由簡至繁(LtM)提示法生成對話動態摘要(SCD),再利用這些摘要評估脫軌概率。在Qwen和Llama模型上的實驗顯示,LtM策略在決策閾值0.3時分別達到0.901和0.852的F1分數,優於現有自然語言處理基線模型。在包含308個GitHub議題線程(65個毒性、243個非毒性)的外部驗證數據集上實現最高0.797的F1分數。研究證明了結構化LLM提示能有效實現OSS對話脫軌的早期檢測,為可解釋的主動審核提供技術路徑。
对焦是摄影的基石,然而自动对焦系统常无法准确捕捉目标主体,用户往往需要在拍摄后重新调整焦点。我们提出一种基于视频扩散模型的新型后期对焦技术,可实现逼真的焦点重定位。该方法仅需单张失焦图像,即可生成感知准确的焦堆栈(以视频序列形式呈现),支持交互式焦点调整并解锁一系列下游应用。为支持本项研究及未来探索,我们发布了在多样化智能手机实拍条件下获取的大规模焦堆栈数据集。在各类复杂场景中,我们的方法在感知质量与鲁棒性方面均显著优于现有技术,为日常摄影中更先进的焦点编辑功能开辟了新路径。代码与数据详见 www.learn2refocus.github.io。