每日精選AI研究論文及翻譯
混合專家模型(MoE)缺乏明確約束機制來確保路由器的決策與專家能力精準匹配,這最終限制了模型效能。為解決此問題,我們提出專家-路由器耦合損失函數(ERC),這是一種輕量級輔助損失函數,能將路由器決策與專家能力緊密耦合。我們的方法將每個專家的路由器嵌入向量視作分配給該專家的代幣代理表徵,並將擾動後的路由器嵌入輸入專家網絡以獲取內部激勵值。ERC損失函數對這些激勵值施加雙重約束:(1)每個專家對自身代理代幣的激勵值必須高於對其他專家代理代幣的激勵值;(2)每個代理代幣在其對應專家處產生的激勵值必須強於在其他專家處的激勵值。這些約束共同確保每個路由器嵌入向量能真實反映對應專家的能力特徵,同時使每個專家專精於處理實際分配給它的代幣。ERC損失函數具有計算高效性,僅需處理n²個激勵值(n為專家數量)。與先前依賴代幣數量(通常每批次達數百萬)而擴展的耦合方法不同,此方法具有與批次大小無關的固定計算成本。我們透過對3B至15B參數的MoE-LLM進行預訓練,並在數萬億代幣上進行廣泛分析,驗證了ERC損失函數的有效性。此外,ERC損失函數能在訓練過程中靈活控制並量化追蹤專家專業化程度,為混合專家模型的研究提供重要洞察。
基於擴散模型的即時影片生成對於建構通用多模態互動式人工智慧系統至關重要。然而,擴散模型中通過迭代過程對所有影格進行雙向注意力的同步去噪處理,阻礙了即時互動的實現。現有的蒸餾方法雖能將模型改為自回歸架構並減少取樣步數以緩解此問題,但這些方法主要專注於文字生成影片任務,導致人機互動仍顯生硬且效率低下。本文旨在實現基於多模態上下文(包含文字、圖像與音訊)的即時互動式影片擴散模型,以彌合此技術斷層。針對主流在策略蒸餾方法Self Forcing在多模態條件下會出現視覺瑕疵(如閃爍、黑幀與畫質劣化)的問題,我們提出改進的蒸餾方案,重點優化條件輸入的品質以及在策略最佳化的初始化與排程策略。在HDTF、AVSpeech和CelebV-HQ等多模態條件(音訊/圖像/文字)驅動的虛擬人影片生成基準測試中,我們蒸餾後的模型以僅需1/20的推理成本與延遲,實現了與完整步數雙向基線模型相當甚至更優的視覺品質。進一步地,我們將該模型與音訊語言模型及長影片推理技術Anchor-Heavy Identity Sinks整合,構建出即時多模態互動虛擬人系統LiveTalk。在自建的多輪互動基準上的系統級評估表明,LiveTalk在多輪影片連貫性與內容品質上超越現有頂尖模型(Sora2、Veo3),同時將響應延遲從1-2分鐘縮短至即時生成級別,實現了無縫的人機多模態互動。
近期研究顯示,擴散模型在生成可互動探索的虛擬世界方面具有巨大潛力。然而,現有方法大多面臨關鍵挑戰:參數規模過於龐大、依賴冗長的推理步驟、歷史上下文快速增長,這些問題嚴重限制了實時性能,且缺乏文本控制生成能力。為解決這些難題,我們提出\method——一個創新框架,能從單張圖像或文本提示生成逼真、可互動且連續的虛擬世界。該框架通過精心設計的鍵盤探索機制實現這一目標,其核心包含三個組件:(1)融合統一上下文壓縮與線性注意力的長影片生成框架;(2)基於雙向注意力蒸餾與增強型文本嵌入方案的實時串流加速策略;(3)用於生成世界事件的文本控制方法。我們已於補充材料中提供程式碼庫。
代理強化學習(RL)在複雜圖形用戶界面任務的自主代理開發中具有巨大潛力,但其可擴展性仍因任務完成驗證而嚴重受限。現有的任務驗證被視為被動的事後處理過程:驗證器(即基於規則的評分腳本、獎勵或評判模型,以及LLM-as-a-Judge)通過分析代理的完整交互軌跡來判定任務成功與否。這種處理包含無關噪聲歷史的冗長上下文的方式,為驗證協議帶來挑戰,導致成本高昂且可靠性低下。為突破此瓶頸,我們提出SmartSnap範式,實現從被動事後驗證到代理主動就地自驗證的範式轉變。我們引入自驗證代理這一新型代理架構,其具備雙重使命:不僅要完成任務,還需通過精選的快照證據證明任務達成。基於我們提出的3C原則(完整性、簡潔性、創造性),該代理利用在線環境的可訪問性,對最小化的決定性快照集進行自驗證。這些證據將作為通用LLM-as-a-Judge驗證器判定有效性和相關性的唯一材料。跨模型系列與規模的移動任務實驗表明,SmartSnap範式能以可擴展方式訓練LLM驅動的代理,使8B和30B模型分別獲得最高26.08%和16.66%的性能提升。解決方案尋找與證據搜尋的協同作用,培育出能與DeepSeek V3.1及Qwen3-235B-A22B競爭的高效自驗證代理。
透明物體對感知系統而言向來是出了名的難題:折射、反射和透射現象破壞了立體視覺、飛時測距以及純鑑別式單目深度估計的基礎假設,導致預測結果出現空洞和時間不穩定性。我們的核心發現是:現代影片擴散模型已能合成逼真的透明現象,暗示其內化了光學規律。據此我們構建了TransPhy3D——一個透明/反射場景的合成影片數據集,包含使用Blender/Cycles渲染的1.1萬段序列。場景由經過篩選的靜態資產庫(涵蓋豐富類別)與程序化生成資產庫(富含多樣幾何形態)組合而成,並配備玻璃/塑料/金屬材質。通過基於物理的光線追蹤與OptiX降噪技術,我們渲染出RGB+深度+法向量的真值數據。基於大型影片擴散模型,我們採用輕量級LoRA適配器學習從影片到深度(及法向量)的轉換器。訓練時將RGB與(帶噪)深度潛在表徵在DiT骨幹網絡中拼接,並在TransPhy3D與現有逐幀合成數據集上聯合訓練,從而實現對任意長度輸入影片的時序一致預測。最終模型DKT在涉及透明物體的真實與合成影片基準測試(ClearPose、DREDS的已知類別/新類別集、TransPhy3D測試集)中實現零樣本最優性能。相較強勁的圖像/影片基線模型,其精度與時序一致性均有提升,而法向量預測變體更在ClearPose上創下影片法向量估計最佳紀錄。緊湊的13億參數版本運行速度約0.17秒/幀。集成至抓取系統後,DKT的深度預測在透明、反射及漫反射表面均提升抓取成功率,超越現有估計器。這些成果共同印證了一個更宏觀的論斷:「擴散模型洞悉透明法則」。生成式影片先驗能夠以高效、無標註的方式遷移為魯棒且時序連貫的感知系統,助力挑戰性現實場景下的機械操作。
基於擴散模型的視訊超解析度方法雖能實現優異的感知質量,但因其依賴未來幀與昂貴的多步去噪過程,在延遲敏感場景中仍不實用。我們提出Stream-DiffVSR——一種因果條件化的擴散框架,專為高效線上視訊超解析度設計。該方法嚴格基於過往幀進行處理,整合了四大核心組件:用於快速推理的四步蒸餾去噪器、在潛在去噪過程中注入運動對齊線索的自回歸時序引導模組,以及配備時序處理模組的輕量級時序感知解碼器,可同步增強細節還原與時序連貫性。Stream-DiffVSR在RTX4090 GPU上處理720p幀僅需0.328秒,顯著超越現有擴散基方法。相較線上SOTA方法TMP,它在提升感知質量(LPIPS +0.095)的同時將延遲降低逾130倍。本方法實現了擴散基VSR中最低的延遲紀錄,將初始延遲從超過4600秒縮減至0.328秒,成為首個適用於低延遲線上部署的擴散VSR方案。項目頁面:https://jamichss.github.io/stream-diffvsr-project-page/
雖然基於自回歸的大型視覺語言模型(VLM)已取得顯著成就,但其序列化生成方式常限制其在複雜視覺規劃與動態機器人控制任務中的效能。本研究探討以擴散式大型語言模型(dLLM)為基礎構建視覺語言模型的潛力,以突破這些限制。我們提出 Dream-VL——一種開源的擴散式視覺語言模型(dVLM),其在同類模型中實現了最先進的性能。Dream-VL 在各大開放數據基準測試中可媲美頂級自回歸視覺語言模型,且在視覺規劃任務中展現出更優越的潛力。基於 Dream-VL,我們進一步推出 Dream-VLA,這是一款通過對開放機器人數據集進行持續預訓練而開發的 dLLM 架構視覺-語言-動作模型(dVLA)。我們證實該擴散架構天然的雙向特性為 VLA 任務提供了更優越的基礎,其天生適用於動作分塊與並行生成,從而在下游微調任務中實現顯著加速收斂。Dream-VLA 在 LIBERO 數據集上達到 97.2% 的平均成功率,在 SimplerEnv-Bridge 和 SimplerEnv-Fractal 上分別取得 71.4% 與 60.5% 的綜合平均分,超越 π_0 與 GR00T-N1 等主流模型。我們同時驗證了在不同訓練目標下,dVLM 於下游任務中均優於自回歸基線模型。現開源 Dream-VL 與 Dream-VLA 以推動相關領域的進一步研究。
擴散轉換器模型通過對條件圖像進行編碼並將其整合至轉換器層,顯著推進了圖像編輯技術的發展。然而,當前多數編輯操作僅涉及小範圍區域的修改,而現有方法卻在每個時間步長均勻處理並對所有標記進行去噪,這不僅導致冗餘計算,更可能使未改動區域的畫質劣化。此現象引發了一個根本性問題:在編輯過程中是否真有必要對每個區域進行重新生成?為解決此問題,我們提出SpotEdit——一種免訓練的擴散編輯框架,可選擇性地僅更新被修改區域。SpotEdit包含兩個核心組件:SpotSelector通過感知相似度識別穩定區域,並藉由重用條件圖像特徵跳過其計算;SpotFusion則通過動態融合機制,自適應地將這些特徵與編輯後標記進行混合,從而保持上下文連貫性與編輯品質。通過減少不必要的計算並維持未改動區域的高保真度,SpotEdit實現了高效且精準的圖像編輯。
文本编码器是文生图与文生视频扩散模型的核心组件,从根本上决定着生成内容的语义保真度。然而其发展长期受两大挑战制约:一是缺乏能够可靠预测下游生成性能的高效评估框架,二是难以将预训练语言模型有效适配于视觉生成任务。为此,我们提出GRAN-TED范式,旨在为扩散模型生成鲁棒、对齐且细腻的文本嵌入。我们的贡献包含两方面:首先,我们提出TED-6K这一纯文本评估基准,通过轻量级统一适配器实现无需端到端模型训练的高效鲁棒编码器表征质量评估。实验表明,经标准化的TED-6K评估结果与编码器在下游生成任务中的效能呈强相关性。值得注意的是,在我们的实验设置下,相较于从头训练扩散模型,使用TED-6K进行评估的速度提升约750倍。其次,基于该验证框架的指导,我们通过新颖的两阶段训练范式开发出更优的文本编码器:先对多模态大语言模型进行微调以增强视觉表征能力,再采用分层加权方法提取更细腻有力的文本特征。实验证明,所得GRAN-TED编码器不仅在TED-6K基准上达到最优性能,更能显著提升文生图与文生视频的生成质量。TED-6K数据集与评估代码已公开:https://anonymous.4open.science/r/GRAN-TED-4FCC/。
如何以兼具表达力与精确度的方式定义机器人操作任务,至今仍是核心挑战。虽然视觉目标能以紧凑且明确的方式定义任务,但现有基于目标条件的策略因依赖单步动作预测而缺乏对任务进度的显式建模,往往难以实现长时程操作。我们提出Act2Goal——一种集成目标条件视觉世界模型与多尺度时序控制的通用目标条件操作策略。给定当前观测和目标视觉状态,该世界模型能生成符合长时程逻辑的中间视觉状态序列。为实现从视觉规划到鲁棒执行的转化,我们引入多尺度时序哈希(MSTH)技术,将预测轨迹分解为用于细粒度闭环控制的密集近端帧,以及锚定全局任务一致性的稀疏远端帧。该策略通过端到端交叉注意力机制将多尺度表征与运动控制耦合,在保持局部干扰响应能力的同时实现连贯的长时程行为。Act2Goal在新物体、空间布局及环境场景中展现出强大的零样本泛化能力。通过基于LoRA微调的后视目标重标定技术,我们进一步实现了无需奖励信号的在线自适应,使系统能在无外部监督下快速自主优化。真实机器人实验表明,在具有挑战性的分布外任务中,Act2Goal仅需数分钟自主交互即可将成功率从30%提升至90%,验证了具备多尺度时序控制的目标条件世界模型能为鲁棒的长时程操作提供必要的结构化引导。项目页面:https://act2goal.github.io/
语言智能体日益需要在能够行动、记忆和学习的持久化世界中运行。现有方法处于两个极端:传统Web框架提供可靠但固定的数据库支持上下文,而完全生成式世界模型以牺牲可控性和工程实用性为代价追求无限环境。本研究提出网络世界模型(WWM),这一折中方案通过普通网页代码实现世界状态与"物理规则"以确保逻辑一致性,同时由大语言模型基于这种结构化潜在状态生成情境、叙事和高层决策。我们在真实网络技术栈上构建了系列WWM系统,包括基于真实地理的无限旅行图册、虚构星系探索器、网络级百科全书与叙事世界,以及模拟与游戏化环境。通过这些系统,我们总结出WWM的实用设计原则:将代码定义的规则与模型驱动的想象相分离,以类型化网络接口表示潜在状态,利用确定性生成实现无限但有结构的探索。研究结果表明,网络技术栈本身可作为世界模型的可扩展基础,实现可控且开放的环境构建。项目页面:https://github.com/Princeton-AI2-Lab/Web-World-Models。
扩散语言模型(dLLMs)已成为自回归(AR)模型的有前景的替代方案。虽然近期研究验证了其预训练潜力并加速了推理速度,但dLLMs的后训练生态仍不成熟。现有方法存在计算效率低下、训练与推理目标不匹配等问题,严重限制了在数学等复杂推理任务上的性能。为此,我们提出DiRL——一个高效的后训练框架,通过将FlexAttention加速的块状训练与LMDeploy优化的推理紧密集成,构建了精简的在线模型更新循环,支持高效的监督微调与强化学习两阶段后训练。基于该框架,我们提出专为dLLMs设计的首个无偏分组相对策略优化算法DiPO。通过在高质量数学数据上训练DiRL-8B-Instruct,我们的模型在dLLMs中实现了顶尖的数学性能,并在多个基准测试中超越Qwen2.5系列同规模模型。
人工智能协研员正逐渐成为协助人类研究人员实现科研目标的重要工具。这类AI协研员的核心功能在于能够根据既定目标与约束条件生成研究方案。这些方案既可用于研究人员头脑风暴,也可在进一步优化后直接实施。然而,当前语言模型在生成完全符合约束条件与隐性需求的研究方案方面仍存在困难。本研究探索如何利用海量现有科研论文语料库,训练能够生成更优质研究方案的语言模型。我们通过自动提取多领域论文中的研究目标及针对性评估标准,构建了可扩展的多样化训练语料库。随后采用带自评机制的强化学习训练方案生成模型:训练过程中由初始策略的冻结副本担任评分器,评估标准形成的生成-验证差距使模型无需外部人工监督即可持续优化。为验证该方法,我们针对机器学习研究目标开展了累计225小时的人工专家评估。结果显示,在70%的研究目标案例中,专家更倾向于选择经微调的Qwen3-30B-A3B模型生成的方案;84%的自动提取目标评估标准获得专家认可。为检验普适性,我们将该方法扩展至医学论文及最新arXiv预印本的研究目标,并采用前沿模型陪审团进行评估。微调模型实现了12-22%的相对性能提升,并展现出显著的跨领域泛化能力,即使在医学研究这类难以获取执行反馈的场景中依然有效。这些发现共同证明,这种可扩展的自动化训练方法有望成为提升通用AI协研员能力的重要突破。
自主智能体的演进正在重新定义信息获取方式,使其从被动检索转向主动的开放式网络研究。然而,尽管文本与静态多模态智能体已取得快速进展,但在处理网络中最具动态性的模态——视频时,仍存在显著的模态鸿沟。现有视频基准主要聚焦于被动感知,将精心筛选的视频片段直接输入模型而无需外部检索,未能评估需要主动查询视频时间线、交叉参考分散证据、在开放网络中验证主张的智能体视频研究能力。为弥补这一空白,我们推出Video-BrowseComp——一个包含210个问题的挑战性基准,专为开放网络环境下的智能体视频推理设计。与先前基准不同,该基准强制要求模型依赖时序视觉证据,确保答案无法仅通过文本搜索获得,而必须通过导航视频时间线来验证外部主张。我们对前沿模型的评估揭示了一个关键瓶颈:即便是GPT-5.1(带搜索功能)等先进搜索增强模型,准确率也仅为15.24%。分析表明这些模型主要依赖文本代理,在元数据丰富的领域(如带有剧情摘要的电视剧)表现优异,但在视觉定位至关重要的元数据稀疏的动态环境(如体育赛事、游戏实况)中则完全失效。作为首个开放网络视频研究基准,Video-BrowseComp推动该领域从被动感知向主动视频推理迈进。
在现有的大多数具身导航任务中,指令通常具有明确且无歧义的特点,例如指令跟随和物体搜索。在这种理想化设定下,智能体仅需根据视觉与语言输入生成有效的导航输出。然而现实世界的导航指令往往存在模糊性和多义性,要求智能体通过主动对话来消除不确定性并推断用户意图。为弥补这一差距,我们提出交互式实例物体导航(IION)任务,该任务要求智能体不仅能生成导航动作,还需通过主动对话产生语言输出,从而更贴近实际应用场景。IION在实例物体导航(ION)基础上扩展了智能体在导航过程中使用自然语言自由咨询向导的功能。基于此任务,我们构建了视觉语言-语言导航(VL-LN)基准,该基准提供了大规模自动生成的数据集和完整的评估协议,用于训练和评估支持对话的导航模型。VL-LN包含超过4.1万条包含长程对话的增强轨迹用于训练,以及配备可响应智能体查询的向导的自动评估协议。利用该基准,我们训练了具备对话能力的导航模型,实验表明其性能显著超越基线模型。大量实验与分析进一步验证了VL-LN对推动对话式具身导航研究的有效性与可靠性。代码与数据集详见:https://0309hws.github.io/VL-LN.github.io/
全模态大语言模型在音视频模态统一方面取得显著进展,但其跨模态理解能力仍缺乏细粒度特征,且存在多模态对齐困难。为突破这些局限,我们提出OmniAgent——一种完全由音频引导的主动感知智能体,通过动态调度专用工具实现更精细的视听推理。与依赖刚性静态工作流和密集帧描述的传统方法不同,本文实现了从被动响应生成到主动多模态查询的范式转变。OmniAgent采用动态规划机制,按需自主调度工具调用,将感知注意力策略性聚焦于任务相关线索。我们方法的核心在于新颖的"由粗到精"音频引导感知范式,利用音频线索定位时序事件并引导后续推理。在三个音视频理解基准上的大量实验表明,OmniAgent以10%-20%的准确率优势超越主流开源与专有模型,达到最先进性能水平。
信息检索(IS)智能体在各类广域与深度搜索任务中已展现出强大性能,但其工具使用仍主要局限于API级片段检索和基于URL的页面抓取,难以通过真实浏览获取更丰富的信息。虽然完整的浏览器交互能解锁更深层能力,但其细粒度控制和冗长的页面内容返回,为ReAct式函数调用智能体带来了巨大复杂度。为弥补这一差距,我们提出嵌套浏览器使用学习(NestBrowse),通过引入极简而完整的浏览器操作框架,采用嵌套结构将交互控制与页面探索解耦。该设计在保持高效深度网络信息获取能力的同时,简化了智能体推理过程。在具有挑战性的深度IS基准测试中的实证结果表明,NestBrowse在实践中具有显著优势。进一步的深度分析也印证了其高效性与灵活性。
现有实时目标检测(RTOD)方法普遍采用类YOLO架构,以兼顾精度与速度的优越平衡。然而,这些模型依赖静态密集计算机制,对所有输入实施统一处理流程,导致表征能力与计算资源的错配——例如对简单场景过度分配资源,而对复杂场景处理不足。这种不匹配既造成计算冗余,又导致检测性能次优化。为突破此局限,我们提出YOLO-Master新型类YOLO框架,首次在RTOD中实现实例条件化的自适应计算。该框架通过引入高效稀疏专家混合(ES-MoE)模块,能根据输入场景复杂度动态分配计算资源。其核心在于采用轻量级动态路由网络,通过多样性增强目标引导专家在训练过程中实现专业化分工,促进专家间形成互补性专长。此外,路由网络自适应学习仅激活最相关专家,从而在提升检测性能的同时最小化推理计算开销。在五大基准数据集上的综合实验验证了YOLO-Master的优越性:在MS COCO数据集上,我们的模型以1.62毫秒延迟实现42.4%的AP指标,较YOLOv13-N提升0.8% mAP且推理速度加快17.8%。值得注意的是,该模型在挑战性密集场景中提升尤为显著,同时保持对常规输入的高效处理能力,并始终维持实时推理速度。代码将开源发布。
數據匱乏仍是實現全自主手術機器人的根本障礙。儘管大規模視覺語言動作模型通過利用多領域配對視頻動作數據,在家庭和工業操作中展現出卓越的泛化能力,但手術機器人領域卻因缺乏同時包含視覺觀測與精確機器人運動學的數據集而發展受限。與此相反,雖然存在大量手術視頻資源,但其缺乏對應的動作標註,導致無法直接應用模仿學習或視覺語言動作模型訓練。本研究旨在通過從SurgWorld(專為手術物理人工智能構建的世界模型)學習策略模型來緩解這一難題。我們構建了專門針對手術機器人的外科動作文本對齊數據集,其中包含精細化的動作描述。基於最先進的物理人工智能世界模型和該數據集,我們開發的SurgeWorld能夠生成多樣化、可泛化且逼真的手術視頻。我們還首創性地採用逆動力學模型從合成手術視頻中推斷僞運動學數據,從而生成配對的合成視頻動作數據。實驗證明,在真實手術機器人平台上,通過這些增強數據訓練的手術視覺語言動作策略模型,其性能顯著優於僅使用真實示範數據訓練的模型。本研究通過利用海量未標註手術視頻和生成式世界建模,為自主手術技能獲取提供了可擴展路徑,從而為實現泛化性強且數據高效的手術機器人策略開啟了新大門。
大型语言模型(LLM)的激增推动了能够进行复杂推理和工具使用的自主智能体发展。然而,当前智能体架构常采用命令式的临时模式构建,导致系统脆弱性突出,存在状态管理、错误处理和并发控制等难题。本文提出单子上下文工程(MCE),这一新型架构范式利用函子、应用函子与单子的代数结构,为智能体设计奠定形式化基础。MCE将智能体工作流视为计算上下文,其横切关注点(如状态传播、短路错误处理和异步执行)通过抽象代数的内在属性进行管理。我们论证了单子如何实现稳健的顺序组合,应用函子如何为并行执行提供原则性结构,并重点阐明单子变换器如何实现这些能力的系统化组合。这种分层架构使开发者能够从简单且可独立验证的组件出发,构建复杂、鲁棒且高效的人工智能体。我们进一步扩展该框架提出元智能体概念,其通过元编程技术利用MCE实现生成式编排,动态创建并管理子智能体工作流。项目页面:https://github.com/yifanzhang-pro/monadic-context-engineering。
智能体语言模型(LM)系统驱动着"深度研究"和"Claude代码"等现代应用,通过多LM架构突破上下文限制。这些系统表面差异背后存在统一模式:较小的"压缩器"LM(甚至可本地运行)将原始上下文提炼为紧凑文本,再由较大的"预测器"LM处理。尽管广泛应用,压缩器-预测器系统的设计仍主要依赖经验法则,缺乏关于组件选择如何影响下游性能的指导。实践中,区分压缩与预测的贡献需要昂贵的任务特定配对扫描。我们认为这些智能系统设计问题本质上是信息论问题。通过将压缩器LM视为噪声信道,我们提出一种简单的互信息估计器,以任务无关方式量化压缩质量。研究表明,互信息能强预测下游性能,且独立于具体任务。基于信息论框架,我们在五个数据集和三个模型族上展开全面实证分析。结果显示:更大压缩器不仅更精确,且更具标记效率——每个标记传递更多比特信息。例如,70亿参数的Qwen-2.5压缩器相比其15亿参数版本,准确度提升1.6倍,简洁度提高4.6倍,单标记互信息传输量增加5.5倍。跨数据集实验表明,扩展压缩器比扩展预测器更有效,使得更大本地压缩器可搭配更小云端预测器。应用于深度研究系统时,这些原则让仅30亿参数的本地压缩器能以26%的API成本实现前沿LM 99%的准确度。
近期计算机视觉领域通过利用3D高斯泼溅(3D-GS)技术,成功将开放词汇分割(OVS)扩展至三维领域。尽管取得这一进展,如何高效渲染开放词汇查询所需的高维特征仍面临重大挑战。现有方法采用码本或特征压缩技术会导致信息损失,进而降低分割质量。为解决此局限性,我们提出了分位数渲染(Q-Render)——一种针对3D高斯体的新型渲染策略,能在保持高保真度的同时高效处理高维特征。与传统体渲染需对每条射线相交的所有3D高斯体进行密集采样不同,Q-Render仅对射线路径上具有主导影响的高斯体进行稀疏采样。通过将Q-Render集成至可泛化的三维神经网络,我们同时提出了高斯泼溅网络(GS-Net),该网络能以可泛化方式预测高斯特征。在ScanNet和LeRF数据集上的大量实验表明,我们的框架在实现实时渲染(512维特征图渲染速度提升约43.7倍)的同时,性能优于现有最优方法。相关代码将公开提供。
将强化学习应用于现实世界机器人技术的主要障碍在于有效奖励函数的设计。尽管近年来基于学习的流程奖励模型展现出前景,但它们普遍受到两个根本性局限的制约:其奖励模型缺乏步骤感知理解能力且依赖单视角感知,导致对细粒度操作进程的评估不可靠;同时其奖励塑造过程缺乏理论依据,容易引发误导策略优化的语义陷阱。为此,我们提出Dopamine-Reward——一种从多视角输入中学习通用步骤感知流程奖励模型的新方法。其核心是我们基于3400+小时数据集训练的通才奖励模型,该模型通过步骤化奖励离散化实现结构化理解,并采用多视角奖励融合突破感知局限。基于Dopamine-Reward,我们进一步构建Dopamine-RL鲁棒策略学习框架,采用具有理论保障的策略不变奖励塑造方法,使智能体能利用密集奖励进行高效自我提升而不改变最优策略,从而从根本上规避语义陷阱。跨越多类仿真与真实任务的实验验证了我们的方法:GRM在奖励评估准确率上达到业界最优水平,基于GRM的Dopamine-RL显著提升策略学习效率。例如当GRM通过单条专家轨迹以一次性适应方式迁移至新任务后,Dopamine-RL仅需150次在线交互(约1小时真实机器人操作)即可将策略成功率从接近零提升至95%,并保持优异的跨任务泛化能力。项目网站:https://robo-dopamine.github.io
生成式模型的快速发展导致多模态安全风险持续涌现,暴露出传统防御方法的局限性。为应对这些挑战,我们提出ProGuard——一种视觉语言主动防护系统,无需传统被动方法所需的模型调整即可识别并描述分布外安全风险。我们首先构建了包含8.7万个样本的模态平衡数据集,每个样本均根据分层多模态安全分类体系标注了二元安全标签和风险类别,有效缓解模态偏差并确保对文本、图像及图文输入的一致性审核。基于该数据集,我们通过纯强化学习训练视觉语言基础模型,以实现高效简洁的推理。为在受控环境中模拟主动安全场景,我们进一步引入分布外安全类别推断任务,并采用基于同义词库的相似性奖励增强强化学习目标,激励模型对未知不安全类别生成简明描述。实验结果表明,ProGuard在二元安全分类任务上达到与闭源大模型相当的性能,在不安全内容分类方面显著优于现有开源防护模型。尤为突出的是,ProGuard展现出强大的主动审核能力,将分布外风险检测和风险描述能力分别提升52.6%和64.8%。
現有AI驅動的影片創作系統通常將劇本草擬與關鍵鏡頭設計視為兩項獨立任務:前者依賴大型語言模型,後者則基於圖像生成模型。我們認為這兩項任務應統一於單一框架內,因為邏輯推理與想像思維同屬電影導演的基礎素養。本研究提出UniMAGE——一種銜接用戶提示與結構化劇本的統一導演模型,使非專業人士能借助現有音視頻生成模型創作出長上下文、多鏡頭的影片。為實現這一目標,我們採用統一文本與圖像生成的混合變換器架構。為進一步增強敘事邏輯與關鍵幀一致性,我們引入「先交織後解耦」的訓練範式:具體而言,先進行交織概念學習,利用交織型文本-圖像數據促進模型對劇本的深度理解與想像闡釋;隨後實施解耦專家學習,將劇本撰寫與關鍵幀生成分離,以提升故事敘述的靈活性與創造力。大量實驗表明,UniMAGE在開源模型中實現了最先進的性能,能生成邏輯連貫的視頻劇本與視覺一致的關鍵幀圖像。
实时人像动画对于虚拟助手和实时虚拟化身等交互应用至关重要,需要具备高视觉保真度、时间连贯性、超低延迟以及对参考图像和驱动信号等动态输入的即时响应能力。尽管基于扩散的模型能实现优异画质,但其非因果特性阻碍了流式部署。因果自回归视频生成方法虽支持逐帧高效生成,但存在误差累积、片段边界运动不连续以及长期一致性退化等问题。本研究提出名为"结式强制"的创新流式框架,通过三项核心设计解决上述挑战:(1)采用分块生成策略,通过缓存参考图像的KV状态实现全局身份保持,并利用滑动窗口注意力进行局部时序建模;(2)设计时序结模块,通过重叠相邻数据块并借助图像-视频条件传递时空线索,实现片段间运动平滑过渡;(3)引入"前瞻运行"机制,在推理过程中动态更新参考帧的时序坐标,使其语义语境始终领先于当前生成帧,从而保障长期连贯性。该框架可在消费级GPU上实现无限序列的高保真度、时序稳定且具备交互性的实时人像动画,展现出卓越的视觉稳定性。
评估各类模型架构(如Transformer、大语言模型及其他自然语言处理系统)的性能需要能够多维度衡量的综合基准。其中,自然语言理解能力的评估尤为关键,因其是衡量模型能力的核心标准。因此,建立能从多视角对NLU能力进行全面评估分析的基准体系至关重要。尽管GLUE基准已为英语NLU评估树立了标杆,其他语言也相继推出了类似基准(如中文CLUE、法语FLUE、日文JGLUE),但目前土耳其语仍缺乏可比拟的评估基准。为填补这一空白,我们推出土耳其语综合基准TrGLUE,涵盖多种NLU任务;同时专为情感分析打造SentiTurca基准。为支持研究者,我们还提供了基于Transformer模型的微调与评估代码,助力这些基准的有效应用。TrGLUE包含土耳其语原生语料库,其设计复现了GLUE式评估的领域覆盖与任务范式,标签通过融合强LLM标注、跨模型一致性校验及人工验证的半自动化流程获取。该设计优先保障语言自然度,最大限度减少直接翻译痕迹,并形成可扩展、可复现的工作流。通过TrGLUE,我们旨在为土耳其语NLU建立稳健的评估框架,为研究者提供宝贵资源,并为高质量半自动化数据集生成提供实践洞见。
提升深度学习推荐模型(DLRM)的训练与推理速度及效率至关重要,但这一目标面临三大系统挑战——模型架构多样性、内核原语多样性,以及硬件代际与架构异构性。本文提出KernelEvolve这一智能内核编码框架,旨在规模化解决DLRM的异构性问题。该框架以内核规范为输入,通过多层级编程抽象(从Triton/CuTe领域专用语言到底层硬件无关语言),实现跨异构硬件架构的推荐模型内核自动生成与优化,覆盖完整的软硬件优化栈。内核优化过程被建模为基于图的搜索,通过选择策略、通用算子、适应度函数和终止规则动态适配运行时执行环境,并借助检索增强的提示合成技术实现自适应调整。我们设计、实现并部署KernelEvolve,用于优化跨代际英伟达/AMD GPU及Meta自研AI加速器上的多种生产级推荐模型。在公开测试集KernelBench上的验证表明:该框架在三个难度级别的250个测试问题中通过率达100%,在三种异构硬件平台上支持的160个PyTorch ATen算子均实现正确性验证。KernelEvolve将开发周期从数周缩短至数小时,在多样化生产场景和大规模异构AI系统中较PyTorch基线实现显著性能提升。除性能优化外,该框架通过为内部研发的AI硬件提供自动内核生成能力,显著降低了新型AI硬件的编程门槛。
我们提出自评估模型(Self-E),这是一种新颖的文本到图像生成从头训练方法,支持任意步长推理。该模型在采用流匹配式数据学习机制的同时,创新性地引入了自评估机制:通过当前分数估计值对自身生成样本进行动态评估,实现自我教学功能。与传统扩散模型或流模型不同,该方法不依赖通常需要多步推理的局部监督机制;与基于蒸馏的方法相比,它无需预训练教师模型。这种即时局部学习与自驱动全局匹配的结合,成功弥合了两种范式间的鸿沟,实现了支持极低步长的高质量文本到图像生成模型。在大规模文本到图像基准测试中,Self-E不仅在少步生成方面表现卓越,在50步推理时亦可与最先进的流匹配模型媲美。研究进一步发现,其性能随推理步长增加呈单调提升趋势,使得单一模型既能实现超快速少步生成,又能完成高质量长轨迹采样。据我们所知,Self-E是首个支持任意步长的从头训练文本到图像模型,为高效可扩展生成提供了统一框架。
我们意外地发现,即使所有思维链轨迹都指向错误答案,通过使用更强模型生成的思维链合成数据集进行训练,仍能提升语言模型的推理能力。实验表明,该方法在推理任务上的表现优于基于人工标注数据集的训练。我们推测这一现象源于两个关键因素:首先,合成数据的分布本质上更接近语言模型自身的分布,从而更易于学习;其次,这些"错误"轨迹往往仅存在部分缺陷,其中仍包含模型可借鉴的有效推理步骤。为验证第一个假设,我们使用语言模型对人工标注的思维链进行复述——将其分布向模型自身分布靠拢——结果表明这种处理能提升性能。针对第二个假设,我们引入缺陷程度递增的思维链,探究模型对这些缺陷的容忍度。我们在数学、算法推理和代码生成等多个推理领域(使用MATH、GSM8K、Countdown和MBPP数据集),基于Qwen、Llama和Gemma等系列的1.5B至9B参数规模语言模型验证了上述发现。研究表明,构建更贴近模型分布的数据集是值得关注的关键维度。我们还发现,正确答案并非总是推理过程可靠性的有效指标。
近期基於文本提示與人類身份條件的文本到圖像擴散模型,已能生成高度逼真的個性化面部圖像。然而,現有基於提示的方法在移除或修改身份特徵時,要么依賴預訓練模型已充分學習的主體特徵,要么需要針對特定身份進行模型微調。本研究通過分析身份特徵的生成過程,提出了一種用於面部匿名化的反向個性化框架。該方法利用條件擴散反演技術,無需文本提示即可直接操作圖像。為泛化至模型訓練數據之外的主體,我們引入了身份引導的條件分支。有別於先前缺乏面部屬性控制能力的匿名化方法,本框架支持屬性可控的匿名化。實驗表明,我們的方法在身份移除、屬性保持與圖像質量三者間達到了最先進的平衡效果。源代碼與數據已公開於 https://github.com/hanweikung/reverse-personalization。