每日精選AI研究論文及翻譯
我們推出HY-World 2.0——一個多模態世界模型框架,該框架在我們先前項目HY-World 1.0的基礎上實現了重要進展。HY-World 2.0能夠兼容多種輸入模態(包括文本提示、單視角圖像、多視角圖像及影片),並生成3D世界表徵。當輸入文本或單視角圖像時,模型可執行世界生成任務,合成具有高擬真度、可導航的3D高斯潑濺(3DGS)場景。這一過程通過四階段方法實現:a) 使用HY-Pano 2.0生成全景圖,b) 通過WorldNav進行軌跡規劃,c) 利用WorldStereo 2.0擴展世界範圍,d) 採用WorldMirror 2.0完成世界合成。具體而言,我們引入了關鍵創新技術以提升全景圖擬真度、實現3D場景理解與規劃,並升級了基於關鍵幀的視圖生成模型WorldStereo(具備一致性記憶機制)。同時,我們通過改進模型架構與學習策略,對通用3D預測的前饋模型WorldMirror進行升級,使其能從多視角圖像或影片中重建世界。此外,我們推出WorldLens高性能3DGS渲染平台,其特點在於採用靈活的引擎無關架構、支持自動圖像照明(IBL)、高效碰撞檢測,以及訓練-渲染協同設計,可實現帶角色支持的交互式3D世界探索。大量實驗表明,在開源方案中,HY-World 2.0於多個基準測試上達到最先進性能,成果媲美閉源模型Marble。我們公開全部模型權重、代碼與技術細節,以促進可重現性並支持3D世界模型的進一步研究。
深度研究智能體(DRA)旨在解決涉及規劃、檢索、多模態理解與報告生成的複雜長期研究任務,但其評估仍因動態網絡環境與模糊任務定義而面臨挑戰。我們提出DR^{3}-Eval——一個用於評估深度研究智能體在多模態、多文件報告生成能力的真實可重現基準。該基準基於真實用戶提供的材料構建,並配備每項任務專用的靜態研究沙箱語料庫,在保持完全可驗證性的同時模擬開放網絡的複雜性,包含支持性文獻、干擾項與噪聲數據。此外,我們引入多維度評估框架,涵蓋信息召回率、事實準確性、引用覆蓋度、指令遵循度與深度質量,並驗證其與人類評判的一致性。基於多個尖端語言模型開發的多智能體系統DR^{3}-Agent實驗表明,DR^{3}-Eval具有高度挑戰性,能有效揭示檢索魯棒性與幻覺控制方面的關鍵失效模式。我們的代碼與數據已公開。
模型增强的一種廣泛採用策略是使用更強模型生成的合成數據進行監督式微調(SFT)。然而,對於像Qwen3-8B這類新興推理模型,這種方法往往無法提升推理能力,甚至可能導致性能大幅下降。本研究發現,教師模型生成數據與學生模型分佈之間的顯著風格差異是影響SFT效果的關鍵因素。為彌合這一差距,我們提出教師-學生協同數據合成框架(TESSY),通過交錯調用教師模型與學生模型交替生成風格標記與非風格標記。該方法產生的合成序列既能繼承教師模型的高級推理能力,又能保持與學生模型分佈的風格一致性。在代碼生成實驗中,以GPT-OSS-120B作為教師模型時,使用教師生成數據對Qwen3-8B進行微調會導致LiveCodeBench-Pro和OJBench上的性能分別下降3.25%和10.02%,而TESSY則實現了11.25%和6.68%的性能提升。
高階自動駕駛需要具備多模態未來不確定性建模能力的運動規劃器,同時能在閉環互動中保持穩健性。儘管基於擴散模型的規劃器能有效處理複雜軌跡分佈,但在純模仿學習訓練下常面臨隨機不穩定性問題,且缺乏矯正性負反饋機制。為解決這些問題,我們提出RAD-2——一個面向閉環規劃的統一生成器-判別器框架。具體而言,擴散式生成器用於產生多樣化軌跡候選,而經過強化學習優化的判別器則根據長期駕駛品質對候選軌跡進行重排序。這種解耦設計避免了將稀疏標量獎勵直接應用於完整高維軌跡空間,從而提升優化穩定性。為增強強化學習效能,我們提出時間一致性群組相對策略優化法,利用時間連貫性緩解信用分配問題。此外,我們提出在線生成器優化技術,將閉環反饋轉化為結構化縱向優化信號,逐步將生成器導向高獎勵軌跡流形。為支持大規模高效訓練,我們開發BEV-Warp高吞吐模擬環境,通過空間扭曲技術直接在鳥瞰圖特徵空間進行閉環評估。相較於強基線擴散規劃器,RAD-2將碰撞率降低56%。真實場景部署進一步驗證了其在複雜城市交通中提升感知安全性與行駛平順度的成效。
儘管大型語言模型(LLMs)已進行安全對齊,仍會表現出脆弱的拒答行為,這種行為可透過簡單的語言改動規避。時態越獄攻擊表明:當有害請求改以過去式表述時,原本拒絕的模型往往會轉為順從,這揭示了當前對齊方法存在關鍵的泛化缺陷,其內在機制尚不明晰。本研究提出「激活縮放防護」(ASGuard),一個基於機理洞察的框架,能精準修復此特定漏洞。首先,我們透過電路分析定位與目標越獄行為(如時態轉換攻擊)因果關聯的特定注意力頭;其次,訓練精確的通道級縮放向量以重新校準時態脆弱頭的激活值;最後,將其應用於「預防性微調」,迫使模型學習更穩健的拒答機制。在四款LLM上的實驗表明,ASGuard能有效降低目標越獄攻擊成功率,同時維持通用能力並減少過度拒答,實現安全與效用的帕雷托最優平衡。基於機理分析,我們發現對抗性後綴會抑制拒答中介方向的訊息傳播。本研究進一步證明,透過深度理解模型內部機制,可開發出實用、高效且具針對性的行為調控方法,為構建更可靠、可解釋的AI安全技術指明方向。
雖然端到端的視覺-語言-動作模型為機器人操作提供了前景廣闊的範式,但在狹窄控制資料上對其進行微調往往會損害其從基礎視覺-語言模型繼承的深度推理能力。為解決這一根本性權衡,我們提出HiVLA——一個以視覺定位為核心的分層框架,明確將高層語義規劃與低層運動控制解耦。在高層部分,視覺-語言規劃器首先執行任務分解與視覺定位,生成包含子任務指令和精確目標邊界框的結構化計劃。隨後為將計劃轉化為實體動作,我們在低層部分引入配備新型級聯交叉注意力機制的流匹配擴散轉換器動作專家。該設計依序融合全域上下文、高解析度物體中心裁剪區域及技能語義,使擴散轉換器能專注於魯棒執行。我們的解耦架構既保留了視覺-語言模型的零樣本推理能力,又支持兩個組件的獨立改進。大量模擬與實物實驗表明,HiVLA在長週期技能組合和雜亂場景中小物體的細粒度操作方面表現尤為突出,顯著優於現有端到端基線模型。
基元的高效空間分配是3D高斯潑濺技術的基礎,它直接決定了表徵緊湊性、重建速度與渲染保真度之間的協同效應。現有解決方案無論基於迭代優化或前饋推理,皆因依賴缺乏全域場景感知的局部啟發式分配策略,而在這些目標間面臨顯著取捨。具體而言,當前前饋方法大多採用像素對齊或體素對齊方式,透過將像素反投影為密集的視角對齊基元,導致3D資產內建冗餘。隨著輸入視角增加,表徵規模會持續膨脹,全域一致性亦變得脆弱。 為此,我們提出GlobalSplat框架,其核心設計理念為「先對齊,後解碼」。本方法學習一種緊湊的全域潛在場景表徵,在解碼任何顯式3D幾何前,先對多視角輸入進行編碼並解析跨視角對應關係。關鍵在於,此架構無需依賴預訓練的像素預測主幹網絡或重用密集基線的潛在特徵,即可實現緊湊且全域一致的重建。透過採用從粗到精的訓練課程,逐步提升解碼容量,GlobalSplat從根本上防止表徵膨脹。在RealEstate10K與ACID數據集上,我們的模型僅需使用1.6萬個高斯基元(遠少於密集流程的需求),即可達成具競爭力的新視角合成效果,存儲佔用僅4MB。此外,GlobalSplat的推理速度顯著快於基線方法,單次前向傳播耗時低於78毫秒。項目頁面詳見:https://r-itk.github.io/globalsplat/
基於檢索增強生成(RAG)的方法通過引入外部視覺知識來擴展大型視覺語言模型(LVLM)的能力。然而,現有視覺RAG系統通常依賴通用檢索信號,忽略了複雜推理所需的細粒度視覺語義。為解決這一侷限性,我們提出UniDoc-RL——一個統一的強化學習框架,其中LVLM智能體協同執行檢索、重排序、主動視覺感知與推理任務。UniDoc-RL將視覺信息獲取建模為具有層次化動作空間的序列決策問題:從粗粒度的文檔檢索逐步過渡到細粒度的圖像選擇與主動區域裁剪,使模型能夠抑制無關內容並聚焦於信息密集區域。為實現有效的端到端訓練,我們設計了密集多獎勵機制,為每個動作提供任務感知監督。基於群組相對策略優化(GRPO)方法,UniDoc-RL無需依賴獨立價值網絡即可實現智能體行為與多目標的對齊。為支持此訓練範式,我們構建了包含細粒度動作標註的高質量推理軌跡數據集。在三個基準測試上的實驗表明,UniDoc-RL持續超越現有頂尖基線模型,相比基於強化學習的先前方法最高提升達17.7%。
視覺語言模型(VLMs)在跨模態理解方面展現出卓越能力,但其大規模特性為資源受限場景的部署帶來重大挑戰。知識蒸餾(KD)提供了一種可行的解決方案,能在不增加模型規模或數據需求的前提下提升模型性能,使部署更高效。然而,將KD應用於VLM時面臨模態特定監督的難題:儘管VLM中的多模態知識在語言空間內融合,現有方法仍對各模態進行單獨監督,未能顯式處理多模態對齊,導致跨模態知識傳遞不一致。為此,我們提出Switch-KD——一種視覺切換蒸餾框架,將視覺語言知識傳輸統一於共享的文本概率空間。該框架包含兩個核心組件:(1)視覺切換蒸餾機制,通過將學生的視覺輸出切換至教師的語言通路,構建跨模態概率參考以實現隱式視覺知識傳輸;(2)動態雙向對數差異(DBiLD)損失函數,通過雙向監督自適應對齊信息豐富的概率區域,同時保持師生模型的分佈結構。在Switch-KD指導下,參數量僅0.5B的TinyLLaVA成功從其3B教師模型中蒸餾出豐富的多模態知識,在10個多模態基準測試中平均提升3.6個百分點,且無需任何架構修改。
克劳德代码(Claude Code)是一种代理式编程工具,能够代表用户执行Shell命令、编辑文件及调用外部服务。本研究通过分析其公开的TypeScript源代码,并与独立开源AI代理系统OpenClaw进行对比,系统阐述了其整体架构。OpenClaw作为多通道个人助理网关,从不同部署场景出发对诸多相同设计问题给出了差异化解决方案。我们提炼出驱动该架构的五大人本价值观、设计哲学与需求(人类决策权威、安全与防护、可靠执行、能力增强及情境适应性),并沿着十三条设计原则追溯至具体实现方案。该系统的核心是一个调用模型、运行工具并循环执行的简易while循环,但主要代码实现在循环外围的支撑系统中:包含七种模式与基于机器学习分类器的权限系统、五层压缩流水线的上下文管理机制、四种扩展机制(MCP、插件、技能与钩子)、具备工作树隔离的子代理委托机制,以及面向追加的会话存储。与OpenClaw的对比表明,当部署场景变化时,相同设计问题会催生不同的架构答案:从基于操作的安全分类转向边界级访问控制,从单一CLI循环演进为网关控制平面内的嵌入式运行时,从上下文窗口扩展发展为网关级能力注册。最后我们基于近期实证研究、架构实践与政策文献,为未来代理系统提出六个开放设计方向。
每次调用大语言模型分类终端时,都会生成已保存在生产日志中的带标签输入-输出对。这些数据对构成了一个免费且持续扩增的训练集:基于此训练的轻量级替代模型能以近乎零边际推理成本吸收未来大量流量。核心问题在于何时部署具备足够可靠性的替代模型、其处理与转交任务的边界如何划分,以及该边界如何随数据积累动态演化。 我们推出TRACER(基于追踪的自适应成本效益路由系统),这一开源系统利用大语言模型自身生产轨迹训练机器学习替代模型,并通过一致性校验门控部署机制:仅当替代模型与LLM的共识率超过用户设定阈值α时才激活运行。为实现路由边界的透明化,TRACER生成可解释性分析报告,清晰阐述替代模型处理的输入范围、性能瓶颈区域及转交决策依据。 在77类意图识别基准测试中(以Sonnet 4.6作为教师模型),TRACER实现的替代模型覆盖率可达83-100%(具体取决于质量目标α);在150类基准测试中,替代模型可完全取代教师模型。对于自然语言推理任务,系统通过一致性校验门控正确拒绝部署,因为嵌入表示无法支持可靠的分类决策。本系统已作为开源软件发布。
準確的未來影片預測需兼具高視覺真實性與連貫的場景語義,這在自動駕駛等複雜動態環境中尤為關鍵。本文提出Re2Pix——一種分層式影片預測框架,將預測任務解構為兩個階段:語義表徵預測與表徵引導的視覺合成。有別於直接預測RGB影格,我們的方法先於凍結的視覺基礎模型特徵空間中預測未來場景結構,再以潛在擴散模型根據這些預測表徵生成逼真影格。此解耦機制使模型能專注於先處理場景動態,再進行外觀生成。核心挑戰在於訓練時可用的真實表徵與推論時使用的預測表徵存在訓練-測試失配問題。為此,我們引入嵌套棄置與混合監督兩種條件化策略,提升對不完美自回歸預測的魯棒性。在具挑戰性的駕駛基準測試中,實驗表明相較於強勁的擴散模型基線,這種語義優先的設計能顯著提升時間語義一致性、感知質量及訓練效率。實現代碼已開源於https://github.com/Sta8is/Re2Pix。
大型语言模型(LLMs)高度依赖键值缓存技术以降低推理延迟。然而,标准键值缓存具有上下文依赖性:若要在新语境中复用已缓存的文档,需重新计算键值状态以适应注意力分布的动态变化。现有解决方案如CacheBlend、EPIC和SAM-KV通过选择性重计算部分词元来缓解该问题,但仍会产生不可忽略的计算开销(浮点运算次数)并增加首词元生成延迟。本文提出KV Packet——一种免重计算的缓存复用框架,将缓存文档视为由轻量级可训练软词元适配器封装的不可变"数据包",这些适配器通过自监督蒸馏训练以弥合上下文断层。基于Llama-3.1和Qwen2.5的实验表明,所提KV Packet方法在保持与全重计算基线相当的F1分数同时,实现了接近零的浮点运算量,且首词元延迟低于基于重计算的基线方法。
本文聚焦于流匹配模型与人类偏好的对齐研究。一种前景广阔的方法是通过流匹配的可微分生成过程直接反向传播奖励梯度进行微调。然而,沿长轨迹的反向传播会导致内存成本过高和梯度爆炸问题。因此,直接梯度法难以更新对最终图像全局结构起关键作用的早期生成步骤。针对此问题,我们提出LeapAlign微调方法,该方法通过缩短反向传播路径降低计算成本,实现从奖励到早期生成步骤的直接梯度传播。具体而言,我们通过设计两个连续跳跃将长轨迹缩短为仅两步:每个跳跃跨越多个ODE采样步骤,在单步内预测未来潜变量。通过随机化跳跃的起止时间步,LeapAlign能在任意生成步骤实现高效稳定的模型更新。为更好利用缩短后的轨迹,我们为与长生成路径一致性更高的轨迹分配更高训练权重。为进一步增强梯度稳定性,我们降低大幅值梯度项的权重,而非像以往研究那样完全移除这些项。在对Flux模型进行微调时,LeapAlign在各项指标上均优于最先进的基于GRPO的方法和直接梯度法,实现了更优的图像质量与图文对齐效果。
人-物交互(HOI)建模旨在捕捉人类如何作用于物体并与之建立联系,通常以<人物、动作、物体>三元组形式表达。现有方法分为两个独立分支:HOI生成根据结构化三元组和布局合成场景,但无法整合混合条件(如HOI与纯物体实体);而HOI编辑通过文本修改交互关系,却难以解耦姿态与物理接触,且难以扩展到多重交互。我们提出OneHOI——一个统一的扩散Transformer框架,通过共享的结构化交互表征驱动条件去噪过程,将HOI生成与编辑整合至单一流程。其核心关系扩散Transformer(R-DiT)通过角色与实例感知的HOI令牌、基于布局的空间动作定位、强化交互拓扑的结构化HOI注意力机制,以及解耦多重HOI场景的HOI旋转位置编码,对动词中介的关系进行建模。基于HOI-Edit-44K数据集及HOI与物体中心数据集的联合训练与模态丢弃策略,OneHOI支持布局引导、无布局、任意掩码及混合条件控制,在HOI生成与编辑任务上均达到最先进性能。代码已开源:https://jiuntian.github.io/OneHOI/。
多模态大语言模型(MLLMs)在多数视觉语言任务中表现优异,但在需要细粒度视觉推理的视觉中心型问题上往往表现不佳。最新研究表明,这一局限并非源于视觉表征能力薄弱,而是由于指令微调过程中未能充分利用视觉信息——许多任务仅凭语言先验即可部分解决。我们提出一种轻量级解决方案,通过将少量以自然语言指令表达的视觉自监督任务融入视觉指令微调过程。通过将旋转预测、色彩匹配和跨视角对应等经典自监督预训练任务重构为“图像-指令-响应”三元组,我们引入了必须依赖视觉证据才能解决的监督信号。该方法无需人工标注、无需调整模型架构、无需新增训练阶段。在不同模型、训练机制和基准测试中,仅需注入少量(3-10%)此类视觉基础指令,就能持续提升视觉中心型任务的评估性能。我们的研究证明,通过对训练数据分布进行简单调整,采用视觉基础的自监督学习任务进行指令微调,可有效增强MLLMs的视觉推理能力。代码地址:https://github.com/sirkosophia/V-GIFT
強化學習(RL)已成為提升大型語言模型(LLM)推理能力的關鍵驅動力。儘管近期研究多聚焦於獎勵工程或數據合成,但鮮有研究利用模型的內在表徵特性來指導訓練過程。本文首先觀察到,在處理長上下文時,查詢向量和鍵向量中會出現高幅值激活現象。受模型量化技術(該技術已證實此類高幅值激活的重要性)的啟發,並結合長上下文推理本身具有稀疏結構的特性,我們推斷這些權重是實現有效模型優化的關鍵驅動因素。基於此發現,我們提出LongAct策略——將均勻更新轉變為顯著性引導的稀疏更新。通過選擇性更新僅與重要激活相關的權重,LongAct在LongBench v2基準測試中實現約8%的性能提升,並在RULER基準上增強了泛化能力。此外,本方法展現出卓越的普適性,在GRPO、DAPO等多種RL算法中均能穩定提升性能。大量消融實驗表明,聚焦於這些顯著特徵是釋放長上下文處理潛力的核心關鍵。
基于文本的生成模型逆向操控是处理二维或三维内容的核心范式,它解锁了文本驱动编辑、风格迁移或逆问题等诸多应用。然而,该方法依赖于生成模型对自然语言提示保持敏感的前提。我们研究发现,对于最先进的原生文本到3D生成模型,这一前提往往并不成立。我们识别出一种关键失效模式:生成轨迹会被吸入潜在的"沉陷陷阱"——即模型对提示修改变得不敏感的潜在区域。在此状态下,输入文本的更改无法有效改变内部表征,从而导致输出几何形态保持不变。关键发现是,这并非模型几何表达能力的局限性:同一生成模型虽具备生成多样化形状的能力,但如我们所示证,其对外部分布文本指导会失去敏感性。我们通过分析生成模型的采样轨迹研究该现象,发现通过利用模型的无条件生成先验,仍可表征并生成复杂几何结构。由此提出更稳健的文本驱动3D形状编辑框架,通过解耦模型的几何表征能力与语言敏感性来规避潜在沉陷。我们的方法解决了当前3D流程的局限性,实现了对外部分布3D形状的高保真语义操控。项目网页:https://daidedou.sorpi.fr/publication/beyondprompts
視覺語言模型(VLM)在人工智慧驅動的複雜醫學影像(如電腦斷層掃描CT)解讀與報告生成方面取得顯著進展。然而,現有方法大多將臨床醫師置於最終輸出的被動觀察者角色,未能提供可檢驗、驗證或修正的解釋性推理軌跡。為此,我們提出RadAgent——一個運用工具的人工智慧代理,通過逐步可解釋的流程生成CT報告。每份生成報告均附帶完全可審查的中間決策與工具互動軌跡,使臨床醫師能追溯報告結論的推導過程。實驗結果顯示,RadAgent在三個維度上優於其三維VLM對照模型CT-Chat的胸部CT報告生成能力:臨床準確性在宏觀F1分數提升6.0分(相對提升36.4%),微觀F1分數提升5.4分(相對提升19.6%);對抗條件下的魯棒性提升24.7分(相對提升41.9%);此外,RadAgent在忠實度指標達到37.0%,此為其三維VLM對照模型完全缺失的新能力。通過將胸部CT解讀結構化為顯式、工具增強且迭代的推理軌跡,RadAgent推動放射學領域向透明可靠的人工智慧邁進關鍵一步。
跨分词器蒸馏(CTD)作为一种在不同分词器的师生语言模型间进行知识迁移的技术,目前仍是一个尚未完全解决的难题。现有方法依赖启发式策略对齐不匹配的词表,引入了显著复杂性。本文提出一种简单有效的基线方法——字节级蒸馏(BLD),通过在不同分词器的共同接口(即字节层面)进行操作来实现CTD。具体而言,我们将教师模型的输出分布转换为字节级概率,为学生模型附加轻量级字节级解码头,并通过这一共享的字节级接口进行蒸馏。尽管方法简单,BLD在涵盖1B至8B参数模型的多种蒸馏任务中,与复杂得多的CTD方法相比具有竞争力,并在若干基准测试中实现超越。我们的研究表明,字节层面是跨分词器知识迁移的天然共通层,同时亦凸显出在所有任务和基准测试中实现一致改进仍具挑战性,这印证了CTD仍是待解难题的现状。
检索增强生成(RAG)技术虽能将大语言模型的响应植根于外部证据,却将模型视为搜索结果的被动消费者:模型无法感知语料库的组织结构及未检索内容,这限制了其回溯或整合零散证据的能力。我们提出Corpus2Skill方法,通过离线处理将文档语料库提炼为分层技能目录,使大语言模型智能体在运行时能自主导航该目录。该编译管道通过迭代式文档聚类生成各层级的LLM摘要,最终物化为可导航的技能文件树。运行时,智能体可纵览语料库全貌,借助逐级细化的摘要深入主题分支,并通过文档ID检索完整内容。由于层级结构显式可见,智能体能自主推理检索路径、回溯无效分支并实现跨分支证据整合。在企业客户支持基准测试WixQA中,Corpus2Skill在各项质量指标上均优于稠密检索、RAPTOR及智能RAG基线方法。
人工智能编码代理面临着一个悖论:它们拥有海量参数化知识,却无法记住一小时前的对话。现有记忆系统将文本存储在向量数据库中,采用单通道检索机制,核心运算依赖云端大语言模型,且完全缺失人类高效记忆的认知处理过程。 我们推出SuperLocalMemory V3.3("活脑"系统),这是首个实现完整认知记忆分类体系与数学化生命周期动力学的本地优先代理记忆系统。基于V3.2版本的信息几何学基础(arXiv:2603.14588),本次升级包含五大创新:(1) Fisher-Rao量化感知距离(FRQAD)——高斯统计流形上的新型度量标准,在区分高保真嵌入与量化嵌入时实现100%精准度(余弦相似度仅为85.6%),属全球首创;(2) 艾宾浩斯自适应遗忘算法——结合生命周期感知量化的本地代理记忆首套数学遗忘曲线,使判别能力提升6.7倍;(3) 七通道认知检索架构,涵盖语义、关键词、实体图谱、时序、扩散激活、巩固记忆及霍普菲尔德联想通道,在零LLM的A模式下LoCoMo基准测试达70.4%;(4) 通过软提示实现长期隐性记忆的参数化方案;(5) 全自动认知管道实现零摩擦记忆生命周期管理。 在LoCoMo测试中,V3.3的A模式(零LLM)达到70.4%,多跳推理提升23.8个百分点,对抗性测试提升12.7个百分点。相较V3.2版本74.8%的A模式与87.7%的C模式成绩,4.4个百分点的差距体现了主动的架构权衡。SLM V3.3采用Elastic License 2.0开源协议,纯CPU运行,月下载量超5000次。
人工智能生成内容(AIGC)工具的快速发展,使得图像、视频及可视化素材能够按需生成并应用于网页设计,为现代UI/UX提供了一种灵活且日益普及的范式。然而,直接将此类工具集成到自动化网页生成中,往往会导致风格不一致和整体协调性差的问题,因为各元素是孤立生成的。我们提出MM-WebAgent——一种用于多模态网页生成的分层智能体框架,通过分层规划与迭代自省来协调基于AIGC的元素生成。该框架通过联合优化全局布局、局部多模态内容及其整合,生成具有连贯性与视觉一致性的网页。我们进一步构建了多模态网页生成基准测试集及多层级评估方案以进行系统化评估。实验表明,MM-WebAgent在代码生成和基于智能体的基线方法中表现优异,尤其在多模态元素生成与整合方面更为突出。代码与数据详见:https://aka.ms/mm-webagent。
近期,大型语言模型作为加速科学发现的重要途径受到广泛关注。然而,其在生物学等开放型科学领域的应用仍受限,主要源于缺乏事实依据与可操作的解释机制。为此,我们提出一种面向虚拟细胞的结构化解释框架,将生物推理过程表征为机制作用图,从而实现系统化的验证与证伪。基于此,我们开发出VCR-Agent多智能体框架,该框架通过整合生物知识检索与基于验证器的过滤机制,实现自主生成并验证机理推理。利用该框架,我们发布VC-TRACES数据集,其中包含从Tahoe-100M图谱中提取的经过验证的机理解释。实验表明,采用这些解释进行训练能显著提升事实准确性,并为下游基因表达预测提供更有效的监督信号。这些成果印证了通过多智能体协同与严格验证实现可靠机理推理对虚拟细胞研究的关键价值。
我们研究行为正则化强化学习(RL),其中对参考分布(离线RL中的数据集或LLM RL微调中的基座模型)的正则化对于防止因分布外推错误导致的价值过优化至关重要。现有方法要么依赖重参数化的策略梯度(难以扩展至大型生成模型),要么采用拒绝采样(在尝试超越行为支持集时可能过于保守)。本文提出价值梯度流(VGF),一种可扩展的行为正则化RL新范式。VGF将行为正则化RL转化为将参考分布映射至价值诱导最优策略分布的最优传输问题。我们通过离散梯度流求解该传输问题,其中价值梯度引导从参考分布初始化的粒子流。理论分析表明VGF通过控制传输预算实现隐式正则化。该方法在保持表达力和灵活性的同时消除了显式策略参数化,从而可通过调整传输预算实现自适应测试时缩放。大量实验表明,VGF显著优于现有方法,在离线RL基准(D4RL、OGBench)和LLM RL任务中达到最先进水平。代码与运行结果详见https://ryanxhr.github.io/vgf。
在線增量學習中,數據持續到達且存在顯著的分佈偏移,這帶來了重大挑戰——因為在學習新任務時,先前樣本的重放價值有限。現有研究通常依賴單個自適應質心或多個固定質心來表徵潛在空間中的每個類別,但當類別數據流本質上具有多模態特性且需要持續更新質心時,這類方法便顯得力不從心。為解決此問題,我們基於最優傳輸理論提出了在線混合模型學習框架(MMOT),使質心能夠隨新數據增量演進。該方法具有兩大優勢:(i)能更精準刻畫複雜數據流特性;(ii)通過MMOT推導的質心,在推理階段可對未見樣本實現更優的類別相似度估計。此外,為增強表徵學習並緩解災難性遺忘,我們設計了動態保持策略,該策略能調控潛在空間並隨時間推移維持類別可分離性。在基準數據集上的實驗驗證表明,我們提出的方法具有卓越的有效性。
在多轮大语言模型尝试中采用多数投票法能提升数学推理能力,但误差相关性限制了有效样本量。一个自然的解决方案是为不同投票者分配不同的推理策略。我们在AIMO 3竞赛中测试了名为"多样化提示混合器"的方法:使用3个模型、进行23+次实验、处理50道IMO级别题目、在单张H100 80GB显卡上以5小时为限。所有提示层面的干预均告失败。高温采样本身已能消除误差相关性;较弱策略降低相关性的效果不及其对准确率的负面影响。在同等N=8样本量及所有优化尝试中,模型能力差距达8个点且始终起主导作用。最佳多数投票得分(42/50)与pass@20(约45.5)之间的差距源于选择损耗而非提示损耗。基于验证器的选择器可弥补这一差距,而提示工程无法实现。
我们提出三相变换器(3PT),一种专为仅解码器Transformer设计的残差流结构先验,其基于标准的SwiGLU+RMSNorm+RoPE+GQA架构。该模型将隐向量划分为N个等大的循环通道,每个通道通过相位保持操作进行维护:包括逐通道RMSNorm、在注意力与前馈网络间实施的二维Givens旋转(使各通道旋转θ + i*(2π/N)角度),以及令GQA头数与通道划分对齐的约束机制。该架构是扰乱与重校过程自稳定的动态平衡体系,而非外挂模块。通道划分天然形成了一维直流子空间,该空间与各通道正交,我们向其注入固定的加布里埃尔号角函数r(p)=1/(p+1)作为绝对位置侧通道,与RoPE的相对位置旋转正交组合。经典N=3配置借用了平衡三相交流电的隐喻——三个相位差120度的正弦波叠加归零且不存在反相关对。在WikiText-103数据集上,参数量为1.23亿的3PT模型相比仅使用RoPE的基线(增加1,536参数,占总参数量0.00124%),困惑度降低7.20%(每字节比特数下降2.62%),收敛步数加速1.93倍(实际耗时加速1.64倍)。N表现为参数共享调节钮而非唯一最优解:在550万参数规模下,对{1,2,3,4,6,8,12}的N值扫描显示N=1最优且呈近单调趋势;而在1.23亿参数规模下,三次随机种子实验表明N=3与N=1统计无差异。核心机制包括通道划分的残差流、逐块旋转、分相归一化及号角直流注入。我们刻画了三大特性:(a)几何结构的自稳定性无需显式约束,成为神经网络守恒律框架的新实例;(b)12层网络中出现旋转角度漂移的U型深度分布;(c)与RoPE、注意力及前馈网络的正交组合性。
基于评分标准的验证机制通过明确的评估标准引导奖励模型,相比单一模型验证能产生更可靠的判断。然而现有方法大多依赖成本高昂的评分标注,限制了可扩展性。此外,我们发现评分标准生成存在协作失效风险:低质量评分标准会主动误导而非帮助奖励模型。受合作性交流原则启发,我们提出协同批判式奖励建模框架(C²),通过让奖励模型与仅基于二元偏好训练的评分生成器开展批判性协作,显著提升判断质量。在C²框架中,我们通过测量每个评分标准使奖励模型趋向或偏离正确偏好的程度,构建具有误导性与帮助性的对比评分对。利用这些对比样本,我们训练协同式评分生成器提出有效标准,并训练批判性验证器在决策前评估评分有效性,最终仅采纳被判定为有益的评分标准。实验表明,C²在相同二元偏好数据上训练的表现优于推理型奖励模型,在RM-Bench上提升达6.5分,在AlpacaEval 2.0的篇幅控制胜率上提升6.0分。无需外部评分标注的情况下,C²使80亿参数奖励模型达到了4倍参数量模型使用评分标准时的性能。本研究证明,在评分增强验证中激发深度协作,能以可扩展方式使奖励模型变得更可信赖。