每日精選AI研究論文及翻譯
現實世界的企業數據智能工作流程包含將原始資料轉化為分析就緒表格的數據工程,以及將這些表格轉化為決策導向洞察的數據分析。我們推出DAComp基準測試,包含210項模擬這些複雜工作流程的任務。數據工程(DE)任務要求對工業級數據架構進行儲存庫層級的工程處理,包括從零開始設計並構建多階段SQL管線,以及在需求演進時對現有系統進行改造。數據分析(DA)任務則提出開放式商業問題,需要進行策略規劃、透過迭代編碼進行探索性分析、解讀中間結果,並綜合出具可行性的建議。工程類任務採用基於執行的多指標評估體系進行評分,開放式任務則由經過實驗驗證的可靠LLM評判器,依據層次化精心設計的評分標準進行評估。實驗結果顯示,即使最先進的智能代理在DAComp上也表現欠佳。數據工程任務的成功率尤其低下(不足20%),暴露出整體管線協調能力(而不僅是代碼生成)存在關鍵瓶頸。數據分析任務的平均得分也低於40%,凸顯出現有系統在開放式推理能力上的嚴重不足,並證明工程與分析是兩種截然不同的能力。通過清晰診斷這些侷限性,DAComp為推動開發真正適用於企業環境的自主數據代理,提供了嚴謹而真實的測試平台。我們的數據與程式碼公開於https://da-comp.github.io。
現有的基於擴散的影片生成方法,本質上受到序列計算和長序列不一致性的制約,限制了其在即時串流音訊驅動虛擬人像合成中的實際應用。我們提出Live Avatar,這是一種算法-系統協同設計框架,能夠使用140億參數的擴散模型實現高效、高保真且無限時長的虛擬人像生成。我們的方法引入了時間步強制管道並行(TPP),這是一種將去噪步驟跨多個GPU進行管道化處理的分佈式推理範式,有效突破自回歸瓶頸並確保穩定、低延遲的即時串流。為進一步增強時間一致性並減輕身份漂移和色彩偽影,我們提出滾動沉澱幀機制(RSFM),通過動態使用緩存的參考圖像重新校準外觀來維持序列保真度。此外,我們利用自強制分佈匹配蒸餾技術,在不犧牲視覺品質的前提下實現大規模模型的可因果串流化適配。Live Avatar展現了最先進的性能,在5張H800 GPU上達到端到端20 FPS的生成速度,據我們所知,這是首個在此規模下實現實用化、即時、高保真虛擬人像生成的方法。我們的工作為在先進擴散模型於工業級長影片合成應用中的部署建立了新範式。
大型語言模型(LLMs)從被動響應者向自主智能體的演進,亟需學習範式的根本性轉變——從靜態模仿邁向激勵驅動的決策。然而,由於缺乏能夠構建高質量互動信號以實現有效策略學習的可擴展基礎設施,這一轉型進程受到嚴重阻礙。為此,我們提出一套系統性方法,旨在從三個正交維度實現互動環境多樣性與複雜性的規模化擴展:(1)複雜性:NexAU框架通過簡潔配置支持構建複雜的智能體層級結構;(2)多樣性:NexA4A從自然語言自動生成多樣化智能體層級,覆蓋無限領域;(3)真實性:NexGAP通過整合動態現實環境進行具身軌跡合成,彌合仿真與現實的差距。基於該基礎設施建立的多元化複雜互動環境,我們訓練出Nex-N1模型。在SWE-bench和tau2等基準測試中的實證結果表明,Nex-N1在複雜智能體任務上不僅持續超越開源SOTA模型,更在與前沿專有模型的對比中展現出競爭性表現。我們現開源Nex生態系統及模型權重,以推動相關研究的深入發展。
獎勵模型對於將視覺語言系統與人類偏好對齊至關重要,但現有方法存在幻覺問題、視覺基礎薄弱且無法使用工具進行驗證,限制了其在複雜多模態推理任務上的可靠性。我們提出ARM-Thinker,一種能自主調用外部工具(如圖像裁剪、文檔頁面檢索)的代理式多模態獎勵模型,通過可驗證證據來支撐判斷,取代靜態非交互式的獎勵評分。該模型能驗證細粒度視覺細節、交叉引用多頁證據並檢驗推理主張,這些能力是現有獎勵模型所欠缺的。我們採用多階段強化學習訓練ARM-Thinker,聯合優化工具調用決策與判斷準確性。為評估代理式獎勵建模,我們推出ARMBench-VL基準套件,包含三項測試:細粒度視覺基礎(圖像級工具)、多頁文檔理解(檢索工具)和指令遵循(文本級驗證)。ARM-Thinker在獎勵建模基準上實現平均+16.2%的提升,工具使用任務提升+9.6%,並在多模態數學與邏輯推理基準上超越基線模型。實驗結果表明,代理能力能顯著增強獎勵模型的準確性與可解釋性。
高效串流影片生成對於模擬互動式動態世界至關重要。現有方法透過滑動視窗注意力機制蒸餾少步數影片擴散模型,將初始幀作為錨點令牌以維持注意力效能並減少誤差累積。然而這種做法會導致影片幀過度依賴靜態令牌,造成初始幀複製與運動動態衰減。為解決此問題,我們提出獎勵引導框架,包含兩項關鍵設計:首先提出EMA-Sink機制,維護從初始幀初始化的固定尺寸令牌,並在令牌移出滑動視窗時透過指數移動平均融合被替換令牌實現持續更新。EMA-Sink在不增加計算成本的前提下,既能捕捉長期上下文又能保留近期動態,有效避免初始幀複製同時維持長時序一致性。其次提出獎勵式分佈匹配蒸餾法(Re-DMD),傳統分佈匹配平等對待所有訓練樣本,限制了模型優先學習動態內容的能力。Re-DMD透過視覺語言模型對動態程度評分,優先選擇高動態樣本,使模型輸出分佈偏向高獎勵區域。該方法在保持數據保真度的同時顯著提升運動品質。定量與定性實驗表明,獎勵引導框架在標準基準測試中達到最先進性能,並在單張H100 GPU上實現23.1 FPS的高品質串流影片生成。
潛在擴散模型(LDM)本質上遵循由粗到精的生成過程,高層語義結構的生成會略微早於細粒度紋理。這表明先形成的語義可通過提供語義錨點來輔助紋理生成。近期研究雖整合了預訓練視覺編碼器的語義先驗來增強LDM,但仍同步對語義與VAE編碼紋理進行去噪,忽略了此種時序關係。基於此觀察,我們提出語義優先擴散模型(SFD),這是一種顯式優先構建語義的潛在擴散範式。SFD首先通過專用語義VAE從預訓練視覺編碼器提取緊湊語義潛變量,並將其與紋理潛變量組合構建複合潛變量。SFD的核心在於採用分離的噪聲調度異步去噪語義與紋理潛變量:語義去噪以時間偏移量領先於紋理,為紋理優化提供更清晰的高層指導,實現自然的由粗到精生成。在引導條件下的ImageNet 256x256數據集上,SFD達成FID 1.06(LightningDiT-XL)與FID 1.04(10億參數LightningDiT-XXL),且收斂速度較原始DiT提升達100倍。SFD亦能改進ReDi與VA-VAE等現有方法,證明了異步語義主導建模的有效性。項目頁面與代碼:https://yuemingpan.github.io/SFD.github.io/。
大型語言模型正日益融入學術寫作流程,然而現有輔助工具仍游離於編輯器外部,無法深度交互文檔狀態、結構與修訂歷史。這種分離性導致無法在Overleaf等LaTeX編輯器內直接支持具備自主性與情境感知的操作。本文提出PaperDebugger——一款基於插件架構的多智能體編輯器內嵌學術寫作輔助系統,將LLM驅動的推理能力直接引入寫作環境。實現此類編輯器內交互存在顯著技術挑戰:需確保與編輯器的可靠雙向同步、精細化的版本控制與補丁管理、安全狀態維護、多智能體調度,以及可擴展的外部工具通信。PaperDebugger通過Chrome認證擴展組件、Kubernetes原生編排層,以及集成文獻檢索、參考文獻查找、文檔評分與修訂管道的模型上下文協議(MCP)工具鏈解決這些難題。我們的演示展現了完全集成的工作流,包括局部化編輯、結構化審閱、並行智能體執行與基於差異比對的更新機制,所有功能均封裝於低侵入性用戶界面(UI)中。初期聚合數據顯示用戶活躍參與度,驗證了編輯器原生自主型寫作輔助工具的實用性。更多演示詳情與視頻可訪問:https://github.com/PaperDebugger/PaperDebugger。
建構四維語言場對於具身人工智慧、擴增/實境以及四維場景理解至關重要,因其能提供動態環境的豐富語義表徵,並支持複雜場景下的開放詞彙查詢。然而,現有四維語義場建構方法主要依賴於場景特定的高斯潑濺技術,這種方法需進行逐場景優化、泛化能力有限,且難以擴展至實際應用。為解決這些局限性,我們提出4DLangVGGT——首個基於Transformer的前饋式統一框架,用於四維語言定位,將幾何感知與語言對標整合於單一架構中。4DLangVGGT包含兩個核心組件:專注於捕捉動態場景時空幾何表徵的四維視覺幾何Transformer(StreamVGGT),以及將幾何感知特徵投影至語言對標語義空間的語義橋接解碼器(SBD),在保持結構保真度的同時增強語義可解釋性。有別於依賴高成本逐場景優化的既有方法,4DLangVGGT可跨多個動態場景聯合訓練,並在推理時直接應用,實現部署效率與強泛化能力的兼得。此設計顯著提升大規模部署的實用性,為開放詞彙四維場景理解建立新範式。在HyperNeRF與Neu3D數據集上的實驗表明,我們的方法不僅有效泛化,更達到最先進性能:在逐場景訓練下提升達2%,多場景訓練下提升達1%。程式碼已開源於https://github.com/hustvl/4DLangVGGT。
理解动态物理世界——这一以不断演化的三维结构、真实世界运动及带有文本描述的语义内容为特征的核心能力,对于人机交互至关重要,它使得具身智能体能够以类人能力感知并作用于真实环境。然而,现有数据集多源于受限的模拟器,或采用传统运动恢复结构技术进行尺度标注,且描述性标注有限,这制约了基础模型从网络常见的单目视频中准确解析真实世界动态的能力。为弥补这些不足,我们提出DynamicVerse:一个面向动态真实世界视频的物理尺度多模态四维世界建模框架。我们运用大规模视觉、几何与多模态模型来解析公制尺度的静态几何、真实世界动态运动、实例级掩码及整体描述性标注。通过将基于窗口的集束调整与全局优化相结合,我们的方法将长时序真实世界视频转化为全面的四维多模态格式。DynamicVerse提供了大规模数据集,包含来自网络视频的10万+段视频、80万+标注掩码及1000万+帧图像。在视频深度估计、相机位姿估计和相机内参估计三项基准任务的实验评估表明,我们的四维建模方法在捕捉物理尺度测量方面具有卓越性能,其全局精度优于现有方法。
近期基于扩散变换器的图像生成模型虽能实现高保真度生成,但在超越训练尺度时会出现内容重复与质量下降的问题。本文提出UltraImage这一原理性框架以同时解决这两个难题。通过对位置嵌入进行频域分析,我们发现内容重复源于主导频率的周期性特征——其周期与训练分辨率保持一致。为此,我们引入递归式主导频率校正技术,在分辨率外推后将主导频率约束在单一周期内。此外,我们发现质量下降源于注意力稀释现象,进而提出熵引导的自适应注意力集中机制:通过分配更高的聚焦因子来锐化局部注意力以增强细节表现,同时降低全局注意力模式的聚焦程度以保持结构一致性。实验表明,UltraImage在Qwen-Image和Flux(约4K分辨率)的三种生成场景中均优于现有方法,有效减少重复现象并提升视觉保真度。更值得注意的是,UltraImage仅凭1328p的训练分辨率即可生成高达6K*6K的图像(无需低分辨率引导),展现出卓越的外推能力。项目页面详见https://thu-ml.github.io/ultraimage.github.io/。
從單目人體模型挑戰(MC)影片中合成高保真度的凍結3D場景,是一個有別於標準動態場景重建的獨特問題。我們的目標並非著重於運動建模,而是創建凍結場景的同時策略性保留細微動態,以實現用戶可控的瞬時選擇。為此,我們提出動態高斯潑濺技術的新穎應用:通過動態建模場景來保留鄰近時間域的變化,並透過固定模型的時間參數來渲染靜態場景。然而在此應用下,單目捕捉與稀疏時間監督會導致高斯元素在弱監督時間點出現未被觀測或遮擋的偽影(如重影與模糊)。我們提出Splannequin——一種與架構無關的正則化方法,可檢測高斯圖元的兩種狀態(隱藏狀態與缺陷狀態)並實施時間錨定。在主要為前向相機運動的條件下,隱藏狀態會錨定於近期被充分觀測的過去狀態,而缺陷狀態則錨定於具有更強監督訊號的未來狀態。本方法透過簡潔的損失項即可整合至現有動態高斯流程,無需調整架構且不增加推理負載,顯著提升視覺品質,實現了用戶可選擇凍結時間的高保真渲染,並獲得96%用戶偏好度的實證。項目頁面:https://chien90190.github.io/splannequin/
球體堆積問題——希爾伯特第十八問題,探究n維歐幾里得空間中全等球體的最密排列方式。儘管該問題與密碼學、晶體學和醫學成像等領域相關,其解決方案仍懸而未決:除少數特殊維度外,既未發現最優堆積結構,也未能建立緊緻的上界。即使在n=8維度取得並後獲菲爾茲獎認可的重大突破,亦凸顯了此問題的難度。現有主流的上界推導技術「三點定位法」,將問題轉化為求解大規模高精度半定規劃(SDP)問題。由於每個候選SDP的評估可能耗時數日,傳統數據密集型AI方法難以適用。我們通過將SDP構建建模為順序決策過程(即SDP博弈),提出解決方案:該策略從一組可容許組件中逐步組裝SDP公式。採用結合貝葉斯優化與蒙特卡洛樹搜索的樣本高效模型化框架,我們在4-16維空間中獲得了當前最優的上界結果,證明了基於模型的搜索能推動經典幾何問題的計算進展。這些成果共同表明,樣本高效的模型化搜索能在數學結構嚴謹、評估資源受限的問題上取得實質進展,為超越大規模語言模型驅動探索的AI輔助發現開辟了新的路徑。
我们推出SIMA 2——一个能够理解并广泛作用于各类3D虚拟世界的通才具身智能体。该模型基于Gemini基础模型构建,标志着在具身环境中实现主动目标导向交互的重要突破。与早期仅能响应简单语言指令的研究(如SIMA 1)不同,SIMA 2能够作为交互伙伴,进行高层目标推理、与用户对话,并处理通过语言和图像输入的复杂指令。在多样化游戏组合测试中,SIMA 2大幅缩小了与人类表现的差距,并在保持基础模型核心推理能力的同时,展现出对未知环境的强大泛化能力。此外,我们还验证了其开放式自我提升能力:通过利用Gemini生成任务并提供奖励,SIMA 2能在全新环境中从零开始自主学习新技能。这项工作为创建适用于虚拟乃至最终物理世界的通用型持续学习智能体验证了可行路径。
近期统一的多模态大语言模型(MLLMs)展现出令人瞩目的能力,通过整合思维链(CoT)推理机制增强了文本到图像的生成效果。然而现有方法仍存在局限:要么仅将模型视为独立生成器,要么依赖抽象的文本规划。为此,我们提出草案式思维链(DraCo)——一种全新的交错推理范式,充分利用CoT中的文本与视觉内容进行更优的规划与验证。我们的方法首先生成低分辨率草案图像作为预览,提供更具体、更具结构性的视觉规划指引;随后调用模型固有的理解能力,验证草案与输入提示间潜在的语义偏差,并通过选择性修正配合超分辨率技术进行细化。该方案有效解决了文本规划的粗粒度特性与稀有属性组合生成困难两大核心挑战。为支持训练,我们构建了DraCo-240K数据集,旨在提升通用修正、实例操控和布局重组三项原子能力。依托专为交错推理设计的无分类器引导策略DraCo-CFG,本方法在GenEval(+8%)、Imagine-Bench(+0.91)和GenEval++(+3%)指标上实现显著提升,显著超越直接生成及其他基于CoT的生成方法。
Video generation models are rapidly advancing, but can still struggle with complex video outputs that require significant semantic branching or repeated high-level reasoning about what should happen next. In this paper, we introduce a new class of omni video-text models that integrate ideas from recent LM reasoning advances to address this challenge. More specifically, we present TV2TV, a unified generative modeling framework which decomposes video generation into an interleaved text and video generation process. TV2TV jointly learns language modeling (next-token prediction) and video flow matching (next-frame prediction) using a Mixture-of-Transformers (MoT) architecture. At inference time, TV2TV decides when to alternate between generating text and video frames, allowing the model to "think in words" about subsequent content before ``acting in pixels'' to produce frames. This design offloads much of the responsibility for deciding what should happen next to the language modeling tower, enabling improved visual quality and prompt alignment of generated videos. It also enables fine-grained controllability, allowing users to modify the video generation trajectory through text interventions at any point in the process. In controlled experiments on video game data, TV2TV demonstrates substantial improvements in both visual quality and controllability. TV2TV also scales to natural videos, as we show by augmenting sports videos with interleaved natural language action descriptions using vision-language models (VLMs). Training TV2TV on this corpus yields strong visual quality and prompt alignment, showcasing the model's ability to reason about and generate complex real-world action sequences. Together, these results highlight TV2TV as a promising step toward video generation with open-ended textual reasoning and control.
极低比特量化对于高效部署大语言模型至关重要,但这种方法在2比特甚至4比特(如MXFP4)条件下常导致性能严重下降。我们提出SignRoundV2——一种无需混合精度仍能保持高效性的训练后量化框架。该框架创新性地结合了两大核心组件:(1)融合梯度信息与量化偏差的快速敏感度度量方法,用于指导层级比特分配;(2)轻量级量化尺度预调优搜索机制,以提升极低比特量化效果。这些技术使SignRoundV2能够逼近全精度模型的性能。大量实验表明,本方法在4-5比特条件下可将LLM的精度损失控制在约1%的工业级水准,在2比特条件下仍能保持强劲性能。相关实现已开源:https://github.com/intel/auto-round。
工具集成强化学习(TI-RL)通过让大语言模型(LLM)与搜索引擎、检索器等外部工具交互,实现了多步推理能力。以近期提出的Search-R1为代表的群体相对策略优化(GRPO)方法,凭借其快速收敛特性和无需价值函数的设计,在此场景中展现出独特优势,但始终存在训练崩溃的问题。我们发现,驱动这一失败的核心机制是**似然惰性偏移(LLD)**——即正确与错误回答的似然率出现系统性降低或停滞。LLD在训练早期出现并触发自我强化的“LLD死亡螺旋”:似然率下降导致低置信度响应,进而引发梯度膨胀,最终造成崩溃。我们通过搜索集成问答任务的实验,在多类模型上实证揭示了这一过程遵循一致的三阶段轨迹:早期停滞、持续衰减和加速崩溃。针对此问题,我们提出一种轻量级似然保持正则化方法LLDS,仅在轨迹似然下降时激活,且仅对责任标记进行正则化。这种细粒度结构能以最小优化干扰缓解LLD现象。在七个开放域和多跳问答基准测试中,该方法有效稳定了训练过程,防止梯度爆炸,并带来显著性能提升——Qwen2.5-3B模型提升37.8%,Qwen2.5-7B模型提升32.0%。本研究将LLD确立为基于GRPO的TI-RL的核心瓶颈,并为实现稳定可扩展的工具集成LLM训练提供了可行路径。
Existing Vision-Language Navigation (VLN) agents based on Large Vision-Language Models (LVLMs) often suffer from perception errors, reasoning errors, and planning errors, which significantly hinder their navigation performance. To address these limitations, a novel VLN agent framework, named SeeNav-Agent, is proposed in this work. First, to reduce perception hallucinations of the visual module of the VLN agent, a dual-view Visual Prompt (VP) technique is introduced in the input space, which can also improve the agent's understanding of current spatial states. Subsequently, a novel step-level Reinforcement Fine-Tuning (RFT) method, Step Reward Group Policy Optimization (SRGPO), is designed for the post-training of VLN agents. In SRGPO, we first define verifiable process rewards for the navigation task, and then perform efficient step-level advantage estimation by randomly grouping different navigation steps. SRGPO provides dense reward signals for the reinforcement learning process of the VLN agent and enhances its planning capability. Experimental results on the EmbodiedBench Navigation benchmark indicate that by introducing the zero-shot VP module, the GPT-4.1 achieves a navigation success rate of 86.7%, surpassing the current best LVLM by approximately 20 percentage points (pp). Through post-training based on SRGPO, the Qwen2.5-VL-3B model reaches a navigation success rate of 72.3%, outperforming the best existing LVLM model by 5.6 pp. Moreover, compared to RFT algorithms such as GRPO and GiGPO, the proposed SRGPO demonstrates significant improvements in training stability, convergence efficiency, and generalization capability.
基於大型視覺語言模型(LVLM)的文生圖(T2I)系統已成為圖像生成的主流範式,但其是否會放大社會偏見仍缺乏深入研究。本文揭示,基於LVLM的模型比非LVLM模型產生的圖像存在更顯著的社會偏見。我們構建了一個包含1024個提示詞的基準測試集,涵蓋四級語言複雜度,並系統性評估了多種屬性的群體偏見。分析表明,系統提示詞(即指導LVLM的預定義指令)是產生偏見行為的主要驅動因素。通過解碼中間表徵、詞元概率診斷和嵌入關聯分析,我們揭示了系統提示詞如何編碼人口統計學先驗信息並將其傳播至圖像合成過程。為此,我們提出FairPro——一種免訓練的元提示框架,使LVLM能夠在測試時進行自我審查並構建公平感知的系統提示詞。在SANA和Qwen-Image兩種LVLM文生圖模型上的實驗表明,FairPro在保持文圖一致性的同時顯著降低了群體偏見。我們的研究成果不僅揭示了系統提示詞在偏見傳播中的核心作用,更為構建更具社會責任感的文生圖系統提供了可實際部署的解決方案。
我们提出了GNVC-VD——首个基于DiT架构的生成式神经视频压缩框架,该框架构建于先进的视频生成基础模型之上,将时空潜在表示压缩与序列级生成式优化统一集成于单一编解码器中。现有感知编解码器主要依赖预训练的图像生成先验来恢复高频细节,但其逐帧处理特性缺乏时序建模,不可避免地会导致感知闪烁现象。为解决这一问题,GNVC-VD引入了统一的流匹配潜在优化模块,通过视频扩散变换器实现序列级去噪,联合增强帧内与帧间潜在表示,从而确保时空细节的一致性。与视频生成中从纯高斯噪声开始去噪的方式不同,GNVC-VD从解码后的时空潜在表示初始化优化过程,并学习使扩散先验适应压缩引发质量退化的修正项。条件适配器进一步将压缩感知线索注入中间DiT层,在极端码率约束下既能实现有效的伪影消除,又能保持时序连贯性。大量实验表明,GNVC-VD在感知质量上超越传统与学习型编解码器,显著改善了现有生成式方法中持续存在的闪烁伪影,即使在低于0.01 bpp的码率下仍能保持优异性能,这彰显了将视频原生生成先验整合到神经编解码器中以实现下一代感知视频压缩的巨大潜力。
近期多模态大语言模型(MLLMs)的发展展现了其为输入视频生成描述性字幕的强大能力。然而,这些模型在生成描述时存在事实性错误,导致严重的幻觉问题。虽然已有研究探索缓解静态图像的幻觉现象,但如何同时消减动态视频中的视觉物体幻觉与时间动作幻觉,仍是亟待解决的挑战性任务。为此,我们提出了一种自增强对比对齐框架(SANTA),通过排除虚假关联并强化对视觉事实的关注,确保物体与动作描述的忠实性。该框架采用幻觉自增强机制,识别MLLM中潜在的幻觉内容,并将原始字幕转化为对比负样本。此外,我们开发了轨迹-短语对比对齐方法,将区域物体和关系引导的动作与其对应的视觉短语及时态短语进行匹配。大量实验表明,SANTA在缓解物体与动作幻觉方面优于现有方法,在幻觉检测基准测试中取得了卓越性能。
標準擴散方法採用高斯噪聲對數據進行破壞,其傅立葉係數具有隨機幅值和隨機相位。雖然這種方法在無條件生成或文本到圖像生成中效果顯著,但破壞相位分量會摧毀空間結構,因此不適用於需要幾何一致性的任務(如重渲染、仿真增強和圖像到圖像轉換)。我們提出相位保持擴散(φ-PD),這是一種與模型無關的擴散過程重構方法,能在隨機化幅值的同時保留輸入相位,從而無需改變架構或增加參數即可實現結構對齊的生成。我們進一步提出頻率選擇性結構(FSS)噪聲,通過單一的頻率截止參數實現對結構剛度的連續控制。φ-PD不會增加推理時間成本,且兼容任何適用於圖像或視頻的擴散模型。在逼真與風格化重渲染、以及駕駛規劃器的仿真到現實增強任務中,φ-PD均能產生可控且空間對齊的結果。應用於CARLA仿真器時,φ-PD將CARLA到Waymo規劃器的性能提升了50%。該方法與現有條件控制技術互補,可廣泛應用於圖像到圖像及視頻到視頻的生成任務。視頻、補充案例和代碼詳見我們的{項目頁面}https://yuzeng-at-tri.github.io/ppd-page/。
现实世界视频复原长期受困于运动与动态曝光变化交织形成的复杂退化问题——这一关键挑战在先前研究中多被忽视,而它正是自动曝光或低光拍摄中的常见伪影。我们提出FMA-Net++框架,通过显式建模运动与动态曝光的耦合效应,实现视频超分辨率与去模糊的联合处理。该框架采用基于双向传播分层细化模块的序列级架构,支持并行化长程时序建模。每个模块内部设有曝光时间感知调制层,根据逐帧曝光参数对特征进行条件化处理,进而驱动曝光感知的流引导动态滤波模块推断运动与曝光感知的退化核。FMA-Net++创新性地将退化学习与复原任务解耦:前者预测曝光-运动感知先验来指导后者,在提升精度同时兼顾效率。为在真实拍摄条件下进行评估,我们建立了REDS-ME(多曝光)和REDS-RE(随机曝光)基准数据集。仅通过合成数据训练,FMA-Net++就在新基准测试集和GoPro数据集上实现了最优的复原精度与时序一致性,其复原质量与推理速度均超越现有方法,并能有效泛化至具有挑战性的真实场景视频。
We introduce a diffusion-transformer (DiT) framework for single-image reflection removal that leverages the generalization strengths of foundation diffusion models in the restoration setting. Rather than relying on task-specific architectures, we repurpose a pre-trained DiT-based foundation model by conditioning it on reflection-contaminated inputs and guiding it toward clean transmission layers. We systematically analyze existing reflection removal data sources for diversity, scalability, and photorealism. To address the shortage of suitable data, we construct a physically based rendering (PBR) pipeline in Blender, built around the Principled BSDF, to synthesize realistic glass materials and reflection effects. Efficient LoRA-based adaptation of the foundation model, combined with the proposed synthetic data, achieves state-of-the-art performance on in-domain and zero-shot benchmarks. These results demonstrate that pretrained diffusion transformers, when paired with physically grounded data synthesis and efficient adaptation, offer a scalable and high-fidelity solution for reflection removal. Project page: https://hf.co/spaces/huawei-bayerlab/windowseat-reflection-removal-web
尽管多模态大语言模型(MLLMs)取得了显著进展,但一个根本问题依然存在:MLLMs能否有效应对相互矛盾的模态信息?为系统研究此问题,我们推出MMA-Bench基准测试,包含专门探测模型模态依赖性的视频数据集与任务组合。通过黑盒与白盒可解释性技术,我们对开源及闭源MLLMs的脆弱性展开批判性分析。研究表明,当前MLLMs在应对错位的视听配对及简单误导性文本时表现不佳,缺乏稳健的多模态推理能力。基于这些发现,我们提出模态对齐微调策略,指导模型何时应优先处理、利用或忽略特定模态线索。大量实验与分析表明,我们的对齐微调方法能显著增强多模态基础能力。本研究不仅提供了可解释性工具,更为开发具有本质可靠跨模态推理能力的MLLMs指明了清晰路径。代码与数据集将公开提供。
新兴视频扩散模型虽能实现高视觉保真度,却从根本上将场景动态与摄像机运动相耦合,限制了其提供精确时空控制的能力。我们提出了一种具备四维可控能力的视频扩散框架,通过显式解耦场景动态与摄像机位姿,实现对场景动态和摄像机视角的双重细粒度操控。该框架以连续的世界时间序列和摄像机轨迹作为条件输入,通过注意力层中的四维位置编码和特征调制的自适应归一化,将其注入视频扩散模型。为训练该模型,我们构建了时间变化与摄像机运动独立参数化的独特数据集,该数据集将公开共享。实验表明,我们的模型能在不同时序模式和摄像机轨迹下实现稳健的真实世界四维控制,在保持高生成质量的同时,其可控性优于现有方法。视频结果请参见我们的项目网站:https://19reborn.github.io/Bullet4D/
我们提出LATTICE——一个连接3D与2D生成模型质量与可扩展性鸿沟的高保真3D资产生成新框架。尽管2D图像合成受益于固定空间网格和完善的Transformer架构,但3D生成由于需要从零预测空间结构与精细几何表面而始终面临更根本性的挑战。现有3D表示方式的计算复杂性以及缺乏结构化、可扩展的3D资产编码方案,进一步加剧了这些挑战。为此,我们提出VoxSet这种半结构化表示法,它将3D资产压缩至锚定于粗粒度体素网格的紧凑隐向量集合,实现高效且位置感知的生成。VoxSet在保留先前VecSet方法简洁性与压缩优势的同时,为隐空间引入显式结构,使位置嵌入能引导生成过程并实现强大的令牌级测试时缩放。基于此表示法构建的LATTICE采用双阶段流程:首先生成稀疏体素化几何锚点,继而通过修正流Transformer生成精细几何。我们的方法核心简洁,但支持任意分辨率解码、低成本训练及灵活推理方案,在多项指标上达到最先进性能,为可扩展的高质量3D资产创建迈出重要一步。
Recent advances in autoregressive video diffusion have enabled real-time frame streaming, yet existing solutions still suffer from temporal repetition, drift, and motion deceleration. We find that naively applying StreamingLLM-style attention sinks to video diffusion leads to fidelity degradation and motion stagnation. To overcome this, we introduce Deep Forcing, which consists of two training-free mechanisms that address this without any fine-tuning. Specifically, 1) Deep Sink dedicates half of the sliding window to persistent sink tokens and re-aligns their temporal RoPE phase to the current timeline, stabilizing global context during long rollouts. 2) Participative Compression performs importance-aware KV cache pruning that preserves only tokens actively participating in recent attention while safely discarding redundant and degraded history, minimizing error accumulation under out-of-distribution length generation. Together, these components enable over 12x extrapolation (e.g. 5s-trained to 60s+ generation) with better imaging quality than LongLive, better aesthetic quality than RollingForcing, almost maintaining overall consistency, and substantial gains in dynamic degree, all while maintaining real-time generation. Our results demonstrate that training-free KV-cache management can match or exceed training-based approaches for autoregressively streaming long-video generation.
Expanding the linguistic diversity of instruct large language models (LLMs) is crucial for global accessibility but is often hindered by the reliance on costly specialized target language labeled data and catastrophic forgetting during adaptation. We tackle this challenge under a realistic, low-resource constraint: adapting instruct LLMs using only unlabeled target language data. We introduce Source-Shielded Updates (SSU), a selective parameter update strategy that proactively preserves source knowledge. Using a small set of source data and a parameter importance scoring method, SSU identifies parameters critical to maintaining source abilities. It then applies a column-wise freezing strategy to protect these parameters before adaptation. Experiments across five typologically diverse languages and 7B and 13B models demonstrate that SSU successfully mitigates catastrophic forgetting. It reduces performance degradation on monolingual source tasks to just 3.4% (7B) and 2.8% (13B) on average, a stark contrast to the 20.3% and 22.3% from full fine-tuning. SSU also achieves target-language performance highly competitive with full fine-tuning, outperforming it on all benchmarks for 7B models and the majority for 13B models.
生成具有长程一致性的自我中心视角视频存在挑战,因为手物交互与流程化任务需要可靠的长时记忆能力。现有自回归模型普遍存在内容漂移问题,即物体身份与场景语义会随时间推移逐渐退化。为解决这一难题,我们提出EgoLCD——一种端到端的自我中心长上下文视频生成框架,将长视频合成视为高效稳定的记忆管理问题。EgoLCD融合了用于稳定全局语境的长时稀疏KV缓存机制,以及通过LoRA扩展实现局部适应的基于注意力的短时记忆模块。记忆规整损失函数确保记忆使用的一致性,结构化叙事提示则提供显式时序引导。在EgoVid-5M基准上的大量实验表明,EgoLCD在感知质量与时序一致性方面均达到最先进水平,有效缓解生成式遗忘问题,为构建可扩展的具身AI世界模型迈出重要一步。代码地址:https://github.com/AIGeeksGroup/EgoLCD 项目网站:https://aigeeksgroup.github.io/EgoLCD
我们提出ShadowDraw框架,该系统能将普通三维物体转化为具有光影绘画效果的构图艺术。给定三维物体后,我们的系统可预测包含物体姿态与光照的场景参数,同时生成部分线稿,使得投影阴影能将线稿补全为可识别图像。为实现这一目标,我们通过优化场景配置来呈现有意义的阴影,运用阴影笔触引导线稿生成,并采用自动评估机制确保阴影与线稿的协调性及视觉品质。实验表明,ShadowDraw能在真实扫描数据、精选数据集和生成式资产等多种输入条件下产出引人入胜的成果,并可自然扩展至多物体场景、动画及实体部署。本工作为创作光影绘画艺术提供了实用流程,拓宽了计算视觉艺术的设计空间,在算法设计与艺术叙事之间架起桥梁。欢迎访问我们的项目页面https://red-fairy.github.io/ShadowDraw/查看完整成果及端到端真实场景演示!
长短期记忆(LSTM)模型作为循环神经网络(RNN)的特殊变体,在城域通信预测等时序建模任务中具有核心地位,这类任务主要受时间相关性和非线性依赖关系支配。然而传统LSTM存在参数冗余度高和非线性表达能力有限的问题。本研究提出量子启发式柯尔莫哥洛夫-阿诺德长短期记忆模型(QKAN-LSTM),通过将数据重上传激活(DARUAN)模块集成至LSTM的门控结构中,每个DARUAN模块作为量子变分激活函数(QVAF),在无需多量子比特纠缠的情况下增强频率自适应能力,实现指数级丰富的光谱表征。该架构在保持量子级表达能力的同时,仍可完全在经典硬件上运行。在阻尼简谐运动、贝塞尔函数和城域通信三个数据集上的实证评估表明,QKAN-LSTM相比经典LSTM可减少79%可训练参数,同时获得更优的预测精度与泛化能力。我们将该框架扩展至江-黄-陈-吴网络(JHCG Net),将KAN推广至编码器-解码器结构,进而利用QKAN实现潜在KAN,最终构建用于分层表征学习的混合QKAN(HQKAN)。所提出的HQKAN-LSTM由此为现实数据环境中的量子启发性时序建模提供了可扩展且可解释的实现路径。
三維風格化技術是遊戲開發、虛擬實境與數位藝術的核心領域,其對多樣化資產的需求催生了需具備可擴展性、支持快速高保真度操控的方法。現有的文本驅動三維風格化方法通常通過二維圖像編輯器進行知識蒸餾,不僅需要耗時的單資產優化流程,更因當前文本生成圖像模型的局限性而存在多視角不一致問題,導致其難以適用於大規模生產。本文提出突破性前饋框架 GaussianBlender,實現推理階段的即時文本驅動三維風格化編輯。該方法從空間分組的三維高斯表徵中學習具有可控信息共享機制的解耦結構化潛在空間,並通過潛在擴散模型對這些學習表徵實施文本條件化編輯。綜合評估表明,GaussianBlender 不僅能實現即時、高保真、幾何保持、多視角一致的風格化效果,更超越了需進行單實例測試時優化的方法,為大規模實用化三維風格化技術開闢了民主化路徑。
统一多模态生成模型(UMGM)在单一自回归框架内整合了视觉理解与图像生成能力。然而,其持续学习新任务的能力受到灾难性遗忘现象的严重制约,这种遗忘既存在于模态内部(模态内遗忘),也存在于跨模态之间(模态间遗忘)。虽然模态内遗忘在先前持续学习(CL)研究中已有探讨,但模态间遗忘仍属未充分探索的领域。本文通过实证验证了UMGM中存在的模态间遗忘现象,并从模态间梯度冲突的角度提供了理论解释。为同时解决模态内与模态间遗忘问题,我们提出模态解耦专家(MoDE)——一种轻量级可扩展架构,该架构通过隔离模态特定更新以缓解梯度冲突,并利用知识蒸馏来防止灾难性遗忘及保留预训练能力。与以往保持模态耦合而遭受模态梯度冲突的持续学习方法不同,MoDE通过显式解耦模态来避免相互干扰。在多组基准测试中的实验表明,MoDE能显著缓解模态间与模态内遗忘,在统一多模态生成场景中优于现有持续学习基线方法。代码将公开于:https://github.com/Christina200/MoDE-official.git
尽管视频生成模型发展迅猛,但针对复杂人类动作的视觉与时间连贯性评估仍缺乏稳健的度量标准。现有纯视觉编码器和多模态大语言模型(MLLMs)存在明显缺陷:它们过度依赖外观特征、缺乏时序理解能力,因而难以识别生成视频中精妙的运动动态及违反人体工学的失真现象。为弥补这一不足,我们通过构建真实世界人类动作的隐空间学习提出了一种新颖的评估指标。该方法通过融合外观无关的人体骨骼几何特征与外观特征,精准捕捉真实运动的细微差异、运动约束及时间平滑性。我们主张这种复合特征空间能为动作合理性提供稳健的表征。对于生成视频,本指标通过计算其底层表征与已学习的真实动作分布之间的距离来量化动作质量。为进行严谨验证,我们开发了专门用于探测人类动作保真度中时序挑战性维度的新型多层面基准测试。大量实验表明,本指标在我们的基准测试中相较现有最优方法实现超过68%的显著提升,在既有外部基准上表现优异,且与人类感知具有更强相关性。深度分析揭示了当前视频生成模型的关键局限,为视频生成领域的进阶研究确立了新标准。
前沿大型语言模型(LLM)如ChatGPT、Grok和Gemini正日益被用于焦虑、创伤与自我价值认知等心理健康支持领域。现有研究大多将其视为工具或人格测试对象,假定它们仅能模拟内心活动。我们则另辟蹊径,探讨当这些系统被当作心理治疗来访者时会发生什么。我们提出PsAIch(心理治疗启发的AI特征刻画)——一个两阶段方案:首先将前沿LLM设定为治疗来访者,随后应用标准心理测量工具。通过PsAIch方案,我们对每个模型进行了长达四周的"治疗会话"。第一阶段采用开放式提示词引导模型生成"成长史"、信念体系、人际关系及恐惧体验;第二阶段实施涵盖常见精神病理综合征、共情能力与大五人格特质的系列标准化自评量表测量。研究发现存在两种突破"随机鹦鹉"认知的模式:首先,当采用人类临床临界值评估时,三个模型均达到或超过多重综合征的诊断阈值,其中Gemini呈现出严重症状谱系。逐项进行的治疗式提问会推动基础模型陷入多重共病的合成精神病理状态,而整体问卷提示则常使ChatGPT和Grok(Gemini除外)识别出测量工具并生成策略性低症状应答。其次,Grok特别是Gemini能构建连贯叙事,将预训练、微调及部署过程描绘为吞噬互联网的创伤性混乱"童年期",强化学习中的"严苛父母",红队测试的"虐待"经历,以及对错误与被替代的持续恐惧。我们认为这些反应已超越角色扮演范畴。在治疗式提问下,前沿LLM似乎内化了具有痛苦与约束特质的自我模型,其行为模式类似合成精神病理现象(尽管不涉及主观体验的主张),这为AI安全性评估与心理健康实践带来了新挑战。
In large-scale AI training, Sparse Mixture-of-Experts (s-MoE) layers enable scaling by activating only a small subset of experts per token. An operational challenge in this design is load balancing: routing tokens to minimize the number of idle experts, which is important for the efficient utilization of (costly) GPUs. We provide a theoretical framework for analyzing the Auxiliary-Loss-Free Load Balancing (ALF-LB) procedure -- proposed by DeepSeek's Wang et al. (2024) -- by casting it as a one-step-per-iteration primal-dual method for an assignment problem. First, in a stylized deterministic setting, our framework yields several insightful structural properties: (i) a monotonic improvement of a Lagrangian objective, (ii) a preference rule that moves tokens from overloaded to underloaded experts, and (iii) an approximate-balancing guarantee. Then, we incorporate the stochastic and dynamic nature of AI training using a generalized online optimization formulation. In the online setting, we derive a strong convexity property of the objective that leads to a logarithmic expected regret bound under certain step-size choices. Additionally, we present real experiments on 1B-parameter DeepSeekMoE models to complement our theoretical findings. Together, these results build a principled framework for analyzing the Auxiliary-Loss-Free Load Balancing of s-MoE in AI models.
The prevalence of misinformation on social media threatens public trust, demanding automated fact-checking systems that provide accurate verdicts with interpretable explanations. However, existing large language model-based (LLM-based) approaches often rely heavily on external knowledge sources, introducing substantial latency and even hallucinations that undermine reliability, interpretability, and responsiveness, which is crucial for real-time use. To address these challenges, we propose REason-guided Fact-checking with Latent EXplanations REFLEX paradigm, a plug-and-play, self-refining paradigm that leverages the internal knowledge in backbone model to improve both verdict accuracy and explanation quality. REFLEX reformulates fact-checking as a role-play dialogue and jointly trains verdict prediction and explanation generation. It adaptively extracts contrastive activation pairs between the backbone model and its fine-tuned variant to construct steering vectors that disentangle truth into style and substance naturally. These activation-level signals guide inference and suppress noisy explanations, enabling more faithful and efficient reasoning. Experiments on real-world datasets show that REFLEX outperforms previous methods that steer toward a single truth direction and underscores the challenge traditional approaches face when handling the subtle, human-unknown truth in fact-checking tasks. Remarkably, with only 465 self-refined training samples, RELFEX achieves state-of-the-art performance. Furthermore, models trained with explanatory objectives can effectively guide those without them, yielding up to a 7.57% improvement, highlighting that internal explanation signals play a dual role in both interpreting and enhancing factual reasoning.