每日精選AI研究論文及翻譯
隨著XR設備的日益普及,市場對高品質立體影片的需求激增,但其製作仍面臨成本高昂且易產生視覺瑕疵的挑戰。為解決此問題,我們提出StereoWorld——一個端到端的生成框架,通過重新調用預訓練的影片生成器實現高保真度的單目到立體影片轉換。該框架在將單目影片輸入作為聯合條件約束的同時,引入幾何感知正則化方法對生成過程進行顯式監督,以確保三維結構的準確性。此外,我們整合了時空分塊策略,實現高效的高解析度合成。為支持大規模訓練與評估,我們構建了高清立體影片數據集,包含超過1100萬幀符合人眼自然瞳距的對齊畫面。大量實驗表明,StereoWorld在視覺保真度與幾何一致性方面顯著優於現有方法,能生成更具優越性的立體影片。項目頁面請訪問:https://ke-xing.github.io/StereoWorld/。
近期擴散模型的進展大幅提升了圖像生成與編輯能力,然而生成或重建具有透明Alpha通道的分層PSD文件仍極具挑戰性。我們提出OmniPSD——一個基於Flux生態系統構建的統一擴散框架,通過情境學習實現文本到PSD生成與圖像到PSD分解的雙重功能。在文本到PSD生成任務中,OmniPSD將多個目標圖層空間排列於單一畫布,通過空間注意力機制學習其組合關係,生成語義連貫且具層次結構的圖層。對於圖像到PSD分解任務,該框架執行迭代式情境編輯,逐步提取並擦除文本與前景組件,從單張扁平化圖像重建可編輯的PSD圖層。我們採用RGBA-VAE作為輔助表徵模組,在不影響結構學習的前提下保持透明度特性。基於新建的RGBA分層數據集進行大量實驗表明,OmniPSD能實現高保真度生成、結構一致性與透明度感知,為擴散變換器在分層設計生成與分解領域開闢了新範式。
理解人類大腦如何表徵視覺概念,以及這些表徵在哪些腦區被編碼,始終是一項長期存在的挑戰。數十年的研究推進了我們對視覺表徵的認知,然而腦信號依然龐大而複雜,且可能的視覺概念空間極為廣闊。因此,大多數研究仍局限於小規模範疇,依賴人工檢驗,聚焦於特定腦區與屬性,且鮮少包含系統性驗證。本文提出一個大規模自動化框架,用於探索並解釋遍佈人類大腦皮層的視覺表徵。我們的方法包含兩個主要階段:首先,通過無監督的數據驅動分解方法,從功能性磁共振成像活動中發現候選的可解釋模式;接著,通過識別最能強烈激發各模式的自然圖像集,並生成描述其共享視覺意義的自然語言解釋,來闡明每個模式。為實現規模化處理,我們引入自動化流程,測試多個候選解釋、分配量化可靠性評分,並為每個體素模式選擇最一致的描述。該框架揭示了數千個可解釋模式,涵蓋眾多不同的視覺概念,包括以往未被報告的細粒度表徵。
視覺概念組合技術旨在將來自圖像與影片的不同元素整合為單一連貫的視覺輸出,但在精確提取視覺輸入中的複雜概念、以及靈活組合圖像與影片概念方面仍存在不足。我們提出Bind & Compose方法,透過將視覺概念與對應的提示詞符號綁定,並組合來自多來源的已綁定符號來構建目標提示,實現單次學習的靈活視覺概念組合。該方法採用分層綁定器結構,在擴散轉換器中進行跨注意力調控,將視覺概念編碼為對應提示詞符號,以實現複雜視覺概念的準確分解。為提升概念-符號綁定精度,我們設計了「多樣化吸收機制」,透過額外吸收符號在多元化提示詞訓練時消除概念無關細節的影響。為增強圖像與影片概念的相容性,我們提出「時間解耦策略」,透過雙分支綁定器結構將影片概念訓練解耦為兩個階段進行時間建模。實驗表明,本方法在概念一致性、提示詞保真度與動畫品質上均優於現有技術,為視覺創作開闢了新可能。
我們推出MotionEdit——一個專注於運動導向影像編輯的全新資料集,該任務旨在修改主體動作與互動關係,同時保持身分特徵、結構完整性與物理合理性。有別於現有聚焦靜態外觀調整或僅含稀疏低品質運動編輯的資料集,MotionEdit透過從連續影片提取並驗證的真實運動轉換,提供描繪高擬真度運動變化的影像配對。此新任務不僅具科學挑戰性,更擁有實際應用價值,能驅動如幀控影片合成與動畫生成等下游應用。 為評估模型在此新任務的表現,我們提出MotionEdit-Bench基準測試,透過生成式、判別式與偏好型指標,全面檢驗模型處理運動導向編輯的能力。基準結果顯示,現有基於擴散模型的頂尖編輯技術仍難以應對運動編輯挑戰。為此,我們設計MotionNFT(運動導向負向感知微調框架),此訓練後框架透過計算輸入影像與模型編輯影像間運動流與真實運動的匹配度,產生運動對齊獎勵信號,引導模型實現精準的運動轉換。在FLUX.1 Kontext與Qwen-Image-Edit上的大量實驗表明,MotionNFT能在不損害通用編輯能力的前提下,持續提升基礎模型於運動編輯任務的品質與運動擬真度,驗證其有效性。
思維鏈推理在自然語言處理領域解決複雜任務方面成效卓著,而近期多模態大型語言模型更將此範式延伸至影片推理領域。然而,這些模型通常依賴冗長的推理鏈與大量輸入視覺標記。基於基準研究的實證觀察,我們提出假設:結合精簡視覺標記的簡潔推理足以實現有效的影片推理。為驗證此假設,我們設計並驗證了一套高效的訓練後處理與推理框架,能增強影片多模態模型的推理能力。該框架使模型能對壓縮視覺標記進行運算,並在生成答案前建立簡明推理軌跡。實驗結果顯示,優化後的模型不僅顯著提升推理效率,在多項基準測試中展現競爭力,更無需依賴人工思維鏈註解或監督式微調。綜合而言,我們的研究表明,類人的冗長思維鏈推理或許非通用影片推理的必要條件,而簡潔推理既能保持效能又可提升效率。相關程式碼將於 https://github.com/LaVi-Lab/Rethink_CoT_Video 公開釋出。
視窗注意力與線性注意力是解決視覺語言模型(VLM)中二次複雜度和持續增長的KV快取的兩種主流策略。然而我們觀察到,基於視窗的VLM在序列長度超過視窗大小時會出現性能衰退,而線性注意力在OCR和文檔理解等資訊密集型任務上表現欠佳。為突破這些限制,我們提出InfiniteVL——一種融合滑動視窗注意力(SWA)與門控DeltaNet的線性複雜度VLM架構。為在受限資源下實現具競爭力的多模態性能,我們設計了包含蒸餾預訓練、指令微調和長序列SFT的三階段訓練策略。值得注意的是,僅使用領先VLM所需訓練數據的不到2%,InfiniteVL不僅顯著超越先前所有線性複雜度VLM,更可媲美基於Transformer的頂尖VLM性能,同時展現出有效的長期記憶保留能力。相比經FlashAttention-2加速的同規模Transformer架構VLM,InfiniteVL在保持恆定延遲與記憶體佔用的前提下,實現超過3.6倍的推理加速。在串流影片理解場景中,它能維持穩定的24 FPS實時預填充速度,同時保留長期記憶快取。程式碼與模型已開源於:https://github.com/hustvl/InfiniteVL。
自動駕駛系統因世界知識有限與視覺動態建模能力不足,在長尾場景中表現欠佳。現有基於視覺-語言-動作的方法無法利用未標註影片進行視覺因果學習,而基於世界模型的方法則缺乏大型語言模型的推理能力。本文構建多個專用數據集,為複雜場景提供推理與規劃標註,進而提出名為UniUGP的統一理解-生成-規劃框架,通過混合專家架構協同實現場景推理、未來影片生成與軌跡規劃。該框架整合預訓練的視覺語言模型與影片生成模型,利用視覺動態與語義推理提升規劃性能。系統以多幀觀測數據和語言指令作為輸入,輸出可解釋的思維鏈推理、物理一致的軌跡規劃以及連貫的未來影片預測。我們提出四階段訓練策略,在多個現有自動駕駛數據集及新建專用數據集上逐步構建上述能力。實驗結果表明,該方法在感知、推理與決策方面達到最先進水平,並對具挑戰性的長尾場景展現出卓越的泛化能力。
視覺-語言-行動(VLA)模型近期透過將視覺與語言線索轉化為動作,實現了機器人操作任務。然而多數VLA模型基於馬可夫假設,僅依賴當前觀測值,因而存在時間短視性問題,導致長時序任務的連貫性受損。本研究提出將運動視為更緊湊且富含資訊的時序上下文與世界動態表徵,既能捕捉狀態間的變化,又可過濾靜態像素雜訊。基於此理念,我們提出HiF-VLA(後瞻、洞見與前瞻融合架構),這是一個利用運動進行雙向時序推理的統一框架。HiF-VLA透過後驗先驗編碼過往動態,經由前瞻推理預測未來運動,並通過後驗調控的聯合專家模組實現「邊行動邊思考」的長時序操作範式。實驗結果表明,HiF-VLA在LIBERO-Long與CALVIN ABC-D基準測試中均超越強基線模型,且推理延遲僅微幅增加。此外,HiF-VLA在真實世界的長時序操作任務中實現顯著提升,展現其於實際機器人應用的廣泛有效性。
我们提出WonderZoom,这是一种从单张图像生成跨越多空间尺度的3D场景内容的新方法。现有3D世界生成模型仍局限于单尺度合成,无法在不同粒度上生成连贯的场景内容。其根本挑战在于缺乏能够生成并渲染空间尺寸差异巨大内容的尺度感知3D表征。WonderZoom通过两大创新突破该限制:(1) 采用尺度自适应高斯面元实现多尺度3D场景的生成与实时渲染;(2) 设计渐进式细节合成器迭代生成更精细尺度的3D内容。该方法支持用户"放大"3D区域,通过自回归方式从景观到微观特征逐级合成原本不存在的精细细节。实验表明,WonderZoom在生成质量与尺度一致性上显著优于当前最先进的视频与3D模型,实现了从单张图像创建多尺度3D世界。视频结果与生成多尺度3D世界的交互式查看器详见https://wonderzoom.github.io/。
擴散式大型語言模型(dLLMs)為自迴歸模型提供了一種極具前景的替代方案,但其緩慢的迭代取樣過程嚴重限制了實際應用價值。我們提出SchED——一種無需重新訓練、與模型無關的早退算法,該算法通過聚合全跨度對數邊際值,並在達到平滑的進度相關置信度閾值時停止解碼。我們在兩類dLLM模型(Dream與LLaDA)的基礎版本與指令微調版本上,針對涵蓋多項下游任務的十個基準測試(包括選擇題問答、數學運算、長問答/摘要及翻譯)進行評估。SchED實現了顯著且穩定的加速效果:在指令微調模型上平均獲得3.8-4.0倍加速,同時保持99.8-100%的基準性能;在基礎模型上則以99.1-100%的性能保留率實現穩定加速,在更激進的設定下最高可達2.34倍。採用對質量損失施加嚴苛懲罰的保守加速指標(QPS, γ=4)時,SchED展現出優異的魯棒性,明顯優於先前基於置信度的早退方法(後者在長文本生成任務中失效)。對模型標記預測的熵值分析顯示,指令微調會加速預測熵的衰減過程。通過將真實的置信度穩定轉化為計算效率提升,SchED顯著優化了dLLM的解碼效率。
知識編輯旨在無需完整重新訓練的情況下更新大型語言模型(LLMs)中的特定事實。先前研究嘗試調整LLMs的知識層,證實能有效實現選擇性編輯。然而,這些方法在受控的教師強制評估中的表現,與其在終身學習場景中的實際效能存在顯著落差,嚴重限制了實用性。本文的實證分析揭示了導致此落差的兩大癥結:(1) 多數傳統方法會使編輯後的模型對新事實過度擬合,從而削弱預訓練能力;(2) 關鍵性知識鞏固階段的缺失,導致新知識未能充分融入LLMs在自迴歸生成時的推理行為,造成參數化知識與實際生成行為的脫節。為此,我們提出「先編輯後鞏固」的新範式,以彌合理論性知識編輯方法與實際應用間的鴻溝。具體而言,(1) 透過「目標近端監督微調」定位編輯區域,利用信任域目標限制策略漂移以緩解過度擬合;(2) 隨後採用「群組相對策略優化」的鞏固階段,透過綜合獎勵信號下的軌跡級行為優化,將編輯後知識與基於思維鏈的推理策略對齊。大量實驗表明,本框架在真實場景評估中能持續提升編輯的可靠性與泛化能力,同時更好地保持局部性與預訓練能力。
基于语言模型的智能体系统——即具备推理、规划与行动能力的人工智能体系——正逐渐成为现实世界AI应用的主流范式。尽管这类系统已被广泛采用,但其性能决定机制的内在原理仍待深入探索,导致实践者往往依赖经验法则而非系统性设计原则。为弥补这一空白,我们推导出智能体系统的量化扩展规律。我们在四个差异化基准测试(Finance-Agent、BrowseComp-Plus、PlanCraft和Workbench)中展开评估,通过三种大语言模型族实例化五种经典架构(单智能体、独立智能体、集中式、分布式及混合式),在标准化工具与令牌预算下对180种配置进行受控实验。利用包含效率、开销、错误放大效应与冗余度在内的实证协调指标,我们构建出交叉验证R²=0.513的预测模型,并揭示三大主导效应:(1)工具-协调权衡:在固定计算预算下,工具密集型任务会因多智能体协调开销而承受不成比例的效能损失;(2)能力饱和效应:当单智能体基线性能超过约45%后,协调机制产生的收益呈边际递减或负增长(β=-0.408, p<0.001);(3)拓扑依赖的错误放大:独立智能体因未受控的错误传播使误差放大17.2倍,而集中式协调可将此限制在4.4倍。在金融推理等可并行任务中,集中式协调使性能提升80.9%;分布式协调则在动态网络导航任务中表现更优(+9.2% vs. +0.2%)。然而对于顺序推理任务,所有多智能体架构均导致性能下降39-70%。该框架对87%的保留配置能预测最优协调策略,基于可量化的任务特性为智能体规模扩展提供了预测性原理。
基于3D高斯溅射(3DGS)在静态三维场景表示中的成功,其向动态场景的扩展(通常称为4DGS或动态3DGS)日益受到关注。然而,如何为动态3DGS表示设计更紧凑高效的形变方案,并结合率失真优化的压缩策略,仍是研究不足的领域。现有方法要么依赖具有过度指定、短生命周期高斯图元的时空4DGS,要么采用缺乏显式时间控制的规范3DGS形变方法。为此,我们提出TED-4DGS——一种基于时序激活与嵌入的形变方案,通过率失真优化的4DGS压缩框架融合了两类方法的优势。该方案建立在基于稀疏锚点的3DGS表示基础上:每个规范锚点被赋予可学习的时序激活参数以控制其在时间轴上的出现与消失过渡,同时轻量级的锚点时序嵌入通过查询共享形变库来生成锚点特定形变。针对率失真压缩,我们引入基于隐式神经表示的超先验来建模锚点属性分布,并结合通道自回归模型捕获锚点内部关联。凭借这些创新设计,本方案在多个真实场景数据集上实现了最先进的率失真性能。据我们所知,这是首次针对动态3DGS表示构建率失真优化压缩框架的探索之一。
扩散式(大型)语言模型(dLLMs)目前在多项任务的下游性能上已能与自回归模型相媲美,同时具备推理效率更高的潜力。其中特别成功的变体是掩码离散扩散模型,该模型通过将填充特殊掩码符的缓冲区逐步替换为从模型词汇表中采样的标记来实现生成。通过并行解掩多个标记可提升效率,但一次性解掩过多标记会降低生成质量。因此,dLLMs的关键设计环节在于采样流程——即在扩散过程的每一步选择需要替换的标记。最新研究发现,与随机解掩相比,采用置信度阈值等启发式策略能同时提升生成质量和标记吞吐量。但此类启发式方法存在缺陷:需要人工调参,且我们观察到其性能会随缓冲区规模扩大而下降。本研究转而提出使用强化学习训练采样流程。具体而言,我们将掩码扩散采样形式化为马尔可夫决策过程,其中dLLM作为环境载体,并设计基于单层Transformer的轻量级策略架构,将dLLM标记置信度映射至解掩决策。实验表明,经训练的采样策略与半自回归生成结合时能达到顶尖启发式方法的性能,在完整扩散场景下更胜一筹。我们还检验了策略的可迁移性,发现其能泛化至新的底层dLLM及更长序列。但同时也观察到策略在跨领域数据上性能会下降,且通过我们的方法难以实现精度-效率权衡的精细化调节。
近年来,多模态大语言模型(MLLMs)的快速发展在各种基准测试中取得了显著进展。然而,其在红外图像理解方面的能力仍有待探索。为填补这一空白,我们推出了IF-Bench——首个用于评估红外图像多模态理解能力的高质量基准。该基准包含从23个红外数据集中选取的499张图像,以及精心构建的680组视觉问答对,涵盖图像理解的10个核心维度。基于此基准,我们系统评估了40余个开源与闭源MLLMs,采用循环评估、双语测试和混合判读策略以提升结果可靠性。分析揭示了模型规模、架构及推理范式对红外图像理解的影响,为该领域提供了重要洞见。此外,我们提出一种免训练的生成式视觉提示(GenViP)方法,通过先进图像编辑模型将红外图像转换为语义和空间对齐的RGB对应图像,从而缓解领域分布偏移问题。大量实验表明,该方法能在各类MLLMs中持续带来显著性能提升。基准数据与代码已开源:https://github.com/casiatao/IF-Bench。
自回归扩散模型通过因果帧生成实现了流式交互式长视频生成,但由于累积误差、运动漂移和内容重复等问题,在分钟级时间跨度上保持连贯性仍具挑战。我们基于记忆视角将该问题重构为需要协调长短时上下文的递归动态过程,提出VideoSSM——一种融合自回归扩散与混合状态空间记忆的长视频模型。状态空间模型作为贯穿整个序列的场景动态演化全局记忆,而上下文窗口则为运动线索和细节提供局部记忆。这种混合设计在避免画面冻结和重复模式的同时保持全局一致性,支持提示词自适应交互,并以序列长度的线性时间实现扩展。在短长程基准测试上的实验表明,该模型在自回归视频生成器中实现了最先进的时间连贯性与运动稳定性,尤其在分钟级跨度上表现出色,能够实现内容多样性及基于提示词的交互控制,由此建立了可扩展的、具备记忆感知的长视频生成框架。
輕量級即時文字轉語音系統對於無障礙應用至關重要。然而最高效的TTS模型通常依賴輕量級音素轉換器,這類轉換器難以應對上下文相關的語音挑戰。相比之下,具備更深層語言理解能力的高級音素轉換器往往伴隨高昂計算成本,導致其實時性能受限。本文研究G2P輔助TTS系統中音素轉換質量與推理速度的權衡關係,提出實用框架以彌合此差距。我們創建了面向上下文感知的輕量級音素轉換策略,並設計服務導向的TTS架構,將這些模塊作為獨立服務運行。該設計使重載的上下文感知組件與核心TTS引擎解耦,成功突破延遲瓶頸,實現高質量音素轉換模型的實時應用。實驗結果證實,該系統在保持實時響應的同時,能有效提升發音合理性與語言準確性,特別適用於離線及終端設備的TTS應用場景。
为平衡鲁棒视觉语言模型(VLM)的鲁棒性与性能矛盾,我们发现功能词会导致VLM在跨模态对抗攻击下表现脆弱,据此提出功能词去注意力机制(FDA)以削弱功能词的影响。该机制仿效差分放大器原理,在注意力头中分别计算原始跨注意力与功能词跨注意力,通过差分消减后者来增强VLM的对齐能力与鲁棒性。综合实验涵盖2个下游任务、3个数据集和3种模型上的6种攻击测试及2个前沿基线模型。总体而言,FDA在检索任务中使3个测试模型的攻击成功率平均下降18/13/53%,性能仅损失0.2/0.3/0.6%;在视觉定位任务中实现90%的攻击成功率降幅,同时性能提升0.3%。我们通过实验验证了FDA的可扩展性、泛化性和零样本性能,并进行了深入的消融研究与分析。代码将公开于https://github.com/michaeltian108/FDA。
临床对话呈现出复杂的二元性:既需要自然交流中的人文温度,又要求循证医学的严谨精确。尽管大语言模型具备前所未有的语言能力,但其依赖被动响应和无状态处理的架构特性,往往更偏向概率合理性而非事实准确性。这一结构性局限正推动医学人工智能从生成式文本预测向智能体自主性范式转变——模型作为核心推理引擎,能够进行审慎规划并保持持续记忆。相较于现有研究主要罗列下游应用,本综述从第一性原理出发解析支撑这一转变的认知架构。我们提出沿知识来源与智能体目标两条正交轴构建的新型分类法,用以界定临床知识的溯源与系统操作范畴的对应关系。该框架通过将方法划分为四大原型(潜在空间临床医师、涌现规划器、 grounded 知识合成器、可验证工作流自动化器),系统剖析创造力与可靠性之间的内在权衡。针对每种范式,我们解构其在完整认知管道(涵盖战略规划、记忆管理、行动执行、协作演进)中的技术实现,揭示不同架构选择如何平衡自主性与安全性之间的张力。
近年來,文本到視頻生成技術雖已實現顯著的真實感,但對攝像機運動與朝向的細粒度控制仍具挑戰。現有方法通常通過相對或模糊表徵來編碼攝像機軌跡,限制了顯式幾何控制。我們提出GimbalDiffusion框架,該框架基於物理世界坐標系實現攝像機控制,並以重力作為全局參考。與傳統根據前一幀定義相對運動的方式不同,我們的方法在絕對坐標系中定義攝像機軌跡,無需初始參考幀即可實現精確且可解釋的攝像機參數控制。我們利用全景360度視頻構建多樣化的攝像機軌跡,大幅超越傳統視頻數據中主要存在的直線前向運動軌跡。為強化攝像機引導,我們引入零俯仰條件標注策略,當文本內容與攝像機規格衝突時(例如攝像機朝向天空卻需生成草地),該策略能降低模型對文本內容的依賴性。最後,我們通過重平衡SpatialVID-HQ數據集建立了攝像機感知視頻生成基準,用於大範圍攝像機俯仰變化下的綜合評估。這些創新共同推動了文本到視頻模型的可控性與魯棒性,實現生成框架內精確對齊重力的攝像機操控。
比特币矿机采购需把握战略时机,这源于市场的剧烈波动、快速的技术迭代以及协议驱动的收益周期。尽管挖矿业已发展为资本密集型产业,但关于何时采购新型专用集成电路(ASIC)矿机的指导策略匮乏,现有计算框架亦未解决这一决策难题。本研究通过将硬件采购构建为时间序列分类任务来填补空白,预测一年内购入ASIC矿机能否获得盈利(投资回报率ROI≥1)、边际收益(0<ROI<1)或亏损(ROI≤0)。我们提出MineROI-Net——一种基于Transformer架构的开源模型,旨在捕捉挖矿收益的多尺度时间规律。通过对2015至2024年间发布的20款ASIC矿机在不同市场环境下的数据进行验证,该模型在准确率(83.7%)和宏观F1分数(83.1%)上均优于基于LSTM和TSLANet的基线模型。该模型展现出显著的经济实用性:对亏损区间的检测精确度达93.6%,盈利区间精确度达98.5%,且能有效避免盈利与亏损情景的误判。结果表明MineROI-Net为矿机采购时机决策提供了实用的数据驱动工具,有望降低资本密集型挖矿作业的财务风险。模型可通过以下链接获取:https://github.com/AMAAI-Lab/MineROI-Net。