每日精選AI研究論文及翻譯
當前高性能影像生成模型領域主要由專有系統主導,例如Nano Banana Pro和Seedream 4.0。領先的開源替代方案(如Qwen-Image、Hunyuan-Image-3.0和FLUX.2)普遍具有龐大參數量(200億至800億),導致其在消費級硬件上進行推理和微調的可行性極低。為解決這一困境,我們提出Z-Image——基於可擴展單流擴散變換器(S3-DiT)架構的高效60億參數基礎生成模型,該架構挑戰了「不計成本擴張規模」的傳統範式。通過系統性優化完整模型生命週期(從精選數據基建到流線型訓練課程),我們僅耗費31.4萬H800 GPU小時(約63萬美元)即完成全流程訓練。結合獎勵訓練後的少步蒸餾方案進一步衍生出Z-Image-Turbo,不僅在企業級H800 GPU上實現亞秒級推理延遲,更兼容消費級硬件(顯存<16GB)。此外,我們的全域預訓練範式還高效培育出Z-Image-Edit編輯模型,其具備卓越的指令跟隨能力。定性與定量實驗表明,我們的模型在多維度上達到甚至超越主流競品水準。尤為突出的是,Z-Image在寫實影像生成與雙語文本渲染方面展現出頂級水準,成果可媲美頂尖商業模型,充分證明大幅降低計算成本仍可實現尖端性能。我們公開釋出程式碼、權重及線上演示,以推動可訪問、低成本且具頂尖水準的生成模型發展。
近期影像編輯模型展現出顯著進展。常見的架構設計將多模態大型語言模型(MLLM)編碼器與擴散解碼器耦合,例如Step1X-Edit和Qwen-Image-Edit系統:MLLM負責對參考影像與指令進行編碼,但在訓練期間保持凍結狀態。本研究證實,釋放MLLM的推理能力能進一步突破編輯模型的界限。具體而言,我們探索了「思考」與「反思」兩種推理機制,以增強指令理解與編輯精準度。基於此,我們提出的框架實現了「思考-編輯-反思」迴圈式的影像編輯:思考機制利用MLLM的世界知識解析抽象指令,而反思機制則審視編輯結果、自動修正非預期操作並判定終止時機。大量實驗表明,我們的推理方法在採用Step1X-Edit初始化DiT時(ReasonEdit-S)實現顯著效能提升:ImgEdit(+4.3%)、GEdit(+4.7%)和Kris(+8.2%);與Qwen-Image-Edit整合時(ReasonEdit-Q)在GEdit和Kris指標上亦超越先前開源方法。
近期,多人影片生成技術開始嶄露頭角。雖然已有初步研究探索音訊驅動的多人對話影片生成,但由於多元多人資料收集成本高昂,以及驅動多重身份實現連貫互動性存在困難,這些方法往往面臨挑戰。為解決這些難題,我們提出AnyTalker——一個具備可擴展多流處理架構的多人生成框架。具體而言,我們透過創新的身份感知注意力機制擴展了Diffusion Transformer的注意力模組,該機制能迭代處理身份-音訊配對,實現可驅動身份的任意擴展。此外,訓練多人生成模型需要海量多人資料,而我們提出的訓練流程僅需單人影片即可學習多人說話模式,並僅用少量真實多人片段精煉互動表現。我們還設計了專用評估指標與資料集,用於評測生成多人影片的自然度與互動性。大量實驗表明,AnyTalker在唇部同步、視覺品質和自然互動性方面表現卓越,在資料成本與身份擴展性之間實現了優異平衡。
我們推出視覺橋接轉換器(ViBT),這是布朗橋模型的大規模實例化,專為條件生成而設計。有別於將噪聲轉化為數據的傳統擴散模型,橋接模型直接建模輸入與輸出之間的軌跡,創建出高效的數據到數據轉譯範式。通過將這些模型擴展至200億及13億參數規模,我們驗證了其在圖像與影片轉譯任務上的卓越效能。為支撐此規模,我們採用轉換器架構,並提出方差穩定的速度匹配目標函數以實現穩健訓練。這些進展共同彰顯了橋接模型在基於指令的圖像編輯與複雜影片轉譯任務中的規模化威力。
統一多模態模型在圖像生成與理解領域的顯著進展,標誌著向通用人工智慧邁出的重要一步,已引起研究者的廣泛關注。該任務的主要挑戰在於,由於理解與生成任務存在本質目標衝突,難以建立最優訓練範式。為緩解這些衝突並追求更高性能,許多研究者採用不同程度的模型解耦策略(例如雙圖像編碼器、MOE/MOT架構或凍結多模態大語言模型)。然而,過度的模型解耦可能導致交錯生成能力喪失,背離統一模型的初衷。本研究旨在探索如何在不依賴模型解耦的前提下緩解任務衝突。首先,我們通過分析模型的跨模態注意力行為,探究解耦策略緩解衝突的機理。觀察發現,模型解耦本質上是驅動模型形成任務專屬的多模態互動模式(如Qwen-VL與HunyuanImage所示),且解耦越徹底,行為一致性越高。受此啟發,我們提出注意力互動對齊損失函數,在訓練過程中顯式學習任務專屬的多模態互動模式。為驗證該損失函數的泛化能力,我們分別在Emu3的指令微調階段與Janus-Pro的後訓練階段進行驗證。實驗表明,無需複雜技巧的注意力互動對齊損失不僅能優化跨模態注意力模式,同時提升生成與理解雙重性能。
大型語言模型在數學推理方面取得了顯著進展,這不僅是人工智慧的重要測試平台,若進一步發展更可能對科學研究產生深遠影響。通過採用獎勵最終正確答案的強化學習來擴展推理能力,LLM在一年內從表現不佳發展到在AIME和HMMT等定量推理競賽中達到飽和水平。然而,這種方法存在根本性局限:追求更高的最終答案準確率並未解決關鍵問題——正確答案不能保證推理過程的正確性。此外,諸如定理證明等數學任務需要嚴謹的逐步推導而非數值答案,使得最終答案獎勵機制無法適用。為突破深度推理的極限,我們認為必須驗證數學推理的全面性與嚴謹性。自我驗證對於擴展測試時計算資源尤為關鍵,特別是針對沒有已知解的開放性問題。 為實現可自我驗證的數學推理,我們研究如何訓練基於LLM的精準且可靠的定理證明驗證器。接著以該驗證器作為獎勵模型訓練證明生成器,激勵生成器在最終確定證明前盡可能識別並解決自身推理中的缺陷。為維持生成與驗證能力之間的差距隨生成器強化而持續存在,我們提出擴展驗證計算規模,自動標註新出現的難驗證證明,從而創建訓練數據以持續改進驗證器。我們最終推出的DeepSeekMath-V2模型展現出強大的定理證明能力,在擴展測試時計算資源的條件下,於IMO 2025和CMO 2024獲得金牌級評分,並在Putnam 2024中取得近乎滿分的118/120成績。
擴散模型在生成品質與計算效率之間面臨根本性取捨。潛在擴散模型(LDM)雖提供高效解決方案,卻存在潛在資訊損失與非端到端訓練的缺陷。相比之下,現有像素空間模型雖繞過變分自編碼器(VAE),但在高解析度合成任務上面臨計算資源瓶頸。為解決此困境,我們提出DiP——一種高效的像素空間擴散框架。DiP將生成過程解耦為全域與局部兩階段:擴散轉換器(DiT)主幹網路透過處理大尺寸圖塊實現高效全域結構構建,同時協同訓練的輕量級圖塊細節修復頭則利用上下文特徵重建細粒度局部細節。此協同設計在不依賴VAE的前提下,實現了與LDM相媲美的計算效率。DiP在僅增加0.3%總參數量的情況下,推理速度較既有方法提升最高達10倍,並在ImageNet 256×256資料集上達成1.79的FID分數。
為建構具備強大推理能力的通用視覺-語言-動作模型,常見策略是先透過機器人示範資料訓練專業化VLA模型以掌握可靠操作技能,再融合混合標註的機器人資料與多模態資料來恢復廣泛推理能力。然而我們發現,經過微調後的推理型VLA模型往往會出現動作性能相較微調前的專業模型衰退的現象,此現象稱為「動作退化」。為解決此問題,我們提出DualVLA模型,透過精心設計的後訓練機制在保持推理能力的同時提升動作性能。我們首先引入雙層資料篩選方法,剔除冗餘的具身推理資料以防止其對動作學習產生負面影響。為進一步強化動作生成能力,設計了雙教師自適應蒸餾策略,針對不同資料域分配差異化監督信號的同時維持推理能力。為填補通用型VLA的評估空白,我們還提出VLA評分體系,將VLA能力解構為推理、意圖、動作與對齊四個維度進行細粒度評估。實驗表明,DualVLA在SimplerEnv中達到61.0%的平均成功率,並在八個具競爭力的多模態基準測試中獲得65.4的平均分數,展現出在精準動作執行與多模態理解之間更優異的平衡能力。項目網站:https://costaliya.github.io/DualVLA/。
我們提出對抗流模型,這類生成模型統一了對抗模型與流模型的架構。我們的方法支援原生單步或多步生成,並採用對抗目標進行訓練。有別於傳統GAN中生成器需學習噪聲與數據分佈間的任意傳輸方案,我們的生成器學習的是確定性噪聲到數據的映射,這與流匹配模型中的最優傳輸方案一致,從而顯著提升了對抗訓練的穩定性。此外,相較於基於一致性的方法,我們的模型直接學習單步或少步生成,無需通過概率流的中間時間步進行傳播,這節省了模型容量、減少訓練迭代次數,並避免了誤差累積。在ImageNet-256px的相同1NFE設定下,我們的B/2模型性能接近基於一致性的XL/2模型,而我們的XL/2模型更創下2.38的FID新紀錄。我們還展示了通過層數重複對56層與112層模型進行端到端訓練的可能性,在無需任何中間監督的條件下,僅需單次前向傳播即可分別達到2.08與1.94的FID,超越了對應的2NFE與4NFE模型表現。
本研究探討建構「具記憶能力機器」的挑戰,將長期記憶問題定義為高效超長上下文建模的課題。我們主張此需具備三項關鍵特性:稀疏性、隨機存取靈活性及長度泛化能力。為解決超長上下文建模問題,我們採用分層稀疏注意力機制——一種能同時滿足所有三項特性的新穎注意力架構。通過將HSA整合至Transformer架構中,我們構建出HSA-UltraLong模型:這是一個擁有80億參數的混合專家模型,基於超過8兆詞元訓練而成,並在領域內外不同長度的上下文任務中進行嚴格評估,以驗證其處理超長上下文的能力。實驗結果表明,我們的模型在領域內長度任務上與全注意力基線模型表現相當,同時在長達1600萬詞元的上下文檢索任務中,多數項目準確率超過90%。本報告闡述了實驗發現與待解難題,為超長上下文建模的未來研究奠定基礎。
扩散模型蒸餻已成為建構高效能少步數與單步生成器的關鍵技術。其中,分佈匹配蒸餻(DMD)及其變體憑藉卓越性能脫穎而出,學界普遍將其成功歸因於核心機制——使學生模型的輸出分佈與預訓練教師模型相匹配。本研究對這一傳統認知提出挑戰。通過對DMD訓練目標的嚴謹分解,我們發現在文本到圖像生成這類複雜任務中(通常需借助分類器引導以實現理想的少步數性能),驅動少步蒸餻的主因並非分佈匹配,而是我們新發現的、曾被忽視的「分類器引導增強」(CA)組件。我們證實該項實為蒸餻過程的核心「引擎」,而分佈匹配(DM)項則作為「正則化器」確保訓練穩定性並減少偽影。進一步驗證表明,儘管DM項是高效的正則化器,但其作用並非不可替代——更簡單的非參數約束或基於生成對抗網絡的目標函數同樣能實現穩定效果,僅在權衡取捨上有所不同。這種職能分離促使我們對兩項組件的特性進行更系統化的原理性分析,從而獲得更深層的認知。基於新認知,我們進一步提出對蒸餻過程的改進方案(如對引擎項與正則化項採用解耦的噪聲調度策略),實現了性能提升。值得關注的是,Z-Image項目(https://github.com/Tongxi-MAI/Z-Image)已採用本方法開發出頂尖的8步圖像生成模型,實證了本研究結論的普適性與魯棒性。
语言模型能否自我优化其生成内容?随着现实应用中用户频繁提出优化需求,这一问题日益凸显。然而现有研究大多基于可验证任务(如数学竞赛或带简化框架的符号推理)测试模型的优化能力,而用户常提出开放式查询并提供不同程度的反馈。近期推理模型在思维链中展现的自省模式进一步激发了该问题的研究价值。为此我们推出RefineBench基准测试,涵盖11个领域的1000个挑战性问题,并配套基于检查表的评估框架。我们评估两种优化模式:(1)引导式优化,即向模型提供自然语言反馈;(2)自我优化,即模型在无引导情况下自主改进。在自我优化场景中,即便是Gemini 2.5 Pro和GPT-5等前沿模型也仅获得31.3%和29.1%的基准分数,且多数模型无法在迭代中持续改进(如Gemini-2.5-Pro仅提升1.8%,DeepSeek-R1反而下降0.1%)。相比之下,在引导式优化中,无论是专有模型还是大型开源模型(>700亿参数)都能借助针对性反馈在五轮对话内将回答优化至近乎完美。这些发现表明前沿模型需要突破性进展才能实现错误回答的自我修正,而RefineBench为追踪此类进展提供了重要测试平台。
在具有严格延迟限制的众多实际应用中,小语言模型(SLM)的高效部署至关重要。尽管先前关于SLM设计的研究主要聚焦于减少参数量以实现参数最优的模型,但参数效率未必能转化为实际设备上的等比例加速。本研究旨在揭示影响SLM实际设备延迟的关键因素,并为以实际延迟为首要考量时的SLM设计与训练提供普适性原则和方法论。具体而言,我们识别出两个核心架构因素:深度-宽度比和算子选择。前者对小批量处理的延迟至关重要,后者则同时影响延迟和大批量处理的吞吐量。基于此,我们首先研究延迟最优的深度-宽度比,关键发现表明:尽管深窄模型在相同参数量下通常能获得更优精度,但它们可能并不处于精度-延迟权衡的前沿边界。接着,我们探索新兴高效注意力机制的替代方案,以评估其作为候选构建算子的潜力。利用识别出的潜力算子,我们构建进化搜索框架,自动发现这些算子在混合SLM中的延迟最优组合,从而推进精度-延迟边界。除架构改进外,我们进一步通过权重归一化技术增强SLM训练,该技术能实现更有效的权重更新并改善最终收敛性。综合这些方法,我们推出了名为Nemotron-Flash的新型混合SLM系列,显著推进了前沿SLM的精度-效率边界:相较于Qwen3-1.7B/0.6B模型,该系列平均精度提升超过5.5%,延迟降低1.3倍/1.9倍,吞吐量提升18.7倍/45.6倍。
世界引擎旨在合成能够支持用户控制相机运动下场景交互式探索的长时、三维一致视频。然而,现有系统在激进六自由度轨迹和复杂户外场景中表现不佳:它们会丧失长程几何一致性、偏离目标路径或退化为过度保守的运动。为此,我们提出Captain Safari——一种通过从持久化世界记忆库中检索来生成视频的位姿条件化世界引擎。给定相机路径,我们的方法通过维护动态局部记忆库,利用检索器获取位姿对齐的世界标记,进而沿轨迹条件化视频生成。该设计使模型能够在精确执行挑战性相机运动的同时保持稳定的三维结构。为评估此设定,我们构建了OpenSafari数据集,这是一个通过多阶段几何与运动学验证流程构建的、包含带有已验证相机轨迹的高动态无人机视频的野外第一人称视角数据集。在视频质量、三维一致性和轨迹跟随性方面,Captain Safari显著优于当前最先进的相机控制生成器:将MEt3R从0.3703降至0.3690,AUC@30从0.181提升至0.200,并实现远低于所有相机控制基线的FVD值。更重要的是,在50人参与的五模型匿名对比研究中,标注者在所有评估维度上对我们方法的偏好率达67.6%。我们的结果表明,位姿条件化世界记忆是实现长时序可控视频生成的有效机制,并将OpenSafari确立为未来世界引擎研究的新基准。
在全球化的當今世界,源自不同文化的元素經常同時出現在單一視覺場景中。我們將此類現象稱為文化混合場景,然而大型視覺語言模型對此的感知機制仍待深入探究。本研究將文化混合視為LVLM面臨的關鍵挑戰,系統性考察當多地域文化元素並置時現有模型的表現。為量化分析此類行為,我們構建了CultureMix基準數據集——包含2.3萬張由擴散模型生成並經人工校驗的飲食文化混合圖像,涵蓋四類子任務:(1)單獨食物、(2)食物+食物、(3)食物+背景、(4)食物+食物+背景。通過評估10個主流LVLM,發現模型在混合場景中普遍難以保持單一文化特徵的識別準確性。模型表現出強烈的背景依賴性,添加文化背景後較純食物基線的準確率下降14%,且對同一食物在不同情境下的預測結果存在不一致性。為突破這些局限,我們探索了三種魯棒性增強策略。實驗表明,採用多樣化文化混合數據集進行監督微調可顯著提升模型一致性並降低背景敏感度。我們呼籲學界重視文化混合場景的研究,這將是開發能可靠服務於多元文化現實環境的LVLM的關鍵一步。
多模态大语言模型(MLLMs)已在众多医疗专科领域展现出巨大潜力,然而牙科领域的探索仍显不足,部分原因在于领域特定数据有限、牙科专家标注稀缺、模态专用建模不充分以及可靠性方面的挑战。本文提出OralGPT-Omni——首个面向牙科专业的MLLM,能够对多样化牙科影像模态和临床任务进行全面可靠的分析。为显式捕捉牙医的诊断逻辑,我们构建了TRACE-CoT数据集,该临床导向的思维链数据集复现了牙科放射医师的决策过程。这种推理监督机制与我们提出的四阶段训练范式相结合,显著增强了模型对牙科影像的理解与分析能力。与此同时,我们推出了MMOral-Uni——首个面向牙科影像分析的统一多模态基准测试集,包含涵盖5种影像模态和5类临床任务的2,809组开放式问答对,为数字牙科领域的MLLMs提供了迄今最全面的评估体系。OralGPT-Omni在MMOral-Uni基准测试中取得51.84的综合得分,在MMOral-OPG基准测试中获得45.31分,显著超越GPT-5的表现。本研究推动了智能牙科发展,为牙科影像分析的未来突破铺平道路。所有代码、基准测试集和模型将公开共享。
观察图像中的某些区块会降低其他区块的不确定性。这些区块的具现化会缩减其余每个区块特征的分布熵,类似于量子力学中粒子波函数的坍缩。这种现象可直观地称为区块坍缩。为识别目标区域坍缩过程中最依赖的区块,我们训练了一种自动编码器,通过软选择区块子集来重建每个目标区块。根据各区块的PageRank分值绘制这些学习到的依赖关系图,可揭示实现图像重构的最优区块顺序。实验表明遵循该顺序能提升多种掩码图像建模方法的性能:首先通过重新训练最先进的自回归模型MAR可提升图像生成效果;继而提出视觉Transformer仅接触坍缩顺序中高权重区块的图像分类新范式,仅需观察22%的高权重区块即可实现高精度分类。通过这些实验,我们提出以区块坍缩作为新型图像建模视角来提升视觉效率。项目代码已开源于https://github.com/wguo-ai/CoP。
近期大型语言模型通过生成详尽的思维链轨迹实现了强大的推理性能,但这往往导致令牌使用量激增和推理延迟升高。现有提升效率的方法通常聚焦于模型层面的干预,例如采用强化学习或监督微调来降低冗余度。与之相对,我们提出了一种无需训练、以输入为核心的创新方案。受认知心理学启发,我们引入了聚焦式思维链(F-CoT)方法,将信息提取与推理过程相分离。F-CoT首先将查询中的关键信息组织成简洁的结构化上下文,随后引导模型仅基于该上下文进行推理。通过规避无关细节的干扰,F-CoT能自然生成更简短的推理路径。在数学应用题测试中,F-CoT在保持与标准零样本思维链相当准确度的同时,将生成令牌数减少至原有量的1/2到1/3。这一结果表明,结构化输入是实现更高效大语言模型推理的简单而有效的关键途径。
圖像描述在多模態系統(如檢索、推薦和多步驟智能推理流程)中充當視覺內容的高效替代品。然而現有的評估方法忽略了一個根本問題:描述文本能否在實際下游任務中真正替代圖像?我們提出基於實用性的基準測試CaptionQA,通過描述文本對下游任務的支持程度來評估模型生成描述的質量。CaptionQA是一個可擴展的領域依賴型基準,涵蓋自然場景、文檔、電子商務和具身人工智能四大領域,每個領域均設有精細分類體系(25個頂級類別和69個子類別),用以識別領域特定任務所需的關鍵信息。該基準構建了33,027道密集標註的選擇題(平均每圖50.3題),這些問題明確需要視覺信息才能解答,可全面檢測描述的實用性。在我們的評估框架中,大型語言模型僅依據描述文本回答問題,直接衡量描述是否保留圖像層級的實用性且能被下游LLM有效利用。對前沿多模態大模型的評估顯示,圖像與其描述文本的實用性存在顯著差距:在傳統圖像問答基準表現相近的模型,其描述實用性最大降幅達32%。我們開源CaptionQA基準及可擴展流水線,代碼詳見https://github.com/bronyayang/CaptionQA。
为提升扩散模型在测试时的表现,使其生成的样本在用户指定奖励函数下获得高分,一种常用方法是在扩散动力学中引入奖励函数的梯度。然而这一操作往往存在理论缺陷,因为用户指定的奖励通常仅在生成过程末端的数据分布上才有明确定义。虽然常见的解决方案是使用去噪器估计样本在生成末态的可能形态,但我们提出通过直接运用流映射来简化该问题。通过利用流映射与掌控瞬时传输的速度场之间的数学关系,我们构建了流映射轨迹倾斜算法(FMTT),该算法在理论证明上能比传统基于奖励梯度的测试时方法实现更优的奖励提升效果。该方法既可通过重要性权重进行精确采样,也能通过原则性搜索定位奖励倾斜分布的局部极值点。我们通过对比实验验证了本方法相较于其他前瞻技术的优越性,并展示了流映射如何助力复杂奖励函数的应用——例如通过与视觉语言模型交互,实现新型图像编辑功能。
多模态大语言模型(MLLMs)正日益部署于现实世界的智能体场景中,此类场景要求输出结果不仅需准确无误,还必须符合预定义的数据模式。尽管近期文本领域的结构化生成已取得进展,但目前仍缺乏系统评估视觉输入中基于模式的信息抽取与推理能力的基准。本研究通过精心设计的SO-Bench基准,对MLLMs的视觉结构化输出能力展开全面评估。该基准涵盖UI界面、自然图像、文档及图表四大视觉领域,基于超过6500个多样化JSON模式与1800组经人工质量校验的图像-模式配对数据构建而成。对开源模型及前沿商用模型的基准测试表明,现有模型在生成准确且符合模式要求的输出方面仍存在明显差距,凸显了提升多模态结构化推理能力的必要性。除基准测试外,我们进一步通过训练实验显著提升了模型的结构化输出能力,并计划将该基准向学界开放。
我们提出Split-then-Merge(StM)这一创新框架,旨在增强生成式视频合成的控制能力并解决其数据稀缺问题。与依赖标注数据集或手工规则的传统方法不同,StM将大量未标注视频分割为动态前景层与背景层,继而通过自组合方式学习动态主体与多样化场景的交互关系。该框架通过分层融合与数据增强实现可供性感知的合成,并引入保持前景保真度的身份保留损失函数,构建了具有变换感知能力的新型训练流程。实验表明,StM在定量基准测试及基于人类/VLLM的定性评估中均优于当前最先进方法。更多细节请访问项目页面:https://split-then-merge.github.io
尽管多模态大语言模型(MLLMs)擅长回答图像内容——识别物体和描述场景——但它们往往缺乏对人类观察者感知图像情感的能力。这种差距在考量主观认知属性时尤为明显,例如图像为何令人难忘、有趣、具有美感或能引发情感共鸣。为系统性地解决这一挑战,我们推出了CogIP-Bench,这是一个用于评估MLLMs在此类图像认知属性上的综合基准。我们的评估揭示了一个显著差距:当前模型与人类对这些微妙属性的感知存在严重偏差。随后我们证明,通过后训练阶段能有效弥合这一差距,显著提升模型与人类判断的契合度。此外,研究发现这种习得的认知对齐不仅具有预测性,还能迁移至下游创意任务。通过将认知对齐的MLLM集成到图像生成流程中,我们可以引导合成过程生成更能体现预期特质(如更令人难忘或更具视觉吸引力)的图像。本研究不仅提供了衡量这种类人感知的基准、增强该能力的后训练流程,更通过实践验证了这种对齐能够开启更具人性化的人工智能应用。
尽管参考引导的图像生成技术发展迅速,但现有扩散模型在使用参考图像优化生成结果时,仍难以保持细粒度的视觉细节。这一局限源于基于VAE的潜在空间压缩机制会固有地丢失细微纹理信息,导致身份特征与属性相关的视觉线索消失。此外,基于现有方法的局部细节增强后处理方案,常会在光照、纹理或形状方面产生与原始图像不一致的结果。为此,我们提出了细节感知优化框架,通过连续两阶段的参考驱动修正来提升像素级一致性。我们首先对单图像扩散编辑器进行适配微调,使其能同时处理生成草稿与参考图像,在保持结构保真度的同时实现全局协调优化。随后应用强化学习进一步强化局部编辑能力,显式优化细节精度与语义一致性。大量实验表明,本方法在参考对齐度和细粒度细节保留方面显著提升,在极具挑战性的参考引导修复基准测试中,其生成的忠实且视觉连贯的编辑效果超越了开源与商业模型。
本文提出了一种新颖的混合专家目标检测框架,通过集成多个YOLOv9-T专家模型并采用自适应路由机制,实现了动态特征 specialization。相较于单一YOLOv9-T模型,该框架在平均精度均值(mAP)和平均召回率(AR)指标上均取得了显著提升。
扩散模型在二维图像、视频和三维形状等多模态生成任务中已展现出卓越的生成质量,但其迭代去噪过程导致推理计算成本高昂。虽然近期基于缓存的方法通过重用冗余计算有效加速了二维图像和视频生成,但将这些技术直接应用于三维扩散模型会严重破坏几何一致性。在三维合成中,缓存潜在特征的微小数值误差会不断累积,导致结构伪影和拓扑不一致。为突破此局限,我们提出Fast3Dcache——一种免训练的几何感知缓存框架,在保持几何保真度的同时加速三维扩散推理。该方法通过预测性缓存调度约束(PCSC)根据体素稳定模式动态分配缓存配额,并利用时空稳定性准则(SSC)基于速度幅值和加速度标准选择稳定特征进行复用。综合实验表明,Fast3Dcache可显著加速推理,实现最高27.12%的加速比和54.8%的浮点运算量降低,同时以倒角距离(2.48%)和F-Score(1.95%)衡量的几何质量损失极小。
我们提出了一种仅需视频级别监督即可检测监控视频中罕见多样异常的方法。通过双主干网络架构融合卷积与变换器特征表示,并采用Top-K池化策略,在UCF-Crime数据集上实现了90.7%的曲线下面积(AUC)性能。
高分辨率磁共振成像在诸多临床与科研应用中具有关键作用,但实现该技术仍面临成本高昂、受技术权衡与实验条件限制等问题。超分辨率技术作为一种前景广阔的计算方法,可通过从更经济的低分辨率扫描数据生成高分辨率图像来突破这些限制,有望在不增加硬件成本的前提下提升诊断准确性与效率。本综述系统梳理了磁共振超分辨率技术的最新进展,重点关注深度学习方法,从计算机视觉、计算成像、逆问题及磁共振物理等多维视角剖析基于深度学习的磁共振超分辨率技术,涵盖理论基础、架构设计、学习策略、基准数据集与性能指标。我们提出系统性分类法对现有方法进行归类,并对适用于磁共振的经典与新兴超分辨率技术开展深度研究,同时考量临床与科研场景中的特殊挑战。文中还指明了该领域亟待解决的关键问题与发展方向,并汇总了开源资源、工具及教程合集(详见GitHub项目:https://github.com/mkhateri/Awesome-MRI-Super-Resolution)。
我们提出一种基于聚类的帧选择策略,以缓解视频衍生帧数据集中的信息泄露问题。该方法通过在划分训练集、验证集和测试集之前对视觉相似的帧进行分组,从而生成更具代表性、平衡性和可靠性的数据集划分。
联邦学习(FL)能够在不牺牲隐私的前提下实现跨客户端的协同训练。尽管现有多数联邦学习方法假设采用同构模型架构,但客户端在数据和资源上的异构性使得该假设难以成立,由此催生了模型异构的联邦学习范式。针对该问题,我们提出基于新型客户端知识——纠缠表征(entangled representation)的联邦表征纠缠框架(FedRE)。该框架中,各客户端使用归一化随机权重将本地表征聚合成单一纠缠表征,并应用相同权重将对应独热标签编码整合为纠缠标签编码。这些数据上传至服务器后用于训练全局分类器。训练过程中,每个纠缠表征通过其纠缠标签编码实现跨类别监督,而每轮重新采样的随机权重则引入多样性,有效抑制全局分类器的过置信度并促进更平滑的决策边界。此外,各客户端仅上传单个跨类别纠缠表征及其标签编码,既降低了表征逆推攻击的风险,又减少了通信开销。大量实验表明,FedRE在模型性能、隐私保护和通信开销之间实现了有效平衡。代码已开源:https://github.com/AIResearch-Group/FedRE。