ノイズ除去から洗練へ:視覚言語拡散モデルのための修正フレームワーク
From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model
October 22, 2025
著者: Yatai Ji, Teng Wang, Yuying Ge, Zhiheng Liu, Sidi Yang, Ying Shan, Ping Luo
cs.AI
要旨
離散拡散モデルは、双方向のコンテキストモデリングと理論的な並列化処理が可能なことから、視覚言語タスクにおける有望なアプローチとして登場しました。しかし、その実用化は訓練と推論の間の乖離によって深刻な妨げを受けており、これは破滅的な誤差連鎖を引き起こします。すなわち、並列復号化における初期トークンの誤りが生成コンテキストを汚染し、誤りが連鎖的に増幅する反応を誘発して、文法的な誤りや意味的な虚構(ハルシネーション)を生み出すのです。この根本的な課題に対処するため、我々は生成プロセスを受動的なノイズ除去から能動的な洗練プロセスへと再定義します。本論文ではReDiffを紹介します。これはモデル自身に誤りを特定して修正することを学習させる、洗練機能を強化した拡散フレームワークです。我々のアプローチは2段階の訓練プロセスを特徴とします。第一段階では、人工的に導入した誤りを修正する訓練を通じて基礎的な修正能力を植え付けます。第二段階では、モデル自身の欠陥のある草稿を専門家の修正から学習して修正するように明示的に訓練する、新規のオンライン自己修正ループを実装します。この誤り駆動学習により、モデルは生成済みの出力を再訪して洗練するという決定的に重要な能力を獲得し、誤差連鎖を効果的に断ち切ります。大規模な実験により、ReDiffが生成内容の一貫性と事実的精度を大幅に向上させ、従来のノイズ除去法をはるかに凌ぐ安定かつ効率的な並列生成を実現することが実証されました。コードとモデルはhttps://rediff-hku.github.io/で公開しています。
English
Discrete diffusion models have emerged as a promising direction for
vision-language tasks, offering bidirectional context modeling and theoretical
parallelization. However, their practical application is severely hindered by a
train-inference discrepancy, which leads to catastrophic error cascades:
initial token errors during parallel decoding pollute the generation context,
triggering a chain reaction of compounding errors and leading to syntactic
errors and semantic hallucinations. To address this fundamental challenge, we
reframe the generation process from passive denoising to active refining. We
introduce ReDiff, a refining-enhanced diffusion framework that teaches the
model to identify and correct its own errors. Our approach features a two-stage
training process: first, we instill a foundational revision capability by
training the model to revise synthetic errors; second, we implement a novel
online self-correction loop where the model is explicitly trained to revise its
own flawed drafts by learning from an expert's corrections. This mistake-driven
learning endows the model with the crucial ability to revisit and refine its
already generated output, effectively breaking the error cascade. Extensive
experiments demonstrate that ReDiff significantly improves the coherence and
factual accuracy of generated content, enabling stable and efficient parallel
generation far superior to traditional denoising methods. Our codes and models
are available at https://rediff-hku.github.io/.