잡음 제거에서 정제로: 시각-언어 확산 모델을 위한 교정 프레임워크
From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model
October 22, 2025
저자: Yatai Ji, Teng Wang, Yuying Ge, Zhiheng Liu, Sidi Yang, Ying Shan, Ping Luo
cs.AI
초록
이산 확산 모델은 양방향 맥락 모델링과 이론적 병렬화를 통해 비전-언어 작업에 유망한 방향으로 부상했습니다. 그러나 실제 적용은 훈련-추론 불일치로 인해 심각하게 저해되며, 이는 치명적인 오류 연쇄를 초래합니다. 병렬 디코딩 과정에서 발생하는 초기 토큰 오류는 생성 맥락을 오염시켜 오류가 증폭되는 연쇄 반응을 일으키며, 결과적으로 구문 오류와 의미론적 환각을 야기합니다. 이러한 근본적인 과제를 해결하기 위해 우리는 생성 과정을 수동적 노이즈 제거에서 능동적 정제로 재구성합니다. 우리는 모델이 자신의 오류를 식별하고 수정하도록 가르치는 정제 강화 확산 프레임워크인 ReDiff를 제안합니다. 우리의 접근 방식은 두 단계의 훈련 과정으로 구성됩니다. 첫째, 합성 오류를 수정하는 훈련을 통해 기본적인 수정 능력을 함양합니다. 둘째, 모델이 전문가의 수정 사항을 학습하여 자신의 결함 있는 초안을 명시적으로 수정하도록 훈련하는 새로운 온라인 자기 수정 루프를 구현합니다. 이러한 실수 주도 학습은 모델이 이미 생성된 출력을 재검토하고 정제하는 중요한 능력을 부여함으로써 오류 연쇄를 효과적으로 차단합니다. 폭넓은 실험을 통해 ReDiff가 생성 콘텐츠의 일관성과 사실적 정확성을 크게 향상시키며, 기존 노이즈 제거 방법을 훨씬 능가하는 안정적이고 효율적인 병렬 생성을 가능하게 함을 입증했습니다. 우리의 코드와 모델은 https://rediff-hku.github.io/에서 이용 가능합니다.
English
Discrete diffusion models have emerged as a promising direction for
vision-language tasks, offering bidirectional context modeling and theoretical
parallelization. However, their practical application is severely hindered by a
train-inference discrepancy, which leads to catastrophic error cascades:
initial token errors during parallel decoding pollute the generation context,
triggering a chain reaction of compounding errors and leading to syntactic
errors and semantic hallucinations. To address this fundamental challenge, we
reframe the generation process from passive denoising to active refining. We
introduce ReDiff, a refining-enhanced diffusion framework that teaches the
model to identify and correct its own errors. Our approach features a two-stage
training process: first, we instill a foundational revision capability by
training the model to revise synthetic errors; second, we implement a novel
online self-correction loop where the model is explicitly trained to revise its
own flawed drafts by learning from an expert's corrections. This mistake-driven
learning endows the model with the crucial ability to revisit and refine its
already generated output, effectively breaking the error cascade. Extensive
experiments demonstrate that ReDiff significantly improves the coherence and
factual accuracy of generated content, enabling stable and efficient parallel
generation far superior to traditional denoising methods. Our codes and models
are available at https://rediff-hku.github.io/.