OmniRefiner: 강화 학습 기반 지역 확산 정제
OmniRefiner: Reinforcement-Guided Local Diffusion Refinement
November 25, 2025
저자: Yaoli Liu, Ziheng Ouyang, Shengtao Lou, Yiren Song
cs.AI
초록
참조 기반 이미지 생성은 빠르게 발전해 왔지만, 현재의 확산 모델들은 참조 이미지를 사용하여 생성된 이미지를 정제할 때 여전히 미세한 시각적 디테일을 보존하는 데 어려움을 겪습니다. 이러한 한계는 VAE 기반 잠재 공간 압축이 본질적으로 미세한 텍스처 정보를 제거함에 따라 정체성 및 속성 특이적 단서가 사라지기 때문에 발생합니다. 더욱이 기존 방법론을 기반으로 국부적 디테일을 증폭하는 사후 편집 접근법들은 조명, 텍스처 또는 형태 측면에서 원본 이미지와 불일치하는 결과를 생성하는 경우가 많습니다. 이를 해결하기 위해 우리는 픽셀 수준 일관성을 향상시키기 위해 참조 주도 보정을 두 단계에 걸쳐 수행하는 디테일 인식 정제 프레임워크인 을 소개합니다. 먼저, 단일 이미지 확산 편집기를 개조하여 초안 이미지와 참조 이미지를 함께 입력받도록 미세 조정함으로써 구조적 정확도를 유지하면서 전역적으로 일관된 정제를 가능하게 합니다. 그런 다음 강화 학습을 적용하여 디테일 정확도와 의미적 일관성을 명시적으로 최적화하며 국소화된 편집 능력을 더욱 강화합니다. 광범위한 실험을 통해 이 도전적인 참조 기반 복원 벤치마크에서 오픈소스 및 상용 모델들을 모두 능가하는 충실하고 시각적으로 일관된 편집물을 생성하며 참조 정렬 및 미세 디테일 보존을 크게 향상시킴을 입증합니다.
English
Reference-guided image generation has progressed rapidly, yet current diffusion models still struggle to preserve fine-grained visual details when refining a generated image using a reference. This limitation arises because VAE-based latent compression inherently discards subtle texture information, causing identity- and attribute-specific cues to vanish. Moreover, post-editing approaches that amplify local details based on existing methods often produce results inconsistent with the original image in terms of lighting, texture, or shape. To address this, we introduce , a detail-aware refinement framework that performs two consecutive stages of reference-driven correction to enhance pixel-level consistency. We first adapt a single-image diffusion editor by fine-tuning it to jointly ingest the draft image and the reference image, enabling globally coherent refinement while maintaining structural fidelity. We then apply reinforcement learning to further strengthen localized editing capability, explicitly optimizing for detail accuracy and semantic consistency. Extensive experiments demonstrate that significantly improves reference alignment and fine-grained detail preservation, producing faithful and visually coherent edits that surpass both open-source and commercial models on challenging reference-guided restoration benchmarks.