OmniRefiner : Raffinement local par diffusion guidé par renforcement
OmniRefiner: Reinforcement-Guided Local Diffusion Refinement
November 25, 2025
papers.authors: Yaoli Liu, Ziheng Ouyang, Shengtao Lou, Yiren Song
cs.AI
papers.abstract
La génération d'images guidée par référence a progressé rapidement, mais les modèles de diffusion actuels peinent encore à préserver les détails visuels fins lors du raffinement d'une image générée à l'aide d'une référence. Cette limitation provient du fait que la compression latente basée sur les VAE supprime intrinsèquement les informations texturales subtiles, entraînant la disparition d'indices liés à l'identité et aux attributs. De plus, les approches de post-édition qui amplifient les détails locaux à partir de méthodes existantes produisent souvent des résultats incohérents avec l'image originale en termes d'éclairage, de texture ou de forme. Pour y remédier, nous présentons , un cadre de raffinement sensible aux détails qui effectue deux étapes consécutives de correction pilotée par référence pour améliorer la cohérence au niveau pixel. Nous adaptons d’abord un éditeur de diffusion à image unique en le fine-tunant pour qu'il intègre conjointement l'image brouillon et l'image de référence, permettant un raffinement globalement cohérent tout en préservant la fidélité structurelle. Nous appliquons ensuite un apprentissage par renforcement pour renforcer davantage la capacité d'édition localisée, en optimisant explicitement la précision des détails et la cohérence sémantique. Des expériences approfondies démontrent que améliore significativement l'alignement sur la référence et la préservation des détails fins, produisant des éditions fidèles et visuellement cohérentes qui surpassent les modèles open-source et commerciaux sur des benchmarks exigeants de restauration guidée par référence.
English
Reference-guided image generation has progressed rapidly, yet current diffusion models still struggle to preserve fine-grained visual details when refining a generated image using a reference. This limitation arises because VAE-based latent compression inherently discards subtle texture information, causing identity- and attribute-specific cues to vanish. Moreover, post-editing approaches that amplify local details based on existing methods often produce results inconsistent with the original image in terms of lighting, texture, or shape. To address this, we introduce , a detail-aware refinement framework that performs two consecutive stages of reference-driven correction to enhance pixel-level consistency. We first adapt a single-image diffusion editor by fine-tuning it to jointly ingest the draft image and the reference image, enabling globally coherent refinement while maintaining structural fidelity. We then apply reinforcement learning to further strengthen localized editing capability, explicitly optimizing for detail accuracy and semantic consistency. Extensive experiments demonstrate that significantly improves reference alignment and fine-grained detail preservation, producing faithful and visually coherent edits that surpass both open-source and commercial models on challenging reference-guided restoration benchmarks.