OmniRefiner: Lokaal diffusieverfijning met reinforcement-guidance
OmniRefiner: Reinforcement-Guided Local Diffusion Refinement
November 25, 2025
Auteurs: Yaoli Liu, Ziheng Ouyang, Shengtao Lou, Yiren Song
cs.AI
Samenvatting
Referentiegestuurde beeldgeneratie heeft een snelle vooruitgang geboekt, maar huidige diffusiemodellen hebben nog steeds moeite met het behouden van fijnmazige visuele details bij het verfijnen van een gegenereerde afbeelding aan de hand van een referentie. Deze beperking ontstaat omdat latentcompressie op basis van VAE's inherent subtiele textuurinformatie verwijdert, waardoor identiteits- en attribuutspecifieke signalen verloren gaan. Bovendien leveren benaderingen voor nabewerking die lokale details versterken op basis van bestaande methoden vaak resultaten op die inconsistent zijn met de originele afbeelding wat betreft belichting, textuur of vorm. Om dit aan te pakken, introduceren we , een detailbewust verfijningsraamwerk dat twee opeenvolgende fasen van referentiegestuurde correctie uitvoert om pixelconsistentie te verbeteren. We passen eerst een diffusie-editor voor enkele afbeeldingen aan door deze te finetunen om zowel de conceptafbeelding als de referentieafbeelding gezamenlijk te verwerken, waardoor wereldwijd coherente verfijning mogelijk wordt terwijl structurele trouw behouden blijft. Vervolgens passen we reinforcement learning toe om het gelokaliseerde bewerkingsvermogen verder te versterken, waarbij expliciet wordt geoptimaliseerd voor detailnauwkeurigheid en semantische consistentie. Uitgebreide experimenten tonen aan dat de referentie-uitlijning en het behoud van fijnmazige details aanzienlijk verbetert, en trouwe en visueel coherente bewerkingen produceert die zowel opensource- als commerciële modellen overtreffen op uitdagende referentiegestuurde restauratiebenchmarks.
English
Reference-guided image generation has progressed rapidly, yet current diffusion models still struggle to preserve fine-grained visual details when refining a generated image using a reference. This limitation arises because VAE-based latent compression inherently discards subtle texture information, causing identity- and attribute-specific cues to vanish. Moreover, post-editing approaches that amplify local details based on existing methods often produce results inconsistent with the original image in terms of lighting, texture, or shape. To address this, we introduce , a detail-aware refinement framework that performs two consecutive stages of reference-driven correction to enhance pixel-level consistency. We first adapt a single-image diffusion editor by fine-tuning it to jointly ingest the draft image and the reference image, enabling globally coherent refinement while maintaining structural fidelity. We then apply reinforcement learning to further strengthen localized editing capability, explicitly optimizing for detail accuracy and semantic consistency. Extensive experiments demonstrate that significantly improves reference alignment and fine-grained detail preservation, producing faithful and visually coherent edits that surpass both open-source and commercial models on challenging reference-guided restoration benchmarks.