ChatPaper.aiChatPaper

OmniRefiner: Raffinamento Locale della Diffusione Guidato da Rinforzo

OmniRefiner: Reinforcement-Guided Local Diffusion Refinement

November 25, 2025
Autori: Yaoli Liu, Ziheng Ouyang, Shengtao Lou, Yiren Song
cs.AI

Abstract

La generazione di immagini guidata da riferimento ha compiuto rapidi progressi, tuttavia gli attuali modelli di diffusione faticano ancora a preservare dettagli visivi granulari quando perfezionano un'immagine generata utilizzando un riferimento. Questa limitazione sorge perché la compressione latente basata su VAE scarta intrinsecamente le sottili informazioni di texture, causando la scomparsa di indizi identitari e attributo-specifici. Inoltre, gli approcci di post-editing che amplificano i dettagli locali basati su metodi esistenti spesso producono risultati inconsistenti con l'immagine originale in termini di illuminazione, texture o forma. Per affrontare ciò, introduciamo , un framework di perfezionamento consapevole dei dettagli che esegue due stadi consecutivi di correzione guidata da riferimento per migliorare la coerenza a livello di pixel. Adattiamo prima un editor di diffusione a immagine singola mettendolo a punto per ingerire congiuntamente l'immagine bozza e l'immagine di riferimento, consentendo un perfezionamento globalmente coerente mantenendo la fedeltà strutturale. Applichiamo poi l'apprendimento per rinforzo per rafforzare ulteriormente la capacità di editing localizzato, ottimizzando esplicitamente per l'accuratezza dei dettagli e la coerenza semantica. Esperimenti estensivi dimostrano che migliora significativamente l'allineamento al riferimento e la preservazione dei dettagli granulari, producendo modifiche fedeli e visivamente coerenti che superano sia i modelli open-source che quelli commerciali su benchmark impegnativi di restauro guidato da riferimento.
English
Reference-guided image generation has progressed rapidly, yet current diffusion models still struggle to preserve fine-grained visual details when refining a generated image using a reference. This limitation arises because VAE-based latent compression inherently discards subtle texture information, causing identity- and attribute-specific cues to vanish. Moreover, post-editing approaches that amplify local details based on existing methods often produce results inconsistent with the original image in terms of lighting, texture, or shape. To address this, we introduce , a detail-aware refinement framework that performs two consecutive stages of reference-driven correction to enhance pixel-level consistency. We first adapt a single-image diffusion editor by fine-tuning it to jointly ingest the draft image and the reference image, enabling globally coherent refinement while maintaining structural fidelity. We then apply reinforcement learning to further strengthen localized editing capability, explicitly optimizing for detail accuracy and semantic consistency. Extensive experiments demonstrate that significantly improves reference alignment and fine-grained detail preservation, producing faithful and visually coherent edits that surpass both open-source and commercial models on challenging reference-guided restoration benchmarks.
PDF21December 2, 2025