OmniRefiner: Refinamento Local de Difusão Guiado por Reforço
OmniRefiner: Reinforcement-Guided Local Diffusion Refinement
November 25, 2025
Autores: Yaoli Liu, Ziheng Ouyang, Shengtao Lou, Yiren Song
cs.AI
Resumo
A geração de imagens guiada por referência progrediu rapidamente, no entanto, os modelos de difusão atuais ainda lutam para preservar detalhes visuais refinados ao aperfeiçoar uma imagem gerada usando uma referência. Esta limitação surge porque a compressão latente baseada em VAE descarta inerentemente informações de textura subtis, fazendo com que pistas de identidade e atributos específicos desapareçam. Além disso, abordagens de pós-edição que amplificam detalhes locais com base em métodos existentes frequentemente produzem resultados inconsistentes com a imagem original em termos de iluminação, textura ou forma. Para resolver isto, nós introduzimos , uma estrutura de refinamento consciente dos detalhes que executa dois estágios consecutivos de correção orientada por referência para melhorar a consistência a nível de píxel. Primeiro, adaptamos um editor de difusão de imagem única, ajustando-o para ingerir conjuntamente a imagem preliminar e a imagem de referência, permitindo um refinamento globalmente coerente enquanto mantém a fidelidade estrutural. Em seguida, aplicamos aprendizagem por reforço para fortalecer ainda mais a capacidade de edição localizada, otimizando explicitamente para precisão de detalhes e consistência semântica. Experiências extensivas demonstram que melhora significativamente o alinhamento com a referência e a preservação de detalhes refinados, produzindo edições fiéis e visualmente coerentes que superam tanto modelos de código aberto como comerciais em benchmarks desafiadores de restauração guiada por referência.
English
Reference-guided image generation has progressed rapidly, yet current diffusion models still struggle to preserve fine-grained visual details when refining a generated image using a reference. This limitation arises because VAE-based latent compression inherently discards subtle texture information, causing identity- and attribute-specific cues to vanish. Moreover, post-editing approaches that amplify local details based on existing methods often produce results inconsistent with the original image in terms of lighting, texture, or shape. To address this, we introduce , a detail-aware refinement framework that performs two consecutive stages of reference-driven correction to enhance pixel-level consistency. We first adapt a single-image diffusion editor by fine-tuning it to jointly ingest the draft image and the reference image, enabling globally coherent refinement while maintaining structural fidelity. We then apply reinforcement learning to further strengthen localized editing capability, explicitly optimizing for detail accuracy and semantic consistency. Extensive experiments demonstrate that significantly improves reference alignment and fine-grained detail preservation, producing faithful and visually coherent edits that surpass both open-source and commercial models on challenging reference-guided restoration benchmarks.