ChatPaper.aiChatPaper

OmniRefiner: Refinamiento Local de Difusión Guiado por Refuerzo

OmniRefiner: Reinforcement-Guided Local Diffusion Refinement

November 25, 2025
Autores: Yaoli Liu, Ziheng Ouyang, Shengtao Lou, Yiren Song
cs.AI

Resumen

La generación de imágenes guiada por referencia ha progresado rápidamente; sin embargo, los modelos de difusión actuales aún tienen dificultades para preservar detalles visuales de grano fino al refinar una imagen generada utilizando una referencia. Esta limitación surge porque la compresión latente basada en VAE descarta inherentemente información de textura sutil, haciendo que desaparezcan las claves específicas de identidad y atributos. Además, los enfoques de pos-edición que amplifican los detalles locales basados en métodos existentes a menudo producen resultados inconsistentes con la imagen original en términos de iluminación, textura o forma. Para abordar esto, presentamos , un marco de refinamiento consciente de los detalles que realiza dos etapas consecutivas de corrección impulsada por referencia para mejorar la consistencia a nivel de píxel. Primero adaptamos un editor de difusión de imagen única afinándolo para que ingiera conjuntamente la imagen borrador y la imagen de referencia, permitiendo un refinamiento globalmente coherente mientras mantiene la fidelidad estructural. Luego aplicamos aprendizaje por refuerzo para fortalecer aún más la capacidad de edición localizada, optimizando explícitamente para la precisión de detalles y la consistencia semántica. Experimentos extensivos demuestran que mejora significativamente la alineación con la referencia y la preservación de detalles de grano fino, produciendo ediciones fieles y visualmente coherentes que superan tanto a modelos de código abierto como comerciales en benchmarks desafiantes de restauración guiada por referencia.
English
Reference-guided image generation has progressed rapidly, yet current diffusion models still struggle to preserve fine-grained visual details when refining a generated image using a reference. This limitation arises because VAE-based latent compression inherently discards subtle texture information, causing identity- and attribute-specific cues to vanish. Moreover, post-editing approaches that amplify local details based on existing methods often produce results inconsistent with the original image in terms of lighting, texture, or shape. To address this, we introduce , a detail-aware refinement framework that performs two consecutive stages of reference-driven correction to enhance pixel-level consistency. We first adapt a single-image diffusion editor by fine-tuning it to jointly ingest the draft image and the reference image, enabling globally coherent refinement while maintaining structural fidelity. We then apply reinforcement learning to further strengthen localized editing capability, explicitly optimizing for detail accuracy and semantic consistency. Extensive experiments demonstrate that significantly improves reference alignment and fine-grained detail preservation, producing faithful and visually coherent edits that surpass both open-source and commercial models on challenging reference-guided restoration benchmarks.
PDF21December 2, 2025