OmniRefiner: Локальное уточнение диффузии с управлением на основе обучения с подкреплением
OmniRefiner: Reinforcement-Guided Local Diffusion Refinement
November 25, 2025
Авторы: Yaoli Liu, Ziheng Ouyang, Shengtao Lou, Yiren Song
cs.AI
Аннотация
Генерация изображений с использованием референсов стремительно развивается, однако современные диффузионные модели по-прежнему испытывают трудности с сохранением мелкозернистых визуальных деталей при доработке сгенерированного изображения на основе образца. Это ограничение возникает из-за того, что латентное сжатие на основе VAE по своей природе отбрасывает тонкую текстурную информацию, что приводит к исчезновению идентификационных и атрибутивных признаков. Более того, подходы к постобработке, усиливающие локальные детали на основе существующих методов, часто дают результаты, не согласованные с исходным изображением по освещению, текстуре или форме. Для решения этой проблемы мы представляем — фреймворк детализированной доработки, который выполняет две последовательные стадии коррекции на основе референса для повышения согласованности на пиксельном уровне. Сначала мы адаптируем редактор диффузии для одиночных изображений, дообучая его для совместной обработки чернового изображения и образца, что обеспечивает глобально согласованную доработку при сохранении структурной точности. Затем мы применяем обучение с подкреплением для дальнейшего усиления возможностей локализованного редактирования, явно оптимизируя точность деталей и семантическую согласованность. Многочисленные эксперименты демонстрируют, что значительно улучшает соответствие референсу и сохранение мелкозернистых деталей, создавая достоверные и визуально согласованные правки, превосходящие как открытые, так и коммерческие модели на сложных бенчмарках референс-ориентированного восстановления.
English
Reference-guided image generation has progressed rapidly, yet current diffusion models still struggle to preserve fine-grained visual details when refining a generated image using a reference. This limitation arises because VAE-based latent compression inherently discards subtle texture information, causing identity- and attribute-specific cues to vanish. Moreover, post-editing approaches that amplify local details based on existing methods often produce results inconsistent with the original image in terms of lighting, texture, or shape. To address this, we introduce , a detail-aware refinement framework that performs two consecutive stages of reference-driven correction to enhance pixel-level consistency. We first adapt a single-image diffusion editor by fine-tuning it to jointly ingest the draft image and the reference image, enabling globally coherent refinement while maintaining structural fidelity. We then apply reinforcement learning to further strengthen localized editing capability, explicitly optimizing for detail accuracy and semantic consistency. Extensive experiments demonstrate that significantly improves reference alignment and fine-grained detail preservation, producing faithful and visually coherent edits that surpass both open-source and commercial models on challenging reference-guided restoration benchmarks.