ChatPaper.aiChatPaper

OmniRefiner: Verstärkungsgesteuerte lokale Diffusionsverfeinerung

OmniRefiner: Reinforcement-Guided Local Diffusion Refinement

November 25, 2025
papers.authors: Yaoli Liu, Ziheng Ouyang, Shengtao Lou, Yiren Song
cs.AI

papers.abstract

Referenzgestützte Bildgenerierung hat rasante Fortschritte gemacht, doch aktuelle Diffusionsmodelle haben nach wie vor Schwierigkeiten, fein granulierte visuelle Details zu bewahren, wenn ein generiertes Bild anhand einer Referenz verfeinert wird. Diese Einschränkung ergibt sich daraus, dass VAE-basierte latente Kompression subtile Texturinformationen inhärent verwirft, was dazu führt, dass identitäts- und attributspezifische Merkmale verloren gehen. Zudem erzeugen Nachbearbeitungsansätze, die lokale Details auf Basis bestehender Methoden verstärken, häufig Ergebnisse, die in Bezug auf Beleuchtung, Textur oder Form inkonsistent mit dem Originalbild sind. Um dies zu adressieren, führen wir ein, ein detailbewusstes Verfeinerungsframework, das zwei aufeinanderfolgende Stufen referenzgesteuerter Korrektur durchführt, um pixelgenaue Konsistenz zu verbessern. Zunächst passen wir einen Einzelbild-Diffusionseditor an, indem wir ihn feinabstimmen, um gleichzeitig das Entwurfsbild und das Referenzbild zu verarbeiten, was global kohärente Verfeinerung bei gleichzeitiger Wahrung der strukturellen Treue ermöglicht. Anwenden wenden wir verstärkendes Lernen an, um die lokalisierte Bearbeitungsfähigkeit weiter zu stärken und explizit für Detailgenauigkeit und semantische Konsistenz zu optimieren. Umfangreiche Experimente belegen, dass die Referenzausrichtung und die Erhaltung fein granulierter Details signifikant verbessert und dabei treue und visuell kohärente Bearbeitungen erzeugt, die sowohl Open-Source- als auch kommerzielle Modelle auf anspruchsvollen referenzgestützten Restaurierungsbenchmarks übertreffen.
English
Reference-guided image generation has progressed rapidly, yet current diffusion models still struggle to preserve fine-grained visual details when refining a generated image using a reference. This limitation arises because VAE-based latent compression inherently discards subtle texture information, causing identity- and attribute-specific cues to vanish. Moreover, post-editing approaches that amplify local details based on existing methods often produce results inconsistent with the original image in terms of lighting, texture, or shape. To address this, we introduce , a detail-aware refinement framework that performs two consecutive stages of reference-driven correction to enhance pixel-level consistency. We first adapt a single-image diffusion editor by fine-tuning it to jointly ingest the draft image and the reference image, enabling globally coherent refinement while maintaining structural fidelity. We then apply reinforcement learning to further strengthen localized editing capability, explicitly optimizing for detail accuracy and semantic consistency. Extensive experiments demonstrate that significantly improves reference alignment and fine-grained detail preservation, producing faithful and visually coherent edits that surpass both open-source and commercial models on challenging reference-guided restoration benchmarks.
PDF21December 2, 2025