RefineAnything: Multimodale regionsspezifische Verfeinerung für perfekte lokale Details

Zusammenfassung

Wir führen regionsspezifische Bildverfeinerung als eigenständiges Problemfeld ein: Gegeben ein Eingabebild und eine benutzerdefinierte Region (z.B. eine Schreibmaskierung oder ein Begrenzungsrahmen) besteht das Ziel darin, feingranulare Details wiederherzustellen, während alle nicht bearbeiteten Pixel strikt unverändert bleiben. Trotz rascher Fortschritte in der Bildgenerierung leiden moderne Modelle nach wie vor häufig unter lokalem Detailverlust (z.B. verzerrter Text, Logos und dünne Strukturen). Bestehende instruktionsgesteuerte Bearbeitungsmodelle legen den Schwerpunkt auf grobgranulare semantische Änderungen und übersehen oft subtile lokale Defekte oder verändern unbeabsichtigt den Hintergrund, insbesondere wenn die relevante Region nur einen kleinen Teil einer festen Eingabeauflösung einnimmt. Wir präsentieren RefineAnything, ein multimodales, diffusionsbasiertes Verfeinerungsmodell, das sowohl referenzbasierte als auch referenzfreie Verfeinerung unterstützt. Aufbauend auf der kontraintuitiven Beobachtung, dass Zuschneiden-und-Skalieren die lokale Rekonstruktion bei festgelegter VAE-Eingabeauflösung erheblich verbessern kann, schlagen wir Focus-and-Refine vor: eine regionsfokussierte Verfeinerungs-und-Einfüge-Strategie, die die Wirksamkeit und Effizienz der Verfeinerung steigert, indem das Auflösungsbudget auf die Zielregion umverteilt wird, während eine maskierte Rückeinblendung strikte Hintergrundbewahrung garantiert. Weiter führen wir einen grenzflächenbewussten Boundary Consistency Loss ein, um Nahtstellenartefakte zu reduzieren und die Natürlichkeit der Rückeinblendung zu verbessern. Um dieses neue Szenario zu unterstützen, erstellen wir Refine-30K (20.000 referenzbasierte und 10.000 referenzfreie Beispiele) und führen RefineEval ein, einen Benchmark, der sowohl die Fidelität des bearbeiteten Bereichs als auch die Hintergrundkonsistenz bewertet. Auf RefineEval erzielt RefineAnything deutliche Verbesserungen gegenüber starken Baseline-Modellen und nahezu perfekte Hintergrundbewahrung, wodurch eine praktikable Lösung für hochpräzise lokale Verfeinerung etabliert wird. Projektseite: https://limuloo.github.io/RefineAnything/.

English

We introduce region-specific image refinement as a dedicated problem setting: given an input image and a user-specified region (e.g., a scribble mask or a bounding box), the goal is to restore fine-grained details while keeping all non-edited pixels strictly unchanged. Despite rapid progress in image generation, modern models still frequently suffer from local detail collapse (e.g., distorted text, logos, and thin structures). Existing instruction-driven editing models emphasize coarse-grained semantic edits and often either overlook subtle local defects or inadvertently change the background, especially when the region of interest occupies only a small portion of a fixed-resolution input. We present RefineAnything, a multimodal diffusion-based refinement model that supports both reference-based and reference-free refinement. Building on a counter-intuitive observation that crop-and-resize can substantially improve local reconstruction under a fixed VAE input resolution, we propose Focus-and-Refine, a region-focused refinement-and-paste-back strategy that improves refinement effectiveness and efficiency by reallocating the resolution budget to the target region, while a blended-mask paste-back guarantees strict background preservation. We further introduce a boundary-aware Boundary Consistency Loss to reduce seam artifacts and improve paste-back naturalness. To support this new setting, we construct Refine-30K (20K reference-based and 10K reference-free samples) and introduce RefineEval, a benchmark that evaluates both edited-region fidelity and background consistency. On RefineEval, RefineAnything achieves strong improvements over competitive baselines and near-perfect background preservation, establishing a practical solution for high-precision local refinement. Project Page: https://limuloo.github.io/RefineAnything/.

RefineAnything: Multimodale regionsspezifische Verfeinerung für perfekte lokale Details

RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details

Zusammenfassung

Support