RefineAnything: Multimodale regiospecifieke verfijning voor perfecte lokale details
RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details
April 8, 2026
Auteurs: Dewei Zhou, You Li, Zongxin Yang, Yi Yang
cs.AI
Samenvatting
Wij introduceren regiogerichte beeldverfijning als een toegewijd probleemstelling: gegeven een invoerbeeld en een door de gebruiker gespecificeerd gebied (bijvoorbeeld een gekrabbeld masker of een begrenzingskader), is het doel om fijngranulaire details te herstellen terwijl alle niet-bewerkte pixels strikt onveranderd blijven. Ondanks snelle vooruitgang in beeldgeneratie lijden moderne modellen nog steeds vaak aan plaatselijk detailverval (zoals vervormde tekst, logo's en dunne structuren). Bestaande instructiegestuurde bewerkingsmodellen leggen de nadruk op grove semantische aanpassingen en negeren vaak subtiele lokale defecten of veranderen onbedoeld de achtergrond, vooral wanneer de regio van interesse slechts een klein deel van een invoer met vaste resolutie inneemt. Wij presenteren RefineAnything, een multimodaal op diffusie gebaseerd verfijningsmodel dat zowel referentiegebaseerde als referentievrije verfijning ondersteunt. Voortbouwend op de contra-intuïtieve observatie dat bijsnijden-en-vergroten de lokale reconstructie aanzienlijk kan verbeteren onder een vaste VAE-invoerresolutie, stellen wij Focus-and-Refine voor, een regiogerichte verfijnings-en-terugplak-strategie die de verfijnings-effectiviteit en -efficiëntie verbetert door het resolutiebudget toe te wijzen aan het doelgebied, terwijl een gemengd-masker terugplakken strikte achtergrondbehoud garandeert. Wij introduceren verder een randbewust Boundary Consistency Loss om naadartefacten te verminderen en de natuurlijkheid van het terugplakken te verbeteren. Om deze nieuwe setting te ondersteunen, construeren wij Refine-30K (20K referentiegebaseerde en 10K referentievrije samples) en introduceren RefineEval, een benchmark die zowel de getrouwheid van het bewerkte gebied als de achtergrondconsistentie evalueert. Op RefineEval behaalt RefineAnything sterke verbeteringen ten opzichte van competitieve baselines en bijna perfect achtergrondbehoud, waarmee een praktische oplossing voor hoogprecisie lokale verfijning wordt gevestigd. Projectpagina: https://limuloo.github.io/RefineAnything/.
English
We introduce region-specific image refinement as a dedicated problem setting: given an input image and a user-specified region (e.g., a scribble mask or a bounding box), the goal is to restore fine-grained details while keeping all non-edited pixels strictly unchanged. Despite rapid progress in image generation, modern models still frequently suffer from local detail collapse (e.g., distorted text, logos, and thin structures). Existing instruction-driven editing models emphasize coarse-grained semantic edits and often either overlook subtle local defects or inadvertently change the background, especially when the region of interest occupies only a small portion of a fixed-resolution input. We present RefineAnything, a multimodal diffusion-based refinement model that supports both reference-based and reference-free refinement. Building on a counter-intuitive observation that crop-and-resize can substantially improve local reconstruction under a fixed VAE input resolution, we propose Focus-and-Refine, a region-focused refinement-and-paste-back strategy that improves refinement effectiveness and efficiency by reallocating the resolution budget to the target region, while a blended-mask paste-back guarantees strict background preservation. We further introduce a boundary-aware Boundary Consistency Loss to reduce seam artifacts and improve paste-back naturalness. To support this new setting, we construct Refine-30K (20K reference-based and 10K reference-free samples) and introduce RefineEval, a benchmark that evaluates both edited-region fidelity and background consistency. On RefineEval, RefineAnything achieves strong improvements over competitive baselines and near-perfect background preservation, establishing a practical solution for high-precision local refinement. Project Page: https://limuloo.github.io/RefineAnything/.