RefineAnything: Raffinamento multimodale specifico per regione per dettagli locali perfetti

Abstract

Introduciamo l'affinamento regionale delle immagini come un ambito di problema dedicato: dato un input immagine e una regione specificata dall'utente (ad esempio, una maschera a schizzo o un rettangolo di delimitazione), l'obiettivo è ripristinare dettagli granulari mantenendo rigorosamente invariati tutti i pixel non modificati. Nonostante i rapidi progressi nella generazione di immagini, i modelli moderni soffrono ancora frequentemente di collasso dei dettagli locali (ad esempio, testo distorto, loghi e strutture sottili). I modelli di editing guidati da istruzioni esistenti enfatizzano modifiche semantiche a grana grossa e spesso trascurano difetti locali sottili o alterano involontariamente lo sfondo, specialmente quando la regione di interesse occupa solo una piccola porzione di un input a risoluzione fissa. Presentiamo RefineAnything, un modello di affinamento multimodale basato su diffusion che supporta sia l'affinamento con riferimento che senza riferimento. Basandoci sull'osservazione controintuitiva che il ritaglio e il ridimensionamento possono migliorare sostanzialmente la ricostruzione locale con una risoluzione di input VAE fissa, proponiamo Focus-and-Refine, una strategia di affinamento e reinserimento concentrata sulla regione che migliora l'efficacia e l'efficienza dell'affinamento riallocando il budget di risoluzione alla regione target, mentre un reinserimento con maschera sfumata garantisce una rigorosa preservazione dello sfondo. Introduciamo inoltre una Boundary Consistency Loss (Perdita di Coerenza del Contorno) consapevole del confine per ridurre gli artefatti di giunzione e migliorare il realismo del reinserimento. Per supportare questo nuovo ambito, costruiamo Refine-30K (20.000 campioni con riferimento e 10.000 senza riferimento) e introduciamo RefineEval, un benchmark che valuta sia la fedeltà della regione modificata che la coerenza dello sfondo. Su RefineEval, RefineAnything ottiene miglioramenti significativi rispetto a baseline competitive e una preservazione dello sfondo quasi perfetta, stabilendo una soluzione pratica per l'affinamento locale di alta precisione. Pagina del progetto: https://limuloo.github.io/RefineAnything/.

English

We introduce region-specific image refinement as a dedicated problem setting: given an input image and a user-specified region (e.g., a scribble mask or a bounding box), the goal is to restore fine-grained details while keeping all non-edited pixels strictly unchanged. Despite rapid progress in image generation, modern models still frequently suffer from local detail collapse (e.g., distorted text, logos, and thin structures). Existing instruction-driven editing models emphasize coarse-grained semantic edits and often either overlook subtle local defects or inadvertently change the background, especially when the region of interest occupies only a small portion of a fixed-resolution input. We present RefineAnything, a multimodal diffusion-based refinement model that supports both reference-based and reference-free refinement. Building on a counter-intuitive observation that crop-and-resize can substantially improve local reconstruction under a fixed VAE input resolution, we propose Focus-and-Refine, a region-focused refinement-and-paste-back strategy that improves refinement effectiveness and efficiency by reallocating the resolution budget to the target region, while a blended-mask paste-back guarantees strict background preservation. We further introduce a boundary-aware Boundary Consistency Loss to reduce seam artifacts and improve paste-back naturalness. To support this new setting, we construct Refine-30K (20K reference-based and 10K reference-free samples) and introduce RefineEval, a benchmark that evaluates both edited-region fidelity and background consistency. On RefineEval, RefineAnything achieves strong improvements over competitive baselines and near-perfect background preservation, establishing a practical solution for high-precision local refinement. Project Page: https://limuloo.github.io/RefineAnything/.

RefineAnything: Raffinamento multimodale specifico per regione per dettagli locali perfetti

RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details

Abstract

Support