RefineAnything : Raffinement multimodal spécifique à la région pour des détails locaux parfaits

Résumé

Nous introduisons le raffinement d'image spécifique à une région comme un problème dédié : étant donné une image d'entrée et une région spécifiée par l'utilisateur (par exemple, un masque gribouillé ou une boîte englobante), l'objectif est de restaurer des détails fins tout en maintenant strictement inchangés tous les pixels non modifiés. Malgré les progrès rapides dans la génération d'images, les modèles modernes souffrent encore fréquemment d'un effondrement des détails locaux (par exemple, du texte, des logos et des structures fines déformés). Les modèles d'édition pilotés par instruction existants mettent l'accent sur des modifications sémantiques grossières et négligent souvent les défauts locaux subtils ou modifient par inadvertance l'arrière-plan, en particulier lorsque la région d'intérêt n'occupe qu'une petite partie d'une entrée à résolution fixe. Nous présentons RefineAnything, un modèle de raffinement multimodal basé sur la diffusion qui prend en charge à la fois le raffinement par référence et sans référence. En nous appuyant sur l'observation contre-intuitive que le recadrage et le redimensionnement peuvent améliorer considérablement la reconstruction locale sous une résolution d'entrée VAE fixe, nous proposons Focus-and-Refine, une stratégie de raffinement-et-recollage centrée sur la région qui améliore l'efficacité et l'efficience du raffinement en réallouant le budget de résolution à la région cible, tandis qu'un recollage par masque mélangé garantit une préservation stricte de l'arrière-plan. Nous introduisons en outre une Loss de Cohérence des Contours (Boundary Consistency Loss) pour réduire les artefacts de jointure et améliorer le naturel du recollage. Pour supporter ce nouveau cadre, nous construisons Refine-30K (20 000 échantillons avec référence et 10 000 sans référence) et introduisons RefineEval, un benchmark qui évalue à la fois la fidélité de la région modifiée et la cohérence de l'arrière-plan. Sur RefineEval, RefineAnything obtient de fortes améliorations par rapport à des bases de référence compétitives et une préservation de l'arrière-plan quasi parfaite, établissant une solution pratique pour le raffinement local de haute précision. Page du projet : https://limuloo.github.io/RefineAnything/.

English

We introduce region-specific image refinement as a dedicated problem setting: given an input image and a user-specified region (e.g., a scribble mask or a bounding box), the goal is to restore fine-grained details while keeping all non-edited pixels strictly unchanged. Despite rapid progress in image generation, modern models still frequently suffer from local detail collapse (e.g., distorted text, logos, and thin structures). Existing instruction-driven editing models emphasize coarse-grained semantic edits and often either overlook subtle local defects or inadvertently change the background, especially when the region of interest occupies only a small portion of a fixed-resolution input. We present RefineAnything, a multimodal diffusion-based refinement model that supports both reference-based and reference-free refinement. Building on a counter-intuitive observation that crop-and-resize can substantially improve local reconstruction under a fixed VAE input resolution, we propose Focus-and-Refine, a region-focused refinement-and-paste-back strategy that improves refinement effectiveness and efficiency by reallocating the resolution budget to the target region, while a blended-mask paste-back guarantees strict background preservation. We further introduce a boundary-aware Boundary Consistency Loss to reduce seam artifacts and improve paste-back naturalness. To support this new setting, we construct Refine-30K (20K reference-based and 10K reference-free samples) and introduce RefineEval, a benchmark that evaluates both edited-region fidelity and background consistency. On RefineEval, RefineAnything achieves strong improvements over competitive baselines and near-perfect background preservation, establishing a practical solution for high-precision local refinement. Project Page: https://limuloo.github.io/RefineAnything/.

RefineAnything : Raffinement multimodal spécifique à la région pour des détails locaux parfaits

RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details

Résumé

Support