RefineAnything: Refinamiento Multimodal Específico por Región para Detalles Locales Perfectos
RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details
April 8, 2026
Autores: Dewei Zhou, You Li, Zongxin Yang, Yi Yang
cs.AI
Resumen
Introducimos el refinamiento de imágenes específico por región como un problema dedicado: dada una imagen de entrada y una región especificada por el usuario (por ejemplo, una máscara de garabato o un cuadro delimitador), el objetivo es restaurar detalles finos manteniendo estrictamente inalterados todos los píxeles no editados. A pesar del rápido progreso en la generación de imágenes, los modelos modernos aún sufren frecuentemente de colapso de detalles locales (por ejemplo, texto distorsionado, logotipos y estructuras delgadas). Los modelos de edición basados en instrucciones existentes enfatizan ediciones semánticas de grano grueso y a menudo pasan por alto defectos locales sutiles o alteran inadvertidamente el fondo, especialmente cuando la región de interés ocupa solo una pequeña porción de una entrada de resolución fija. Presentamos RefineAnything, un modelo de refinamiento multimodal basado en difusión que admite refinamiento tanto con referencia como sin referencia. Partiendo de la observación contraintuitiva de que recortar y redimensionar puede mejorar sustancialmente la reconstrucción local bajo una resolución de entrada VAE fija, proponemos Focus-and-Refine, una estrategia de refinamiento centrado en la región y posterior pegado que mejora la efectividad y eficiencia del refinamiento reasignando el presupuesto de resolución a la región objetivo, mientras que un pegado con máscara de fusión garantiza una preservación estricta del fondo. Además, introducimos una Pérdida de Consistencia de Límites (Boundary Consistency Loss) consciente de los bordes para reducir artefactos de unión y mejorar la naturalidad del pegado. Para respaldar este nuevo escenario, construimos Refine-30K (20K muestras con referencia y 10K sin referencia) e introducimos RefineEval, un benchmark que evalúa tanto la fidelidad de la región editada como la consistencia del fondo. En RefineEval, RefineAnything logra fuertes mejoras sobre líneas base competitivas y una preservación del fondo casi perfecta, estableciendo una solución práctica para el refinamiento local de alta precisión. Página del proyecto: https://limuloo.github.io/RefineAnything/.
English
We introduce region-specific image refinement as a dedicated problem setting: given an input image and a user-specified region (e.g., a scribble mask or a bounding box), the goal is to restore fine-grained details while keeping all non-edited pixels strictly unchanged. Despite rapid progress in image generation, modern models still frequently suffer from local detail collapse (e.g., distorted text, logos, and thin structures). Existing instruction-driven editing models emphasize coarse-grained semantic edits and often either overlook subtle local defects or inadvertently change the background, especially when the region of interest occupies only a small portion of a fixed-resolution input. We present RefineAnything, a multimodal diffusion-based refinement model that supports both reference-based and reference-free refinement. Building on a counter-intuitive observation that crop-and-resize can substantially improve local reconstruction under a fixed VAE input resolution, we propose Focus-and-Refine, a region-focused refinement-and-paste-back strategy that improves refinement effectiveness and efficiency by reallocating the resolution budget to the target region, while a blended-mask paste-back guarantees strict background preservation. We further introduce a boundary-aware Boundary Consistency Loss to reduce seam artifacts and improve paste-back naturalness. To support this new setting, we construct Refine-30K (20K reference-based and 10K reference-free samples) and introduce RefineEval, a benchmark that evaluates both edited-region fidelity and background consistency. On RefineEval, RefineAnything achieves strong improvements over competitive baselines and near-perfect background preservation, establishing a practical solution for high-precision local refinement. Project Page: https://limuloo.github.io/RefineAnything/.