RefineAnything: Мультимодальное уточнение с учетом региональных особенностей для безупречной детализации локальных элементов

Аннотация

Мы вводим задачу регионального уточнения изображения как специализированную постановку: имея входное изображение и заданную пользователем область (например, маску-рисунок или ограничивающую рамку), цель состоит в восстановлении детализированных элементов при строгом сохранении всех неизменяемых пикселей. Несмотря на быстрый прогресс в генерации изображений, современные модели по-прежнему часто страдают от локального коллапса деталей (например, искаженного текста, логотипов и тонких структур). Существующие модели редактирования по инструкциям делают акцент на грубых семантических правках и часто либо упускают из виду мелкие локальные дефекты, либо непреднамеренно изменяют фон, особенно когда интересующая область занимает лишь небольшую часть входного изображения с фиксированным разрешением. Мы представляем RefineAnything, мультимодальную модель уточнения на основе диффузии, которая поддерживает как уточнение на основе референса, так и без него. Основываясь на контринтуитивном наблюдении, что операция "вырезать и изменить размер" может существенно улучшить локальную реконструкцию при фиксированном входном разрешении VAE, мы предлагаем стратегию "Сфокусируйся и Уточни" — подход, ориентированный на область, который включает уточнение и обратную вставку. Эта стратегия повышает эффективность и результативность уточнения за счет перераспределения ресурсов разрешения на целевую область, в то время как обратная вставка со смешанной маской гарантирует строгое сохранение фона. Дополнительно мы вводим Boundary Consistency Loss, учитывающий границы, для уменьшения швов и повышения естественности обратной вставки. Для поддержки этой новой задачи мы создали набор данных Refine-30K (20 тыс. примеров с референсом и 10 тыс. без него) и представляем RefineEval — бенчмарк, оценивающий как точность измененной области, так и согласованность фона. На RefineEval модель RefineAnything демонстрирует значительное улучшение по сравнению с конкурентоспособными базовыми методами и почти идеальное сохранение фона, устанавливая практичное решение для высокоточного локального уточнения. Страница проекта: https://limuloo.github.io/RefineAnything/.

English

We introduce region-specific image refinement as a dedicated problem setting: given an input image and a user-specified region (e.g., a scribble mask or a bounding box), the goal is to restore fine-grained details while keeping all non-edited pixels strictly unchanged. Despite rapid progress in image generation, modern models still frequently suffer from local detail collapse (e.g., distorted text, logos, and thin structures). Existing instruction-driven editing models emphasize coarse-grained semantic edits and often either overlook subtle local defects or inadvertently change the background, especially when the region of interest occupies only a small portion of a fixed-resolution input. We present RefineAnything, a multimodal diffusion-based refinement model that supports both reference-based and reference-free refinement. Building on a counter-intuitive observation that crop-and-resize can substantially improve local reconstruction under a fixed VAE input resolution, we propose Focus-and-Refine, a region-focused refinement-and-paste-back strategy that improves refinement effectiveness and efficiency by reallocating the resolution budget to the target region, while a blended-mask paste-back guarantees strict background preservation. We further introduce a boundary-aware Boundary Consistency Loss to reduce seam artifacts and improve paste-back naturalness. To support this new setting, we construct Refine-30K (20K reference-based and 10K reference-free samples) and introduce RefineEval, a benchmark that evaluates both edited-region fidelity and background consistency. On RefineEval, RefineAnything achieves strong improvements over competitive baselines and near-perfect background preservation, establishing a practical solution for high-precision local refinement. Project Page: https://limuloo.github.io/RefineAnything/.

RefineAnything: Мультимодальное уточнение с учетом региональных особенностей для безупречной детализации локальных элементов

RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details

Аннотация

Support