RefineAnything: Refinamento Multimodal Específico por Região para Detalhes Locais Perfeitos

Resumo

Apresentamos o refinamento de imagem específico por região como um cenário de problema dedicado: dada uma imagem de entrada e uma região especificada pelo utilizador (por exemplo, uma máscara de rabisco ou uma caixa delimitadora), o objetivo é restaurar detalhes de alta granularidade mantendo todos os píxeis não editados estritamente inalterados. Apesar do rápido progresso na geração de imagens, os modelos modernos ainda sofrem frequentemente de colapso de detalhes locais (por exemplo, texto distorcido, logótipos e estruturas finas). Os modelos de edição orientados por instrução existentes enfatizam edições semânticas de granularidade grossa e muitas vezes ignoram defeitos locais subtis ou alteram inadvertidamente o fundo, especialmente quando a região de interesse ocupa apenas uma pequena porção de uma entrada de resolução fixa. Apresentamos o RefineAnything, um modelo de refinamento baseado em difusão multimodal que suporta refinamento baseado em referência e sem referência. Com base na observação contraintuitiva de que o recorte e redimensionamento pode melhorar substancialmente a reconstrução local sob uma resolução de entrada VAE fixa, propomos Focus-and-Refine, uma estratégia de refinamento e colagem com foco regional que melhora a eficácia e eficiência do refinamento ao realocar o orçamento de resolução para a região-alvo, enquanto uma colagem com máscara de fusão garante a preservação estrita do fundo. Introduzimos ainda uma Perda de Consistência de Limite consciente da fronteira para reduzir artefactos de junção e melhorar a naturalidade da colagem. Para suportar este novo cenário, construímos o Refine-30K (20K amostras baseadas em referência e 10K amostras sem referência) e introduzimos o RefineEval, um benchmark que avalia tanto a fidelidade da região editada como a consistência do fundo. No RefineEval, o RefineAnything alcança fortes melhorias em relação a linhas de base competitivas e uma preservação de fundo quase perfeita, estabelecendo uma solução prática para o refinamento local de alta precisão. Página do Projeto: https://limuloo.github.io/RefineAnything/.

English

We introduce region-specific image refinement as a dedicated problem setting: given an input image and a user-specified region (e.g., a scribble mask or a bounding box), the goal is to restore fine-grained details while keeping all non-edited pixels strictly unchanged. Despite rapid progress in image generation, modern models still frequently suffer from local detail collapse (e.g., distorted text, logos, and thin structures). Existing instruction-driven editing models emphasize coarse-grained semantic edits and often either overlook subtle local defects or inadvertently change the background, especially when the region of interest occupies only a small portion of a fixed-resolution input. We present RefineAnything, a multimodal diffusion-based refinement model that supports both reference-based and reference-free refinement. Building on a counter-intuitive observation that crop-and-resize can substantially improve local reconstruction under a fixed VAE input resolution, we propose Focus-and-Refine, a region-focused refinement-and-paste-back strategy that improves refinement effectiveness and efficiency by reallocating the resolution budget to the target region, while a blended-mask paste-back guarantees strict background preservation. We further introduce a boundary-aware Boundary Consistency Loss to reduce seam artifacts and improve paste-back naturalness. To support this new setting, we construct Refine-30K (20K reference-based and 10K reference-free samples) and introduce RefineEval, a benchmark that evaluates both edited-region fidelity and background consistency. On RefineEval, RefineAnything achieves strong improvements over competitive baselines and near-perfect background preservation, establishing a practical solution for high-precision local refinement. Project Page: https://limuloo.github.io/RefineAnything/.

RefineAnything: Refinamento Multimodal Específico por Região para Detalhes Locais Perfeitos

RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details

Resumo

Support