URECA: Descrição Única de Região para Qualquer Coisa
URECA: Unique Region Caption Anything
April 7, 2025
Autores: Sangbeom Lim, Junwan Kim, Heeji Yoon, Jaewoo Jung, Seungryong Kim
cs.AI
Resumo
A descrição em nível de região tem como objetivo gerar descrições em linguagem natural para regiões específicas de imagens, destacando suas características distintivas. No entanto, os métodos existentes têm dificuldade em produzir legendas únicas em múltiplas granularidades, limitando sua aplicabilidade no mundo real. Para atender à necessidade de compreensão detalhada em nível de região, introduzimos o conjunto de dados URECA, um conjunto de dados em larga escala projetado para descrição de regiões em múltiplas granularidades. Diferentemente de conjuntos de dados anteriores que se concentram principalmente em objetos salientes, o URECA garante um mapeamento único e consistente entre regiões e legendas, incorporando uma diversidade de objetos, partes e elementos de fundo. Central a isso é um pipeline de curadoria de dados em etapas, onde cada etapa refina progressivamente a seleção de regiões e a geração de legendas. Ao aproveitar Modelos de Linguagem Multimodais de Grande Escala (MLLMs) em cada etapa, nosso pipeline produz legendas distintas e contextualmente fundamentadas, com maior precisão e diversidade semântica. Com base nesse conjunto de dados, apresentamos o URECA, um novo modelo de descrição projetado para codificar efetivamente regiões em múltiplas granularidades. O URECA mantém propriedades espaciais essenciais, como posição e forma, por meio de modificações simples, mas impactantes, nos MLLMs existentes, permitindo descrições de regiões refinadas e semanticamente ricas. Nossa abordagem introduz a modelagem dinâmica de máscaras e um codificador de máscaras de alta resolução para aumentar a singularidade das legendas. Experimentos mostram que o URECA alcança desempenho de ponta no conjunto de dados URECA e generaliza bem para benchmarks existentes de descrição em nível de região.
English
Region-level captioning aims to generate natural language descriptions for
specific image regions while highlighting their distinguishing features.
However, existing methods struggle to produce unique captions across
multi-granularity, limiting their real-world applicability. To address the need
for detailed region-level understanding, we introduce URECA dataset, a
large-scale dataset tailored for multi-granularity region captioning. Unlike
prior datasets that focus primarily on salient objects, URECA dataset ensures a
unique and consistent mapping between regions and captions by incorporating a
diverse set of objects, parts, and background elements. Central to this is a
stage-wise data curation pipeline, where each stage incrementally refines
region selection and caption generation. By leveraging Multimodal Large
Language Models (MLLMs) at each stage, our pipeline produces distinctive and
contextually grounded captions with improved accuracy and semantic diversity.
Building upon this dataset, we present URECA, a novel captioning model designed
to effectively encode multi-granularity regions. URECA maintains essential
spatial properties such as position and shape through simple yet impactful
modifications to existing MLLMs, enabling fine-grained and semantically rich
region descriptions. Our approach introduces dynamic mask modeling and a
high-resolution mask encoder to enhance caption uniqueness. Experiments show
that URECA achieves state-of-the-art performance on URECA dataset and
generalizes well to existing region-level captioning benchmarks.Summary
AI-Generated Summary