ChatPaper.aiChatPaper

URECA: Descripción Única de Regiones para Cualquier Objeto

URECA: Unique Region Caption Anything

April 7, 2025
Autores: Sangbeom Lim, Junwan Kim, Heeji Yoon, Jaewoo Jung, Seungryong Kim
cs.AI

Resumen

La descripción a nivel de región tiene como objetivo generar descripciones en lenguaje natural para regiones específicas de una imagen, destacando sus características distintivas. Sin embargo, los métodos existentes tienen dificultades para producir descripciones únicas a través de múltiples niveles de granularidad, lo que limita su aplicabilidad en el mundo real. Para abordar la necesidad de una comprensión detallada a nivel de región, presentamos el conjunto de datos URECA, un conjunto de datos a gran escala diseñado para la descripción de regiones con múltiples niveles de granularidad. A diferencia de conjuntos de datos anteriores que se centran principalmente en objetos destacados, URECA asegura un mapeo único y consistente entre regiones y descripciones al incorporar una diversa gama de objetos, partes y elementos de fondo. Central a esto es una canalización de curación de datos por etapas, donde cada etapa refina incrementalmente la selección de regiones y la generación de descripciones. Al aprovechar Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) en cada etapa, nuestra canalización produce descripciones distintivas y contextualmente fundamentadas con una precisión y diversidad semántica mejoradas. Basándonos en este conjunto de datos, presentamos URECA, un modelo de descripción novedoso diseñado para codificar eficazmente regiones con múltiples niveles de granularidad. URECA mantiene propiedades espaciales esenciales como la posición y la forma a través de modificaciones simples pero impactantes en los MLLMs existentes, permitiendo descripciones de regiones detalladas y semánticamente ricas. Nuestro enfoque introduce modelado dinámico de máscaras y un codificador de máscaras de alta resolución para mejorar la singularidad de las descripciones. Los experimentos muestran que URECA alcanza un rendimiento de vanguardia en el conjunto de datos URECA y se generaliza bien a los puntos de referencia existentes de descripción a nivel de región.
English
Region-level captioning aims to generate natural language descriptions for specific image regions while highlighting their distinguishing features. However, existing methods struggle to produce unique captions across multi-granularity, limiting their real-world applicability. To address the need for detailed region-level understanding, we introduce URECA dataset, a large-scale dataset tailored for multi-granularity region captioning. Unlike prior datasets that focus primarily on salient objects, URECA dataset ensures a unique and consistent mapping between regions and captions by incorporating a diverse set of objects, parts, and background elements. Central to this is a stage-wise data curation pipeline, where each stage incrementally refines region selection and caption generation. By leveraging Multimodal Large Language Models (MLLMs) at each stage, our pipeline produces distinctive and contextually grounded captions with improved accuracy and semantic diversity. Building upon this dataset, we present URECA, a novel captioning model designed to effectively encode multi-granularity regions. URECA maintains essential spatial properties such as position and shape through simple yet impactful modifications to existing MLLMs, enabling fine-grained and semantically rich region descriptions. Our approach introduces dynamic mask modeling and a high-resolution mask encoder to enhance caption uniqueness. Experiments show that URECA achieves state-of-the-art performance on URECA dataset and generalizes well to existing region-level captioning benchmarks.

Summary

AI-Generated Summary

PDF343April 8, 2025