ChatPaper.aiChatPaper

URECA: Уникальное описание любых областей

URECA: Unique Region Caption Anything

April 7, 2025
Авторы: Sangbeom Lim, Junwan Kim, Heeji Yoon, Jaewoo Jung, Seungryong Kim
cs.AI

Аннотация

Задача описания на уровне регионов заключается в генерации естественных языковых описаний для конкретных областей изображения с акцентом на их отличительные особенности. Однако существующие методы испытывают трудности с созданием уникальных описаний на разных уровнях детализации, что ограничивает их практическую применимость. Для решения проблемы детального понимания на уровне регионов мы представляем набор данных URECA, крупномасштабный набор данных, адаптированный для описания регионов на нескольких уровнях детализации. В отличие от предыдущих наборов данных, которые в основном сосредоточены на выделяющихся объектах, URECA обеспечивает уникальное и согласованное соответствие между регионами и описаниями, включая разнообразные объекты, их части и элементы фона. Ключевым элементом является поэтапный процесс подготовки данных, где каждый этап постепенно улучшает выбор регионов и генерацию описаний. Используя мультимодальные большие языковые модели (MLLM) на каждом этапе, наш процесс создает уникальные и контекстуально обоснованные описания с повышенной точностью и семантическим разнообразием. На основе этого набора данных мы представляем URECA, новую модель описания, разработанную для эффективного кодирования регионов на нескольких уровнях детализации. URECA сохраняет важные пространственные свойства, такие как положение и форма, с помощью простых, но эффективных модификаций существующих MLLM, что позволяет создавать детализированные и семантически насыщенные описания регионов. Наш подход включает динамическое моделирование масок и кодировщик масок высокого разрешения для повышения уникальности описаний. Эксперименты показывают, что URECA достигает наилучших результатов на наборе данных URECA и хорошо обобщается на существующие эталонные тесты для описания регионов.
English
Region-level captioning aims to generate natural language descriptions for specific image regions while highlighting their distinguishing features. However, existing methods struggle to produce unique captions across multi-granularity, limiting their real-world applicability. To address the need for detailed region-level understanding, we introduce URECA dataset, a large-scale dataset tailored for multi-granularity region captioning. Unlike prior datasets that focus primarily on salient objects, URECA dataset ensures a unique and consistent mapping between regions and captions by incorporating a diverse set of objects, parts, and background elements. Central to this is a stage-wise data curation pipeline, where each stage incrementally refines region selection and caption generation. By leveraging Multimodal Large Language Models (MLLMs) at each stage, our pipeline produces distinctive and contextually grounded captions with improved accuracy and semantic diversity. Building upon this dataset, we present URECA, a novel captioning model designed to effectively encode multi-granularity regions. URECA maintains essential spatial properties such as position and shape through simple yet impactful modifications to existing MLLMs, enabling fine-grained and semantically rich region descriptions. Our approach introduces dynamic mask modeling and a high-resolution mask encoder to enhance caption uniqueness. Experiments show that URECA achieves state-of-the-art performance on URECA dataset and generalizes well to existing region-level captioning benchmarks.

Summary

AI-Generated Summary

PDF343April 8, 2025