URECA : Description Unique de Région pour Tout Capturer
URECA: Unique Region Caption Anything
April 7, 2025
Auteurs: Sangbeom Lim, Junwan Kim, Heeji Yoon, Jaewoo Jung, Seungryong Kim
cs.AI
Résumé
La génération de descriptions au niveau des régions vise à produire des descriptions en langage naturel pour des régions spécifiques d'une image tout en mettant en avant leurs caractéristiques distinctives. Cependant, les méthodes existantes peinent à générer des descriptions uniques à travers plusieurs granularités, limitant ainsi leur applicabilité dans le monde réel. Pour répondre au besoin d'une compréhension détaillée au niveau des régions, nous introduisons le jeu de données URECA, un ensemble de données à grande échelle conçu pour la génération de descriptions multi-granularités. Contrairement aux jeux de données précédents qui se concentrent principalement sur des objets saillants, URECA garantit une correspondance unique et cohérente entre les régions et les descriptions en intégrant une diversité d'objets, de parties et d'éléments de fond. Au cœur de cette approche se trouve un pipeline de curation de données par étapes, où chaque étape affine progressivement la sélection des régions et la génération des descriptions. En exploitant des modèles de langage multimodaux à grande échelle (MLLMs) à chaque étape, notre pipeline produit des descriptions distinctes et contextuellement ancrées, avec une précision et une diversité sémantique améliorées. Sur la base de ce jeu de données, nous présentons URECA, un nouveau modèle de génération de descriptions conçu pour encoder efficacement des régions multi-granularités. URECA préserve les propriétés spatiales essentielles telles que la position et la forme grâce à des modifications simples mais impactantes des MLLMs existants, permettant ainsi des descriptions de régions fines et riches en sémantique. Notre approche introduit une modélisation dynamique des masques et un encodeur de masques haute résolution pour améliorer l'unicité des descriptions. Les expériences montrent que URECA atteint des performances de pointe sur le jeu de données URECA et généralise bien aux benchmarks existants de génération de descriptions au niveau des régions.
English
Region-level captioning aims to generate natural language descriptions for
specific image regions while highlighting their distinguishing features.
However, existing methods struggle to produce unique captions across
multi-granularity, limiting their real-world applicability. To address the need
for detailed region-level understanding, we introduce URECA dataset, a
large-scale dataset tailored for multi-granularity region captioning. Unlike
prior datasets that focus primarily on salient objects, URECA dataset ensures a
unique and consistent mapping between regions and captions by incorporating a
diverse set of objects, parts, and background elements. Central to this is a
stage-wise data curation pipeline, where each stage incrementally refines
region selection and caption generation. By leveraging Multimodal Large
Language Models (MLLMs) at each stage, our pipeline produces distinctive and
contextually grounded captions with improved accuracy and semantic diversity.
Building upon this dataset, we present URECA, a novel captioning model designed
to effectively encode multi-granularity regions. URECA maintains essential
spatial properties such as position and shape through simple yet impactful
modifications to existing MLLMs, enabling fine-grained and semantically rich
region descriptions. Our approach introduces dynamic mask modeling and a
high-resolution mask encoder to enhance caption uniqueness. Experiments show
that URECA achieves state-of-the-art performance on URECA dataset and
generalizes well to existing region-level captioning benchmarks.Summary
AI-Generated Summary