URECA : Description Unique de Région pour Tout Capturer

papers.abstract

La génération de descriptions au niveau des régions vise à produire des descriptions en langage naturel pour des régions spécifiques d'une image tout en mettant en avant leurs caractéristiques distinctives. Cependant, les méthodes existantes peinent à générer des descriptions uniques à travers plusieurs granularités, limitant ainsi leur applicabilité dans le monde réel. Pour répondre au besoin d'une compréhension détaillée au niveau des régions, nous introduisons le jeu de données URECA, un ensemble de données à grande échelle conçu pour la génération de descriptions multi-granularités. Contrairement aux jeux de données précédents qui se concentrent principalement sur des objets saillants, URECA garantit une correspondance unique et cohérente entre les régions et les descriptions en intégrant une diversité d'objets, de parties et d'éléments de fond. Au cœur de cette approche se trouve un pipeline de curation de données par étapes, où chaque étape affine progressivement la sélection des régions et la génération des descriptions. En exploitant des modèles de langage multimodaux à grande échelle (MLLMs) à chaque étape, notre pipeline produit des descriptions distinctes et contextuellement ancrées, avec une précision et une diversité sémantique améliorées. Sur la base de ce jeu de données, nous présentons URECA, un nouveau modèle de génération de descriptions conçu pour encoder efficacement des régions multi-granularités. URECA préserve les propriétés spatiales essentielles telles que la position et la forme grâce à des modifications simples mais impactantes des MLLMs existants, permettant ainsi des descriptions de régions fines et riches en sémantique. Notre approche introduit une modélisation dynamique des masques et un encodeur de masques haute résolution pour améliorer l'unicité des descriptions. Les expériences montrent que URECA atteint des performances de pointe sur le jeu de données URECA et généralise bien aux benchmarks existants de génération de descriptions au niveau des régions.

English

Region-level captioning aims to generate natural language descriptions for specific image regions while highlighting their distinguishing features. However, existing methods struggle to produce unique captions across multi-granularity, limiting their real-world applicability. To address the need for detailed region-level understanding, we introduce URECA dataset, a large-scale dataset tailored for multi-granularity region captioning. Unlike prior datasets that focus primarily on salient objects, URECA dataset ensures a unique and consistent mapping between regions and captions by incorporating a diverse set of objects, parts, and background elements. Central to this is a stage-wise data curation pipeline, where each stage incrementally refines region selection and caption generation. By leveraging Multimodal Large Language Models (MLLMs) at each stage, our pipeline produces distinctive and contextually grounded captions with improved accuracy and semantic diversity. Building upon this dataset, we present URECA, a novel captioning model designed to effectively encode multi-granularity regions. URECA maintains essential spatial properties such as position and shape through simple yet impactful modifications to existing MLLMs, enabling fine-grained and semantically rich region descriptions. Our approach introduces dynamic mask modeling and a high-resolution mask encoder to enhance caption uniqueness. Experiments show that URECA achieves state-of-the-art performance on URECA dataset and generalizes well to existing region-level captioning benchmarks.

URECA : Description Unique de Région pour Tout Capturer

URECA: Unique Region Caption Anything

papers.abstract

Support