URECA: Unieke Regio Beschrijft Alles

Samenvatting

Regiobeschrijving heeft als doel natuurlijke taal beschrijvingen te genereren voor specifieke beeldregio's, waarbij hun onderscheidende kenmerken worden benadrukt. Bestaande methoden hebben echter moeite om unieke beschrijvingen te produceren over meerdere granulariteiten, wat hun toepasbaarheid in de praktijk beperkt. Om de behoefte aan gedetailleerd begrip op regioniveau aan te pakken, introduceren we de URECA-dataset, een grootschalige dataset die is afgestemd op beschrijvingen van regio's met meerdere granulariteiten. In tegenstelling tot eerdere datasets die zich voornamelijk richten op opvallende objecten, zorgt de URECA-dataset voor een unieke en consistente mapping tussen regio's en beschrijvingen door een diverse set van objecten, onderdelen en achtergrondelementen te incorporeren. Centraal hierin staat een stapsgewijze data-curatiepijplijn, waarbij elke stap de regioselectie en beschrijvingsgeneratie geleidelijk verfijnt. Door Multimodale Grote Taalmodellen (MLLMs) in elke stap te benutten, produceert onze pijplijn onderscheidende en contextueel verankerde beschrijvingen met verbeterde nauwkeurigheid en semantische diversiteit. Op basis van deze dataset presenteren we URECA, een nieuw beschrijvingsmodel dat is ontworpen om regio's met meerdere granulariteiten effectief te coderen. URECA behoudt essentiële ruimtelijke eigenschappen zoals positie en vorm door eenvoudige maar impactvolle aanpassingen aan bestaande MLLMs, waardoor fijnmazige en semantisch rijke regionbeschrijvingen mogelijk worden. Onze aanpak introduceert dynamische maskermodellering en een maskerencoder met hoge resolutie om de uniciteit van beschrijvingen te verbeteren. Experimenten tonen aan dat URECA state-of-the-art prestaties bereikt op de URECA-dataset en zich goed generaliseert naar bestaande benchmarks voor regiobeschrijving.

English

Region-level captioning aims to generate natural language descriptions for specific image regions while highlighting their distinguishing features. However, existing methods struggle to produce unique captions across multi-granularity, limiting their real-world applicability. To address the need for detailed region-level understanding, we introduce URECA dataset, a large-scale dataset tailored for multi-granularity region captioning. Unlike prior datasets that focus primarily on salient objects, URECA dataset ensures a unique and consistent mapping between regions and captions by incorporating a diverse set of objects, parts, and background elements. Central to this is a stage-wise data curation pipeline, where each stage incrementally refines region selection and caption generation. By leveraging Multimodal Large Language Models (MLLMs) at each stage, our pipeline produces distinctive and contextually grounded captions with improved accuracy and semantic diversity. Building upon this dataset, we present URECA, a novel captioning model designed to effectively encode multi-granularity regions. URECA maintains essential spatial properties such as position and shape through simple yet impactful modifications to existing MLLMs, enabling fine-grained and semantically rich region descriptions. Our approach introduces dynamic mask modeling and a high-resolution mask encoder to enhance caption uniqueness. Experiments show that URECA achieves state-of-the-art performance on URECA dataset and generalizes well to existing region-level captioning benchmarks.

URECA: Unieke Regio Beschrijft Alles

URECA: Unique Region Caption Anything

Samenvatting

Support