Omni-RGPT: Unificando la comprensión a nivel de región de imágenes y videos a través de marcas de token

Resumen

Presentamos Omni-RGPT, un modelo de lenguaje grande multimodal diseñado para facilitar la comprensión a nivel de región tanto para imágenes como para videos. Para lograr una representación de región consistente en dimensiones espacio-temporales, introducimos Token Mark, un conjunto de tokens que resaltan las regiones objetivo dentro del espacio de características visuales. Estos tokens se incorporan directamente en regiones espaciales utilizando indicadores de región (por ejemplo, cajas o máscaras) y se incorporan simultáneamente en el indicador de texto para especificar el objetivo, estableciendo una conexión directa entre los tokens visuales y de texto. Para apoyar aún más la comprensión robusta de videos sin requerir tracklets, introducimos una tarea auxiliar que guía a Token Mark aprovechando la consistencia de los tokens, lo que permite una interpretación estable de la región a lo largo del video. Además, presentamos un conjunto de datos de instrucciones de video a nivel de región a gran escala (RegVID-300k). Omni-RGPT logra resultados de vanguardia en bancos de pruebas de razonamiento de sentido común basados en imágenes y videos, al tiempo que muestra un rendimiento sólido en tareas de subtitulado y comprensión de expresiones de referencia.

English

We present Omni-RGPT, a multimodal large language model designed to facilitate region-level comprehension for both images and videos. To achieve consistent region representation across spatio-temporal dimensions, we introduce Token Mark, a set of tokens highlighting the target regions within the visual feature space. These tokens are directly embedded into spatial regions using region prompts (e.g., boxes or masks) and simultaneously incorporated into the text prompt to specify the target, establishing a direct connection between visual and text tokens. To further support robust video understanding without requiring tracklets, we introduce an auxiliary task that guides Token Mark by leveraging the consistency of the tokens, enabling stable region interpretation across the video. Additionally, we introduce a large-scale region-level video instruction dataset (RegVID-300k). Omni-RGPT achieves state-of-the-art results on image and video-based commonsense reasoning benchmarks while showing strong performance in captioning and referring expression comprehension tasks.

Omni-RGPT: Unificando la comprensión a nivel de región de imágenes y videos a través de marcas de token

Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

Resumen

Support