Omni-RGPT: Unificando la comprensión a nivel de región de imágenes y videos a través de marcas de token
Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks
January 14, 2025
Autores: Miran Heo, Min-Hung Chen, De-An Huang, Sifei Liu, Subhashree Radhakrishnan, Seon Joo Kim, Yu-Chiang Frank Wang, Ryo Hachiuma
cs.AI
Resumen
Presentamos Omni-RGPT, un modelo de lenguaje grande multimodal diseñado para facilitar la comprensión a nivel de región tanto para imágenes como para videos. Para lograr una representación de región consistente en dimensiones espacio-temporales, introducimos Token Mark, un conjunto de tokens que resaltan las regiones objetivo dentro del espacio de características visuales. Estos tokens se incorporan directamente en regiones espaciales utilizando indicadores de región (por ejemplo, cajas o máscaras) y se incorporan simultáneamente en el indicador de texto para especificar el objetivo, estableciendo una conexión directa entre los tokens visuales y de texto. Para apoyar aún más la comprensión robusta de videos sin requerir tracklets, introducimos una tarea auxiliar que guía a Token Mark aprovechando la consistencia de los tokens, lo que permite una interpretación estable de la región a lo largo del video. Además, presentamos un conjunto de datos de instrucciones de video a nivel de región a gran escala (RegVID-300k). Omni-RGPT logra resultados de vanguardia en bancos de pruebas de razonamiento de sentido común basados en imágenes y videos, al tiempo que muestra un rendimiento sólido en tareas de subtitulado y comprensión de expresiones de referencia.
English
We present Omni-RGPT, a multimodal large language model designed to
facilitate region-level comprehension for both images and videos. To achieve
consistent region representation across spatio-temporal dimensions, we
introduce Token Mark, a set of tokens highlighting the target regions within
the visual feature space. These tokens are directly embedded into spatial
regions using region prompts (e.g., boxes or masks) and simultaneously
incorporated into the text prompt to specify the target, establishing a direct
connection between visual and text tokens. To further support robust video
understanding without requiring tracklets, we introduce an auxiliary task that
guides Token Mark by leveraging the consistency of the tokens, enabling stable
region interpretation across the video. Additionally, we introduce a
large-scale region-level video instruction dataset (RegVID-300k). Omni-RGPT
achieves state-of-the-art results on image and video-based commonsense
reasoning benchmarks while showing strong performance in captioning and
referring expression comprehension tasks.Summary
AI-Generated Summary