Omni-RGPT : Unification de la compréhension au niveau des régions d'images et de vidéos via des jetons marqueurs.
Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks
January 14, 2025
Auteurs: Miran Heo, Min-Hung Chen, De-An Huang, Sifei Liu, Subhashree Radhakrishnan, Seon Joo Kim, Yu-Chiang Frank Wang, Ryo Hachiuma
cs.AI
Résumé
Nous présentons Omni-RGPT, un grand modèle de langage multimodal conçu pour faciliter la compréhension au niveau régional pour les images et les vidéos. Pour obtenir une représentation régionale cohérente à travers les dimensions spatio-temporelles, nous introduisons Token Mark, un ensemble de jetons mettant en évidence les régions cibles dans l'espace des caractéristiques visuelles. Ces jetons sont directement intégrés dans les régions spatiales à l'aide de prompts régionaux (par exemple, des boîtes ou des masques) et incorporés simultanément dans le prompt textuel pour spécifier la cible, établissant une connexion directe entre les jetons visuels et textuels. Pour soutenir davantage la compréhension robuste des vidéos sans nécessiter de tracklets, nous introduisons une tâche auxiliaire qui guide Token Mark en exploitant la cohérence des jetons, permettant une interprétation stable des régions à travers la vidéo. De plus, nous introduisons un ensemble de données d'instructions vidéo au niveau régional à grande échelle (RegVID-300k). Omni-RGPT obtient des résultats de pointe sur des bancs d'essai de raisonnement basé sur le bon sens pour les images et les vidéos tout en montrant de solides performances dans les tâches de légendage et de compréhension des expressions de référence.
English
We present Omni-RGPT, a multimodal large language model designed to
facilitate region-level comprehension for both images and videos. To achieve
consistent region representation across spatio-temporal dimensions, we
introduce Token Mark, a set of tokens highlighting the target regions within
the visual feature space. These tokens are directly embedded into spatial
regions using region prompts (e.g., boxes or masks) and simultaneously
incorporated into the text prompt to specify the target, establishing a direct
connection between visual and text tokens. To further support robust video
understanding without requiring tracklets, we introduce an auxiliary task that
guides Token Mark by leveraging the consistency of the tokens, enabling stable
region interpretation across the video. Additionally, we introduce a
large-scale region-level video instruction dataset (RegVID-300k). Omni-RGPT
achieves state-of-the-art results on image and video-based commonsense
reasoning benchmarks while showing strong performance in captioning and
referring expression comprehension tasks.Summary
AI-Generated Summary