ChatPaper.aiChatPaper

Omni-RGPT : Unification de la compréhension au niveau des régions d'images et de vidéos via des jetons marqueurs.

Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

January 14, 2025
Auteurs: Miran Heo, Min-Hung Chen, De-An Huang, Sifei Liu, Subhashree Radhakrishnan, Seon Joo Kim, Yu-Chiang Frank Wang, Ryo Hachiuma
cs.AI

Résumé

Nous présentons Omni-RGPT, un grand modèle de langage multimodal conçu pour faciliter la compréhension au niveau régional pour les images et les vidéos. Pour obtenir une représentation régionale cohérente à travers les dimensions spatio-temporelles, nous introduisons Token Mark, un ensemble de jetons mettant en évidence les régions cibles dans l'espace des caractéristiques visuelles. Ces jetons sont directement intégrés dans les régions spatiales à l'aide de prompts régionaux (par exemple, des boîtes ou des masques) et incorporés simultanément dans le prompt textuel pour spécifier la cible, établissant une connexion directe entre les jetons visuels et textuels. Pour soutenir davantage la compréhension robuste des vidéos sans nécessiter de tracklets, nous introduisons une tâche auxiliaire qui guide Token Mark en exploitant la cohérence des jetons, permettant une interprétation stable des régions à travers la vidéo. De plus, nous introduisons un ensemble de données d'instructions vidéo au niveau régional à grande échelle (RegVID-300k). Omni-RGPT obtient des résultats de pointe sur des bancs d'essai de raisonnement basé sur le bon sens pour les images et les vidéos tout en montrant de solides performances dans les tâches de légendage et de compréhension des expressions de référence.
English
We present Omni-RGPT, a multimodal large language model designed to facilitate region-level comprehension for both images and videos. To achieve consistent region representation across spatio-temporal dimensions, we introduce Token Mark, a set of tokens highlighting the target regions within the visual feature space. These tokens are directly embedded into spatial regions using region prompts (e.g., boxes or masks) and simultaneously incorporated into the text prompt to specify the target, establishing a direct connection between visual and text tokens. To further support robust video understanding without requiring tracklets, we introduce an auxiliary task that guides Token Mark by leveraging the consistency of the tokens, enabling stable region interpretation across the video. Additionally, we introduce a large-scale region-level video instruction dataset (RegVID-300k). Omni-RGPT achieves state-of-the-art results on image and video-based commonsense reasoning benchmarks while showing strong performance in captioning and referring expression comprehension tasks.

Summary

AI-Generated Summary

PDF352January 15, 2025