Les jetons de perception améliorent le raisonnement visuel dans les modèles de langage multimodaux.
Perception Tokens Enhance Visual Reasoning in Multimodal Language Models
December 4, 2024
Auteurs: Mahtab Bigverdi, Zelun Luo, Cheng-Yu Hsieh, Ethan Shen, Dongping Chen, Linda G. Shapiro, Ranjay Krishna
cs.AI
Résumé
Les modèles de langage multimodaux (MLM) rencontrent encore des défis dans les tâches fondamentales de perception visuelle où les modèles spécialisés excellent. Les tâches nécessitant un raisonnement sur les structures 3D bénéficient de l'estimation de profondeur, et le raisonnement sur les instances d'objets 2D bénéficie de la détection d'objets. Cependant, les MLM ne peuvent pas produire de profondeur intermédiaire ou de boîtes pour raisonner. Le fine-tuning des MLM sur des données pertinentes ne généralise pas bien et externaliser le calcul à des outils de vision spécialisés est trop intensif en calcul et inefficace en mémoire. Pour résoudre ce problème, nous introduisons les "Perception Tokens", des représentations d'images intrinsèques conçues pour aider aux tâches de raisonnement où le langage est insuffisant. Les tokens de perception agissent comme des tokens de raisonnement auxiliaires, semblables aux prompts de chaîne de pensée dans les modèles de langage. Par exemple, dans une tâche liée à la profondeur, un MLM augmenté de tokens de perception peut raisonner en générant une carte de profondeur sous forme de tokens, lui permettant de résoudre efficacement le problème. Nous proposons AURORA, une méthode d'entraînement qui augmente les MLM avec des tokens de perception pour un raisonnement amélioré sur les entrées visuelles. AURORA exploite un VQVAE pour transformer les représentations d'images intermédiaires, telles que les cartes de profondeur, en un format tokenisé et des tokens de boîtes englobantes, qui sont ensuite utilisés dans un cadre d'entraînement multi-tâches. AURORA obtient des améliorations notables sur les benchmarks de comptage : +10,8 % sur BLINK, +11,3 % sur CVBench et +8,3 % sur SEED-Bench, surpassant les approches de fine-tuning en généralisation sur les ensembles de données. Il améliore également la profondeur relative : de plus de +6 % sur BLINK. Avec les tokens de perception, AURORA élargit le champ d'application des MLM au-delà du raisonnement basé sur le langage, ouvrant la voie à des capacités de raisonnement visuel plus efficaces.
English
Multimodal language models (MLMs) still face challenges in fundamental visual
perception tasks where specialized models excel. Tasks requiring reasoning
about 3D structures benefit from depth estimation, and reasoning about 2D
object instances benefits from object detection. Yet, MLMs can not produce
intermediate depth or boxes to reason over. Finetuning MLMs on relevant data
doesn't generalize well and outsourcing computation to specialized vision tools
is too compute-intensive and memory-inefficient. To address this, we introduce
Perception Tokens, intrinsic image representations designed to assist reasoning
tasks where language is insufficient. Perception tokens act as auxiliary
reasoning tokens, akin to chain-of-thought prompts in language models. For
example, in a depth-related task, an MLM augmented with perception tokens can
reason by generating a depth map as tokens, enabling it to solve the problem
effectively. We propose AURORA, a training method that augments MLMs with
perception tokens for improved reasoning over visual inputs. AURORA leverages a
VQVAE to transform intermediate image representations, such as depth maps into
a tokenized format and bounding box tokens, which is then used in a multi-task
training framework. AURORA achieves notable improvements across counting
benchmarks: +10.8% on BLINK, +11.3% on CVBench, and +8.3% on SEED-Bench,
outperforming finetuning approaches in generalization across datasets. It also
improves on relative depth: over +6% on BLINK. With perception tokens, AURORA
expands the scope of MLMs beyond language-based reasoning, paving the way for
more effective visual reasoning capabilities.Summary
AI-Generated Summary