ChatPaper.aiChatPaper

Los Tokens de Percepción Mejoran el Razonamiento Visual en Modelos de Lenguaje Multimodales

Perception Tokens Enhance Visual Reasoning in Multimodal Language Models

December 4, 2024
Autores: Mahtab Bigverdi, Zelun Luo, Cheng-Yu Hsieh, Ethan Shen, Dongping Chen, Linda G. Shapiro, Ranjay Krishna
cs.AI

Resumen

Los modelos de lenguaje multimodal (MLMs) todavía enfrentan desafíos en tareas fundamentales de percepción visual donde destacan los modelos especializados. Las tareas que requieren razonamiento sobre estructuras 3D se benefician de la estimación de profundidad, y el razonamiento sobre instancias de objetos 2D se beneficia de la detección de objetos. Sin embargo, los MLMs no pueden producir profundidad o cajas intermedias para razonar. El ajuste fino de los MLMs en datos relevantes no generaliza bien y externalizar la computación a herramientas de visión especializadas es demasiado intensivo en cómputo e ineficiente en memoria. Para abordar esto, presentamos Tokens de Percepción, representaciones intrínsecas de imágenes diseñadas para ayudar en tareas de razonamiento donde el lenguaje es insuficiente. Los tokens de percepción actúan como tokens de razonamiento auxiliares, similares a los indicadores de cadena de pensamiento en modelos de lenguaje. Por ejemplo, en una tarea relacionada con la profundidad, un MLM aumentado con tokens de percepción puede razonar generando un mapa de profundidad como tokens, lo que le permite resolver el problema de manera efectiva. Proponemos AURORA, un método de entrenamiento que aumenta los MLMs con tokens de percepción para mejorar el razonamiento sobre entradas visuales. AURORA aprovecha un VQVAE para transformar representaciones de imágenes intermedias, como mapas de profundidad, en un formato tokenizado y tokens de caja delimitadora, que luego se utilizan en un marco de entrenamiento multitarea. AURORA logra mejoras notables en los puntos de referencia de conteo: +10.8% en BLINK, +11.3% en CVBench y +8.3% en SEED-Bench, superando en generalización a los enfoques de ajuste fino en diferentes conjuntos de datos. También mejora en la profundidad relativa: más de +6% en BLINK. Con tokens de percepción, AURORA amplía el alcance de los MLMs más allá del razonamiento basado en el lenguaje, allanando el camino para capacidades de razonamiento visual más efectivas.
English
Multimodal language models (MLMs) still face challenges in fundamental visual perception tasks where specialized models excel. Tasks requiring reasoning about 3D structures benefit from depth estimation, and reasoning about 2D object instances benefits from object detection. Yet, MLMs can not produce intermediate depth or boxes to reason over. Finetuning MLMs on relevant data doesn't generalize well and outsourcing computation to specialized vision tools is too compute-intensive and memory-inefficient. To address this, we introduce Perception Tokens, intrinsic image representations designed to assist reasoning tasks where language is insufficient. Perception tokens act as auxiliary reasoning tokens, akin to chain-of-thought prompts in language models. For example, in a depth-related task, an MLM augmented with perception tokens can reason by generating a depth map as tokens, enabling it to solve the problem effectively. We propose AURORA, a training method that augments MLMs with perception tokens for improved reasoning over visual inputs. AURORA leverages a VQVAE to transform intermediate image representations, such as depth maps into a tokenized format and bounding box tokens, which is then used in a multi-task training framework. AURORA achieves notable improvements across counting benchmarks: +10.8% on BLINK, +11.3% on CVBench, and +8.3% on SEED-Bench, outperforming finetuning approaches in generalization across datasets. It also improves on relative depth: over +6% on BLINK. With perception tokens, AURORA expands the scope of MLMs beyond language-based reasoning, paving the way for more effective visual reasoning capabilities.

Summary

AI-Generated Summary

PDF172December 11, 2024