Tokens de Percepção Melhoram o Raciocínio Visual em Modelos de Linguagem Multimodais
Perception Tokens Enhance Visual Reasoning in Multimodal Language Models
December 4, 2024
Autores: Mahtab Bigverdi, Zelun Luo, Cheng-Yu Hsieh, Ethan Shen, Dongping Chen, Linda G. Shapiro, Ranjay Krishna
cs.AI
Resumo
Os modelos de linguagem multimodais (MLMs) ainda enfrentam desafios em tarefas fundamentais de percepção visual, onde modelos especializados se destacam. Tarefas que exigem raciocínio sobre estruturas 3D se beneficiam da estimativa de profundidade, e o raciocínio sobre instâncias de objetos 2D se beneficia da detecção de objetos. No entanto, os MLMs não conseguem produzir profundidade intermediária ou caixas para raciocinar. O ajuste fino dos MLMs em dados relevantes não generaliza bem e a terceirização da computação para ferramentas de visão especializadas é muito intensiva em termos de cálculo e ineficiente em termos de memória. Para lidar com isso, introduzimos Tokens de Percepção, representações intrínsecas de imagem projetadas para auxiliar tarefas de raciocínio onde a linguagem é insuficiente. Os tokens de percepção atuam como tokens de raciocínio auxiliares, semelhantes a prompts de cadeia de pensamento em modelos de linguagem. Por exemplo, em uma tarefa relacionada à profundidade, um MLM aumentado com tokens de percepção pode raciocinar gerando um mapa de profundidade como tokens, permitindo resolver o problema de forma eficaz. Propomos AURORA, um método de treinamento que aumenta os MLMs com tokens de percepção para melhorar o raciocínio sobre entradas visuais. AURORA aproveita um VQVAE para transformar representações de imagem intermediárias, como mapas de profundidade, em um formato tokenizado e tokens de caixa delimitadora, que são então utilizados em um framework de treinamento multi-tarefa. AURORA alcança melhorias notáveis em benchmarks de contagem: +10,8% no BLINK, +11,3% no CVBench e +8,3% no SEED-Bench, superando abordagens de ajuste fino na generalização entre conjuntos de dados. Também melhora a profundidade relativa: mais de +6% no BLINK. Com tokens de percepção, AURORA amplia o escopo dos MLMs além do raciocínio baseado em linguagem, abrindo caminho para capacidades de raciocínio visual mais eficazes.
English
Multimodal language models (MLMs) still face challenges in fundamental visual
perception tasks where specialized models excel. Tasks requiring reasoning
about 3D structures benefit from depth estimation, and reasoning about 2D
object instances benefits from object detection. Yet, MLMs can not produce
intermediate depth or boxes to reason over. Finetuning MLMs on relevant data
doesn't generalize well and outsourcing computation to specialized vision tools
is too compute-intensive and memory-inefficient. To address this, we introduce
Perception Tokens, intrinsic image representations designed to assist reasoning
tasks where language is insufficient. Perception tokens act as auxiliary
reasoning tokens, akin to chain-of-thought prompts in language models. For
example, in a depth-related task, an MLM augmented with perception tokens can
reason by generating a depth map as tokens, enabling it to solve the problem
effectively. We propose AURORA, a training method that augments MLMs with
perception tokens for improved reasoning over visual inputs. AURORA leverages a
VQVAE to transform intermediate image representations, such as depth maps into
a tokenized format and bounding box tokens, which is then used in a multi-task
training framework. AURORA achieves notable improvements across counting
benchmarks: +10.8% on BLINK, +11.3% on CVBench, and +8.3% on SEED-Bench,
outperforming finetuning approaches in generalization across datasets. It also
improves on relative depth: over +6% on BLINK. With perception tokens, AURORA
expands the scope of MLMs beyond language-based reasoning, paving the way for
more effective visual reasoning capabilities.Summary
AI-Generated Summary