Tokens de Percepção Melhoram o Raciocínio Visual em Modelos de Linguagem Multimodais

Resumo

Os modelos de linguagem multimodais (MLMs) ainda enfrentam desafios em tarefas fundamentais de percepção visual, onde modelos especializados se destacam. Tarefas que exigem raciocínio sobre estruturas 3D se beneficiam da estimativa de profundidade, e o raciocínio sobre instâncias de objetos 2D se beneficia da detecção de objetos. No entanto, os MLMs não conseguem produzir profundidade intermediária ou caixas para raciocinar. O ajuste fino dos MLMs em dados relevantes não generaliza bem e a terceirização da computação para ferramentas de visão especializadas é muito intensiva em termos de cálculo e ineficiente em termos de memória. Para lidar com isso, introduzimos Tokens de Percepção, representações intrínsecas de imagem projetadas para auxiliar tarefas de raciocínio onde a linguagem é insuficiente. Os tokens de percepção atuam como tokens de raciocínio auxiliares, semelhantes a prompts de cadeia de pensamento em modelos de linguagem. Por exemplo, em uma tarefa relacionada à profundidade, um MLM aumentado com tokens de percepção pode raciocinar gerando um mapa de profundidade como tokens, permitindo resolver o problema de forma eficaz. Propomos AURORA, um método de treinamento que aumenta os MLMs com tokens de percepção para melhorar o raciocínio sobre entradas visuais. AURORA aproveita um VQVAE para transformar representações de imagem intermediárias, como mapas de profundidade, em um formato tokenizado e tokens de caixa delimitadora, que são então utilizados em um framework de treinamento multi-tarefa. AURORA alcança melhorias notáveis em benchmarks de contagem: +10,8% no BLINK, +11,3% no CVBench e +8,3% no SEED-Bench, superando abordagens de ajuste fino na generalização entre conjuntos de dados. Também melhora a profundidade relativa: mais de +6% no BLINK. Com tokens de percepção, AURORA amplia o escopo dos MLMs além do raciocínio baseado em linguagem, abrindo caminho para capacidades de raciocínio visual mais eficazes.

English

Multimodal language models (MLMs) still face challenges in fundamental visual perception tasks where specialized models excel. Tasks requiring reasoning about 3D structures benefit from depth estimation, and reasoning about 2D object instances benefits from object detection. Yet, MLMs can not produce intermediate depth or boxes to reason over. Finetuning MLMs on relevant data doesn't generalize well and outsourcing computation to specialized vision tools is too compute-intensive and memory-inefficient. To address this, we introduce Perception Tokens, intrinsic image representations designed to assist reasoning tasks where language is insufficient. Perception tokens act as auxiliary reasoning tokens, akin to chain-of-thought prompts in language models. For example, in a depth-related task, an MLM augmented with perception tokens can reason by generating a depth map as tokens, enabling it to solve the problem effectively. We propose AURORA, a training method that augments MLMs with perception tokens for improved reasoning over visual inputs. AURORA leverages a VQVAE to transform intermediate image representations, such as depth maps into a tokenized format and bounding box tokens, which is then used in a multi-task training framework. AURORA achieves notable improvements across counting benchmarks: +10.8% on BLINK, +11.3% on CVBench, and +8.3% on SEED-Bench, outperforming finetuning approaches in generalization across datasets. It also improves on relative depth: over +6% on BLINK. With perception tokens, AURORA expands the scope of MLMs beyond language-based reasoning, paving the way for more effective visual reasoning capabilities.

Tokens de Percepção Melhoram o Raciocínio Visual em Modelos de Linguagem Multimodais

Perception Tokens Enhance Visual Reasoning in Multimodal Language Models

Resumo

Support