Perceptie Tokens Verbeteren Visuele Redenering in Multimodale Taalmodellen
Perception Tokens Enhance Visual Reasoning in Multimodal Language Models
December 4, 2024
Auteurs: Mahtab Bigverdi, Zelun Luo, Cheng-Yu Hsieh, Ethan Shen, Dongping Chen, Linda G. Shapiro, Ranjay Krishna
cs.AI
Samenvatting
Multimodale taalmodellen (MLM's) staan nog steeds voor uitdagingen bij fundamentele visuele perceptietaken waar gespecialiseerde modellen uitblinken. Taken die redenering over 3D-structuren vereisen, profiteren van diepteschatting, en redenering over 2D-objectinstanties profiteert van objectdetectie. Toch kunnen MLM's geen tussenliggende diepte of dozen produceren om over te redeneren. Het finetunen van MLM's op relevante gegevens generaliseert niet goed en het uitbesteden van berekeningen aan gespecialiseerde vision-tools is te rekenintensief en geheugeninefficiënt. Om dit aan te pakken, introduceren we Perceptie Tokens, intrinsieke beeldrepresentaties ontworpen om redeneertaken te ondersteunen waar taal ontoereikend is. Perceptie tokens fungeren als hulpredeneertokens, vergelijkbaar met keten-van-gedachtemotieven in taalmodellen. Bijvoorbeeld, in een diepte-gerelateerde taak kan een MLM aangevuld met perceptie tokens redeneren door een dieptekaart te genereren als tokens, waardoor het effectief het probleem kan oplossen. We stellen AURORA voor, een trainingsmethode die MLM's aanvult met perceptie tokens voor verbeterde redenering over visuele invoer. AURORA maakt gebruik van een VQVAE om tussenliggende beeldrepresentaties, zoals dieptekaarten, om te zetten in een getokeniseerd formaat en bounding box tokens, die vervolgens worden gebruikt in een multi-task trainingskader. AURORA behaalt opmerkelijke verbeteringen over telling benchmarks: +10.8% op BLINK, +11.3% op CVBench, en +8.3% op SEED-Bench, waarbij het finetuningbenaderingen overtreft in generalisatie over datasets. Het verbetert ook relatieve diepte: meer dan +6% op BLINK. Met perceptie tokens breidt AURORA de reikwijdte van MLM's uit voorbij op taal gebaseerde redenering, waardoor de weg wordt vrijgemaakt voor effectievere visuele redeneervaardigheden.
English
Multimodal language models (MLMs) still face challenges in fundamental visual
perception tasks where specialized models excel. Tasks requiring reasoning
about 3D structures benefit from depth estimation, and reasoning about 2D
object instances benefits from object detection. Yet, MLMs can not produce
intermediate depth or boxes to reason over. Finetuning MLMs on relevant data
doesn't generalize well and outsourcing computation to specialized vision tools
is too compute-intensive and memory-inefficient. To address this, we introduce
Perception Tokens, intrinsic image representations designed to assist reasoning
tasks where language is insufficient. Perception tokens act as auxiliary
reasoning tokens, akin to chain-of-thought prompts in language models. For
example, in a depth-related task, an MLM augmented with perception tokens can
reason by generating a depth map as tokens, enabling it to solve the problem
effectively. We propose AURORA, a training method that augments MLMs with
perception tokens for improved reasoning over visual inputs. AURORA leverages a
VQVAE to transform intermediate image representations, such as depth maps into
a tokenized format and bounding box tokens, which is then used in a multi-task
training framework. AURORA achieves notable improvements across counting
benchmarks: +10.8% on BLINK, +11.3% on CVBench, and +8.3% on SEED-Bench,
outperforming finetuning approaches in generalization across datasets. It also
improves on relative depth: over +6% on BLINK. With perception tokens, AURORA
expands the scope of MLMs beyond language-based reasoning, paving the way for
more effective visual reasoning capabilities.