Modulair Visueel Vraag-Antwoorden via Codegeneratie

Samenvatting

We presenteren een raamwerk dat visuele vraagbeantwoording formuleert als modulaire codegeneratie. In tegenstelling tot eerder werk over modulaire benaderingen voor VQA, vereist onze aanpak geen aanvullende training en maakt het gebruik van vooraf getrainde taalmodellen (LMs), visuele modellen die zijn getraind op afbeelding-bijschriftparen, en vijftig VQA-voorbeelden die worden gebruikt voor in-context leren. De gegenereerde Python-programma's roepen de uitvoer van de visuele modellen aan en combineren deze met behulp van rekenkundige en conditionele logica. Onze aanpak verbetert de nauwkeurigheid op de COVR-dataset met ten minste 3% en op de GQA-dataset met ongeveer 2% in vergelijking met de few-shot baseline die geen gebruik maakt van codegeneratie.

English

We present a framework that formulates visual question answering as modular code generation. In contrast to prior work on modular approaches to VQA, our approach requires no additional training and relies on pre-trained language models (LMs), visual models pre-trained on image-caption pairs, and fifty VQA examples used for in-context learning. The generated Python programs invoke and compose the outputs of the visual models using arithmetic and conditional logic. Our approach improves accuracy on the COVR dataset by at least 3% and on the GQA dataset by roughly 2% compared to the few-shot baseline that does not employ code generation.

Modulair Visueel Vraag-Antwoorden via Codegeneratie

Modular Visual Question Answering via Code Generation

Samenvatting

Support