Modulair Visueel Vraag-Antwoorden via Codegeneratie
Modular Visual Question Answering via Code Generation
June 8, 2023
Auteurs: Sanjay Subramanian, Medhini Narasimhan, Kushal Khangaonkar, Kevin Yang, Arsha Nagrani, Cordelia Schmid, Andy Zeng, Trevor Darrell, Dan Klein
cs.AI
Samenvatting
We presenteren een raamwerk dat visuele vraagbeantwoording formuleert als modulaire codegeneratie. In tegenstelling tot eerder werk over modulaire benaderingen voor VQA, vereist onze aanpak geen aanvullende training en maakt het gebruik van vooraf getrainde taalmodellen (LMs), visuele modellen die zijn getraind op afbeelding-bijschriftparen, en vijftig VQA-voorbeelden die worden gebruikt voor in-context leren. De gegenereerde Python-programma's roepen de uitvoer van de visuele modellen aan en combineren deze met behulp van rekenkundige en conditionele logica. Onze aanpak verbetert de nauwkeurigheid op de COVR-dataset met ten minste 3% en op de GQA-dataset met ongeveer 2% in vergelijking met de few-shot baseline die geen gebruik maakt van codegeneratie.
English
We present a framework that formulates visual question answering as modular
code generation. In contrast to prior work on modular approaches to VQA, our
approach requires no additional training and relies on pre-trained language
models (LMs), visual models pre-trained on image-caption pairs, and fifty VQA
examples used for in-context learning. The generated Python programs invoke and
compose the outputs of the visual models using arithmetic and conditional
logic. Our approach improves accuracy on the COVR dataset by at least 3% and on
the GQA dataset by roughly 2% compared to the few-shot baseline that does not
employ code generation.