Question-Réponse Visuelle Modulaire via Génération de Code
Modular Visual Question Answering via Code Generation
June 8, 2023
Auteurs: Sanjay Subramanian, Medhini Narasimhan, Kushal Khangaonkar, Kevin Yang, Arsha Nagrani, Cordelia Schmid, Andy Zeng, Trevor Darrell, Dan Klein
cs.AI
Résumé
Nous présentons un cadre qui formule la réponse à des questions visuelles comme une génération de code modulaire. Contrairement aux travaux antérieurs sur les approches modulaires pour la réponse à des questions visuelles (VQA), notre méthode ne nécessite aucun entraînement supplémentaire et s'appuie sur des modèles de langage (LMs) pré-entraînés, des modèles visuels pré-entraînés sur des paires image-légende, et cinquante exemples de VQA utilisés pour l'apprentissage en contexte. Les programmes Python générés invoquent et composent les sorties des modèles visuels en utilisant une logique arithmétique et conditionnelle. Notre approche améliore la précision sur le jeu de données COVR d'au moins 3 % et sur le jeu de données GQA d'environ 2 % par rapport à la base de référence en apprentissage peu supervisé qui n'utilise pas la génération de code.
English
We present a framework that formulates visual question answering as modular
code generation. In contrast to prior work on modular approaches to VQA, our
approach requires no additional training and relies on pre-trained language
models (LMs), visual models pre-trained on image-caption pairs, and fifty VQA
examples used for in-context learning. The generated Python programs invoke and
compose the outputs of the visual models using arithmetic and conditional
logic. Our approach improves accuracy on the COVR dataset by at least 3% and on
the GQA dataset by roughly 2% compared to the few-shot baseline that does not
employ code generation.