Respuesta Visual Modular a Preguntas mediante Generación de Código
Modular Visual Question Answering via Code Generation
June 8, 2023
Autores: Sanjay Subramanian, Medhini Narasimhan, Kushal Khangaonkar, Kevin Yang, Arsha Nagrani, Cordelia Schmid, Andy Zeng, Trevor Darrell, Dan Klein
cs.AI
Resumen
Presentamos un marco de trabajo que formula la respuesta a preguntas visuales como generación de código modular. A diferencia de trabajos previos sobre enfoques modulares para VQA, nuestro método no requiere entrenamiento adicional y se basa en modelos de lenguaje preentrenados (LMs), modelos visuales preentrenados con pares de imagen-texto, y cincuenta ejemplos de VQA utilizados para aprendizaje en contexto. Los programas Python generados invocan y combinan las salidas de los modelos visuales utilizando lógica aritmética y condicional. Nuestro enfoque mejora la precisión en el conjunto de datos COVR en al menos un 3% y en el conjunto de datos GQA en aproximadamente un 2% en comparación con la línea base de pocos ejemplos que no emplea generación de código.
English
We present a framework that formulates visual question answering as modular
code generation. In contrast to prior work on modular approaches to VQA, our
approach requires no additional training and relies on pre-trained language
models (LMs), visual models pre-trained on image-caption pairs, and fifty VQA
examples used for in-context learning. The generated Python programs invoke and
compose the outputs of the visual models using arithmetic and conditional
logic. Our approach improves accuracy on the COVR dataset by at least 3% and on
the GQA dataset by roughly 2% compared to the few-shot baseline that does not
employ code generation.