Модульное визуальное ответы на вопросы через генерацию кода
Modular Visual Question Answering via Code Generation
June 8, 2023
Авторы: Sanjay Subramanian, Medhini Narasimhan, Kushal Khangaonkar, Kevin Yang, Arsha Nagrani, Cordelia Schmid, Andy Zeng, Trevor Darrell, Dan Klein
cs.AI
Аннотация
Мы представляем фреймворк, который формулирует задачу визуального ответа на вопросы как генерацию модульного кода. В отличие от предыдущих работ по модульным подходам к VQA, наш метод не требует дополнительного обучения и опирается на предварительно обученные языковые модели (LM), визуальные модели, обученные на парах изображение-описание, и пятьдесят примеров VQA, используемых для обучения в контексте. Сгенерированные программы на языке Python вызывают и комбинируют выходные данные визуальных моделей с использованием арифметической и условной логики. Наш подход повышает точность на наборе данных COVR как минимум на 3% и на наборе данных GQA примерно на 2% по сравнению с базовым методом few-shot, который не использует генерацию кода.
English
We present a framework that formulates visual question answering as modular
code generation. In contrast to prior work on modular approaches to VQA, our
approach requires no additional training and relies on pre-trained language
models (LMs), visual models pre-trained on image-caption pairs, and fifty VQA
examples used for in-context learning. The generated Python programs invoke and
compose the outputs of the visual models using arithmetic and conditional
logic. Our approach improves accuracy on the COVR dataset by at least 3% and on
the GQA dataset by roughly 2% compared to the few-shot baseline that does not
employ code generation.