ChatPaper.aiChatPaper

Модульное визуальное ответы на вопросы через генерацию кода

Modular Visual Question Answering via Code Generation

June 8, 2023
Авторы: Sanjay Subramanian, Medhini Narasimhan, Kushal Khangaonkar, Kevin Yang, Arsha Nagrani, Cordelia Schmid, Andy Zeng, Trevor Darrell, Dan Klein
cs.AI

Аннотация

Мы представляем фреймворк, который формулирует задачу визуального ответа на вопросы как генерацию модульного кода. В отличие от предыдущих работ по модульным подходам к VQA, наш метод не требует дополнительного обучения и опирается на предварительно обученные языковые модели (LM), визуальные модели, обученные на парах изображение-описание, и пятьдесят примеров VQA, используемых для обучения в контексте. Сгенерированные программы на языке Python вызывают и комбинируют выходные данные визуальных моделей с использованием арифметической и условной логики. Наш подход повышает точность на наборе данных COVR как минимум на 3% и на наборе данных GQA примерно на 2% по сравнению с базовым методом few-shot, который не использует генерацию кода.
English
We present a framework that formulates visual question answering as modular code generation. In contrast to prior work on modular approaches to VQA, our approach requires no additional training and relies on pre-trained language models (LMs), visual models pre-trained on image-caption pairs, and fifty VQA examples used for in-context learning. The generated Python programs invoke and compose the outputs of the visual models using arithmetic and conditional logic. Our approach improves accuracy on the COVR dataset by at least 3% and on the GQA dataset by roughly 2% compared to the few-shot baseline that does not employ code generation.
PDF20December 15, 2024