ChatPaper.aiChatPaper

ExoViP: Пошаговая верификация и исследование с экзоскелетными модулями для композиционного визуального рассуждения

ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning

August 5, 2024
Авторы: Yuxuan Wang, Alan Yuille, Zhuowan Li, Zilong Zheng
cs.AI

Аннотация

Методы композиционного визуального рассуждения, которые преобразуют сложный запрос в структурированную композицию выполнимых визуальных задач, проявили сильный потенциал в сложных мультимодальных задачах. Благодаря последним достижениям в области крупных языковых моделей (КЯМ), этот мультимодальный вызов был перенесен на новый уровень путем рассмотрения КЯМ как планировщиков с небольшим числом обучающих примеров/без обучающих примеров, т.е. программирование зрение-язык (VL). Такие методы, несмотря на их многочисленные достоинства, сталкиваются с проблемами из-за ошибок в планировании КЯМ или неточности визуальных модулей выполнения, отставая от некомпозиционных моделей. В данной работе мы разрабатываем метод "вставь и играй", ExoViP, для исправления ошибок как на этапе планирования, так и выполнения через внутреннюю верификацию. Мы используем модули верификации в качестве "экзоскелетов" для улучшения текущих схем программирования VL. В частности, наш предложенный модуль верификации использует смесь трех подверификаторов для проверки предсказаний после каждого шага рассуждения, впоследствии калибруя предсказания визуального модуля и уточняя план рассуждения, разработанный КЯМ. Экспериментальные результаты на двух представительных методах программирования VL показывают последовательное улучшение на пяти композиционных задачах рассуждения на стандартных бенчмарках. Исходя из этого, мы считаем, что ExoViP может способствовать лучшей производительности и обобщению в открытых мультимодальных вызовах.
English
Compositional visual reasoning methods, which translate a complex query into a structured composition of feasible visual tasks, have exhibited a strong potential in complicated multi-modal tasks. Empowered by recent advances in large language models (LLMs), this multi-modal challenge has been brought to a new stage by treating LLMs as few-shot/zero-shot planners, i.e., vision-language (VL) programming. Such methods, despite their numerous merits, suffer from challenges due to LLM planning mistakes or inaccuracy of visual execution modules, lagging behind the non-compositional models. In this work, we devise a "plug-and-play" method, ExoViP, to correct errors in both the planning and execution stages through introspective verification. We employ verification modules as "exoskeletons" to enhance current VL programming schemes. Specifically, our proposed verification module utilizes a mixture of three sub-verifiers to validate predictions after each reasoning step, subsequently calibrating the visual module predictions and refining the reasoning trace planned by LLMs. Experimental results on two representative VL programming methods showcase consistent improvements on five compositional reasoning tasks on standard benchmarks. In light of this, we believe that ExoViP can foster better performance and generalization on open-domain multi-modal challenges.

Summary

AI-Generated Summary

PDF92November 28, 2024