ExoViP: Verificación y Exploración Paso a Paso con Módulos de Exoesqueleto para Razonamiento Visual Compositivo
ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning
August 5, 2024
Autores: Yuxuan Wang, Alan Yuille, Zhuowan Li, Zilong Zheng
cs.AI
Resumen
Los métodos de razonamiento visual compositivo, que traducen una consulta compleja en una composición estructurada de tareas visuales factibles, han demostrado un fuerte potencial en tareas multi-modales complicadas. Potenciados por los avances recientes en modelos de lenguaje grandes (LLMs), este desafío multi-modal ha sido llevado a una nueva etapa al tratar a los LLMs como planificadores de pocos disparos/sin disparos, es decir, programación visión-lenguaje (VL). A pesar de sus numerosos méritos, tales métodos enfrentan desafíos debido a errores en la planificación de LLMs o a la inexactitud de los módulos de ejecución visual, rezagándose detrás de los modelos no compositivos. En este trabajo, ideamos un método "plug-and-play", ExoViP, para corregir errores tanto en las etapas de planificación como de ejecución a través de verificación introspectiva. Empleamos módulos de verificación como "exoesqueletos" para mejorar los esquemas actuales de programación VL. Específicamente, nuestro módulo de verificación propuesto utiliza una mezcla de tres sub-verificadores para validar predicciones después de cada paso de razonamiento, calibrando posteriormente las predicciones del módulo visual y refinando la traza de razonamiento planificada por los LLMs. Los resultados experimentales en dos métodos representativos de programación VL muestran mejoras consistentes en cinco tareas de razonamiento compositivo en benchmarks estándar. A la luz de esto, creemos que ExoViP puede fomentar un mejor rendimiento y generalización en desafíos multi-modales de dominio abierto.
English
Compositional visual reasoning methods, which translate a complex query into
a structured composition of feasible visual tasks, have exhibited a strong
potential in complicated multi-modal tasks. Empowered by recent advances in
large language models (LLMs), this multi-modal challenge has been brought to a
new stage by treating LLMs as few-shot/zero-shot planners, i.e.,
vision-language (VL) programming. Such methods, despite their numerous merits,
suffer from challenges due to LLM planning mistakes or inaccuracy of visual
execution modules, lagging behind the non-compositional models. In this work,
we devise a "plug-and-play" method, ExoViP, to correct errors in both the
planning and execution stages through introspective verification. We employ
verification modules as "exoskeletons" to enhance current VL programming
schemes. Specifically, our proposed verification module utilizes a mixture of
three sub-verifiers to validate predictions after each reasoning step,
subsequently calibrating the visual module predictions and refining the
reasoning trace planned by LLMs. Experimental results on two representative VL
programming methods showcase consistent improvements on five compositional
reasoning tasks on standard benchmarks. In light of this, we believe that
ExoViP can foster better performance and generalization on open-domain
multi-modal challenges.Summary
AI-Generated Summary