ChatPaper.aiChatPaper

ExoViP: Verificação e Exploração Passo a Passo com Módulos de Exoesqueleto para Raciocínio Visual Composicional

ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning

August 5, 2024
Autores: Yuxuan Wang, Alan Yuille, Zhuowan Li, Zilong Zheng
cs.AI

Resumo

Métodos de raciocínio visual composicional, que traduzem uma consulta complexa em uma composição estruturada de tarefas visuais viáveis, têm demonstrado um forte potencial em tarefas multi-modais complicadas. Potencializados pelos avanços recentes em grandes modelos de linguagem (LLMs), esse desafio multi-modal foi levado a um novo patamar ao tratar os LLMs como planejadores de poucas/zero iterações, ou seja, programação visão-linguagem (VL). Tais métodos, apesar de seus inúmeros méritos, enfrentam desafios devido a erros de planejamento do LLM ou imprecisão dos módulos de execução visual, ficando atrás dos modelos não composicionais. Neste trabalho, desenvolvemos um método "plug-and-play", ExoViP, para corrigir erros tanto nas etapas de planejamento quanto de execução por meio de verificação introspectiva. Empregamos módulos de verificação como "exoesqueletos" para aprimorar os esquemas atuais de programação VL. Especificamente, nosso módulo de verificação proposto utiliza uma mistura de três sub-verificadores para validar previsões após cada etapa de raciocínio, calibrando subsequentemente as previsões do módulo visual e refinando o rastro de raciocínio planejado pelos LLMs. Resultados experimentais em dois métodos representativos de programação VL demonstram melhorias consistentes em cinco tarefas de raciocínio composicional em benchmarks padrão. Diante disso, acreditamos que o ExoViP pode promover um melhor desempenho e generalização em desafios multi-modais de domínio aberto.
English
Compositional visual reasoning methods, which translate a complex query into a structured composition of feasible visual tasks, have exhibited a strong potential in complicated multi-modal tasks. Empowered by recent advances in large language models (LLMs), this multi-modal challenge has been brought to a new stage by treating LLMs as few-shot/zero-shot planners, i.e., vision-language (VL) programming. Such methods, despite their numerous merits, suffer from challenges due to LLM planning mistakes or inaccuracy of visual execution modules, lagging behind the non-compositional models. In this work, we devise a "plug-and-play" method, ExoViP, to correct errors in both the planning and execution stages through introspective verification. We employ verification modules as "exoskeletons" to enhance current VL programming schemes. Specifically, our proposed verification module utilizes a mixture of three sub-verifiers to validate predictions after each reasoning step, subsequently calibrating the visual module predictions and refining the reasoning trace planned by LLMs. Experimental results on two representative VL programming methods showcase consistent improvements on five compositional reasoning tasks on standard benchmarks. In light of this, we believe that ExoViP can foster better performance and generalization on open-domain multi-modal challenges.

Summary

AI-Generated Summary

PDF92November 28, 2024