ChatPaper.aiChatPaper

ExoViP: 외골격 모듈을 활용한 단계별 검증 및 탐사를 통한 구성적 시각 추론

ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning

August 5, 2024
저자: Yuxuan Wang, Alan Yuille, Zhuowan Li, Zilong Zheng
cs.AI

초록

복합적 시각 추론 방법은 복잡한 쿼리를 실행 가능한 시각 작업의 구조화된 조합으로 변환하여, 복잡한 다중 모달 작업에서 강력한 잠재력을 보여주었습니다. 최근 대형 언어 모델(Large Language Models, LLMs)의 발전에 힘입어, 이 다중 모달 도전 과제는 LLMs를 소수 샷/제로 샷 플래너로 취급하여, 즉, 시각-언어(Vision-Language, VL) 프로그래밍으로 새로운 단계로 이끌었습니다. 이러한 방법들은 다수의 장점에도 불구하고, LLM 계획 오류나 시각 실행 모듈의 부정확성으로 인한 도전에 직면하여 비복합적 모델에 뒤처지고 있습니다. 본 연구에서는 내향적 검증을 통해 계획 및 실행 단계의 오류를 수정하는 "플러그 앤 플레이" 방법인 ExoViP를 고안했습니다. 우리는 검증 모듈을 "외골격"으로 활용하여 현재 VL 프로그래밍 체계를 강화했습니다. 구체적으로, 우리가 제안한 검증 모듈은 세 가지 하위 검증기를 혼합하여 각 추론 단계 이후 예측을 검증하고, 이후 시각 모듈 예측을 보정하고 LLMs가 계획한 추론 트레이스를 정제합니다. 대표적인 VL 프로그래밍 방법 두 가지에 대한 실험 결과는 표준 벤치마크에서 다섯 가지 복합적 추론 작업에서 일관된 개선을 보여주었습니다. 이에 따라, ExoViP가 오픈 도메인 다중 모달 도전 과제에서 더 나은 성능과 일반화를 촉진할 수 있다고 믿습니다.
English
Compositional visual reasoning methods, which translate a complex query into a structured composition of feasible visual tasks, have exhibited a strong potential in complicated multi-modal tasks. Empowered by recent advances in large language models (LLMs), this multi-modal challenge has been brought to a new stage by treating LLMs as few-shot/zero-shot planners, i.e., vision-language (VL) programming. Such methods, despite their numerous merits, suffer from challenges due to LLM planning mistakes or inaccuracy of visual execution modules, lagging behind the non-compositional models. In this work, we devise a "plug-and-play" method, ExoViP, to correct errors in both the planning and execution stages through introspective verification. We employ verification modules as "exoskeletons" to enhance current VL programming schemes. Specifically, our proposed verification module utilizes a mixture of three sub-verifiers to validate predictions after each reasoning step, subsequently calibrating the visual module predictions and refining the reasoning trace planned by LLMs. Experimental results on two representative VL programming methods showcase consistent improvements on five compositional reasoning tasks on standard benchmarks. In light of this, we believe that ExoViP can foster better performance and generalization on open-domain multi-modal challenges.

Summary

AI-Generated Summary

PDF92November 28, 2024