Progressieve multimodale redenering via actieve ophaling
Progressive Multimodal Reasoning via Active Retrieval
December 19, 2024
Auteurs: Guanting Dong, Chenghao Zhang, Mengjie Deng, Yutao Zhu, Zhicheng Dou, Ji-Rong Wen
cs.AI
Samenvatting
Multistapelmultimodale redeneertaken vormen aanzienlijke uitdagingen voor multimodale grote taalmodellen (MLLM's), en het vinden van effectieve manieren om hun prestaties in dergelijke scenario's te verbeteren, blijft een onopgelost probleem. In dit artikel stellen we AR-MCTS voor, een universeel raamwerk dat is ontworpen om geleidelijk de redeneervaardigheden van MLLM's te verbeteren door middel van Actieve Ophaling (AR) en Monte Carlo Tree Search (MCTS). Onze aanpak begint met de ontwikkeling van een verenigd ophaalmodule die essentiële ondersteunende inzichten ophaalt voor het oplossen van complexe redeneerproblemen uit een hybride-modale ophaalcorpus. Om de kloof in geautomatiseerde multimodale redeneerverificatie te overbruggen, maken we gebruik van het MCTS-algoritme in combinatie met een actief ophaalmechanisme, waardoor de automatische generatie van stapsgewijze annotaties mogelijk wordt. Deze strategie haalt dynamisch essentiële inzichten op voor elke redeneerstap, waarbij verder wordt gegaan dan traditionele beam search-sampling om de diversiteit en betrouwbaarheid van de redeneerruimte te verbeteren. Daarnaast introduceren we een procesbeloningsmodel dat progressief wordt afgestemd om de automatische verificatie van multimodale redeneertaken te ondersteunen. Experimentele resultaten over drie complexe multimodale redeneerbenchmarks bevestigen de effectiviteit van het AR-MCTS-raamwerk bij het verbeteren van de prestaties van verschillende multimodale modellen. Verder onderzoek toont aan dat AR-MCTS de bemonsteringsdiversiteit en nauwkeurigheid kan optimaliseren, wat betrouwbare multimodale redenering oplevert.
English
Multi-step multimodal reasoning tasks pose significant challenges for
multimodal large language models (MLLMs), and finding effective ways to enhance
their performance in such scenarios remains an unresolved issue. In this paper,
we propose AR-MCTS, a universal framework designed to progressively improve the
reasoning capabilities of MLLMs through Active Retrieval (AR) and Monte Carlo
Tree Search (MCTS). Our approach begins with the development of a unified
retrieval module that retrieves key supporting insights for solving complex
reasoning problems from a hybrid-modal retrieval corpus. To bridge the gap in
automated multimodal reasoning verification, we employ the MCTS algorithm
combined with an active retrieval mechanism, which enables the automatic
generation of step-wise annotations. This strategy dynamically retrieves key
insights for each reasoning step, moving beyond traditional beam search
sampling to improve the diversity and reliability of the reasoning space.
Additionally, we introduce a process reward model that aligns progressively to
support the automatic verification of multimodal reasoning tasks. Experimental
results across three complex multimodal reasoning benchmarks confirm the
effectiveness of the AR-MCTS framework in enhancing the performance of various
multimodal models. Further analysis demonstrates that AR-MCTS can optimize
sampling diversity and accuracy, yielding reliable multimodal reasoning.