Visueel interpreteerbare subtakenredenering voor visuele vraagbeantwoording
Visually Interpretable Subtask Reasoning for Visual Question Answering
May 12, 2025
Auteurs: Yu Cheng, Arushi Goel, Hakan Bilen
cs.AI
Samenvatting
Het beantwoorden van complexe visuele vragen zoals `Welke rode meubels zijn geschikt om op te zitten?' vereist meerstaps redeneren, inclusief objectherkenning, attribuutfiltering en relationeel begrip. Recent werk verbetert de interpreteerbaarheid in multimodale grote taalmodellen (MLLMs) door taken op te delen in subtaskprogramma's, maar deze methoden zijn rekenintensief en minder nauwkeurig door slechte aanpassing aan doeldatasets. Om dit aan te pakken, introduceren we VISTAR (Visually Interpretable Subtask-Aware Reasoning Model), een subtask-gestuurd trainingsraamwerk dat zowel interpreteerbaarheid als redeneren verbetert door tekstuele en visuele verklaringen te genereren binnen MLLMs. In plaats van te vertrouwen op externe modellen, fine-tunt VISTAR MLLMs om gestructureerde Subtask-of-Thought redeneringen (stapsgewijze redeneersequenties) te produceren. Experimenten op twee benchmarks tonen aan dat VISTAR consistent de nauwkeurigheid van het redeneren verbetert terwijl de interpreteerbaarheid behouden blijft. Onze code en dataset zullen beschikbaar zijn op https://github.com/ChengJade/VISTAR.
English
Answering complex visual questions like `Which red furniture can be used for
sitting?' requires multi-step reasoning, including object recognition,
attribute filtering, and relational understanding. Recent work improves
interpretability in multimodal large language models (MLLMs) by decomposing
tasks into sub-task programs, but these methods are computationally expensive
and less accurate due to poor adaptation to target data. To address this, we
introduce VISTAR (Visually Interpretable Subtask-Aware Reasoning Model), a
subtask-driven training framework that enhances both interpretability and
reasoning by generating textual and visual explanations within MLLMs. Instead
of relying on external models, VISTAR fine-tunes MLLMs to produce structured
Subtask-of-Thought rationales (step-by-step reasoning sequences). Experiments
on two benchmarks show that VISTAR consistently improves reasoning accuracy
while maintaining interpretability. Our code and dataset will be available at
https://github.com/ChengJade/VISTAR.Summary
AI-Generated Summary