Visueel interpreteerbare subtakenredenering voor visuele vraagbeantwoording

Samenvatting

Het beantwoorden van complexe visuele vragen zoals `Welke rode meubels zijn geschikt om op te zitten?' vereist meerstaps redeneren, inclusief objectherkenning, attribuutfiltering en relationeel begrip. Recent werk verbetert de interpreteerbaarheid in multimodale grote taalmodellen (MLLMs) door taken op te delen in subtaskprogramma's, maar deze methoden zijn rekenintensief en minder nauwkeurig door slechte aanpassing aan doeldatasets. Om dit aan te pakken, introduceren we VISTAR (Visually Interpretable Subtask-Aware Reasoning Model), een subtask-gestuurd trainingsraamwerk dat zowel interpreteerbaarheid als redeneren verbetert door tekstuele en visuele verklaringen te genereren binnen MLLMs. In plaats van te vertrouwen op externe modellen, fine-tunt VISTAR MLLMs om gestructureerde Subtask-of-Thought redeneringen (stapsgewijze redeneersequenties) te produceren. Experimenten op twee benchmarks tonen aan dat VISTAR consistent de nauwkeurigheid van het redeneren verbetert terwijl de interpreteerbaarheid behouden blijft. Onze code en dataset zullen beschikbaar zijn op https://github.com/ChengJade/VISTAR.

English

Answering complex visual questions like `Which red furniture can be used for sitting?' requires multi-step reasoning, including object recognition, attribute filtering, and relational understanding. Recent work improves interpretability in multimodal large language models (MLLMs) by decomposing tasks into sub-task programs, but these methods are computationally expensive and less accurate due to poor adaptation to target data. To address this, we introduce VISTAR (Visually Interpretable Subtask-Aware Reasoning Model), a subtask-driven training framework that enhances both interpretability and reasoning by generating textual and visual explanations within MLLMs. Instead of relying on external models, VISTAR fine-tunes MLLMs to produce structured Subtask-of-Thought rationales (step-by-step reasoning sequences). Experiments on two benchmarks show that VISTAR consistently improves reasoning accuracy while maintaining interpretability. Our code and dataset will be available at https://github.com/ChengJade/VISTAR.

Visueel interpreteerbare subtakenredenering voor visuele vraagbeantwoording

Visually Interpretable Subtask Reasoning for Visual Question Answering

Samenvatting

Summary

Support

Support