Visuell interpretierbare Teilaufgabenlogik für visuelles Frage-Antworten
Visually Interpretable Subtask Reasoning for Visual Question Answering
May 12, 2025
Autoren: Yu Cheng, Arushi Goel, Hakan Bilen
cs.AI
Zusammenfassung
Die Beantwortung komplexer visueller Fragen wie „Welches rote Möbelstück eignet sich zum Sitzen?“ erfordert mehrstufiges Schlussfolgern, einschließlich Objekterkennung, Attributfilterung und relationalem Verständnis. Aktuelle Arbeiten verbessern die Interpretierbarkeit in multimodalen großen Sprachmodellen (MLLMs), indem sie Aufgaben in Unteraufgabenprogramme zerlegen. Diese Methoden sind jedoch rechenintensiv und weniger genau, da sie sich schlecht an die Ziel-Daten anpassen. Um dies zu adressieren, stellen wir VISTAR (Visually Interpretable Subtask-Aware Reasoning Model) vor, ein auf Unteraufgaben basierendes Trainingsframework, das sowohl die Interpretierbarkeit als auch das Schlussfolgern verbessert, indem es textuelle und visuelle Erklärungen innerhalb von MLLMs generiert. Anstatt sich auf externe Modelle zu verlassen, feintunt VISTAR MLLMs, um strukturierte Subtask-of-Thought-Begründungen (schrittweise Schlussfolgerungssequenzen) zu erzeugen. Experimente auf zwei Benchmarks zeigen, dass VISTAR die Genauigkeit des Schlussfolgerns kontinuierlich verbessert, während die Interpretierbarkeit erhalten bleibt. Unser Code und Datensatz werden unter https://github.com/ChengJade/VISTAR verfügbar sein.
English
Answering complex visual questions like `Which red furniture can be used for
sitting?' requires multi-step reasoning, including object recognition,
attribute filtering, and relational understanding. Recent work improves
interpretability in multimodal large language models (MLLMs) by decomposing
tasks into sub-task programs, but these methods are computationally expensive
and less accurate due to poor adaptation to target data. To address this, we
introduce VISTAR (Visually Interpretable Subtask-Aware Reasoning Model), a
subtask-driven training framework that enhances both interpretability and
reasoning by generating textual and visual explanations within MLLMs. Instead
of relying on external models, VISTAR fine-tunes MLLMs to produce structured
Subtask-of-Thought rationales (step-by-step reasoning sequences). Experiments
on two benchmarks show that VISTAR consistently improves reasoning accuracy
while maintaining interpretability. Our code and dataset will be available at
https://github.com/ChengJade/VISTAR.Summary
AI-Generated Summary