Визуально интерпретируемое рассуждение на основе подзадач для визуального ответа на вопросы
Visually Interpretable Subtask Reasoning for Visual Question Answering
May 12, 2025
Авторы: Yu Cheng, Arushi Goel, Hakan Bilen
cs.AI
Аннотация
Ответы на сложные визуальные вопросы, такие как `Какая красная мебель подходит для сидения?`, требуют многошагового рассуждения, включающего распознавание объектов, фильтрацию атрибутов и понимание отношений. Недавние исследования улучшают интерпретируемость в мультимодальных больших языковых моделях (MLLMs) за счет декомпозиции задач на подзадачи, но эти методы являются вычислительно затратными и менее точными из-за плохой адаптации к целевым данным. Для решения этой проблемы мы представляем VISTAR (Visually Interpretable Subtask-Aware Reasoning Model) — фреймворк для обучения, ориентированный на подзадачи, который повышает как интерпретируемость, так и качество рассуждений за счет генерации текстовых и визуальных объяснений внутри MLLMs. Вместо использования внешних моделей VISTAR дообучает MLLMs для создания структурированных обоснований в формате "Subtask-of-Thought" (последовательности шагов рассуждений). Эксперименты на двух бенчмарках показывают, что VISTAR стабильно улучшает точность рассуждений, сохраняя интерпретируемость. Наш код и набор данных будут доступны по адресу https://github.com/ChengJade/VISTAR.
English
Answering complex visual questions like `Which red furniture can be used for
sitting?' requires multi-step reasoning, including object recognition,
attribute filtering, and relational understanding. Recent work improves
interpretability in multimodal large language models (MLLMs) by decomposing
tasks into sub-task programs, but these methods are computationally expensive
and less accurate due to poor adaptation to target data. To address this, we
introduce VISTAR (Visually Interpretable Subtask-Aware Reasoning Model), a
subtask-driven training framework that enhances both interpretability and
reasoning by generating textual and visual explanations within MLLMs. Instead
of relying on external models, VISTAR fine-tunes MLLMs to produce structured
Subtask-of-Thought rationales (step-by-step reasoning sequences). Experiments
on two benchmarks show that VISTAR consistently improves reasoning accuracy
while maintaining interpretability. Our code and dataset will be available at
https://github.com/ChengJade/VISTAR.Summary
AI-Generated Summary