Ragionamento su Sottocompiti Visivamente Interpretabili per il Visual Question Answering
Visually Interpretable Subtask Reasoning for Visual Question Answering
May 12, 2025
Autori: Yu Cheng, Arushi Goel, Hakan Bilen
cs.AI
Abstract
Rispondere a domande visive complesse come `Quale mobile rosso può essere utilizzato per sedersi?' richiede un ragionamento a più fasi, che include il riconoscimento degli oggetti, il filtraggio degli attributi e la comprensione delle relazioni. Recenti lavori migliorano l'interpretabilità nei modelli linguistici multimodali di grandi dimensioni (MLLMs) scomponendo i compiti in programmi di sotto-attività, ma questi metodi sono computazionalmente costosi e meno accurati a causa di un adattamento insufficiente ai dati target. Per affrontare questo problema, introduciamo VISTAR (Visually Interpretable Subtask-Aware Reasoning Model), un framework di addestramento guidato da sotto-attività che migliora sia l'interpretabilità che il ragionamento generando spiegazioni testuali e visive all'interno degli MLLMs. Invece di affidarsi a modelli esterni, VISTAR ottimizza gli MLLM per produrre razionalità strutturate di Subtask-of-Thought (sequenze di ragionamento passo-passo). Esperimenti su due benchmark dimostrano che VISTAR migliora costantemente l'accuratezza del ragionamento mantenendo l'interpretabilità. Il nostro codice e il dataset saranno disponibili all'indirizzo https://github.com/ChengJade/VISTAR.
English
Answering complex visual questions like `Which red furniture can be used for
sitting?' requires multi-step reasoning, including object recognition,
attribute filtering, and relational understanding. Recent work improves
interpretability in multimodal large language models (MLLMs) by decomposing
tasks into sub-task programs, but these methods are computationally expensive
and less accurate due to poor adaptation to target data. To address this, we
introduce VISTAR (Visually Interpretable Subtask-Aware Reasoning Model), a
subtask-driven training framework that enhances both interpretability and
reasoning by generating textual and visual explanations within MLLMs. Instead
of relying on external models, VISTAR fine-tunes MLLMs to produce structured
Subtask-of-Thought rationales (step-by-step reasoning sequences). Experiments
on two benchmarks show that VISTAR consistently improves reasoning accuracy
while maintaining interpretability. Our code and dataset will be available at
https://github.com/ChengJade/VISTAR.