Ragionamento su Sottocompiti Visivamente Interpretabili per il Visual Question Answering

Abstract

Rispondere a domande visive complesse come `Quale mobile rosso può essere utilizzato per sedersi?' richiede un ragionamento a più fasi, che include il riconoscimento degli oggetti, il filtraggio degli attributi e la comprensione delle relazioni. Recenti lavori migliorano l'interpretabilità nei modelli linguistici multimodali di grandi dimensioni (MLLMs) scomponendo i compiti in programmi di sotto-attività, ma questi metodi sono computazionalmente costosi e meno accurati a causa di un adattamento insufficiente ai dati target. Per affrontare questo problema, introduciamo VISTAR (Visually Interpretable Subtask-Aware Reasoning Model), un framework di addestramento guidato da sotto-attività che migliora sia l'interpretabilità che il ragionamento generando spiegazioni testuali e visive all'interno degli MLLMs. Invece di affidarsi a modelli esterni, VISTAR ottimizza gli MLLM per produrre razionalità strutturate di Subtask-of-Thought (sequenze di ragionamento passo-passo). Esperimenti su due benchmark dimostrano che VISTAR migliora costantemente l'accuratezza del ragionamento mantenendo l'interpretabilità. Il nostro codice e il dataset saranno disponibili all'indirizzo https://github.com/ChengJade/VISTAR.

English

Answering complex visual questions like `Which red furniture can be used for sitting?' requires multi-step reasoning, including object recognition, attribute filtering, and relational understanding. Recent work improves interpretability in multimodal large language models (MLLMs) by decomposing tasks into sub-task programs, but these methods are computationally expensive and less accurate due to poor adaptation to target data. To address this, we introduce VISTAR (Visually Interpretable Subtask-Aware Reasoning Model), a subtask-driven training framework that enhances both interpretability and reasoning by generating textual and visual explanations within MLLMs. Instead of relying on external models, VISTAR fine-tunes MLLMs to produce structured Subtask-of-Thought rationales (step-by-step reasoning sequences). Experiments on two benchmarks show that VISTAR consistently improves reasoning accuracy while maintaining interpretability. Our code and dataset will be available at https://github.com/ChengJade/VISTAR.

Ragionamento su Sottocompiti Visivamente Interpretabili per il Visual Question Answering

Visually Interpretable Subtask Reasoning for Visual Question Answering

Abstract

Support