Raciocínio de Subtarefas Visualmente Interpretável para Resposta a Perguntas Visuais
Visually Interpretable Subtask Reasoning for Visual Question Answering
May 12, 2025
Autores: Yu Cheng, Arushi Goel, Hakan Bilen
cs.AI
Resumo
Responder a perguntas visuais complexas como `Qual mobiliário vermelho pode ser usado para sentar?' requer raciocínio em múltiplas etapas, incluindo reconhecimento de objetos, filtragem de atributos e compreensão relacional. Trabalhos recentes melhoram a interpretabilidade em modelos de linguagem multimodal de grande escala (MLLMs) ao decompor tarefas em programas de subtarefas, mas esses métodos são computacionalmente caros e menos precisos devido à má adaptação aos dados de destino. Para resolver isso, introduzimos o VISTAR (Modelo de Raciocínio Consciente de Subtarefas Visualmente Interpretável), uma estrutura de treinamento orientada por subtarefas que aprimora tanto a interpretabilidade quanto o raciocínio ao gerar explicações textuais e visuais dentro dos MLLMs. Em vez de depender de modelos externos, o VISTAR ajusta finamente os MLLMs para produzir racionais estruturados de Subtarefas-de-Pensamento (sequências de raciocínio passo a passo). Experimentos em dois benchmarks mostram que o VISTAR melhora consistentemente a precisão do raciocínio enquanto mantém a interpretabilidade. Nosso código e conjunto de dados estarão disponíveis em https://github.com/ChengJade/VISTAR.
English
Answering complex visual questions like `Which red furniture can be used for
sitting?' requires multi-step reasoning, including object recognition,
attribute filtering, and relational understanding. Recent work improves
interpretability in multimodal large language models (MLLMs) by decomposing
tasks into sub-task programs, but these methods are computationally expensive
and less accurate due to poor adaptation to target data. To address this, we
introduce VISTAR (Visually Interpretable Subtask-Aware Reasoning Model), a
subtask-driven training framework that enhances both interpretability and
reasoning by generating textual and visual explanations within MLLMs. Instead
of relying on external models, VISTAR fine-tunes MLLMs to produce structured
Subtask-of-Thought rationales (step-by-step reasoning sequences). Experiments
on two benchmarks show that VISTAR consistently improves reasoning accuracy
while maintaining interpretability. Our code and dataset will be available at
https://github.com/ChengJade/VISTAR.