Razonamiento de Subtareas Visualmente Interpretable para Respuesta a Preguntas Visuales
Visually Interpretable Subtask Reasoning for Visual Question Answering
May 12, 2025
Autores: Yu Cheng, Arushi Goel, Hakan Bilen
cs.AI
Resumen
Responder a preguntas visuales complejas como `¿Qué muebles rojos se pueden usar para sentarse?' requiere un razonamiento de múltiples pasos, que incluye reconocimiento de objetos, filtrado de atributos y comprensión relacional. Trabajos recientes han mejorado la interpretabilidad en los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) al descomponer las tareas en programas de subtareas, pero estos métodos son computacionalmente costosos y menos precisos debido a una mala adaptación a los datos objetivo. Para abordar esto, presentamos VISTAR (Modelo de Razonamiento Consciente de Subtareas Visualmente Interpretable), un marco de entrenamiento basado en subtareas que mejora tanto la interpretabilidad como el razonamiento al generar explicaciones textuales y visuales dentro de los MLLMs. En lugar de depender de modelos externos, VISTAR ajusta finamente los MLLMs para producir racionales estructurados de Subtareas-de-Pensamiento (secuencias de razonamiento paso a paso). Los experimentos en dos puntos de referencia muestran que VISTAR mejora consistentemente la precisión del razonamiento mientras mantiene la interpretabilidad. Nuestro código y conjunto de datos estarán disponibles en https://github.com/ChengJade/VISTAR.
English
Answering complex visual questions like `Which red furniture can be used for
sitting?' requires multi-step reasoning, including object recognition,
attribute filtering, and relational understanding. Recent work improves
interpretability in multimodal large language models (MLLMs) by decomposing
tasks into sub-task programs, but these methods are computationally expensive
and less accurate due to poor adaptation to target data. To address this, we
introduce VISTAR (Visually Interpretable Subtask-Aware Reasoning Model), a
subtask-driven training framework that enhances both interpretability and
reasoning by generating textual and visual explanations within MLLMs. Instead
of relying on external models, VISTAR fine-tunes MLLMs to produce structured
Subtask-of-Thought rationales (step-by-step reasoning sequences). Experiments
on two benchmarks show that VISTAR consistently improves reasoning accuracy
while maintaining interpretability. Our code and dataset will be available at
https://github.com/ChengJade/VISTAR.Summary
AI-Generated Summary