ChatPaper.aiChatPaper

Raisonnement visuellement interprétable par sous-tâches pour la réponse à des questions visuelles

Visually Interpretable Subtask Reasoning for Visual Question Answering

May 12, 2025
Auteurs: Yu Cheng, Arushi Goel, Hakan Bilen
cs.AI

Résumé

Répondre à des questions visuelles complexes comme `Quel meuble rouge peut être utilisé pour s'asseoir ?` nécessite un raisonnement en plusieurs étapes, incluant la reconnaissance d'objets, le filtrage d'attributs et la compréhension des relations. Les travaux récents améliorent l'interprétabilité des modèles de langage multimodaux de grande taille (MLLMs) en décomposant les tâches en sous-programmes, mais ces méthodes sont coûteuses en calcul et moins précises en raison d'une mauvaise adaptation aux données cibles. Pour résoudre ce problème, nous introduisons VISTAR (Modèle de Raisonnement Conscient des Sous-Tâches Visuellement Interprétable), un cadre d'entraînement basé sur les sous-tâches qui améliore à la fois l'interprétabilité et le raisonnement en générant des explications textuelles et visuelles au sein des MLLMs. Au lieu de s'appuyer sur des modèles externes, VISTAR affine les MLLMs pour produire des justifications structurées de type "Sous-Tâche de Pensée" (séquences de raisonnement étape par étape). Les expériences sur deux benchmarks montrent que VISTAR améliore constamment la précision du raisonnement tout en maintenant l'interprétabilité. Notre code et notre ensemble de données seront disponibles à l'adresse https://github.com/ChengJade/VISTAR.
English
Answering complex visual questions like `Which red furniture can be used for sitting?' requires multi-step reasoning, including object recognition, attribute filtering, and relational understanding. Recent work improves interpretability in multimodal large language models (MLLMs) by decomposing tasks into sub-task programs, but these methods are computationally expensive and less accurate due to poor adaptation to target data. To address this, we introduce VISTAR (Visually Interpretable Subtask-Aware Reasoning Model), a subtask-driven training framework that enhances both interpretability and reasoning by generating textual and visual explanations within MLLMs. Instead of relying on external models, VISTAR fine-tunes MLLMs to produce structured Subtask-of-Thought rationales (step-by-step reasoning sequences). Experiments on two benchmarks show that VISTAR consistently improves reasoning accuracy while maintaining interpretability. Our code and dataset will be available at https://github.com/ChengJade/VISTAR.

Summary

AI-Generated Summary

PDF12May 15, 2025