ChatPaper.aiChatPaper

MétaphoreÉtoile : Compréhension et raisonnement métaphorique d'images par apprentissage par renforcement visuel de bout en bout

MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning

February 11, 2026
papers.authors: Chenhao Zhang, Yazhe Niu, Hongsheng Li
cs.AI

papers.abstract

La compréhension métaphorique dans les images reste un défi critique pour les systèmes d'intelligence artificielle actuels. Bien que les modèles de langage multimodaux (MLLM) excellent dans les tâches de base de question-réponse visuelle (VQA), ils peinent systématiquement à saisir les implications culturelles, émotionnelles et contextuelles nuancées contenues dans le contenu visuel. Cette difficulté découle des exigences de la tâche en matière de raisonnement multi-saut sophistiqué, de contexte culturel et de capacités de théorie de l'esprit (ToM), qui font défaut aux modèles actuels. Pour combler cette lacune, nous proposons MetaphorStar, le premier cadre d'apprentissage par renforcement (RL) visuel de bout en bout pour les tâches d'implication visuelle. Notre cadre comprend trois composants centraux : l'ensemble de données à granularité fine TFQ-Data, la méthode de RL visuelle TFQ-GRPO et le benchmark structuré TFQ-Bench. La famille MetaphorStar, entièrement open-source et entraînée avec TFQ-GRPO sur TFQ-Data, améliore significativement les performances de 82,6 % en moyenne sur les benchmarks d'implication visuelle. Comparé à plus de 20 MLLM grand public, MetaphorStar-32B atteint l'état de l'art (SOTA) sur les questions à choix multiples et les questions de style ouvert, surpassant significativement le meilleur modèle fermé Gemini-3.0-pro sur les questions vrai-faux. Fait crucial, nos expériences révèlent que l'apprentissage des tâches d'implication visuelle améliore la capacité de compréhension générale, en particulier la capacité de raisonnement visuel complexe. Nous fournissons en outre une analyse systématique de l'échelle des paramètres du modèle, de l'échelle des données d'entraînement, et de l'impact des différentes architectures de modèles et stratégies d'entraînement, démontrant l'applicabilité étendue de notre méthode. Nous avons ouvert tous les poids des modèles, les ensembles de données et le code méthodologique sur https://metaphorstar.github.io.
English
Metaphorical comprehension in images remains a critical challenge for Nowadays AI systems. While Multimodal Large Language Models (MLLMs) excel at basic Visual Question Answering (VQA), they consistently struggle to grasp the nuanced cultural, emotional, and contextual implications embedded in visual content. This difficulty stems from the task's demand for sophisticated multi-hop reasoning, cultural context, and Theory of Mind (ToM) capabilities, which current models lack. To fill this gap, we propose MetaphorStar, the first end-to-end visual reinforcement learning (RL) framework for image implication tasks. Our framework includes three core components: the fine-grained dataset TFQ-Data, the visual RL method TFQ-GRPO, and the well-structured benchmark TFQ-Bench. Our fully open-source MetaphorStar family, trained using TFQ-GRPO on TFQ-Data, significantly improves performance by an average of 82.6% on the image implication benchmarks. Compared with 20+ mainstream MLLMs, MetaphorStar-32B achieves state-of-the-art (SOTA) on Multiple-Choice Question and Open-Style Question, significantly outperforms the top closed-source model Gemini-3.0-pro on True-False Question. Crucially, our experiments reveal that learning image implication tasks improves the general understanding ability, especially the complex visual reasoning ability. We further provide a systematic analysis of model parameter scaling, training data scaling, and the impact of different model architectures and training strategies, demonstrating the broad applicability of our method. We open-sourced all model weights, datasets, and method code at https://metaphorstar.github.io.
PDF31February 14, 2026