ChatPaper.aiChatPaper

MetaphorStar: Verstehen und Schlussfolgern von Bildmetaphern durch end-to-end visuelles bestärkendes Lernen

MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning

February 11, 2026
papers.authors: Chenhao Zhang, Yazhe Niu, Hongsheng Li
cs.AI

papers.abstract

Das metaphorische Verständnis in Bildern bleibt eine kritische Herausforderung für heutige KI-Systeme. Während multimodale Large Language Models (MLLMs) bei grundlegender Visual Question Answering (VQA) hervorragende Leistungen erbringen, haben sie durchgängig Schwierigkeiten, die nuancierten kulturellen, emotionalen und kontextuellen Implikationen in visuellen Inhalten zu erfassen. Diese Schwierigkeit resultiert aus den Anforderungen der Aufgabe an anspruchsvolles Multi-Hop-Reasoning, kulturellen Kontext und Theory of Mind (ToM)-Fähigkeiten, über die aktuelle Modelle nicht verfügen. Um diese Lücke zu schließen, schlagen wir MetaphorStar vor, den ersten end-to-end Visual Reinforcement Learning (RL)-Framework für Bildimplikationsaufgaben. Unser Framework umfasst drei Kernkomponenten: den feinkörnigen Datensatz TFQ-Data, die visuelle RL-Methode TFQ-GRPO und das strukturierte Benchmark TFQ-Bench. Unsere vollständig quelloffene MetaphorStar-Familie, trainiert mit TFQ-GRPO auf TFQ-Data, verbessert die Leistung auf den Bildimplikations-Benchmarks durchschnittlich um 82,6%. Im Vergleich zu 20+ Mainstream-MLLMs erreicht MetaphorStar-32B State-of-the-Art (SOTA) bei Multiple-Choice-Fragen und Open-Style-Fragen und übertrifft das führende Closed-Source-Modell Gemini-3.0-pro bei True-False-Fragen signifikant. Entscheidend ist, dass unsere Experimente zeigen, dass das Erlernen von Bildimplikationsaufgaben das allgemeine Verständnisvermögen, insbesondere die komplexe visuelle Reasoning-Fähigkeit, verbessert. Wir liefern weiterhin eine systematische Analyse der Skalierung von Modellparametern, der Skalierung von Trainingsdaten sowie der Auswirkungen verschiedener Modellarchitekturen und Trainingsstrategien, was die breite Anwendbarkeit unserer Methode demonstriert. Wir haben alle Modellgewichte, Datensätze und Methodencodes unter https://metaphorstar.github.io quelloffen bereitgestellt.
English
Metaphorical comprehension in images remains a critical challenge for Nowadays AI systems. While Multimodal Large Language Models (MLLMs) excel at basic Visual Question Answering (VQA), they consistently struggle to grasp the nuanced cultural, emotional, and contextual implications embedded in visual content. This difficulty stems from the task's demand for sophisticated multi-hop reasoning, cultural context, and Theory of Mind (ToM) capabilities, which current models lack. To fill this gap, we propose MetaphorStar, the first end-to-end visual reinforcement learning (RL) framework for image implication tasks. Our framework includes three core components: the fine-grained dataset TFQ-Data, the visual RL method TFQ-GRPO, and the well-structured benchmark TFQ-Bench. Our fully open-source MetaphorStar family, trained using TFQ-GRPO on TFQ-Data, significantly improves performance by an average of 82.6% on the image implication benchmarks. Compared with 20+ mainstream MLLMs, MetaphorStar-32B achieves state-of-the-art (SOTA) on Multiple-Choice Question and Open-Style Question, significantly outperforms the top closed-source model Gemini-3.0-pro on True-False Question. Crucially, our experiments reveal that learning image implication tasks improves the general understanding ability, especially the complex visual reasoning ability. We further provide a systematic analysis of model parameter scaling, training data scaling, and the impact of different model architectures and training strategies, demonstrating the broad applicability of our method. We open-sourced all model weights, datasets, and method code at https://metaphorstar.github.io.
PDF31February 14, 2026