MetaphorStar: Beeldmetafoorbegrip en Redeneren met End-to-End Visuele Versterkingsleren

Samenvatting

Metaforisch begrip in afbeeldingen blijft een kritieke uitdaging voor hedendaagse AI-systemen. Hoewel Multimodale Large Language Models (MLLMs) uitblinken in basale Visual Question Answering (VQA), hebben ze consistent moeite met het begrijpen van de genuanceerde culturele, emotionele en contextuele implicaties die in visuele content zijn vervat. Deze moeilijkheid vloeit voort uit de taakeis van geavanceerd multi-hop redeneren, culturele context en Theory of Mind (ToM) capaciteiten, waar huidige modellen aan tekortkomen. Om deze leemte op te vullen, stellen wij MetaphorStar voor, het eerste end-to-end visuele reinforcement learning (RL) raamwerk voor beeldimplicatietaken. Ons raamwerk omvat drie kerncomponenten: de fijnmazige dataset TFQ-Data, de visuele RL-methode TFQ-GRPO en de gestructureerde benchmark TFQ-Bench. Onze volledig open-source MetaphorStar-familie, getraind met TFQ-GRPO op TFQ-Data, verbetert de prestaties aanzienlijk met gemiddeld 82,6% op de beeldimplicatiebenchmarks. In vergelijking met 20+ mainstream MLLMs behaalt MetaphorStar-32B state-of-the-art (SOTA) op Multiple-Choice Question en Open-Style Question, en presteert het significant beter dan het top closed-source model Gemini-3.0-pro op True-False Question. Cruciaal is dat onze experimenten aantonen dat het aanleren van beeldimplicatietaken het algemeen begripsvermogen verbetert, in het bijzonder het complexe visuele redeneervermogen. Wij geven verder een systematische analyse van modelschaalvergroting, schaalvergroting van trainingsdata, en de impact van verschillende modelarchitecturen en trainingsstrategieën, wat de brede toepasbaarheid van onze methode aantoont. Wij hebben alle modelgewichten, datasets en methodcode openbaar gemaakt op https://metaphorstar.github.io.

English

Metaphorical comprehension in images remains a critical challenge for Nowadays AI systems. While Multimodal Large Language Models (MLLMs) excel at basic Visual Question Answering (VQA), they consistently struggle to grasp the nuanced cultural, emotional, and contextual implications embedded in visual content. This difficulty stems from the task's demand for sophisticated multi-hop reasoning, cultural context, and Theory of Mind (ToM) capabilities, which current models lack. To fill this gap, we propose MetaphorStar, the first end-to-end visual reinforcement learning (RL) framework for image implication tasks. Our framework includes three core components: the fine-grained dataset TFQ-Data, the visual RL method TFQ-GRPO, and the well-structured benchmark TFQ-Bench. Our fully open-source MetaphorStar family, trained using TFQ-GRPO on TFQ-Data, significantly improves performance by an average of 82.6% on the image implication benchmarks. Compared with 20+ mainstream MLLMs, MetaphorStar-32B achieves state-of-the-art (SOTA) on Multiple-Choice Question and Open-Style Question, significantly outperforms the top closed-source model Gemini-3.0-pro on True-False Question. Crucially, our experiments reveal that learning image implication tasks improves the general understanding ability, especially the complex visual reasoning ability. We further provide a systematic analysis of model parameter scaling, training data scaling, and the impact of different model architectures and training strategies, demonstrating the broad applicability of our method. We open-sourced all model weights, datasets, and method code at https://metaphorstar.github.io.

MetaphorStar: Beeldmetafoorbegrip en Redeneren met End-to-End Visuele Versterkingsleren

MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning

Samenvatting

Support