MetaphorStar: Comprensione e Ragionamento sulle Metafore Visive con Apprendimento per Rinforzo Visivo End-to-End

Abstract

La comprensione metaforica nelle immagini rimane una sfida critica per i sistemi di intelligenza artificiale odierni. Sebbene i Modelli Linguistici Multimodali (MLLM) eccellano nel Rispondere a Domande Visive (VQA) di base, faticano costantemente a cogliere le implicazioni culturali, emotive e contestuali sottili incorporate nei contenuti visivi. Questa difficoltà deriva dalla richiesta del compito di sofisticati ragionamenti a più passi, contesto culturale e capacità di Teoria della Mente (ToM), di cui i modelli attuali sono carenti. Per colmare questa lacuna, proponiamo MetaphorStar, il primo framework di apprendimento per rinforzo (RL) visivo end-to-end per compiti di implicazione visiva. Il nostro framework include tre componenti fondamentali: il dataset granulare TFQ-Data, il metodo di RL visivo TFQ-GRPO e il benchmark ben strutturato TFQ-Bench. La nostra famiglia MetaphorStar, completamente open-source e addestrata utilizzando TFQ-GRPO su TFQ-Data, migliora significativamente le prestazioni di una media dell'82,6% sui benchmark di implicazione visiva. Rispetto a oltre 20 MLLM mainstream, MetaphorStar-32B raggiunge lo stato dell'arte (SOTA) nelle Domande a Scelta Multipla e nelle Domande in Stile Aperto, superando significativamente il miglior modello closed-source, Gemini-3.0-pro, nelle Domande Vero-Falso. Crucialmente, i nostri esperimenti rivelano che l'apprendimento dei compiti di implicazione visiva migliora l'abilità di comprensione generale, in particolare la capacità di ragionamento visivo complesso. Forniamo inoltre un'analisi sistematica del ridimensionamento dei parametri del modello, del ridimensionamento dei dati di addestramento e dell'impatto di diverse architetture di modelli e strategie di addestramento, dimostrando l'ampia applicabilità del nostro metodo. Abbiamo reso open-source tutti i pesi dei modelli, i dataset e il codice del metodo su https://metaphorstar.github.io.

English

Metaphorical comprehension in images remains a critical challenge for Nowadays AI systems. While Multimodal Large Language Models (MLLMs) excel at basic Visual Question Answering (VQA), they consistently struggle to grasp the nuanced cultural, emotional, and contextual implications embedded in visual content. This difficulty stems from the task's demand for sophisticated multi-hop reasoning, cultural context, and Theory of Mind (ToM) capabilities, which current models lack. To fill this gap, we propose MetaphorStar, the first end-to-end visual reinforcement learning (RL) framework for image implication tasks. Our framework includes three core components: the fine-grained dataset TFQ-Data, the visual RL method TFQ-GRPO, and the well-structured benchmark TFQ-Bench. Our fully open-source MetaphorStar family, trained using TFQ-GRPO on TFQ-Data, significantly improves performance by an average of 82.6% on the image implication benchmarks. Compared with 20+ mainstream MLLMs, MetaphorStar-32B achieves state-of-the-art (SOTA) on Multiple-Choice Question and Open-Style Question, significantly outperforms the top closed-source model Gemini-3.0-pro on True-False Question. Crucially, our experiments reveal that learning image implication tasks improves the general understanding ability, especially the complex visual reasoning ability. We further provide a systematic analysis of model parameter scaling, training data scaling, and the impact of different model architectures and training strategies, demonstrating the broad applicability of our method. We open-sourced all model weights, datasets, and method code at https://metaphorstar.github.io.

MetaphorStar: Comprensione e Ragionamento sulle Metafore Visive con Apprendimento per Rinforzo Visivo End-to-End

MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning

Abstract

Support