MetaphorStar: Compreensão e Raciocínio de Metáforas Visuais com Aprendizagem por Reforço Visual de Ponta a Ponta

Resumo

A compreensão metafórica em imagens continua a ser um desafio crítico para os sistemas de IA atuais. Embora os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) se destaquem na Resposta a Perguntas Visuais (VQA) básica, eles lutam consistentemente para compreender as nuances culturais, emocionais e as implicações contextuais incorporadas no conteúdo visual. Esta dificuldade decorre da exigência da tarefa por um raciocínio multi-etapa sofisticado, contexto cultural e capacidades de Teoria da Mente (ToM), das quais os modelos atuais carecem. Para preencher esta lacuna, propomos o MetaphorStar, o primeiro quadro de aprendizagem por reforço visual de ponta a ponta para tarefas de implicação em imagens. O nosso quadro inclui três componentes principais: o conjunto de dados de granularidade fina TFQ-Data, o método de aprendizagem por reforço visual TFQ-GRPO e o benchmark bem estruturado TFQ-Bench. A nossa família MetaphorStar, totalmente de código aberto e treinada usando o TFQ-GRPO no TFQ-Data, melhora significativamente o desempenho em uma média de 82,6% nos benchmarks de implicação de imagem. Em comparação com mais de 20 MLLMs mainstream, o MetaphorStar-32B atinge o estado da arte (SOTA) em Perguntas de Escolha Múltipla e Perguntas de Estilo Aberto, superando significativamente o modelo proprietário mais avançado, o Gemini-3.0-pro, em Perguntas de Verdadeiro ou Falso. Crucialmente, as nossas experiências revelam que aprender tarefas de implicação de imagem melhora a capacidade de compreensão geral, especialmente a capacidade de raciocínio visual complexo. Fornecemos ainda uma análise sistemática da escala de parâmetros do modelo, da escala de dados de treino e do impacto de diferentes arquiteturas de modelo e estratégias de treino, demonstrando a ampla aplicabilidade do nosso método. Disponibilizamos publicamente todos os pesos dos modelos, conjuntos de dados e código do método em https://metaphorstar.github.io.

English

Metaphorical comprehension in images remains a critical challenge for Nowadays AI systems. While Multimodal Large Language Models (MLLMs) excel at basic Visual Question Answering (VQA), they consistently struggle to grasp the nuanced cultural, emotional, and contextual implications embedded in visual content. This difficulty stems from the task's demand for sophisticated multi-hop reasoning, cultural context, and Theory of Mind (ToM) capabilities, which current models lack. To fill this gap, we propose MetaphorStar, the first end-to-end visual reinforcement learning (RL) framework for image implication tasks. Our framework includes three core components: the fine-grained dataset TFQ-Data, the visual RL method TFQ-GRPO, and the well-structured benchmark TFQ-Bench. Our fully open-source MetaphorStar family, trained using TFQ-GRPO on TFQ-Data, significantly improves performance by an average of 82.6% on the image implication benchmarks. Compared with 20+ mainstream MLLMs, MetaphorStar-32B achieves state-of-the-art (SOTA) on Multiple-Choice Question and Open-Style Question, significantly outperforms the top closed-source model Gemini-3.0-pro on True-False Question. Crucially, our experiments reveal that learning image implication tasks improves the general understanding ability, especially the complex visual reasoning ability. We further provide a systematic analysis of model parameter scaling, training data scaling, and the impact of different model architectures and training strategies, demonstrating the broad applicability of our method. We open-sourced all model weights, datasets, and method code at https://metaphorstar.github.io.

MetaphorStar: Compreensão e Raciocínio de Metáforas Visuais com Aprendizagem por Reforço Visual de Ponta a Ponta

MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning

Resumo

Support