MetaphorStar: エンドツーエンド視覚的強化学習による画像メタファー理解と推論
MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning
February 11, 2026
著者: Chenhao Zhang, Yazhe Niu, Hongsheng Li
cs.AI
要旨
画像における比喩的理解は、現在のAIシステムにとって依然として重要な課題である。マルチモーダル大規模言語モデル(MLLM)は基本的な視覚的質問応答(VQA)では優れた性能を発揮するが、視覚コンテンツに埋め込まれた文化的・感情的・文脈的な含意を理解することには一貫して困難を示している。この困難は、現在のモデルが持たない、高度なマルチホップ推論、文化的文脈、心の理論(ToM)能力を必要とするタスクの性質に起因する。このギャップを埋めるため、我々は画像含意タスクにおける初のエンドツーエンド視覚強化学習(RL)フレームワークであるMetaphorStarを提案する。本フレームワークは、細粒度データセットTFQ-Data、視覚RL手法TFQ-GRPO、体系的なベンチマークTFQ-Benchの3つの核心コンポーネントで構成される。
TFQ-Data上でTFQ-GRPOを用いて学習した完全オープンソースのMetaphorStarファミリーは、画像含意ベンチマークにおいて平均82.6%の性能向上を達成した。20以上の主流MLLMと比較し、MetaphorStar-32Bは多肢選択問題と自由記述問題で最高性能(SOTA)を達成し、真偽問題ではトップのクローズドソースモデルGemini-3.0-proを大幅に上回った。決定的に、画像含意タスクの学習が、一般的な理解能力、特に複雑な視覚推論能力を向上させることを実験的に明らかにした。さらに、モデルパラメータスケーリング、学習データスケーリング、および異なるモデルアーキテクチャと学習戦略の影響について体系的分析を行い、本手法の幅広い適用性を実証した。全てのモデル重み、データセット、手法コードをhttps://metaphorstar.github.io で公開している。
English
Metaphorical comprehension in images remains a critical challenge for Nowadays AI systems. While Multimodal Large Language Models (MLLMs) excel at basic Visual Question Answering (VQA), they consistently struggle to grasp the nuanced cultural, emotional, and contextual implications embedded in visual content. This difficulty stems from the task's demand for sophisticated multi-hop reasoning, cultural context, and Theory of Mind (ToM) capabilities, which current models lack. To fill this gap, we propose MetaphorStar, the first end-to-end visual reinforcement learning (RL) framework for image implication tasks. Our framework includes three core components: the fine-grained dataset TFQ-Data, the visual RL method TFQ-GRPO, and the well-structured benchmark TFQ-Bench.
Our fully open-source MetaphorStar family, trained using TFQ-GRPO on TFQ-Data, significantly improves performance by an average of 82.6% on the image implication benchmarks. Compared with 20+ mainstream MLLMs, MetaphorStar-32B achieves state-of-the-art (SOTA) on Multiple-Choice Question and Open-Style Question, significantly outperforms the top closed-source model Gemini-3.0-pro on True-False Question. Crucially, our experiments reveal that learning image implication tasks improves the general understanding ability, especially the complex visual reasoning ability. We further provide a systematic analysis of model parameter scaling, training data scaling, and the impact of different model architectures and training strategies, demonstrating the broad applicability of our method. We open-sourced all model weights, datasets, and method code at https://metaphorstar.github.io.