ChatPaper.aiChatPaper

AlphaGRPO: 分解的検証可能報酬によるUMMsにおける自己内省的マルチモーダル生成の実現

AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in UMMs via Decompositional Verifiable Reward

May 12, 2026
著者: Runhui Huang, Jie Wu, Rui Yang, Zhe Liu, Hengshuang Zhao
cs.AI

要旨

本論文では、AlphaGRPOという新たなフレームワークを提案する。これは、グループ相対方策最適化(GRPO)をAR-Diffusion統合マルチモーダルモデル(UMMs)に適用し、追加のコールドスタート段階を必要とせずにマルチモーダル生成能力を強化するものである。本手法はモデル本来の潜在能力を引き出し、推論型テキスト画像生成(モデルがユーザの暗黙的な意図を能動的に推論する)や自己省察的洗練(生成出力の不一致を自律的に診断・修正する)といった高度な推論タスクを実現する。実世界のマルチモーダル生成に安定した監督を提供するという課題に対処するため、分解可能検証報酬(Decompositional Verifiable Reward, DVReward)を導入する。DVRewardは、全体的なスカラー報酬とは異なり、LLMを利用して複雑なユーザ要求を原子的で検証可能な意味的・品質に関する質問に分解し、その後、汎用MLLMによって評価することで、信頼性が高く解釈可能なフィードバックを提供する。大規模な実験により、AlphaGRPOはGenEval、TIIF-Bench、DPG-Bench、WISEを含むマルチモーダル生成ベンチマークにおいて堅牢な改善をもたらし、さらに編集タスク(GEdit)において、編集タスクの学習なしで顕著な性能向上を達成することが示された。これらの結果は、本自己省察的強化学習手法が、本来持つ理解力を効果的に活用し、高忠実度な生成を導くことを実証している。プロジェクトページ: https://huangrh99.github.io/AlphaGRPO/
English
In this paper, we propose AlphaGRPO, a novel framework that applies Group Relative Policy Optimization (GRPO) to AR-Diffusion Unified Multimodal Models (UMMs) to enhance multimodal generation capabilities without an additional cold-start stage. Our approach unlocks the model's intrinsic potential to perform advanced reasoning tasks: Reasoning Text-to-Image Generation, where the model actively infers implicit user intents, and Self-Reflective Refinement, where it autonomously diagnoses and corrects misalignments in generated outputs. To address the challenge of providing stable supervision for real-world multimodal generation, we introduce the Decompositional Verifiable Reward (DVReward). Unlike holistic scalar rewards, DVReward utilizes an LLM to decompose complex user requests into atomic, verifiable semantic and quality questions, which are then evaluated by a general MLLM to provide reliable and interpretable feedback. Extensive experiments demonstrate that AlphaGRPO yields robust improvements across multimodal generation benchmarks, including GenEval, TIIF-Bench, DPG-Bench and WISE, while also achieving significant gains in editing tasks on GEdit without training on editing tasks. These results validate that our self-reflective reinforcement approach effectively leverages inherent understanding to guide high-fidelity generation. Project page: https://huangrh99.github.io/AlphaGRPO/
PDF282May 14, 2026