ChatPaper.aiChatPaper

AlphaGRPO: 분해적 검증 가능 보상을 통한 UMMs에서의 자기반성적 다중모드 생성 실현

AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in UMMs via Decompositional Verifiable Reward

May 12, 2026
저자: Runhui Huang, Jie Wu, Rui Yang, Zhe Liu, Hengshuang Zhao
cs.AI

초록

본 논문에서는 AR-Diffusion 통합 멀티모달 모델(UMM)에 그룹 상대 정책 최적화(GRPO)를 적용하여 추가적인 콜드 스타트 단계 없이 멀티모달 생성 능력을 향상시키는 새로운 프레임워크인 AlphaGRPO를 제안한다. 제안된 접근법은 모델의 내재된 잠재력을 활용하여 고급 추론 작업(모델이 사용자의 암묵적 의도를 능동적으로 추론하는 추론 기반 텍스트-이미지 생성, 그리고 생성된 출력물의 정합성 오류를 자율적으로 진단하고 수정하는 자기 반성적 정제)을 수행할 수 있도록 한다. 실제 멀티모달 생성을 위한 안정적인 감독 신호 제공의 어려움을 해결하기 위해, 분해 가능 검증 보상(DVReward)을 도입한다. DVReward는 전체적 스칼라 보상과 달리, LLM을 활용하여 복잡한 사용자 요청을 원자적이고 검증 가능한 의미론적 및 품질 관련 질문들로 분해한 후, 일반적인 MLLM이 이를 평가하여 신뢰할 수 있고 해석 가능한 피드백을 제공한다. 광범위한 실험 결과, AlphaGRPO는 GenEval, TIIF-Bench, DPG-Bench 및 WISE를 포함한 다양한 멀티모달 생성 벤치마크에서 강력한 성능 향상을 보였으며, 편집 작업 학습 없이도 GEdit 데이터셋의 편집 작업에서 상당한 성과를 달성했다. 이러한 결과는 본 자기 반성적 강화 접근법이 내재된 이해 능력을 효과적으로 활용하여 고품질 생성을 유도함을 입증한다. 프로젝트 페이지: https://huangrh99.github.io/AlphaGRPO/
English
In this paper, we propose AlphaGRPO, a novel framework that applies Group Relative Policy Optimization (GRPO) to AR-Diffusion Unified Multimodal Models (UMMs) to enhance multimodal generation capabilities without an additional cold-start stage. Our approach unlocks the model's intrinsic potential to perform advanced reasoning tasks: Reasoning Text-to-Image Generation, where the model actively infers implicit user intents, and Self-Reflective Refinement, where it autonomously diagnoses and corrects misalignments in generated outputs. To address the challenge of providing stable supervision for real-world multimodal generation, we introduce the Decompositional Verifiable Reward (DVReward). Unlike holistic scalar rewards, DVReward utilizes an LLM to decompose complex user requests into atomic, verifiable semantic and quality questions, which are then evaluated by a general MLLM to provide reliable and interpretable feedback. Extensive experiments demonstrate that AlphaGRPO yields robust improvements across multimodal generation benchmarks, including GenEval, TIIF-Bench, DPG-Bench and WISE, while also achieving significant gains in editing tasks on GEdit without training on editing tasks. These results validate that our self-reflective reinforcement approach effectively leverages inherent understanding to guide high-fidelity generation. Project page: https://huangrh99.github.io/AlphaGRPO/
PDF282May 14, 2026