SCOPE : Décomposition structurée et orchestration conditionnelle des compétences pour la génération d'images complexes
SCOPE: Structured Decomposition and Conditional Skill Orchestration for Complex Image Generation
May 8, 2026
Auteurs: Tianfei Ren, Zhipeng Yan, Yiming Zhao, Zhen Fang, Yu Zeng, Guohui Zhang, Hang Xu, Xiaoxiao Ma, Shiting Huang, Ke Xu, Wenxuan Huang, Lionel Z. Wang, Lin Chen, Zehui Chen, Jie Huang, Feng Zhao
cs.AI
Résumé
Bien que les modèmes de texte-à-image aient réalisé des progrès significatifs en termes de fidélité visuelle, la réalisation fidèle d'intentions visuelles complexes reste difficile car de nombreuses exigences doivent être suivies à travers l'ancrage, la génération et la vérification. Nous désignons ces exigences sous le nom d'engagements sémantiques et formalisons leur discontinuité de cycle de vie comme le Fossé Conceptuel, où les engagements peuvent être localement résolus ou vérifiés sans toutefois rester identifiables en tant qu'unités opérationnelles uniques tout au long du cycle de vie de la génération. Pour y remédier, nous proposons SCOPE, un cadre d'orchestration de compétences guidé par des spécifications qui maintient les engagements sémantiques dans une spécification structurée en évolution et invoque conditionnellement des compétences de recherche, de raisonnement et de réparation autour des engagements non résolus ou violés. Afin d'évaluer la réalisation d'intention au niveau des engagements, nous introduisons Gen-Arena, un benchmark annoté par des humains avec des spécifications au niveau des entités et des contraintes, ainsi que le Taux de Réussite d'Intention à Porte d'Entité (EGIP), un critère de réussite strict priorisant les entités. SCOPE surpasse considérablement toutes les lignes de base évaluées sur Gen-Arena, atteignant un EGIP de 0,60, et obtient en outre des résultats solides sur WISE-V (0,907) et MindBench (0,61), démontrant l'efficacité du suivi persistant des engagements pour la génération d'images complexes.
English
While text-to-image models have made strong progress in visual fidelity, faithfully realizing complex visual intents remains challenging because many requirements must be tracked across grounding, generation, and verification. We refer to these requirements as semantic commitments and formalize their lifecycle discontinuity as the Conceptual Rift, where commitments may be locally resolved or checked but fail to remain identifiable as the same operational units throughout the generation lifecycle. To address this, we propose SCOPE, a specification-guided skill orchestration framework that maintains semantic commitments in an evolving structured specification and conditionally invokes retrieval, reasoning, and repair skills around unresolved or violated commitments. To evaluate commitment-level intent realization, we introduce Gen-Arena, a human-annotated benchmark with entity- and constraint-level specifications, together with Entity-Gated Intent Pass Rate (EGIP), a strict entity-first pass criterion. SCOPE substantially outperforms all evaluated baselines on Gen-Arena, achieving 0.60 EGIP, and further achieves strong results on WISE-V (0.907) and MindBench (0.61), demonstrating the effectiveness of persistent commitment tracking for complex image generation.