SCOPE: Структурированная декомпозиция и условная оркестрация навыков для генерации сложных изображений

Аннотация

Хотя модели преобразования текста в изображение достигли значительного прогресса в визуальной достоверности, точная реализация сложных визуальных намерений остается сложной задачей, поскольку множество требований необходимо отслеживать на этапах привязки (grounding), генерации и верификации. Мы называем такие требования семантическими обязательствами и формализуем разрыв их жизненного цикла как концептуальный разрыв (Conceptual Rift), при котором обязательства могут быть локально разрешены или проверены, но перестают быть идентифицируемыми как единые операционные единицы на протяжении всего жизненного цикла генерации. Для решения этой проблемы мы предлагаем SCOPE — фреймворк оркестрации навыков, управляемый спецификациями, который поддерживает семантические обязательства в эволюционирующей структурированной спецификации и условно активирует навыки извлечения, рассуждения и исправления для неразрешенных или нарушенных обязательств. Для оценки реализации намерений на уровне обязательств мы представляем Gen-Arena — размеченный вручную бенчмарк со спецификациями на уровне сущностей и ограничений, а также показатель Entity-Gated Intent Pass Rate (EGIP) — строгий критерий прохождения, приоритизирующий сущности. SCOPE значительно превосходит все оцениваемые базовые модели на Gen-Arena, достигая EGIP 0,60, а также показывает высокие результаты на WISE-V (0,907) и MindBench (0,61), что демонстрирует эффективность постоянного отслеживания обязательств для сложной генерации изображений.

English

While text-to-image models have made strong progress in visual fidelity, faithfully realizing complex visual intents remains challenging because many requirements must be tracked across grounding, generation, and verification. We refer to these requirements as semantic commitments and formalize their lifecycle discontinuity as the Conceptual Rift, where commitments may be locally resolved or checked but fail to remain identifiable as the same operational units throughout the generation lifecycle. To address this, we propose SCOPE, a specification-guided skill orchestration framework that maintains semantic commitments in an evolving structured specification and conditionally invokes retrieval, reasoning, and repair skills around unresolved or violated commitments. To evaluate commitment-level intent realization, we introduce Gen-Arena, a human-annotated benchmark with entity- and constraint-level specifications, together with Entity-Gated Intent Pass Rate (EGIP), a strict entity-first pass criterion. SCOPE substantially outperforms all evaluated baselines on Gen-Arena, achieving 0.60 EGIP, and further achieves strong results on WISE-V (0.907) and MindBench (0.61), demonstrating the effectiveness of persistent commitment tracking for complex image generation.

SCOPE: Структурированная декомпозиция и условная оркестрация навыков для генерации сложных изображений

SCOPE: Structured Decomposition and Conditional Skill Orchestration for Complex Image Generation

Аннотация

Support