Открытие возможностей сложной визуальной генерации с помощью замкнутого верифицированного рассуждения

Аннотация

Несмотря на стремительный прогресс, современные модели text-to-image (T2I) по-прежнему в основном опираются на парадигму одношаговой генерации, которая плохо справляется со сложной семантикой и сталкивается с убывающей отдачей при масштабировании параметров. Хотя недавние многошаговые подходы на основе рассуждений демонстрируют многообещающие результаты, они сдерживаются необоснованными галлюцинациями планирования без верификации, монолитной постфактум-рефлексией, нестабильностями оптимизации в условиях длинного контекста и недопустимой задержкой инференса. Для преодоления этих узких мест мы предлагаем фреймворк замкнутого цикла визуальных рассуждений (CLVR) — комплексную систему, глубоко связывающую визуально-языковое логическое планирование с диффузионной генерацией на уровне пикселей. CLVR вводит автоматический движок данных с покадровой визуальной верификацией для синтеза надежных траекторий рассуждений и предлагает обучение с подкреплением на основе прокси-промптов (PPRL), которое решает проблемы нестабильности оптимизации в условиях длинного контекста путем дистилляции перемежающихся мультимодальных историй в явные сигналы вознаграждения для точной причинной атрибуции. Кроме того, для смягчения серьезного узкого места задержки, вызванного итеративным шумоподавлением, мы предлагаем слияние весов в Δ-пространстве (DSWM) — теоретически обоснованный метод, объединяющий веса выравнивания с готовыми дистилляционными приорами, что снижает стоимость одного шага инференса до всего 4 NFE без необходимости дорогостоящей редистилляции. Обширные эксперименты показывают, что CLVR превосходит существующие открытые базовые решения по нескольким бенчмаркам и приближается к производительности проприетарных коммерческих моделей, открывая общие возможности масштабирования во время тестирования в сложной визуальной генерации.

English

Despite rapid advancements, current text-to-image (T2I) models predominantly rely on a single-step generation paradigm, which struggles with complex semantics and faces diminishing returns from parameter scaling. While recent multi-step reasoning approaches show promise, they are hindered by ungrounded planning hallucinations lacking verification, monolithic post-hoc reflection, long-context optimization instabilities, and prohibitive inference latency. To overcome these bottlenecks, we propose the Closed-Loop Visual Reasoning (CLVR) framework, a comprehensive system that deeply couples visual-language logical planning with pixel-level diffusion generation. CLVR introduces an automated data engine with step-level visual verification to synthesize reliable reasoning trajectories, and proposes Proxy Prompt Reinforcement Learning (PPRL) to resolve long-context optimization instabilities by distilling interleaved multimodal histories into explicit reward signals for accurate causal attribution. Furthermore, to mitigate the severe latency bottleneck caused by iterative denoising, we propose Δ-Space Weight Merge (DSWM), a theoretically grounded method that fuses alignment weights with off-the-shelf distillation priors, reducing the per-step inference cost to just 4 NFEs without requiring expensive re-distillation. Extensive experiments demonstrate that CLVR outperforms existing open-source baselines across multiple benchmarks and approaches the performance of proprietary commercial models, unlocking general test-time scaling capabilities for complex visual generation.