Erschließung komplexer visueller Generierung durch Closed-Loop-verifiziertes Reasoning

Zusammenfassung

Trotz rasanter Fortschritte verlassen sich aktuelle Text-zu-Bild-Modelle (T2B) überwiegend auf ein Ein-Schritt-Generierungsparadigma, das bei komplexer Semantik Schwierigkeiten hat und mit zunehmender Parameterskalierung abnehmende Erträge verzeichnet. Während neuere Mehrschritt-Ansätze mit Reasoning vielversprechend erscheinen, werden sie durch unbegründete Planungshalluzinationen ohne Verifikation, monolithische nachträgliche Reflexion, Instabilitäten bei der Optimierung langer Kontexte und eine prohibitiv hohe Inferenzlatenz behindert. Um diese Engpässe zu überwinden, schlagen wir das Closed-Loop Visual Reasoning (CLVR)-Framework vor, ein umfassendes System, das visuell-sprachliches logisches Planen mit diffusionsbasierter Pixelerzeugung tief koppelt. CLVR führt eine automatisierte Datenengine mit schrittweiser visueller Verifikation ein, um zuverlässige Reasoning-Trajektorien zu synthetisieren, und schlägt Proxy Prompt Reinforcement Learning (PPRL) vor, um Instabilitäten bei der Optimierung langer Kontexte zu beheben, indem verschachtelte multimodale Verläufe in explizite Belohnungssignale für eine genaue kausale Attribuierung destilliert werden. Um zudem den durch iteratives Denoising verursachten gravierenden Latenzengpass zu mildern, führen wir das theoretisch fundierte Δ-Space Weight Merge (DSWM) ein, das Alignment-Gewichte mit handelsüblichen Destillations-Priors fusioniert und so die Kosten pro Schritt auf nur 4 NFEs senkt, ohne dass eine teure erneute Destillation erforderlich ist. Umfangreiche Experimente belegen, dass CLVR bestehende Open-Source-Baselines über mehrere Benchmarks hinweg übertrifft und sich der Leistung proprietärer kommerzieller Modelle annähert, wodurch allgemeine Testzeit-Skalierungsfähigkeiten für die komplexe visuelle Generierung erschlossen werden.

English

Despite rapid advancements, current text-to-image (T2I) models predominantly rely on a single-step generation paradigm, which struggles with complex semantics and faces diminishing returns from parameter scaling. While recent multi-step reasoning approaches show promise, they are hindered by ungrounded planning hallucinations lacking verification, monolithic post-hoc reflection, long-context optimization instabilities, and prohibitive inference latency. To overcome these bottlenecks, we propose the Closed-Loop Visual Reasoning (CLVR) framework, a comprehensive system that deeply couples visual-language logical planning with pixel-level diffusion generation. CLVR introduces an automated data engine with step-level visual verification to synthesize reliable reasoning trajectories, and proposes Proxy Prompt Reinforcement Learning (PPRL) to resolve long-context optimization instabilities by distilling interleaved multimodal histories into explicit reward signals for accurate causal attribution. Furthermore, to mitigate the severe latency bottleneck caused by iterative denoising, we propose Δ-Space Weight Merge (DSWM), a theoretically grounded method that fuses alignment weights with off-the-shelf distillation priors, reducing the per-step inference cost to just 4 NFEs without requiring expensive re-distillation. Extensive experiments demonstrate that CLVR outperforms existing open-source baselines across multiple benchmarks and approaches the performance of proprietary commercial models, unlocking general test-time scaling capabilities for complex visual generation.