Desbloqueando la generación visual compleja mediante razonamiento verificado en bucle cerrado

Resumen

A pesar de los rápidos avances, los modelos actuales de texto a imagen (T2I) se basan predominantemente en un paradigma de generación de un solo paso, que presenta dificultades con semánticas complejas y enfrenta rendimientos decrecientes ante el escalado de parámetros. Si bien los enfoques recientes de razonamiento de múltiples pasos resultan prometedores, se ven obstaculizados por alucinaciones de planificación sin fundamento que carecen de verificación, una reflexión post-hoc monolítica, inestabilidades en la optimización de contexto largo y una latencia de inferencia prohibitiva. Para superar estos cuellos de botella, proponemos el marco de Razonamiento Visual en Bucle Cerrado (CLVR, por sus siglas en inglés), un sistema integral que acopla profundamente la planificación lógica visual-lingüística con la generación por difusión a nivel de píxeles. CLVR introduce un motor de datos automatizado con verificación visual a nivel de paso para sintetizar trayectorias de razonamiento fiables, y propone el Aprendizaje por Refuerzo con Prompts Proxy (PPRL) para resolver las inestabilidades de optimización de contexto largo mediante la destilación de historias multimodales intercaladas en señales de recompensa explícitas que permiten una atribución causal precisa. Además, para mitigar el grave cuello de botella de latencia provocado por la eliminación iterativa de ruido, proponemos la Fusión de Pesos en el Espacio Δ (DSWM), un método con fundamentos teóricos que fusiona pesos de alineación con prioris de destilación ya disponibles, reduciendo el costo de inferencia por paso a solo 4 NFE sin requerir una redistilación costosa. Experimentos exhaustivos demuestran que CLVR supera a los modelos de referencia de código abierto existentes en múltiples puntos de referencia y se aproxima al rendimiento de los modelos comerciales propietarios, desbloqueando capacidades generales de escalado en tiempo de prueba para la generación visual compleja.

English

Despite rapid advancements, current text-to-image (T2I) models predominantly rely on a single-step generation paradigm, which struggles with complex semantics and faces diminishing returns from parameter scaling. While recent multi-step reasoning approaches show promise, they are hindered by ungrounded planning hallucinations lacking verification, monolithic post-hoc reflection, long-context optimization instabilities, and prohibitive inference latency. To overcome these bottlenecks, we propose the Closed-Loop Visual Reasoning (CLVR) framework, a comprehensive system that deeply couples visual-language logical planning with pixel-level diffusion generation. CLVR introduces an automated data engine with step-level visual verification to synthesize reliable reasoning trajectories, and proposes Proxy Prompt Reinforcement Learning (PPRL) to resolve long-context optimization instabilities by distilling interleaved multimodal histories into explicit reward signals for accurate causal attribution. Furthermore, to mitigate the severe latency bottleneck caused by iterative denoising, we propose Δ-Space Weight Merge (DSWM), a theoretically grounded method that fuses alignment weights with off-the-shelf distillation priors, reducing the per-step inference cost to just 4 NFEs without requiring expensive re-distillation. Extensive experiments demonstrate that CLVR outperforms existing open-source baselines across multiple benchmarks and approaches the performance of proprietary commercial models, unlocking general test-time scaling capabilities for complex visual generation.