Desbloqueando a Geração Visual Complexa via Raciocínio Verificado em Malha Fechada

Resumo

Apesar dos rápidos avanços, os modelos atuais de texto para imagem (T2I) dependem predominantemente de um paradigma de geração em etapa única, que enfrenta dificuldades com semânticas complexas e apresenta retornos decrescentes com o escalonamento de parâmetros. Embora abordagens recentes de raciocínio em múltiplas etapas sejam promissoras, elas são prejudicadas por alucinações de planejamento não fundamentadas e sem verificação, reflexão post-hoc monolítica, instabilidades de otimização de contexto longo e latência de inferência proibitiva. Para superar esses gargalos, propomos o framework de Raciocínio Visual em Malha Fechada (CLVR), um sistema abrangente que acopla profundamente o planejamento lógico visual-linguístico à geração por difusão em nível de pixel. O CLVR introduz um motor de dados automatizado com verificação visual em nível de etapa para sintetizar trajetórias de raciocínio confiáveis e propõe a Aprendizagem por Reforço de Prompt Proxy (PPRL) para resolver instabilidades de otimização de contexto longo, destilando histórias multimodais intercaladas em sinais de recompensa explícitos para uma atribuição causal precisa. Além disso, para mitigar o grave gargalo de latência causado pela remoção iterativa de ruído, propomos a Fusão de Pesos no Espaço Δ (DSWM), um método teoricamente fundamentado que funde pesos de alinhamento com prioris de destilação prontas para uso, reduzindo o custo de inferência por etapa para apenas 4 NFEs sem exigir re-destilação dispendiosa. Experimentos extensivos demonstram que o CLVR supera as linhas de base existentes de código aberto em múltiplos benchmarks e se aproxima do desempenho de modelos comerciais proprietários, desbloqueando capacidades gerais de escalabilidade em tempo de teste para geração visual complexa.

English

Despite rapid advancements, current text-to-image (T2I) models predominantly rely on a single-step generation paradigm, which struggles with complex semantics and faces diminishing returns from parameter scaling. While recent multi-step reasoning approaches show promise, they are hindered by ungrounded planning hallucinations lacking verification, monolithic post-hoc reflection, long-context optimization instabilities, and prohibitive inference latency. To overcome these bottlenecks, we propose the Closed-Loop Visual Reasoning (CLVR) framework, a comprehensive system that deeply couples visual-language logical planning with pixel-level diffusion generation. CLVR introduces an automated data engine with step-level visual verification to synthesize reliable reasoning trajectories, and proposes Proxy Prompt Reinforcement Learning (PPRL) to resolve long-context optimization instabilities by distilling interleaved multimodal histories into explicit reward signals for accurate causal attribution. Furthermore, to mitigate the severe latency bottleneck caused by iterative denoising, we propose Δ-Space Weight Merge (DSWM), a theoretically grounded method that fuses alignment weights with off-the-shelf distillation priors, reducing the per-step inference cost to just 4 NFEs without requiring expensive re-distillation. Extensive experiments demonstrate that CLVR outperforms existing open-source baselines across multiple benchmarks and approaches the performance of proprietary commercial models, unlocking general test-time scaling capabilities for complex visual generation.