Débloquer la génération visuelle complexe via un raisonnement vérifié en boucle fermée

Résumé

Malgré des progrès rapides, les modèles actuels de texte-à-image (T2I) reposent principalement sur un paradigme de génération en une seule étape, qui peine à traiter les sémantiques complexes et subit des rendements décroissants liés à la mise à l'échelle des paramètres. Bien que les approches récentes de raisonnement multi-étape soient prometteuses, elles sont entravées par des hallucinations de planification non fondées et dépourvues de vérification, une réflexion post-hoc monolithique, des instabilités d'optimisation en contexte long, et une latence d'inférence prohibitive. Pour surmonter ces goulots d'étranglement, nous proposons le cadre Closed-Loop Visual Reasoning (CLVR), un système complet qui couple profondément la planification logique visuo-linguistique avec la génération par diffusion au niveau des pixels. CLVR introduit un moteur de données automatisé avec vérification visuelle par étape pour synthétiser des trajectoires de raisonnement fiables, et propose le Proxy Prompt Reinforcement Learning (PPRL) pour résoudre les instabilités d'optimisation en contexte long en distillant des historiques multimodaux entrelacés en signaux de récompense explicites pour une attribution causale précise. De plus, pour atténuer le grave goulot d'étranglement de latence causé par le débruitage itératif, nous proposons Δ-Space Weight Merge (DSWM), une méthode théoriquement fondée qui fusionne les poids d'alignement avec des a priori de distillation prêts à l'emploi, réduisant le coût d'inférence par étape à seulement 4 NFE sans nécessiter de re-distillation coûteuse. Des expériences approfondies montrent que CLVR surpasse les lignes de base open-source existantes sur plusieurs benchmarks et se rapproche des performances des modèles commerciaux propriétaires, débloquant des capacités de mise à l'échelle générales au moment du test pour la génération visuelle complexe.

English

Despite rapid advancements, current text-to-image (T2I) models predominantly rely on a single-step generation paradigm, which struggles with complex semantics and faces diminishing returns from parameter scaling. While recent multi-step reasoning approaches show promise, they are hindered by ungrounded planning hallucinations lacking verification, monolithic post-hoc reflection, long-context optimization instabilities, and prohibitive inference latency. To overcome these bottlenecks, we propose the Closed-Loop Visual Reasoning (CLVR) framework, a comprehensive system that deeply couples visual-language logical planning with pixel-level diffusion generation. CLVR introduces an automated data engine with step-level visual verification to synthesize reliable reasoning trajectories, and proposes Proxy Prompt Reinforcement Learning (PPRL) to resolve long-context optimization instabilities by distilling interleaved multimodal histories into explicit reward signals for accurate causal attribution. Furthermore, to mitigate the severe latency bottleneck caused by iterative denoising, we propose Δ-Space Weight Merge (DSWM), a theoretically grounded method that fuses alignment weights with off-the-shelf distillation priors, reducing the per-step inference cost to just 4 NFEs without requiring expensive re-distillation. Extensive experiments demonstrate that CLVR outperforms existing open-source baselines across multiple benchmarks and approaches the performance of proprietary commercial models, unlocking general test-time scaling capabilities for complex visual generation.