Complexe visuele generatie ontsluiten via gesloten-lus geverifieerd redeneren

Samenvatting

Ondanks snelle vooruitgang zijn huidige tekst-naar-beeld (T2I)-modellen voornamelijk afhankelijk van een eenstapsgeneratieparadigma, dat worstelt met complexe semantiek en te maken heeft met afnemende meeropbrengsten bij het opschalen van parameters. Hoewel recente meerstaps redeneeraanpakken veelbelovend zijn, worden ze belemmerd door ongegronde planningshallucinaties zonder verificatie, monolithische post-hoc reflectie, optimalisatie-instabiliteiten bij lange contexten en onbetaalbare inferentielatentie. Om deze knelpunten te overwinnen, stellen wij het Closed-Loop Visual Reasoning (CLVR)-framework voor, een uitgebreid systeem dat visueel-logische planning diep koppelt aan pixel-niveau diffusiegeneratie. CLVR introduceert een geautomatiseerde data-engine met visuele verificatie per stap om betrouwbare redeneertrajecten te synthetiseren, en stelt Proxy Prompt Reinforcement Learning (PPRL) voor om optimalisatie-instabiliteiten bij lange contexten op te lossen door interleaved multimodale geschiedenissen te destilleren tot expliciete beloningssignalen voor nauwkeurige causale attributie. Verder stellen wij, om de ernstige latentieknelpunt veroorzaakt door iteratieve denoising te verminderen, Δ-Space Weight Merge (DSWM) voor, een theoretisch onderbouwde methode die aligneringsgewichten fuseert met kant-en-klare distillatiepriors, waardoor de kosten per stap worden teruggebracht tot slechts 4 NFE's zonder dure herdistillatie. Uitgebreide experimenten tonen aan dat CLVR bestaande open-source baselines overtreft op meerdere benchmarks en de prestaties van propriëtaire commerciële modellen benadert, waarmee algemene schaalbaarheid tijdens testtijd voor complexe visuele generatie wordt ontsloten.

English

Despite rapid advancements, current text-to-image (T2I) models predominantly rely on a single-step generation paradigm, which struggles with complex semantics and faces diminishing returns from parameter scaling. While recent multi-step reasoning approaches show promise, they are hindered by ungrounded planning hallucinations lacking verification, monolithic post-hoc reflection, long-context optimization instabilities, and prohibitive inference latency. To overcome these bottlenecks, we propose the Closed-Loop Visual Reasoning (CLVR) framework, a comprehensive system that deeply couples visual-language logical planning with pixel-level diffusion generation. CLVR introduces an automated data engine with step-level visual verification to synthesize reliable reasoning trajectories, and proposes Proxy Prompt Reinforcement Learning (PPRL) to resolve long-context optimization instabilities by distilling interleaved multimodal histories into explicit reward signals for accurate causal attribution. Furthermore, to mitigate the severe latency bottleneck caused by iterative denoising, we propose Δ-Space Weight Merge (DSWM), a theoretically grounded method that fuses alignment weights with off-the-shelf distillation priors, reducing the per-step inference cost to just 4 NFEs without requiring expensive re-distillation. Extensive experiments demonstrate that CLVR outperforms existing open-source baselines across multiple benchmarks and approaches the performance of proprietary commercial models, unlocking general test-time scaling capabilities for complex visual generation.