ChatPaper.aiChatPaper

WorldForge : Libérer la génération émergente 3D/4D dans les modèles de diffusion vidéo grâce à un guidage sans apprentissage

WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance

September 18, 2025
papers.authors: Chenxi Song, Yanming Yang, Tong Zhao, Ruibo Li, Chi Zhang
cs.AI

papers.abstract

Les récents modèles de diffusion vidéo démontrent un fort potentiel dans les tâches d'intelligence spatiale grâce à leurs riches a priori latents sur le monde. Cependant, ce potentiel est entravé par leur contrôlabilité limitée et leur incohérence géométrique, créant un écart entre leurs solides a priori et leur utilisation pratique dans les tâches 3D/4D. Par conséquent, les approches actuelles reposent souvent sur un réentraînement ou un ajustement fin, ce qui risque de dégrader les connaissances pré-entraînées et entraîne des coûts de calcul élevés. Pour remédier à cela, nous proposons WorldForge, un cadre d'inférence sans entraînement composé de trois modules étroitement couplés. Le Raffinement Récursif Intra-Étape introduit un mécanisme de raffinement récursif pendant l'inférence, qui optimise de manière répétée les prédictions du réseau à chaque étape de débruitage pour permettre une injection précise de trajectoire. La Fusion Latente Guidée par Flux exploite la similarité du flux optique pour découpler le mouvement de l'apparence dans l'espace latent et injecter sélectivement des guidages de trajectoire dans les canaux liés au mouvement. Le Guidage Auto-Correctif à Double Voie compare les chemins de débruitage guidés et non guidés pour corriger de manière adaptative la dérive de trajectoire causée par des signaux structurels bruyants ou mal alignés. Ensemble, ces composants injectent un guidage fin et aligné sur la trajectoire sans entraînement, permettant à la fois un contrôle précis du mouvement et une génération de contenu photoréaliste. Des expériences approfondies sur divers benchmarks valident la supériorité de notre méthode en termes de réalisme, de cohérence de trajectoire et de fidélité visuelle. Ce travail introduit un nouveau paradigme plug-and-play pour la synthèse vidéo contrôlable, offrant une nouvelle perspective sur l'exploitation des a priori génératifs pour l'intelligence spatiale.
English
Recent video diffusion models demonstrate strong potential in spatial intelligence tasks due to their rich latent world priors. However, this potential is hindered by their limited controllability and geometric inconsistency, creating a gap between their strong priors and their practical use in 3D/4D tasks. As a result, current approaches often rely on retraining or fine-tuning, which risks degrading pretrained knowledge and incurs high computational costs. To address this, we propose WorldForge, a training-free, inference-time framework composed of three tightly coupled modules. Intra-Step Recursive Refinement introduces a recursive refinement mechanism during inference, which repeatedly optimizes network predictions within each denoising step to enable precise trajectory injection. Flow-Gated Latent Fusion leverages optical flow similarity to decouple motion from appearance in the latent space and selectively inject trajectory guidance into motion-related channels. Dual-Path Self-Corrective Guidance compares guided and unguided denoising paths to adaptively correct trajectory drift caused by noisy or misaligned structural signals. Together, these components inject fine-grained, trajectory-aligned guidance without training, achieving both accurate motion control and photorealistic content generation. Extensive experiments across diverse benchmarks validate our method's superiority in realism, trajectory consistency, and visual fidelity. This work introduces a novel plug-and-play paradigm for controllable video synthesis, offering a new perspective on leveraging generative priors for spatial intelligence.
PDF303September 19, 2025