Flash-WAM: Modalitätsbewusste Destillation für Weltaktionsmodelle

Zusammenfassung

Welt-Aktions-Modelle (WAMs) generieren gemeinsam zukünftige Videos und Roboteraktionen durch iterative Diffusion und erzielen dabei starke Leistungen auf Manipulations-Benchmarks, benötigen jedoch Dutzende von Entrauschungsschritten – ein Aufwand, der eine Echtzeitsteuerung ausschließt. Die Schrittdestillation hat sich als naheliegende Abhilfe erwiesen, doch handelsübliche Verfahren versagen im gemeinsamen Video-Aktions-Kontext, da Video- und Aktionsströme unterschiedliche SNR-verschobene Rauschpläne verwenden und mit deutlich unterschiedlichen marginalen Rauschverteilungen ins Training gehen – eine Asymmetrie, die unimodale Destillationsmethoden nicht bewältigen können. Wir stellen Flash-WAM vor, ein modalitätsbewusstes Schrittdestillations-Framework, das von der Konsistenzdestillation inspiriert ist und die Konsistenzfunktion für jede Modalität so wählt, dass sie zu deren Rauschregime passt: eine lineare Gradienten-Skalierungsparametrisierung für das niederrauschige Regime des Aktionsstroms, gepaart mit einer varianzerhaltenden Parametrisierung für das hochrauschige Regime des Videostroms, basierend auf einer strukturellen Analyse der Familie der Konsistenzfunktionen, die die unter der Konsistenzrandbedingung erreichbare Gradientenskalierung charakterisiert. Implementiert auf LingBot-VA komprimiert Flash-WAM die Inferenz auf einen einzigen Schritt pro Modalität. Auf RoboTwin 2.0 reduziert dies die Latenz pro Chunk von 8,1 Sekunden auf 348 ms auf einer NVIDIA L40S – eine 23-fache Beschleunigung, die Echtzeit-Inferenz ermöglicht. Flash-WAM erhält den Aufgabenerfolg auf Simulations-Benchmarks (85,5 % auf RoboTwin 2.0, 95,7 % auf LIBERO) und stellt die reale Leistung weitgehend wieder her (durchschnittlich 60 % auf einem humanoiden Roboter Unitree G1), während die naive Konsistenzdestillation bei gleichem Schrittbudget auf 24 % fällt.

English

World-action models (WAMs) jointly generate future video and robot actions through iterative diffusion, achieving strong performance on manipulation benchmarks but requiring tens of denoising steps, a cost that precludes real-time control. Step distillation has emerged as the natural remedy, but off-the-shelf methods break down in the joint video-action setting because video and action streams use different SNR-shifted noise schedules and reach training with substantially different marginal noise distributions, an asymmetry that single-modality distillation methods cannot accommodate. We introduce Flash-WAM, a modality-aware step-distillation framework inspired by consistency distillation that selects the consistency function for each modality to match its noise regime: a linear-gradient-scaling parametrization for the action stream's low-noise regime, paired with a variance-preserving parametrization for the video stream's high-noise regime, grounded in a structural analysis of the consistency-function family that characterizes the achievable gradient scaling under the consistency boundary condition. Instantiated on LingBot-VA, Flash-WAM compresses inference to a single step in each modality. On RoboTwin 2.0, this reduces per-chunk latency from 8.1 seconds to 348 ms on NVIDIA L40S, a 23{times} speedup that enables real-time inference. Flash-WAM preserves task success on simulation benchmarks (85.5% RoboTwin 2.0, 95.7% LIBERO) and substantially recovers real-world performance (60% average on a Unitree G1 humanoid robot), while naive consistency distillation drops to 24% at the same step budget.