Flash-WAM: Destilação Sensível à Modalidade para Modelos de Ação Mundial

Resumo

Modelos de mundo-ação (WAMs) geram conjuntamente vídeo futuro e ações de robôs por meio de difusão iterativa, alcançando desempenho robusto em benchmarks de manipulação, mas exigindo dezenas de passos de denoising, um custo que inviabiliza o controle em tempo real. A destilação de passos surgiu como o remédio natural, mas métodos prontos para uso falham no cenário conjunto de vídeo-ação porque os fluxos de vídeo e ação utilizam cronogramas de ruído com deslocamento de SNR diferentes e chegam ao treinamento com distribuições marginais de ruído substancialmente distintas, uma assimetria que métodos de destilação de modalidade única não conseguem acomodar. Apresentamos Flash-WAM, uma estrutura de destilação de passos consciente da modalidade inspirada na destilação por consistência, que seleciona a função de consistência para cada modalidade de modo a corresponder ao seu regime de ruído: uma parametrização de escalonamento linear do gradiente para o regime de baixo ruído do fluxo de ação, combinada com uma parametrização de preservação de variância para o regime de alto ruído do fluxo de vídeo, fundamentada em uma análise estrutural da família de funções de consistência que caracteriza o escalonamento de gradiente alcançável sob a condição de contorno de consistência. Instanciado no LingBot-VA, o Flash-WAM comprime a inferência a um único passo em cada modalidade. No RoboTwin 2.0, isso reduz a latência por bloco de 8,1 segundos para 348 ms em uma NVIDIA L40S, uma aceleração de 23× que viabiliza inferência em tempo real. O Flash-WAM preserva o sucesso das tarefas em benchmarks de simulação (85,5% no RoboTwin 2.0, 95,7% no LIBERO) e recupera substancialmente o desempenho no mundo real (média de 60% em um robô humanóide Unitree G1), enquanto a destilação por consistência ingênua cai para 24% com o mesmo orçamento de passos.

English

World-action models (WAMs) jointly generate future video and robot actions through iterative diffusion, achieving strong performance on manipulation benchmarks but requiring tens of denoising steps, a cost that precludes real-time control. Step distillation has emerged as the natural remedy, but off-the-shelf methods break down in the joint video-action setting because video and action streams use different SNR-shifted noise schedules and reach training with substantially different marginal noise distributions, an asymmetry that single-modality distillation methods cannot accommodate. We introduce Flash-WAM, a modality-aware step-distillation framework inspired by consistency distillation that selects the consistency function for each modality to match its noise regime: a linear-gradient-scaling parametrization for the action stream's low-noise regime, paired with a variance-preserving parametrization for the video stream's high-noise regime, grounded in a structural analysis of the consistency-function family that characterizes the achievable gradient scaling under the consistency boundary condition. Instantiated on LingBot-VA, Flash-WAM compresses inference to a single step in each modality. On RoboTwin 2.0, this reduces per-chunk latency from 8.1 seconds to 348 ms on NVIDIA L40S, a 23{times} speedup that enables real-time inference. Flash-WAM preserves task success on simulation benchmarks (85.5% RoboTwin 2.0, 95.7% LIBERO) and substantially recovers real-world performance (60% average on a Unitree G1 humanoid robot), while naive consistency distillation drops to 24% at the same step budget.