FlowAct-R1: Verso la Generazione Video Interattiva di Umanoidi

Abstract

La generazione interattiva di video umanoidi mira a sintetizzare agenti visivi realistici in grado di interagire con gli esseri umani attraverso video continui e reattivi. Nonostante i recenti progressi nella sintesi video, i metodi esistenti spesso affrontano un compromesso tra sintesi ad alta fedeltà e requisiti di interazione in tempo reale. In questo articolo proponiamo FlowAct-R1, un framework progettato specificamente per la generazione interattiva in tempo reale di video umanoidi. Basato su un'architettura MMDiT, FlowAct-R1 consente la sintesi in streaming di video di durata arbitraria mantenendo una bassa latenza di risposta. Introduciamo una strategia di diffusione a blocchi (chunkwise diffusion forcing), affiancata da una nuova variante self-forcing, per alleviare l'accumulo di errori e garantire la coerenza temporale a lungo termine durante l'interazione continua. Sfruttando l'addestramento efficiente (distillation) e ottimizzazioni a livello di sistema, il nostro framework raggiunge una frequenza stabile di 25 fps a risoluzione 480p con un tempo per il primo fotogramma (TTFF) di circa 1,5 secondi. Il metodo proposto fornisce un controllo olistico e granulare dell'intero corpo, consentendo all'agente di transitare naturalmente tra diversi stati comportamentali in scenari interattivi. I risultati sperimentali dimostrano che FlowAct-R1 raggiunge un'eccezionale vividezza comportamentale e realismo percettivo, mantenendo al contempo una solida generalizzazione su diversi stili di personaggio.

English

Interactive humanoid video generation aims to synthesize lifelike visual agents that can engage with humans through continuous and responsive video. Despite recent advances in video synthesis, existing methods often grapple with the trade-off between high-fidelity synthesis and real-time interaction requirements. In this paper, we propose FlowAct-R1, a framework specifically designed for real-time interactive humanoid video generation. Built upon a MMDiT architecture, FlowAct-R1 enables the streaming synthesis of video with arbitrary durations while maintaining low-latency responsiveness. We introduce a chunkwise diffusion forcing strategy, complemented by a novel self-forcing variant, to alleviate error accumulation and ensure long-term temporal consistency during continuous interaction. By leveraging efficient distillation and system-level optimizations, our framework achieves a stable 25fps at 480p resolution with a time-to-first-frame (TTFF) of only around 1.5 seconds. The proposed method provides holistic and fine-grained full-body control, enabling the agent to transition naturally between diverse behavioral states in interactive scenarios. Experimental results demonstrate that FlowAct-R1 achieves exceptional behavioral vividness and perceptual realism, while maintaining robust generalization across diverse character styles.

FlowAct-R1: Verso la Generazione Video Interattiva di Umanoidi

FlowAct-R1: Towards Interactive Humanoid Video Generation

Abstract

Support