FlowAct-R1: インタラクティブなヒューマノイド動画生成に向けて
FlowAct-R1: Towards Interactive Humanoid Video Generation
January 15, 2026
著者: Lizhen Wang, Yongming Zhu, Zhipeng Ge, Youwei Zheng, Longhao Zhang, Tianshu Hu, Shiyang Qin, Mingshuang Luo, Jiaxu Zhang, Xin Chen, Yulong Wang, Zerong Zheng, Jianwen Jiang, Chao Liang, Weifeng Chen, Xing Wang, Yuan Zhang, Mingyuan Gao
cs.AI
要旨
インタラクティブなヒューマノイド動画生成は、連続的で応答性の高い動画を通じて人間と対話できる生命感あふれる視覚的エージェントの合成を目指す。近年の動画合成技術の進展にもかかわらず、既存手法は高精細な合成とリアルタイム対話要件の間のトレードオフに悩まされることが多い。本論文では、リアルタイム対話型ヒューマノイド動画生成に特化したフレームワークFlowAct-R1を提案する。MMDiTアーキテクチャを基盤とするFlowAct-R1は、任意の長さの動画をストリーミング合成しながら低遅延の応答性を維持する。連続的対話中の誤差蓄積を軽減し長期的な時間的一貫性を保証するため、チャンク単位の拡散強制戦略と新規の自己強制変形を導入する。効率的な蒸留技術とシステムレベルの最適化により、本フレームワークは480p解像度で安定した25fpsを達成し、初帧表示時間(TTFF)は約1.5秒に留まる。提案手法は全身のホリスティックかつ細粒度な制御を実現し、対話シナリオにおいてエージェントが多様な行動状態間を自然に遷移することを可能にする。実験結果では、FlowAct-R1が優れた行動の活気と知覚的リアリズムを達成するとともに、多様なキャラクタースタイルにわたる頑健な一般化性能を維持することを実証する。
English
Interactive humanoid video generation aims to synthesize lifelike visual agents that can engage with humans through continuous and responsive video. Despite recent advances in video synthesis, existing methods often grapple with the trade-off between high-fidelity synthesis and real-time interaction requirements. In this paper, we propose FlowAct-R1, a framework specifically designed for real-time interactive humanoid video generation. Built upon a MMDiT architecture, FlowAct-R1 enables the streaming synthesis of video with arbitrary durations while maintaining low-latency responsiveness. We introduce a chunkwise diffusion forcing strategy, complemented by a novel self-forcing variant, to alleviate error accumulation and ensure long-term temporal consistency during continuous interaction. By leveraging efficient distillation and system-level optimizations, our framework achieves a stable 25fps at 480p resolution with a time-to-first-frame (TTFF) of only around 1.5 seconds. The proposed method provides holistic and fine-grained full-body control, enabling the agent to transition naturally between diverse behavioral states in interactive scenarios. Experimental results demonstrate that FlowAct-R1 achieves exceptional behavioral vividness and perceptual realism, while maintaining robust generalization across diverse character styles.