FlowAct-R1: 인터랙티브 휴머노이드 비디오 생성 기술
FlowAct-R1: Towards Interactive Humanoid Video Generation
January 15, 2026
저자: Lizhen Wang, Yongming Zhu, Zhipeng Ge, Youwei Zheng, Longhao Zhang, Tianshu Hu, Shiyang Qin, Mingshuang Luo, Jiaxu Zhang, Xin Chen, Yulong Wang, Zerong Zheng, Jianwen Jiang, Chao Liang, Weifeng Chen, Xing Wang, Yuan Zhang, Mingyuan Gao
cs.AI
초록
인터랙티브 휴머노이드 비디오 생성은 지속적이고 반응적인 비디오를 통해 인간과 상호작용할 수 있는 생생한 시각적 에이전트를 합성하는 것을 목표로 합니다. 비디오 합성 분야의 최근 발전에도 불구하고, 기존 방법들은 높은 충실도의 합성과 실시간 상호작용 요구사항 간의 트레이드오프를 해결하는 데 어려움을 겪는 경우가 많습니다. 본 논문에서는 실시간 인터랙티브 휴머노이드 비디오 생성을 위해 특별히 설계된 프레임워크인 FlowAct-R1을 제안합니다. MMDiT 아키텍처를 기반으로 구축된 FlowAct-R1은 임의의 지속 시간을 가진 비디오의 스트리밍 합성을 가능하게 하면서도 낮은 지연 시간의 응답성을 유지합니다. 연속적인 상호작용 동안 오류 누적을 완화하고 장기간의 시간적 일관성을 보장하기 위해 새로운 자기 강화 변형을 보완한 청크 단위 확산 강화 전략을 도입했습니다. 효율적인 증류 및 시스템 수준 최적화를 통해 우리의 프레임워크는 480p 해상도에서 안정적인 25fps를 달성하며 첫 프레임 출력 시간을 약 1.5초로 단축했습니다. 제안된 방법은 전체적이고 세분화된 전신 제어를 제공하여 에이전트가 인터랙티브 시나리오에서 다양한 행동 상태 사이를 자연스럽게 전환할 수 있도록 합니다. 실험 결과는 FlowAct-R1이 다양한 캐릭터 스타일에서 강력한 일반화 성능을 유지하면서도 탁월한 행동 생동감과 지각적 현실감을 달성함을 보여줍니다.
English
Interactive humanoid video generation aims to synthesize lifelike visual agents that can engage with humans through continuous and responsive video. Despite recent advances in video synthesis, existing methods often grapple with the trade-off between high-fidelity synthesis and real-time interaction requirements. In this paper, we propose FlowAct-R1, a framework specifically designed for real-time interactive humanoid video generation. Built upon a MMDiT architecture, FlowAct-R1 enables the streaming synthesis of video with arbitrary durations while maintaining low-latency responsiveness. We introduce a chunkwise diffusion forcing strategy, complemented by a novel self-forcing variant, to alleviate error accumulation and ensure long-term temporal consistency during continuous interaction. By leveraging efficient distillation and system-level optimizations, our framework achieves a stable 25fps at 480p resolution with a time-to-first-frame (TTFF) of only around 1.5 seconds. The proposed method provides holistic and fine-grained full-body control, enabling the agent to transition naturally between diverse behavioral states in interactive scenarios. Experimental results demonstrate that FlowAct-R1 achieves exceptional behavioral vividness and perceptual realism, while maintaining robust generalization across diverse character styles.