ChatPaper.aiChatPaper

Far interagire gli avatar: verso l'interazione uomo-oggetto guidata da testo per avatar parlanti controllabili

Making Avatars Interact: Towards Text-Driven Human-Object Interaction for Controllable Talking Avatars

February 2, 2026
Autori: Youliang Zhang, Zhengguang Zhou, Zhentao Yu, Ziyao Huang, Teng Hu, Sen Liang, Guozhen Zhang, Ziqiao Peng, Shunkai Li, Yi Chen, Zixiang Zhou, Yuan Zhou, Qinglin Lu, Xiu Li
cs.AI

Abstract

La generazione di avatar parlanti è un compito fondamentale nella sintesi video. Sebbene i metodi esistenti possano generare avatar parlanti a figura intera con movimenti umani semplici, estendere questo compito all'interazione umano-oggetto contestuale (GHOI) rimane una sfida aperta, poiché richiede che l'avatar esegua interazioni allineate al testo con oggetti circostanti. Questa sfida deriva dalla necessità di percezione ambientale e dal dilemma controllo-qualità nella generazione GHOI. Per affrontarlo, proponiamo una nuova architettura dual-stream, InteractAvatar, che disaccoppia percezione e pianificazione dalla sintesi video per l'interazione umano-oggetto contestuale. Sfruttando il rilevamento per potenziare la percezione ambientale, introduciamo un Modulo di Percezione e Interazione (PIM) per generare movimenti d'interazione allineati al testo. Inoltre, viene proposto un Modulo di Generazione Audio-Interazione Consapevole (AIM) per sintetizzare avatar parlanti che eseguono interazioni con oggetti in modo vivido. Grazie a un allineatore movimento-video appositamente progettato, PIM e AIM condividono una struttura di rete simile e consentono la co-generazione parallela di movimenti e video plausibili, mitigando efficacemente il dilemma controllo-qualità. Infine, stabiliamo un benchmark, GroundedInter, per valutare la generazione video GHOI. Esperimenti estesi e confronti dimostrano l'efficacia del nostro metodo nella generazione di interazioni umano-oggetto contestuali per avatar parlanti. Pagina del progetto: https://interactavatar.github.io
English
Generating talking avatars is a fundamental task in video generation. Although existing methods can generate full-body talking avatars with simple human motion, extending this task to grounded human-object interaction (GHOI) remains an open challenge, requiring the avatar to perform text-aligned interactions with surrounding objects. This challenge stems from the need for environmental perception and the control-quality dilemma in GHOI generation. To address this, we propose a novel dual-stream framework, InteractAvatar, which decouples perception and planning from video synthesis for grounded human-object interaction. Leveraging detection to enhance environmental perception, we introduce a Perception and Interaction Module (PIM) to generate text-aligned interaction motions. Additionally, an Audio-Interaction Aware Generation Module (AIM) is proposed to synthesize vivid talking avatars performing object interactions. With a specially designed motion-to-video aligner, PIM and AIM share a similar network structure and enable parallel co-generation of motions and plausible videos, effectively mitigating the control-quality dilemma. Finally, we establish a benchmark, GroundedInter, for evaluating GHOI video generation. Extensive experiments and comparisons demonstrate the effectiveness of our method in generating grounded human-object interactions for talking avatars. Project page: https://interactavatar.github.io
PDF153March 12, 2026