Faire interagir les avatars : Vers l'interaction humain-objet pilotée par texte pour des avatars parlants contrôlables

Résumé

La génération d'avatars parlants est une tâche fondamentale dans la génération vidéo. Bien que les méthodes existantes puissent générer des avatars parlants en pied avec des mouvements humains simples, l'extension de cette tâche à l'interaction humain-objet ancrée (GHOI) reste un défi ouvert, nécessitant que l'avatar effectue des interactions alignées sur le texte avec les objets environnants. Ce défi découle du besoin de perception environnementale et du dilemme contrôle-qualité dans la génération GHOI. Pour y remédier, nous proposons une nouvelle architecture à double flux, InteractAvatar, qui découple la perception et la planification de la synthèse vidéo pour l'interaction humain-objet ancrée. Tirant parti de la détection pour améliorer la perception environnementale, nous introduisons un Module de Perception et d'Interaction (PIM) pour générer des mouvements d'interaction alignés sur le texte. De plus, un Module de Génération Sensible à l'Audio-Interaction (AIM) est proposé pour synthétiser des avatars parlants vivants effectuant des interactions avec des objets. Grâce à un aligneur mouvement-vidéo spécialement conçu, le PIM et l'AIM partagent une structure de réseau similaire et permettent une co-génération parallèle des mouvements et de vidéos plausibles, atténuant efficacement le dilemme contrôle-qualité. Enfin, nous établissons un benchmark, GroundedInter, pour évaluer la génération de vidéos GHOI. Des expériences et comparaisons approfondies démontrent l'efficacité de notre méthode pour générer des interactions humain-objet ancrées pour des avatars parlants. Page du projet : https://interactavatar.github.io

English

Generating talking avatars is a fundamental task in video generation. Although existing methods can generate full-body talking avatars with simple human motion, extending this task to grounded human-object interaction (GHOI) remains an open challenge, requiring the avatar to perform text-aligned interactions with surrounding objects. This challenge stems from the need for environmental perception and the control-quality dilemma in GHOI generation. To address this, we propose a novel dual-stream framework, InteractAvatar, which decouples perception and planning from video synthesis for grounded human-object interaction. Leveraging detection to enhance environmental perception, we introduce a Perception and Interaction Module (PIM) to generate text-aligned interaction motions. Additionally, an Audio-Interaction Aware Generation Module (AIM) is proposed to synthesize vivid talking avatars performing object interactions. With a specially designed motion-to-video aligner, PIM and AIM share a similar network structure and enable parallel co-generation of motions and plausible videos, effectively mitigating the control-quality dilemma. Finally, we establish a benchmark, GroundedInter, for evaluating GHOI video generation. Extensive experiments and comparisons demonstrate the effectiveness of our method in generating grounded human-object interactions for talking avatars. Project page: https://interactavatar.github.io

Faire interagir les avatars : Vers l'interaction humain-objet pilotée par texte pour des avatars parlants contrôlables

Making Avatars Interact: Towards Text-Driven Human-Object Interaction for Controllable Talking Avatars

Résumé

Support