Avatare zum Interagieren bringen: Auf dem Weg zu textgesteuerter Mensch-Objekt-Interaktion für steuerbare sprechende Avatare

Zusammenfassung

Die Erzeugung sprechender Avatare ist eine grundlegende Aufgabe in der Videogenerierung. Obwohl bestehende Methoden sprechende Ganzkörperavatare mit einfachen menschlichen Bewegungen erzeugen können, stellt die Ausweitung dieser Aufgabe auf fundierte Mensch-Objekt-Interaktionen (Grounded Human-Object Interaction, GHOI) nach wie vor eine ungelöste Herausforderung dar, da der Avatar textkonforme Interaktionen mit umgebenden Objekten ausführen muss. Diese Herausforderung ergibt sich aus der Notwendigkeit der Umgebungswahrnehmung und dem Kontroll-Qualitäts-Dilemma bei der GHOI-Generierung. Um dies zu bewältigen, schlagen wir ein neuartiges Dual-Stream-Framework namens InteractAvatar vor, das Wahrnehmung und Planung von der Videosynthese für fundierte Mensch-Objekt-Interaktionen entkoppelt. Unter Nutzung von Objekterkennung zur Verbesserung der Umgebungswahrnehmung führen wir ein Wahrnehmungs- und Interaktionsmodul (Perception and Interaction Module, PIM) ein, um textkonforme Interaktionsbewegungen zu erzeugen. Zusätzlich wird ein audio-interaktionsbasiertes Generierungsmodul (Audio-Interaction Aware Generation Module, AIM) vorgeschlagen, um lebendige sprechende Avatare zu synthetisieren, die Objektinteraktionen durchführen. Mit einem speziell entwickelten Bewegung-zu-Video-Aligner teilen PIM und AIM eine ähnliche Netzwerkstruktur und ermöglichen eine parallele Ko-Generierung von Bewegungen und plausiblen Videos, wodurch das Kontroll-Qualitäts-Dilemma effektiv gemildert wird. Abschließend etablieren wir einen Benchmark, GroundedInter, zur Bewertung der GHOI-Videogenerierung. Umfangreiche Experimente und Vergleiche demonstrieren die Wirksamkeit unserer Methode zur Erzeugung fundierter Mensch-Objekt-Interaktionen für sprechende Avatare. Projektseite: https://interactavatar.github.io

English

Generating talking avatars is a fundamental task in video generation. Although existing methods can generate full-body talking avatars with simple human motion, extending this task to grounded human-object interaction (GHOI) remains an open challenge, requiring the avatar to perform text-aligned interactions with surrounding objects. This challenge stems from the need for environmental perception and the control-quality dilemma in GHOI generation. To address this, we propose a novel dual-stream framework, InteractAvatar, which decouples perception and planning from video synthesis for grounded human-object interaction. Leveraging detection to enhance environmental perception, we introduce a Perception and Interaction Module (PIM) to generate text-aligned interaction motions. Additionally, an Audio-Interaction Aware Generation Module (AIM) is proposed to synthesize vivid talking avatars performing object interactions. With a specially designed motion-to-video aligner, PIM and AIM share a similar network structure and enable parallel co-generation of motions and plausible videos, effectively mitigating the control-quality dilemma. Finally, we establish a benchmark, GroundedInter, for evaluating GHOI video generation. Extensive experiments and comparisons demonstrate the effectiveness of our method in generating grounded human-object interactions for talking avatars. Project page: https://interactavatar.github.io

Avatare zum Interagieren bringen: Auf dem Weg zu textgesteuerter Mensch-Objekt-Interaktion für steuerbare sprechende Avatare

Making Avatars Interact: Towards Text-Driven Human-Object Interaction for Controllable Talking Avatars

Zusammenfassung

Support