CoInteract: Physikalisch konsistente Synthese von Mensch-Objekt-Interaktionsvideos durch räumlich strukturierte Ko-Generierung

Zusammenfassung

Die Synthese von Mensch-Objekt-Interaktions-(HOI-)Videos hat einen breiten praktischen Nutzen in den Bereichen E-Commerce, digitale Werbung und virtuelles Marketing. Aktuelle Diffusionsmodelle scheitern jedoch trotz ihrer fotorealistischen Darstellungsfähigkeit häufig an (i) der strukturellen Stabilität sensibler Regionen wie Hände und Gesichter und (ii) physikalisch plausiblen Kontakten (z. B. der Vermeidung von Hand-Objekt-Durchdringungen). Wir stellen CoInteract vor, ein End-to-End-Framework für die HOI-Videosynthese, das auf ein Personenreferenzbild, ein Produktreferenzbild, Textprompts und Sprachaudio konditioniert ist. CoInteract führt zwei komplementäre Designs ein, die in ein Diffusion-Transformer-(DiT-)Backbone eingebettet sind. Erstens schlagen wir einen Human-Aware Mixture-of-Experts (MoE) vor, der Tokens über räumlich überwachtes Routing zu leichtgewichtigen, regionsspezialisierten Experten leitet und so die feinkörnige strukturelle Treue mit minimalem Parameteroverhead verbessert. Zweitens schlagen wir eine räumlich strukturierte Ko-Generierung vor, ein Dual-Stream-Trainingsparadigma, das einen RGB-Erscheinungsbild-Stream und einen auxiliary HOI-Struktur-Stream gemeinsam modelliert, um Interaktionsgeometrie-Priors einzubringen. Während des Trainings beachtet der HOI-Stream RGB-Tokens und seine Überwachung regularisiert die gemeinsamen Backbone-Gewichte; zur Inferenzzeit wird der HOI-Zweig für eine überheadfreie RGB-Generierung entfernt. Experimentelle Ergebnisse zeigen, dass CoInteract bestehende Methoden deutlich in struktureller Stabilität, logischer Konsistenz und Interaktionsrealismus übertrifft.

English

Synthesizing human--object interaction (HOI) videos has broad practical value in e-commerce, digital advertising, and virtual marketing. However, current diffusion models, despite their photorealistic rendering capability, still frequently fail on (i) the structural stability of sensitive regions such as hands and faces and (ii) physically plausible contact (e.g., avoiding hand--object interpenetration). We present CoInteract, an end-to-end framework for HOI video synthesis conditioned on a person reference image, a product reference image, text prompts, and speech audio. CoInteract introduces two complementary designs embedded into a Diffusion Transformer (DiT) backbone. First, we propose a Human-Aware Mixture-of-Experts (MoE) that routes tokens to lightweight, region-specialized experts via spatially supervised routing, improving fine-grained structural fidelity with minimal parameter overhead. Second, we propose Spatially-Structured Co-Generation, a dual-stream training paradigm that jointly models an RGB appearance stream and an auxiliary HOI structure stream to inject interaction geometry priors. During training, the HOI stream attends to RGB tokens and its supervision regularizes shared backbone weights; at inference, the HOI branch is removed for zero-overhead RGB generation. Experimental results demonstrate that CoInteract significantly outperforms existing methods in structural stability, logical consistency, and interaction realism.

CoInteract: Physikalisch konsistente Synthese von Mensch-Objekt-Interaktionsvideos durch räumlich strukturierte Ko-Generierung

CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

Zusammenfassung

Support