CoInteract: Sintesi di Video di Interazione Uomo-Oggetto Fisicamente Coerente tramite Co-Generazione Spazialmente Strutturata

Abstract

La sintesi di video di interazione umano-oggetto (HOI) ha un ampio valore pratico nell'e-commerce, nella pubblicità digitale e nel marketing virtuale. Tuttavia, gli attuali modelli di diffusione, nonostante la loro capacità di rendering fotorealistico, falliscono ancora frequentemente su (i) la stabilità strutturale di regioni sensibili come mani e volti e (ii) il contatto fisicamente plausibile (ad esempio, evitando l'interpenetrazione mano-oggetto). Presentiamo CoInteract, un framework end-to-end per la sintesi di video HOI condizionata da un'immagine di riferimento della persona, un'immagine di riferimento del prodotto, prompt testuali e audio vocale. CoInteract introduce due progetti complementari integrati in un'architettura backbone di Diffusion Transformer (DiT). In primo luogo, proponiamo una Human-Aware Mixture-of-Experts (MoE) che instrada i token verso esperti leggeri e specializzati per regione tramite un routing supervisionato spazialmente, migliorando la fedeltà strutturale fine-grana con un sovraccarico parametrico minimo. In secondo luogo, proponiamo la Co-Generazione Spazialmente Strutturata, un paradigma di training dual-stream che modella congiuntamente uno stream di aspetto RGB e uno stream ausiliario di struttura HOI per iniettare prior geometriche di interazione. Durante l'addestramento, lo stream HOI partecipa ai token RGB e la sua supervisione regolarizza i pesi condivisi del backbone; in fase di inferenza, il ramo HOI viene rimosso per una generazione RGB a sovraccarico zero. I risultati sperimentali dimostrano che CoInteract supera significativamente i metodi esistenti in termini di stabilità strutturale, coerenza logica e realismo dell'interazione.

English

Synthesizing human--object interaction (HOI) videos has broad practical value in e-commerce, digital advertising, and virtual marketing. However, current diffusion models, despite their photorealistic rendering capability, still frequently fail on (i) the structural stability of sensitive regions such as hands and faces and (ii) physically plausible contact (e.g., avoiding hand--object interpenetration). We present CoInteract, an end-to-end framework for HOI video synthesis conditioned on a person reference image, a product reference image, text prompts, and speech audio. CoInteract introduces two complementary designs embedded into a Diffusion Transformer (DiT) backbone. First, we propose a Human-Aware Mixture-of-Experts (MoE) that routes tokens to lightweight, region-specialized experts via spatially supervised routing, improving fine-grained structural fidelity with minimal parameter overhead. Second, we propose Spatially-Structured Co-Generation, a dual-stream training paradigm that jointly models an RGB appearance stream and an auxiliary HOI structure stream to inject interaction geometry priors. During training, the HOI stream attends to RGB tokens and its supervision regularizes shared backbone weights; at inference, the HOI branch is removed for zero-overhead RGB generation. Experimental results demonstrate that CoInteract significantly outperforms existing methods in structural stability, logical consistency, and interaction realism.

CoInteract: Sintesi di Video di Interazione Uomo-Oggetto Fisicamente Coerente tramite Co-Generazione Spazialmente Strutturata

CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

Abstract

Support