CoInteract: Síntesis de Vídeo de Interacción Humano-Objeto Físicamente Consistente mediante Co-Generación Espacialmente Estructurada

Resumen

La síntesis de vídeos de interacción humano-objeto (HOI) posee un amplio valor práctico en el comercio electrónico, la publicidad digital y el marketing virtual. Sin embargo, los modelos de difusión actuales, a pesar de su capacidad de renderizado fotorrealista, siguen fallando con frecuencia en (i) la estabilidad estructural de regiones sensibles como manos y rostros, y (ii) el contacto físicamente plausible (por ejemplo, evitando la interpenetración mano-objeto). Presentamos CoInteract, un marco integral de extremo a extremo para la síntesis de vídeos HOI condicionado por una imagen de referencia de la persona, una imagen de referencia del producto, instrucciones textuales y audio de voz. CoInteract introduce dos diseños complementarios integrados en una arquitectura base de Transformer de Difusión (DiT). En primer lugar, proponemos una Mezcla de Expertos Consciente del Humano (MoE) que dirige los *tokens* hacia expertos ligeros especializados en regiones mediante un enrutado supervisado espacialmente, mejorando la fidelidad estructural de grano fino con una sobrecarga de parámetros mínima. En segundo lugar, proponemos la Co-Generación Espacialmente Estructurada, un paradigma de entrenamiento de doble flujo que modela conjuntamente un flujo de apariencia RGB y un flujo auxiliar de estructura HOI para inyectar *priors* geométricos de interacción. Durante el entrenamiento, el flujo HOI atiende a los *tokens* RGB y su supervisión regulariza los pesos compartidos de la arquitectura base; en la inferencia, la rama HOI se elimina para una generación RGB sin sobrecarga adicional. Los resultados experimentales demuestran que CoInteract supera significativamente a los métodos existentes en estabilidad estructural, coherencia lógica y realismo de la interacción.

English

Synthesizing human--object interaction (HOI) videos has broad practical value in e-commerce, digital advertising, and virtual marketing. However, current diffusion models, despite their photorealistic rendering capability, still frequently fail on (i) the structural stability of sensitive regions such as hands and faces and (ii) physically plausible contact (e.g., avoiding hand--object interpenetration). We present CoInteract, an end-to-end framework for HOI video synthesis conditioned on a person reference image, a product reference image, text prompts, and speech audio. CoInteract introduces two complementary designs embedded into a Diffusion Transformer (DiT) backbone. First, we propose a Human-Aware Mixture-of-Experts (MoE) that routes tokens to lightweight, region-specialized experts via spatially supervised routing, improving fine-grained structural fidelity with minimal parameter overhead. Second, we propose Spatially-Structured Co-Generation, a dual-stream training paradigm that jointly models an RGB appearance stream and an auxiliary HOI structure stream to inject interaction geometry priors. During training, the HOI stream attends to RGB tokens and its supervision regularizes shared backbone weights; at inference, the HOI branch is removed for zero-overhead RGB generation. Experimental results demonstrate that CoInteract significantly outperforms existing methods in structural stability, logical consistency, and interaction realism.

CoInteract: Síntesis de Vídeo de Interacción Humano-Objeto Físicamente Consistente mediante Co-Generación Espacialmente Estructurada

CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

Resumen

Support