CoInteract: Síntese Fisicamente Consistente de Vídeos de Interação Humano-Objeto via Co-Geração Espacialmente Estruturada

Resumo

A síntese de vídeos de interação humano-objeto (HOI) possui amplo valor prático em comércio eletrônico, publicidade digital e marketing virtual. No entanto, os modelos de difusão atuais, apesar de sua capacidade de renderização fotorrealista, ainda falham frequentemente em (i) a estabilidade estrutural de regiões sensíveis, como mãos e rostos, e (ii) o contato fisicamente plausível (por exemplo, evitando a interpenetração mão-objeto). Apresentamos o CoInteract, uma estrutura *end-to-end* para síntese de vídeo HOI condicionada a uma imagem de referência da pessoa, uma imagem de referência do produto, *prompts* de texto e áudio de fala. O CoInteract introduz dois projetos complementares incorporados em uma estrutura base de *Diffusion Transformer* (DiT). Primeiro, propomos uma *Mixture-of-Experts* (MoE) Consciente do Humano que direciona *tokens* para especialistas leves e especializados em regiões por meio de roteamento supervisionado espacialmente, melhorando a fidelidade estrutural de grão fino com sobrecarga mínima de parâmetros. Em segundo lugar, propomos a Co-geração Espacialmente Estruturada, um paradigma de treinamento de fluxo duplo que modela conjuntamente um fluxo de aparência RGB e um fluxo auxiliar de estrutura HOI para injetar *priors* de geometria de interação. Durante o treinamento, o fluxo HOI atende aos *tokens* RGB e sua supervisão regulariza os pesos compartilhados da estrutura; na inferência, o ramo HOI é removido para geração RGB sem sobrecarga. Os resultados experimentais demonstram que o CoInteract supera significativamente os métodos existentes em estabilidade estrutural, consistência lógica e realismo de interação.

English

Synthesizing human--object interaction (HOI) videos has broad practical value in e-commerce, digital advertising, and virtual marketing. However, current diffusion models, despite their photorealistic rendering capability, still frequently fail on (i) the structural stability of sensitive regions such as hands and faces and (ii) physically plausible contact (e.g., avoiding hand--object interpenetration). We present CoInteract, an end-to-end framework for HOI video synthesis conditioned on a person reference image, a product reference image, text prompts, and speech audio. CoInteract introduces two complementary designs embedded into a Diffusion Transformer (DiT) backbone. First, we propose a Human-Aware Mixture-of-Experts (MoE) that routes tokens to lightweight, region-specialized experts via spatially supervised routing, improving fine-grained structural fidelity with minimal parameter overhead. Second, we propose Spatially-Structured Co-Generation, a dual-stream training paradigm that jointly models an RGB appearance stream and an auxiliary HOI structure stream to inject interaction geometry priors. During training, the HOI stream attends to RGB tokens and its supervision regularizes shared backbone weights; at inference, the HOI branch is removed for zero-overhead RGB generation. Experimental results demonstrate that CoInteract significantly outperforms existing methods in structural stability, logical consistency, and interaction realism.

CoInteract: Síntese Fisicamente Consistente de Vídeos de Interação Humano-Objeto via Co-Geração Espacialmente Estruturada

CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

Resumo

Support