CoInteract: Синтез физически согласованных видео взаимодействия человека с объектом посредством пространственно-структурированного совместного генерирования

Аннотация

Синтез видео с взаимодействием человек-объект (HOI) имеет широкую практическую ценность в электронной коммерции, цифровой рекламе и виртуальном маркетинге. Однако современные диффузионные модели, несмотря на их фотореалистичные возможности рендеринга, часто демонстрируют недостатки в (i) структурной стабильности чувствительных областей, таких как кисти рук и лица, и (ii) физически правдоподобном контакте (например, избегании взаимопроникновения руки и объекта). Мы представляем CoInteract, сквозную архитектуру для синтеза HOI-видео, управляемую эталонным изображением человека, эталонным изображением продукта, текстовыми промптами и речевым аудио. CoInteract включает две взаимодополняющие конструкции, встроенные в основу Diffusion Transformer (DiT). Во-первых, мы предлагаем Human-Aware Mixture-of-Experts (MoE), которая направляет токены к легковесным, специализированным на регионах экспертам с помощью пространственно-контролируемой маршрутизации, улучшая структурную достоверность мелких деталей при минимальных параметрических затратах. Во-вторых, мы предлагаем Spatially-Structured Co-Generation, парадигму обучения с двумя потоками, которая совместно моделирует поток RGB-внешнего вида и вспомогательный поток HOI-структуры для внедрения априорных знаний о геометрии взаимодействия. Во время обучения поток HOI взаимодействует с RGB-токенами, а его обучение регуляризует общие веса основы; на этапе вывода ветвь HOI удаляется для генерации RGB без дополнительных затрат. Результаты экспериментов показывают, что CoInteract значительно превосходит существующие методы по структурной стабильности, логической согласованности и реализму взаимодействия.

English

Synthesizing human--object interaction (HOI) videos has broad practical value in e-commerce, digital advertising, and virtual marketing. However, current diffusion models, despite their photorealistic rendering capability, still frequently fail on (i) the structural stability of sensitive regions such as hands and faces and (ii) physically plausible contact (e.g., avoiding hand--object interpenetration). We present CoInteract, an end-to-end framework for HOI video synthesis conditioned on a person reference image, a product reference image, text prompts, and speech audio. CoInteract introduces two complementary designs embedded into a Diffusion Transformer (DiT) backbone. First, we propose a Human-Aware Mixture-of-Experts (MoE) that routes tokens to lightweight, region-specialized experts via spatially supervised routing, improving fine-grained structural fidelity with minimal parameter overhead. Second, we propose Spatially-Structured Co-Generation, a dual-stream training paradigm that jointly models an RGB appearance stream and an auxiliary HOI structure stream to inject interaction geometry priors. During training, the HOI stream attends to RGB tokens and its supervision regularizes shared backbone weights; at inference, the HOI branch is removed for zero-overhead RGB generation. Experimental results demonstrate that CoInteract significantly outperforms existing methods in structural stability, logical consistency, and interaction realism.

CoInteract: Синтез физически согласованных видео взаимодействия человека с объектом посредством пространственно-структурированного совместного генерирования

CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

Аннотация

Support