ArtHOI: Синтез артикулированного взаимодействия человека и объекта посредством 4D-реконструкции на основе видеоперцептивов
ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors
March 4, 2026
Авторы: Zihao Huang, Tianqi Liu, Zhaoxi Chen, Shaocong Xu, Saining Zhang, Lixing Xiao, Zhiguo Cao, Wei Li, Hao Zhao, Ziwei Liu
cs.AI
Аннотация
Синтез физически правдоподобных сочлененных взаимодействий «человек-объект» (Human-Object Interaction, HOI) без 3D/4D-супервизии остается фундаментальной проблемой. Хотя современные zero-shot подходы используют видео-диффузионные модели для синтеза таких взаимодействий, они в основном ограничены манипуляциями с жесткими объектами и не имеют явного 4D-геометрического обоснования. Чтобы устранить этот разрыв, мы формулируем задачу синтеза сочлененных HOI как проблему 4D-реконструкции на основе монокулярных видео-приоров: имея только видео, сгенерированное диффузионной моделью, мы восстанавливаем полную 4D-сцену с сочленениями без какого-либо 3D-контроля. Этот подход, основанный на реконструкции, рассматривает сгенерированное 2D-видео как супервизию для задачи обратного рендеринга, восстанавливая геометрически согласованные и физически правдоподобные 4D-сцены, которые естественным образом учитывают контакт, сочленение и временную когерентность.
Мы представляем ArtHOI — первую zero-shot-систему для синтеза сочлененных взаимодействий «человек-объект» посредством 4D-реконструкции из видео-приоров. Наши ключевые решения: 1) Сегментация частей на основе оптического потока: использование оптического потока как геометрического признака для разделения динамических и статических областей в монокулярном видео; 2) Разделенный конвейер реконструкции: совместная оптимизация движения человека и сочленения объекта неустойчива из-за монокулярной неоднозначности, поэтому мы сначала восстанавливаем сочленение объекта, а затем синтезируем движение человека, обусловленное восстановленными состояниями объекта.
ArtHOI объединяет генерацию на основе видео и геометрически осознанную реконструкцию, создавая взаимодействия, которые одновременно семантически выровнены и физически обоснованы. В разнообразных сценах с сочлененными объектами (например, открывание холодильников, шкафов, микроволновых печей) ArtHOI значительно превосходит предыдущие методы по точности контакта, снижению проникновений и точности передачи сочленений, расширяя zero-shot-синтез взаимодействий за пределы манипуляций с жесткими объектами через синтез, информированный реконструкцией.
English
Synthesizing physically plausible articulated human-object interactions (HOI) without 3D/4D supervision remains a fundamental challenge. While recent zero-shot approaches leverage video diffusion models to synthesize human-object interactions, they are largely confined to rigid-object manipulation and lack explicit 4D geometric reasoning. To bridge this gap, we formulate articulated HOI synthesis as a 4D reconstruction problem from monocular video priors: given only a video generated by a diffusion model, we reconstruct a full 4D articulated scene without any 3D supervision. This reconstruction-based approach treats the generated 2D video as supervision for an inverse rendering problem, recovering geometrically consistent and physically plausible 4D scenes that naturally respect contact, articulation, and temporal coherence. We introduce ArtHOI, the first zero-shot framework for articulated human-object interaction synthesis via 4D reconstruction from video priors. Our key designs are: 1) Flow-based part segmentation: leveraging optical flow as a geometric cue to disentangle dynamic from static regions in monocular video; 2) Decoupled reconstruction pipeline: joint optimization of human motion and object articulation is unstable under monocular ambiguity, so we first recover object articulation, then synthesize human motion conditioned on the reconstructed object states. ArtHOI bridges video-based generation and geometry-aware reconstruction, producing interactions that are both semantically aligned and physically grounded. Across diverse articulated scenes (e.g., opening fridges, cabinets, microwaves), ArtHOI significantly outperforms prior methods in contact accuracy, penetration reduction, and articulation fidelity, extending zero-shot interaction synthesis beyond rigid manipulation through reconstruction-informed synthesis.