ChatPaper.aiChatPaper

OneHOI:人物-物体インタラクションの生成と編集の統合

OneHOI: Unifying Human-Object Interaction Generation and Editing

April 15, 2026
著者: Jiun Tian Hoe, Weipeng Hu, Xudong Jiang, Yap-Peng Tan, Chee Seng Chan
cs.AI

要旨

ヒューマンオブジェクトインタラクション(HOI)モデリングは、人間が物体に作用し関係する方法を捉え、通常は<人物、動作、物体>の三つ組として表現される。既存のアプローチは二つの分離した系統に分かれる:HOI生成は構造化された三つ組とレイアウトからシーンを合成するが、HOIと物体のみのエンティティといった混合条件の統合に失敗する;HOI編集はテキスト経由でインタラクションを修正するが、ポーズと物理的接触の分離や複数インタラクションへの拡張に苦戦する。我々は、HOI生成と編集を共有された構造化インタラクション表現に駆動された単一の条件付きノイズ除去プロセスに統合する、統一Diffusion TransformerフレームワークであるOneHOIを提案する。中核となるRelational Diffusion Transformer (R-DiT) は、動詞を媒介とした関係を、役割及びインスタンスを意識したHOIトークン、レイアウトベースの空間的Action Grounding、インタラクションのトポロジーを強制する構造化HOI注意機構、そして複数HOIシーンの分離を可能にするHOI RoPEを通じてモデル化する。HOI-Edit-44K及びHOI中心、物体中心のデータセットに対しモダリティドロップアウトを適用して共同学習されたOneHOIは、レイアウト誘導、レイアウト非依存、任意マスク、混合条件制御をサポートし、HOI生成と編集の両方において最先端の結果を達成する。コードはhttps://jiuntian.github.io/OneHOI/ で公開されている。
English
Human-Object Interaction (HOI) modelling captures how humans act upon and relate to objects, typically expressed as <person, action, object> triplets. Existing approaches split into two disjoint families: HOI generation synthesises scenes from structured triplets and layout, but fails to integrate mixed conditions like HOI and object-only entities; and HOI editing modifies interactions via text, yet struggles to decouple pose from physical contact and scale to multiple interactions. We introduce OneHOI, a unified diffusion transformer framework that consolidates HOI generation and editing into a single conditional denoising process driven by shared structured interaction representations. At its core, the Relational Diffusion Transformer (R-DiT) models verb-mediated relations through role- and instance-aware HOI tokens, layout-based spatial Action Grounding, a Structured HOI Attention to enforce interaction topology, and HOI RoPE to disentangle multi-HOI scenes. Trained jointly with modality dropout on our HOI-Edit-44K, along with HOI and object-centric datasets, OneHOI supports layout-guided, layout-free, arbitrary-mask, and mixed-condition control, achieving state-of-the-art results across both HOI generation and editing. Code is available at https://jiuntian.github.io/OneHOI/.
PDF31April 18, 2026