Apprentissage de l'interaction humain-objet pour l'estimation de pose humaine 3D à partir de nuages de points LiDAR
Learning Human-Object Interaction for 3D Human Pose Estimation from LiDAR Point Clouds
March 17, 2026
Auteurs: Daniel Sungho Jung, Dohee Cho, Kyoung Mu Lee
cs.AI
Résumé
La compréhension des humains à partir de nuages de points LiDAR est l'une des tâches les plus critiques pour la conduite autonome en raison de son lien étroit avec la sécurité des piétons, mais elle reste difficile en présence d'interactions diversifiées entre humains et objets et d'arrière-plans encombrés. Néanmoins, les méthodes existantes négligent largement le potentiel de l'exploitation des interactions humain-objet pour construire des cadres robustes d'estimation de la pose humaine 3D. Deux défis majeurs motivent l'incorporation de l'interaction humain-objet. Premièrement, ces interactions introduisent une ambiguïté spatiale entre les points humains et objets, ce qui conduit souvent à des prédictions erronées des points clés humains 3D dans les régions d'interaction. Deuxièmement, il existe un déséquilibre sévère entre les classes concernant le nombre de points pour les parties du corps en interaction et celles qui ne le sont pas, les régions à interactions fréquentes comme les mains et les pieds étant faiblement observées dans les données LiDAR. Pour relever ces défis, nous proposons un cadre d'Apprentissage des Interactions Humain-Objet (HOIL) pour une estimation robuste de la pose humaine 3D à partir de nuages de points LiDAR. Pour atténuer le problème d'ambiguïté spatiale, nous présentons un apprentissage par contraste sensible aux interactions humain-objet (HOICL) qui améliore efficacement la discrimination des caractéristiques entre les points humains et objets, particulièrement dans les régions d'interaction. Pour remédier au déséquilibre entre classes, nous introduisons un pooling guidé par les parties et sensible au contact (CPPool) qui réalloue adaptativement la capacité représentationnelle en compressant les points surreprésentés tout en préservant les points informatifs des parties du corps en interaction. De plus, nous présentons un raffinement temporel optionnel basé sur le contact qui affine les estimations erronées des points clés par image en utilisant les indices de contact sur la durée. En conséquence, notre HOIL exploite efficacement l'interaction humain-objet pour résoudre l'ambiguïté spatiale et le déséquilibre entre classes dans les régions d'interaction. Les codes seront publiés.
English
Understanding humans from LiDAR point clouds is one of the most critical tasks in autonomous driving due to its close relationships with pedestrian safety, yet it remains challenging in the presence of diverse human-object interactions and cluttered backgrounds. Nevertheless, existing methods largely overlook the potential of leveraging human-object interactions to build robust 3D human pose estimation frameworks. There are two major challenges that motivate the incorporation of human-object interaction. First, human-object interactions introduce spatial ambiguity between human and object points, which often leads to erroneous 3D human keypoint predictions in interaction regions. Second, there exists severe class imbalance in the number of points between interacting and non-interacting body parts, with the interaction-frequent regions such as hand and foot being sparsely observed in LiDAR data. To address these challenges, we propose a Human-Object Interaction Learning (HOIL) framework for robust 3D human pose estimation from LiDAR point clouds. To mitigate the spatial ambiguity issue, we present human-object interaction-aware contrastive learning (HOICL) that effectively enhances feature discrimination between human and object points, particularly in interaction regions. To alleviate the class imbalance issue, we introduce contact-aware part-guided pooling (CPPool) that adaptively reallocates representational capacity by compressing overrepresented points while preserving informative points from interacting body parts. In addition, we present an optional contact-based temporal refinement that refines erroneous per-frame keypoint estimates using contact cues over time. As a result, our HOIL effectively leverages human-object interaction to resolve spatial ambiguity and class imbalance in interaction regions. Codes will be released.