MMHU: 인간 행동 이해를 위한 대규모 멀티모달 벤치마크
MMHU: A Massive-Scale Multimodal Benchmark for Human Behavior Understanding
July 16, 2025
저자: Renjie Li, Ruijie Ye, Mingyang Wu, Hao Frank Yang, Zhiwen Fan, Hezhen Hu, Zhengzhong Tu
cs.AI
초록
인간은 교통 생태계의 핵심 구성 요소이며, 그들의 행동을 이해하는 것은 안전한 운전 시스템 개발을 촉진하는 데 중요합니다. 최근의 연구는 인간의 움직임, 궤적, 의도 등 다양한 측면을 탐구해 왔지만, 자율주행에서 인간 행동 이해를 평가하기 위한 포괄적인 벤치마크는 여전히 부족한 상황입니다. 본 연구에서는 인간 행동 분석을 위한 대규모 벤치마크인 MMHU를 제안합니다. 이 벤치마크는 인간의 움직임과 궤적, 인간 움직임에 대한 텍스트 설명, 인간 의도, 그리고 운전 안전과 관련된 중요한 행동 레이블과 같은 풍부한 주석을 포함합니다. 우리의 데이터셋은 Waymo와 같은 기존 운전 데이터셋, YouTube의 실생활 동영상, 그리고 자체 수집 데이터를 포함한 다양한 출처에서 수집된 57,000개의 인간 움직임 클립과 173만 프레임으로 구성됩니다. 인간이 참여하는 주석 파이프라인을 개발하여 풍부한 행동 설명을 생성했습니다. 우리는 데이터셋에 대한 철저한 분석을 제공하고, 움직임 예측부터 움직임 생성, 인간 행동 질의응답에 이르기까지 다양한 작업을 벤치마크하여 광범위한 평가 도구를 제공합니다. 프로젝트 페이지: https://MMHU-Benchmark.github.io.
English
Humans are integral components of the transportation ecosystem, and
understanding their behaviors is crucial to facilitating the development of
safe driving systems. Although recent progress has explored various aspects of
human behaviorx2014such as motion, trajectories, and
intentionx2014a comprehensive benchmark for evaluating human
behavior understanding in autonomous driving remains unavailable. In this work,
we propose MMHU, a large-scale benchmark for human behavior analysis
featuring rich annotations, such as human motion and trajectories, text
description for human motions, human intention, and critical behavior labels
relevant to driving safety. Our dataset encompasses 57k human motion clips and
1.73M frames gathered from diverse sources, including established driving
datasets such as Waymo, in-the-wild videos from YouTube, and self-collected
data. A human-in-the-loop annotation pipeline is developed to generate rich
behavior captions. We provide a thorough dataset analysis and benchmark
multiple tasksx2014ranging from motion prediction to motion
generation and human behavior question answeringx2014thereby
offering a broad evaluation suite. Project page :
https://MMHU-Benchmark.github.io.