ChatPaper.aiChatPaper

MMHU: Масштабный мультимодальный бенчмарк для анализа поведения человека

MMHU: A Massive-Scale Multimodal Benchmark for Human Behavior Understanding

July 16, 2025
Авторы: Renjie Li, Ruijie Ye, Mingyang Wu, Hao Frank Yang, Zhiwen Fan, Hezhen Hu, Zhengzhong Tu
cs.AI

Аннотация

Люди являются неотъемлемыми компонентами транспортной экосистемы, и понимание их поведения крайне важно для разработки безопасных систем вождения. Хотя недавние исследования изучили различные аспекты человеческого поведения — такие как движение, траектории и намерения — всеобъемлющий эталон для оценки понимания человеческого поведения в автономном вождении до сих пор отсутствует. В данной работе мы представляем MMHU, крупномасштабный эталон для анализа человеческого поведения, включающий богатые аннотации, такие как движение и траектории человека, текстовые описания движений, намерения человека и метки критического поведения, связанного с безопасностью вождения. Наш набор данных охватывает 57 тысяч клипов с движением человека и 1,73 миллиона кадров, собранных из различных источников, включая известные наборы данных по вождению, такие как Waymo, видеоролики из реальной жизни с YouTube и самостоятельно собранные данные. Для создания подробных описаний поведения разработан процесс аннотирования с участием человека. Мы проводим тщательный анализ набора данных и тестируем множество задач — от прогнозирования движения до генерации движения и ответов на вопросы о поведении человека — предлагая широкий набор инструментов для оценки. Страница проекта: https://MMHU-Benchmark.github.io.
English
Humans are integral components of the transportation ecosystem, and understanding their behaviors is crucial to facilitating the development of safe driving systems. Although recent progress has explored various aspects of human behaviorx2014such as motion, trajectories, and intentionx2014a comprehensive benchmark for evaluating human behavior understanding in autonomous driving remains unavailable. In this work, we propose MMHU, a large-scale benchmark for human behavior analysis featuring rich annotations, such as human motion and trajectories, text description for human motions, human intention, and critical behavior labels relevant to driving safety. Our dataset encompasses 57k human motion clips and 1.73M frames gathered from diverse sources, including established driving datasets such as Waymo, in-the-wild videos from YouTube, and self-collected data. A human-in-the-loop annotation pipeline is developed to generate rich behavior captions. We provide a thorough dataset analysis and benchmark multiple tasksx2014ranging from motion prediction to motion generation and human behavior question answeringx2014thereby offering a broad evaluation suite. Project page : https://MMHU-Benchmark.github.io.
PDF191July 17, 2025