Target-Bench: 세계 모델이 의미론적 목표를 사용한 무맵 경로 계획을 달성할 수 있을까?
Target-Bench: Can World Models Achieve Mapless Path Planning with Semantic Targets?
November 21, 2025
저자: Dingrui Wang, Hongyuan Ye, Zhihao Liang, Zhexiao Sun, Zhaowei Lu, Yuchen Zhang, Yuyu Zhao, Yuan Gao, Marvin Seegert, Finn Schäfer, Haotong Qin, Wei Li, Luigi Palmieri, Felix Jahncke, Mattia Piccinini, Johannes Betz
cs.AI
초록
최근 등장한 세계 모델들은 매우 사실적인 비디오를 생성하지만, 로봇 경로 계획 수행 능력은 여전히 명확하지 않으며 정량화되지 않았습니다. 우리는 실제 환경에서 의미론적 목표물을 향한 무지도 경로 계획 작업에 대해 세계 모델을 평가하기 위해 특별히 설계된 최초의 벤치마크인 Target-Bench를 소개합니다. Target-Bench는 45개의 의미론적 범주에 걸친 450개의 로봇 수집 비디오 시퀀스와 SLAM 기반의 실측 궤적 데이터를 제공합니다. 우리의 평가 파이프라인은 생성된 비디오에서 카메라 운동을 복원하고, 목표 도달 능력, 궤적 정확도, 방향 일관성을 정량화하는 5가지 상호 보완적인 지표를 사용하여 계획 성능을 측정합니다. 우리는 Sora 2, Veo 3.1, Wan 시리즈를 포함한 최첨단 모델들을 평가했습니다. 최고의 오프더셸 모델(Wan2.2-Flash)은 전체 점수 0.299에 그쳐, 로봇 계획 작업을 위한 현재 세계 모델의 상당한 한계를 드러냈습니다. 우리는 오픈소스 50억 파라미터 모델을 우리 데이터셋의 325개 시나리오만으로 미세 조정했을 때 전체 점수 0.345를 달성함을 보여주었습니다. 이는 기본 버전(0.066) 대비 400% 이상, 최고의 오프더셸 모델보다 15% 높은 성능 향상입니다. 우리는 코드와 데이터셋을 오픈소스로 공개할 예정입니다.
English
While recent world models generate highly realistic videos, their ability to perform robot path planning remains unclear and unquantified. We introduce Target-Bench, the first benchmark specifically designed to evaluate world models on mapless path planning toward semantic targets in real-world environments. Target-Bench provides 450 robot-collected video sequences spanning 45 semantic categories with SLAM-based ground truth trajectories. Our evaluation pipeline recovers camera motion from generated videos and measures planning performance using five complementary metrics that quantify target-reaching capability, trajectory accuracy, and directional consistency. We evaluate state-of-the-art models including Sora 2, Veo 3.1, and the Wan series. The best off-the-shelf model (Wan2.2-Flash) achieves only 0.299 overall score, revealing significant limitations in current world models for robotic planning tasks. We show that fine-tuning an open-source 5B-parameter model on only 325 scenarios from our dataset achieves 0.345 overall score -- an improvement of more than 400% over its base version (0.066) and 15% higher than the best off-the-shelf model. We will open-source the code and dataset.