Target-Bench : Les modèles du monde peuvent-ils réaliser une planification de trajectoire sans carte avec des cibles sémantiques ?
Target-Bench: Can World Models Achieve Mapless Path Planning with Semantic Targets?
November 21, 2025
papers.authors: Dingrui Wang, Hongyuan Ye, Zhihao Liang, Zhexiao Sun, Zhaowei Lu, Yuchen Zhang, Yuyu Zhao, Yuan Gao, Marvin Seegert, Finn Schäfer, Haotong Qin, Wei Li, Luigi Palmieri, Felix Jahncke, Mattia Piccinini, Johannes Betz
cs.AI
papers.abstract
Bien que les modèles du monde récents génèrent des vidéos très réalistes, leur capacité à effectuer une planification de trajectoire pour robots reste incertaine et non quantifiée. Nous présentons Target-Bench, le premier benchmark spécifiquement conçu pour évaluer les modèles du monde sur la planification de trajectoire sans carte vers des cibles sémantiques dans des environnements réels. Target-Bench fournit 450 séquences vidéo collectées par robot couvrant 45 catégories sémantiques avec des trajectoires de référence basées sur SLAM. Notre pipeline d'évaluation reconstruit le mouvement de la caméra à partir des vidéos générées et mesure les performances de planification à l'aide de cinq métriques complémentaires qui quantifient la capacité d'atteinte de la cible, la précision de la trajectoire et la cohérence directionnelle. Nous évaluons des modèles de pointe incluant Sora 2, Veo 3.1 et la série Wan. Le meilleur modèle prêt-à-l'emploi (Wan2.2-Flash) n'atteint qu'un score global de 0,299, révélant des limitations significatives des modèles du monde actuels pour les tâches de planification robotique. Nous montrons que le fine-tuning d'un modèle open-source de 5 milliards de paramètres sur seulement 325 scénarios de notre jeu de données atteint un score global de 0,345 - une amélioration de plus de 400% par rapport à sa version de base (0,066) et 15% supérieure au meilleur modèle prêt-à-l'emploi. Nous ouvrirons le code et le jeu de données en open-source.
English
While recent world models generate highly realistic videos, their ability to perform robot path planning remains unclear and unquantified. We introduce Target-Bench, the first benchmark specifically designed to evaluate world models on mapless path planning toward semantic targets in real-world environments. Target-Bench provides 450 robot-collected video sequences spanning 45 semantic categories with SLAM-based ground truth trajectories. Our evaluation pipeline recovers camera motion from generated videos and measures planning performance using five complementary metrics that quantify target-reaching capability, trajectory accuracy, and directional consistency. We evaluate state-of-the-art models including Sora 2, Veo 3.1, and the Wan series. The best off-the-shelf model (Wan2.2-Flash) achieves only 0.299 overall score, revealing significant limitations in current world models for robotic planning tasks. We show that fine-tuning an open-source 5B-parameter model on only 325 scenarios from our dataset achieves 0.345 overall score -- an improvement of more than 400% over its base version (0.066) and 15% higher than the best off-the-shelf model. We will open-source the code and dataset.