Politique de Diffusion Contrôlable Diversifiée avec Logique Temporelle des Signaux
Diverse Controllable Diffusion Policy with Signal Temporal Logic
March 4, 2025
Auteurs: Yue Meng, Chuchu fan
cs.AI
Résumé
La génération de simulations réalistes est cruciale pour les applications de systèmes autonomes telles que la conduite autonome et les interactions humain-robot. Cependant, les simulateurs de conduite actuels éprouvent encore des difficultés à générer des comportements contrôlables, diversifiés et conformes aux règles pour les participants à la route : les modèles basés sur des règles ne peuvent pas produire des comportements variés et nécessitent un réglage minutieux, tandis que les méthodes basées sur l'apprentissage imitent la politique à partir des données mais ne sont pas conçues pour suivre explicitement les règles. De plus, les ensembles de données du monde réel sont par nature "à résultat unique", ce qui rend difficile pour les méthodes d'apprentissage de générer des comportements diversifiés. Dans cet article, nous exploitons la logique temporelle des signaux (Signal Temporal Logic, STL) et les modèles de diffusion pour apprendre une politique contrôlable, diversifiée et consciente des règles. Nous calibrons d'abord la STL sur les données réelles, puis générons des données synthétiques variées à l'aide de l'optimisation de trajectoire, et enfin apprenons la politique de diffusion rectifiée sur l'ensemble de données augmenté. Nous testons sur le jeu de données NuScenes et notre approche peut générer les trajectoires les plus diversifiées et conformes aux règles par rapport aux autres méthodes de référence, avec un temps d'exécution 17 fois plus rapide que la deuxième meilleure approche. Dans les tests en boucle fermée, notre méthode atteint la plus grande diversité, le taux de satisfaction des règles le plus élevé et le taux de collision le plus faible. Notre méthode peut générer des caractéristiques variées en fonction de différents paramètres STL lors des tests. Une étude de cas sur des scénarios de rencontre humain-robot montre que notre approche peut générer des trajectoires diversifiées et proches de l'oracle. L'outil d'annotation, l'ensemble de données augmenté et le code sont disponibles à l'adresse https://github.com/mengyuest/pSTL-diffusion-policy.
English
Generating realistic simulations is critical for autonomous system
applications such as self-driving and human-robot interactions. However,
driving simulators nowadays still have difficulty in generating controllable,
diverse, and rule-compliant behaviors for road participants: Rule-based models
cannot produce diverse behaviors and require careful tuning, whereas
learning-based methods imitate the policy from data but are not designed to
follow the rules explicitly. Besides, the real-world datasets are by nature
"single-outcome", making the learning method hard to generate diverse
behaviors. In this paper, we leverage Signal Temporal Logic (STL) and Diffusion
Models to learn controllable, diverse, and rule-aware policy. We first
calibrate the STL on the real-world data, then generate diverse synthetic data
using trajectory optimization, and finally learn the rectified diffusion policy
on the augmented dataset. We test on the NuScenes dataset and our approach can
achieve the most diverse rule-compliant trajectories compared to other
baselines, with a runtime 1/17X to the second-best approach. In the closed-loop
testing, our approach reaches the highest diversity, rule satisfaction rate,
and the least collision rate. Our method can generate varied characteristics
conditional on different STL parameters in testing. A case study on human-robot
encounter scenarios shows our approach can generate diverse and
closed-to-oracle trajectories. The annotation tool, augmented dataset, and code
are available at https://github.com/mengyuest/pSTL-diffusion-policy.Summary
AI-Generated Summary