Politique de Diffusion Contrôlable Diversifiée avec Logique Temporelle des Signaux

papers.abstract

La génération de simulations réalistes est cruciale pour les applications de systèmes autonomes telles que la conduite autonome et les interactions humain-robot. Cependant, les simulateurs de conduite actuels éprouvent encore des difficultés à générer des comportements contrôlables, diversifiés et conformes aux règles pour les participants à la route : les modèles basés sur des règles ne peuvent pas produire des comportements variés et nécessitent un réglage minutieux, tandis que les méthodes basées sur l'apprentissage imitent la politique à partir des données mais ne sont pas conçues pour suivre explicitement les règles. De plus, les ensembles de données du monde réel sont par nature "à résultat unique", ce qui rend difficile pour les méthodes d'apprentissage de générer des comportements diversifiés. Dans cet article, nous exploitons la logique temporelle des signaux (Signal Temporal Logic, STL) et les modèles de diffusion pour apprendre une politique contrôlable, diversifiée et consciente des règles. Nous calibrons d'abord la STL sur les données réelles, puis générons des données synthétiques variées à l'aide de l'optimisation de trajectoire, et enfin apprenons la politique de diffusion rectifiée sur l'ensemble de données augmenté. Nous testons sur le jeu de données NuScenes et notre approche peut générer les trajectoires les plus diversifiées et conformes aux règles par rapport aux autres méthodes de référence, avec un temps d'exécution 17 fois plus rapide que la deuxième meilleure approche. Dans les tests en boucle fermée, notre méthode atteint la plus grande diversité, le taux de satisfaction des règles le plus élevé et le taux de collision le plus faible. Notre méthode peut générer des caractéristiques variées en fonction de différents paramètres STL lors des tests. Une étude de cas sur des scénarios de rencontre humain-robot montre que notre approche peut générer des trajectoires diversifiées et proches de l'oracle. L'outil d'annotation, l'ensemble de données augmenté et le code sont disponibles à l'adresse https://github.com/mengyuest/pSTL-diffusion-policy.

English

Generating realistic simulations is critical for autonomous system applications such as self-driving and human-robot interactions. However, driving simulators nowadays still have difficulty in generating controllable, diverse, and rule-compliant behaviors for road participants: Rule-based models cannot produce diverse behaviors and require careful tuning, whereas learning-based methods imitate the policy from data but are not designed to follow the rules explicitly. Besides, the real-world datasets are by nature "single-outcome", making the learning method hard to generate diverse behaviors. In this paper, we leverage Signal Temporal Logic (STL) and Diffusion Models to learn controllable, diverse, and rule-aware policy. We first calibrate the STL on the real-world data, then generate diverse synthetic data using trajectory optimization, and finally learn the rectified diffusion policy on the augmented dataset. We test on the NuScenes dataset and our approach can achieve the most diverse rule-compliant trajectories compared to other baselines, with a runtime 1/17X to the second-best approach. In the closed-loop testing, our approach reaches the highest diversity, rule satisfaction rate, and the least collision rate. Our method can generate varied characteristics conditional on different STL parameters in testing. A case study on human-robot encounter scenarios shows our approach can generate diverse and closed-to-oracle trajectories. The annotation tool, augmented dataset, and code are available at https://github.com/mengyuest/pSTL-diffusion-policy.

Politique de Diffusion Contrôlable Diversifiée avec Logique Temporelle des Signaux

Diverse Controllable Diffusion Policy with Signal Temporal Logic

papers.abstract

Support