Diverse Beleid voor Controleerbare Diffusie met Signaal Temporele Logica

Samenvatting

Het genereren van realistische simulaties is cruciaal voor toepassingen van autonome systemen, zoals zelfrijdende auto's en mens-robotinteracties. Hedendaagse rijsimulatoren hebben echter nog steeds moeite met het genereren van controleerbare, diverse en regelconforme gedragingen voor weggebruikers: op regels gebaseerde modellen kunnen geen diverse gedragingen produceren en vereisen zorgvuldige afstemming, terwijl op leren gebaseerde methoden het beleid imiteren vanuit data, maar niet expliciet zijn ontworpen om de regels te volgen. Bovendien zijn real-world datasets van nature "single-outcome", wat het voor de leermethode moeilijk maakt om diverse gedragingen te genereren. In dit artikel maken we gebruik van Signal Temporal Logic (STL) en Diffusion Models om een controleerbaar, divers en regelbewust beleid te leren. We kalibreren eerst de STL op de real-world data, genereren vervolgens diverse synthetische data met behulp van trajectoptimalisatie, en leren ten slotte het gecorrigeerde diffusiebeleid op de uitgebreide dataset. We testen op de NuScenes dataset en onze aanpak kan de meest diverse regelconforme trajecten bereiken in vergelijking met andere baseline-methoden, met een looptijd van 1/17X ten opzichte van de op één na beste aanpak. In de closed-loop-testing bereikt onze aanpak de hoogste diversiteit, regelconformiteit en het laagste botsingspercentage. Onze methode kan verschillende kenmerken genereren, afhankelijk van verschillende STL-parameters tijdens het testen. Een case study over mens-robotontmoetingsscenario's laat zien dat onze aanpak diverse en dicht bij de oracle liggende trajecten kan genereren. De annotatietool, uitgebreide dataset en code zijn beschikbaar op https://github.com/mengyuest/pSTL-diffusion-policy.

English

Generating realistic simulations is critical for autonomous system applications such as self-driving and human-robot interactions. However, driving simulators nowadays still have difficulty in generating controllable, diverse, and rule-compliant behaviors for road participants: Rule-based models cannot produce diverse behaviors and require careful tuning, whereas learning-based methods imitate the policy from data but are not designed to follow the rules explicitly. Besides, the real-world datasets are by nature "single-outcome", making the learning method hard to generate diverse behaviors. In this paper, we leverage Signal Temporal Logic (STL) and Diffusion Models to learn controllable, diverse, and rule-aware policy. We first calibrate the STL on the real-world data, then generate diverse synthetic data using trajectory optimization, and finally learn the rectified diffusion policy on the augmented dataset. We test on the NuScenes dataset and our approach can achieve the most diverse rule-compliant trajectories compared to other baselines, with a runtime 1/17X to the second-best approach. In the closed-loop testing, our approach reaches the highest diversity, rule satisfaction rate, and the least collision rate. Our method can generate varied characteristics conditional on different STL parameters in testing. A case study on human-robot encounter scenarios shows our approach can generate diverse and closed-to-oracle trajectories. The annotation tool, augmented dataset, and code are available at https://github.com/mengyuest/pSTL-diffusion-policy.

Diverse Beleid voor Controleerbare Diffusie met Signaal Temporele Logica

Diverse Controllable Diffusion Policy with Signal Temporal Logic

Samenvatting

Support