Diverse Beleid voor Controleerbare Diffusie met Signaal Temporele Logica
Diverse Controllable Diffusion Policy with Signal Temporal Logic
March 4, 2025
Auteurs: Yue Meng, Chuchu fan
cs.AI
Samenvatting
Het genereren van realistische simulaties is cruciaal voor toepassingen van autonome systemen, zoals zelfrijdende auto's en mens-robotinteracties. Hedendaagse rijsimulatoren hebben echter nog steeds moeite met het genereren van controleerbare, diverse en regelconforme gedragingen voor weggebruikers: op regels gebaseerde modellen kunnen geen diverse gedragingen produceren en vereisen zorgvuldige afstemming, terwijl op leren gebaseerde methoden het beleid imiteren vanuit data, maar niet expliciet zijn ontworpen om de regels te volgen. Bovendien zijn real-world datasets van nature "single-outcome", wat het voor de leermethode moeilijk maakt om diverse gedragingen te genereren. In dit artikel maken we gebruik van Signal Temporal Logic (STL) en Diffusion Models om een controleerbaar, divers en regelbewust beleid te leren. We kalibreren eerst de STL op de real-world data, genereren vervolgens diverse synthetische data met behulp van trajectoptimalisatie, en leren ten slotte het gecorrigeerde diffusiebeleid op de uitgebreide dataset. We testen op de NuScenes dataset en onze aanpak kan de meest diverse regelconforme trajecten bereiken in vergelijking met andere baseline-methoden, met een looptijd van 1/17X ten opzichte van de op één na beste aanpak. In de closed-loop-testing bereikt onze aanpak de hoogste diversiteit, regelconformiteit en het laagste botsingspercentage. Onze methode kan verschillende kenmerken genereren, afhankelijk van verschillende STL-parameters tijdens het testen. Een case study over mens-robotontmoetingsscenario's laat zien dat onze aanpak diverse en dicht bij de oracle liggende trajecten kan genereren. De annotatietool, uitgebreide dataset en code zijn beschikbaar op https://github.com/mengyuest/pSTL-diffusion-policy.
English
Generating realistic simulations is critical for autonomous system
applications such as self-driving and human-robot interactions. However,
driving simulators nowadays still have difficulty in generating controllable,
diverse, and rule-compliant behaviors for road participants: Rule-based models
cannot produce diverse behaviors and require careful tuning, whereas
learning-based methods imitate the policy from data but are not designed to
follow the rules explicitly. Besides, the real-world datasets are by nature
"single-outcome", making the learning method hard to generate diverse
behaviors. In this paper, we leverage Signal Temporal Logic (STL) and Diffusion
Models to learn controllable, diverse, and rule-aware policy. We first
calibrate the STL on the real-world data, then generate diverse synthetic data
using trajectory optimization, and finally learn the rectified diffusion policy
on the augmented dataset. We test on the NuScenes dataset and our approach can
achieve the most diverse rule-compliant trajectories compared to other
baselines, with a runtime 1/17X to the second-best approach. In the closed-loop
testing, our approach reaches the highest diversity, rule satisfaction rate,
and the least collision rate. Our method can generate varied characteristics
conditional on different STL parameters in testing. A case study on human-robot
encounter scenarios shows our approach can generate diverse and
closed-to-oracle trajectories. The annotation tool, augmented dataset, and code
are available at https://github.com/mengyuest/pSTL-diffusion-policy.Summary
AI-Generated Summary