Política de Difusão Controlável Diversa com Lógica Temporal de Sinais

Resumo

A geração de simulações realistas é crucial para aplicações de sistemas autônomos, como direção autônoma e interações humano-robô. No entanto, os simuladores de direção atuais ainda têm dificuldade em gerar comportamentos controláveis, diversos e em conformidade com as regras para os participantes da via: modelos baseados em regras não conseguem produzir comportamentos diversos e exigem ajustes cuidadosos, enquanto métodos baseados em aprendizado imitam a política a partir de dados, mas não são projetados para seguir as regras explicitamente. Além disso, os conjuntos de dados do mundo real são, por natureza, de "único resultado", o que dificulta a geração de comportamentos diversos pelos métodos de aprendizado. Neste artigo, utilizamos Lógica Temporal de Sinais (STL) e Modelos de Difusão para aprender uma política controlável, diversa e consciente das regras. Primeiro, calibramos a STL nos dados do mundo real, depois geramos dados sintéticos diversos usando otimização de trajetória e, finalmente, aprendemos a política de difusão retificada no conjunto de dados aumentado. Testamos no conjunto de dados NuScenes e nossa abordagem consegue alcançar as trajetórias mais diversas e em conformidade com as regras em comparação com outras abordagens de referência, com um tempo de execução 1/17X em relação à segunda melhor abordagem. Nos testes de loop fechado, nossa abordagem atinge a maior diversidade, taxa de satisfação das regras e a menor taxa de colisão. Nosso método pode gerar características variadas condicionadas a diferentes parâmetros de STL nos testes. Um estudo de caso em cenários de encontro humano-robô mostra que nossa abordagem pode gerar trajetórias diversas e próximas às ideais. A ferramenta de anotação, o conjunto de dados aumentado e o código estão disponíveis em https://github.com/mengyuest/pSTL-diffusion-policy.

English

Generating realistic simulations is critical for autonomous system applications such as self-driving and human-robot interactions. However, driving simulators nowadays still have difficulty in generating controllable, diverse, and rule-compliant behaviors for road participants: Rule-based models cannot produce diverse behaviors and require careful tuning, whereas learning-based methods imitate the policy from data but are not designed to follow the rules explicitly. Besides, the real-world datasets are by nature "single-outcome", making the learning method hard to generate diverse behaviors. In this paper, we leverage Signal Temporal Logic (STL) and Diffusion Models to learn controllable, diverse, and rule-aware policy. We first calibrate the STL on the real-world data, then generate diverse synthetic data using trajectory optimization, and finally learn the rectified diffusion policy on the augmented dataset. We test on the NuScenes dataset and our approach can achieve the most diverse rule-compliant trajectories compared to other baselines, with a runtime 1/17X to the second-best approach. In the closed-loop testing, our approach reaches the highest diversity, rule satisfaction rate, and the least collision rate. Our method can generate varied characteristics conditional on different STL parameters in testing. A case study on human-robot encounter scenarios shows our approach can generate diverse and closed-to-oracle trajectories. The annotation tool, augmented dataset, and code are available at https://github.com/mengyuest/pSTL-diffusion-policy.

Política de Difusão Controlável Diversa com Lógica Temporal de Sinais

Diverse Controllable Diffusion Policy with Signal Temporal Logic

Resumo

Summary

Support

Support