A*를 넘어서: 탐색 역학을 통한 트랜스포머 기반 더 나은 계획 부트스트래핑
Beyond A*: Better Planning with Transformers via Search Dynamics Bootstrapping
February 21, 2024
저자: Lucas Lehnert, Sainbayar Sukhbaatar, Paul Mcvay, Michael Rabbat, Yuandong Tian
cs.AI
초록
트랜스포머(Transformers)는 다양한 응용 분야에서 엄청난 진전을 이뤄냈지만, 복잡한 의사결정 문제를 해결하는 데 있어서는 여전히 전통적인 심볼릭 플래너(symbolic planner)에 뒤처지는 상황입니다. 본 연구에서는 트랜스포머가 복잡한 계획 수립 작업을 해결하도록 훈련시키는 방법을 보여주고, 이전에 본 적 없는 소코반(Sokoban) 퍼즐을 93.7%의 확률로 최적으로 해결하며, 표준 A^* 탐색보다 최대 26.8% 적은 탐색 단계를 사용하는 Searchformer 모델을 소개합니다. Searchformer는 A^*의 탐색 동역학을 예측하도록 훈련된 인코더-디코더 트랜스포머 모델입니다. 이 모델은 전문가 반복(expert iterations)을 통해 미세 조정되어 A^* 탐색보다 적은 탐색 단계를 사용하면서도 최적의 계획을 생성합니다. 우리의 훈련 방법에서 A^*의 탐색 동역학은 심볼릭 플래닝 동안 작업 상태가 탐색 트리에 추가되고 제거되는 시점을 개괄하는 토큰 시퀀스로 표현됩니다. 미로 탐색에 대한 절제 연구(ablation studies)에서 Searchformer는 최적의 계획을 직접 예측하는 베이스라인을 크게 능가하며, 모델 크기는 5-10배 더 작고 훈련 데이터셋은 10배 더 작은 것으로 나타났습니다. 또한 Searchformer가 소코반과 같은 더 크고 복잡한 의사결정 작업으로 확장되면서 해결된 작업의 비율이 개선되고 탐색 동역학이 단축되는 것을 보여줍니다.
English
While Transformers have enabled tremendous progress in various application
settings, such architectures still lag behind traditional symbolic planners for
solving complex decision making tasks. In this work, we demonstrate how to
train Transformers to solve complex planning tasks and present Searchformer, a
Transformer model that optimally solves previously unseen Sokoban puzzles 93.7%
of the time, while using up to 26.8% fewer search steps than standard A^*
search. Searchformer is an encoder-decoder Transformer model trained to predict
the search dynamics of A^*. This model is then fine-tuned via expert
iterations to perform fewer search steps than A^* search while still
generating an optimal plan. In our training method, A^*'s search dynamics are
expressed as a token sequence outlining when task states are added and removed
into the search tree during symbolic planning. In our ablation studies on maze
navigation, we find that Searchformer significantly outperforms baselines that
predict the optimal plan directly with a 5-10times smaller model size and a
10times smaller training dataset. We also demonstrate how Searchformer
scales to larger and more complex decision making tasks like Sokoban with
improved percentage of solved tasks and shortened search dynamics.