기술1: 강화 학습을 통한 기술 강화 에이전트의 통합 진화Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning
지속적 스킬 라이브러리를 통해 언어 모델 에이전트는 다양한 작업에 걸쳐 성공적인 전략을 재사용할 수 있습니다. 이러한 라이브러리를 유지하려면 세 가지 상호 연계된 역량이 필요합니다. 에이전트는 관련 스킬을 선택하고, 실행 과정에서 이를 활용하며, 경험으로부터 새로운 스킬을 정제합니다. 기존 방법론은 이러한 역량을 개별적으로 또는 별도의 보상 원천을 통해 최적화하여 부분적이고 상충되는 진화를 초래했습니다. 본 연구에서는 단일 정책을 훈련시켜 스킬 선택, 활용, 정제를 공유 작업 결과 목표를 향해 공동 진화시키는 Skill1 프레임워크를 제안합니다. 이 정책은 스킬 라이브러리 검색을 위한 질의를 생성하고, 후보를 재순위화하여 선택하며, 선택된 스킬을 조건으로 작업을 해결한 후, 해당 경로에서 새로운 스킬을 정제합니다. 모든 학습은 단일 작업 결과 신호에서 비롯됩니다. 그 저주파수 추세는 선택을, 고주파수 변동은 정제를 각각 신용 배분합니다. ALFWorld와 WebShop에서의 실험 결과, Skill1이 기존 스킬 기반 및 강화 학습 기준선을 능가함을 보여줍니다. 훈련 역학은 세 가지 역량의 공동 진화를 확인하며, ablation 실험은 어느 신용 신호를 제거하더라도 진화가 저하됨을 보여줍니다.