대규모 언어 모델이 구조화된 추론을 조율하여 캐글 그랜드마스터 수준을 달성합니다.Large Language Models Orchestrating Structured Reasoning Achieve Kaggle
Grandmaster Level
우리는 자동화, 최적화 및 일반화를 목적으로 설계된 Agent K v1.0을 소개합니다. Agent K v1.0은 다양한 데이터 과학 작업에 걸쳐 자동화되고 최적화되며 일반화되도록 설계된 end-to-end 자율 데이터 과학 에이전트입니다. 완전히 자동화된 Agent K v1.0은 경험으로부터 학습함으로써 전체 데이터 과학 수명주기를 관리합니다. Agent K v1.0은 높은 유연성을 가진 구조화된 추론 프레임워크를 활용하여 중첩 구조에서 메모리를 동적으로 처리할 수 있도록 하여, 복잡한 추론 작업을 처리하기 위해 저장된 누적 경험으로부터 효과적으로 학습합니다. Agent K v1.0은 환경적 보상에 기초하여 미래 결정을 안내하기 위해 핵심 정보를 선택적으로 저장하고 검색함으로써 장기 및 단기 기억을 최적화합니다. 이 반복적인 접근 방식을 통해 Agent K v1.0은 미세 조정이나 역전파 없이 결정을 정제하고 경험적 학습을 통해 지속적인 개선을 달성합니다. 우리는 Kaggle 대회를 사례 연구로 사용하여 에이전트의 능력을 평가합니다. 완전히 자동화된 프로토콜을 따라 Agent K v1.0은 베이지안 최적화를 사용하여 하이퍼파라미터 조정 및 피처 엔지니어링을 수행하며 복잡하고 다중 모달 데이터 과학 작업을 체계적으로 다룹니다. 우리의 새로운 평가 프레임워크는 Agent K v1.0의 end-to-end 능력을 엄격하게 평가하여 Kaggle 대회 URL에서 시작하여 제출을 생성하고 보냅니다. 결과는 Agent K v1.0이 표 형식, 컴퓨터 비전, NLP 및 다중 모달 도메인을 포함한 작업 전반에 걸쳐 92.5%의 성공률을 달성한다는 것을 보여줍니다. 5,856명의 인간 Kaggle 경쟁자와 Elo-MMR 점수를 계산하여 벤치마킹할 때, Agent K v1.0은 상위 38%에 랭크되어 전문가 수준 사용자와 유사한 전반적인 기술 수준을 보여줍니다. 특히, Elo-MMR 점수는 인간 그랜드마스터들이 달성한 점수의 제1사분위와 제3사분위 사이에 위치하고 있음을 나타냅니다. 더 나아가, 우리의 결과는 Agent K v1.0이 Kaggle 그랜드마스터와 동등한 성능 수준에 도달했으며, Kaggle의 진행 시스템에 따라 6개의 금메달, 3개의 은메달 및 7개의 동메달을 기록했다는 것을 보여줍니다.