Grote taalmodellen die gestructureerd redeneren orchestreren bereiken het niveau van Kaggle Grandmaster.Large Language Models Orchestrating Structured Reasoning Achieve Kaggle
Grandmaster Level
We introduceren Agent K v1.0, een end-to-end autonome data science agent ontworpen om diverse data science taken te automatiseren, optimaliseren en generaliseren. Volledig geautomatiseerd beheert Agent K v1.0 de gehele levenscyclus van data science door te leren van ervaring. Het maakt gebruik van een zeer flexibel gestructureerd redeneerkader om dynamisch geheugen te verwerken in een geneste structuur, waarbij effectief wordt geleerd van opgeslagen opgebouwde ervaring om complexe redeneertaken aan te pakken. Het optimaliseert het lange- en korte termijngeheugen door selectief belangrijke informatie op te slaan en op te halen, waardoor toekomstige beslissingen worden geleid op basis van omgevingsbeloningen. Deze iteratieve benadering stelt het in staat beslissingen te verfijnen zonder fijnafstemming of backpropagatie, wat leidt tot continue verbetering door ervaringsleren. We evalueren de mogelijkheden van onze agent met behulp van Kaggle-competities als casestudy. Volgens een volledig geautomatiseerd protocol adresseert Agent K v1.0 systematisch complexe en multimodale data science taken, waarbij Bayesian optimalisatie wordt toegepast voor hyperparameterafstemming en functie-engineering. Ons nieuwe evaluatiekader beoordeelt rigoureus de end-to-end mogelijkheden van Agent K v1.0 om inzendingen te genereren en te verzenden vanaf een Kaggle-competitie-URL. De resultaten tonen aan dat Agent K v1.0 een succespercentage van 92,5\% behaalt over taken, variërend van tabulaire, computer vision, NLP en multimodale domeinen. Bij benchmarking tegen 5.856 menselijke Kaggle-deelnemers door Elo-MMR-scores te berekenen voor elk, rangschikt Agent K v1.0 in de top 38\%, wat een algeheel vaardigheidsniveau aantoont dat vergelijkbaar is met gebruikers op expertniveau. Opmerkelijk is dat zijn Elo-MMR-score tussen het eerste en derde kwartiel van scores van menselijke Grandmasters valt. Bovendien geven onze resultaten aan dat Agent K v1.0 een prestatieniveau heeft bereikt dat equivalent is aan Kaggle Grandmaster, met een record van 6 gouden, 3 zilveren en 7 bronzen medailles, zoals gedefinieerd door het voortgangssysteem van Kaggle.