Grandi modelli linguistici orchestrando ragionamento strutturato raggiungono il livello di Grandmaster su Kaggle.Large Language Models Orchestrating Structured Reasoning Achieve Kaggle
Grandmaster Level
Introduciamo l'Agente K v1.0, un agente autonomo end-to-end di data science progettato per automatizzare, ottimizzare e generalizzare su diverse attività di data science. Completamente automatizzato, l'Agente K v1.0 gestisce l'intero ciclo di vita della data science apprendendo dall'esperienza. Sfrutta un framework di ragionamento strutturato altamente flessibile che gli consente di elaborare dinamicamente la memoria in una struttura nidificata, imparando efficacemente dall'esperienza accumulata memorizzata per gestire compiti di ragionamento complessi. Ottimizza la memoria a lungo e breve termine memorizzando e recuperando selettivamente informazioni chiave, guidando le decisioni future basate su ricompense ambientali. Questo approccio iterativo gli consente di perfezionare le decisioni senza aggiustamenti fini o backpropagation, raggiungendo un miglioramento continuo attraverso l'apprendimento esperienziale. Valutiamo le capacità del nostro agente utilizzando le competizioni Kaggle come caso di studio. Seguendo un protocollo completamente automatizzato, l'Agente K v1.0 affronta sistematicamente compiti complessi e multimodali di data science, utilizzando l'ottimizzazione bayesiana per l'ottimizzazione degli iperparametri e l'ingegneria delle caratteristiche. Il nostro nuovo framework di valutazione valuta rigorosamente le capacità end-to-end dell'Agente K v1.0 per generare ed inviare sottoposizioni a partire da un URL di competizione Kaggle. I risultati dimostrano che l'Agente K v1.0 raggiunge un tasso di successo del 92,5\% su compiti che spaziano tra domini tabulari, computer vision, NLP e multimodali. Nel confronto con 5.856 concorrenti umani Kaggle calcolando i punteggi Elo-MMR per ciascuno, l'Agente K v1.0 si posiziona nel 38\% superiore, dimostrando un livello di competenza complessivo paragonabile agli utenti di livello Esperto. Inoltre, il suo punteggio Elo-MMR si colloca tra il primo e il terzo quartile dei punteggi ottenuti dai Grandmasters umani. Inoltre, i nostri risultati indicano che l'Agente K v1.0 ha raggiunto un livello di prestazioni equivalente a quello di un Kaggle Grandmaster, con un record di 6 medaglie d'oro, 3 d'argento e 7 di bronzo, come definito dal sistema di progressione di Kaggle.