Große Sprachmodelle, die strukturiertes Denken orchestrieren, erreichen das Niveau eines Kaggle Grandmasters.Large Language Models Orchestrating Structured Reasoning Achieve Kaggle
Grandmaster Level
Wir stellen Agent K v1.0 vor, einen autonomes Data-Science-Agenten, der entwickelt wurde, um diverse Data-Science-Aufgaben zu automatisieren, zu optimieren und zu verallgemeinern. Vollautomatisch verwaltet Agent K v1.0 den gesamten Data-Science-Lebenszyklus, indem er aus Erfahrungen lernt. Er nutzt ein hochflexibles strukturiertes Schlussfolgerungsframework, um es ihm zu ermöglichen, Speicher in einer verschachtelten Struktur dynamisch zu verarbeiten, indem er effektiv aus gespeicherter Erfahrung lernt, um komplexe Schlussfolgerungsaufgaben zu bewältigen. Er optimiert Lang- und Kurzzeitgedächtnis, indem er selektiv Schlüsselinformationen speichert und abruft, um zukünftige Entscheidungen basierend auf Umgebungsbelohnungen zu lenken. Dieser iterative Ansatz ermöglicht es ihm, Entscheidungen ohne Feinabstimmung oder Backpropagation zu verfeinern und kontinuierliche Verbesserungen durch erfahrungsbezogenes Lernen zu erzielen. Wir evaluieren die Fähigkeiten unseres Agenten anhand von Kaggle-Wettbewerben als Fallstudie. Nach einem vollautomatischen Protokoll adressiert Agent K v1.0 systematisch komplexe und multimodale Data-Science-Aufgaben, indem er Bayes'sche Optimierung für die Hyperparameter-Abstimmung und Feature-Engineering einsetzt. Unser neues Evaluierungsframework bewertet rigoros die End-to-End-Fähigkeiten von Agent K v1.0, um Einreichungen ausgehend von einer Kaggle-Wettbewerbs-URL zu generieren und zu senden. Die Ergebnisse zeigen, dass Agent K v1.0 eine Erfolgsrate von 92,5\% über Aufgaben hinweg erreicht, die tabellarische, Computer-Vision-, NLP- und multimodale Bereiche umfassen. Beim Benchmarking gegen 5.856 menschliche Kaggle-Wettbewerber durch Berechnung von Elo-MMR-Werten für jeden, platziert sich Agent K v1.0 unter den Top 38\%, was ein insgesamt mit Experten vergleichbares Fähigkeitsniveau zeigt. Bemerkenswert ist, dass sein Elo-MMR-Wert zwischen dem ersten und dritten Quartil der von menschlichen Großmeistern erreichten Werte liegt. Darüber hinaus zeigen unsere Ergebnisse, dass Agent K v1.0 ein Leistungsniveau erreicht hat, das einem Kaggle-Großmeister entspricht, mit einem Rekord von 6 Gold-, 3 Silber- und 7 Bronzemedaillen, wie von Kaggle's Fortschrittssystem definiert.