Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen Agent K v1.0 vor, einen autonomes Data-Science-Agenten, der entwickelt wurde, um diverse Data-Science-Aufgaben zu automatisieren, zu optimieren und zu verallgemeinern. Vollautomatisch verwaltet Agent K v1.0 den gesamten Data-Science-Lebenszyklus, indem er aus Erfahrungen lernt. Er nutzt ein hochflexibles strukturiertes Schlussfolgerungsframework, um es ihm zu ermöglichen, Speicher in einer verschachtelten Struktur dynamisch zu verarbeiten, indem er effektiv aus gespeicherter Erfahrung lernt, um komplexe Schlussfolgerungsaufgaben zu bewältigen. Er optimiert Lang- und Kurzzeitgedächtnis, indem er selektiv Schlüsselinformationen speichert und abruft, um zukünftige Entscheidungen basierend auf Umgebungsbelohnungen zu lenken. Dieser iterative Ansatz ermöglicht es ihm, Entscheidungen ohne Feinabstimmung oder Backpropagation zu verfeinern und kontinuierliche Verbesserungen durch erfahrungsbezogenes Lernen zu erzielen. Wir evaluieren die Fähigkeiten unseres Agenten anhand von Kaggle-Wettbewerben als Fallstudie. Nach einem vollautomatischen Protokoll adressiert Agent K v1.0 systematisch komplexe und multimodale Data-Science-Aufgaben, indem er Bayes'sche Optimierung für die Hyperparameter-Abstimmung und Feature-Engineering einsetzt. Unser neues Evaluierungsframework bewertet rigoros die End-to-End-Fähigkeiten von Agent K v1.0, um Einreichungen ausgehend von einer Kaggle-Wettbewerbs-URL zu generieren und zu senden. Die Ergebnisse zeigen, dass Agent K v1.0 eine Erfolgsrate von 92,5\% über Aufgaben hinweg erreicht, die tabellarische, Computer-Vision-, NLP- und multimodale Bereiche umfassen. Beim Benchmarking gegen 5.856 menschliche Kaggle-Wettbewerber durch Berechnung von Elo-MMR-Werten für jeden, platziert sich Agent K v1.0 unter den Top 38\%, was ein insgesamt mit Experten vergleichbares Fähigkeitsniveau zeigt. Bemerkenswert ist, dass sein Elo-MMR-Wert zwischen dem ersten und dritten Quartil der von menschlichen Großmeistern erreichten Werte liegt. Darüber hinaus zeigen unsere Ergebnisse, dass Agent K v1.0 ein Leistungsniveau erreicht hat, das einem Kaggle-Großmeister entspricht, mit einem Rekord von 6 Gold-, 3 Silber- und 7 Bronzemedaillen, wie von Kaggle's Fortschrittssystem definiert.
Die rasante Entwicklung von multimodalen großen Sprachmodellen (MLLMs) hat eine überlegene Leistung bei verschiedenen multimodalen Benchmarks gezeigt. Allerdings führt das Problem der Datenkontamination während des Trainings zu Herausforderungen bei der Leistungsbewertung und -vergleich. Obwohl zahlreiche Methoden zur Erkennung von Datensatzkontamination in großen Sprachmodellen (LLMs) existieren, sind sie für MLLMs aufgrund ihrer verschiedenen Modalitäten und mehreren Trainingsphasen weniger effektiv. In dieser Studie stellen wir ein multimodales Rahmenwerk zur Erkennung von Datenkontamination, MM-Detect, vor, das speziell für MLLMs entwickelt wurde. Unsere experimentellen Ergebnisse zeigen, dass MM-Detect empfindlich auf unterschiedliche Grade von Kontamination reagiert und signifikante Leistungsverbesserungen aufgrund von Datenlecks des Trainingssets multimodaler Benchmarks aufzeigen kann. Darüber hinaus untersuchen wir auch die Möglichkeit der Kontamination, die aus der Vorphase des Trainings von LLMs, die von MLLMs verwendet werden, und der Feinabstimmungsphase von MLLMs stammt, und bieten neue Einblicke in die Phasen, in denen Kontamination eingeführt werden kann.
Transformer haben aufgrund ihrer leistungsstarken Anpassungsfähigkeiten in verschiedenen Bereichen umfangreiche Anwendungen gefunden. Dieser Erfolg kann teilweise auf ihre inhärente Nichtlinearität zurückgeführt werden. Daher haben Forscher neben der in der Original-Transformer-Architektur verwendeten ReLU-Funktion alternative Module wie GeLU und SwishGLU erforscht, um die Nichtlinearität zu verbessern und damit die Repräsentationskapazität zu erhöhen. In diesem Papier schlagen wir eine neue Kategorie von polynomialen Kompositionsaktivierungen (PolyCom) vor, die entwickelt wurden, um die Dynamik von Transformern zu optimieren. Theoretisch bieten wir eine umfassende mathematische Analyse von PolyCom an, die ihre verbesserte Ausdrucksstärke und Wirksamkeit im Vergleich zu anderen Aktivierungsfunktionen hervorhebt. Bemerkenswert ist, dass wir zeigen, dass Netzwerke, die PolyCom einbeziehen, die optimale Approximationsrate erreichen, was darauf hindeutet, dass PolyCom-Netzwerke minimale Parameter benötigen, um allgemeine glatte Funktionen in Sobolev-Räumen zu approximieren. Wir führen empirische Experimente an den Vorkonfigurationen großer Sprachmodelle (LLMs) durch, einschließlich dichter und dünn besetzter Architekturen. Durch den Austausch herkömmlicher Aktivierungsfunktionen durch PolyCom ermöglichen wir es LLMs, Wechselwirkungen höherer Ordnung innerhalb der Daten zu erfassen, was sich in Bezug auf Genauigkeit und Konvergenzraten positiv auf die Leistungsmetriken auswirkt. Umfangreiche experimentelle Ergebnisse zeigen die Wirksamkeit unserer Methode und zeigen signifikante Verbesserungen gegenüber anderen Aktivierungsfunktionen. Der Code ist verfügbar unter https://github.com/BryceZhuo/PolyCom.
Die Selbstausrichtung, bei der Modelle lernen, sich ohne menschliche Annotation zu verbessern, ist ein stark wachsender Forschungsbereich. Allerdings scheitern bestehende Techniken oft daran, komplexe Schlussfolgerungsaufgaben zu verbessern, aufgrund der Schwierigkeit, korrekte Belohnungen zuzuweisen. Ein orthogonaler Ansatz, der bekannt ist, um die Korrektheit zu verbessern, ist die Selbstkonsistenz, eine Methode, die zur Inferenzzeit basierend auf mehrfachem Sampling angewendet wird, um die konsistenteste Antwort zu finden. In dieser Arbeit erweitern wir das Konzept der Selbstkonsistenz, um Modelle zu trainieren. Wir führen daher die Selbstkonsistenz-Präferenzoptimierung (ScPO) ein, die iterativ darauf abzielt, konsistente Antworten auf unüberwachte neue Probleme gegenüber inkonsistenten Antworten zu bevorzugen. Wir zeigen, dass ScPO zu erheblichen Verbesserungen gegenüber der herkömmlichen Belohnungsmodell-Trainingsmethode bei Schlussfolgerungsaufgaben wie GSM8K und MATH führt, wodurch der Abstand zur überwachten Schulung mit Goldantworten oder Präferenzen verringert wird, und dass die Kombination von ScPO mit dem standardmäßigen überwachten Lernen die Ergebnisse noch weiter verbessert. Bei ZebraLogic feinabgestimmt ScPO Llama-3 8B überlegen gegenüber Llama-3 70B, Gemma-2 27B und Claude-3 Haiku.
Laufzeitlenkungsstrategien wie Medprompt sind wertvoll, um große Sprachmodelle (LLMs) bei anspruchsvollen Aufgaben zu führen. Medprompt zeigt, dass ein allgemeines LLM durch die Verwendung eines Prompts für eine Laufzeitstrategie mit Denkprozess-Verkettung und Ensembling auf spezialisierte Bereiche wie die Medizin fokussiert werden kann, um Spitzenleistungen zu erzielen. Das o1-preview-Modell von OpenAI repräsentiert ein neues Paradigma, bei dem ein Modell so konzipiert ist, dass es vor der Generierung endgültiger Antworten eine Laufzeitbegründung durchführt. Wir möchten das Verhalten von o1-preview anhand einer vielfältigen Auswahl medizinischer Herausforderungsprobleme verstehen. In Anlehnung an die Medprompt-Studie mit GPT-4 evaluieren wir systematisch das o1-preview-Modell anhand verschiedener medizinischer Benchmarks. Bemerkenswerterweise übertrifft o1-preview selbst ohne Prompting-Techniken größtenteils die GPT-4-Serie mit Medprompt. Wir untersuchen systematisch die Wirksamkeit klassischer Prompt-Engineering-Strategien, wie sie von Medprompt repräsentiert werden, im neuen Paradigma von Begründungsmodellen. Wir stellten fest, dass Few-Shot-Prompting die Leistung von o1 beeinträchtigt, was darauf hindeutet, dass das Lernen im Kontext möglicherweise kein effektiver Lenkungsansatz mehr für Begründungsmodelle ist. Obwohl Ensembling machbar bleibt, ist es ressourcenintensiv und erfordert eine sorgfältige Kosten-Leistungs-Optimierung. Unsere Kosten- und Genauigkeitsanalyse verschiedener Laufzeitstrategien zeigt eine Pareto-Front, wobei GPT-4o eine erschwinglichere Option darstellt und o1-preview Spitzenleistungen zu höheren Kosten erzielt. Obwohl o1-preview Spitzenleistungen bietet, behält GPT-4o mit Lenkungsstrategien wie Medprompt in spezifischen Kontexten einen Wert. Darüber hinaus stellen wir fest, dass das o1-preview-Modell auf vielen bestehenden medizinischen Benchmarks nahezu gesättigt ist, was die Notwendigkeit neuer, anspruchsvoller Benchmarks unterstreicht. Abschließend reflektieren wir über allgemeine Richtungen für die Berechnung zur Inferenzzeit mit LLMs.