Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle (LLMs) gewinnen sowohl in der Wissenschaft als auch in der Industrie zunehmend an Popularität, was auf ihre beispiellose Leistung in verschiedenen Anwendungen zurückzuführen ist. Da LLMs weiterhin eine entscheidende Rolle in der Forschung und im täglichen Gebrauch spielen, wird ihre Bewertung immer wichtiger, nicht nur auf der Aufgabenhöhe, sondern auch auf der gesellschaftlichen Ebene, um ihre potenziellen Risiken besser zu verstehen. In den letzten Jahren wurden erhebliche Anstrengungen unternommen, um LLMs aus verschiedenen Perspektiven zu untersuchen. Dieses Papier bietet einen umfassenden Überblick über diese Bewertungsmethoden für LLMs, wobei der Schwerpunkt auf drei Schlüsselaspekten liegt: was zu bewerten ist, wo zu bewerten ist und wie zu bewerten ist. Zunächst geben wir einen Überblick aus der Perspektive der Bewertungsaufgaben, einschließlich allgemeiner Aufgaben der natürlichen Sprachverarbeitung, des logischen Denkens, der medizinischen Anwendung, der Ethik, der Bildung, der Natur- und Sozialwissenschaften, der Anwendungen von Agenten und anderen Bereichen. Zweitens beantworten wir die Fragen „wo“ und „wie“, indem wir uns mit den Bewertungsmethoden und Benchmarks befassen, die als entscheidende Komponenten bei der Bewertung der Leistung von LLMs dienen. Anschließend fassen wir die Erfolgs- und Misserfolgsfälle von LLMs in verschiedenen Aufgaben zusammen. Schließlich beleuchten wir mehrere zukünftige Herausforderungen, die in der Bewertung von LLMs vor uns liegen. Unser Ziel ist es, wertvolle Einblicke für Forscher im Bereich der LLM-Bewertung zu bieten und damit die Entwicklung leistungsfähigerer LLMs zu unterstützen. Unser zentraler Punkt ist, dass die Bewertung als eine wesentliche Disziplin betrachtet werden sollte, um die Entwicklung von LLMs besser zu unterstützen. Wir pflegen kontinuierlich die zugehörigen Open-Source-Materialien unter: https://github.com/MLGroupJLU/LLM-eval-survey.
Während aktuelle Sprachmodelle die Fähigkeit besitzen, lange Kontexte als Eingabe zu verarbeiten, ist relativ wenig darüber bekannt, wie effektiv diese Modelle längere Kontexte nutzen. Wir analysieren die Leistung von Sprachmodellen in zwei Aufgaben, die das Identifizieren relevanter Informationen innerhalb ihrer Eingabekontexte erfordern: Multi-Dokument-Fragebeantwortung und Schlüssel-Wert-Abruf. Wir stellen fest, dass die Leistung oft am höchsten ist, wenn relevante Informationen am Anfang oder Ende des Eingabekontexts auftreten, und signifikant abnimmt, wenn Modelle auf relevante Informationen in der Mitte langer Kontexte zugreifen müssen. Darüber hinaus sinkt die Leistung erheblich, wenn der Eingabekontext länger wird, selbst bei explizit für lange Kontexte entwickelten Modellen. Unsere Analyse bietet ein besseres Verständnis dafür, wie Sprachmodelle ihren Eingabekontext nutzen, und liefert neue Evaluationsprotokolle für zukünftige Modelle mit langen Kontexten.
Viele kognitive Ansätze zum Wohlbefinden, wie das Erkennen und Umgestalten ungünstiger Gedanken, haben in den letzten Jahrzehnten erhebliche empirische Unterstützung erhalten, finden jedoch immer noch keine wirklich breite Verbreitung in Selbsthilfeformaten. Ein Hindernis für diese Verbreitung ist das Fehlen von ausreichend spezifischem und vielfältigem Übungsmaterial. Diese Arbeit untersucht, ob aktuelle Sprachmodelle genutzt werden können, um sowohl eine praktisch unbegrenzte Menge an Übungsmaterial zu erzeugen, das standardmäßige ungünstige Denkmuster in spezifischen gegebenen Kontexten veranschaulicht, als auch geeignete positive Umgestaltungsvorschläge zu generieren. Wir stellen PATTERNREFRAME vor, einen neuartigen Datensatz mit etwa 10.000 Beispielen von Gedanken, die ungünstige Denkmuster enthalten und auf eine gegebene Persona abgestimmt sind, begleitet von etwa 27.000 positiven Umgestaltungen. Indem wir diesen Datensatz verwenden, um aktuelle Modelle zu trainieren und/oder zu evaluieren, zeigen wir, dass bestehende Modelle bereits mächtige Werkzeuge sein können, um eine Fülle von maßgeschneidertem Übungsmaterial und Hypothesen zu generieren, ohne oder mit minimalem zusätzlichen Modelltraining.
Große Sprachmodelle verfügen über eine außergewöhnliche Fähigkeit, neue Informationen kontextbezogen zu integrieren. Das volle Potenzial eines solchen Ansatzes wird jedoch oft durch eine Begrenzung der effektiven Kontextlänge eingeschränkt. Eine Lösung für dieses Problem besteht darin, einer Attention-Schicht Zugriff auf ein externes Speichersystem zu gewähren, das aus (Schlüssel, Wert)-Paaren besteht. Doch mit zunehmender Anzahl von Dokumenten verringert sich der Anteil relevanter Schlüssel im Vergleich zu irrelevanten, was dazu führt, dass das Modell stärker auf irrelevante Schlüssel fokussiert. Wir identifizieren eine wesentliche Herausforderung, die wir als das Ablenkungsproblem bezeichnen: Schlüssel, die mit unterschiedlichen semantischen Werten verknüpft sind, können sich überschneiden, was ihre Unterscheidung erschwert. Um dieses Problem zu lösen, stellen wir den Focused Transformer (FoT) vor, eine Technik, die einen Trainingsprozess inspiriert vom kontrastiven Lernen nutzt. Dieser neuartige Ansatz verbessert die Struktur des (Schlüssel, Wert)-Raums und ermöglicht eine Erweiterung der Kontextlänge. Unsere Methode erlaubt die Feinabstimmung bestehender, großskaliger Modelle, um deren effektiven Kontext zu verlängern. Dies demonstrieren wir durch die Feinabstimmung von 3B- und 7B-OpenLLaMA-Checkpoints. Die daraus resultierenden Modelle, die wir LongLLaMA nennen, zeigen Fortschritte bei Aufgaben, die einen langen Kontext erfordern. Wir verdeutlichen weiterhin, dass unsere LongLLaMA-Modelle eine Kontextlänge von 256 k für die Passkey-Rückgewinnung geschickt handhaben.
In diesem Artikel konzentrieren wir uns auf Whisper, ein kürzlich entwickeltes automatisches Spracherkennungsmodell, das mit einem umfangreichen, 680.000 Stunden umfassenden, annotierten Sprachkorpus trainiert wurde, der unter vielfältigen Bedingungen aufgenommen wurde. Wir zeigen zunächst eine interessante Erkenntnis: Obwohl Whisper sehr robust gegenüber realen Hintergrundgeräuschen (z. B. Musik) ist, ist seine Audio-Darstellung tatsächlich nicht rauschinvariant, sondern stark mit Nicht-Sprach-Geräuschen korreliert. Dies deutet darauf hin, dass Whisper Sprache in Abhängigkeit vom Rauschtyp erkennt. Aufbauend auf dieser Erkenntnis entwickeln wir ein einheitliches Modell für Audio-Tagging und Spracherkennung, Whisper-AT, indem wir das Rückgrat von Whisper einfrieren und ein leichtgewichtiges Audio-Tagging-Modell darauf trainieren. Mit einem zusätzlichen Rechenaufwand von weniger als 1 % kann Whisper-AT sowohl Audio-Ereignisse als auch gesprochenen Text in einem einzigen Vorwärtsdurchlauf erkennen.
Autoregressive große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte in verschiedenen Aufgaben der natürlichen Sprachgenerierung erzielt. Allerdings verursachen sie hohe Rechenkosten und Latenzzeiten, die sich aus der autoregressiven Token-für-Token-Generierung ergeben. Um dieses Problem zu lösen, wurden mehrere Ansätze vorgeschlagen, um die Rechenkosten durch Early-Exit-Strategien zu reduzieren. Diese Strategien ermöglichen eine schnellere Textgenerierung mit reduziertem Rechenaufwand, ohne den vollen Berechnungsgraphen auf jedes Token anzuwenden. Während bestehende Token-Level-Early-Exit-Methoden vielversprechende Ergebnisse für Online-Inferenz zeigen, können sie nicht ohne Weiteres für Batch-Inferenz und Key-Value-Caching verwendet werden. Dies liegt daran, dass sie warten müssen, bis das letzte Token in einem Batch beendet ist, bevor sie die Berechnung stoppen können. Dies schränkt die praktische Anwendung solcher Techniken erheblich ein. In diesem Artikel schlagen wir eine einfache und effektive Token-Level-Early-Exit-Methode vor, SkipDecode, die nahtlos mit Batch-Inferenz und KV-Caching zusammenarbeitet. Sie überwindet frühere Einschränkungen, indem sie einen einzigen Ausstiegspunkt für jedes Token in einem Batch an jeder Sequenzposition festlegt. Sie gewährleistet auch eine monotone Abnahme der Ausstiegspunkte, wodurch die Notwendigkeit entfällt, KV-Caches für vorhergehende Token neu zu berechnen. Anstatt die Berechnung vorzeitig zu beenden wie in früheren Arbeiten, umgeht unser Ansatz die unteren bis mittleren Schichten und widmet den größten Teil der Rechenressourcen den oberen Schichten, sodass spätere Token von den Rechenaufwendungen früherer Token profitieren können. Unsere experimentellen Ergebnisse zeigen, dass SkipDecode eine 2x bis 5x schnellere Inferenz mit vernachlässigbarem Leistungsverlust über eine Vielzahl von Aufgaben erzielen kann. Dies wird mit OPT-Modellen mit 1,3 Milliarden und 6,7 Milliarden Parametern erreicht, wobei gleichzeitig eine direkte Kompatibilität mit Batch-Verarbeitung und KV-Caching-Optimierungstechniken gewährleistet ist.
Wir bewerten die Fähigkeiten bestehender Foundation-Modelle zur Videoverständnis anhand eines sorgfältig entworfenen Experimentprotokolls, das aus drei zentralen Aufgaben (Aktionserkennung, zeitliche Lokalisierung und raumzeitliche Lokalisierung), acht in der Community gut anerkannten Datensätzen und vier Anpassungsmethoden besteht, die ein Foundation-Modell (FM) für eine nachgelagerte Aufgabe optimieren. Darüber hinaus schlagen wir einen skalaren VideoGLUE-Score (VGS) vor, um die Effizienz und Effektivität eines FMs bei der Anpassung an allgemeine Videoverständnisaufgaben zu messen. Unsere wichtigsten Erkenntnisse sind wie folgt. Erstens übertreffen aufgaben-spezialisierte Modelle die sechs in dieser Arbeit untersuchten FMs deutlich, im starken Gegensatz zu dem, was FMs im Bereich des natürlichen Sprach- und Bildverständnisses erreicht haben. Zweitens sind video-native FMs, deren Vortrainingsdaten die Video-Modalität enthalten, im Allgemeinen besser als image-native FMs bei der Klassifizierung von bewegungsreichen Videos, der zeitlichen Lokalisierung von Aktionen und dem Verständnis von Videos mit mehr als einer Aktion. Drittens können video-native FMs bei leichten Anpassungen an nachgelagerte Aufgaben (z. B. Einfrieren der FM-Backbones) gut bei Videoaufgaben abschneiden, während image-native FMs bei vollständigem End-to-End-Finetuning überzeugen. Die ersten beiden Beobachtungen zeigen den Bedarf und die enormen Möglichkeiten für die Forschung an video-fokussierten FMs, und die letzte bestätigt, dass sowohl Aufgaben als auch Anpassungsmethoden bei der Bewertung von FMs eine Rolle spielen.