Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen Mixtral 8x7B vor, ein Sparse Mixture of Experts (SMoE)-Sprachmodell. Mixtral hat die gleiche Architektur wie Mistral 7B, mit dem Unterschied, dass jede Schicht aus 8 Feedforward-Blöcken (d.h. Experten) besteht. Für jedes Token wählt ein Router-Netzwerk auf jeder Schicht zwei Experten aus, um den aktuellen Zustand zu verarbeiten und ihre Ausgaben zu kombinieren. Obwohl jedes Token nur zwei Experten sieht, können die ausgewählten Experten in jedem Zeitschritt unterschiedlich sein. Dadurch hat jedes Token Zugriff auf 47B Parameter, verwendet jedoch während der Inferenz nur 13B aktive Parameter. Mixtral wurde mit einer Kontextgröße von 32k Token trainiert und übertrifft oder erreicht Llama 2 70B und GPT-3.5 in allen bewerteten Benchmarks. Insbesondere übertrifft Mixtral Llama 2 70B deutlich in den Bereichen Mathematik, Code-Generierung und mehrsprachige Benchmarks. Wir stellen auch ein Modell bereit, das feinabgestimmt wurde, um Anweisungen zu befolgen, Mixtral 8x7B - Instruct, das GPT-3.5 Turbo, Claude-2.1, Gemini Pro und Llama 2 70B - Chat-Modell in menschlichen Benchmarks übertrifft. Sowohl das Basis- als auch das Instruct-Modell werden unter der Apache 2.0-Lizenz veröffentlicht.
State-Space-Modelle (SSMs) haben sich zu ernsthaften Konkurrenten im Bereich der sequenziellen Modellierung entwickelt und stellen die Dominanz von Transformern in Frage. Gleichzeitig hat Mixture of Experts (MoE) Transformer-basierte LLMs, einschließlich aktueller Open-Source-Modelle auf dem neuesten Stand der Technik, erheblich verbessert. Wir schlagen vor, dass SSMs mit MoE kombiniert werden sollten, um ihr Potenzial für die Skalierung zu erschließen. Wir demonstrieren dies anhand von Mamba, einem kürzlich entwickelten SSM-basierten Modell, das bemerkenswerte, Transformer-ähnliche Leistungen erzielt. Unser Modell, MoE-Mamba, übertrifft sowohl Mamba als auch Transformer-MoE. Insbesondere erreicht MoE-Mamba die gleiche Leistung wie Mamba in 2,2-mal weniger Trainingsschritten, während die Inferenzleistungsvorteile von Mamba gegenüber dem Transformer erhalten bleiben.
In der Forschung zur konversationellen KI ist ein deutlicher Trend zur Entwicklung von Modellen mit einer größeren Anzahl von Parametern zu beobachten, wie beispielsweise Modelle wie ChatGPT. Obwohl diese umfangreichen Modelle tendenziell immer bessere Chat-Antworten generieren, erfordern sie erhebliche Rechenressourcen und Speicherkapazitäten. Diese Studie untersucht eine relevante Frage: Kann eine Kombination kleinerer Modelle gemeinsam eine vergleichbare oder verbesserte Leistung im Vergleich zu einem einzelnen großen Modell erzielen? Wir stellen einen Ansatz vor, der als „Blending“ bezeichnet wird – eine einfache, aber effektive Methode zur Integration mehrerer Chat-KIs. Unsere empirischen Ergebnisse deuten darauf hin, dass spezifische kleinere Modelle, wenn sie synergetisch kombiniert werden, die Fähigkeiten viel größerer Modelle potenziell übertreffen oder erreichen können. Beispielsweise kann die Integration von nur drei Modellen mittlerer Größe (6B/13B Parameter) die Leistungskennzahlen eines deutlich größeren Modells wie ChatGPT (175B+ Parameter) erreichen oder sogar übertreffen. Diese Hypothese wird mithilfe von A/B-Testmethoden mit einer großen Nutzerbasis auf der Chai-Forschungsplattform über einen Zeitraum von dreißig Tagen rigoros überprüft. Die Ergebnisse unterstreichen das Potenzial der „Blending“-Strategie als einen praktikablen Ansatz zur Steigerung der Effektivität von Chat-KIs ohne einen entsprechenden Anstieg der Rechenanforderungen.
Die Nutzung langer Kontexte stellt eine große Herausforderung für große Sprachmodelle dar, da deren Kontextfensterlänge begrenzt ist. Obwohl das Kontextfenster durch Feinabstimmung erweitert werden kann, führt dies zu erheblichen Kosten sowohl während des Trainings als auch der Inferenz und hat einen ungünstigen Einfluss auf die ursprünglichen Fähigkeiten des LLM. In dieser Arbeit schlagen wir Activation Beacon vor, das die Rohaktivierungen des LLM in kompaktere Formen kondensiert, sodass es einen viel längeren Kontext mit einem begrenzten Kontextfenster wahrnehmen kann. Activation Beacon wird als Plug-and-Play-Modul für das LLM eingeführt. Es bewahrt die ursprünglichen Fähigkeiten des LLM bei kurzen Kontexten vollständig, während es gleichzeitig die neue Fähigkeit zur Verarbeitung längerer Kontexte erweitert. Darüber hinaus arbeitet es mit kurzen Schiebefenstern, um den langen Kontext zu verarbeiten, was eine wettbewerbsfähige Speicher- und Zeiteffizienz sowohl im Training als auch in der Inferenz erreicht. Activation Beacon wird durch die autoregressive Aufgabe gelernt, die auf einer Mischung von Beacons mit diversen Kondensierungsraten basiert. Dank dieser Behandlung kann es effizient ausschließlich mit Kurzsequenzdaten in nur 10.000 Schritten trainiert werden, was weniger als 9 Stunden auf einer einzelnen 8xA800-GPU-Maschine in Anspruch nimmt. Die experimentellen Studien zeigen, dass Activation Beacon in der Lage ist, die Kontextlänge von Llama-2-7B um das 100-fache zu erweitern (von 4K auf 400K), während es gleichzeitig ein überlegenes Ergebnis bei Aufgaben zur langen Kontextgenerierung und -verständnis erzielt. Unser Modell und Code werden im BGE-Repository verfügbar sein.
Trotz der jüngsten Fortschritte bei text-zu-3D-generativen Methoden besteht ein bemerkenswerter Mangel an zuverlässigen Evaluationsmetriken. Bisherige Metriken konzentrieren sich meist jeweils auf ein einzelnes Kriterium, wie beispielsweise die Übereinstimmung des erzeugten Assets mit dem Eingabetext. Diese Metriken sind nicht flexibel genug, um sich auf verschiedene Evaluationskriterien zu verallgemeinern, und stimmen oft nicht gut mit menschlichen Präferenzen überein. Die Durchführung von Nutzerpräferenzstudien stellt eine Alternative dar, die sowohl Anpassungsfähigkeit als auch menschenorientierte Ergebnisse bietet. Nutzerstudien können jedoch sehr kostspielig sein, insbesondere bei größerem Umfang. Dieses Papier präsentiert eine automatische, vielseitige und menschenorientierte Evaluationsmetrik für text-zu-3D-generative Modelle. Zu diesem Zweck entwickeln wir zunächst einen Prompt-Generator, der GPT-4V verwendet, um Evaluations-Prompts zu erzeugen, die als Eingabe für den Vergleich von text-zu-3D-Modellen dienen. Weiterhin entwerfen wir eine Methode, die GPT-4V anweist, zwei 3D-Assets gemäß benutzerdefinierter Kriterien zu vergleichen. Schließlich nutzen wir diese paarweisen Vergleichsergebnisse, um diesen Modellen Elo-Bewertungen zuzuweisen. Experimentelle Ergebnisse deuten darauf hin, dass unsere Metrik stark mit menschlichen Präferenzen über verschiedene Evaluationskriterien hinweg übereinstimmt.
In diesem Artikel stellen wir DiarizationLM vor, ein Framework, das große Sprachmodelle (LLM) nutzt, um die Ausgaben eines Sprecher-Diarisierungssystems nachzuverarbeiten. Mit dem vorgeschlagenen Framework können verschiedene Ziele erreicht werden, wie die Verbesserung der Lesbarkeit des diarisierten Transkripts oder die Reduzierung der Wort-Diarisierungsfehlerrate (WDER). In diesem Framework werden die Ausgaben der automatischen Spracherkennung (ASR) und des Sprecher-Diarisierungssystems in einem kompakten Textformat dargestellt, das in den Prompt für ein optional feinabgestimmtes LLM integriert wird. Die Ausgaben des LLM können als verfeinerte Diarisierungsergebnisse mit der gewünschten Verbesserung verwendet werden. Als Nachverarbeitungsschritt kann dieses Framework problemlos auf beliebige ASR- und Sprecher-Diarisierungssysteme angewendet werden, ohne bestehende Komponenten neu trainieren zu müssen. Unsere Experimente zeigen, dass ein feinabgestimmtes PaLM 2-S Modell die WDER auf dem Fisher-Telefongesprächsdatensatz um rel. 25,9 % und auf dem Callhome-Englisch-Datensatz um rel. 31 % reduzieren kann.
Große Sprachmodelle (LLMs) haben bedeutende Fortschritte bei codebezogenen Aufgaben erzielt, doch viele LLMs behandeln Code als einfache Sequenzen und vernachlässigen dessen strukturierte Natur. Wir stellen AST-T5 vor, ein neuartiges Vortrainierungsparadigma, das den Abstract Syntax Tree (AST) für verbesserte Code-Generierung, -Transpilation und -Verständnis nutzt. Mithilfe von dynamischer Programmierung bewahrt unsere AST-Aware Segmentation die Codestruktur, während unser AST-Aware Span Corruption Objective das Modell dazu befähigt, verschiedene Codestrukturen zu rekonstruieren. Im Gegensatz zu anderen Modellen vermeidet AST-T5 komplexe Programmanalysen oder architektonische Änderungen und lässt sich daher nahtlos in jeden Encoder-Decoder-Transformer integrieren. Evaluierungen zeigen, dass AST-T5 durchweg ähnlich große Sprachmodelle bei verschiedenen codebezogenen Aufgaben übertrifft. Die Strukturwahrnehmung macht AST-T5 besonders leistungsstark bei Code-zu-Code-Aufgaben, wobei es CodeT5 im Bugs2Fix-Task um 2 Punkte im Exact-Match-Score und bei der Java-C#-Transpilation in CodeXGLUE um 3 Punkte im Exact-Match-Score übertrifft. Unser Code und Modell sind öffentlich unter https://github.com/gonglinyuan/ast_t5 verfügbar.
Wir stellen CRUXEval (Code Reasoning, Understanding, and eXecution Evaluation) vor, einen Benchmark, der aus 800 Python-Funktionen (3-13 Zeilen) besteht. Jede Funktion wird mit einem Eingabe-Ausgabe-Paar geliefert, was zu zwei natürlichen Aufgaben führt: Eingabevorhersage und Ausgabevorhersage. Zuerst schlagen wir ein generisches Rezept zur Erstellung unseres Ausführungs-Benchmarks vor, das zur Erstellung zukünftiger Variationen des Benchmarks verwendet werden kann. Zweitens evaluieren wir zwanzig Code-Modelle anhand unseres Benchmarks und stellen fest, dass viele kürzlich auf HumanEval hoch bewertete Modelle nicht die gleichen Verbesserungen auf unserem Benchmark zeigen. Drittens zeigen wir, dass einfache Chain-of-Thought (CoT) und Fine-Tuning-Schemata die Leistung auf unserem Benchmark verbessern können, aber weit davon entfernt sind, ihn zu lösen. Das beste Setup, GPT-4 mit Chain of Thought (CoT), erreicht ein pass@1 von 75 % bzw. 81 % bei der Eingabe- und Ausgabevorhersage. Im Gegensatz dazu erreicht Code Llama 34B ein pass@1 von 50 % bzw. 46 % bei der Eingabe- und Ausgabevorhersage, was die Lücke zwischen Open-Source- und Closed-Source-Modellen verdeutlicht. Da kein Modell nahe daran ist, CRUXEval zu meistern, liefern wir Beispiele für konsistente GPT-4-Fehler bei einfachen Programmen als Einblick in seine Code-Reasoning-Fähigkeiten und Bereiche für Verbesserungen.
Das Aufkommen vortrainierter Modelle hat erhebliche Auswirkungen auf Bereiche von der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) und der Computer Vision bis hin zu relationalen Datensätzen. Traditionell werden diese Modelle durch feinabgestimmte Downstream-Aufgaben bewertet. Dies wirft jedoch die Frage auf, wie diese Modelle effizienter und effektiver evaluiert werden können. In dieser Studie untersuchen wir einen neuartigen Ansatz, bei dem wir die Metadaten, die mit jeder Entität verbunden sind, als Quelle von Weltwissen nutzen und Entitätsrepräsentationen aus den Modellen verwenden. Wir schlagen vor, die Konsistenz zwischen diesen Repräsentationen und den Metadaten als Metrik zur Bewertung vortrainierter Modelle zu verwenden. Die Wirksamkeit unserer Methode wird in verschiedenen Domänen demonstriert, einschließlich Modellen mit relationalen Datensätzen, großen Sprachmodellen und Bildmodellen.
Angesichts des wachsenden Bedarfs an automatisierten Pipelines zur 3D-Inhaltserstellung wurden verschiedene 3D-Repräsentationen untersucht, um 3D-Objekte aus einem einzelnen Bild zu generieren. Aufgrund ihrer überlegenen Rendering-Effizienz haben auf 3D-Gaußschen Splatting basierende Modelle kürzlich sowohl in der 3D-Rekonstruktion als auch in der Generierung hervorragende Ergebnisse erzielt. Ansätze des 3D-Gaußschen Splattings für die Bild-zu-3D-Generierung sind oft optimierungsbasiert und erfordern viele rechenintensive Score-Distillation-Schritte. Um diese Herausforderungen zu bewältigen, führen wir ein amortisiertes generatives 3D-Gaußschen-Framework (AGG) ein, das sofort 3D-Gaußsche aus einem einzelnen Bild erzeugt und somit die Notwendigkeit einer instanzspezifischen Optimierung eliminiert. Durch die Verwendung einer intermediären hybriden Repräsentation zerlegt AGG die Generierung der 3D-Gaußschen Positionen und anderer Erscheinungsattribute für eine gemeinsame Optimierung. Darüber hinaus schlagen wir eine kaskadierte Pipeline vor, die zunächst eine grobe Repräsentation der 3D-Daten erzeugt und diese anschließend mit einem 3D-Gaußschen Super-Resolution-Modul hochskaliert. Unsere Methode wird gegen bestehende optimierungsbasierte 3D-Gaußschen-Frameworks und sampling-basierte Pipelines, die andere 3D-Repräsentationen verwenden, evaluiert, wobei AGG sowohl qualitativ als auch quantitativ wettbewerbsfähige Generierungsfähigkeiten zeigt und dabei um mehrere Größenordnungen schneller ist. Projektseite: https://ir1d.github.io/AGG/
In diesem technischen Bericht präsentieren wir TeleChat, eine Sammlung von großen Sprachmodellen (LLMs) mit 3 Milliarden, 7 Milliarden und 12 Milliarden Parametern. Es umfasst vortrainierte Sprachmodelle sowie feinabgestimmte Chat-Modelle, die an menschliche Präferenzen angepasst sind. TeleChat wird zunächst auf einem umfangreichen Korpus vortrainiert, der eine vielfältige Sammlung von Texten sowohl in englischer als auch in chinesischer Sprache enthält, darunter Billionen von Tokens. Anschließend wird das Modell feinabgestimmt, um es an menschliche Präferenzen anzupassen, wobei wir eine detaillierte Methodik beschreiben. Wir bewerten die Leistung von TeleChat in verschiedenen Aufgabenbereichen, darunter Sprachverständnis, Mathematik, logisches Denken, Code-Generierung und wissensbasierte Fragebeantwortung. Unsere Ergebnisse zeigen, dass TeleChat eine vergleichbare Leistung zu anderen Open-Source-Modellen ähnlicher Größe über eine breite Palette von öffentlichen Benchmarks erreicht. Um zukünftige Forschung und Anwendungen, die LLMs nutzen, zu unterstützen, veröffentlichen wir die feinabgestimmten Modell-Checkpoints der 7B- und 12B-Varianten von TeleChat, zusammen mit Code und einem Teil unserer Vortrainingsdaten, für die öffentliche Gemeinschaft.