Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Reproduzierbarkeit und Transparenz großer Sprachmodelle sind entscheidend für die Förderung offener Forschung, die Gewährleistung der Vertrauenswürdigkeit von Ergebnissen und die Ermöglichung von Untersuchungen zu Daten- und Modellverzerrungen sowie potenziellen Risiken. Zu diesem Zweck veröffentlichen wir OpenELM, ein hochmodernes offenes Sprachmodell. OpenELM verwendet eine schichtweise Skalierungsstrategie, um Parameter effizient innerhalb jeder Schicht des Transformer-Modells zuzuweisen, was zu einer verbesserten Genauigkeit führt. Mit einem Parameterbudget von etwa einer Milliarde Parametern weist OpenELM beispielsweise eine Verbesserung der Genauigkeit um 2,36% im Vergleich zu OLMo auf und benötigt dabei die Hälfte der Vor-Trainings-Token. Im Gegensatz zu früheren Praktiken, die nur Modellgewichte und Inferenzcode bereitstellen und auf privaten Datensätzen vortrainieren, umfasst unsere Veröffentlichung das vollständige Framework für das Training und die Bewertung des Sprachmodells an öffentlich verfügbaren Datensätzen, einschließlich Trainingsprotokollen, mehrerer Kontrollpunkte und Vor-Trainingskonfigurationen. Wir veröffentlichen auch Code zur Konvertierung von Modellen in die MLX-Bibliothek für Inferenz und Feinabstimmung auf Apple-Geräten. Diese umfassende Veröffentlichung zielt darauf ab, die offene Forschungsgemeinschaft zu stärken und zu unterstützen und den Weg für zukünftige offene Forschungsvorhaben zu ebnen. Unser Quellcode zusammen mit vorab trainierten Modellgewichten und Trainingsrezepten ist unter https://github.com/apple/corenet verfügbar. Darüber hinaus können \model-Modelle auf HuggingFace unter https://huggingface.co/apple/OpenELM gefunden werden.
Sparse Mixtures of Experts (SMoE) skaliert die Modellkapazität, ohne signifikante Zunahmen bei Trainings- und Inferenzkosten zu verursachen, weist jedoch die folgenden zwei Probleme auf: (1) Geringe Expertenaktivierung, bei der nur eine kleine Teilmenge von Experten für die Optimierung aktiviert wird. (2) Mangelnde feinkörnige analytische Fähigkeiten für mehrere semantische Konzepte innerhalb einzelner Tokens. Wir schlagen Multi-Head Mixture-of-Experts (MH-MoE) vor, das einen Multi-Head-Mechanismus verwendet, um jedes Token in mehrere Untertokens aufzuteilen. Diese Untertokens werden dann einer vielfältigen Expertengruppe parallel zugewiesen und verarbeitet, um nahtlos wieder in die ursprüngliche Token-Form integriert zu werden. Der Multi-Head-Mechanismus ermöglicht es dem Modell, gemeinsam auf Informationen aus verschiedenen Repräsentationsräumen innerhalb verschiedener Experten zuzugreifen, während er die Expertenaktivierung signifikant verbessert, um so das Kontextverständnis zu vertiefen und Overfitting zu mildern. Darüber hinaus ist unser MH-MoE einfach umzusetzen und entkoppelt sich von anderen SMoE-Optimierungsmethoden, was die Integration mit anderen SMoE-Modellen zur Verbesserung der Leistung erleichtert. Umfangreiche experimentelle Ergebnisse über drei Aufgaben - Englischsprachiges Sprachmodellieren, mehrsprachiges Sprachmodellieren und maskierte Multi-Modalitäts-Modellierungsaufgaben - zeigen die Wirksamkeit von MH-MoE.
In jüngster Zeit wurde der Fortschritt bei der groß angelegten Null-Schuss-Sprachsynthese erheblich durch Sprachmodelle und Diffusionsmodelle vorangetrieben. Der Generierungsprozess beider Methoden ist jedoch langsam und rechenaufwändig. Eine effiziente Sprachsynthese unter Verwendung eines geringeren Rechenbudgets, um eine Qualität auf dem Niveau früherer Arbeiten zu erreichen, bleibt eine bedeutende Herausforderung. In diesem Artikel präsentieren wir FlashSpeech, ein groß angelegtes Null-Schuss-Sprachsynthesesystem mit ungefähr 5\% der Inferenzzeit im Vergleich zu früheren Arbeiten. FlashSpeech basiert auf dem Modell der latenten Konsistenz und verwendet einen neuartigen Ansatz des adversariellen Konsistenztrainings, der ohne die Notwendigkeit eines vorab trainierten Diffusionsmodells als Lehrer von Grund auf trainieren kann. Darüber hinaus verbessert ein neues Prosodiegenerator-Modul die Vielfalt der Prosodie, wodurch der Rhythmus der Sprache natürlicher klingt. Die Generierungsprozesse von FlashSpeech können effizient mit einem oder zwei Abtastschritten erreicht werden, während gleichzeitig eine hohe Audioqualität und hohe Ähnlichkeit mit der Audioeingabe für die Null-Schuss-Sprachgenerierung beibehalten werden. Unsere experimentellen Ergebnisse zeigen die überragende Leistung von FlashSpeech. Insbesondere kann FlashSpeech etwa 20 Mal schneller sein als andere Null-Schuss-Sprachsynthesesysteme und dabei eine vergleichbare Leistung in Bezug auf Sprachqualität und Ähnlichkeit beibehalten. Darüber hinaus zeigt FlashSpeech seine Vielseitigkeit, indem es effizient Aufgaben wie Sprachumwandlung, Sprachbearbeitung und vielfältige Sprachabtastung durchführt. Hörbeispiele finden Sie unter https://flashspeech.github.io/.
Dieser technische Bericht stellt Pegasus-1 vor, ein multimodales Sprachmodell, das auf das Verstehen von Videoinhalten und die Interaktion durch natürliche Sprache spezialisiert ist. Pegasus-1 wurde entwickelt, um die einzigartigen Herausforderungen von Videodaten zu bewältigen, wie die Interpretation von raumzeitlichen Informationen, um eine differenzierte Videoinhaltserfassung über verschiedene Längen hinweg zu bieten. Dieser technische Bericht gibt einen Überblick über die Architektur von Pegasus-1, Trainingsstrategien und seine Leistung in Benchmarks zu Video-Konversation, Zero-Shot-Video-Fragenbeantwortung und Videozusammenfassung. Wir untersuchen auch qualitative Merkmale von Pegasus-1, um seine Fähigkeiten sowie seine Einschränkungen aufzuzeigen und den Lesern einen ausgewogenen Einblick in seinen aktuellen Stand und seine zukünftige Ausrichtung zu bieten.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte bei der Verarbeitung umfangreicher Kontexte erzielt, wobei der Schlüssel-Wert (KV) Cache eine wichtige Rolle bei der Verbesserung ihrer Leistung spielt. Das Wachstum des KV-Caches als Reaktion auf die zunehmende Eingabegröße stellt jedoch Herausforderungen für die Speicher- und Zeiteffizienz dar. Um dieses Problem anzugehen, stellt dieser Artikel SnapKV vor, einen innovativen und feinabstimmungsfreien Ansatz, der die Größe des KV-Caches effizient minimiert, während er dennoch vergleichbare Leistungen in realen Anwendungen erbringt. Wir entdecken, dass jeder Aufmerksamkeitskopf im Modell während der Generierung konsistent auf bestimmte promptbezogene Aufmerksamkeitsmerkmale fokussiert. Gleichzeitig kann dieses robuste Muster aus einem 'Beobachtungs'-Fenster am Ende der Prompts gewonnen werden. Basierend auf dieser Erkenntnis komprimiert SnapKV automatisch KV-Caches, indem es für jeden Aufmerksamkeitskopf gruppierte wichtige KV-Positionen auswählt. Unser Ansatz reduziert signifikant den wachsenden Rechenaufwand und den Speicherbedarf bei der Verarbeitung langer Eingabesequenzen. Speziell erreicht SnapKV eine konsistente Dekodierungsgeschwindigkeit mit einer 3,6-fachen Steigerung der Generierungsgeschwindigkeit und einer 8,2-fachen Verbesserung der Speichereffizienz im Vergleich zur Basislinie bei der Verarbeitung von 16K Tokens. Gleichzeitig erzielt er vergleichbare Leistungen wie Basislinienmodelle über 16 Datensätze langer Sequenzen. Darüber hinaus kann SnapKV mit geringfügigen Änderungen bis zu 380K Kontext-Token auf einer einzelnen A100-80GB GPU unter Verwendung der HuggingFace-Implementierung verarbeiten und zeigt nur einen vernachlässigbaren Genauigkeitsverlust im Needle-in-a-Haystack-Test. Weitere umfassende Studien deuten auf das Potenzial von SnapKV für praktische Anwendungen hin.
Diffusionsmodelle (DMs) haben sich als der modernste generative Modellierungsansatz im visuellen Bereich und darüber hinaus etabliert. Ein entscheidender Nachteil von DMs ist ihre langsame Abtastgeschwindigkeit, die auf vielen aufeinanderfolgenden Funktionsauswertungen durch große neuronale Netzwerke beruht. Das Abtasten von DMs kann als Lösung einer Differentialgleichung durch eine diskretisierte Reihe von Rauschniveaus, bekannt als das Abtastschema, betrachtet werden. Während vergangene Arbeiten hauptsächlich darauf abzielten, effiziente Solver abzuleiten, wurde wenig Aufmerksamkeit darauf verwendet, optimale Abtastpläne zu finden, und die gesamte Literatur stützt sich auf handgefertigte Heuristiken. In dieser Arbeit schlagen wir erstmals einen allgemeinen und prinzipiengeleiteten Ansatz zur Optimierung der Abtastpläne von DMs für hochwertige Ausgaben vor, genannt Align Your Steps. Wir nutzen Methoden aus der stochastischen Analysis und finden optimale Pläne, die spezifisch für verschiedene Solver, trainierte DMs und Datensätze sind. Wir evaluieren unseren neuartigen Ansatz an mehreren Bild-, Video- sowie 2D-Spielzeugdatensynthese-Benchmarks unter Verwendung verschiedener Sampler und stellen fest, dass unsere optimierten Pläne in fast allen Experimenten die bisherigen handgefertigten Pläne übertreffen. Unsere Methode zeigt das ungenutzte Potenzial der Optimierung von Abtastplänen auf, insbesondere im Regime der Synthese mit wenigen Schritten.
Es gibt bereits viele Arbeiten, die die Fähigkeiten der Transformer-Architektur analysiert haben, indem sie ihre Repräsentationskapazität mit formalen Modellen der Berechnung beschreiben. Bisher lag der Fokus jedoch darauf, die Architektur hinsichtlich der Sprachakzeptanz zu analysieren. Wir sind der Meinung, dass dies ein ungeeignetes Problem in der Untersuchung von Sprachmodellen (LMs) ist, die definitionsgemäß Wahrscheinlichkeitsverteilungen über Zeichenfolgen sind. In diesem Artikel konzentrieren wir uns auf die Beziehung zwischen Transformer LMs und n-gram LMs, einer einfachen und historisch relevanten Klasse von Sprachmodellen. Wir zeigen, dass Transformer LMs mit den harten oder spärlichen Aufmerksamkeitsmechanismen jeden n-gram LM genau darstellen können, was uns eine konkrete untere Grenze für ihre probabilistische Repräsentationskapazität liefert. Dies stellt einen ersten Schritt dar, um die Mechanismen zu verstehen, die Transformer LMs verwenden können, um Wahrscheinlichkeitsverteilungen über Zeichenfolgen darzustellen.