Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Dieses Papier befasst sich mit dem wachsenden Bedarf an effizienten großen Sprachmodellen (LLMs) auf mobilen Geräten, der durch steigende Cloud-Kosten und Latenzprobleme vorangetrieben wird. Wir konzentrieren uns auf die Entwicklung hochwertiger LLMs mit weniger als einer Milliarde Parametern, einer praktischen Wahl für den mobilen Einsatz. Im Gegensatz zur vorherrschenden Ansicht, die die entscheidende Rolle von Daten und Parameteranzahl für die Modellqualität betont, unterstreicht unsere Untersuchung die Bedeutung der Modellarchitektur für LLMs im Sub-Milliarden-Maßstab. Durch die Nutzung tiefer und schmaler Architekturen in Kombination mit Embedding-Sharing und gruppierten Abfrage-Aufmerksamkeitsmechanismen etablieren wir ein robustes Basisnetzwerk, das als MobileLLM bezeichnet wird und eine bemerkenswerte Genauigkeitssteigerung von 2,7 %/4,3 % gegenüber den vorherigen 125M/350M State-of-the-Art-Modellen erzielt. Zusätzlich schlagen wir einen sofortigen blockweisen Gewichteteilungsansatz vor, der die Modellgröße nicht erhöht und nur einen geringen Latenzaufwand verursacht. Die daraus resultierenden Modelle, bezeichnet als MobileLLM-LS, zeigen eine weitere Genauigkeitsverbesserung von 0,7 %/0,8 % gegenüber MobileLLM 125M/350M. Darüber hinaus zeigt die MobileLLM-Modellfamilie im Vergleich zu früheren Sub-Milliarden-Modellen signifikante Verbesserungen bei Chat-Benchmarks und demonstriert eine nahezu korrekte Leistung im Vergleich zu LLaMA-v2 7B bei API-Aufrufaufgaben, was die Fähigkeit kleiner Modelle für gängige On-Device-Anwendungsfälle unterstreicht.
Wir stellen Genie vor, die erste generative interaktive Umgebung, die in einem unüberwachten Verfahren aus unmarkierten Internetvideos trainiert wurde. Das Modell kann dazu aufgefordert werden, eine endlose Vielfalt von handlungssteuerbaren virtuellen Welten zu erzeugen, die durch Text, synthetische Bilder, Fotografien und sogar Skizzen beschrieben werden. Mit 11 Milliarden Parametern kann Genie als ein grundlegendes Weltmodell betrachtet werden. Es besteht aus einem raumzeitlichen Video-Tokenizer, einem autoregressiven Dynamikmodell und einem einfachen und skalierbaren latenten Aktionsmodell. Genie ermöglicht es Benutzern, in den generierten Umgebungen auf Einzelbildbasis zu agieren, obwohl das Training ohne jegliche Ground-Truth-Aktionslabels oder andere domänenspezifische Anforderungen erfolgt, die typischerweise in der Weltmodell-Literatur zu finden sind. Darüber hinaus erleichtert der daraus resultierende gelernte latente Aktionsraum das Training von Agenten, um Verhaltensweisen aus unbekannten Videos nachzuahmen, was den Weg für die Ausbildung zukünftiger Generalisten-Agenten ebnet.
Diese Arbeit untersucht die Radioaktivität von LLM-generierten Texten, d.h. ob es möglich ist, festzustellen, dass solche Eingaben als Trainingsdaten verwendet wurden. Konventionelle Methoden wie Membership Inference können diese Erkennung mit einer gewissen Genauigkeit durchführen. Wir zeigen, dass mit Wasserzeichen versehene Trainingsdaten Spuren hinterlassen, die einfacher zu erkennen und viel zuverlässiger sind als Membership Inference. Wir verbinden das Kontaminationsniveau mit der Robustheit des Wasserzeichens, seinem Anteil im Trainingsdatensatz und dem Feinabstimmungsprozess. Insbesondere demonstrieren wir, dass das Training auf synthetischen Anweisungen mit Wasserzeichen mit hoher Zuverlässigkeit (p-Wert < 1e-5) erkannt werden kann, selbst wenn nur 5 % des Trainings textes mit Wasserzeichen versehen sind. Somit ermöglicht die LLM-Wasserzeichengebung, die ursprünglich zur Erkennung von maschinell generierten Texten entwickelt wurde, die einfache Identifizierung, ob die Ausgaben eines mit Wasserzeichen versehenen LLMs zur Feinabstimmung eines anderen LLMs verwendet wurden.
Aktuelle Methoden haben gezeigt, dass Large Language Models (LLMs) Aufgaben des logischen Denkens besser lösen können, wenn sie dazu angeregt werden, zunächst Teilaufgaben der Hauptaufgabe zu bearbeiten. In diesem Artikel entwickeln wir eine ähnliche Strategie, die Denkaufgaben in eine Problemzerlegungsphase und eine Problemlösungsphase unterteilt, und zeigen, dass diese Strategie eine einstufige Lösung übertreffen kann. Weiterhin stellen wir die Hypothese auf, dass die Zerlegung leichter in ein kleineres Modell destilliert werden kann als die Problemlösung, da letztere umfangreiches Domänenwissen erfordert, während erstere lediglich das Erlernen allgemeiner Problemlösungsstrategien benötigt. Wir schlagen Methoden vor, um diese beiden Fähigkeiten zu destillieren, und bewerten deren Auswirkungen auf die Denkergebnisse und die Inferenzkosten. Wir stellen fest, dass wir die Problemzerlegungsphase destillieren können und gleichzeitig eine gute Generalisierung über Aufgaben, Datensätze und Modelle hinweg erreichen. Es ist jedoch schwieriger, die Problemlösungsfähigkeit zu destillieren, ohne an Leistung einzubüßen, und das resultierende destillierte Modell hat Schwierigkeiten mit der Generalisierung. Diese Ergebnisse deuten darauf hin, dass wir durch die Verwendung kleinerer, destillierter Problemzerlegungsmodelle in Kombination mit Problemlösungs-LLMs logisches Denken mit kosteneffizienter Inferenz und lokaler Anpassung erreichen können.
In dieser Arbeit zeigen wir, dass der Kompromiss zwischen Größe und Genauigkeit bei der Quantisierung neuronaler Netzwerke durch die Erhöhung der Quantisierungsdimensionalität erheblich verbessert werden kann. Wir stellen die GPTVQ-Methode vor, ein neues schnelles Verfahren für die Post-Training-Vektorquantisierung (VQ), das gut auf Large Language Models (LLMs) skaliert. Unsere Methode verknüpft die Quantisierung einer oder mehrerer Spalten mit Aktualisierungen der verbleibenden nicht quantisierten Gewichte unter Verwendung von Informationen aus der Hesse-Matrix des pro Schicht berechneten mittleren quadratischen Fehlers (MSE) der Ausgangsrekonstruktion. Die Quantisierungscodebücher werden mit einer effizienten datenbewussten Version des EM-Algorithmus initialisiert. Anschließend werden die Codebücher aktualisiert und durch die Verwendung von Integer-Quantisierung und SVD-basierter Kompression weiter komprimiert. GPTVQ setzt einen neuen Maßstab für den Kompromiss zwischen Größe und Genauigkeit bei einer Vielzahl von LLMs wie Llama-v2 und Mistral. Darüber hinaus ist unsere Methode effizient: Auf einer einzelnen H100 dauert die Verarbeitung eines Llamav2-70B-Modells je nach Quantisierungseinstellung zwischen 3 und 11 Stunden. Schließlich zeigen wir mit On-Device-Zeitmessungen für die VQ-Dekompression auf einer mobilen CPU, dass VQ im Vergleich zur Verwendung eines 4-Bit-Integer-Formats zu einer verbesserten Latenz führt.
Self-Attention ist eine wesentliche Komponente großer Sprachmodelle (LLMs), aber gleichzeitig eine bedeutende Quelle für Inferenzlatenz bei langen Sequenzen. In Multi-Tenant-LLM-Szenarien können die Rechen- und Speicheroperationskosten der Self-Attention optimiert werden, indem die Wahrscheinlichkeit genutzt wird, dass mehrere LLM-Anfragen gemeinsame Systemprompts in ihren Präfixen aufweisen. In diesem Artikel stellen wir ChunkAttention vor, ein präfixbewusstes Self-Attention-Modul, das übereinstimmende Prompt-Präfixe über mehrere Anfragen hinweg erkennen und ihre Schlüssel/Wert-Tensoren im Speicher zur Laufzeit teilen kann, um die Speichernutzung des KV-Caches zu verbessern. Dies wird erreicht, indem monolithische Schlüssel/Wert-Tensoren in kleinere Chunks unterteilt und in einen zusätzlichen Präfixbaum strukturiert werden. Folglich entwerfen wir auf Basis des präfixbaumbasierten KV-Caches einen effizienten Self-Attention-Kernel, in dem ein zweiphasiges Partitionierungsalgorithmus implementiert ist, um die Datenlokalität während der Self-Attention-Berechnung bei vorhandenen gemeinsamen Systemprompts zu verbessern. Experimente zeigen, dass ChunkAttention den Self-Attention-Kernel im Vergleich zur state-of-the-art-Implementierung um das 3,2- bis 4,8-fache beschleunigen kann, wobei die Länge des Systemprompts zwischen 1024 und 4096 liegt.
Diese Arbeit untersucht die Auswirkungen der Erweiterung von Eingabelängen auf die Fähigkeiten von Large Language Models (LLMs). Trotz der Fortschritte von LLMs in jüngster Zeit ist ihre Leistungskonsistenz über verschiedene Eingabelängen hinweg nicht gut verstanden. Wir untersuchen diesen Aspekt durch die Einführung eines neuartigen QA-Reasoning-Frameworks, das speziell entwickelt wurde, um die Auswirkungen der Eingabelänge zu bewerten. Wir isolieren den Effekt der Eingabelänge durch die Verwendung mehrerer Versionen derselben Probe, die jeweils mit Padding unterschiedlicher Längen, Typen und Positionen erweitert werden. Unsere Ergebnisse zeigen eine deutliche Verschlechterung der Reasoning-Leistung von LLMs bei viel kürzeren Eingabelängen als ihrem technischen Maximum. Wir zeigen, dass der Verschlechterungstrend in jeder Version unseres Datensatzes auftritt, wenn auch mit unterschiedlicher Intensität. Darüber hinaus zeigt unsere Studie, dass traditionelle Perplexity-Metriken nicht mit der Leistung von LLMs in langen Eingabe-Reasoning-Aufgaben korrelieren. Wir analysieren unsere Ergebnisse und identifizieren Fehlermodi, die als nützliche Leitfäden für zukünftige Forschung dienen können und potenziell Strategien zur Bewältigung der beobachteten Einschränkungen von LLMs informieren.
Autonome Agenten, die durch große Sprachmodelle (LLMs) angetrieben werden, haben erhebliche Forschungsaufmerksamkeit erlangt. Die vollständige Ausschöpfung des Potenzials von LLMs für agentenbasierte Aufgaben birgt jedoch inhärente Herausforderungen aufgrund der heterogenen Natur verschiedener Datenquellen, die mehrstufige Trajektorien aufweisen. In diesem Artikel stellen wir AgentOhana als umfassende Lösung zur Bewältigung dieser Herausforderungen vor. AgentOhana aggregiert Agententrajektorien aus unterschiedlichen Umgebungen, die eine Vielzahl von Szenarien abdecken. Es standardisiert und vereinheitlicht diese Trajektorien sorgfältig in einem konsistenten Format, wodurch die Erstellung eines generischen Datenladers optimiert für das Agententraining vereinfacht wird. Durch die Datenvereinheitlichung gewährleistet unsere Trainingspipeline ein Gleichgewicht zwischen verschiedenen Datenquellen und bewahrt unabhängige Zufälligkeit über Geräte hinweg während der Datenpartitionierung und des Modelltrainings. Zusätzlich präsentieren wir xLAM-v0.1, ein großes Aktionsmodell, das speziell für KI-Agenten entwickelt wurde und außergewöhnliche Leistung in verschiedenen Benchmarks zeigt.
Die bedingte Erzeugung menschlicher Bewegungen ist ein wichtiges Thema mit zahlreichen Anwendungen in den Bereichen Virtual Reality, Gaming und Robotik. Während sich frühere Arbeiten auf die Erzeugung von Bewegungen konzentriert haben, die durch Text, Musik oder Szenen gesteuert werden, führen diese typischerweise zu isolierten Bewegungen, die auf kurze Zeiträume beschränkt sind. Stattdessen befassen wir uns mit der Erzeugung langer, kontinuierlicher Sequenzen, die durch eine Reihe variierender Textbeschreibungen gesteuert werden. In diesem Zusammenhang stellen wir FlowMDM vor, das erste diffusionsbasierte Modell, das nahtlose Human Motion Compositions (HMC) ohne jegliche Nachbearbeitung oder redundante Denoising-Schritte erzeugt. Hierfür führen wir die Blended Positional Encodings ein, eine Technik, die sowohl absolute als auch relative Positionskodierungen in der Denoising-Kette nutzt. Genauer gesagt wird die globale Bewegungs-Kohärenz in der absoluten Phase wiederhergestellt, während glatte und realistische Übergänge in der relativen Phase aufgebaut werden. Dadurch erzielen wir state-of-the-art Ergebnisse in Bezug auf Genauigkeit, Realismus und Glätte auf den Datensätzen Babel und HumanML3D. FlowMDM zeichnet sich besonders aus, wenn es mit nur einer einzigen Beschreibung pro Bewegungssequenz trainiert wird, dank seiner Pose-Centric Cross-ATtention, die es robust gegenüber variierenden Textbeschreibungen zur Inferenzzeit macht. Schließlich schlagen wir zur Überwindung der Grenzen bestehender HMC-Metriken zwei neue Metriken vor: den Peak Jerk und die Area Under the Jerk, um abrupte Übergänge zu erkennen.
Es besteht ein zunehmender Bedarf, dass Large Language Models (LLMs) effektiv Werkzeuge und externe Application Programming Interfaces (APIs) nutzen können, um Aufgaben zu planen und abzuschließen. Daher gibt es großes Interesse an Methoden, die ausreichende Mengen an Trainings- und Testdaten beschaffen können, die Aufrufe von Werkzeugen/APIs beinhalten. Zwei Forschungsrichtungen haben sich als vorherrschende Strategien zur Bewältigung dieser Herausforderung herauskristallisiert. Die erste konzentriert sich auf Techniken zur synthetischen Datengenerierung, während die zweite die Kuratierung von aufgabennahen Datensätzen umfasst, die in API-/Werkzeug-basierte Aufgaben transformiert werden können. In diesem Artikel konzentrieren wir uns auf die Aufgabe, bestehende Datensätze zu identifizieren, zu kuratieren und zu transformieren, und führen dabei API-BLEND ein, ein großes Korpus für das Training und die systematische Testung von werkzeuggestützten LLMs. Die Datensätze ahmen reale Szenarien nach, die API-Aufgaben wie API-/Werkzeugerkennung, Slot-Filling und die Sequenzierung der erkannten APIs beinhalten. Wir demonstrieren den Nutzen des API-BLEND-Datensatzes sowohl für Trainings- als auch für Benchmarking-Zwecke.