papers.title

papers.description

MobileLLM: Optimierung von Sprachmodellen mit weniger als einer Milliarde Parametern für On-Device-Anwendungsfälle
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

Feb 22

ByZechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian, Igor Fedorov, Yunyang Xiong, Ernie Chang, Yangyang Shi, Raghuraman Krishnamoorthi, Liangzhen Lai, Vikas Chandra

134

Dieses Papier befasst sich mit dem wachsenden Bedarf an effizienten großen Sprachmodellen (LLMs) auf mobilen Geräten, der durch steigende Cloud-Kosten und Latenzprobleme vorangetrieben wird. Wir konzentrieren uns auf die Entwicklung hochwertiger LLMs mit weniger als einer Milliarde Parametern, einer praktischen Wahl für den mobilen Einsatz. Im Gegensatz zur vorherrschenden Ansicht, die die entscheidende Rolle von Daten und Parameteranzahl für die Modellqualität betont, unterstreicht unsere Untersuchung die Bedeutung der Modellarchitektur für LLMs im Sub-Milliarden-Maßstab. Durch die Nutzung tiefer und schmaler Architekturen in Kombination mit Embedding-Sharing und gruppierten Abfrage-Aufmerksamkeitsmechanismen etablieren wir ein robustes Basisnetzwerk, das als MobileLLM bezeichnet wird und eine bemerkenswerte Genauigkeitssteigerung von 2,7 %/4,3 % gegenüber den vorherigen 125M/350M State-of-the-Art-Modellen erzielt. Zusätzlich schlagen wir einen sofortigen blockweisen Gewichteteilungsansatz vor, der die Modellgröße nicht erhöht und nur einen geringen Latenzaufwand verursacht. Die daraus resultierenden Modelle, bezeichnet als MobileLLM-LS, zeigen eine weitere Genauigkeitsverbesserung von 0,7 %/0,8 % gegenüber MobileLLM 125M/350M. Darüber hinaus zeigt die MobileLLM-Modellfamilie im Vergleich zu früheren Sub-Milliarden-Modellen signifikante Verbesserungen bei Chat-Benchmarks und demonstriert eine nahezu korrekte Leistung im Vergleich zu LLaMA-v2 7B bei API-Aufrufaufgaben, was die Fähigkeit kleiner Modelle für gängige On-Device-Anwendungsfälle unterstreicht.

Genie: Generative Interaktive Umgebungen
Genie: Generative Interactive Environments

Feb 23

ByJake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes, Matthew Lai, Aditi Mavalankar, Richie Steigerwald, Chris Apps, Yusuf Aytar, Sarah Bechtle, Feryal Behbahani, Stephanie Chan, Nicolas Heess, Lucy Gonzalez, Simon Osindero, Sherjil Ozair, Scott Reed, Jingwei Zhang, Konrad Zolna, Jeff Clune, Nando de Freitas, Satinder Singh, Tim Rocktäschel

Wir stellen Genie vor, die erste generative interaktive Umgebung, die in einem unüberwachten Verfahren aus unmarkierten Internetvideos trainiert wurde. Das Modell kann dazu aufgefordert werden, eine endlose Vielfalt von handlungssteuerbaren virtuellen Welten zu erzeugen, die durch Text, synthetische Bilder, Fotografien und sogar Skizzen beschrieben werden. Mit 11 Milliarden Parametern kann Genie als ein grundlegendes Weltmodell betrachtet werden. Es besteht aus einem raumzeitlichen Video-Tokenizer, einem autoregressiven Dynamikmodell und einem einfachen und skalierbaren latenten Aktionsmodell. Genie ermöglicht es Benutzern, in den generierten Umgebungen auf Einzelbildbasis zu agieren, obwohl das Training ohne jegliche Ground-Truth-Aktionslabels oder andere domänenspezifische Anforderungen erfolgt, die typischerweise in der Weltmodell-Literatur zu finden sind. Darüber hinaus erleichtert der daraus resultierende gelernte latente Aktionsraum das Training von Agenten, um Verhaltensweisen aus unbekannten Videos nachzuahmen, was den Weg für die Ausbildung zukünftiger Generalisten-Agenten ebnet.

Wasserzeichen machen Sprachmodelle radioaktiv.
Watermarking Makes Language Models Radioactive

Feb 22

ByTom Sander, Pierre Fernandez, Alain Durmus, Matthijs Douze, Teddy Furon

Diese Arbeit untersucht die Radioaktivität von LLM-generierten Texten, d.h. ob es möglich ist, festzustellen, dass solche Eingaben als Trainingsdaten verwendet wurden. Konventionelle Methoden wie Membership Inference können diese Erkennung mit einer gewissen Genauigkeit durchführen. Wir zeigen, dass mit Wasserzeichen versehene Trainingsdaten Spuren hinterlassen, die einfacher zu erkennen und viel zuverlässiger sind als Membership Inference. Wir verbinden das Kontaminationsniveau mit der Robustheit des Wasserzeichens, seinem Anteil im Trainingsdatensatz und dem Feinabstimmungsprozess. Insbesondere demonstrieren wir, dass das Training auf synthetischen Anweisungen mit Wasserzeichen mit hoher Zuverlässigkeit (p-Wert < 1e-5) erkannt werden kann, selbst wenn nur 5 % des Trainings textes mit Wasserzeichen versehen sind. Somit ermöglicht die LLM-Wasserzeichengebung, die ursprünglich zur Erkennung von maschinell generierten Texten entwickelt wurde, die einfache Identifizierung, ob die Ausgaben eines mit Wasserzeichen versehenen LLMs zur Feinabstimmung eines anderen LLMs verwendet wurden.

Teilen oder Erobern? Welchen Teil Ihres großen Sprachmodells sollten Sie destillieren?
Divide-or-Conquer? Which Part Should You Distill Your LLM?

Feb 22

ByZhuofeng Wu, He Bai, Aonan Zhang, Jiatao Gu, VG Vinod Vydiswaran, Navdeep Jaitly, Yizhe Zhang

Aktuelle Methoden haben gezeigt, dass Large Language Models (LLMs) Aufgaben des logischen Denkens besser lösen können, wenn sie dazu angeregt werden, zunächst Teilaufgaben der Hauptaufgabe zu bearbeiten. In diesem Artikel entwickeln wir eine ähnliche Strategie, die Denkaufgaben in eine Problemzerlegungsphase und eine Problemlösungsphase unterteilt, und zeigen, dass diese Strategie eine einstufige Lösung übertreffen kann. Weiterhin stellen wir die Hypothese auf, dass die Zerlegung leichter in ein kleineres Modell destilliert werden kann als die Problemlösung, da letztere umfangreiches Domänenwissen erfordert, während erstere lediglich das Erlernen allgemeiner Problemlösungsstrategien benötigt. Wir schlagen Methoden vor, um diese beiden Fähigkeiten zu destillieren, und bewerten deren Auswirkungen auf die Denkergebnisse und die Inferenzkosten. Wir stellen fest, dass wir die Problemzerlegungsphase destillieren können und gleichzeitig eine gute Generalisierung über Aufgaben, Datensätze und Modelle hinweg erreichen. Es ist jedoch schwieriger, die Problemlösungsfähigkeit zu destillieren, ohne an Leistung einzubüßen, und das resultierende destillierte Modell hat Schwierigkeiten mit der Generalisierung. Diese Ergebnisse deuten darauf hin, dass wir durch die Verwendung kleinerer, destillierter Problemzerlegungsmodelle in Kombination mit Problemlösungs-LLMs logisches Denken mit kosteneffizienter Inferenz und lokaler Anpassung erreichen können.

GPTVQ: Der Segen der Dimensionalität für die Quantisierung von LLMs
GPTVQ: The Blessing of Dimensionality for LLM Quantization

Feb 23

ByMart van Baalen, Andrey Kuzmin, Markus Nagel, Peter Couperus, Cedric Bastoul, Eric Mahurin, Tijmen Blankevoort, Paul Whatmough

In dieser Arbeit zeigen wir, dass der Kompromiss zwischen Größe und Genauigkeit bei der Quantisierung neuronaler Netzwerke durch die Erhöhung der Quantisierungsdimensionalität erheblich verbessert werden kann. Wir stellen die GPTVQ-Methode vor, ein neues schnelles Verfahren für die Post-Training-Vektorquantisierung (VQ), das gut auf Large Language Models (LLMs) skaliert. Unsere Methode verknüpft die Quantisierung einer oder mehrerer Spalten mit Aktualisierungen der verbleibenden nicht quantisierten Gewichte unter Verwendung von Informationen aus der Hesse-Matrix des pro Schicht berechneten mittleren quadratischen Fehlers (MSE) der Ausgangsrekonstruktion. Die Quantisierungscodebücher werden mit einer effizienten datenbewussten Version des EM-Algorithmus initialisiert. Anschließend werden die Codebücher aktualisiert und durch die Verwendung von Integer-Quantisierung und SVD-basierter Kompression weiter komprimiert. GPTVQ setzt einen neuen Maßstab für den Kompromiss zwischen Größe und Genauigkeit bei einer Vielzahl von LLMs wie Llama-v2 und Mistral. Darüber hinaus ist unsere Methode effizient: Auf einer einzelnen H100 dauert die Verarbeitung eines Llamav2-70B-Modells je nach Quantisierungseinstellung zwischen 3 und 11 Stunden. Schließlich zeigen wir mit On-Device-Zeitmessungen für die VQ-Dekompression auf einer mobilen CPU, dass VQ im Vergleich zur Verwendung eines 4-Bit-Integer-Formats zu einer verbesserten Latenz führt.

ChunkAttention: Effiziente Selbstaufmerksamkeit mit präfixbewusstem KV-Cache und zweiphasiger Partitionierung
ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition

Feb 23

ByLu Ye, Ze Tao, Yong Huang, Yang Li

Self-Attention ist eine wesentliche Komponente großer Sprachmodelle (LLMs), aber gleichzeitig eine bedeutende Quelle für Inferenzlatenz bei langen Sequenzen. In Multi-Tenant-LLM-Szenarien können die Rechen- und Speicheroperationskosten der Self-Attention optimiert werden, indem die Wahrscheinlichkeit genutzt wird, dass mehrere LLM-Anfragen gemeinsame Systemprompts in ihren Präfixen aufweisen. In diesem Artikel stellen wir ChunkAttention vor, ein präfixbewusstes Self-Attention-Modul, das übereinstimmende Prompt-Präfixe über mehrere Anfragen hinweg erkennen und ihre Schlüssel/Wert-Tensoren im Speicher zur Laufzeit teilen kann, um die Speichernutzung des KV-Caches zu verbessern. Dies wird erreicht, indem monolithische Schlüssel/Wert-Tensoren in kleinere Chunks unterteilt und in einen zusätzlichen Präfixbaum strukturiert werden. Folglich entwerfen wir auf Basis des präfixbaumbasierten KV-Caches einen effizienten Self-Attention-Kernel, in dem ein zweiphasiges Partitionierungsalgorithmus implementiert ist, um die Datenlokalität während der Self-Attention-Berechnung bei vorhandenen gemeinsamen Systemprompts zu verbessern. Experimente zeigen, dass ChunkAttention den Self-Attention-Kernel im Vergleich zur state-of-the-art-Implementierung um das 3,2- bis 4,8-fache beschleunigen kann, wobei die Länge des Systemprompts zwischen 1024 und 4096 liegt.

Gleiche Aufgabe, mehr Tokens: Der Einfluss der Eingabelänge auf die Argumentationsleistung von großen Sprachmodellen
Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models

Feb 19

ByMosh Levy, Alon Jacoby, Yoav Goldberg

Diese Arbeit untersucht die Auswirkungen der Erweiterung von Eingabelängen auf die Fähigkeiten von Large Language Models (LLMs). Trotz der Fortschritte von LLMs in jüngster Zeit ist ihre Leistungskonsistenz über verschiedene Eingabelängen hinweg nicht gut verstanden. Wir untersuchen diesen Aspekt durch die Einführung eines neuartigen QA-Reasoning-Frameworks, das speziell entwickelt wurde, um die Auswirkungen der Eingabelänge zu bewerten. Wir isolieren den Effekt der Eingabelänge durch die Verwendung mehrerer Versionen derselben Probe, die jeweils mit Padding unterschiedlicher Längen, Typen und Positionen erweitert werden. Unsere Ergebnisse zeigen eine deutliche Verschlechterung der Reasoning-Leistung von LLMs bei viel kürzeren Eingabelängen als ihrem technischen Maximum. Wir zeigen, dass der Verschlechterungstrend in jeder Version unseres Datensatzes auftritt, wenn auch mit unterschiedlicher Intensität. Darüber hinaus zeigt unsere Studie, dass traditionelle Perplexity-Metriken nicht mit der Leistung von LLMs in langen Eingabe-Reasoning-Aufgaben korrelieren. Wir analysieren unsere Ergebnisse und identifizieren Fehlermodi, die als nützliche Leitfäden für zukünftige Forschung dienen können und potenziell Strategien zur Bewältigung der beobachteten Einschränkungen von LLMs informieren.

AgentOhana: Entwurf einer einheitlichen Daten- und Trainingspipeline für effektives Agentenlernen
AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning

Feb 23

ByJianguo Zhang, Tian Lan, Rithesh Murthy, Zhiwei Liu, Weiran Yao, Juntao Tan, Thai Hoang, Liangwei Yang, Yihao Feng, Zuxin Liu, Tulika Awalgaonkar, Juan Carlos Niebles, Silvio Savarese, Shelby Heinecke, Huan Wang, Caiming Xiong

Autonome Agenten, die durch große Sprachmodelle (LLMs) angetrieben werden, haben erhebliche Forschungsaufmerksamkeit erlangt. Die vollständige Ausschöpfung des Potenzials von LLMs für agentenbasierte Aufgaben birgt jedoch inhärente Herausforderungen aufgrund der heterogenen Natur verschiedener Datenquellen, die mehrstufige Trajektorien aufweisen. In diesem Artikel stellen wir AgentOhana als umfassende Lösung zur Bewältigung dieser Herausforderungen vor. AgentOhana aggregiert Agententrajektorien aus unterschiedlichen Umgebungen, die eine Vielzahl von Szenarien abdecken. Es standardisiert und vereinheitlicht diese Trajektorien sorgfältig in einem konsistenten Format, wodurch die Erstellung eines generischen Datenladers optimiert für das Agententraining vereinfacht wird. Durch die Datenvereinheitlichung gewährleistet unsere Trainingspipeline ein Gleichgewicht zwischen verschiedenen Datenquellen und bewahrt unabhängige Zufälligkeit über Geräte hinweg während der Datenpartitionierung und des Modelltrainings. Zusätzlich präsentieren wir xLAM-v0.1, ein großes Aktionsmodell, das speziell für KI-Agenten entwickelt wurde und außergewöhnliche Leistung in verschiedenen Benchmarks zeigt.

API-BLEND: Ein umfassendes Korpus für das Training und Benchmarking von API-LLMs
API-BLEND: A Comprehensive Corpora for Training and Benchmarking API LLMs

Feb 23

ByKinjal Basu, Ibrahim Abdelaziz, Subhajit Chaudhury, Soham Dan, Maxwell Crouse, Asim Munawar, Sadhana Kumaravel, Vinod Muthusamy, Pavan Kapanipathi, Luis A. Lastras

Es besteht ein zunehmender Bedarf, dass Large Language Models (LLMs) effektiv Werkzeuge und externe Application Programming Interfaces (APIs) nutzen können, um Aufgaben zu planen und abzuschließen. Daher gibt es großes Interesse an Methoden, die ausreichende Mengen an Trainings- und Testdaten beschaffen können, die Aufrufe von Werkzeugen/APIs beinhalten. Zwei Forschungsrichtungen haben sich als vorherrschende Strategien zur Bewältigung dieser Herausforderung herauskristallisiert. Die erste konzentriert sich auf Techniken zur synthetischen Datengenerierung, während die zweite die Kuratierung von aufgabennahen Datensätzen umfasst, die in API-/Werkzeug-basierte Aufgaben transformiert werden können. In diesem Artikel konzentrieren wir uns auf die Aufgabe, bestehende Datensätze zu identifizieren, zu kuratieren und zu transformieren, und führen dabei API-BLEND ein, ein großes Korpus für das Training und die systematische Testung von werkzeuggestützten LLMs. Die Datensätze ahmen reale Szenarien nach, die API-Aufgaben wie API-/Werkzeugerkennung, Slot-Filling und die Sequenzierung der erkannten APIs beinhalten. Wir demonstrieren den Nutzen des API-BLEND-Datensatzes sowohl für Trainings- als auch für Benchmarking-Zwecke.

Nahtlose menschliche Bewegungszusammensetzung mit gemischten Positionskodierungen
Seamless Human Motion Composition with Blended Positional Encodings

Feb 23

ByGerman Barquero, Sergio Escalera, Cristina Palmero

Die bedingte Erzeugung menschlicher Bewegungen ist ein wichtiges Thema mit zahlreichen Anwendungen in den Bereichen Virtual Reality, Gaming und Robotik. Während sich frühere Arbeiten auf die Erzeugung von Bewegungen konzentriert haben, die durch Text, Musik oder Szenen gesteuert werden, führen diese typischerweise zu isolierten Bewegungen, die auf kurze Zeiträume beschränkt sind. Stattdessen befassen wir uns mit der Erzeugung langer, kontinuierlicher Sequenzen, die durch eine Reihe variierender Textbeschreibungen gesteuert werden. In diesem Zusammenhang stellen wir FlowMDM vor, das erste diffusionsbasierte Modell, das nahtlose Human Motion Compositions (HMC) ohne jegliche Nachbearbeitung oder redundante Denoising-Schritte erzeugt. Hierfür führen wir die Blended Positional Encodings ein, eine Technik, die sowohl absolute als auch relative Positionskodierungen in der Denoising-Kette nutzt. Genauer gesagt wird die globale Bewegungs-Kohärenz in der absoluten Phase wiederhergestellt, während glatte und realistische Übergänge in der relativen Phase aufgebaut werden. Dadurch erzielen wir state-of-the-art Ergebnisse in Bezug auf Genauigkeit, Realismus und Glätte auf den Datensätzen Babel und HumanML3D. FlowMDM zeichnet sich besonders aus, wenn es mit nur einer einzigen Beschreibung pro Bewegungssequenz trainiert wird, dank seiner Pose-Centric Cross-ATtention, die es robust gegenüber variierenden Textbeschreibungen zur Inferenzzeit macht. Schließlich schlagen wir zur Überwindung der Grenzen bestehender HMC-Metriken zwei neue Metriken vor: den Peak Jerk und die Area Under the Jerk, um abrupte Übergänge zu erkennen.

papers.title

papers.description

MobileLLM: Optimierung von Sprachmodellen mit weniger als einer Milliarde Parametern für On-Device-Anwendungsfälle
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

Feb 22

ByZechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian, Igor Fedorov, Yunyang Xiong, Ernie Chang, Yangyang Shi, Raghuraman Krishnamoorthi, Liangzhen Lai, Vikas Chandra

134

Genie: Generative Interaktive Umgebungen
Genie: Generative Interactive Environments

Feb 23

Wasserzeichen machen Sprachmodelle radioaktiv.
Watermarking Makes Language Models Radioactive

Feb 22

ByTom Sander, Pierre Fernandez, Alain Durmus, Matthijs Douze, Teddy Furon

Teilen oder Erobern? Welchen Teil Ihres großen Sprachmodells sollten Sie destillieren?
Divide-or-Conquer? Which Part Should You Distill Your LLM?

Feb 22

ByZhuofeng Wu, He Bai, Aonan Zhang, Jiatao Gu, VG Vinod Vydiswaran, Navdeep Jaitly, Yizhe Zhang

GPTVQ: Der Segen der Dimensionalität für die Quantisierung von LLMs
GPTVQ: The Blessing of Dimensionality for LLM Quantization

Feb 23

ByMart van Baalen, Andrey Kuzmin, Markus Nagel, Peter Couperus, Cedric Bastoul, Eric Mahurin, Tijmen Blankevoort, Paul Whatmough

ChunkAttention: Effiziente Selbstaufmerksamkeit mit präfixbewusstem KV-Cache und zweiphasiger Partitionierung
ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition

Feb 23

ByLu Ye, Ze Tao, Yong Huang, Yang Li

Gleiche Aufgabe, mehr Tokens: Der Einfluss der Eingabelänge auf die Argumentationsleistung von großen Sprachmodellen
Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models

Feb 19

ByMosh Levy, Alon Jacoby, Yoav Goldberg

AgentOhana: Entwurf einer einheitlichen Daten- und Trainingspipeline für effektives Agentenlernen
AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning

Feb 23

API-BLEND: Ein umfassendes Korpus für das Training und Benchmarking von API-LLMs
API-BLEND: A Comprehensive Corpora for Training and Benchmarking API LLMs

Feb 23

ByKinjal Basu, Ibrahim Abdelaziz, Subhajit Chaudhury, Soham Dan, Maxwell Crouse, Asim Munawar, Sadhana Kumaravel, Vinod Muthusamy, Pavan Kapanipathi, Luis A. Lastras

Nahtlose menschliche Bewegungszusammensetzung mit gemischten Positionskodierungen
Seamless Human Motion Composition with Blended Positional Encodings

Feb 23

ByGerman Barquero, Sergio Escalera, Cristina Palmero