HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

11 papers found

StarCoder 2 und The Stack v2: Die nächste Generation
StarCoder 2 and The Stack v2: The Next Generation

Feb 29

ByAnton Lozhkov, Raymond Li, Loubna Ben Allal, Federico Cassano, Joel Lamy-Poirier, Nouamane Tazi, Ao Tang, Dmytro Pykhtar, Jiawei Liu, Yuxiang Wei, Tianyang Liu, Max Tian, Denis Kocetkov, Arthur Zucker, Younes Belkada, Zijian Wang, Qian Liu, Dmitry Abulkhanov, Indraneil Paul, Zhuang Li, Wen-Ding Li, Megan Risdal, Jia Li, Jian Zhu, Terry Yue Zhuo, Evgenii Zheltonozhskii, Nii Osae Osae Dade, Wenhao Yu, Lucas Krauß, Naman Jain, Yixuan Su, Xuanli He, Manan Dey, Edoardo Abati, Yekun Chai, Niklas Muennighoff, Xiangru Tang, Muhtasham Oblokulov, Christopher Akiki, Marc Marone, Chenghao Mou, Mayank Mishra, Alex Gu, Binyuan Hui, Tri Dao, Armel Zebaze, Olivier Dehaene, Nicolas Patry, Canwen Xu, Julian McAuley, Han Hu, Torsten Scholak, Sebastien Paquet, Jennifer Robinson, Carolyn Jane Anderson, Nicolas Chapados, Mostofa Patwary, Nima Tajbakhsh, Yacine Jernite, Carlos Muñoz Ferrandis, Lingming Zhang, Sean Hughes, Thomas Wolf, Arjun Guha, Leandro von Werra, Harm de Vries

148

Das BigCode-Projekt, eine offene wissenschaftliche Zusammenarbeit, die sich auf die verantwortungsvolle Entwicklung von Large Language Models für Code (Code LLMs) konzentriert, stellt StarCoder2 vor. In Partnerschaft mit Software Heritage (SWH) bauen wir The Stack v2 auf der Grundlage des digitalen Gemeinguts ihres Quellcode-Archivs auf. Neben den SWH-Repositories, die 619 Programmiersprachen umfassen, wählen wir sorgfältig andere hochwertige Datenquellen aus, wie GitHub-Pull-Requests, Kaggle-Notebooks und Code-Dokumentationen. Dies führt zu einem Trainingsdatensatz, der 4-mal größer ist als der erste StarCoder-Datensatz. Wir trainieren StarCoder2-Modelle mit 3B, 7B und 15B Parametern auf 3,3 bis 4,3 Billionen Tokens und bewerten sie gründlich anhand eines umfassenden Satzes von Code-LLM-Benchmarks. Wir stellen fest, dass unser kleines Modell, StarCoder2-3B, die meisten anderen Code LLMs ähnlicher Größe auf den meisten Benchmarks übertrifft und auch StarCoderBase-15B übertrifft. Unser großes Modell, StarCoder2-15B, übertrifft andere Modelle vergleichbarer Größe deutlich. Darüber hinaus erreicht es das Niveau von oder übertrifft CodeLlama-34B, ein Modell, das mehr als doppelt so groß ist. Obwohl DeepSeekCoder-33B das leistungsstärkste Modell bei der Code-Vervollständigung für Hochressourcen-Sprachen ist, stellen wir fest, dass StarCoder2-15B es auf Benchmarks für Mathematik und Code-Argumentation sowie bei mehreren Niedrigressourcen-Sprachen übertrifft. Wir stellen die Modellgewichte unter einer OpenRAIL-Lizenz zur Verfügung und gewährleisten vollständige Transparenz bezüglich der Trainingsdaten, indem wir die SoftWare Heritage Persistent IDentifiers (SWHIDs) der Quellcode-Daten veröffentlichen.

Griffin: Kombination von gated linearen Rekurrenzen mit lokalem Attention für effiziente Sprachmodelle
Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

Feb 29

BySoham De, Samuel L. Smith, Anushan Fernando, Aleksandar Botev, George Cristian-Muraru, Albert Gu, Ruba Haroun, Leonard Berrada, Yutian Chen, Srivatsan Srinivasan, Guillaume Desjardins, Arnaud Doucet, David Budden, Yee Whye Teh, Razvan Pascanu, Nando De Freitas, Caglar Gulcehre

Reziduelle neuronale Netze (RNNs) bieten schnelle Inferenz und skalieren effizient auf langen Sequenzen, sind jedoch schwierig zu trainieren und schwer zu skalieren. Wir stellen Hawk vor, ein RNN mit gated linearen Rekurrenzen, und Griffin, ein hybrides Modell, das gated lineare Rekurrenzen mit lokalem Attention-Mechanismus kombiniert. Hawk übertrifft die berichtete Leistung von Mamba bei nachgelagerten Aufgaben, während Griffin die Leistung von Llama-2 erreicht, obwohl es mit über sechsmal weniger Tokens trainiert wurde. Wir zeigen außerdem, dass Griffin auf Sequenzen extrapolieren kann, die deutlich länger sind als die während des Trainings gesehenen. Unsere Modelle erreichen die Hardware-Effizienz von Transformern während des Trainings und bieten während der Inferenz eine geringere Latenz und eine deutlich höhere Durchsatzrate. Wir skalieren Griffin auf bis zu 14 Milliarden Parameter und erläutern, wie unsere Modelle für effizientes verteiltes Training partitioniert werden können.

Jenseits von Sprachmodellen: Byte-Modelle als Simulatoren der digitalen Welt
Beyond Language Models: Byte Models are Digital World Simulators

Feb 29

ByShangda Wu, Xu Tan, Zili Wang, Rui Wang, Xiaobing Li, Maosong Sun

Traditionelles Deep Learning übersieht oft Bytes, die grundlegenden Einheiten der digitalen Welt, in der alle Formen von Informationen und Operationen in binärem Format kodiert und manipuliert werden. Inspiriert vom Erfolg der nächsten Token-Vorhersage in der natürlichen Sprachverarbeitung, stellen wir bGPT vor, ein Modell mit der Vorhersage des nächsten Bytes, um die digitale Welt zu simulieren. bGPT erreicht die Leistung spezialisierter Modelle in verschiedenen Modalitäten, einschließlich Text, Audio und Bildern, und eröffnet neue Möglichkeiten zur Vorhersage, Simulation und Diagnose von Algorithmen oder Hardware-Verhalten. Es hat den Prozess der Konvertierung symbolischer Musikdaten nahezu fehlerfrei nachgebildet und dabei eine niedrige Fehlerrate von 0,0011 Bits pro Byte bei der Umwandlung von ABC-Notation in das MIDI-Format erreicht. Darüber hinaus zeigt bGPT außergewöhnliche Fähigkeiten bei der Simulation von CPU-Verhalten, mit einer Genauigkeit von über 99,99% bei der Ausführung verschiedener Operationen. Durch die Nutzung der nächsten Byte-Vorhersage können Modelle wie bGPT direkt aus umfangreichen binären Daten lernen und die komplexen Muster der digitalen Welt effektiv simulieren.

Panda-70M: Beschriftung von 70 Millionen Videos mit mehreren Cross-Modality-Lehrern
Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers

Feb 29

ByTsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Ekaterina Deyneka, Hsiang-wei Chao, Byung Eun Jeon, Yuwei Fang, Hsin-Ying Lee, Jian Ren, Ming-Hsuan Yang, Sergey Tulyakov

Die Qualität der Daten und Annotationen bestimmt die Obergrenze für die Qualität eines nachgelagerten Modells. Während es große Textkorpora und Bild-Text-Paare gibt, ist die Sammlung hochwertiger Video-Text-Daten wesentlich schwieriger. Erstens ist die manuelle Beschriftung zeitaufwendiger, da ein Annotator das gesamte Video ansehen muss. Zweitens besitzen Videos eine zeitliche Dimension, die aus mehreren zusammenhängenden Szenen besteht und mehrere Aktionen zeigt. Um ein Videodatensatz mit hochwertigen Beschriftungen zu erstellen, schlagen wir daher einen automatisierten Ansatz vor, der multimodale Eingaben wie textuelle Videobeschreibungen, Untertitel und einzelne Videobilder nutzt. Konkret kuratieren wir 3,8 Millionen hochauflösende Videos aus dem öffentlich verfügbaren HD-VILA-100M-Datensatz. Diese teilen wir in semantisch konsistente Videoclips auf und wenden mehrere Cross-Modality-Lehrermodelle an, um Beschriftungen für jedes Video zu erhalten. Anschließend feintunen wir ein Retrieval-Modell auf einer kleinen Teilmenge, bei der die beste Beschriftung für jedes Video manuell ausgewählt wird, und setzen das Modell dann auf den gesamten Datensatz ein, um die beste Beschriftung als Annotation auszuwählen. Auf diese Weise erhalten wir 70 Millionen Videos, die mit hochwertigen Textbeschriftungen gepaart sind. Wir nennen diesen Datensatz Panda-70M. Wir demonstrieren den Wert des vorgeschlagenen Datensatzes anhand von drei nachgelagerten Aufgaben: Videobeschriftung, Video- und Text-Retrieval sowie textgesteuerte Videogenerierung. Die auf den vorgeschlagenen Daten trainierten Modelle erzielen bei der Mehrheit der Metriken über alle Aufgaben hinweg deutlich bessere Ergebnisse.

Humanoide Fortbewegung als nächste Token-Vorhersage
Humanoid Locomotion as Next Token Prediction

Feb 29

ByIlija Radosavovic, Bike Zhang, Baifeng Shi, Jathushan Rajasegaran, Sarthak Kamat, Trevor Darrell, Koushil Sreenath, Jitendra Malik

Wir formulieren die Steuerung von menschenähnlichen Robotern in der realen Welt als ein Problem der Vorhersage des nächsten Tokens, ähnlich der Vorhersage des nächsten Wortes in der Sprache. Unser Modell ist ein kausaler Transformer, der durch autoregressive Vorhersage von sensomotorischen Trajektorien trainiert wird. Um der multimodalen Natur der Daten gerecht zu werden, führen wir die Vorhersage in einer modalitätsausgerichteten Weise durch und prognostizieren für jeden Eingabetoken den nächsten Token aus derselben Modalität. Diese allgemeine Formulierung ermöglicht es uns, Daten mit fehlenden Modalitäten zu nutzen, wie beispielsweise Video-Trajektorien ohne Aktionen. Wir trainieren unser Modell auf einer Sammlung von simulierten Trajektorien, die aus vorherigen neuronalen Netzwerk-Policies, modellbasierten Controllern, Motion-Capture-Daten und YouTube-Videos von Menschen stammen. Wir zeigen, dass unser Modell einen vollständig menschenähnlichen Roboter dazu befähigt, in San Francisco ohne vorheriges Training zu laufen. Unser Modell kann in die reale Welt übertragen werden, selbst wenn es nur mit 27 Stunden Laufdaten trainiert wurde, und kann auf Befehle generalisieren, die während des Trainings nicht gesehen wurden, wie beispielsweise rückwärts zu laufen. Diese Ergebnisse deuten auf einen vielversprechenden Weg hin, anspruchsvolle Steuerungsaufgaben in der realen Welt durch generatives Modellieren von sensomotorischen Trajektorien zu erlernen.

MOSAIC: Ein modulares System für assistives und interaktives Kochen
MOSAIC: A Modular System for Assistive and Interactive Cooking

Feb 29

ByHuaxiaoyue Wang, Kushal Kedia, Juntao Ren, Rahma Abdullah, Atiksh Bhardwaj, Angela Chao, Kelly Y Chen, Nathaniel Chin, Prithwish Dan, Xinyi Fan, Gonzalo Gonzalez-Pumariega, Aditya Kompella, Maximus Adrian Pace, Yash Sharma, Xiangwan Sun, Neha Sunkara, Sanjiban Choudhury

Wir stellen MOSAIC vor, eine modulare Architektur für Haushaltsroboter, um komplexe kollaborative Aufgaben zu bewältigen, wie beispielsweise das Kochen mit alltäglichen Nutzern. MOSAIC arbeitet eng mit Menschen zusammen, interagiert mit Nutzern in natürlicher Sprache, koordiniert mehrere Roboter und verwaltet ein offenes Vokabular von Alltagsgegenständen. Im Kern nutzt MOSAIC Modularität: Es greift auf mehrere groß angelegte, vortrainierte Modelle für allgemeine Aufgaben wie Spracherkennung und Bilderkennung zurück, während es gleichzeitig schlanke Module für die aufgabenspezifische Steuerung einsetzt. Wir evaluieren MOSAIC umfassend in 60 End-to-End-Versuchen, bei denen zwei Roboter mit einem menschlichen Nutzer zusammenarbeiten, um eine Kombination aus 6 Rezepten zuzubereiten. Zusätzlich testen wir einzelne Module intensiv mit 180 Episoden visuomotorischen Greifens, 60 Episoden der Vorhersage menschlicher Bewegungen und 46 Online-Nutzerbewertungen des Aufgabenplaners. Wir zeigen, dass MOSAIC effizient mit Menschen zusammenarbeiten kann, indem das Gesamtsystem End-to-End mit einem echten menschlichen Nutzer betrieben wird und 68,3 % (41/60) der kollaborativen Kochversuche mit 6 verschiedenen Rezepten erfolgreich abschließt, wobei die Unteraufgabenabschlussrate bei 91,6 % liegt. Abschließend diskutieren wir die Grenzen des aktuellen Systems und spannende offene Herausforderungen in diesem Bereich. Die Projektwebsite ist unter https://portal-cornell.github.io/MOSAIC/ zu finden.

DistriFusion: Verteiltes paralleles Inferenz für hochauflösende Diffusionsmodelle
DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models

Feb 29

ByMuyang Li, Tianle Cai, Jiaxin Cao, Qinsheng Zhang, Han Cai, Junjie Bai, Yangqing Jia, Ming-Yu Liu, Kai Li, Song Han

Diffusionsmodelle haben große Erfolge bei der Synthese hochwertiger Bilder erzielt. Die Erzeugung hochauflösender Bilder mit Diffusionsmodellen bleibt jedoch aufgrund der enormen Rechenkosten eine Herausforderung, was zu einer prohibitiv hohen Latenz für interaktive Anwendungen führt. In diesem Artikel schlagen wir DistriFusion vor, um dieses Problem durch die Nutzung von Parallelität über mehrere GPUs zu lösen. Unser Verfahren teilt die Modelleingabe in mehrere Patches auf und weist jeden Patch einer GPU zu. Eine naive Implementierung eines solchen Algorithmus würde jedoch die Interaktion zwischen den Patches unterbrechen und die Bildqualität beeinträchtigen, während die Einbeziehung einer solchen Interaktion erhebliche Kommunikationskosten verursachen würde. Um dieses Dilemma zu überwinden, beobachten wir die hohe Ähnlichkeit zwischen den Eingaben benachbarter Diffusionsschritte und schlagen eine verschobene Patch-Parallelität vor, die den sequenziellen Charakter des Diffusionsprozesses nutzt, indem vorberechnete Feature-Maps aus dem vorherigen Zeitschritt wiederverwendet werden, um Kontext für den aktuellen Schritt bereitzustellen. Daher unterstützt unser Verfahren asynchrone Kommunikation, die durch Berechnungen gepipelt werden kann. Umfangreiche Experimente zeigen, dass unser Verfahren auf das aktuelle Stable Diffusion XL ohne Qualitätseinbußen angewendet werden kann und eine Beschleunigung von bis zu 6,1-fach auf acht NVIDIA A100s im Vergleich zu einer einzelnen GPU erreicht. Unser Code ist öffentlich unter https://github.com/mit-han-lab/distrifuser verfügbar.

Einfache lineare Attention-Sprachmodelle balancieren den Kompromiss zwischen Recall und Durchsatz.
Simple linear attention language models balance the recall-throughput tradeoff

Feb 28

BySimran Arora, Sabri Eyuboglu, Michael Zhang, Aman Timalsina, Silas Alberti, Dylan Zinsley, James Zou, Atri Rudra, Christopher Ré

Aktuelle Arbeiten haben gezeigt, dass auf Aufmerksamkeit basierende Sprachmodelle hervorragende Fähigkeiten beim Abruf besitzen, also der Fähigkeit, Erzeugungen in zuvor im Kontext gesehenen Tokens zu verankern. Allerdings wird die Effizienz von auf Aufmerksamkeit basierenden Modellen während des Inferenzprozesses durch den aggressiven Speicherverbrauch des KV-Caches eingeschränkt. In dieser Arbeit untersuchen wir, ob wir die Effizienz von Sprachmodellen verbessern können (z. B. durch Reduzierung des Speicherverbrauchs), ohne dabei den Abruf zu beeinträchtigen. Durch Experimente und theoretische Analysen an einer breiten Palette von Architekturen identifizieren wir einen zentralen Kompromiss zwischen der Zustandsgröße eines Modells und seiner Abruffähigkeit. Wir zeigen, dass effiziente Alternativen zur Aufmerksamkeit (z. B. H3, Mamba, RWKV) einen festen rekurrenten Zustand beibehalten, jedoch Schwierigkeiten beim Abruf haben. Wir schlagen BASED vor, eine einfache Architektur, die lineare und gleitende Fensteraufmerksamkeit kombiniert. Durch die Variation der Fenstergröße von BASED und der Feature-Dimension der linearen Aufmerksamkeit können wir die Zustandsgröße anpassen und die Pareto-Grenze der Abruf-Speicher-Kompromisskurve durchlaufen, wobei wir auf der einen Seite die volle Qualität der Aufmerksamkeit und auf der anderen Seite die geringe Zustandsgröße von Aufmerksamkeitsalternativen erreichen. Wir trainieren Sprachmodelle mit bis zu 1,3 Milliarden Parametern und zeigen, dass BASED die stärksten subquadratischen Modelle (z. B. Mamba) in Bezug auf die Perplexität erreicht und sie bei realen, abrufintensiven Aufgaben um 6,22 Genauigkeitspunkte übertrifft. Implementierungen der linearen Aufmerksamkeit sind oft weniger effizient als optimierte Standardimplementierungen der Aufmerksamkeit. Um BASED wettbewerbsfähig zu machen, entwickeln wir IO-bewusste Algorithmen, die einen 24-mal höheren Durchsatz bei der Sprachgeneration ermöglichen als FlashAttention-2, wenn 1024 Tokens mit 1,3-Milliarden-Parameter-Modellen generiert werden. Der Code für diese Arbeit ist unter https://github.com/HazyResearch/based verfügbar.

Prioritätsbasierte Stichprobenziehung von Large Language Models für Compiler
Priority Sampling of Large Language Models for Compilers

Feb 28

ByDejan Grubisic, Chris Cummins, Volker Seeker, Hugh Leather

Große Sprachmodelle zeigen großes Potenzial bei der Generierung und Optimierung von Code. Weit verbreitete Sampling-Methoden wie Nucleus Sampling erhöhen die Diversität der Generierung, produzieren jedoch häufig wiederholte Samples bei niedrigen Temperaturen und inkohärente Samples bei hohen Temperaturen. Darüber hinaus muss der Temperaturkoeffizient für jede Aufgabe angepasst werden, was seine Nutzbarkeit einschränkt. Wir stellen Priority Sampling vor, eine einfache und deterministische Sampling-Technik, die einzigartige Samples erzeugt, die nach dem Vertrauen des Modells geordnet sind. Jedes neue Sample erweitert den Token mit der höchsten Wahrscheinlichkeit im erweiterten Suchbaum. Zusätzlich unterstützt Priority Sampling die Generierung basierend auf regulären Ausdrücken, was einen kontrollierbaren und strukturierten Explorationsprozess ermöglicht. Priority Sampling übertrifft Nucleus Sampling bei jeder Anzahl von Samples und steigert die Leistung des ursprünglichen Modells von einer Verbesserung von 2,87 % auf 5 % gegenüber -Oz. Darüber hinaus übertrifft es den Autotuner, der für die Generierung von Labels für das Training des ursprünglichen Modells verwendet wird, bereits nach nur 30 Samples.

Trajektorienkonsistenz-Destillation
Trajectory Consistency Distillation

Feb 29

ByJianbin Zheng, Minghui Hu, Zhongyi Fan, Chaoyue Wang, Changxing Ding, Dacheng Tao, Tat-Jen Cham

Das Latent Consistency Model (LCM) erweitert das Consistency Model auf den latenten Raum und nutzt die Technik des geführten Konsistenz-Destillierens, um beeindruckende Leistungen bei der Beschleunigung der Text-zu-Bild-Synthese zu erzielen. Allerdings haben wir beobachtet, dass LCM Schwierigkeiten hat, Bilder mit sowohl Klarheit als auch detaillierter Komplexität zu erzeugen. Um diese Einschränkung zu adressieren, gehen wir zunächst auf die zugrunde liegenden Ursachen ein und erläutern diese. Unsere Untersuchung zeigt, dass das Hauptproblem auf Fehler in drei verschiedenen Bereichen zurückzuführen ist. Folglich führen wir das Trajectory Consistency Distillation (TCD) ein, das eine Trajektorien-Konsistenzfunktion und strategisches stochastisches Sampling umfasst. Die Trajektorien-Konsistenzfunktion reduziert die Destillationsfehler, indem sie den Rahmen der Selbstkonsistenz-Randbedingung erweitert und TCD die Fähigkeit verleiht, die gesamte Trajektorie der Probability Flow ODE präzise nachzuverfolgen. Zusätzlich ist das strategische stochastische Sampling speziell darauf ausgelegt, die akkumulierten Fehler, die beim mehrstufigen Konsistenz-Sampling auftreten, zu vermeiden, und es ist sorgfältig darauf abgestimmt, das TCD-Modell zu ergänzen. Experimente zeigen, dass TCD nicht nur die Bildqualität bei niedrigen NFEs (Number of Function Evaluations) erheblich verbessert, sondern auch detailliertere Ergebnisse im Vergleich zum Lehrer-Modell bei hohen NFEs liefert.

ViewFusion: Auf dem Weg zur Multi-View-Konsistenz durch interpolierte Entrauschung
ViewFusion: Towards Multi-View Consistency via Interpolated Denoising

Feb 29

ByXianghui Yang, Yan Zuo, Sameera Ramasinghe, Loris Bazzani, Gil Avraham, Anton van den Hengel

Die Synthese neuer Ansichten durch Diffusionsmodelle hat ein bemerkenswertes Potenzial für die Erzeugung vielfältiger und hochwertiger Bilder gezeigt. Dennoch führt der unabhängige Prozess der Bildgenerierung in diesen vorherrschenden Methoden zu Herausforderungen bei der Aufrechterhaltung der Mehransichtskonsistenz. Um dies zu adressieren, stellen wir ViewFusion vor, einen neuartigen, trainingsfreien Algorithmus, der nahtlos in bestehende vortrainierte Diffusionsmodelle integriert werden kann. Unser Ansatz verwendet eine autoregressive Methode, die implizit zuvor generierte Ansichten als Kontext für die nächste Ansichtsgenerierung nutzt und so eine robuste Mehransichtskonsistenz während des Prozesses der neuen Ansichtsgenerierung gewährleistet. Durch einen Diffusionsprozess, der bekannte Ansichtsinformationen über interpolierte Entrauschung fusioniert, erweitert unser Framework erfolgreich Einzelansicht-bedingte Modelle, um in Mehransicht-bedingten Einstellungen zu arbeiten, ohne zusätzliches Fein-Tuning. Umfangreiche experimentelle Ergebnisse demonstrieren die Wirksamkeit von ViewFusion bei der Erzeugung konsistenter und detaillierter neuer Ansichten.

StarCoder 2 und The Stack v2: Die nächste Generation
StarCoder 2 and The Stack v2: The Next Generation

Feb 29

148