Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Es ist seit langem bekannt, dass prädiktive Modelle in verlustfreie Kompressoren umgewandelt werden können und umgekehrt. Zufälligerweise hat sich die Machine-Learning-Community in den letzten Jahren darauf konzentriert, immer größere und leistungsfähigere selbstüberwachte (Sprach-)Modelle zu trainieren. Da diese großen Sprachmodelle beeindruckende prädiktive Fähigkeiten aufweisen, eignen sie sich hervorragend als starke Kompressoren. In dieser Arbeit plädieren wir dafür, das Prädiktionsproblem durch die Brille der Kompression zu betrachten und bewerten die Kompressionsfähigkeiten großer (Foundation-)Modelle. Wir zeigen, dass große Sprachmodelle leistungsstarke allgemeine Prädiktoren sind und dass die Kompressionsperspektive neue Einblicke in Skalierungsgesetze, Tokenisierung und In-Context-Lernen bietet. Beispielsweise komprimiert Chinchilla 70B, das hauptsächlich auf Text trainiert wurde, ImageNet-Patches auf 43,4 % und LibriSpeech-Proben auf 16,4 % ihrer Rohgröße und übertrifft damit domänenspezifische Kompressoren wie PNG (58,5 %) oder FLAC (30,3 %). Schließlich zeigen wir, dass die Äquivalenz von Prädiktion und Kompression es uns ermöglicht, jeden Kompressor (wie gzip) zu verwenden, um ein bedingtes generatives Modell zu erstellen.
In dieser Arbeit präsentieren wir eine skalierbare Methode des Reinforcement Learning für das Training von Multi-Task-Policies aus großen Offline-Datensätzen, die sowohl menschliche Demonstrationen als auch autonom gesammelte Daten nutzen kann. Unsere Methode verwendet einen Transformer, um eine skalierbare Repräsentation für Q-Funktionen bereitzustellen, die durch Offline-Temporal-Difference-Backups trainiert werden. Daher bezeichnen wir die Methode als Q-Transformer. Durch die Diskretisierung jeder Aktionsdimension und die Darstellung des Q-Werts jeder Aktionsdimension als separate Tokens können wir effektive Hochkapazitäts-Sequenzmodellierungstechniken für Q-Learning anwenden. Wir präsentieren mehrere Designentscheidungen, die eine gute Leistung beim Offline-RL-Training ermöglichen, und zeigen, dass Q-Transformer bisherige Offline-RL-Algorithmen und Imitation-Learning-Techniken auf einer großen, vielfältigen Suite von realen Roboter-Manipulationsaufgaben übertrifft. Die Projektwebsite und Videos sind unter https://q-transformer.github.io zu finden.
Große Sprachmodelle (LLMs) mit Milliarden von Parametern haben herausragende Leistungen bei verschiedenen Aufgaben der natürlichen Sprachverarbeitung gezeigt. Dieser Bericht stellt OpenBA vor, ein quelloffenes, 15 Milliarden Parameter umfassendes, bilinguales asymmetrisches Seq2Seq-Modell, das eine LLM-Variante zur chinesisch-orientierten Open-Source-Modellgemeinschaft beiträgt. Wir verbessern OpenBA mit effektiven und effizienten Techniken und setzen eine dreistufige Trainingsstrategie ein, um das Modell von Grund auf zu trainieren. Unsere Lösung kann auch mit nur 380 Milliarden Token sehr wettbewerbsfähige Leistungen erzielen, die besser sind als LLaMA-70B auf dem BELEBELE-Benchmark, BLOOM-176B auf dem MMLU-Benchmark und GLM-130B auf dem C-Eval (Hard)-Benchmark. Dieser Bericht liefert die wesentlichen Details zum Vortraining eines analogen Modells, einschließlich der Verarbeitung von Vortrainingsdaten, der Sammlung von bilingualen Flan-Daten, den empirischen Beobachtungen, die unser Modellarchitekturdesign inspirieren, den Trainingszielen der verschiedenen Stufen und anderen Verbesserungstechniken. Wir haben unseren Code neu strukturiert, um den Designprinzipien der Huggingface Transformers Library zu folgen, was die Nutzung für Entwickler bequemer macht, und haben Checkpoints verschiedener Trainingsstufen unter https://huggingface.co/openBA veröffentlicht. Weitere Details zu unserem Projekt sind unter https://github.com/OpenNLG/openBA.git verfügbar.
Diese Arbeit zielt darauf ab, die Auswirkungen verschiedener Datenkombinationen (z. B. Webtexte, Wikipedia, GitHub, Bücher) auf das Training großer Sprachmodelle unter Verwendung von SlimPajama zu verstehen. SlimPajama ist ein rigoros dedupliziertes, multi-quellenbasiertes Datenset, das aus dem umfangreichen 1,2T Token umfassenden RedPajama-Datensatz von Together verfeinert und weiter dedupliziert wurde, sodass es nun 627B Token umfasst. Wir haben unsere Forschung als SlimPajama-DC bezeichnet, eine empirische Analyse, die darauf abzielt, grundlegende Eigenschaften und Best Practices im Zusammenhang mit der Verwendung von SlimPajama für das Training großer Sprachmodelle aufzudecken. Während unserer Forschung mit SlimPajama traten zwei zentrale Beobachtungen hervor: (1) Globale Deduplizierung vs. lokale Deduplizierung. Wir analysieren und diskutieren, wie globale (über verschiedene Datenquellen hinweg) und lokale (innerhalb einer einzelnen Datenquelle) Deduplizierungen die Leistung der trainierten Modelle beeinflussen. (2) Anteile von hochwertigen/stark deduplizierten multi-quellenbasierten Datensätzen in der Kombination. Um dies zu untersuchen, konstruieren wir sechs Konfigurationen des SlimPajama-Datensatzes und trainieren jeweils eine mit dem 1,3B Cerebras-GPT-Modell unter Verwendung von Alibi und SwiGLU. Unsere beste Konfiguration übertrifft das auf RedPajama trainierte 1,3B-Modell bei gleicher Anzahl von Trainingstokens deutlich. Alle unsere 1,3B-Modelle wurden auf dem Cerebras 16x CS-2-Cluster mit insgesamt 80 PFLOP/s in bf16-Mixed-Precision trainiert. Wir erweitern unsere Erkenntnisse (z. B. dass die Erhöhung der Datenvielfalt nach globaler Deduplizierung entscheidend ist) auf ein 7B-Modell mit großem Batch-Size-Training. Unsere Modelle und die separaten SlimPajama-DC-Datensätze sind verfügbar unter: https://huggingface.co/MBZUAI-LLM und https://huggingface.co/datasets/cerebras/SlimPajama-627B.
Jüngste Fortschritte in der Audioerzeugung wurden durch die Entwicklung von groß angelegten Deep-Learning-Modellen und umfangreichen Datensätzen vorangetrieben. Die Aufgabe der Video-zu-Audio (V2A)-Generierung bleibt jedoch eine Herausforderung, hauptsächlich aufgrund der komplexen Beziehung zwischen den hochdimensionalen visuellen und auditiven Daten sowie den Schwierigkeiten bei der zeitlichen Synchronisation. In dieser Studie stellen wir FoleyGen vor, ein Open-Domain-V2A-Generierungssystem, das auf einem Sprachmodellierungsparadigma basiert. FoleyGen nutzt einen vorgefertigten neuronalen Audiocodec für die bidirektionale Umwandlung zwischen Wellenformen und diskreten Tokens. Die Erzeugung von Audio-Tokens wird durch ein einzelnes Transformer-Modell ermöglicht, das auf visuelle Merkmale konditioniert ist, die von einem visuellen Encoder extrahiert werden. Ein weit verbreitetes Problem bei der V2A-Generierung ist die Fehlausrichtung des erzeugten Audios mit den sichtbaren Aktionen im Video. Um dies zu beheben, untersuchen wir drei neuartige visuelle Aufmerksamkeitsmechanismen. Darüber hinaus führen wir eine umfassende Bewertung mehrerer visueller Encoder durch, die jeweils auf einmodale oder multimodale Aufgaben vortrainiert wurden. Die experimentellen Ergebnisse auf dem VGGSound-Datensatz zeigen, dass unser vorgeschlagenes FoleyGen alle bisherigen Systeme in allen objektiven Metriken und menschlichen Bewertungen übertrifft.
Wir stellen POP3D vor, ein neuartiges Framework, das aus einem einzelnen Bild ein vollständiges 360°-Ansicht-3D-Modell erzeugt. POP3D löst zwei wesentliche Probleme, die die Rekonstruktion aus einer einzigen Ansicht einschränken. Erstens bietet POP3D eine erhebliche Generalisierbarkeit für beliebige Kategorien, eine Eigenschaft, die frühere Methoden nur schwer erreichen konnten. Zweitens verbessert POP3D die Rekonstruktionsgenauigkeit und Natürlichkeit weiter, ein entscheidender Aspekt, bei dem aktuelle Arbeiten zurückbleiben. Unser Ansatz vereint die Stärken von vier Hauptkomponenten: (1) ein monokularer Tiefen- und Normalenprädiktor, der wichtige geometrische Hinweise vorhersagt, (2) eine Space-Carving-Methode, die in der Lage ist, die potenziell unsichtbaren Teile des Zielobjekts abzugrenzen, (3) ein generatives Modell, das auf einem groß angelegten Bilddatensatz vortrainiert wurde und unsichtbare Bereiche des Ziels vervollständigen kann, und (4) eine neuronale implizite Oberflächenrekonstruktionsmethode, die speziell für die Rekonstruktion von Objekten unter Verwendung von RGB-Bildern zusammen mit monokularen geometrischen Hinweisen entwickelt wurde. Die Kombination dieser Komponenten ermöglicht es POP3D, sich problemlos über verschiedene Bilder aus der realen Welt zu verallgemeinern und state-of-the-art Rekonstruktionen zu erzeugen, die ähnliche Arbeiten deutlich übertreffen. Projektseite: http://cg.postech.ac.kr/research/POP3D