papers.description
Stellen Sie sich einen Entwickler vor, der nur die letzte Zeile ihres Codes ändern kann. Wie oft müsste sie eine Funktion von Grund auf neu schreiben, bevor sie korrekt ist? Auto-regressive Modelle zur Code-Generierung aus natürlicher Sprache haben eine ähnliche Einschränkung: Sie erlauben es nicht leicht, zuvor generierte Tokens zu überdenken. Wir stellen CodeFusion vor, ein vortrainiertes Diffusionsmodell zur Code-Generierung, das diese Einschränkung adressiert, indem es iterativ ein vollständiges Programm unter Berücksichtigung der kodierten natürlichen Sprache denoisiert. Wir evaluieren CodeFusion für die Aufgabe der Code-Generierung aus natürlicher Sprache für Bash, Python und Microsoft Excel Conditional Formatting (CF)-Regeln. Experimente zeigen, dass CodeFusion (75M Parameter) in der Top-1-Genauigkeit mit state-of-the-art auto-regressiven Systemen (350M-175B Parameter) gleichzieht und sie in der Top-3- und Top-5-Genauigkeit aufgrund seiner besseren Balance zwischen Diversität und Qualität übertrifft.
In diesem Artikel untersuchen wir FP8-Datenformate mit niedriger Bitzahl für das effiziente Training großer Sprachmodelle (LLMs). Unsere zentrale Erkenntnis ist, dass die meisten Variablen, wie Gradienten und Optimiererzustände, beim Training von LLMs Datenformate mit niedriger Präzision verwenden können, ohne die Modellgenauigkeit zu beeinträchtigen und ohne Änderungen an den Hyperparametern zu erfordern. Konkret schlagen wir ein neues FP8-Framework für automatisches gemischtes Präzisionstraining von LLMs vor. Dieses Framework bietet drei Stufen der FP8-Nutzung, um das gemischte Präzisions- und verteilte parallele Training für LLMs zu optimieren. Es integriert schrittweise 8-Bit-Gradienten, Optimiererzustände und verteiltes Lernen in inkrementeller Weise. Experimentelle Ergebnisse zeigen, dass unser FP8-Framework für gemischtes Präzisionstraining beim Training des GPT-175B-Modells auf der H100-GPU-Plattform nicht nur eine bemerkenswerte Reduzierung des realen Speicherverbrauchs um 42 % erreichte, sondern auch 64 % schneller lief als das weit verbreitete BF16-Framework (d. h. Megatron-LM) und die Geschwindigkeit der Nvidia Transformer Engine um 17 % übertraf. Dies reduziert die Trainingskosten für große Basismodelle erheblich. Darüber hinaus ist unsere FP8-Methode für gemischtes Präzisionstraining generisch. Sie kann nahtlos auf andere Aufgaben wie das Instruktions-Finetuning von LLMs und Reinforcement Learning mit menschlichem Feedback angewendet werden, wodurch Einsparungen bei den Feinabstimmungskosten erzielt werden. Unser FP8-Framework für Training mit niedriger Präzision ist unter {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP} quelloffen verfügbar.
Wir präsentieren ControlLLM, ein neuartiges Framework, das großen Sprachmodellen (LLMs) ermöglicht, multimodale Werkzeuge zur Lösung komplexer realer Aufgaben zu nutzen. Trotz der bemerkenswerten Leistung von LLMs haben sie weiterhin Schwierigkeiten mit dem Aufruf von Werkzeugen aufgrund von mehrdeutigen Benutzeranfragen, ungenauer Werkzeugauswahl und Parametrisierung sowie ineffizienter Werkzeugplanung. Um diese Herausforderungen zu bewältigen, besteht unser Framework aus drei Schlüsselkomponenten: (1) einem Aufgabenzerleger, der eine komplexe Aufgabe in klare Teilaufgaben mit klar definierten Eingaben und Ausgaben aufteilt; (2) einem Thoughts-on-Graph (ToG)-Paradigma, das den optimalen Lösungsweg auf einem vordefinierten Werkzeuggraphen sucht, der die Parameter- und Abhängigkeitsbeziehungen zwischen verschiedenen Werkzeugen spezifiziert; und (3) einer Ausführungsengine mit einem umfangreichen Werkzeugkasten, die den Lösungsweg interpretiert und die Werkzeuge effizient auf verschiedenen Rechengeräten ausführt. Wir evaluieren unser Framework anhand verschiedener Aufgaben in den Bereichen Bild-, Audio- und Videoverarbeitung und zeigen seine überlegene Genauigkeit, Effizienz und Vielseitigkeit im Vergleich zu bestehenden Methoden.
On-Device-Learning und effizientes Fine-Tuning ermöglichen eine kontinuierliche und datenschutzfreundliche Anpassung (z. B. lokales Fine-Tuning großer Sprachmodelle auf personalisierten Daten). Allerdings sind bestehende Trainingsframeworks für Cloud-Server mit leistungsstarken Beschleunigern (z. B. GPUs, TPUs) konzipiert und verfügen nicht über die Optimierungen für das Lernen am Edge, das mit Herausforderungen wie Ressourcenbeschränkungen und der Vielfalt von Edge-Hardware konfrontiert ist. Wir stellen PockEngine vor: eine kompakte, spärliche und effiziente Engine, die Fine-Tuning auf verschiedenen Edge-Geräten ermöglicht. PockEngine unterstützt spärliche Backpropagation: Es beschneidet den Rückwärtsgraphen und aktualisiert das Modell spärlich, wodurch messbare Speichereinsparungen und Latenzreduktionen erzielt werden, während die Modellqualität erhalten bleibt. Zweitens ist PockEngine kompilierungsorientiert: Der gesamte Trainingsgraph (einschließlich Vorwärts-, Rückwärts- und Optimierungsschritte) wird zur Kompilierzeit abgeleitet, was den Laufzeitaufwand reduziert und Möglichkeiten für Graphentransformationen eröffnet. PockEngine integriert zudem eine Vielzahl von Trainingsgraph-Optimierungen, wodurch die Trainingskosten weiter beschleunigt werden können, einschließlich Operator-Neuordnung und Backend-Wechsel. PockEngine unterstützt diverse Anwendungen, Frontends und Hardware-Backends: Es kompiliert und optimiert flexibel Modelle, die in PyTorch/TensorFlow/Jax definiert sind, und stellt Binärdateien für mobile CPUs/GPUs/DSPs bereit. Wir haben PockEngine sowohl an Vision-Modellen als auch an großen Sprachmodellen evaluiert. PockEngine erreicht eine bis zu 15-fache Beschleunigung gegenüber Standard-TensorFlow (Raspberry Pi) und eine 5,6-fache Speichereinsparung bei der Backpropagation (Jetson AGX Orin). Bemerkenswerterweise ermöglicht PockEngine das Fine-Tuning von LLaMav2-7B auf NVIDIA Jetson AGX Orin mit 550 Tokens/s, was 7,9-mal schneller ist als PyTorch.
Große Sprachmodelle (LLMs) zeigen vielversprechende Ergebnisse bei Aufgaben der natürlichen Sprachverarbeitung, stoßen jedoch an ihre Grenzen, wenn sie direkt auf komplexe Domänen wie die Finanzwelt angewendet werden. LLMs haben Schwierigkeiten, alle relevanten Informationen zu verarbeiten und zu integrieren. Wir schlagen einen datenzentrierten Ansatz vor, um LLMs besser für finanzielle Aufgaben zu rüsten. Unsere zentrale Erkenntnis ist, dass es effektiver ist, die Daten vorzuverarbeiten und vorab zu verstehen, anstatt das LLM mit allen Informationen auf einmal zu überlasten. Wir entwickeln ein finanzielles LLM (FLLM), das durch multitask-basiertes Prompt-Finetuning die Vorverarbeitung und das Vorverständnis der Daten ermöglicht. Allerdings sind annotierte Daten für jede Aufgabe knapp. Um die Kosten für manuelle Annotationen zu umgehen, setzen wir abduktive Augmentationslogik (AAR) ein, um automatisch Trainingsdaten zu generieren, indem wir die Pseudolabels aus den eigenen Ausgaben des FLLM anpassen. Experimente zeigen, dass unser datenzentriertes FLLM mit AAR deutlich besser abschneidet als Baseline-Finanz-LLMs, die für Rohtext entwickelt wurden, und Spitzenwerte bei Aufgaben der Finanzanalyse und -interpretation erreicht. Zudem stellen wir einen neuen Benchmark für Finanzanalyse und -interpretation als Open Source zur Verfügung. Unsere Methodik bietet einen vielversprechenden Weg, um das Potenzial von LLMs für komplexe, realweltliche Domänen zu erschließen.
Wir präsentieren ein Framework zur automatisierten Messung von Responsible AI (RAI)-Metriken für große Sprachmodelle (LLMs) sowie damit verbundene Produkte und Dienstleistungen. Unser Framework zur automatischen Messung von Schäden durch LLMs baut auf bestehendem technischem und soziotechnischem Fachwissen auf und nutzt die Fähigkeiten modernster LLMs wie GPT-4. Wir verwenden dieses Framework, um mehrere Fallstudien durchzuführen, die untersuchen, wie verschiedene LLMs eine Reihe von RAI-bezogenen Prinzipien verletzen können. Das Framework kann in Verbindung mit domänenspezifischem soziotechnischem Fachwissen eingesetzt werden, um zukünftig Messungen für neue Schadensbereiche zu erstellen. Durch die Implementierung dieses Frameworks streben wir an, fortgeschrittenere Bemühungen zur Schadensmessung zu ermöglichen und die verantwortungsvolle Nutzung von LLMs weiter voranzutreiben.
Wir stellen ein 3D-bewusstes Diffusionsmodell, ZeroNVS, für die Synthese neuer Ansichten aus Einzelbildern in realen Szenen vor. Während bestehende Methoden für einzelne Objekte mit maskierten Hintergründen entwickelt wurden, schlagen wir neue Techniken vor, um die Herausforderungen zu bewältigen, die durch reale Szenen mit mehreren Objekten und komplexen Hintergründen entstehen. Insbesondere trainieren wir ein generatives Prior auf einer Mischung von Datenquellen, die objektzentrierte, Innenraum- und Außenraumszenen erfassen. Um Probleme wie die Mehrdeutigkeit der Tiefenskala, die durch die Datenmischung entstehen, zu adressieren, schlagen wir eine neuartige Kamerakonditionierungsparametrisierung und Normalisierungsschema vor. Weiterhin beobachten wir, dass Score Distillation Sampling (SDS) dazu neigt, die Verteilung komplexer Hintergründe während der Destillation von 360-Grad-Szenen zu beschneiden, und schlagen „SDS Anchoring“ vor, um die Vielfalt der synthetisierten neuen Ansichten zu verbessern. Unser Modell erzielt einen neuen State-of-the-Art-Wert in LPIPS auf dem DTU-Datensatz im Zero-Shot-Setting und übertrifft sogar Methoden, die speziell auf DTU trainiert wurden. Wir passen außerdem den anspruchsvollen Mip-NeRF 360-Datensatz als neuen Benchmark für die Synthese neuer Ansichten aus Einzelbildern an und demonstrieren starke Leistungen in diesem Setting. Unser Code und unsere Daten sind unter http://kylesargent.github.io/zeronvs/ verfügbar.
Neural Radiance Fields (NeRFs) haben sich als leistungsstarke 3D-Repräsentationen erwiesen, die in der Lage sind, hochwertige Neuansichten komplexer Szenen zu synthetisieren. Obwohl NeRFs in den Bereichen Grafik, Computer Vision und Robotik Anwendung gefunden haben, verhindern Probleme mit langsamer Rendering-Geschwindigkeit und charakteristischen visuellen Artefakten die Übernahme in vielen Anwendungsfällen. In dieser Arbeit untersuchen wir die Kombination eines Autoencoders (AE) mit einem NeRF, bei dem latente Merkmale (anstelle von Farben) gerendert und anschließend konvolutionell decodiert werden. Der daraus resultierende Latent-Space-NeRF kann Neuansichten mit höherer Qualität als standardmäßige Farbraum-NeRFs erzeugen, da der AE bestimmte visuelle Artefakte korrigieren kann, während das Rendering mehr als dreimal schneller erfolgt. Unsere Arbeit ist orthogonal zu anderen Techniken zur Verbesserung der Effizienz von NeRFs. Darüber hinaus können wir den Kompromiss zwischen Effizienz und Bildqualität steuern, indem wir die AE-Architektur verkleinern und so eine über 13-mal schnellere Rendering-Geschwindigkeit bei nur geringem Leistungsabfall erreichen. Wir hoffen, dass unser Ansatz die Grundlage für eine effiziente, aber dennoch hochwertige 3D-Szenendarstellung für nachgelagerte Aufgaben bilden kann, insbesondere wenn die Beibehaltung der Differenzierbarkeit nützlich ist, wie in vielen Robotik-Szenarien, die kontinuierliches Lernen erfordern.
Wir zeigen, dass große Sprachmodelle (LLMs) so angepasst werden können, dass sie als generalisierbare Strategien für verkörperte visuelle Aufgaben dienen. Unser Ansatz, genannt Large LAnguage model Reinforcement Learning Policy (LLaRP), adaptiert ein vortrainiertes, eingefrorenes LLM, um Textanweisungen und visuelle egozentrische Beobachtungen als Eingabe zu nehmen und direkt Aktionen in der Umgebung auszugeben. Mithilfe von Reinforcement Learning trainieren wir LLaRP, ausschließlich durch Umgebungsinteraktionen zu sehen und zu handeln. Wir zeigen, dass LLaRP robust gegenüber komplexen Paraphrasierungen von Aufgabenanweisungen ist und sich auf neue Aufgaben verallgemeinern lässt, die neuartiges optimales Verhalten erfordern. Insbesondere erreicht es bei 1.000 unbekannten Aufgaben eine Erfolgsrate von 42 %, was das 1,7-fache der Erfolgsrate anderer gängiger gelernten Baselines oder Zero-Shot-Anwendungen von LLMs ist. Schließlich stellen wir der Gemeinschaft einen neuartigen Benchmark, Language Rearrangement, zur Verfügung, um sprachgesteuerte, massiv multitaskfähige, verkörperte KI-Probleme zu untersuchen. Dieser besteht aus 150.000 Trainings- und 1.000 Testaufgaben für sprachgesteuerte Umordnungen. Video-Beispiele von LLaRP bei unbekannten Language Rearrangement-Anweisungen finden Sie unter https://llm-rl.github.io.
Große Sprachmodelle werden mit enormen Mengen an Text aus dem Internet trainiert, der sowohl faktenbasierte als auch irreführende Informationen über die Welt enthält. Können Sprachmodelle in diesen widersprüchlichen Daten Wahrheit von Falschheit unterscheiden? Aufbauend auf der Ansicht, dass LLMs verschiedene Agenten modellieren können, die die Textkorpora erzeugen, stellen wir die Hypothese auf, dass sie wahrheitsgetreue Texte clustern können, indem sie eine wahrheitsgetreue Persona modellieren: eine Gruppe von Agenten, die wahrscheinlich wahrheitsgetreue Texte produzieren und ähnliche Merkmale aufweisen. Zum Beispiel verwenden vertrauenswürdige Quellen wie Wikipedia und wissenschaftliche Publikationen in der Regel formelle Schreibstile und machen konsistente Aussagen. Durch die Modellierung dieser Persona können LLMs Wahrhaftigkeit über die spezifischen Kontexte hinaus verallgemeinern, in denen jeder Agent den Trainingstext erzeugt hat. Beispielsweise kann das Modell ableiten, dass der Agent „Wikipedia“ in Bezug auf Themen, die nur von „Wissenschaft“ erzeugt wurden, wahrheitsgetreu agieren wird, da sie eine gemeinsame Persona teilen. Wir zeigen zunächst Belege für die Persona-Hypothese durch zwei Beobachtungen: (1) Wir können prüfen, ob die Antwort eines Modells wahrheitsgetreu sein wird, bevor sie generiert wird; (2) das Feinabstimmen eines Modells auf eine Reihe von Fakten verbessert seine Wahrhaftigkeit bei unbekannten Themen. Anschließend zeigen wir mithilfe von Arithmetik als synthetischem Umfeld, dass Sprachmodelle wahre und falsche Aussagen trennen und Wahrhaftigkeit über Agenten hinweg verallgemeinern können; jedoch nur, wenn die Agenten in den Trainingsdaten einen wahrheitsgetreuen Generierungsprozess teilen, der die Erstellung einer wahrheitsgetreuen Persona ermöglicht. Insgesamt deuten unsere Ergebnisse darauf hin, dass Modelle hierarchische Strukturen in den Daten nutzen können, um abstrakte Konzepte wie Wahrhaftigkeit zu erlernen.