Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Der jüngste Anstieg von Open-Source-Large-Language-Models (LLMs) wie LLaMA, Falcon und Mistral bietet vielfältige Optionen für KI-Praktiker und Forscher. Die meisten LLMs haben jedoch nur Teilartefakte veröffentlicht, wie die finalen Modellgewichte oder Inferenz-Code, und technische Berichte beschränken ihren Umfang zunehmend auf hochrangige Designentscheidungen und oberflächliche Statistiken. Diese Entscheidungen behindern den Fortschritt auf diesem Gebiet, indem sie die Transparenz in Bezug auf das Training von LLMs verringern und Teams dazu zwingen, viele Details des Trainingsprozesses neu zu entdecken. Wir stellen LLM360 vor, eine Initiative zur vollständigen Open-Source-Freigabe von LLMs, die sich dafür einsetzt, dass der gesamte Trainingscode und die Daten, Modell-Checkpoints und Zwischenergebnisse der Community zur Verfügung gestellt werden. Das Ziel von LLM360 ist es, offene und kollaborative KI-Forschung zu unterstützen, indem der end-to-end LLM-Trainingsprozess transparent und für jeden reproduzierbar gemacht wird. Als ersten Schritt von LLM360 veröffentlichen wir zwei 7B-Parameter-LLMs, Amber und CrystalCoder, die von Grund auf vortrainiert wurden, einschließlich ihres Trainingscodes, der Daten, Zwischen-Checkpoints und Analysen (unter https://www.llm360.ai). Wir sind bestrebt, die Grenzen von LLMs durch diesen Open-Source-Ansatz kontinuierlich zu erweitern. Weitere groß angelegte und leistungsstärkere Modelle sind in Arbeit und werden in Zukunft veröffentlicht.
Das Feinabstimmen von Sprachmodellen (LMs) anhand von menschengenerierten Daten bleibt eine weit verbreitete Praxis. Die Leistung solcher Modelle wird jedoch oft durch die Menge und Vielfalt hochwertiger menschlicher Daten begrenzt. In diesem Artikel untersuchen wir, ob wir über menschliche Daten hinausgehen können, wenn wir Zugang zu skalarem Feedback haben, beispielsweise bei mathematischen Problemen, bei denen die Korrektheit überprüft werden kann. Dazu untersuchen wir eine einfache Selbsttrainingsmethode basierend auf dem Expectation-Maximization-Algorithmus, die wir ReST^{EM} nennen, bei der wir (1) Stichproben aus dem Modell generieren und sie mithilfe von binärem Feedback filtern, (2) das Modell anhand dieser Stichproben feinabstimmen und (3) diesen Prozess einige Male wiederholen. Bei Tests mit fortgeschrittenen MATH-Reasoning- und APPS-Coding-Benchmarks unter Verwendung von PaLM-2-Modellen stellen wir fest, dass ReST^{EM} mit zunehmender Modellgröße günstig skaliert und das Feinabstimmen ausschließlich anhand menschlicher Daten deutlich übertrifft. Insgesamt deuten unsere Ergebnisse darauf hin, dass Selbsttraining mit Feedback die Abhängigkeit von menschengenerierten Daten erheblich verringern kann.
Wir präsentieren W.A.L.T, einen Transformer-basierten Ansatz für die fotorealistische Videogenerierung mittels Diffusionsmodellierung. Unser Ansatz umfasst zwei zentrale Designentscheidungen. Erstens verwenden wir einen kausalen Encoder, um Bilder und Videos gemeinsam in einem einheitlichen latenten Raum zu komprimieren, was das Training und die Generierung über verschiedene Modalitäten hinweg ermöglicht. Zweitens nutzen wir für Speicher- und Trainingseffizienz eine Window-Attention-Architektur, die speziell für die gemeinsame räumliche und raumzeitliche generative Modellierung entwickelt wurde. Zusammengenommen ermöglichen uns diese Designentscheidungen, state-of-the-art Leistungen auf etablierten Benchmarks für die Videogenerierung (UCF-101 und Kinetics-600) und die Bildgenerierung (ImageNet) zu erzielen, ohne dabei auf Classifier-Free Guidance zurückzugreifen. Schließlich trainieren wir auch eine Kaskade von drei Modellen für die Aufgabe der Text-zu-Video-Generierung, bestehend aus einem Basis-Latent-Video-Diffusionsmodell und zwei Video-Super-Resolution-Diffusionsmodellen, um Videos mit einer Auflösung von 512 mal 896 bei 8 Bildern pro Sekunde zu erzeugen.
Kürzlich hat die 3D-Inhaltserstellung aus Textprompts bemerkenswerte Fortschritte durch die Nutzung von 2D- und 3D-Diffusionsmodellen gezeigt. Während 3D-Diffusionsmodelle eine hervorragende Multi-View-Konsistenz gewährleisten, wird ihre Fähigkeit, hochwertige und vielfältige 3D-Assets zu generieren, durch die begrenzten 3D-Daten eingeschränkt. Im Gegensatz dazu finden 2D-Diffusionsmodelle einen Destillationsansatz, der eine ausgezeichnete Generalisierung und detailreiche Ergebnisse ohne jegliche 3D-Daten erreicht. Allerdings leiden 2D-Lifting-Methoden unter inhärenter sichtunabhängiger Mehrdeutigkeit, was zu schwerwiegenden Multi-Face-Janus-Problemen führt, bei denen Textprompts nicht ausreichend Anleitung bieten, um kohärente 3D-Ergebnisse zu erlernen. Anstatt ein kostspieliges sichtpunktbewusstes Modell neu zu trainieren, untersuchen wir, wie leicht zugängliches grobes 3D-Wissen vollständig genutzt werden kann, um die Prompts zu verbessern und die 2D-Lifting-Optimierung zur Verfeinerung zu leiten. In diesem Artikel schlagen wir Sherpa3D vor, ein neues Text-zu-3D-Framework, das gleichzeitig hohe Detailtreue, Generalisierbarkeit und geometrische Konsistenz erreicht. Insbesondere entwerfen wir ein Paar von Leitstrategien, die aus dem groben 3D-Prior abgeleitet werden, das vom 3D-Diffusionsmodell erzeugt wird: eine strukturelle Leitlinie für geometrische Detailtreue und eine semantische Leitlinie für 3D-Kohärenz. Durch den Einsatz dieser beiden Leitlinien bereichert das 2D-Diffusionsmodell den 3D-Inhalt mit vielfältigen und hochwertigen Ergebnissen. Umfangreiche Experimente zeigen die Überlegenheit unseres Sherpa3D gegenüber den state-of-the-art Text-zu-3D-Methoden in Bezug auf Qualität und 3D-Konsistenz.
Moderne Large Vision-Language Models (LVLMs) nutzen dasselbe visuelle Vokabular – CLIP, das die meisten gängigen visuellen Aufgaben abdecken kann. Für spezielle visuelle Aufgaben, die eine dichte und feinkörnige visuelle Wahrnehmung erfordern, wie z.B. dokumentenbasierte OCR oder Diagrammverständnis, insbesondere in nicht-englischen Szenarien, kann das CLIP-artige Vokabular jedoch ineffizient bei der Tokenisierung des visuellen Wissens sein und sogar auf Out-of-Vocabulary-Probleme stoßen. Dementsprechend schlagen wir Vary vor, eine effiziente und effektive Methode zur Erweiterung des visuellen Vokabulars von LVLMs. Die Verfahren von Vary lassen sich natürlich in zwei Schritte unterteilen: die Generierung und Integration eines neuen visuellen Vokabulars. In der ersten Phase entwickeln wir ein Vokabelnetzwerk zusammen mit einem kleinen Decoder-Only-Transformer, um das gewünschte Vokabular durch Autoregression zu erzeugen. Im nächsten Schritt erweitern wir das ursprüngliche visuelle Vokabular, indem wir das neue mit dem ursprünglichen (CLIP) zusammenführen, wodurch die LVLMs schnell neue Merkmale erfassen können. Im Vergleich zu den populären Modellen BLIP-2, MiniGPT4 und LLaVA kann Vary seine ursprünglichen Fähigkeiten beibehalten und gleichzeitig eine hervorragende feinkörnige Wahrnehmungs- und Verständnisfähigkeit genießen. Insbesondere ist Vary in der Lage, neue Funktionen zur Dokumentenanalyse (OCR oder Markdown-Konvertierung) zu bewältigen, während es 78,2 % ANLS in DocVQA und 36,2 % in MMVet erreicht. Unser Code wird auf der Homepage öffentlich verfügbar sein.
Große Sprachmodelle (LLMs) besitzen die bemerkenswerte Fähigkeit, neue Aufgaben mit nur wenigen Beispielen zu lösen, benötigen jedoch Zugang zu den richtigen Werkzeugen. Retrieval Augmented Generation (RAG) adressiert dieses Problem, indem es eine Liste relevanter Werkzeuge für eine gegebene Aufgabe abruft. Allerdings erfordert der Werkzeugabrufschritt von RAG, dass alle erforderlichen Informationen explizit in der Anfrage enthalten sind. Dies stellt eine Einschränkung dar, da die semantische Suche, die weit verbreitete Methode zum Werkzeugabruf, scheitern kann, wenn die Anfrage unvollständig ist oder Kontext fehlt. Um diese Einschränkung zu überwinden, schlagen wir Context Tuning für RAG vor, das ein intelligentes Kontextabrufsystem verwendet, um relevante Informationen abzurufen, die sowohl den Werkzeugabruf als auch die Planerstellung verbessern. Unser leichtgewichtiges Kontextabrufmodell nutzt numerische, kategorische und gewohnheitsmäßige Nutzungssignale, um Kontextelemente abzurufen und zu bewerten. Unsere empirischen Ergebnisse zeigen, dass Context Tuning die semantische Suche signifikant verbessert und eine 3,5-fache bzw. 1,5-fache Steigerung des Recall@K für Kontextabruf- und Werkzeugabrufaufgaben erreicht, was zu einer 11,6%igen Steigerung der Genauigkeit des LLM-basierten Planers führt. Darüber hinaus zeigen wir, dass unser vorgeschlagenes leichtgewichtiges Modell, das Reciprocal Rank Fusion (RRF) mit LambdaMART verwendet, den GPT-4-basierten Abruf übertrifft. Zusätzlich beobachten wir, dass die Kontextanreicherung bei der Planerstellung, selbst nach dem Werkzeugabruf, Halluzinationen reduziert.
Wir berichten über die Entwicklung von Alter3, einem humanoiden Roboter, der in der Lage ist, spontane Bewegungen mithilfe eines Large Language Models (LLM), speziell GPT-4, zu erzeugen. Diese Leistung wurde durch die Integration von GPT-4 in unseren proprietären Androiden, Alter3, erreicht, wodurch das LLM effektiv mit den Körperbewegungen von Alter verknüpft wurde. Typischerweise ist die Low-Level-Robotersteuerung hardwareabhängig und fällt außerhalb des Anwendungsbereichs von LLM-Korpora, was Herausforderungen für die direkte LLM-basierte Robotersteuerung darstellt. Im Fall von humanoiden Robotern wie Alter3 ist jedoch eine direkte Steuerung möglich, indem die sprachlichen Ausdrücke menschlicher Handlungen durch Programmcode auf den Körper des Roboters abgebildet werden. Bemerkenswerterweise ermöglicht dieser Ansatz Alter3, verschiedene Posen einzunehmen, wie beispielsweise eine „Selfie“-Haltung oder „sich als Geist auszugeben“, und über die Zeit hinweg Aktionssequenzen zu erzeugen, ohne dass eine explizite Programmierung für jeden Körperteil erforderlich ist. Dies demonstriert die Zero-Shot-Lernfähigkeiten des Roboters. Zusätzlich kann verbales Feedback die Posen anpassen, wodurch die Notwendigkeit einer Feinabstimmung entfällt. Ein Video der von Alter3 erzeugten Bewegungen ist unter https://tnoinkwms.github.io/ALTER-LLM/ verfügbar.
Latent Diffusion Models (LDMs) erfassen die dynamische Entwicklung latenter Variablen über die Zeit und verbinden Muster und Multimodalität in einem generativen System. Trotz der Kompetenz von LDMs in verschiedenen Anwendungen, wie der Text-zu-Bild-Generierung, die durch robuste Text-Encoder und ein variationsautoencoderbasiertes System ermöglicht wird, zwingt die dringende Notwendigkeit, große generative Modelle auf Edge-Geräten zu implementieren, zur Suche nach kompakteren, aber dennoch effektiven Alternativen. Post Training Quantization (PTQ), eine Methode zur Komprimierung der Betriebsgröße von Deep-Learning-Modellen, stößt bei der Anwendung auf LDMs aufgrund von zeitlichen und strukturellen Komplexitäten auf Herausforderungen. Diese Studie schlägt eine Quantisierungsstrategie vor, die LDMs effizient quantisiert und dabei das Signal-zu-Quantisierungs-Rausch-Verhältnis (SQNR) als zentrale Metrik für die Bewertung nutzt. Indem wir die Quantisierungsabweichung als relatives Rauschen behandeln und empfindliche Teile eines Modells identifizieren, entwickeln wir einen effizienten Quantisierungsansatz, der sowohl globale als auch lokale Strategien umfasst. Der globale Quantisierungsprozess reduziert das relative Quantisierungsrauschen, indem er eine höherpräzise Quantisierung auf empfindlichen Blöcken initiiert, während lokale Behandlungen spezifische Herausforderungen in quantisierungs- und zeitkritischen Modulen adressieren. Die Ergebnisse unserer Experimente zeigen, dass die Implementierung sowohl globaler als auch lokaler Behandlungen eine hocheffiziente und effektive Post Training Quantization (PTQ) von LDMs ermöglicht.
Wir stellen Llama Guard vor, ein auf großen Sprachmodellen (LLM) basierendes Sicherheitsmodell für Eingabe-Ausgabe, das auf Anwendungsfälle der Mensch-KI-Kommunikation ausgerichtet ist. Unser Modell integriert eine Sicherheitsrisiko-Taxonomie, ein wertvolles Werkzeug zur Kategorisierung eines spezifischen Satzes von Sicherheitsrisiken, die in LLM-Prompts auftreten (d.h. Prompt-Klassifizierung). Diese Taxonomie ist auch entscheidend für die Klassifizierung der von LLMs generierten Antworten auf diese Prompts, ein Prozess, den wir als Antwort-Klassifizierung bezeichnen. Für die Zwecke sowohl der Prompt- als auch der Antwort-Klassifizierung haben wir sorgfältig einen qualitativ hochwertigen Datensatz zusammengestellt. Llama Guard, ein Llama2-7b-Modell, das auf unserem gesammelten Datensatz instruktionsfeinabgestimmt wurde, zeigt trotz des geringen Umfangs starke Leistungen auf bestehenden Benchmarks wie dem OpenAI Moderation Evaluation-Datensatz und ToxicChat, wo seine Leistung die der derzeit verfügbaren Inhaltsmoderationstools erreicht oder übertrifft. Llama Guard fungiert als Sprachmodell, das Multi-Klass-Klassifizierung durchführt und binäre Entscheidungswerte generiert. Darüber hinaus ermöglicht die Instruktionsfeinabstimmung von Llama Guard die Anpassung von Aufgaben und die Anpassung von Ausgabeformaten. Diese Funktion erweitert die Fähigkeiten des Modells, wie z.B. die Anpassung von Taxonomiekategorien, um sie an spezifische Anwendungsfälle anzupassen, und die Erleichterung von Zero-Shot- oder Few-Shot-Prompting mit verschiedenen Taxonomien am Eingang. Wir stellen die Modellgewichte von Llama Guard zur Verfügung und ermutigen Forscher, sie weiterzuentwickeln und anzupassen, um den sich entwickelnden Anforderungen der Gemeinschaft an KI-Sicherheit gerecht zu werden.
Vortrainierte große Sprachmodelle (LLMs) benötigen Feinabstimmung, um ihre Reaktionsfähigkeit auf natürliche Sprachbefehle zu verbessern. Federated Learning (FL) bietet eine Möglichkeit, diese Feinabstimmung unter Verwendung der reichlich vorhandenen Daten auf Endgeräten durchzuführen, ohne die Datensicherheit zu gefährden. Die meisten bestehenden Methoden zur federated Feinabstimmung von LLMs stützen sich auf parameter-effiziente Feinabstimmungstechniken, die möglicherweise nicht die Leistungshöhen erreichen, die mit einer vollständigen Parameterabstimmung möglich sind. Der mit der vollständigen Parameterabstimmung verbundene Kommunikationsaufwand ist jedoch sowohl für Server als auch für Clients unverhältnismäßig hoch. Diese Arbeit stellt FedKSeed vor, einen neuartigen Ansatz, der die Optimierung nullter Ordnung (ZOO) mit einer Reihe von Zufallsseeds verwendet. Es ermöglicht die federated vollständige Parameterabstimmung von milliardenschweren LLMs direkt auf den Geräten. Unsere Methode reduziert die Übertragungsanforderungen zwischen Server und Clients erheblich auf nur wenige skalare Gradienten und Zufallsseeds, was nur wenige tausend Bytes ausmacht. Darauf aufbauend entwickeln wir eine Strategie, um die Bedeutung von ZOO-Störungen für FL zu bewerten, was eine wahrscheinlichkeitsdifferenzierte Seed-Stichprobe ermöglicht. Dadurch werden Störungen priorisiert, die einen größeren Einfluss auf die Modellgenauigkeit haben. Experimente in sechs Szenarien mit verschiedenen LLMs, Datensätzen und Datenpartitionen zeigen, dass unser Ansatz bestehende Methoden zur federated Feinabstimmung von LLMs sowohl in Bezug auf die Kommunikationseffizienz als auch auf die Generalisierung neuer Aufgaben übertrifft.
Verschiedene Methoden wurden vorgeschlagen, um Large Language Models (LLMs) im Bereich des autonomen Fahrens zu nutzen. Eine Strategie zur Verwendung von LLMs für das autonome Fahren besteht darin, umgebende Objekte als Textprompts in die LLMs einzugeben, zusammen mit deren Koordinaten- und Geschwindigkeitsinformationen, und anschließend die nachfolgenden Bewegungen des Fahrzeugs auszugeben. Bei der Verwendung von LLMs für solche Zwecke sind Fähigkeiten wie räumliche Erkennung und Planung entscheidend. Insbesondere sind zwei grundlegende Fähigkeiten erforderlich: (1) raumbezogene Entscheidungsfindung, also die Fähigkeit, den Raum anhand von Koordinateninformationen zu erkennen und Kollisionen zu vermeiden, und (2) die Fähigkeit, Verkehrsregeln einzuhalten. Bislang wurde jedoch keine quantitative Forschung dazu durchgeführt, wie genau verschiedene Arten von LLMs diese Probleme bewältigen können. In dieser Studie haben wir diese beiden Fähigkeiten von LLMs im Kontext des autonomen Fahrens quantitativ bewertet. Darüber hinaus haben wir, um einen Proof of Concept (POC) für die Machbarkeit der Implementierung dieser Fähigkeiten in echten Fahrzeugen durchzuführen, ein System entwickelt, das LLMs zur Steuerung eines Fahrzeugs verwendet.
Captum ist eine umfassende Bibliothek für die Erklärbarkeit von Modellen in PyTorch, die eine Vielzahl von Methoden aus der Interpretationsliteratur bietet, um das Verständnis von PyTorch-Modellen zu verbessern. In diesem Artikel stellen wir neue Funktionen in Captum vor, die speziell zur Analyse des Verhaltens von generativen Sprachmodellen entwickelt wurden. Wir geben einen Überblick über die verfügbaren Funktionalitäten und beispielhafte Anwendungen, die ihr Potenzial zur Untersuchung erlernter Assoziationen innerhalb generativer Sprachmodelle aufzeigen.
Große Sprachmodelle (LLMs) haben eine beeindruckende Fähigkeit zur Textgenerierung gezeigt. Das Erzielen optimaler Ergebnisse mit einem gegebenen Prompt oder einer Anweisung kann jedoch herausfordernd sein, insbesondere bei Modellen mit Milliarden von Parametern. Zudem können unerwünschte Verhaltensweisen wie Toxizität oder Halluzinationen auftreten. Obwohl deutlich größere Modelle (z. B. ChatGPT) Stärken bei der Minderung dieser Probleme zeigen können, gibt es dennoch keine Garantie für deren vollständige Vermeidung. In dieser Arbeit schlagen wir vor, die Textgenerierung als ein zukunftsbeschränktes Generierungsproblem zu formalisieren, um unerwünschte Verhaltensweisen zu minimieren und die Treue zu Anweisungen zu gewährleisten. Die Abschätzung der zukünftigen Beschränkungserfüllung, die mithilfe von LLMs durchgeführt wird, leitet den Textgenerierungsprozess. Unsere umfangreichen Experimente demonstrieren die Wirksamkeit des vorgeschlagenen Ansatzes in drei verschiedenen Textgenerierungsaufgaben: schlüsselwortbeschränkte Generierung (Lin et al., 2020), Toxizitätsreduktion (Gehman et al., 2020) und faktische Korrektheit bei der Beantwortung von Fragen (Gao et al., 2023).
In dieser Arbeit untersuchen wir empirisch die Optimierungsdynamik des Multi-Task-Lernens, mit einem besonderen Fokus auf diejenigen, die eine Sammlung von Aufgaben mit erheblichem Datenungleichgewicht steuern. Wir stellen eine einfache, aber effektive Methode vor, die ein Pre-Training auf ressourcenstarken Aufgaben gefolgt von einem Fine-Tuning auf einer Mischung aus ressourcenstarken und ressourcenschwachen Aufgaben umfasst. Wir bieten eine umfassende empirische Studie und Analyse der Vorteile dieser Methode und zeigen, dass sie im Vergleich zum Leistungskompromissprofil der standardmäßigen statischen Gewichtung konsistente Verbesserungen erzielt. Wir analysieren, unter welchen Datenregimen diese Methode anwendbar ist, und zeigen ihre Verbesserungen empirisch in der neuronalen maschinellen Übersetzung (NMT) und im mehrsprachigen Sprachmodellieren.
MEGA ist eine kürzlich entwickelte Transformer-basierte Architektur, die einen linearen rekurrenten Operator verwendet, dessen parallele Berechnung auf der FFT basiert und sich mit O(LlogL) skaliert, wobei L die Sequenzlänge ist. Wir bauen auf diesem Ansatz auf, indem wir die lineare Rekurrenz durch ein spezielles temporales Faltungsnetzwerk ersetzen, das größere rezeptive Feldgrößen mit flacheren Netzwerken ermöglicht und die Rechenkomplexität auf O(L) reduziert. Das resultierende Modell wird TCNCA genannt, ein Temporales Faltungsnetzwerk mit Chunked Attention. Wir evaluieren TCNCA auf EnWik8-Sprachmodellierung, Long-Range-Arena (LRA)-Sequenzklassifizierung sowie einem synthetischen Reasoning-Benchmark für assoziatives Abrufen. Auf EnWik8 übertrifft TCNCA MEGA, erreicht einen niedrigeren Verlust und ist 1,37-mal/1,24-mal schneller im Vorwärts-/Rückwärtsdurchlauf während des Trainings. Die in TCNCA verwendeten dilatierten Faltungen sind durchweg und deutlich schnellere Operationen als die FFT-basierte parallelisierte Rekurrenz auf GPUs, was sie zu einem skalierbaren Kandidaten für die Verarbeitung sehr großer Sequenzlängen macht: Sie sind bis zu 7,07-mal/2,86-mal schneller im Vorwärts-/Rückwärtsdurchlauf für Sequenzen bis zu 131k. Weiterhin erreicht TCNCA auf LRA im Durchschnitt eine 1,28-mal schnellere Inferenz bei ähnlicher Genauigkeit wie MEGA. Beim assoziativen Abrufen stellen wir fest, dass sogar eine vereinfachte Version von TCNCA, ohne übermäßige multiplikative und additive Interaktionen, MEGA bei einer Reihe von Sequenzlängen und Vokabulargrößen übertrifft oder konkurrenzfähig bleibt.