Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Latent Consistency Models (LCMs) haben beeindruckende Leistungen bei der Beschleunigung von Text-zu-Bild-Generierungsaufgaben gezeigt und erzeugen hochwertige Bilder mit minimalen Inferenzschritten. LCMs werden aus vortrainierten Latent Diffusion Models (LDMs) destilliert und benötigen nur etwa 32 A100 GPU-Trainingsstunden. Dieser Bericht erweitert das Potenzial von LCMs in zwei Aspekten: Erstens haben wir durch die Anwendung von LoRA-Destillation auf Stable-Diffusion-Modelle wie SD-V1.5, SSD-1B und SDXL den Anwendungsbereich von LCMs auf größere Modelle mit deutlich geringerem Speicherverbrauch ausgedehnt und dabei eine überlegene Bildgenerierungsqualität erreicht. Zweitens identifizieren wir die durch LCM-Destillation gewonnenen LoRA-Parameter als ein universelles Stable-Diffusion-Beschleunigungsmodul, das als LCM-LoRA bezeichnet wird. LCM-LoRA kann direkt in verschiedene feinabgestimmte Stable-Diffusion-Modelle oder LoRAs eingebunden werden, ohne dass ein Training erforderlich ist, und stellt somit einen universell anwendbaren Beschleuniger für diverse Bildgenerierungsaufgaben dar. Im Vergleich zu früheren numerischen PF-ODE-Solvern wie DDIM und DPM-Solver kann LCM-LoRA als ein Plug-in-Neural-PF-ODE-Solver betrachtet werden, der über starke Generalisierungsfähigkeiten verfügt. Projektseite: https://github.com/luosiallen/latent-consistency-model.
LLaVA-Plus ist ein universeller multimodaler Assistent, der die Fähigkeiten großer multimodaler Modelle erweitert. Es verwaltet ein Repository vorgefertigter Modelle für visuelle und visuell-sprachliche Aufgaben und kann relevante Werkzeuge basierend auf Benutzereingaben aktivieren, um reale Aufgaben zu erfüllen. LLaVA-Plus wird an multimodalen Instruktionsfolgedaten trainiert, um die Fähigkeit zur Nutzung von Werkzeugen zu erlangen, die visuelles Verständnis, Generierung, externe Wissensabfrage und Kompositionen abdecken. Empirische Ergebnisse zeigen, dass LLaVA-Plus LLaVA in bestehenden Fähigkeiten übertrifft und neue Fähigkeiten aufweist. Es zeichnet sich dadurch aus, dass die Bildabfrage direkt verankert und aktiv während der gesamten Mensch-AI-Interaktionssitzungen einbezogen wird, was die Leistung bei der Werkzeugnutzung erheblich verbessert und neue Szenarien ermöglicht.
Wir stellen Prompt Cache vor, einen Ansatz zur Beschleunigung der Inferenz für große Sprachmodelle (LLMs) durch die Wiederverwendung von Aufmerksamkeitszuständen über verschiedene LLM-Prompts hinweg. Viele Eingabe-Prompts enthalten überlappende Textsegmente, wie Systemnachrichten, Prompt-Vorlagen und Dokumente, die als Kontext bereitgestellt werden. Unsere zentrale Erkenntnis ist, dass durch die Vorberechnung und Speicherung der Aufmerksamkeitszustände dieser häufig auftretenden Textsegmente auf dem Inferenz-Server diese effizient wiederverwendet werden können, wenn diese Segmente in Benutzer-Prompts auftauchen. Prompt Cache verwendet ein Schema, um solche wiederverwendbaren Textsegmente, sogenannte Prompt-Module, explizit zu definieren. Das Schema gewährleistet die positionsgenaue Wiederverwendung von Aufmerksamkeitszuständen und bietet Benutzern eine Schnittstelle, um auf zwischengespeicherte Zustände in ihren Prompts zuzugreifen. Mit einem Prototyp evaluieren wir Prompt Cache über mehrere LLMs hinweg. Wir zeigen, dass Prompt Cache die Latenz bis zum ersten Token erheblich reduziert, insbesondere bei längeren Prompts wie dokumentenbasierten Frage-Antwort-Systemen und Empfehlungen. Die Verbesserungen reichen von 8x für GPU-basierte Inferenz bis zu 60x für CPU-basierte Inferenz, wobei die Ausgabegenauigkeit erhalten bleibt und ohne dass Änderungen an den Modellparametern erforderlich sind.
Große Sprachmodelle (LLMs) haben kürzlich menschenähnliche Leistungen auf einer Reihe von professionellen und akademischen Benchmarks erreicht. Die Zugänglichkeit dieser Modelle hinkt jedoch ihrer Leistung hinterher. State-of-the-Art-LLMs erfordern kostspielige Infrastruktur; sind nur über ratenbegrenzte, geolokalisierte und zensierte Web-Schnittstellen zugänglich; und es mangelt an öffentlich verfügbarem Code und technischen Berichten. In diesem Artikel erzählen wir die Geschichte von GPT4All, einem beliebten Open-Source-Repository, das den Zugang zu LLMs demokratisieren möchte. Wir skizzieren die technischen Details der ursprünglichen GPT4All-Modellfamilie sowie die Entwicklung des GPT4All-Projekts von einem einzelnen Modell zu einem vollwertigen Open-Source-Ökosystem. Es ist unsere Hoffnung, dass dieser Artikel sowohl einen technischen Überblick über die ursprünglichen GPT4All-Modelle bietet als auch eine Fallstudie zum anschließenden Wachstum des GPT4All-Open-Source-Ökosystems darstellt.
Jüngste Fortschritte wie LLaVA und Mini-GPT4 haben erfolgreich visuelle Informationen in LLMs integriert, was inspirierende Ergebnisse liefert und eine neue Generation von multimodalen LLMs, oder MLLMs, hervorgebracht hat. Dennoch kämpfen diese Methoden mit Halluzinationen und der gegenseitigen Beeinflussung zwischen Aufgaben. Um diese Probleme zu lösen, schlagen wir einen effizienten und präzisen Ansatz vor, um sich an nachgelagerte Aufgaben anzupassen, indem wir LLM als Brücke nutzen, um mehrere Expertenmodelle zu verbinden, nämlich u-LLaVA. Zunächst integrieren wir das Modul zur Modalitätsausrichtung und Multitask-Module in das LLM. Dann reorganisieren oder rekonstruieren wir öffentliche Datensätze verschiedener Typen, um eine effiziente Modalitätsausrichtung und Befolgung von Anweisungen zu ermöglichen. Schließlich werden aufgabenspezifische Informationen aus dem trainierten LLM extrahiert und verschiedenen Modulen zur Lösung nachgelagerter Aufgaben bereitgestellt. Das Gesamtframework ist einfach, effektiv und erreicht state-of-the-art Leistung über mehrere Benchmarks hinweg. Wir stellen unser Modell, die generierten Daten und die Codebasis ebenfalls öffentlich zur Verfügung.
Die Entwicklung autonomer Fahrtechnologien hängt von der anspruchsvollen Integration von Wahrnehmungs-, Entscheidungs- und Steuerungssystemen ab. Traditionelle Ansätze, sowohl datengetrieben als auch regelbasiert, wurden durch ihre Unfähigkeit, die Nuancen komplexer Fahrumgebungen und die Absichten anderer Verkehrsteilnehmer zu erfassen, behindert. Dies stellte ein erhebliches Hindernis dar, insbesondere bei der Entwicklung von gesundem Menschenverstand und differenziertem Szenenverständnis, die für sicheres und zuverlässiges autonomes Fahren erforderlich sind. Die Einführung von Visual Language Models (VLM) markiert eine neue Ära bei der Realisierung vollständig autonomer Fahrzeuge. Dieser Bericht bietet eine umfassende Bewertung des neuesten State-of-the-Art VLM, \modelnamefull, und dessen Anwendung in autonomen Fahrzeugszenarien. Wir untersuchen die Fähigkeiten des Modells, Fahrzeugszenen zu verstehen und darüber zu schlussfolgern, Entscheidungen zu treffen und letztendlich in der Rolle eines Fahrers zu handeln. Unsere umfangreichen Tests reichen von der grundlegenden Szenenerkennung bis hin zu komplexem kausalem Denken und Echtzeitentscheidungsfindung unter verschiedenen Bedingungen. Unsere Ergebnisse zeigen, dass \modelname im Vergleich zu bestehenden autonomen Systemen eine überlegene Leistung beim Szenenverständnis und kausalen Denken aufweist. Es zeigt das Potenzial, Out-of-Distribution-Szenarien zu bewältigen, Absichten zu erkennen und fundierte Entscheidungen in realen Fahrkontexten zu treffen. Dennoch bleiben Herausforderungen bestehen, insbesondere bei der Richtungserkennung, der Erkennung von Verkehrsampeln, der visuellen Verankerung und räumlichen Denkaufgaben. Diese Einschränkungen unterstreichen die Notwendigkeit weiterer Forschung und Entwicklung. Das Projekt ist nun auf GitHub für interessierte Parteien verfügbar und kann genutzt werden: https://github.com/PJLab-ADG/GPT4V-AD-Exploration