Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Text-zu-Bild-Generierung hat in letzter Zeit bemerkenswerte Fortschritte erzielt. Wir stellen ein textbedingtes Bild-Diffusionsmodell vor, genannt RAPHAEL, das hochgradig künstlerische Bilder erzeugt, die die Textvorgaben präzise darstellen und dabei mehrere Substantive, Adjektive und Verben umfassen. Dies wird durch das Stapeln von Dutzenden von Mixture-of-Experts (MoE)-Schichten erreicht, nämlich Space-MoE- und Time-MoE-Schichten, die Milliarden von Diffusionspfaden (Routen) vom Netzwerkeingang zum Ausgang ermöglichen. Jeder Pfad fungiert intuitiv als „Maler“, der ein bestimmtes textuelles Konzept in einem spezifischen Bildbereich zu einem bestimmten Diffusionszeitpunkt darstellt. Umfassende Experimente zeigen, dass RAPHAEL aktuelle Spitzenmodelle wie Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd und DALL-E 2 sowohl in Bezug auf die Bildqualität als auch auf die ästhetische Anziehungskraft übertrifft. Erstens zeigt RAPHAEL eine überlegene Leistung beim Wechsel von Bildern zwischen verschiedenen Stilen wie japanischen Comics, Realismus, Cyberpunk und Tuscheillustrationen. Zweitens erreicht ein einzelnes Modell mit drei Milliarden Parametern, das auf 1.000 A100-GPUs über zwei Monate trainiert wurde, einen state-of-the-art Zero-Shot-FID-Score von 6,61 auf dem COCO-Datensatz. Darüber hinaus übertrifft RAPHAEL seine Konkurrenten in der menschlichen Bewertung auf dem ViLG-300-Benchmark deutlich. Wir glauben, dass RAPHAEL das Potenzial hat, die Grenzen der Bildgenerierungsforschung sowohl in der Wissenschaft als auch in der Industrie voranzutreiben und den Weg für zukünftige Durchbrüche in diesem sich schnell entwickelnden Feld zu ebnen. Weitere Details finden Sie auf der Projektwebseite: https://raphael-painter.github.io/.
Wir schlagen eine Methode vor, um eingefrorene textbasierte große Sprachmodelle (LLMs) mit vortrainierten Bildencoder- und -decoder-Modellen zu fusionieren, indem wir zwischen ihren Einbettungsräumen abbilden. Unser Modell zeigt eine breite Palette multimodaler Fähigkeiten: Bildabruf, Erzeugung neuer Bilder und multimodaler Dialog. Unser Ansatz ist der erste, der in der Lage ist, auf beliebig verschachtelte Bild- und Texteingaben zu konditionieren, um kohärente Bild- (und Text-)Ausgaben zu erzeugen. Um eine starke Leistung bei der Bildgenerierung zu erreichen, schlagen wir ein effizientes Abbildungsnetzwerk vor, das das LLM an ein gebrauchsfertiges Text-zu-Bild-Generierungsmodell bindet. Dieses Abbildungsnetzwerk übersetzt verborgene Textrepräsentationen in den Einbettungsraum der visuellen Modelle, wodurch wir die starken Textrepräsentationen des LLM für visuelle Ausgaben nutzen können. Unser Ansatz übertrifft Baseline-Generierungsmodelle bei Aufgaben mit längeren und komplexeren Texten. Neben der Erzeugung neuer Bilder ist unser Modell auch in der Lage, Bilder aus einem vordefinierten Datensatz abzurufen, und entscheidet zur Inferenzzeit, ob es abrufen oder generieren soll. Dies geschieht mit einem gelernten Entscheidungsmodul, das auf den verborgenen Repräsentationen des LLM konditioniert. Unser Modell zeigt im Vergleich zu früheren multimodalen Sprachmodellen ein breiteres Spektrum an Fähigkeiten. Es kann Bild- und Texteingaben verarbeiten und abgerufene Bilder, generierte Bilder und generierte Texte erzeugen – und übertrifft dabei nicht-LLM-basierte Generierungsmodelle in mehreren Text-zu-Bild-Aufgaben, die Kontextabhängigkeit messen.
Öffentlich zugängliche großskalige Text-zu-Bild-Diffusionsmodelle wie Stable Diffusion haben erhebliche Aufmerksamkeit in der Community erregt. Diese Modelle können mithilfe von Low-Rank-Adaptationen (LoRAs) leicht für neue Konzepte angepasst werden. Die Nutzung mehrerer Konzept-LoRAs, um gemeinsam mehrere angepasste Konzepte zu unterstützen, stellt jedoch eine Herausforderung dar. Wir bezeichnen dieses Szenario als dezentrale Multi-Konzept-Anpassung, die die Konzeptanpassung auf Einzelkundenebene und die Konzeptfusion auf zentraler Ebene umfasst. In diesem Artikel schlagen wir ein neues Framework namens Mix-of-Show vor, das die Herausforderungen der dezentralen Multi-Konzept-Anpassung adressiert, einschließlich Konzeptkonflikten, die durch bestehende Einzelkunden-LoRA-Anpassungen entstehen, und Identitätsverlust während der Modellfusion. Mix-of-Show verwendet eine embedding-dekomponierte LoRA (ED-LoRA) für die Einzelkundenanpassung und Gradientenfusion für den zentralen Knoten, um die domänenspezifische Essenz einzelner Konzepte zu bewahren und theoretisch unbegrenzte Konzeptfusion zu unterstützen. Zusätzlich führen wir regional kontrollierbares Sampling ein, das räumlich kontrollierbares Sampling (z.B. ControlNet und T2I-Adaptor) erweitert, um Probleme der Attributbindung und fehlender Objekte beim Multi-Konzept-Sampling zu lösen. Umfangreiche Experimente zeigen, dass Mix-of-Show in der Lage ist, mehrere angepasste Konzepte, einschließlich Charaktere, Objekte und Szenen, mit hoher Detailtreue zu kombinieren.
Stable Diffusion revolutionierte die Erstellung von Bildern aus beschreibendem Text. GPT-2, GPT-3(.5) und GPT-4 zeigten beeindruckende Leistungen bei einer Vielzahl von Sprachaufgaben. ChatGPT führte solche Sprachmodelle der breiten Öffentlichkeit vor. Es ist nun klar, dass große Sprachmodelle (LLMs) hier bleiben werden und drastische Veränderungen im gesamten Ökosystem von Online-Texten und Bildern bewirken werden. In diesem Beitrag betrachten wir, was die Zukunft bringen könnte. Was wird mit GPT-{n} geschehen, sobald LLMs einen Großteil der im Internet verfügbaren Sprache beitragen? Wir stellen fest, dass die Verwendung von modellgenerierten Inhalten im Training irreversible Defekte in den resultierenden Modellen verursacht, bei denen die Randbereiche der ursprünglichen Inhaltsverteilung verschwinden. Wir bezeichnen diesen Effekt als Modell-Demenz und zeigen, dass er in Variational Autoencodern (VAEs), Gaussian Mixture Models (GMMs) und LLMs auftreten kann. Wir entwickeln eine theoretische Intuition hinter diesem Phänomen und verdeutlichen seine Allgegenwart bei allen gelernten generativen Modellen. Wir demonstrieren, dass es ernst genommen werden muss, wenn wir die Vorteile des Trainings mit großflächig aus dem Web gesammelten Daten erhalten wollen. Tatsächlich wird der Wert von Daten, die über echte menschliche Interaktionen mit Systemen gesammelt werden, in Anwesenheit von durch LLMs generierten Inhalten in aus dem Internet gecrawlten Daten zunehmend wertvoll sein.
Dieses Paper zielt darauf ab, Large Language Models (LLMs) effizient in die Lage zu versetzen, multimodale Werkzeuge zu nutzen. Fortgeschrittene proprietäre LLMs wie ChatGPT und GPT-4 haben durch ausgeklügelte Prompt-Engineering-Techniken großes Potenzial für die Werkzeugnutzung gezeigt. Dennoch basieren diese Modelle typischerweise auf prohibitiv hohen Rechenkosten und öffentlich nicht zugänglichen Daten. Um diese Herausforderungen zu bewältigen, schlagen wir GPT4Tools basierend auf Self-Instruct vor, um Open-Source-LLMs wie LLaMA und OPT in die Lage zu versetzen, Werkzeuge zu nutzen. Es generiert einen Instruction-Following-Datensatz, indem ein fortgeschrittener Lehrer mit verschiedenen multimodalen Kontexten angeregt wird. Durch die Verwendung der Low-Rank Adaptation (LoRA)-Optimierung ermöglicht unser Ansatz den Open-Source-LLMs, eine Reihe von visuellen Problemen zu lösen, einschließlich visueller Verständnisaufgaben und Bildgenerierung. Darüber hinaus stellen wir einen Benchmark zur Verfügung, um die Fähigkeit von LLMs zur Werkzeugnutzung zu bewerten, der sowohl in Zero-Shot- als auch in Fine-Tuning-Szenarien durchgeführt wird. Umfangreiche Experimente demonstrieren die Effektivität unserer Methode bei verschiedenen Sprachmodellen, die nicht nur die Genauigkeit bei der Verwendung bekannter Werkzeuge signifikant verbessert, sondern auch die Zero-Shot-Fähigkeit für unbekannte Werkzeuge ermöglicht. Der Code und eine Demo sind unter https://github.com/StevenGrove/GPT4Tools verfügbar.
Wir präsentieren MindEye, einen neuartigen fMRI-zu-Bild-Ansatz, um betrachtete Bilder aus Gehirnaktivität abzurufen und zu rekonstruieren. Unser Modell besteht aus zwei parallelen Submodulen, die spezialisiert sind für das Retrieval (unter Verwendung von kontrastivem Lernen) und die Rekonstruktion (unter Verwendung eines Diffusions-Priors). MindEye kann fMRI-Gehirnaktivität in jeden hochdimensionalen multimodalen latenten Raum abbilden, wie beispielsweise den CLIP-Bildraum, wodurch die Bildrekonstruktion mithilfe von generativen Modellen ermöglicht wird, die Einbettungen aus diesem latenten Raum akzeptieren. Wir vergleichen unseren Ansatz umfassend mit anderen bestehenden Methoden, sowohl durch qualitative Gegenüberstellungen als auch durch quantitative Bewertungen, und zeigen, dass MindEye in beiden Aufgaben – Rekonstruktion und Retrieval – state-of-the-art Leistungen erzielt. Insbesondere kann MindEye das exakte Originalbild selbst unter stark ähnlichen Kandidaten abrufen, was darauf hindeutet, dass seine Gehirn-Einbettungen feinkörnige, bildspezifische Informationen bewahren. Dies ermöglicht es uns, Bilder selbst aus groß angelegten Datenbanken wie LAION-5B präzise abzurufen. Wir zeigen durch Ablationen, dass die Leistungsverbesserungen von MindEye gegenüber früheren Methoden auf spezialisierte Submodule für Retrieval und Rekonstruktion, verbesserte Trainingsmethoden und das Training von Modellen mit einer um Größenordnungen höheren Parameteranzahl zurückzuführen sind. Darüber hinaus demonstrieren wir, dass MindEye durch die Verwendung von img2img mit Ausgaben eines separaten Autoencoders niedrigstufige Bildmerkmale in den Rekonstruktionen besser bewahren kann. Der gesamte Code ist auf GitHub verfügbar.
Eine präzise Story-Visualisierung erfordert mehrere notwendige Elemente, wie z.B. die Identitätskonsistenz über verschiedene Frames hinweg, die Ausrichtung zwischen Klartext und visuellem Inhalt sowie eine sinnvolle Anordnung von Objekten in den Bildern. Die meisten bisherigen Arbeiten versuchen, diese Anforderungen zu erfüllen, indem sie ein Text-zu-Bild (T2I)-Modell auf eine Reihe von Videos im gleichen Stil und mit denselben Charakteren anpassen, z.B. den FlintstonesSV-Datensatz. Die trainierten T2I-Modelle haben jedoch typischerweise Schwierigkeiten, sich an neue Charaktere, Szenen und Stile anzupassen, und es fehlt ihnen oft die Flexibilität, die Anordnung der synthetisierten Bilder zu überarbeiten. Dieses Papier schlägt ein System für die generische interaktive Story-Visualisierung vor, das in der Lage ist, mehrere neue Charaktere zu verarbeiten und die Bearbeitung von Layout und lokaler Struktur zu unterstützen. Es wird entwickelt, indem das Vorwissen großer Sprach- und T2I-Modelle, die auf umfangreichen Korpora trainiert wurden, genutzt wird. Das System besteht aus vier miteinander verbundenen Komponenten: Story-zu-Prompt-Generierung (S2P), Text-zu-Layout-Generierung (T2L), kontrollierbare Text-zu-Bild-Generierung (C-T2I) und Bild-zu-Video-Animation (I2V). Zunächst wandelt das S2P-Model prägnante Story-Informationen in detaillierte Prompts um, die für die nachfolgenden Stufen erforderlich sind. Anschließend generiert T2L vielfältige und sinnvolle Layouts basierend auf den Prompts und bietet Benutzern die Möglichkeit, das Layout nach ihren Vorlieben anzupassen und zu verfeinern. Die Kernkomponente, C-T2I, ermöglicht die Erstellung von Bildern, die durch Layouts, Skizzen und charakterspezifische Identifikatoren gesteuert werden, um Konsistenz und Detailtreue in den Visualisierungen zu gewährleisten. Schließlich bereichert I2V den Visualisierungsprozess, indem es die generierten Bilder animiert. Umfangreiche Experimente und eine Benutzerstudie werden durchgeführt, um die Wirksamkeit und Flexibilität der interaktiven Bearbeitung des vorgeschlagenen Systems zu validieren.
Große Sprachmodelle (LLMs) zeigen vielversprechende Übersetzungsleistungen über verschiedene natürliche Sprachen hinweg. Allerdings sind viele LLMs, insbesondere die Open-Source-Modelle wie BLOOM und LLaMA, englischdominiert und unterstützen nur Dutzende von natürlichen Sprachen, wodurch das Potenzial von LLMs für die Sprachübersetzung weniger erforscht ist. In dieser Arbeit präsentieren wir BigTrans, das LLaMA, das nur 20 Sprachen abdeckt, anpasst und mit mehrsprachiger Übersetzungsfähigkeit für über 100 Sprachen erweitert. BigTrans basiert auf LLaMA-13B und wird in drei Schritten optimiert. Zunächst trainieren wir LLaMA mit umfangreichen chinesischen monolingualen Daten weiter. Anschließend trainieren wir das Modell mit einem groß angelegten parallelen Datensatz, der 102 natürliche Sprachen abdeckt. Schließlich instruktions-finetunen wir das Basismodell mit mehrsprachigen Übersetzungsanweisungen, was zu unserem BigTrans-Modell führt. Die vorläufigen Experimente zur mehrsprachigen Übersetzung zeigen, dass BigTrans in vielen Sprachen vergleichbar mit ChatGPT und Google Translate abschneidet und sogar ChatGPT in 8 Sprachpaaren übertrifft. Wir veröffentlichen das BigTrans-Modell und hoffen, dass es den Forschungsfortschritt vorantreiben kann.
Große Sprachmodelle (LLMs) mit starken Fähigkeiten in der Verarbeitung natürlicher Sprache sind entstanden und wurden schnell in verschiedenen Bereichen wie Wissenschaft, Finanzen und Softwareentwicklung eingesetzt. Die Fähigkeit von LLMs, das Feld der Chemie voranzubringen, bleibt jedoch unklar. In diesem Artikel erstellen wir einen umfassenden Benchmark, der acht praktische chemische Aufgaben umfasst, darunter 1) Namensvorhersage, 2) Eigenschaftsvorhersage, 3) Ausbeutevorhersage, 4) Reaktionsvorhersage, 5) Retrosynthese (Vorhersage von Edukten aus Produkten), 6) textbasierte Moleküldesign, 7) Molekülbeschreibung und 8) Reagenzienauswahl. Unsere Analyse stützt sich auf weit anerkannte Datensätze wie BBBP, Tox21, PubChem, USPTO und ChEBI, was eine breite Erforschung der Fähigkeiten von LLMs im Kontext der praktischen Chemie ermöglicht. Drei GPT-Modelle (GPT-4, GPT-3.5 und Davinci-003) werden für jede chemische Aufgabe in Zero-Shot- und Few-Shot-In-Context-Learning-Szenarien mit sorgfältig ausgewählten Demonstrationsbeispielen und speziell gestalteten Prompts evaluiert. Die wichtigsten Ergebnisse unserer Untersuchung sind: 1) GPT-4 übertrifft die beiden anderen Modelle unter den drei evaluierten; 2) GPT-Modelle zeigen weniger wettbewerbsfähige Leistungen bei Aufgaben, die ein präzises Verständnis der molekularen SMILES-Darstellung erfordern, wie Reaktionsvorhersage und Retrosynthese; 3) GPT-Modelle demonstrieren starke Fähigkeiten in textbezogenen Erklärungstasks wie Molekülbeschreibung; und 4) GPT-Modelle zeigen vergleichbare oder bessere Leistungen im Vergleich zu klassischen maschinellen Lernmodellen, wenn sie auf chemische Probleme angewendet werden, die in Klassifikations- oder Ranking-Aufgaben transformiert werden können, wie Eigenschaftsvorhersage und Ausbeutevorhersage.
Aktuelle Text-zu-Bild-Generierungsmodelle haben oft Schwierigkeiten, textuelle Anweisungen zu befolgen, insbesondere solche, die räumliches Denken erfordern. Auf der anderen Seite haben Large Language Models (LLMs) wie GPT-4 eine bemerkenswerte Präzision bei der Generierung von Code-Snippets gezeigt, um Texteingaben grafisch darzustellen, z. B. über TikZ. In dieser Arbeit stellen wir Control-GPT vor, um diffusionsbasierte Text-zu-Bild-Pipelines mit programmatischen Skizzen zu steuern, die von GPT-4 generiert werden, und so ihre Fähigkeiten zur Befolgung von Anweisungen zu verbessern. Control-GPT funktioniert, indem GPT-4 abgefragt wird, TikZ-Code zu schreiben, und die generierten Skizzen als Referenzen neben den textuellen Anweisungen für Diffusionsmodelle (z. B. ControlNet) verwendet werden, um fotorealistische Bilder zu erzeugen. Eine große Herausforderung beim Training unserer Pipeline ist das Fehlen eines Datensatzes, der ausgerichteten Text, Bilder und Skizzen enthält. Wir lösen dieses Problem, indem wir Instanzmasken in bestehenden Datensätzen in Polygone umwandeln, um die Skizzen zu imitieren, die zur Testzeit verwendet werden. Dadurch steigert Control-GPT die Kontrollierbarkeit der Bildgenerierung erheblich. Es setzt einen neuen Maßstab für die räumliche Anordnung und Objektpositionierung und verbessert die Benutzerkontrolle über Objektpositionen, Größen usw., wodurch die Genauigkeit früherer Modelle nahezu verdoppelt wird. Unsere Arbeit zeigt als erster Versuch das Potenzial des Einsatzes von LLMs zur Verbesserung der Leistung in Computer-Vision-Aufgaben.
In einer Ära, in der Bilder und visuelle Inhalte unsere digitale Landschaft dominieren, ist die Fähigkeit, diese Bilder zu manipulieren und zu personalisieren, zu einer Notwendigkeit geworden. Stellen Sie sich vor, Sie könnten mühelos eine getigerte Katze, die auf einer sonnenbeschienenen Fensterbank ruht, in einem Foto durch Ihren eigenen verspielten Welpen ersetzen, während der ursprüngliche Charme und die Komposition des Bildes erhalten bleiben. Wir präsentieren Photoswap, einen neuartigen Ansatz, der dieses immersive Bildbearbeitungserlebnis durch personalisierten Subjektaustausch in bestehenden Bildern ermöglicht. Photoswap lernt zunächst das visuelle Konzept des Subjekts aus Referenzbildern und tauscht es dann mithilfe vortrainierter Diffusionsmodelle auf trainingsfreie Weise in das Zielbild ein. Wir zeigen, dass ein gut konzipiertes visuelles Subjekt nahtlos in jedes Bild übertragen werden kann, indem die Selbstaufmerksamkeit und die Kreuzaufmerksamkeit entsprechend manipuliert werden, wodurch die Pose des ausgetauschten Subjekts und die Gesamtkohärenz des Bildes erhalten bleiben. Umfassende Experimente unterstreichen die Wirksamkeit und Steuerbarkeit von Photoswap beim personalisierten Subjektaustausch. Darüber hinaus übertrifft Photoswap Baseline-Methoden in menschlichen Bewertungen deutlich in den Bereichen Subjektaustausch, Hintergrunderhaltung und Gesamtqualität, was sein enormes Anwendungspotenzial von der Unterhaltung bis zur professionellen Bearbeitung offenbart.
Durch die Nutzung groß angelegter Bild-Text-Datensätze und Fortschritte in Diffusionsmodellen haben textgesteuerte generative Modelle bemerkenswerte Fortschritte im Bereich der Bildgenerierung und -bearbeitung erzielt. Diese Studie untersucht das Potenzial, die textgesteuerte Fähigkeit auf die Generierung und Bearbeitung von langen Videos mit mehreren Textbedingungen auszuweiten. Aktuelle Methoden zur Videogenerierung und -bearbeitung, obwohl innovativ, beschränken sich oft auf extrem kurze Videos (typischerweise weniger als 24 Frames) und sind auf eine einzige Textbedingung beschränkt. Diese Einschränkungen begrenzen ihre Anwendungsmöglichkeiten erheblich, da reale Videos in der Regel aus mehreren Segmenten bestehen, die jeweils unterschiedliche semantische Informationen tragen. Um diese Herausforderung zu bewältigen, führen wir ein neuartiges Paradigma namens Gen-L-Video ein, das in der Lage ist, verfügbare Kurzvideo-Diffusionsmodelle für die Generierung und Bearbeitung von Videos mit Hunderten von Frames und verschiedenen semantischen Segmenten zu erweitern, ohne zusätzliches Training zu erfordern, und dabei die Inhaltskonsistenz bewahrt. Wir haben drei gängige textgesteuerte Methoden zur Videogenerierung und -bearbeitung implementiert und sie mit unserem vorgeschlagenen Paradigma erweitert, um längere Videos mit einer Vielzahl von semantischen Segmenten zu unterstützen. Unsere experimentellen Ergebnisse zeigen, dass unser Ansatz die generativen und bearbeitenden Fähigkeiten von Video-Diffusionsmodellen erheblich erweitert und neue Möglichkeiten für zukünftige Forschung und Anwendungen bietet. Der Code ist verfügbar unter https://github.com/G-U-N/Gen-L-Video.
Wir stellen SwiftSage vor, ein neuartiges Agenten-Framework, das von der Dual-Prozess-Theorie der menschlichen Kognition inspiriert ist und darauf ausgelegt ist, in der Aktionsplanung für komplexe interaktive Denkaufgaben zu glänzen. SwiftSage integriert die Stärken von Behavior Cloning und dem Prompting großer Sprachmodelle (LLMs), um die Leistung bei der Aufgabenbewältigung zu verbessern. Das Framework besteht aus zwei primären Modulen: dem Swift-Modul, das schnelles und intuitives Denken repräsentiert, und dem Sage-Modul, das bewusste Denkprozesse nachahmt. Das Swift-Modul ist ein kleines Encoder-Decoder-Sprachmodell, das auf den Aktionspfaden des Oracle-Agenten feinabgestimmt ist, während das Sage-Modul LLMs wie GPT-4 für die Teilzielplanung und Verankerung einsetzt. Wir entwickeln eine heuristische Methode, um die beiden Module harmonisch zu integrieren, was zu einem effizienteren und robusteren Problemlösungsprozess führt. In 30 Aufgaben des ScienceWorld-Benchmarks übertrifft SwiftSage deutlich andere Methoden wie SayCan, ReAct und Reflexion und demonstriert damit seine Effektivität bei der Lösung komplexer realer Aufgaben.
Das Feinabstimmen von Sprachmodellen (Language Models, LMs) hat bei verschiedenen nachgelagerten Aufgaben Erfolge erzielt, aber mit zunehmender Größe der LMs erfordert die Backpropagation einen unverhältnismäßig hohen Speicherbedarf. Methoden nullter Ordnung (Zeroth-Order, ZO) können im Prinzip Gradienten mit nur zwei Vorwärtsdurchläufen schätzen, werden jedoch theoretisch als katastrophal langsam für die Optimierung großer Modelle angesehen. In dieser Arbeit schlagen wir einen speichereffizienten Optimierer nullter Ordnung (MeZO) vor, der die klassische ZO-SGD-Methode anpasst, um direkt im Speicher zu arbeiten und somit LMs mit dem gleichen Speicherbedarf wie bei der Inferenz feinabzustimmen. Beispielsweise kann MeZO mit einer einzigen A100 80GB GPU ein Modell mit 30 Milliarden Parametern trainieren, während die Feinabstimmung mit Backpropagation mit demselben Budget nur ein 2,7-Milliarden-Parameter-LM trainieren kann. Wir führen umfassende Experimente über verschiedene Modelltypen (maskierte und autoregressive LMs), Modellgrößen (bis zu 66 Milliarden) und nachgelagerte Aufgaben (Klassifikation, Multiple-Choice und Generierung) durch. Unsere Ergebnisse zeigen, dass (1) MeZO das In-Context-Lernen und lineare Sondieren deutlich übertrifft; (2) MeZO eine vergleichbare Leistung wie die Feinabstimmung mit Backpropagation über mehrere Aufgaben hinweg erreicht, bei einer Speicherreduzierung von bis zu 12x; (3) MeZO sowohl mit vollständigen Parametern als auch mit parameter-effizienten Feinabstimmungstechniken wie LoRA und Prefix-Tuning kompatibel ist; (4) MeZO nicht differenzierbare Ziele (z.B. Maximierung von Genauigkeit oder F1) effektiv optimieren kann. Wir untermauern unsere empirischen Erkenntnisse mit theoretischen Einblicken, die zeigen, wie angemessenes Vorabtraining und Aufgabenprompts es MeZO ermöglichen, riesige Modelle feinabzustimmen, obwohl klassische ZO-Analysen anderes vermuten lassen.
In jüngster Zeit hat das Interesse an der Entwicklung von diffusionsbasierten Text-zu-Bild-Generierungsmodellen, die in der Lage sind, kohärenten und wohlgeformten visuellen Text zu erzeugen, zugenommen. In diesem Artikel schlagen wir einen neuartigen und effizienten Ansatz namens GlyphControl vor, um diese Aufgabe zu bewältigen. Im Gegensatz zu bestehenden Methoden, die auf zeichenbewusste Text-Encoder wie ByT5 angewiesen sind und eine Neuanpassung von Text-zu-Bild-Modellen erfordern, nutzt unser Ansatz zusätzliche glyphenbasierte Konditionierungsinformationen, um die Leistung des Standard-Stable-Diffusion-Modells bei der Erzeugung von präzisem visuellem Text zu verbessern. Durch die Einbindung von Glyphen-Anweisungen können Benutzer den Inhalt, die Position und die Größe des generierten Textes gemäß ihren spezifischen Anforderungen anpassen. Um die weitere Forschung zur Generierung von visuellem Text zu unterstützen, haben wir einen Trainings-Benchmark-Datensatz namens LAION-Glyph erstellt. Wir bewerten die Effektivität unseres Ansatzes durch die Messung OCR-basierter Metriken und CLIP-Scores des erzeugten visuellen Textes. Unsere empirischen Auswertungen zeigen, dass GlyphControl den kürzlich vorgestellten DeepFloyd IF-Ansatz in Bezug auf OCR-Genauigkeit und CLIP-Scores übertrifft, was die Wirksamkeit unserer Methode unterstreicht.
Da große Sprachmodelle (LLMs) kontinuierlich weiterentwickelt werden, wird ihre Bewertung zunehmend wichtig, aber auch herausfordernd. Diese Arbeit schlägt Chain-of-Thought Hub vor, eine Open-Source-Evaluationssuite für die mehrstufigen Denkfähigkeiten großer Sprachmodelle. Wir interessieren uns aus zwei Gründen für diesen Ansatz: (1) Aus dem Verhalten der GPT- und PaLM-Modellfamilien beobachten wir, dass komplexes Denken wahrscheinlich ein entscheidender Unterscheidungsfaktor zwischen schwächeren und stärkeren LLMs ist; (2) Wir stellen uns vor, dass große Sprachmodelle die nächste Generation von Rechenplattformen werden und ein Ökosystem neuer LLM-basierter Anwendungen fördern, was natürlicherweise erfordert, dass die Basismodelle komplexe Aufgaben bewältigen, die oft die Zusammensetzung von sprachlichen und logischen Operationen beinhalten. Unser Ansatz besteht darin, eine Reihe anspruchsvoller Denkbenchmarks zusammenzustellen, um den Fortschritt von LLMs zu verfolgen. Unsere aktuellen Ergebnisse zeigen: (1) Die Modellgröße korreliert eindeutig mit den Denkfähigkeiten; (2) Stand Mai 2023 sind Claude-v1.3 und PaLM-2 die einzigen beiden Modelle, die mit GPT-4 vergleichbar sind, während Open-Source-Modelle noch hinterherhinken; (3) LLaMA-65B schneidet ähnlich gut ab wie code-davinci-002, was darauf hindeutet, dass es bei erfolgreicher Weiterentwicklung, wie z. B. Reinforcement Learning from Human Feedback (RLHF), großes Potenzial hat, nahe an GPT-3.5-Turbo heranzukommen. Unsere Ergebnisse deuten auch darauf hin, dass die Open-Source-Bemühungen, um aufzuholen, sich stärker auf den Aufbau besserer Basismodelle und die Erforschung von RLHF konzentrieren sollten.
Die faszinierende Welt von Minecraft hat in den letzten Jahren erhebliches Forschungsinteresse geweckt und dient als reichhaltige Plattform für die Entwicklung intelligenter Agenten, die in offenen Welten agieren können. Der aktuelle Forschungsstand konzentriert sich jedoch überwiegend auf spezifische Ziele, wie die beliebte Aufgabe „ObtainDiamond“, und zeigt noch keine effektive Generalisierung auf ein breiteres Spektrum von Aufgaben. Darüber hinaus liegt die derzeit führende Erfolgsrate für die „ObtainDiamond“-Aufgabe bei etwa 20 %, was die Grenzen der auf Reinforcement Learning (RL) basierenden Steuerungsmethoden in bestehenden Ansätzen verdeutlicht. Um diese Herausforderungen zu bewältigen, stellen wir Ghost in the Minecraft (GITM) vor, ein neuartiges Framework, das Large Language Models (LLMs) mit textbasiertem Wissen und Gedächtnis integriert, um Generally Capable Agents (GCAs) in Minecraft zu entwickeln. Diese Agenten, ausgestattet mit der Logik und dem gesunden Menschenverstand von LLMs, können geschickt komplexe, umgebungen mit spärlichen Belohnungen durch textbasierte Interaktionen navigieren. Wir entwickeln eine Reihe strukturierter Aktionen und nutzen LLMs, um Aktionspläne für die Ausführung durch die Agenten zu generieren. Der daraus resultierende LLM-basierte Agent übertrifft bisherige Methoden deutlich und erreicht eine bemerkenswerte Verbesserung von +47,5 % bei der Erfolgsrate in der „ObtainDiamond“-Aufgabe, was eine überlegene Robustheit im Vergleich zu traditionellen RL-basierten Steuerungen zeigt. Bemerkenswerterweise ist unser Agent der erste, der alle Gegenstände im Technologiebaum der Minecraft-Overworld beschafft, was seine umfangreichen Fähigkeiten unterstreicht. GITM benötigt keine GPU für das Training, sondern ein einzelner CPU-Knoten mit 32 CPU-Kernen reicht aus. Diese Forschung zeigt das Potenzial von LLMs bei der Entwicklung fähiger Agenten zur Bewältigung langfristiger, komplexer Aufgaben und zur Anpassung an Unsicherheiten in offenen Welten. Weitere Informationen finden Sie auf der Projektwebsite unter https://github.com/OpenGVLab/GITM.
Große Sprachmodelle (LLMs) haben die Flüssigkeit und Vielfalt von maschinell generierten Texten erheblich verbessert. Dieser Fortschritt stellt jedoch auch eine erhebliche Herausforderung dar, wenn es darum geht, die Herkunft eines bestimmten Textes zu erkennen, und die aktuelle Forschung zu Erkennungsmethoden hinkt der rasanten Entwicklung von LLMs hinterher. Herkömmliche, auf Training basierende Methoden weisen Einschränkungen in der Flexibilität auf, insbesondere bei der Anpassung an neue Domänen, und ihnen fehlt oft die Erklärungskraft. Um diese Lücke zu schließen, schlagen wir eine neuartige, trainingsfreie Erkennungsstrategie namens Divergent N-Gram Analysis (DNA-GPT) vor. Bei einem gegebenen Text kürzen wir ihn zunächst in der Mitte und verwenden dann nur den vorhergehenden Teil als Eingabe für die LLMs, um die neuen verbleibenden Teile neu zu generieren. Durch die Analyse der Unterschiede zwischen den originalen und den neuen verbleibenden Teilen mittels N-Gram-Analyse im Black-Box- oder Wahrscheinlichkeitsdivergenz im White-Box-Ansatz können wir deutliche Diskrepanzen zwischen maschinell generierten und von Menschen geschriebenen Texten aufzeigen. Wir führten umfangreiche Experimente mit den fortschrittlichsten LLMs von OpenAI durch, darunter text-davinci-003, GPT-3.5-turbo und GPT-4, sowie Open-Source-Modelle wie GPT-NeoX-20B und LLaMa-13B. Die Ergebnisse zeigen, dass unser Zero-Shot-Ansatz bei der Unterscheidung zwischen menschlichen und GPT-generierten Texten auf vier englischen und einem deutschen Datensatz state-of-the-art Leistungen erzielt und dabei den eigenen Klassifikator von OpenAI, der auf Millionen von Texten trainiert ist, übertrifft. Darüber hinaus liefern unsere Methoden vernünftige Erklärungen und Beweise, um unsere Behauptung zu untermauern, was ein einzigartiges Merkmal der erklärbaren Erkennung ist. Unsere Methode ist auch robust gegenüber Angriffen durch überarbeitete Texte und kann zusätzlich die Modellherkunft bestimmen. Die Codes sind unter https://github.com/Xianjun-Yang/DNA-GPT verfügbar.
Trotz des enormen Erfolgs von Diffusionsgenerationsmodellen in der Text-zu-Bild-Generierung hat sich die Wiederholung dieses Erfolgs im Bereich der Bildkompression als schwierig erwiesen. In diesem Artikel zeigen wir, dass Diffusion die wahrgenommene Qualität bei einer gegebenen Bitrate erheblich verbessern kann und dabei state-of-the-art Ansätze wie PO-ELIC und HiFiC, gemessen am FID-Score, übertrifft. Dies wird durch einen einfachen, aber theoretisch fundierten zweistufigen Ansatz erreicht, der einen Autoencoder, der auf MSE abzielt, mit einem weiteren score-basierten Decoder kombiniert. Wie wir jedoch zeigen werden, sind Implementierungsdetails entscheidend, und die optimalen Designentscheidungen können sich stark von typischen Text-zu-Bild-Modellen unterscheiden.