Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen SUPIR (Scaling-UP Image Restoration) vor, eine bahnbrechende Methode zur Bildrestaurierung, die generative Prioritäten und die Kraft der Modellskalierung nutzt. Durch den Einsatz von Multi-Modal-Techniken und fortschrittlichen generativen Prioritäten markiert SUPIR einen bedeutenden Fortschritt in der intelligenten und realistischen Bildrestaurierung. Als entscheidender Katalysator innerhalb von SUPIR verbessert die Modellskalierung dessen Fähigkeiten dramatisch und zeigt neues Potenzial für die Bildrestaurierung auf. Wir haben einen Datensatz mit 20 Millionen hochauflösenden, qualitativ hochwertigen Bildern für das Modelltraining zusammengestellt, die jeweils mit beschreibenden Textanmerkungen angereichert sind. SUPIR bietet die Möglichkeit, Bilder durch textbasierte Anweisungen zu restaurieren, wodurch sein Anwendungsbereich und Potenzial erweitert werden. Darüber hinaus führen wir negative Qualitätsanweisungen ein, um die wahrgenommene Qualität weiter zu verbessern. Wir entwickeln auch eine restaurierungsgesteuerte Sampling-Methode, um das Treueproblem zu unterdrücken, das bei der generativen Restaurierung auftritt. Experimente demonstrieren die außergewöhnlichen Restaurierungseffekte von SUPIR und seine neuartige Fähigkeit, die Restaurierung durch textbasierte Anweisungen zu steuern.
Tokenfreie Sprachmodelle lernen direkt aus Rohbytes und entfernen die Verzerrung der Subwort-Tokenisierung. Das Arbeiten mit Bytes führt jedoch zu deutlich längeren Sequenzen, und standardmäßige autoregressive Transformer skalieren in solchen Szenarien schlecht. Wir experimentieren mit MambaByte, einer tokenfreien Anpassung des Mamba- Zustandsraummodells, das autoregressiv auf Byte-Sequenzen trainiert wird. Unsere Experimente zeigen die rechnerische Effizienz von MambaByte im Vergleich zu anderen Byte-Level- Modellen. Wir stellen außerdem fest, dass MambaByte mit modernsten Subwort-Transformern konkurrieren kann und diese sogar übertreffen kann. Darüber hinaus profitiert MambaByte aufgrund der linearen Skalierung in der Länge im Vergleich zu Transformern von schnellem Inferenz. Unsere Ergebnisse bestätigen die Machbarkeit von MambaByte bei der Ermöglichung von tokenfreiem Sprachmodellierung.
Im vergangenen Jahr haben Multimodale Große Sprachmodelle (MM-LLMs) erhebliche Fortschritte gemacht, indem sie Standard-LLMs durch kosteneffiziente Trainingsstrategien erweitert haben, um multimodale Eingaben oder Ausgaben zu unterstützen. Die daraus resultierenden Modelle bewahren nicht nur die inhärenten Fähigkeiten des Schlussfolgerns und Entscheidens von LLMs, sondern ermöglichen auch eine Vielzahl von multimodalen Aufgaben. In diesem Artikel präsentieren wir eine umfassende Übersicht, die darauf abzielt, die weitere Forschung zu MM-LLMs zu fördern. Insbesondere skizzieren wir zunächst allgemeine Designformulierungen für die Modellarchitektur und den Trainingspipeline. Anschließend bieten wir kurze Einführungen zu 26 bestehenden MM-LLMs, die jeweils durch ihre spezifischen Formulierungen charakterisiert sind. Zudem überprüfen wir die Leistung von MM-LLMs auf gängigen Benchmarks und fassen wichtige Trainingsrezepte zusammen, um die Wirksamkeit von MM-LLMs zu steigern. Schließlich erkunden wir vielversprechende Richtungen für MM-LLMs und betreiben gleichzeitig eine Echtzeit-Website, um die neuesten Entwicklungen auf diesem Gebiet zu verfolgen. Wir hoffen, dass diese Übersicht zur fortlaufenden Weiterentwicklung des MM-LLMs-Bereichs beiträgt.
Der Fortschritt bei großen Sprachmodellen (LLMs) leitet eine neue Ära ein, die durch die Entwicklung autonomer Anwendungen in der realen Welt geprägt ist und Innovationen bei der Erstellung fortschrittlicher webbasierter Agenten vorantreibt. Bestehende Web-Agenten verarbeiten typischerweise nur eine Eingabemodalität und werden lediglich in vereinfachten Web-Simulatoren oder statischen Web-Snapshots evaluiert, was ihre Anwendbarkeit in realen Szenarien erheblich einschränkt. Um diese Lücke zu schließen, stellen wir WebVoyager vor, einen innovativen Web-Agenten, der auf einem großen multimodalen Modell (LMM) basiert und Benutzeranweisungen end-to-end durch die Interaktion mit realen Websites ausführen kann. Darüber hinaus schlagen wir ein neues Evaluierungsprotokoll für Web-Agenten vor, um die Herausforderungen der automatischen Bewertung von offenen Web-Agenten-Aufgaben zu bewältigen, wobei wir die robusten multimodalen Verständnisfähigkeiten von GPT-4V nutzen. Wir erstellen einen neuen Benchmark, indem wir reale Aufgaben von 15 weit verbreiteten Websites sammeln, um unsere Agenten zu evaluieren. Wir zeigen, dass WebVoyager eine Aufgaben-Erfolgsrate von 55,7 % erreicht und damit die Leistung sowohl von GPT-4 (All Tools) als auch von WebVoyager (nur Text) deutlich übertrifft, was die außergewöhnliche Fähigkeit von WebVoyager in praktischen Anwendungen unterstreicht. Wir stellten fest, dass unsere vorgeschlagene automatische Evaluierung eine Übereinstimmung von 85,3 % mit der menschlichen Beurteilung erreicht, was den Weg für die weitere Entwicklung von Web-Agenten in realen Umgebungen ebnet.
Aktuelle Text-zu-Bild-Generierungsmodelle haben beeindruckende Erfolge bei der Erzeugung von Bildern gezeigt, die Eingabeaufforderungen treu folgen. Die Notwendigkeit, Wörter zur Beschreibung eines gewünschten Konzepts zu verwenden, bietet jedoch nur begrenzte Kontrolle über das Erscheinungsbild der generierten Konzepte. In dieser Arbeit gehen wir auf diese Schwäche ein, indem wir einen Ansatz vorschlagen, der Personalisierungsfähigkeiten in bestehenden Text-zu-Bild-Diffusionsmodellen ermöglicht. Wir schlagen eine neuartige Architektur (BootPIG) vor, die es einem Benutzer ermöglicht, Referenzbilder eines Objekts bereitzustellen, um das Erscheinungsbild eines Konzepts in den generierten Bildern zu steuern. Die vorgeschlagene BootPIG-Architektur nimmt minimale Änderungen an einem vortrainierten Text-zu-Bild-Diffusionsmodell vor und nutzt ein separates UNet-Modell, um die Generierungen in Richtung des gewünschten Erscheinungsbilds zu lenken. Wir führen ein Trainingsverfahren ein, das es uns ermöglicht, Personalisierungsfähigkeiten in der BootPIG-Architektur mithilfe von Daten zu bootstrappen, die aus vortrainierten Text-zu-Bild-Modellen, LLM-Chat-Agenten und Bildsegmentierungsmodellen generiert wurden. Im Gegensatz zu bestehenden Methoden, die mehrere Tage Vorabtraining erfordern, kann die BootPIG-Architektur in etwa 1 Stunde trainiert werden. Experimente auf dem DreamBooth-Datensatz zeigen, dass BootPIG bestehende Zero-Shot-Methoden übertrifft und mit Testzeit-Finetuning-Ansätzen vergleichbar ist. Durch eine Benutzerstudie validieren wir die Präferenz für BootPIG-Generierungen gegenüber bestehenden Methoden sowohl in Bezug auf die Treue zum Erscheinungsbild des Referenzobjekts als auch auf die Ausrichtung an textuellen Aufforderungen.
Große Sprachmodelle haben den Stand der Technik in der natürlichen Sprachverarbeitung vorangetrieben. Ihre vorherrschende Ausrichtung auf Englisch oder eine begrenzte Anzahl von Sprachen führt jedoch zu einer erheblichen Lücke in ihrer Effektivität für ressourcenarme Sprachen. Um diese Lücke zu schließen, stellen wir MaLA-500 vor, ein neuartiges großes Sprachmodell, das eine umfangreiche Palette von 534 Sprachen abdeckt. Um MaLA-500 zu trainieren, verwenden wir Vokabularerweiterung und fortgesetztes Vortraining auf LLaMA 2 mit Glot500-c. Unsere Experimente auf SIB-200 zeigen, dass MaLA-500 state-of-the-art Ergebnisse im In-Context-Lernen erzielt. Wir veröffentlichen MaLA-500 unter https://huggingface.co/MaLA-LM.
Das Pre-Training großer Sprachmodelle ist bekanntlich äußerst ressourcenintensiv und oft ineffizient, da die in den Trainingssequenzen enthaltenen Informationen nicht optimal genutzt werden. In diesem Artikel stellen wir SpacTor vor, ein neues Trainingsverfahren, das aus (1) einem hybriden Ziel besteht, das Span Corruption (SC) und Token Replacement Detection (RTD) kombiniert, und (2) einem zweistufigen Curriculum, das das hybride Ziel über die ersten tau Iterationen optimiert und dann zum Standard-SC-Loss übergeht. Wir zeigen empirisch, dass die Wirksamkeit des hybriden Ziels mit dem zweistufigen Pre-Training-Zeitplan verbunden ist, und liefern eine umfangreiche Analyse, warum dies der Fall ist. In unseren Experimenten mit Encoder-Decoder-Architekturen (T5) auf einer Vielzahl von NLP-Aufgaben erzielt SpacTor-T5 die gleiche Downstream-Leistung wie das Standard-SC-Pre-Training, ermöglicht jedoch eine Reduzierung der Pre-Training-Iterationen um 50 % und der gesamten FLOPs um 40 %. Alternativ führen wir bei gleichem Rechenbudget zu einer signifikant verbesserten Downstream-Benchmark-Leistung.
Kürzlich haben Text-zu-3D-Ansätze die Erzeugung hochwertiger 3D-Inhalte mithilfe von Textbeschreibungen erreicht. Allerdings sind die generierten Objekte stochastisch und bieten keine feinkörnige Kontrolle. Skizzen bieten einen kostengünstigen Ansatz, um eine solche feinkörnige Kontrolle einzuführen. Dennoch ist es aufgrund ihrer Abstraktion und Mehrdeutigkeit herausfordernd, eine flexible Steuerung aus diesen Skizzen zu erreichen. In diesem Artikel stellen wir ein Multi-View-Skizzen-gesteuertes Text-zu-3D-Generierungsframework (namens Sketch2NeRF) vor, um die Skizzenkontrolle in die 3D-Generierung zu integrieren. Konkret nutzt unsere Methode vortrainierte 2D-Diffusionsmodelle (z. B. Stable Diffusion und ControlNet), um die Optimierung einer 3D-Szene, die durch ein Neural Radiance Field (NeRF) dargestellt wird, zu überwachen. Wir schlagen eine neuartige Methode der synchronisierten Generierung und Rekonstruktion vor, um das NeRF effektiv zu optimieren. In den Experimenten haben wir zwei Arten von Multi-View-Skizzen-Datensätzen gesammelt, um die vorgeschlagene Methode zu evaluieren. Wir zeigen, dass unsere Methode 3D-konsistente Inhalte mit feinkörniger Skizzenkontrolle synthetisieren kann, während sie gleichzeitig hochwertig auf Textanweisungen reagiert. Umfangreiche Ergebnisse belegen, dass unsere Methode in Bezug auf Skizzenähnlichkeit und Textausrichtung state-of-the-art-Leistungen erzielt.
Bestehende Text-zu-Bild-Diffusionsmodelle generieren hauptsächlich Bilder aus Textanweisungen. Die inhärente Kürze von textuellen Beschreibungen stellt jedoch Herausforderungen dar, wenn es darum geht, Bilder mit komplexen Details, wie spezifischen Entitäten oder Szenen, treu zu synthetisieren. Dieses Papier stellt UNIMO-G vor, ein einfaches multimodales bedingtes Diffusionsframework, das mit multimodalen Anweisungen arbeitet, die textuelle und visuelle Eingaben verschachteln, und eine einheitliche Fähigkeit für sowohl textgesteuerte als auch subjektgesteuerte Bildgenerierung demonstriert. UNIMO-G besteht aus zwei Kernkomponenten: einem Multimodalen Großen Sprachmodell (MLLM) zur Kodierung multimodaler Anweisungen und einem bedingten Denoising-Diffusionsnetzwerk zur Generierung von Bildern basierend auf der kodierten multimodalen Eingabe. Wir nutzen eine zweistufige Trainingsstrategie, um das Framework effektiv zu trainieren: zunächst Vorabtraining auf groß angelegten Text-Bild-Paaren, um bedingte Bildgenerierungsfähigkeiten zu entwickeln, und anschließend Instruktionsfeinabstimmung mit multimodalen Anweisungen, um eine einheitliche Bildgenerierungskompetenz zu erreichen. Eine gut durchdachte Datenverarbeitungspipeline, die Sprachverankerung und Bildsegmentierung umfasst, wird verwendet, um multimodale Anweisungen zu konstruieren. UNIMO-G zeichnet sich sowohl in der Text-zu-Bild-Generierung als auch in der Null-Shot-subjektgesteuerten Synthese aus und ist besonders effektiv bei der Generierung von hochwertigen Bildern aus komplexen multimodalen Anweisungen, die mehrere Bildentitäten beinhalten.
Jüngste Fortschritte in der KI haben zur Entwicklung großer multimodaler Modelle (LMMs) geführt, die in der Lage sind, komplexe Aufgaben zu bewältigen, die gemeinsames Schlussfolgern über Text und visuelle Inhalte in Bildern erfordern (z. B. die Navigation in Karten an öffentlichen Orten). Dieses Papier stellt ConTextual vor, einen neuartigen Benchmark, der Anweisungen enthält, die explizit darauf abzielen, die Fähigkeit von LMMs zur kontextsensiblen, textreichen visuellen Schlussfolgerung zu bewerten. ConTextual betont vielfältige reale Szenarien (z. B. Zeitablesung, Navigation, Einkaufen und mehr), die ein tieferes Verständnis der Interaktionen zwischen textuellen und visuellen Elementen erfordern. Unsere Ergebnisse zeigen eine signifikante Leistungslücke von 30,8 % zwischen dem leistungsstärksten LMM, GPT-4V(ision), und menschlichen Fähigkeiten, was auf erheblichen Verbesserungsbedarf bei der kontextsensiblen, textreichen visuellen Schlussfolgerung hinweist. Bemerkenswerterweise übertraf GPT-4V zwar in abstrakten Kategorien wie der Interpretation von Memes und Zitaten, seine Gesamtleistung blieb jedoch hinter der von Menschen zurück. Neben menschlichen Bewertungen setzten wir auch automatische Bewertungsmetriken mit GPT-4 ein, die ähnliche Trends in den Leistungsunterschieden aufdeckten. Wir führen zudem eine detaillierte Bewertung über verschiedene visuelle Kontexte hinweg durch und bieten eine qualitative Analyse, die einen robusten Rahmen für zukünftige Fortschritte im LMM-Design liefert. https://con-textual.github.io/
Groß angelegte Text-zu-Bild-Generierungsmodelle haben beeindruckende Fortschritte gemacht und ihre Fähigkeit demonstriert, eine Vielzahl von hochwertigen Bildern zu synthetisieren. Die Anpassung dieser Modelle für die künstlerische Bildbearbeitung stellt jedoch zwei wesentliche Herausforderungen dar. Erstens fällt es Nutzern schwer, textuelle Eingabeaufforderungen zu formulieren, die die visuellen Elemente des Eingabebildes detailliert beschreiben. Zweitens stören verbreitete Modelle bei der Modifikation spezifischer Bereiche häufig den gesamten künstlerischen Stil, was die Erzielung kohärenter und ästhetisch einheitlicher Kunstwerke erschwert. Um diese Hindernisse zu überwinden, entwickeln wir das innovative, einheitliche Framework CreativeSynth, das auf einem Diffusionsmodell basiert, das in der Lage ist, multimodale Eingaben zu koordinieren und Multitasking im Bereich der künstlerischen Bildgenerierung zu betreiben. Durch die Integration multimodaler Merkmale mit maßgeschneiderten Aufmerksamkeitsmechanismen ermöglicht CreativeSynth die Einbindung realer semantischer Inhalte in den künstlerischen Bereich durch Inversion und Echtzeit-Stiltransfer. Dies ermöglicht die präzise Manipulation von Bildstil und -inhalt bei gleichzeitiger Wahrung der Integrität der ursprünglichen Modellparameter. Umfangreiche qualitative und quantitative Bewertungen unterstreichen, dass CreativeSynth bei der Verbesserung der Detailtreue künstlerischer Bilder und der Bewahrung ihrer inhärenten ästhetischen Essenz hervorragend abschneidet. Indem es die Lücke zwischen generativen Modellen und künstlerischer Finesse schließt, wird CreativeSynth zu einem maßgeschneiderten digitalen Werkzeug.