Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Das Training von Text-zu-Bild-Modellen mit webweiten Bild-Text-Paaren ermöglicht die Generierung einer breiten Palette visueller Konzepte aus Text. Diese vortrainierten Modelle stehen jedoch oft vor Herausforderungen, wenn es darum geht, hochästhetische Bilder zu erzeugen. Dies führt zur Notwendigkeit einer ästhetischen Ausrichtung nach dem Vortraining. In diesem Artikel schlagen wir Quality-Tuning vor, um ein vortrainiertes Modell effektiv dazu zu führen, ausschließlich hochvisuell ansprechende Bilder zu generieren, während die Allgemeingültigkeit über visuelle Konzepte hinweg erhalten bleibt. Unsere zentrale Erkenntnis ist, dass ein überwachtes Feinabstimmen mit einer überraschend kleinen, aber extrem visuell ansprechenden Bildersammlung die Generierungsqualität erheblich verbessern kann. Wir trainieren ein latentes Diffusionsmodell mit 1,1 Milliarden Bild-Text-Paaren vor und stimmen es mit nur wenigen tausend sorgfältig ausgewählten hochwertigen Bildern fein. Das resultierende Modell, Emu, erreicht eine Gewinnrate von 82,9 % im Vergleich zu seinem nur vortrainierten Gegenstück. Im Vergleich zum State-of-the-Art-Modell SDXLv1.0 wird Emu in 68,4 % und 71,3 % der Fälle hinsichtlich visueller Anziehungskraft auf den Standard-PartiPrompts und unserem Open User Input-Benchmark, basierend auf der realen Nutzung von Text-zu-Bild-Modellen, bevorzugt. Darüber hinaus zeigen wir, dass Quality-Tuning ein generischer Ansatz ist, der auch für andere Architekturen effektiv ist, einschließlich Pixel-Diffusions- und maskierten generativen Transformermodellen.
Wir schlagen vor, die Vektorquantisierung (VQ) in der latenten Darstellung von VQ-VAEs durch ein einfaches Schema, genannt finite skalare Quantisierung (FSQ), zu ersetzen, bei dem wir die VAE-Darstellung auf wenige Dimensionen (typischerweise weniger als 10) projizieren. Jede Dimension wird auf eine kleine Menge fester Werte quantisiert, was zu einem (impliziten) Codebuch führt, das durch das Produkt dieser Mengen gegeben ist. Durch die geeignete Wahl der Anzahl der Dimensionen und der Werte, die jede Dimension annehmen kann, erhalten wir die gleiche Codebuchgröße wie bei VQ. Auf solchen diskreten Darstellungen können wir die gleichen Modelle trainieren, die auf VQ-VAE-Darstellungen trainiert wurden. Zum Beispiel autoregressive und maskierte Transformermodelle für die Bildgenerierung, multimodale Generierung und dichte Vorhersageaufgaben in der Computer Vision. Konkret verwenden wir FSQ mit MaskGIT für die Bildgenerierung und mit UViM für Tiefenschätzung, Kolorierung und panoptische Segmentierung. Trotz des viel einfacheren Designs von FSQ erzielen wir in all diesen Aufgaben wettbewerbsfähige Leistungen. Wir betonen, dass FSQ nicht unter Codebuchkollaps leidet und nicht die komplexen Mechanismen benötigt, die in VQ eingesetzt werden (Commitment-Verluste, Codebuch-Neubesetzung, Code-Aufteilung, Entropiestrafen usw.), um ausdrucksstarke diskrete Darstellungen zu lernen.
Wir schlagen ein neuronales Sprachmodellierungssystem vor, das auf Low-Rank-Adaptation (LoRA) für die Neubewertung von Spracherkennungsausgaben basiert. Obwohl vortrainierte Sprachmodelle (LMs) wie BERT eine überlegene Leistung bei der Neubewertung in der zweiten Phase gezeigt haben, begrenzen die hohen Rechenkosten bei der Skalierung des Vortrainings und der Anpassung der vortrainierten Modelle an spezifische Domänen deren praktischen Einsatz in der Neubewertung. Hier präsentieren wir eine Methode, die auf einer Low-Rank-Zerlegung basiert, um ein BERT-Modell für die Neubewertung zu trainieren und es mit nur einem Bruchteil (0,08 %) der vortrainierten Parameter an neue Domänen anzupassen. Diese eingefügten Matrizen werden durch ein diskriminatives Trainingsziel zusammen mit einem korrelationsbasierten Regularisierungsverlust optimiert. Die vorgeschlagene Low-Rank-Adaptation Rescore-BERT (LoRB)-Architektur wird auf LibriSpeech und internen Datensätzen evaluiert, wobei die Trainingszeiten um Faktoren zwischen 5,4 und 3,6 reduziert werden.
Erhebliche Fortschritte wurden im Bereich großskaliger vortrainierter Text-zu-Video-Diffusionsmodelle (VDMs) erzielt. Bisherige Methoden stützen sich jedoch entweder ausschließlich auf pixelbasierte VDMs, die mit hohen Rechenkosten verbunden sind, oder auf latente VDMs, die oft Schwierigkeiten mit der präzisen Text-Video-Ausrichtung haben. In diesem Artikel schlagen wir erstmals ein hybrides Modell vor, das als Show-1 bezeichnet wird und pixelbasierte mit latenten VDMs für die Text-zu-Video-Generierung kombiniert. Unser Modell verwendet zunächst pixelbasierte VDMs, um ein niedrigauflösendes Video mit starker Text-Video-Korrelation zu erzeugen. Anschließend schlagen wir eine neuartige Expertentranslationsmethode vor, die latente VDMs einsetzt, um das niedrigauflösende Video weiter in hohe Auflösung zu skalieren. Im Vergleich zu latenten VDMs kann Show-1 hochwertige Videos mit präziser Text-Video-Ausrichtung erzeugen; im Vergleich zu pixelbasierten VDMs ist Show-1 wesentlich effizienter (der GPU-Speicherverbrauch während der Inferenz beträgt 15G gegenüber 72G). Wir validieren unser Modell auch anhand standardisierter Benchmarks für die Videogenerierung. Unser Code und unsere Modellgewichte sind öffentlich unter https://github.com/showlab/Show-1 verfügbar.
Wir stellen eine neuartige Art von neuronalen Feldern vor, die allgemeine radiale Basisfunktionen für die Signalrepräsentation verwendet. State-of-the-Art neuronale Felder basieren typischerweise auf gitterbasierten Darstellungen zur Speicherung lokaler neuronaler Merkmale und verwenden N-dimensionale lineare Kerne zur Interpolation von Merkmalen an kontinuierlichen Abfragepunkten. Die räumlichen Positionen ihrer neuronalen Merkmale sind auf Gitterknoten fixiert und können sich nicht gut an Zielsignale anpassen. Unser Ansatz hingegen basiert auf allgemeinen radialen Basisfunktionen mit flexibler Kernelposition und -form, die eine höhere räumliche Anpassungsfähigkeit besitzen und sich enger an Zielsignale anpassen können. Um die kanalweise Kapazität der radialen Basisfunktionen weiter zu verbessern, schlagen wir vor, sie mit multifrequenten Sinusfunktionen zu kombinieren. Diese Technik erweitert eine radiale Basisfunktion zu mehreren Fourier-radialen Basisfunktionen unterschiedlicher Frequenzbänder, ohne zusätzliche Parameter zu benötigen, und erleichtert so die Darstellung von Details. Darüber hinaus erbt unsere hybride Kombination, die adaptive radiale Basisfunktionen mit gitterbasierten verbindet, sowohl Anpassungsfähigkeit als auch Interpolationsglätte. Wir haben sorgfältig Gewichtungsschemata entworfen, um radiale Basisfunktionen effektiv an verschiedene Signaltypen anzupassen. Unsere Experimente zur 2D-Bild- und 3D-Signed-Distance-Field-Repräsentation demonstrieren die höhere Genauigkeit und Kompaktheit unserer Methode im Vergleich zu bisherigen Ansätzen. Bei der Anwendung auf die Rekonstruktion neuronaler Strahlungsfelder erreicht unsere Methode State-of-the-Art-Renderingqualität bei geringer Modellgröße und vergleichbarer Trainingsgeschwindigkeit.
In den letzten Jahren haben Fortschritte im groß angelegten Vortraining von Sprach- und Text-zu-Bild-Modellen das Feld des maschinellen Lernens revolutioniert. Dennoch bleibt die Integration dieser beiden Modalitäten in ein einziges, robustes Modell, das nahtlose multimodale Ausgaben erzeugen kann, eine erhebliche Herausforderung. Um diese Lücke zu schließen, präsentieren wir das Joint Autoregressive Mixture (JAM)-Framework, einen modularen Ansatz, der bestehende Text- und Bildgenerierungsmodelle systematisch fusioniert. Wir führen außerdem eine spezialisierte, dateneffiziente Instruction-Tuning-Strategie ein, die auf gemischt-modale Generierungsaufgaben zugeschnitten ist. Unser finales instruct-getuntes Modell zeigt eine beispiellose Leistung bei der Erzeugung hochwertiger multimodaler Ausgaben und stellt das erste Modell dar, das explizit für diesen Zweck entwickelt wurde.
Das Verständnis, wie Menschen physischen Kontakt nutzen, um mit der Welt zu interagieren, ist entscheidend für die Entwicklung menschenzentrierter künstlicher Intelligenz. Während die Inferenz von 3D-Kontakt für die Modellierung realistischer und physikalisch plausibler Mensch-Objekt-Interaktionen von zentraler Bedeutung ist, konzentrieren sich bestehende Methoden entweder auf 2D, betrachten Gelenke anstelle der Körperoberfläche, verwenden grobe 3D-Körperregionen oder generalisieren nicht auf Bilder aus der realen Welt. Im Gegensatz dazu konzentrieren wir uns auf die Inferenz von dichtem 3D-Kontakt zwischen der gesamten Körperoberfläche und Objekten in beliebigen Bildern. Um dies zu erreichen, sammeln wir zunächst DAMON, einen neuen Datensatz, der dichte Kontaktannotationen auf Vertex-Ebene enthält, die mit RGB-Bildern komplexer Mensch-Objekt- und Mensch-Szene-Kontakte gepaart sind. Zweitens trainieren wir DECO, einen neuartigen 3D-Kontaktdetektor, der sowohl körperteilgesteuerte als auch szenenkontextgesteuerte Aufmerksamkeit verwendet, um Kontakte auf Vertex-Ebene auf dem SMPL-Körper zu schätzen. DECO basiert auf der Erkenntnis, dass menschliche Beobachter Kontakt erkennen, indem sie über die beteiligten Körperteile, ihre Nähe zu Szenenobjekten und den umgebenden Szenenkontext nachdenken. Wir führen umfangreiche Evaluierungen unseres Detektors auf DAMON sowie auf den Datensätzen RICH und BEHAVE durch. Wir übertreffen die bestehenden State-of-the-Art-Methoden auf allen Benchmarks deutlich. Wir zeigen auch qualitativ, dass DECO gut auf diverse und herausfordernde reale Mensch-Interaktionen in natürlichen Bildern generalisiert. Der Code, die Daten und die Modelle sind unter https://deco.is.tue.mpg.de verfügbar.
In letzter Zeit gibt es eine Flut von Studien, die auf emergente kognitive Fähigkeiten in großen Sprachmodellen (LLMs) hinweisen. Die meisten stützen sich jedoch auf Anekdoten, übersehen die Kontamination von Trainingsdatensätzen oder mangelt es an systematischen Evaluierungen, die mehrere Aufgaben, Kontrollbedingungen, mehrere Iterationen und statistische Robustheitstests umfassen. Hier leisten wir zwei wesentliche Beiträge. Erstens schlagen wir CogEval vor, ein kognitionswissenschaftlich inspiriertes Protokoll zur systematischen Bewertung kognitiver Fähigkeiten in großen Sprachmodellen. Das CogEval-Protokoll kann für die Bewertung verschiedener Fähigkeiten verwendet werden. Zweitens wenden wir hier CogEval an, um kognitive Karten und Planungsfähigkeiten systematisch über acht LLMs zu evaluieren (OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard, Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B und Alpaca-7B). Unsere Aufgabenprompts basieren auf menschlichen Experimenten, die sowohl eine etablierte Konstruktvalidität für die Bewertung von Planung bieten als auch in den Trainingsdatensätzen der LLMs nicht vorkommen. Wir stellen fest, dass LLMs zwar in einigen Planungsaufgaben mit einfacheren Strukturen scheinbare Kompetenz zeigen, aber die systematische Bewertung auffällige Fehlermodi in Planungsaufgaben offenbart, einschließlich Halluzinationen ungültiger Trajektorien und dem Feststecken in Schleifen. Diese Ergebnisse unterstützen nicht die Idee einer emergenten, sofort verfügbaren Planungsfähigkeit in LLMs. Dies könnte daran liegen, dass LLMs die latenten relationalen Strukturen, die Planungsproblemen zugrunde liegen, sogenannte kognitive Karten, nicht verstehen und daran scheitern, zielgerichtete Trajektorien basierend auf der zugrunde liegenden Struktur zu entfalten. Implikationen für Anwendungen und zukünftige Richtungen werden diskutiert.
Textual Prompt Tuning hat signifikante Leistungsverbesserungen bei der Anpassung von Modellen der natürlichen Sprachverarbeitung an eine Vielzahl von Downstream-Aufgaben gezeigt, indem handgefertigte Prompts als trainierbare Parameter behandelt werden. Inspiriert vom Erfolg des Textual Promptings haben mehrere Studien die Wirksamkeit von Visual Prompt Tuning untersucht. In dieser Arbeit präsentieren wir Visual Prompt Adaptation (VPA), das erste Framework, das visuelles Prompting mit Testzeit-Anpassung verallgemeinert. VPA führt eine kleine Anzahl von lernbaren Tokens ein, die eine vollständige Testzeit-Anpassung und speichereffiziente Anpassung ermöglichen, ohne Informationen aus dem Quellbereich zu benötigen. Wir untersuchen unser VPA-Design unter verschiedenen Anpassungsszenarien, darunter Einzelbild-, Batch-Bild- und Pseudolabel-Anpassung. Wir evaluieren VPA anhand mehrerer Aufgaben, einschließlich Out-of-Distribution (OOD)-Generalisation, Robustheit gegenüber Korruptionen und Domain Adaptation. Experimentelle Ergebnisse zeigen, dass VPA die OOD-Generalisation effektiv um 3,3 % über verschiedene Modelle hinweg verbessert und damit bisherige Testzeit-Ansätze übertrifft. Darüber hinaus zeigen wir, dass VPA die Robustheit gegenüber Korruptionen um 6,5 % im Vergleich zu starken Baselines steigert. Schließlich demonstrieren wir, dass VPA auch die Leistung bei der Domain Adaptation relativ um 5,2 % verbessert. Unser VPA zeigt auch eine deutliche Wirksamkeit bei der Verbesserung der Robustheit von Zero-Shot-Erkennung für Vision-Language-Modelle.