Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Obwohl aktuelle groß angelegte Text-zu-Sprache (TTS) Modelle signifikante Fortschritte erzielt haben, bleiben sie immer noch hinter den Erwartungen in Bezug auf Sprachqualität, Ähnlichkeit und Prosodie zurück. Da Sprache vielfältige Merkmale (z. B. Inhalt, Prosodie, Klangfarbe und akustische Details) umfassend umfasst und somit signifikante Herausforderungen für die Generierung darstellt, liegt es nahe, die Sprache in einzelne Subräume zu faktorisieren, die verschiedene Merkmale repräsentieren und diese individuell zu generieren. Inspiriert davon schlagen wir NaturalSpeech 3 vor, ein TTS-System mit neuartigen faktorisierten Diffusionsmodellen zur Erzeugung natürlicher Sprache auf eine Zero-Shot-Art und Weise. Konkret 1) entwerfen wir einen neuronalen Codec mit faktorisiertem Vektorquantisierung (FVQ), um die Sprachwellenform in Subräume von Inhalt, Prosodie, Klangfarbe und akustischen Details zu entwirren; 2) schlagen wir ein faktorisiertes Diffusionsmodell vor, um Merkmale in jedem Subraum entsprechend der entsprechenden Eingabe zu generieren. Mit diesem Faktorisierungsdesign kann NaturalSpeech 3 die komplexe Sprache effektiv und effizient mit entwirrten Subräumen auf eine Teile-und-Herrsche-Art modellieren. Experimente zeigen, dass NaturalSpeech 3 die führenden TTS-Systeme in Bezug auf Qualität, Ähnlichkeit, Prosodie und Verständlichkeit übertrifft. Darüber hinaus erzielen wir eine bessere Leistung durch Skalierung auf 1 Milliarde Parameter und 200.000 Stunden Trainingsdaten.
Wir schlagen ein neuartiges Framework zur Filterung von Bild-Text-Daten vor, indem wir feinabgestimmte Multimodale Sprachmodelle (MLMs) nutzen. Unser Ansatz übertrifft vorherrschende Filtermethoden (z. B. CLIPScore), indem wir die neuesten Fortschritte in MLMs integrieren. Wir entwerfen vier unterschiedliche, aber ergänzende Metriken, um die Qualität von Bild-Text-Daten ganzheitlich zu messen. Ein neuer Prozess wird etabliert, um hochwertige Anweisungsdaten für die Feinabstimmung von MLMs als Datenfilter zu erstellen. Im Vergleich zu CLIPScore liefern unsere MLM-Filter präzisere und umfassendere Bewertungen, die direkt die Qualität der gefilterten Daten verbessern und die Leistung von vorab trainierten Modellen steigern. Wir erzielen signifikante Verbesserungen gegenüber CLIPScore bei beliebten Grundlagenmodellen (d. h. CLIP und BLIP2) und verschiedenen nachgelagerten Aufgaben. Unser MLM-Filter kann auf verschiedene Modelle und Aufgaben verallgemeinert werden und als problemloser Ersatz für CLIPScore dienen. Eine zusätzliche Ablationsstudie wird durchgeführt, um unsere Designentscheidungen für den MLM-Filter zu bestätigen.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten im Problemlösen gezeigt. Ihre Kompetenz bei der Lösung mathematischer Probleme ist jedoch unzureichend. Wir schlagen MathScale vor, eine einfache und skalierbare Methode zur Erstellung hochwertiger mathematischer Schlussfolgerungsdaten unter Verwendung moderner LLMs (z.B. GPT-3.5). Inspiriert von den kognitiven Mechanismen des menschlichen mathematischen Lernens, extrahiert es zunächst Themen und Wissenspunkte aus Ausgangsfragen der Mathematik und erstellt dann einen Konzeptgraphen, der anschließend zur Generierung neuer Mathematikfragen verwendet wird. MathScale zeigt eine effektive Skalierbarkeit entlang der Größenachse des von uns generierten Mathematikdatensatzes. Dadurch erstellen wir einen mathematischen Schlussfolgerungsdatensatz (MathScaleQA) mit zwei Millionen Frage-Antwort-Paaren. Um die mathematischen Schlussfolgerungsfähigkeiten von LLMs umfassend zu bewerten, konstruieren wir MwpBench, einen Benchmark für Mathematik-Wortprobleme, der eine Sammlung von zehn Datensätzen (einschließlich GSM8K und MATH) umfasst und K-12, College- und Wettbewerbsniveau-Mathematikprobleme abdeckt. Wir wenden MathScaleQA an, um Open-Source LLMs (z.B. LLaMA-2 und Mistral) zu feinabstimmen, was zu signifikant verbesserten Fähigkeiten bei mathematischen Schlussfolgerungen führt. Evaluiert auf MwpBench, erreicht MathScale-7B eine Spitzenleistung in allen Datensätzen, wobei es seine besten Pendants gleicher Größe um 42,9 % bei der Mikrodurchschnittsgenauigkeit und 43,7 % bei der Makrodurchschnittsgenauigkeit übertrifft.
Skalierungsgesetze spielen eine entscheidende Rolle bei der nachhaltigen Verbesserung der Modellqualität. Leider zeigen Empfehlungsmodelle bis heute keine Gesetzmäßigkeiten ähnlich denen, die im Bereich großer Sprachmodelle beobachtet werden, aufgrund der Ineffizienzen ihrer Hochskalierungsmechanismen. Diese Einschränkung stellt bedeutende Herausforderungen bei der Anpassung dieser Modelle an zunehmend komplexere realweltliche Datensätze dar. In diesem Artikel schlagen wir eine effektive Netzwerkarchitektur vor, die ausschließlich auf gestapelten Faktorisierungsmaschinen basiert, sowie eine synergistische Hochskalierungsstrategie, die gemeinsam als Wukong bezeichnet werden, um ein Skalierungsgesetz im Bereich der Empfehlungen festzulegen. Das einzigartige Design von Wukong ermöglicht es, vielfältige Interaktionen beliebiger Ordnung einfach durch höhere und breitere Schichten zu erfassen. Wir führten umfangreiche Bewertungen an sechs öffentlichen Datensätzen durch, und unsere Ergebnisse zeigen, dass Wukong in Bezug auf die Qualität kontinuierlich besser abschneidet als Modelle auf dem neuesten Stand der Technik. Darüber hinaus haben wir Wukongs Skalierbarkeit an einem internen, groß angelegten Datensatz bewertet. Die Ergebnisse zeigen, dass Wukong seine Überlegenheit in Bezug auf die Qualität gegenüber modernsten Modellen beibehält, während es das Skalierungsgesetz über zwei Größenordnungen in der Modellkomplexität beibehält, das bis zu 100 Gflop oder äquivalent bis zur Gesamtschulungsberechnung im Maßstab von GPT-3/LLaMa-2 reicht, wo frühere Ansätze versagen.
Die Entwicklung von multimodalen interaktiven Systemen wird durch den Mangel an umfangreichen, multimodalen (Text, Bilder) Konversationsdaten behindert, die in großen Mengen für große Sprachmodell (LLMs) benötigt werden. Frühere Ansätze erweitern textuelle Dialoge mit abgerufenen Bildern, was Datenschutz-, Diversitäts- und Qualitätsbeschränkungen mit sich bringt. In dieser Arbeit stellen wir Multimodal Augmented Generative Images Dialogues (MAGID) vor, ein Framework zur Erweiterung von rein textbasierten Dialogen mit vielfältigen und qualitativ hochwertigen Bildern. Anschließend wird ein Diffusionsmodell angewendet, um entsprechende Bilder zu erstellen, die eine Abstimmung mit dem identifizierten Text gewährleisten. Schließlich integriert MAGID eine innovative Rückkopplungsschleife zwischen einem Bildbeschreibungs-Generierungsmodul (textuelles LLM) und Bildqualitätsmodulen (die Ästhetik, Bild-Text-Abstimmung und Sicherheit behandeln), die zusammenarbeiten, um hochwertige und multimodale Dialoge zu generieren. Wir vergleichen MAGID mit anderen SOTA-Baselines auf drei Dialogdatensätzen unter Verwendung automatisierter und menschlicher Bewertung. Unsere Ergebnisse zeigen, dass MAGID mit Baselines vergleichbar oder besser ist, mit signifikanten Verbesserungen in der menschlichen Bewertung, insbesondere gegenüber Abruf-Baselines, bei denen die Bilddatenbank klein ist.
Große Sprachmodelle (LLMs) haben sich in verschiedenen Aufgaben als überlegen gegenüber herkömmlichen Methoden erwiesen. Ihre teuren Berechnungen und hohen Speicheranforderungen sind jedoch hinderlich für den Einsatz. Die Modellquantisierung ist eine effektive Methode zur Reduzierung dieses Overheads. Das Problem besteht darin, dass in den meisten früheren Arbeiten das quantisierte Modell unter Verwendung weniger Stichproben aus den Trainingsdaten kalibriert wurde, was die Verallgemeinerung der quantisierten LLMs auf unbekannte Fälle und Aufgaben beeinträchtigen könnte. Daher untersuchen wir in dieser Arbeit eine wichtige Frage: Können wir eine datenunabhängige Quantisierungsmethode für LLMs entwerfen, um deren Verallgemeinerungsleistung zu garantieren? In dieser Arbeit schlagen wir EasyQuant vor, einen trainingsfreien und datenunabhängigen Algorithmus zur Gewichtsquantisierung für LLMs. Unsere Beobachtung zeigt, dass zwei Faktoren - Ausreißer im Gewicht und Quantisierungsbereich - wesentlich sind, um den Quantisierungsfehler zu reduzieren. Daher belassen wir in EasyQuant die Ausreißer (weniger als 1%) unverändert und optimieren den Quantisierungsbereich, um den Rekonstruktionsfehler zu verringern. Mit diesen Methoden stellen wir überraschenderweise fest, dass EasyQuant eine vergleichbare Leistung wie das Originalmodell erreicht. Da EasyQuant nicht auf Trainingsdaten angewiesen ist, wird die Verallgemeinerungsleistung der quantisierten LLMs sicher garantiert. Darüber hinaus kann EasyQuant parallel implementiert werden, sodass das quantisierte Modell selbst für LLMs über 100B in wenigen Minuten erreicht werden kann. Unseres Wissens nach sind wir die erste Arbeit, die unter einer datenunabhängigen Einstellung eine nahezu verlustfreie Quantisierungsleistung für LLMs erreicht, und unser Algorithmus läuft über 10-mal schneller als die datenabhängigen Methoden.
Trotz bemerkenswerter Fortschritte sind bestehende multimodale große Sprachmodelle (MLLMs) immer noch in der feinkörnigen visuellen Erkennung unterlegen. Im Gegensatz zu früheren Arbeiten untersuchen wir dieses Problem aus der Perspektive der Bildauflösung und zeigen auf, dass eine Kombination von niedrig- und hochauflösenden visuellen Merkmalen diesen Mangel effektiv mildern kann. Basierend auf dieser Beobachtung schlagen wir eine neuartige und effiziente Methode für MLLMs vor, die als Mixture-of-Resolution Adaptation (MRA) bezeichnet wird. Insbesondere verwendet MRA zwei visuelle Pfade für Bilder mit unterschiedlichen Auflösungen, wobei hochauflösende visuelle Informationen über die neuartigen Mixture-of-Resolution Adapter (MR-Adapter) in den Pfad mit niedriger Auflösung eingebettet werden. Dieses Design reduziert auch erheblich die Eingabesequenzlänge von MLLMs. Zur Validierung von MRA wenden wir es auf ein kürzlich veröffentlichtes MLLM namens LLaVA an und bezeichnen das neue Modell als LLaVA-HR. Wir führen umfangreiche Experimente zu 11 Vision-Language (VL)-Aufgaben durch, die zeigen, dass LLaVA-HR bestehende MLLMs in 8 VL-Aufgaben übertrifft, z. B. +9,4% bei TextVQA. Wichtig ist, dass sowohl das Training als auch die Inferenz von LLaVA-HR mit MRA effizient bleiben, z. B. 20 Trainingsstunden und 3-mal schnellere Inferenzgeschwindigkeit als bei LLaVA-1.5. Die Quellcodes sind verfügbar unter: https://github.com/luogen1996/LLaVA-HR.
Von der Inhaltsmoderation bis zum Naturschutz nimmt die Anzahl der Anwendungen zu, die Modelle erfordern, um nuancierte oder subjektive visuelle Konzepte zu erkennen. Traditionell erfordert die Entwicklung von Klassifizierern für solche Konzepte einen erheblichen manuellen Aufwand, der in Stunden, Tagen oder sogar Monaten gemessen wird, um die für das Training benötigten Daten zu identifizieren und zu annotieren. Selbst mit kürzlich vorgeschlagenen Agilen Modellierungstechniken, die ein schnelles Bootstrapping von Bildklassifizierern ermöglichen, müssen Benutzer immer noch 30 Minuten oder mehr monotones, wiederholtes Datenlabeling aufwenden, um einen einzelnen Klassifizierer zu trainieren. Unter Bezugnahme auf Fiskes Theorie des kognitiven Geiz schlagen wir ein neues Rahmenwerk vor, das den manuellen Aufwand durch den Ersatz menschlicher Kennzeichnung durch Interaktionen in natürlicher Sprache verringert und den Gesamtaufwand zur Definition eines Konzepts um eine Größenordnung reduziert: von der Kennzeichnung von 2.000 Bildern auf nur 100 plus einige Interaktionen in natürlicher Sprache. Unser Rahmenwerk nutzt die jüngsten Fortschritte bei Grundlagenmodellen, sowohl großen Sprachmodellen als auch Bild-Sprach-Modellen, um den Konzeptraum durch Gespräche zu erschließen und die Trainingsdatenpunkte automatisch zu kennzeichnen. Am wichtigsten ist, dass unser Rahmenwerk den Bedarf an Crowdsourcing-Annotationen beseitigt. Darüber hinaus produziert unser Rahmenwerk letztendlich leichtgewichtige Klassifizierungsmodelle, die in kostensensiblen Szenarien einsetzbar sind. Über 15 subjektive Konzepte und über 2 öffentliche Bildklassifikationsdatensätze hinweg übertreffen unsere trainierten Modelle traditionelle Agile Modellierung sowie modernste Null-Schuss-Klassifikationsmodelle wie ALIGN, CLIP, CuPL und große visuelle Frage-Antwort-Modelle wie PaLI-X.
Natürliche Sprache und Bilder werden häufig als Zielrepräsentationen im Imitationslernen mit Zielen verwendet. Allerdings kann natürliche Sprache mehrdeutig sein und Bilder können übergenau sein. In dieser Arbeit schlagen wir handgezeichnete Skizzen als Modalität für die Zielspezifikation im visuellen Imitationslernen vor. Skizzen sind für Benutzer einfach bereitzustellen, ähnlich wie Sprache, aber sie können, ähnlich wie Bilder, einem nachgelagerten Richtlinienmodell helfen, räumlich bewusst zu sein und sogar über Bilder hinauszugehen, um aufgabenrelevante von aufgabenirrelevanten Objekten zu unterscheiden. Wir stellen RT-Sketch vor, eine zielkonditionierte Richtlinie für Manipulation, die eine handgezeichnete Skizze der gewünschten Szene als Eingabe erhält und Aktionen ausgibt. Wir trainieren RT-Sketch auf einem Datensatz von gepaarten Trajektorien und entsprechenden synthetisch generierten Zielskizzen. Wir evaluieren diesen Ansatz an sechs Manipulationsfähigkeiten, die Umgestaltungen von Objekten auf einer Gliederarbeitsplatte beinhalten. Experimentell stellen wir fest, dass RT-Sketch in einfachen Umgebungen auf ähnlichem Niveau wie bild- oder sprachkonditionierte Agenten agieren kann, während es eine größere Robustheit erreicht, wenn Sprachziele mehrdeutig sind oder visuelle Ablenkungen vorhanden sind. Darüber hinaus zeigen wir, dass RT-Sketch die Fähigkeit hat, Skizzen mit unterschiedlichen Spezifitätsgraden zu interpretieren und darauf zu reagieren, die von minimalen Strichzeichnungen bis hin zu detaillierten, farbigen Zeichnungen reichen. Für ergänzendes Material und Videos verweisen wir auf unsere Website: http://rt-sketch.github.io.
Die jüngsten Entwicklungen im Bereich neuronaler Felder haben phänomenale Fähigkeiten im Bereich der Formgenerierung gebracht, aber es fehlen entscheidende Eigenschaften wie inkrementelle Steuerung - eine grundlegende Anforderung für künstlerische Arbeiten. Dreiecksgitter sind hingegen die bevorzugte Darstellung für die meisten geometriebezogenen Aufgaben, da sie Effizienz und intuitive Steuerung bieten, aber sich nicht für neuronale Optimierung eignen. Zur Unterstützung nachgelagerter Aufgaben schlägt die bisherige Literatur typischerweise einen zweistufigen Ansatz vor, bei dem zunächst eine Form unter Verwendung neuronaler Felder generiert wird und anschließend ein Gitter zur weiteren Verarbeitung extrahiert wird. In diesem Paper stellen wir stattdessen einen hybriden Ansatz vor, der sowohl ein Gitter als auch eine Darstellung mittels Vorzeichenabstandsfeld (SDF) konsistent beibehält. Unter Verwendung dieser Darstellung stellen wir MagicClay vor - ein benutzerfreundliches Werkzeug für Künstler, um Regionen eines Gitters gemäß textueller Anweisungen zu modellieren, während andere Regionen unberührt bleiben. Unser Framework balanciert sorgfältig und effizient die Konsistenz zwischen den Darstellungen und Regularisierungen in jedem Schritt der Formoptimierung; Basierend auf der Gitterdarstellung zeigen wir, wie das SDF in höheren Auflösungen und schneller gerendert werden kann. Darüber hinaus nutzen wir aktuelle Arbeiten zur differentiellen Gitterrekonstruktion, um Dreiecke im Gitter adaptiv zuzuweisen, wo dies gemäß des SDF erforderlich ist. Anhand eines implementierten Prototyps zeigen wir eine überlegene generierte Geometrie im Vergleich zum Stand der Technik sowie eine neuartige konsistente Steuerung, die erstmals sequenzielle promptbasierte Bearbeitungen am selben Gitter ermöglicht.