Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Text-to-Image-Generierung ist ein bedeutendes Gebiet der modernen Computer Vision und hat durch die Weiterentwicklung generativer Architekturen erhebliche Fortschritte erzielt. Unter diesen haben sich diffusionsbasierte Modelle als wesentliche Qualitätsverbesserungen erwiesen. Diese Modelle werden allgemein in zwei Kategorien unterteilt: Pixel-Level- und Latent-Level-Ansätze. Wir präsentieren Kandinsky1, eine neuartige Erkundung der Latent-Diffusions-Architektur, die die Prinzipien der Image-Prior-Modelle mit Latent-Diffusions-Techniken kombiniert. Das Image-Prior-Modell wird separat trainiert, um Text-Embeddings auf Bild-Embeddings von CLIP abzubilden. Ein weiteres besonderes Merkmal des vorgeschlagenen Modells ist die modifizierte MoVQ-Implementierung, die als Bild-Autoencoder-Komponente dient. Insgesamt enthält das entwickelte Modell 3,3 Milliarden Parameter. Wir haben auch ein benutzerfreundliches Demo-System bereitgestellt, das verschiedene generative Modi unterstützt, wie Text-to-Image-Generierung, Bildfusion, Text- und Bildfusion, Bildvariationsgenerierung sowie textgesteuertes Inpainting/Outpainting. Zusätzlich haben wir den Quellcode und die Checkpoints für die Kandinsky-Modelle veröffentlicht. Experimentelle Auswertungen zeigen einen FID-Score von 8,03 auf dem COCO-30K-Datensatz, was unser Modell als den führenden Open-Source-Performer in Bezug auf messbare Bildgenerierungsqualität auszeichnet.
Große multimodale Modelle (LMM) haben kürzlich ermutigende Fortschritte bei der visuellen Instruktionsfeinabstimmung gezeigt. In dieser Arbeit zeigen wir, dass der vollständig vernetzte visuell-sprachliche Cross-Modal-Connector in LLaVA überraschend leistungsstark und dateneffizient ist. Mit einfachen Modifikationen an LLaVA, nämlich der Verwendung von CLIP-ViT-L-336px mit einer MLP-Projektion und der Hinzufügung von akademisch ausgerichteten VQA-Daten mit einfachen Antwortformatierungs-Prompts, etablieren wir stärkere Baselines, die Spitzenwerte über 11 Benchmarks hinweg erreichen. Unser finaler 13B-Checkpoint verwendet lediglich 1,2 Millionen öffentlich verfügbare Daten und absolviert das vollständige Training in etwa einem Tag auf einem einzelnen 8-A100-Knoten. Wir hoffen, dass dies die Forschung an state-of-the-art LMMs zugänglicher machen kann. Code und Modell werden öffentlich verfügbar sein.
Der kürzlich veröffentlichte GPT-4 Code Interpreter hat bemerkenswerte Fähigkeiten bei der Lösung anspruchsvoller mathematischer Probleme gezeigt, was vor allem auf seine Fähigkeit zurückzuführen ist, nahtlos mit natürlicher Sprache zu argumentieren, Code zu generieren, Code auszuführen und basierend auf den Ausführungsergebnissen weiter zu argumentieren. In diesem Artikel präsentieren wir eine Methode zur Feinabstimmung von Open-Source-Sprachmodellen, die es ihnen ermöglicht, Code für die Modellierung und Ableitung mathematischer Gleichungen zu verwenden und dadurch ihre mathematischen Denkfähigkeiten zu verbessern. Wir schlagen eine Methode zur Erzeugung neuartiger und hochwertiger Datensätze mit mathematischen Problemen und ihren codebasierten Lösungen vor, die als MathCodeInstruct bezeichnet wird. Jede Lösung verknüpft natürliche Sprache, Code und Ausführungsergebnisse. Wir führen auch einen maßgeschneiderten Ansatz für überwachtes Fein-Tuning und Inferenz ein. Dieser Ansatz führt zu den MathCoder-Modellen, einer Familie von Modellen, die in der Lage sind, codebasierte Lösungen für die Lösung anspruchsvoller mathematischer Probleme zu generieren. Beeindruckenderweise erreichen die MathCoder-Modelle state-of-the-art-Werte unter Open-Source-LLMs auf den Datensätzen MATH (45,2 %) und GSM8K (83,9 %) und übertreffen damit andere Open-Source-Alternativen deutlich. Bemerkenswert ist, dass das MathCoder-Modell nicht nur ChatGPT-3.5 und PaLM-2 auf GSM8K und MATH übertrifft, sondern auch GPT-4 auf dem wettbewerbsorientierten MATH-Datensatz. Die Datensätze und Modelle werden unter https://github.com/mathllm/MathCoder veröffentlicht.
Text-to-Image-Diffusionsmodelle sind kürzlich an die Spitze der Bildgenerierung aufgestiegen, angetrieben durch sehr groß angelegte, unüberwachte oder schwach überwachte Text-to-Image-Trainingsdatensätze. Aufgrund ihres unüberwachten Trainings ist es schwierig, ihr Verhalten in nachgelagerten Aufgaben zu steuern, wie z. B. die Maximierung der vom Menschen wahrgenommenen Bildqualität, die Ausrichtung von Bild und Text oder die ethische Bildgenerierung. Aktuelle Arbeiten feinen Diffusionsmodelle an nachgelagerte Belohnungsfunktionen an, indem sie klassisches Reinforcement Learning verwenden, das für die hohe Varianz der Gradientenschätzer bekannt ist. In diesem Artikel schlagen wir AlignProp vor, eine Methode, die Diffusionsmodelle an nachgelagerte Belohnungsfunktionen anpasst, indem sie den Belohnungsgradienten durch den Denoising-Prozess mittels End-to-End-Backpropagation ausrichtet. Während eine naive Implementierung einer solchen Backpropagation prohibitive Speicherressourcen für die Speicherung der partiellen Ableitungen moderner Text-to-Image-Modelle erfordern würde, feint AlignProp niedrigrangige Adapter-Gewichtsmodule an und verwendet Gradient-Checkpointing, um den Speicherverbrauch tragbar zu machen. Wir testen AlignProp beim Feinabstimmen von Diffusionsmodellen auf verschiedene Ziele, wie die semantische Ausrichtung von Bild und Text, Ästhetik, Komprimierbarkeit und die Steuerbarkeit der Anzahl vorhandener Objekte sowie deren Kombinationen. Wir zeigen, dass AlignProp in weniger Trainingsschritten höhere Belohnungen erzielt als Alternativen, während es konzeptionell einfacher ist, was es zu einer naheliegenden Wahl für die Optimierung von Diffusionsmodellen für differenzierbare Belohnungsfunktionen von Interesse macht. Code und Visualisierungsergebnisse sind verfügbar unter https://align-prop.github.io/.
Sprachmodelle (LMs) haben gezeigt, dass sie in der Lage sind, eine Vielzahl von generativen Aufgaben zu bewältigen. Dieses Artikel stellt das UniAudio-System vor, das im Gegensatz zu früheren aufgabenspezifischen Ansätzen LM-Techniken nutzt, um verschiedene Arten von Audio (einschließlich Sprache, Geräusche, Musik und Gesang) mit gegebenen Eingabebedingungen zu generieren. UniAudio 1) tokenisiert zunächst alle Arten von Ziel-Audio zusammen mit anderen Bedingungsmodalitäten, 2) verkettet Quell-Ziel-Paare zu einer einzigen Sequenz und 3) führt eine Next-Token-Vorhersage mithilfe von LMs durch. Zudem wird ein Multi-Scale-Transformer-Modell vorgeschlagen, um die übermäßig langen Sequenzen zu bewältigen, die durch den auf residualer Vektorquantisierung basierenden neuronalen Codec bei der Tokenisierung verursacht werden. Das Training von UniAudio wird auf 165.000 Stunden Audio und 1 Milliarde Parameter skaliert, basierend auf allen generativen Aufgaben, mit dem Ziel, ausreichend Vorwissen nicht nur über die intrinsischen Eigenschaften von Audio, sondern auch über die Zusammenhänge zwischen Audio und anderen Modalitäten zu erlangen. Daher hat das trainierte UniAudio-Modell das Potenzial, ein Grundlagenmodell für universelle Audioerzeugung zu werden: Es zeigt starke Fähigkeiten in allen trainierten Aufgaben und kann nahtlos neue Audioerzeugungsaufgaben nach einfachem Fine-Tuning unterstützen. Experimente zeigen, dass UniAudio bei den meisten der 11 Aufgaben state-of-the-art oder zumindest wettbewerbsfähige Ergebnisse erzielt. Demo und Code sind unter https://github.com/yangdongchao/UniAudio verfügbar.
Die meisten großen Sprachmodelle (LLMs) werden einmal trainiert und nie aktualisiert; daher fehlt ihnen die Fähigkeit, sich dynamisch an unsere sich ständig verändernde Welt anzupassen. In dieser Arbeit führen wir eine detaillierte Studie zur Faktizität von LLM-generierten Texten im Kontext der Beantwortung von Fragen durch, die aktuelles Weltwissen testen. Insbesondere stellen wir FreshQA vor, einen neuartigen dynamischen QA-Benchmark, der eine Vielzahl von Frage- und Antworttypen umfasst, einschließlich Fragen, die schnell wechselndes Weltwissen erfordern, sowie Fragen mit falschen Prämissen, die widerlegt werden müssen. Wir bewerten eine Vielzahl von sowohl geschlossenen als auch Open-Source-LLMs unter einem zweistufigen Evaluationsverfahren, das es uns ermöglicht, sowohl die Korrektheit als auch die Halluzination zu messen. Durch menschliche Bewertungen mit mehr als 50.000 Urteilen beleuchten wir die Grenzen dieser Modelle und zeigen erheblichen Verbesserungsbedarf auf: Beispielsweise haben alle Modelle (unabhängig von der Modellgröße) Schwierigkeiten mit Fragen, die schnell wechselndes Wissen und falsche Prämissen betreffen. Motiviert durch diese Ergebnisse präsentieren wir FreshPrompt, eine einfache Few-Shot-Prompting-Methode, die die Leistung eines LLMs auf FreshQA erheblich steigert, indem relevante und aktuelle Informationen, die von einer Suchmaschine abgerufen werden, in den Prompt integriert werden. Unsere Experimente zeigen, dass FreshPrompt sowohl konkurrierende Suchmaschinen-gestützte Prompting-Methoden wie Self-Ask (Press et al., 2022) als auch kommerzielle Systeme wie Perplexity.AI übertrifft. Eine weitere Analyse von FreshPrompt zeigt, dass sowohl die Anzahl der abgerufenen Belege als auch deren Reihenfolge eine Schlüsselrolle bei der Beeinflussung der Korrektheit von LLM-generierten Antworten spielen. Zusätzlich hilft die Anweisung an das LLM, prägnante und direkte Antworten zu generieren, die Halluzination im Vergleich zu ausführlicheren Antworten zu reduzieren. Um zukünftige Arbeiten zu erleichtern, veröffentlichen wir FreshQA unter github.com/freshllms/freshqa und verpflichten uns, es in regelmäßigen Abständen zu aktualisieren.
Aktuelle Vision-Sprache-Generierungsmodelle sind auf umfangreiche Korpora gepaarter Bild-Text-Daten angewiesen, um optimale Leistung und Generalisierungsfähigkeiten zu erreichen. Die automatische Sammlung solcher Daten (z. B. durch groß angelegtes Web-Scraping) führt jedoch zu niedriger Qualität und schlechter Bild-Text-Korrelation, während menschliche Annotation zwar genauer ist, aber erheblichen manuellen Aufwand und Kosten erfordert. Wir stellen ITIT (InTegrating Image Text) vor: ein innovatives Trainingsparadigma, das auf dem Konzept der Zyklenkonsistenz basiert und das Training von Vision-Sprache-Modellen mit ungepaarten Bild- und Textdaten ermöglicht. ITIT besteht aus einem gemeinsamen Bild-Text-Encoder mit getrennten Bild- und Text-Decodern, die bidirektionale Bild-zu-Text- und Text-zu-Bild-Generierung in einem einzigen Framework ermöglichen. Während des Trainings nutzt ITIT eine kleine Menge gepaarter Bild-Text-Daten, um sicherzustellen, dass seine Ausgabe in beide Richtungen angemessen gut mit der Eingabe übereinstimmt. Gleichzeitig wird das Modell auch auf viel größeren Datensätzen trainiert, die nur Bilder oder Texte enthalten. Dies wird durch die Durchsetzung von Zyklenkonsistenz zwischen den ursprünglichen ungepaarten Stichproben und den zyklisch generierten Gegenstücken erreicht. Zum Beispiel generiert es eine Beschreibung für ein gegebenes Eingabebild und verwendet dann die Beschreibung, um ein Ausgabebild zu erstellen, und erzwingt Ähnlichkeit zwischen dem Eingabe- und dem Ausgabebild. Unsere Experimente zeigen, dass ITIT mit ungepaarten Datensätzen ein ähnliches Skalierungsverhalten aufweist wie die Verwendung hochwertiger gepaarter Daten. Wir demonstrieren Bildgenerierungs- und Beschreibungsleistungen, die mit den besten Text-zu-Bild- und Bild-zu-Text-Modellen vergleichbar sind, jedoch mit einer um Größenordnungen geringeren Menge (nur 3 Millionen) gepaarter Bild-Text-Daten.
Große Erfolge wurden mit Reinforcement Learning from Human Feedback (RLHF) gemeldet, um große Sprachmodelle auszurichten. Open-Source-Präferenzdatensätze und Belohnungsmodelle haben eine breitere Experimentation über generische Chat-Einstellungen hinaus ermöglicht, insbesondere um Systeme für Aufgaben wie Web-Fragebeantwortung, Zusammenfassung und mehrschrittige Dialoge „hilfreicher“ zu machen. Bei der Optimierung auf Hilfsbereitschaft wurde durchweg beobachtet, dass RLHF Modelle dazu antreibt, längere Ausgaben zu erzeugen. Diese Arbeit zeigt, dass die Optimierung der Antwortlänge ein wesentlicher Faktor hinter den gemeldeten Verbesserungen von RLHF in diesen Einstellungen ist. Zunächst untersuchen wir die Beziehung zwischen Belohnung und Länge für Belohnungsmodelle, die auf drei Open-Source-Präferenzdatensätzen für Hilfsbereitschaft trainiert wurden. Hier korreliert die Länge stark mit der Belohnung, und Verbesserungen im Belohnungswert werden größtenteils durch eine Verschiebung der Verteilung über die Ausgabelängen erreicht. Anschließend untersuchen wir Interventionen während des RL- und Belohnungsmodell-Lernens, um zu sehen, ob wir die gleichen nachgelagerten Verbesserungen wie RLHF erzielen können, ohne die Länge zu erhöhen. Während unsere Interventionen Längenzunahmen mildern, sind sie nicht einheitlich effektiv über alle Einstellungen hinweg. Darüber hinaus stellen wir fest, dass selbst die Ausführung von RLHF mit einer Belohnung, die ausschließlich auf der Länge basiert, die meisten der nachgelagerten Verbesserungen gegenüber dem ursprünglichen Richtlinienmodell reproduzieren kann, was zeigt, dass Belohnungsmodelle in diesen Einstellungen noch einen langen Weg vor sich haben.
Die Ausführung von Aufgaben im Web stellt grundlegende Herausforderungen für große Sprachmodelle (LLMs) dar, darunter kombinatorisch große Aufgaben in einer offenen Welt und Variationen zwischen Web-Oberflächen. Die einfache Spezifikation eines großen Prompts, um alle möglichen Verhaltensweisen und Zustände zu handhaben, ist äußerst komplex und führt zu Verhaltenslecks zwischen unabhängigen Verhaltensweisen. Eine Zerlegung in verschiedene Richtlinien kann diese Herausforderung bewältigen, erfordert jedoch eine sorgfältige Übergabe der Kontrolle zwischen den Richtlinien. Wir schlagen Stacked LLM Policies for Web Actions (SteP) vor, einen Ansatz zur dynamischen Zusammensetzung von Richtlinien, um eine Vielzahl von Web-Aufgaben zu lösen. SteP definiert einen Markov-Entscheidungsprozess, bei dem der Zustand ein Stapel von Richtlinien ist, der den Kontrollzustand, d.h. die Kette von Richtlinienaufrufen, repräsentiert. Im Gegensatz zu traditionellen Methoden, die auf statische Hierarchien beschränkt sind, ermöglicht SteP eine dynamische Kontrolle, die sich an die Komplexität der Aufgabe anpasst. Wir bewerten SteP gegen mehrere Baselines und Web-Umgebungen, darunter WebArena, MiniWoB++ und ein CRM. Auf WebArena verbessert SteP (14,9\% bis 33,5\%) gegenüber dem State-of-the-Art, der GPT-4-Richtlinien verwendet, während SteP auf MiniWob++ mit früheren Arbeiten konkurrenzfähig ist, dabei jedoch deutlich weniger Daten verwendet. Unser Code und unsere Daten sind verfügbar unter https://asappresearch.github.io/webagents-step.
Wir stellen DragView vor, ein neuartiges und interaktives Framework zur Erzeugung neuer Ansichten von unbekannten Szenen. DragView initialisiert die neue Ansicht aus einem einzelnen Quellbild, wobei das Rendering durch eine spärliche Menge ungeposeter Multi-View-Bilder unterstützt wird, alles nahtlos in einem einzigen Feed-Forward-Durchlauf ausgeführt. Unser Ansatz beginnt damit, dass Benutzer eine Quellansicht durch ein lokales relatives Koordinatensystem ziehen. Pixelgenaue Merkmale werden durch die Projektion der abgetasteten 3D-Punkte entlang des Zielstrahls auf die Quellansicht gewonnen. Anschließend integrieren wir eine ansichtsabhängige Modulationsschicht, um Okklusionen während der Projektion effektiv zu handhaben. Zudem erweitern wir den epipolaren Aufmerksamkeitsmechanismus, um alle Quellpixel einzubeziehen, was die Aggregation von initialisierten koordinatenausgerichteten Punktmerkmalen aus anderen ungeposeten Ansichten erleichtert. Schließlich verwenden wir einen weiteren Transformer, um Strahlmerkmale in endgültige Pixelintensitäten zu dekodieren. Entscheidend ist, dass unser Framework weder auf 2D-Prior-Modelle noch auf die explizite Schätzung von Kameraposen angewiesen ist. Während des Tests zeigt DragView die Fähigkeit, sich auf neue Szenen zu verallgemeinern, die während des Trainings nicht gesehen wurden, und nutzt dabei nur ungeposte Unterstützungsbilder, was die Erzeugung fotorealistischer neuer Ansichten mit flexiblen Kameratrajektorien ermöglicht. In unseren Experimenten führen wir einen umfassenden Vergleich der Leistung von DragView mit aktuellen Szenendarstellungsnetzwerken unter posierungsfreien Bedingungen sowie mit generalisierbaren NeRFs bei verrauschten Testkameraposen durch. DragView zeigt durchweg seine überlegene Leistung in der Qualität der Ansichtssynthese und ist dabei auch benutzerfreundlicher. Projektseite: https://zhiwenfan.github.io/DragView/.