Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Entwicklung großer Sprachmodelle hat ein weit verbreitetes Interesse unter Forschern geweckt, deren inhärente Denk- und Problemlösungsfähigkeiten zu verstehen. Trotz einer beträchtlichen Menge an Forschung, die darauf abzielt, diese Fähigkeiten zu erläutern, besteht immer noch eine merkliche Lücke im Verständnis der moralischen Entwicklung und Urteilsfähigkeit dieser Modelle. Die aktuellen Ansätze zur Bewertung der ethischen Denkfähigkeiten dieser Modelle als Klassifikationsaufgabe bergen zahlreiche Ungenauigkeiten aufgrund von Übervereinfachung. In dieser Studie haben wir eine psychologische Verbindung hergestellt, indem wir zwei disparate Felder – die menschliche Psychologie und die KI – miteinander verknüpft haben. Wir haben einen effektiven Bewertungsrahmen vorgeschlagen, der dazu beitragen kann, die ethische Denkfähigkeit des Modells in Bezug auf moralische Konsistenz und Kohlbergs Stufen der moralischen Entwicklung mit Hilfe des psychometrischen Bewertungstools „Defining Issues Test“ zu beschreiben.
Obwohl neuere Text-zu-Video (T2V)-Generierungsmethoden erhebliche Fortschritte gemacht haben, konzentrieren sich die meisten dieser Arbeiten auf die Erstellung kurzer Videoclips eines einzelnen Ereignisses mit einem einzigen Hintergrund (d.h. Einzelszenen-Videos). Gleichzeitig haben aktuelle große Sprachmodelle (LLMs) ihre Fähigkeit unter Beweis gestellt, Layouts und Programme zu generieren, um nachgelagerte visuelle Module wie Bildgenerierungsmodelle zu steuern. Dies wirft eine wichtige Frage auf: Können wir das in diesen LLMs eingebettete Wissen für die zeitlich konsistente Erzeugung langer Videos nutzen? In diesem Artikel schlagen wir VideoDirectorGPT vor, ein neuartiges Framework für die konsistente Generierung von Mehrszenen-Videos, das das Wissen der LLMs für die Videocontent-Planung und die fundierte Videogenerierung nutzt. Konkret erweitern wir bei einem einzelnen Textprompt zunächst unser Video-Planer-LLM (GPT-4), um daraus einen „Video-Plan“ zu erstellen, der die Szenenbeschreibungen, die Entitäten mit ihren jeweiligen Layouts, den Hintergrund für jede Szene sowie die Konsistenzgruppierungen der Entitäten und Hintergründe umfasst. Anschließend hat unser Videogenerator, Layout2Vid, basierend auf der Ausgabe des Video-Planers, explizite Kontrolle über die räumlichen Layouts und kann die zeitliche Konsistenz von Entitäten/Hintergründen über Szenen hinweg aufrechterhalten, obwohl er nur mit Bild-Level-Annotationen trainiert wurde. Unsere Experimente zeigen, dass das VideoDirectorGPT-Framework die Layout- und Bewegungssteuerung sowohl bei der Einzel- als auch bei der Mehrszenen-Videogenerierung erheblich verbessert und Mehrszenen-Videos mit visueller Konsistenz über Szenen hinweg erzeugen kann, während es eine wettbewerbsfähige Leistung mit den State-of-the-Art-Methoden (SOTAs) in der offenen Einzelszenen-T2V-Generierung erreicht. Wir zeigen auch, dass unser Framework die Stärke der Layoutführung dynamisch steuern kann und Videos mit benutzerbereitgestellten Bildern generieren kann. Wir hoffen, dass unser Framework zukünftige Arbeiten dazu inspirieren kann, die Planungsfähigkeit von LLMs besser in die konsistente Erzeugung langer Videos zu integrieren.
Große Multimodale Modelle (LMM) werden über verschiedene Modalitäten hinweg aufgebaut, und die Fehlausrichtung zwischen zwei Modalitäten kann zu „Halluzinationen“ führen, bei denen textuelle Ausgaben erzeugt werden, die nicht durch die multimodalen Informationen im Kontext gestützt sind. Um das Problem der multimodalen Fehlausrichtung zu adressieren, adaptieren wir das Reinforcement Learning from Human Feedback (RLHF) aus dem Textbereich auf die Aufgabe der Vision-Sprache-Ausrichtung. Dabei werden menschliche Annotatoren gebeten, zwei Antworten zu vergleichen und diejenige mit stärkeren Halluzinationen zu identifizieren, während das Vision-Sprache-Modell darauf trainiert wird, die simulierten menschlichen Belohnungen zu maximieren. Wir schlagen einen neuen Ausrichtungsalgorithmus namens Factually Augmented RLHF vor, der das Belohnungsmodell mit zusätzlichen faktischen Informationen wie Bildbeschreibungen und wahrheitsgemäßen Multiple-Choice-Optionen erweitert. Dies mildert das Problem des „Reward Hacking“ in RLHF und verbessert die Leistung weiter. Zusätzlich verbessern wir die mit GPT-4 generierten Trainingsdaten (für Vision Instruction Tuning) durch zuvor verfügbare, von Menschen geschriebene Bild-Text-Paare, um die allgemeinen Fähigkeiten unseres Modells zu steigern. Um den vorgeschlagenen Ansatz in realen Szenarien zu evaluieren, entwickeln wir einen neuen Evaluierungsbenchmark, MMHAL-BENCH, mit einem besonderen Fokus auf die Bestrafung von Halluzinationen. Als erstes LMM, das mit RLHF trainiert wurde, erzielt unser Ansatz eine bemerkenswerte Verbesserung auf dem LLaVA-Bench-Datensatz mit 94 % der Leistung des textbasierten GPT-4 (während bisherige beste Methoden nur 87 % erreichen konnten) und eine Verbesserung um 60 % auf MMHAL-BENCH im Vergleich zu anderen Baselines. Wir stellen unseren Code, das Modell und die Daten unter https://llava-rlhf.github.io öffentlich zur Verfügung.
Die meisten bestehenden multimodalen Modelle, die durch ihre Unfähigkeit behindert werden, verschachtelte Bild- und Texteingaben in mehrbildlichen, mehrrundigen Dialogen geschickt zu verarbeiten, stehen erheblichen Einschränkungen bei der Ressourcenallokation für das Training und der Datenzugänglichkeit gegenüber, was ihre Anpassungsfähigkeit und Skalierbarkeit über verschiedene Interaktionsbereiche hinweg beeinträchtigt. Um dies zu adressieren, präsentieren wir das DeepSpeed-VisualChat-Framework, das darauf ausgelegt ist, Large Language Models (LLMs) durch die Integration multimodaler Fähigkeiten zu optimieren, mit einem besonderen Fokus auf die Verbesserung der Kompetenz von Large Vision and Language Models bei der Handhabung verschachtelter Eingaben. Unser Framework zeichnet sich durch (1) seine Open-Source-Unterstützung für mehrrundige und mehrbildliche Dialoge, (2) die Einführung eines innovativen multimodalen kausalen Aufmerksamkeitsmechanismus und (3) die Nutzung von Datenmischungstechniken auf bestehenden Datensätzen aus, um nahtlose Interaktionen in mehrrundigen, mehrbildlichen Gesprächen zu gewährleisten. Im Vergleich zu bestehenden Frameworks zeigt DeepSpeed-VisualChat eine überlegene Skalierbarkeit bis zu einer Modellgröße von 70B Parametern, was einen bedeutenden Fortschritt in multimodalen Sprachmodellen darstellt und eine solide Grundlage für zukünftige Erkundungen schafft.
Teams, die große Transformer-basierte Modelle trainiert haben, berichteten von Trainingsinstabilitäten in großem Maßstab, die bei der Verwendung der gleichen Hyperparameter in kleinerem Maßstab nicht auftraten. Obwohl die Ursachen solcher Instabilitäten von wissenschaftlichem Interesse sind, hat der hohe Ressourcenbedarf, der zu ihrer Reproduktion erforderlich ist, die Untersuchung erschwert. In dieser Arbeit suchen wir nach Möglichkeiten, Trainingsstabilität und -instabilität in kleinerem Maßstab zu reproduzieren und zu untersuchen. Zunächst konzentrieren wir uns auf zwei Quellen von Trainingsinstabilitäten, die in früheren Arbeiten beschrieben wurden: das Wachstum von Logits in Attention-Schichten (Dehghani et al., 2023) und die Divergenz der Ausgabe-Logits von den Log-Wahrscheinlichkeiten (Chowdhery et al., 2022). Durch die Messung der Beziehung zwischen Lernrate und Verlust über verschiedene Skalen hinweg zeigen wir, dass diese Instabilitäten auch in kleinen Modellen auftreten, wenn mit hohen Lernraten trainiert wird, und dass die zuvor in großem Maßstab eingesetzten Gegenmaßnahmen in diesem Bereich ebenso wirksam sind. Dies veranlasst uns zu untersuchen, inwieweit andere bekannte Optimierer- und Modelleingriffe die Empfindlichkeit des endgültigen Verlusts gegenüber Änderungen der Lernrate beeinflussen. Zu diesem Zweck untersuchen wir Methoden wie Warm-up, Gewichtsabnahme und den muParam (Yang et al., 2022) und kombinieren Techniken, um kleine Modelle zu trainieren, die ähnliche Verluste über Größenordnungen von Lernratenvariationen hinweg erreichen. Abschließend untersuchen wir zwei Fälle, in denen Instabilitäten vor ihrem Auftreten vorhergesagt werden können, indem wir das Skalierungsverhalten von Modellaktivierungs- und Gradientennormen analysieren.
Große Sprachmodelle (LLMs) können ihre Genauigkeit bei verschiedenen Aufgaben verbessern, indem sie ihre Ausgabe iterativ auf der Grundlage von Feedback verfeinern und überarbeiten. Wir beobachten, dass diese Überarbeitungen Fehler einführen können, in welchem Fall es besser ist, zu einem vorherigen Ergebnis zurückzukehren. Darüber hinaus sind Überarbeitungen typischerweise homogen: Sie verwenden dieselbe Argumentationsmethode, die die ursprüngliche Antwort erzeugt hat, was Fehler möglicherweise nicht korrigiert. Um die Exploration in diesem Bereich zu ermöglichen, präsentieren wir SCREWS, ein modulares Framework für das Argumentieren mit Überarbeitungen. Es besteht aus drei Hauptmodulen: Sampling, bedingtes Resampling und Selektion, wobei jedes Modul aus Untermodulen besteht, die pro Aufgabe manuell ausgewählt werden können. Wir zeigen, dass SCREWS nicht nur mehrere bisherige Ansätze unter einem gemeinsamen Framework vereint, sondern auch mehrere neuartige Strategien zur Identifizierung verbesserter Argumentationsketten offenbart. Wir evaluieren unser Framework mit state-of-the-art LLMs (ChatGPT und GPT-4) anhand einer Vielzahl von Argumentationsaufgaben und decken nützliche neue Argumentationsstrategien für jede Aufgabe auf: arithmetische Textaufgaben, mehrstufiges Frage-Antworten und Code-Debugging. Heterogene Überarbeitungsstrategien erweisen sich als wichtig, ebenso wie die Auswahl zwischen ursprünglichen und überarbeiteten Kandidaten.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) in Bezug auf Sprachmodellierung und emergente Fähigkeiten machen sie zu einem vielversprechenden, referenzfreien Evaluator für die Qualität der natürlichen Sprachgenerierung und zu einer kompetenten Alternative zur menschlichen Bewertung. Allerdings wird die Praxis, einen vorgefertigten LLM-basierten Evaluator weiter zu kalibrieren, um eine bessere Übereinstimmung mit menschlichen Präferenzen zu erreichen, durch geschlossene Quellen oder den hohen Rechenaufwand für das Hosten und Feinabstimmung behindert. In dieser Arbeit schlagen wir AutoCalibrate vor, einen mehrstufigen, gradientenfreien Ansatz zur automatischen Kalibrierung und Ausrichtung eines LLM-basierten Evaluators an menschlichen Präferenzen. Anstatt menschliche Präferenzen explizit zu modellieren, erfassen wir sie zunächst implizit innerhalb eines Satzes von menschlichen Labels. Dann wird ein initialer Satz von Bewertungskriterien vom Sprachmodell selbst erstellt, wobei In-Context-Lernen anhand verschiedener Few-Shot-Beispiele genutzt wird. Um diesen Satz von Kriterien weiter zu kalibrieren, wählen wir die besten Kriterien aus und überarbeiten sie durch Selbstverfeinerung. Unsere Experimente auf mehreren Datensätzen zur Textqualitätsbewertung zeigen eine signifikante Verbesserung der Korrelation mit der Expertenbewertung durch die Kalibrierung. Unsere umfassende qualitative Analyse vermittelt tiefgreifende Intuitionen und Beobachtungen über das Wesen effektiver Bewertungskriterien.
Das Segmentieren langer Videos in Kapitel ermöglicht es Nutzern, schnell zu den Informationen zu navigieren, die sie interessieren. Dieses wichtige Thema wurde bisher kaum erforscht, da es an öffentlich zugänglichen Datensätzen mangelt. Um dieses Problem zu lösen, stellen wir VidChapters-7M vor, einen Datensatz mit 817K von Nutzern kapitelweise strukturierten Videos, die insgesamt 7M Kapitel umfassen. VidChapters-7M wird automatisch in skalierbarer Weise aus Online-Videos erstellt, indem von Nutzern annotierte Kapitel gesammelt werden, und erfordert somit keine zusätzliche manuelle Annotation. Wir führen drei Aufgaben basierend auf diesen Daten ein. Erstens besteht die Aufgabe der Video-Kapitelgenerierung darin, das Video zeitlich zu segmentieren und für jedes Segment einen Kapiteltitel zu generieren. Um das Problem weiter zu zerlegen, definieren wir zwei Varianten dieser Aufgabe: die Generierung von Kapiteltiteln bei gegebenen Ground-Truth-Grenzen, was die Erstellung eines Kapiteltitels für ein annotiertes Videosegment erfordert, und die Video-Kapitelverankerung, bei der ein Kapitel zeitlich lokalisiert werden muss, wenn dessen annotierter Titel gegeben ist. Wir evaluieren sowohl einfache Baselines als auch state-of-the-art Video-Sprachmodelle für diese drei Aufgaben. Zudem zeigen wir, dass das Vortrainieren auf VidChapters-7M gut auf Aufgaben der dichten Videobeschreibung übertragbar ist, sowohl im Zero-Shot- als auch im Fine-Tuning-Setting, und den Stand der Technik auf den Benchmarks YouCook2 und ViTT erheblich verbessert. Schließlich zeigen unsere Experimente, dass die Downstream-Leistung gut mit der Größe des Vortrainingsdatensatzes skaliert. Unser Datensatz, Code und Modelle sind öffentlich unter https://antoyang.github.io/vidchapters.html verfügbar.