Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen PaLM 2 vor, ein neues state-of-the-art Sprachmodell, das über bessere mehrsprachige und logische Fähigkeiten verfügt und recheneffizienter ist als sein Vorgänger PaLM. PaLM 2 ist ein Transformer-basiertes Modell, das mit einer Mischung von Zielen trainiert wurde. Durch umfangreiche Evaluierungen in englischer und mehrsprachiger Sprache sowie bei logischen Aufgaben zeigen wir, dass PaLM 2 eine signifikant verbesserte Qualität bei nachgelagerten Aufgaben über verschiedene Modellgrößen hinweg aufweist, während es gleichzeitig im Vergleich zu PaLM eine schnellere und effizientere Inferenz zeigt. Diese verbesserte Effizienz ermöglicht eine breitere Bereitstellung und erlaubt es dem Modell, schneller zu reagieren, was zu einem natürlicheren Interaktionstempo führt. PaLM 2 demonstriert robuste logische Fähigkeiten, die durch große Verbesserungen gegenüber PaLM bei BIG-Bench und anderen logischen Aufgaben verdeutlicht werden. PaLM 2 zeigt eine stabile Leistung bei einer Reihe von verantwortungsbewussten KI-Evaluierungen und ermöglicht eine Inferenzzeitkontrolle über Toxizität ohne zusätzlichen Aufwand oder Beeinträchtigung anderer Fähigkeiten. Insgesamt erreicht PaLM 2 state-of-the-art Leistungen über eine Vielzahl von Aufgaben und Fähigkeiten hinweg. Bei der Diskussion der PaLM 2-Familie ist es wichtig, zwischen vortrainierten Modellen (verschiedener Größen), feinabgestimmten Varianten dieser Modelle und den benutzerorientierten Produkten, die diese Modelle verwenden, zu unterscheiden. Insbesondere beinhalten benutzerorientierte Produkte typischerweise zusätzliche Vor- und Nachverarbeitungsschritte. Darüber hinaus können sich die zugrunde liegenden Modelle im Laufe der Zeit weiterentwickeln. Daher sollte man nicht erwarten, dass die Leistung der benutzerorientierten Produkte genau den in diesem Bericht berichteten Ergebnissen entspricht.
Textbearbeitung oder -überarbeitung ist eine wesentliche Funktion des menschlichen Schreibprozesses. Die Fähigkeiten von LLMs (Large Language Models) zu verstehen, um hochwertige Überarbeitungen vorzunehmen und mit menschlichen Autoren zusammenzuarbeiten, ist ein entscheidender Schritt auf dem Weg zur Entwicklung effektiver Schreibassistenten. Angesichts der bisherigen Erfolge von LLMs und Instruction Tuning nutzen wir instruction-finetunete LLMs für die Textüberarbeitung, um die Qualität von nutzergenerierten Texten zu verbessern und den Prozess effizienter zu gestalten. Wir stellen CoEdIT vor, ein state-of-the-art Textbearbeitungsmodell für Schreibassistenz. CoEdIT nimmt Anweisungen des Benutzers entgegen, die die gewünschten Attribute des Texts spezifizieren, wie z.B. „Mache den Satz einfacher“ oder „Schreibe es in einem neutraleren Stil“, und gibt den bearbeiteten Text aus. Wir präsentieren ein großes Sprachmodell, das auf einer vielfältigen Sammlung von aufgaben-spezifischen Anweisungen für die Textbearbeitung feinabgestimmt wurde (insgesamt 82K Anweisungen). Unser Modell (1) erreicht state-of-the-art Leistung auf verschiedenen Textbearbeitungs-Benchmarks, (2) ist wettbewerbsfähig mit öffentlich verfügbaren, größten LLMs, die auf Anweisungen trainiert wurden, während es etwa 60x kleiner ist, (3) ist in der Lage, auf unbekannte Bearbeitungsanweisungen zu generalisieren, und (4) zeigt kompositionelle Verständnisfähigkeiten, um auf Anweisungen mit verschiedenen Kombinationen von Bearbeitungsaktionen zu generalisieren. Durch umfangreiche qualitative und quantitative Analysen zeigen wir, dass Autoren die von CoEdIT vorgeschlagenen Bearbeitungen im Vergleich zu anderen state-of-the-art Textbearbeitungsmodellen bevorzugen. Unser Code und Datensatz sind öffentlich verfügbar.
Das Lernen aus menschlichem Feedback hat sich als effektiv erwiesen, um Sprachmodelle mit menschlichen Präferenzen in Einklang zu bringen. Frühere Arbeiten stützten sich häufig auf Reinforcement Learning from Human Feedback (RLHF), das das Sprachmodell optimiert, indem es Belohnungswerte verwendet, die von einem Belohnungsmodell zugewiesen werden, das auf menschlichen Präferenzdaten trainiert wurde. In dieser Arbeit zeigen wir, wie die kürzlich eingeführte Sequence Likelihood Calibration (SLiC) ebenfalls effektiv genutzt werden kann, um aus menschlichen Präferenzen zu lernen (SLiC-HF). Darüber hinaus demonstrieren wir, dass dies mit menschlichem Feedback möglich ist, das für ein anderes Modell gesammelt wurde, ähnlich wie bei Off-Policy- und Offline-RL-Daten. Automatische und menschliche Evaluierungsexperimente zur TL;DR-Zusammenfassungsaufgabe zeigen, dass SLiC-HF die Baseline des überwachten Feinabstimmens deutlich verbessert. Zudem stellt SLiC-HF eine wettbewerbsfähige Alternative zur PPO-RLHF-Implementierung dar, die in früheren Arbeiten verwendet wurde, während es in der Praxis viel einfacher zu implementieren, leichter abzustimmen und recheneffizienter ist.
Die Mischungsverhältnisse der Domänen der Vortrainingsdaten (z. B. Wikipedia, Bücher, Webtexte) haben einen erheblichen Einfluss auf die Leistung von Sprachmodellen (Language Models, LMs). In diesem Artikel schlagen wir Domain Reweighting with Minimax Optimization (DoReMi) vor, bei dem zunächst ein kleines Proxy-Modell mithilfe von Group Distributionally Robust Optimization (Group DRO) über Domänen trainiert wird, um Domänengewichte (Mischungsverhältnisse) ohne Kenntnis der nachgelagerten Aufgaben zu erzeugen. Anschließend wird ein Datensatz mit diesen Domänengewichten neu abgetastet und ein größeres, vollständiges Modell trainiert. In unseren Experimenten verwenden wir DoReMi auf einem Proxy-Modell mit 280 Millionen Parametern, um Domänengewichte für das Training eines Modells mit 8 Milliarden Parametern (30-mal größer) effizienter zu ermitteln. Auf The Pile verbessert DoReMi die Perplexität über alle Domänen hinweg, selbst wenn eine Domäne geringer gewichtet wird. DoReMi steigert die durchschnittliche Few-Shot-Genauigkeit bei nachgelagerten Aufgaben um 6,5 % im Vergleich zu einem Baseline-Modell, das mit den Standard-Domänengewichten von The Pile trainiert wurde, und erreicht die Baseline-Genauigkeit mit 2,6-mal weniger Trainingsschritten. Auf dem GLaM-Datensatz erreicht DoReMi, das keine Kenntnis der nachgelagerten Aufgaben hat, sogar die Leistung von Domänengewichten, die auf nachgelagerten Aufgaben optimiert wurden.
In diesem Artikel stellen wir Selbst-Distillation und Online-Clustering für das selbstüberwachte Lernen von Sprachrepräsentationen (DinoSR) vor, das maskiertes Sprachmodellieren, Selbst-Distillation und Online-Clustering kombiniert. Wir zeigen, dass sich diese Konzepte gegenseitig ergänzen und zu einem leistungsstarken Modell für das Erlernen von Sprachrepräsentationen führen. DinoSR extrahiert zunächst kontextualisierte Einbettungen aus dem Eingangs-Audio mit einem Lehrer-Netzwerk, führt dann ein Online-Clustering-System auf den Einbettungen durch, um ein maschinell entdecktes Phon-Inventar zu erzeugen, und verwendet schließlich die diskretisierten Token, um ein Schüler-Netzwerk zu leiten. Wir demonstrieren, dass DinoSR die bisherige Spitzenleistung in mehreren nachgelagerten Aufgaben übertrifft, und liefern eine detaillierte Analyse des Modells sowie der gelernten diskreten Einheiten. Der Quellcode wird nach der Anonymitätsphase verfügbar gemacht.
Die Verbesserung der Wortverwendung ist eine gewünschte Funktion für Schreibassistenzsysteme. Um die Forschung in diesem Bereich weiter voranzutreiben, führt dieses Papier die Aufgabe und den Benchmark „Smart Word Suggestions“ (SWS) ein. Im Gegensatz zu anderen Arbeiten betont SWS die End-to-End-Evaluierung und präsentiert ein realistischeres Szenario für Schreibassistenz. Diese Aufgabe umfasst die Identifizierung von Wörtern oder Phrasen, die verbessert werden müssen, sowie die Bereitstellung von Ersetzungsvorschlägen. Der Benchmark umfasst menschlich annotierte Daten für Tests, einen großen, distanziert überwachten Datensatz für das Training und das Framework für die Evaluierung. Die Testdaten bestehen aus 1.000 Sätzen, die von Englischlernenden verfasst wurden, und werden von über 16.000 Ersetzungsvorschlägen begleitet, die von 10 Muttersprachlern annotiert wurden. Der Trainingsdatensatz umfasst über 3,7 Millionen Sätze und 12,7 Millionen Vorschläge, die durch Regeln generiert wurden. Unsere Experimente mit sieben Baseline-Modellen zeigen, dass SWS eine anspruchsvolle Aufgabe ist. Basierend auf der experimentellen Analyse schlagen wir potenzielle Richtungen für zukünftige Forschungen zu SWS vor. Der Datensatz und die zugehörigen Codes sind unter https://github.com/microsoft/SmartWordSuggestions verfügbar.
Große Sprachmodelle (LLMs) haben eine bemerkenswerte Vorhersageleistung für eine wachsende Anzahl von Aufgaben gezeigt. Ihre rasche Verbreitung und zunehmende Undurchsichtigkeit haben jedoch einen wachsenden Bedarf an Interpretierbarkeit geschaffen. Hier stellen wir die Frage, ob wir automatisch natürliche Spracherklärungen für Black-Box-Textmodule erhalten können. Ein "Textmodul" ist jede Funktion, die Text auf einen skalaren kontinuierlichen Wert abbildet, wie beispielsweise ein Untermodul innerhalb eines LLM oder ein angepasstes Modell einer Gehirnregion. "Black-Box" bedeutet, dass wir nur Zugang zu den Ein- und Ausgaben des Moduls haben. Wir stellen Summarize and Score (SASC) vor, eine Methode, die ein Textmodul aufnimmt und eine natürliche Spracherklärung der Selektivität des Moduls sowie eine Bewertung für die Zuverlässigkeit der Erklärung zurückgibt. Wir untersuchen SASC in drei Kontexten. Zunächst bewerten wir SASC an synthetischen Modulen und stellen fest, dass es oft die tatsächlichen Erklärungen wiederherstellt. Zweitens verwenden wir SASC, um Module innerhalb eines vortrainierten BERT-Modells zu erklären, was die Inspektion der internen Struktur des Modells ermöglicht. Schließlich zeigen wir, dass SASC Erklärungen für die Reaktion einzelner fMRI-Voxel auf Sprachreize generieren kann, mit potenziellen Anwendungen in der feinmaschigen Gehirnkartierung. Der gesamte Code zur Verwendung von SASC und zur Reproduktion der Ergebnisse ist auf Github verfügbar.
On-Device-Systeme für automatische Spracherkennung stehen vor mehreren Herausforderungen im Vergleich zu serverbasierten Systemen. Sie müssen strengere Anforderungen in Bezug auf Geschwindigkeit, Speicherplatz und Arbeitsspeicher erfüllen, während sie die gleiche Genauigkeit beibehalten. Oft müssen sie gleichzeitig mehrere Anwendungen mit unterschiedlichen Verteilungen bedienen, wie beispielsweise die Kommunikation mit einem virtuellen Assistenten und die Umwandlung von Sprache in Text. Die einfachste Lösung, um mehrere Anwendungen zu bedienen, besteht darin, anwendungsspezifische (Sprach-)Modelle zu erstellen, was jedoch zu einem erhöhten Speicherbedarf führt. Daher untersuchen wir verschiedene daten- und architekturgetriebene Ansätze zur Sprachmodellierung, um ein einziges anwendungsunabhängiges Modell zu erstellen. Wir schlagen zwei neuartige Feed-Forward-Architekturen vor, die einen optimalen Kompromiss zwischen verschiedenen On-Device-Beschränkungen finden. Im Vergleich zur anwendungsspezifischen Lösung reduziert einer unserer neuartigen Ansätze die Speicherplatzanforderungen um die Hälfte, während die Geschwindigkeit und Genauigkeit des ursprünglichen Modells beibehalten wird.
Der Kern von Multi-View Stereo (MVS) ist der Matching-Prozess zwischen Referenz- und Quellpixeln. Die Kostenaggregation spielt in diesem Prozess eine entscheidende Rolle, während sich frühere Methoden darauf konzentrierten, dies über CNNs zu handhaben. Dies kann die natürliche Beschränkung von CNNs erben, die aufgrund begrenzter lokaler rezeptiver Felder wiederholte oder falsche Matches nicht unterscheiden können. Um dieses Problem zu lösen, streben wir an, Transformer in die Kostenaggregation einzubeziehen. Allerdings kann ein weiteres Problem auftreten, das auf die quadratisch ansteigende Rechenkomplexität des Transformers zurückzuführen ist, was zu Speicherüberlauf und Inferenzverzögerungen führt. In diesem Papier überwinden wir diese Grenzen mit einem effizienten Transformer-basierten Kostenaggregationsnetzwerk, genannt CostFormer. Der Residual Depth-Aware Cost Transformer (RDACT) wird vorgeschlagen, um langreichweitige Merkmale auf dem Kostenvolumen über Selbstaufmerksamkeitsmechanismen entlang der Tiefen- und Raumdimensionen zu aggregieren. Darüber hinaus wird der Residual Regression Transformer (RRT) vorgeschlagen, um die räumliche Aufmerksamkeit zu verbessern. Die vorgeschlagene Methode ist ein universelles Plug-in, um lernbasierte MVS-Methoden zu verbessern.
Große, mehrsprachige Sprachmodelle zeigen überraschend gute Zero- oder Few-Shot-Maschinelle-Übersetzungsfähigkeiten, obwohl sie nie die absichtlich eingebrachten Übersetzungsbeispiele gesehen haben, die typischen neuronalen Übersetzungssystemen bereitgestellt werden. Wir untersuchen die Rolle von zufälliger Zweisprachigkeit – der unbeabsichtigten Aufnahme von zweisprachigen Signalen, einschließlich Übersetzungsbeispielen – bei der Erklärung der Übersetzungsfähigkeiten großer Sprachmodelle, wobei wir das Pathways Language Model (PaLM) als Fallstudie heranziehen. Wir führen einen Mixed-Method-Ansatz ein, um zufällige Zweisprachigkeit in großem Maßstab zu messen und zu verstehen. Wir zeigen, dass PaLM über 30 Millionen Übersetzungspaare in mindestens 44 Sprachen ausgesetzt ist. Darüber hinaus ist die Menge an zufällig zweisprachigem Inhalt stark mit der Menge an monolingualem Inhalt in der jeweiligen Sprache für nicht-englische Sprachen korreliert. Wir beziehen zufällig zweisprachigen Inhalt auf Zero-Shot-Prompts und zeigen, dass er verwendet werden kann, um neue Prompts zu extrahieren, um die Zero-Shot-Übersetzungsqualität von PaLM aus dem Englischen zu verbessern. Schließlich zeigen wir in einer Reihe von kleinskaligen Ablationen, dass seine Anwesenheit einen erheblichen Einfluss auf die Übersetzungsfähigkeiten hat, obwohl dieser Einfluss mit der Modellgröße abnimmt.
Wir untersuchen, ob mehrere große Sprachmodelle (LLMs) sich in einem Verhandlungsspiel autonom gegenseitig verbessern können, indem sie spielen, reflektieren und kritisieren. Diese Frage ist von Interesse, da die Fähigkeit von LLMs, sich gegenseitig zu verbessern, die Möglichkeit implizieren würde, starke KI-Agenten mit minimalem menschlichen Eingriff zu entwickeln. Wir lassen zwei LLMs miteinander verhandeln, wobei sie jeweils die Rollen eines Käufers und eines Verkäufers einnehmen. Ihr Ziel ist es, eine Einigung zu erzielen, wobei der Käufer einen niedrigeren Preis anstrebt und der Verkäufer einen höheren. Ein drittes Sprachmodell, das die Rolle des Kritikers übernimmt, gibt einem Spieler Feedback, um dessen Verhandlungsstrategien zu verbessern. Wir lassen die beiden Agenten mehrere Runden spielen und verwenden dabei die bisherige Verhandlungshistorie und KI-Feedback als In-Kontext-Demonstrationen, um die Verhandlungsstrategie des Modells iterativ zu verbessern. Wir verwenden verschiedene LLMs (GPT und Claude) für unterschiedliche Rollen und nutzen den vereinbarten Preis als Bewertungsmetrik. Unsere Experimente zeigen mehrere interessante Erkenntnisse: (1) Nur eine Teilmenge der betrachteten Sprachmodelle kann sich selbst spielen und den vereinbarten Preis durch KI-Feedback verbessern; schwächere Modelle verstehen entweder die Spielregeln nicht oder können das KI-Feedback nicht für weitere Verbesserungen nutzen. (2) Die Fähigkeit der Modelle, aus dem Feedback zu lernen, unterscheidet sich je nach Rolle. Beispielsweise fällt es Claude-instant schwerer, sich als Käufer zu verbessern als als Verkäufer. (3) Wenn das Spiel über mehrere Runden gespielt wird, können stärkere Agenten ihre Leistung durch sinnvolle Nutzung früherer Erfahrungen und iteratives KI-Feedback konsequent verbessern, haben jedoch ein höheres Risiko, die Einigung zu gefährden. Wir hoffen, dass unsere Arbeit aufschlussreiche erste Erkundungen liefert, wie Modelle sich durch Spielen und KI-Feedback autonom gegenseitig verbessern können.
Die fein abgestufte Klassifizierung ist eine anspruchsvolle Aufgabe, bei der es darum geht, subtile Unterschiede zwischen Objekten derselben Kategorie zu identifizieren. Diese Aufgabe ist besonders schwierig in Szenarien, in denen Daten knapp sind. Visuelle Transformer (ViT) haben sich kürzlich als leistungsstarkes Werkzeug für die Bildklassifizierung erwiesen, da sie in der Lage sind, hochgradig expressive Repräsentationen visueller Daten mithilfe von Selbstaufmerksamkeitsmechanismen zu erlernen. In dieser Arbeit untersuchen wir Semi-ViT, ein ViT-Modell, das mit semi-überwachten Lernverfahren feinabgestimmt wurde und für Situationen geeignet ist, in denen annotierte Daten fehlen. Dies ist insbesondere im E-Commerce häufig der Fall, wo Bilder leicht verfügbar sind, aber Labels verrauscht, nicht vorhanden oder teuer zu beschaffen sind. Unsere Ergebnisse zeigen, dass Semi-ViT traditionelle Convolutional Neural Networks (CNN) und ViTs übertrifft, selbst wenn es mit begrenzten annotierten Daten feinabgestimmt wird. Diese Erkenntnisse deuten darauf hin, dass Semi-ViTs ein erhebliches Potenzial für Anwendungen besitzen, die eine präzise und fein abgestufte Klassifizierung visueller Daten erfordern.
Diese Arbeit wurde auf dem IEEE International Conference on Robotics and Automation 2023 Workshop on Unconventional Spatial Representations vorgestellt. Neurale Strahlungsfelder (NeRFs) sind eine Klasse impliziter Szenendarstellungen, die 3D-Umgebungen aus Farbbildern modellieren. NeRFs sind ausdrucksstark und können die komplexe und mehrskalige Geometrie realer Umgebungen abbilden, was sie zu einem potenziell mächtigen Werkzeug für Robotikanwendungen macht. Moderne NeRF-Trainingsbibliotheken können ein fotorealistisches NeRF aus einem statischen Datensatz in nur wenigen Sekunden erzeugen, sind jedoch für den Offline-Einsatz konzipiert und erfordern einen langsamen Vorberechnungsschritt zur Pose-Optimierung. In dieser Arbeit stellen wir NerfBridge vor, eine Open-Source-Schnittstelle zwischen dem Robot Operating System (ROS) und der beliebten Nerfstudio-Bibliothek für das Echtzeit-Training von NeRFs aus einem Bildstrom. NerfBridge ermöglicht die schnelle Entwicklung von Forschung zu Anwendungen von NeRFs in der Robotik, indem es eine erweiterbare Schnittstelle zu den effizienten Trainingspipelines und Modellbibliotheken von Nerfstudio bereitstellt. Als Beispielanwendungsfall skizzieren wir eine Hardware-Konfiguration, die mit NerfBridge verwendet werden kann, um ein NeRF aus Bildern zu trainieren, die von einer an einem Quadrocopter montierten Kamera in Innen- und Außenumgebungen aufgenommen wurden. Begleitendes Video: https://youtu.be/EH0SLn-RcDg und Code: https://github.com/javieryu/nerf_bridge.
Multimedia-Inhalte wie Werbeanzeigen und Geschichtenvideos zeigen eine reiche Mischung aus Kreativität und multiplen Modalitäten. Sie integrieren Elemente wie Text, visuelle Inhalte, Audio und Erzähltechniken und nutzen Mittel wie Emotionen, Symbolik und Slogans, um Bedeutung zu vermitteln. Während sich frühere Forschungen im Bereich des Multimedia-Verständnisses hauptsächlich auf Videos mit spezifischen Handlungen wie Kochen konzentrierten, mangelt es an großen annotierten Trainingsdatensätzen, was die Entwicklung von überwachten Lernmodellen mit zufriedenstellender Leistung für reale Anwendungen behindert. Der Aufstieg großer Sprachmodelle (LLMs) hat jedoch bemerkenswerte Zero-Shot-Leistungen in verschiedenen Aufgaben der natürlichen Sprachverarbeitung (NLP) gezeigt, wie z. B. Emotionsklassifizierung, Frage-Antwort-Systeme und Themenklassifizierung. Um diese Leistungslücke im Multimedia-Verständnis zu schließen, schlagen wir vor, Geschichtenvideos zu verbalisieren, um ihre Beschreibungen in natürlicher Sprache zu generieren, und dann Video-Verständnisaufgaben auf der generierten Geschichte anstelle des ursprünglichen Videos durchzuführen. Durch umfangreiche Experimente zu fünf Video-Verständnisaufgaben zeigen wir, dass unsere Methode, obwohl sie Zero-Shot ist, signifikant bessere Ergebnisse erzielt als überwachte Baseline-Modelle für das Video-Verständnis. Darüber hinaus lindern wir den Mangel an Benchmarks für das Geschichtenverständnis, indem wir den ersten Datensatz zu einer entscheidenden Aufgabe in der Computational Social Science, der Identifikation von Überzeugungsstrategien, öffentlich zugänglich machen.