Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Text-to-Music-Generationsmodelle sind inzwischen in der Lage, hochwertige Musik in einer Vielzahl von Stilen zu erzeugen. Die Textsteuerung eignet sich jedoch hauptsächlich zur Manipulation globaler musikalischer Attribute wie Genre, Stimmung und Tempo und ist weniger geeignet für die präzise Steuerung zeitlich variierender Attribute wie die Positionen von Beats im Zeitverlauf oder die sich ändernde Dynamik der Musik. Wir stellen Music ControlNet vor, ein diffusionsbasiertes Musikgenerationsmodell, das mehrere präzise, zeitlich variierende Steuerungen über das erzeugte Audio bietet. Um Text-to-Music-Modelle mit zeitlich variierender Steuerung auszustatten, schlagen wir einen Ansatz vor, der der pixelweisen Steuerung der bildbasierten ControlNet-Methode analog ist. Konkret extrahieren wir Steuerungen aus Trainings-Audio, um gepaarte Daten zu erhalten, und feintunen ein diffusionsbasiertes, bedingtes Generativmodell über Audiospektrogramme unter Berücksichtigung von Melodie-, Dynamik- und Rhythmussteuerungen. Während die bildbasierte Uni-ControlNet-Methode bereits die Generierung mit beliebigen Teilmengen von Steuerungen ermöglicht, entwickeln wir eine neue Strategie, die es Schaffenden ermöglicht, Steuerungen einzugeben, die nur teilweise im Zeitverlauf spezifiziert sind. Wir evaluieren sowohl Steuerungen, die aus Audio extrahiert wurden, als auch Steuerungen, die wir von Schaffenden erwarten, und zeigen, dass wir realistische Musik erzeugen können, die den Steuerungseingaben in beiden Szenarien entspricht. Obwohl nur wenige vergleichbare Musikgenerationsmodelle existieren, vergleichen wir uns mit MusicGen, einem kürzlich entwickelten Modell, das Text- und Melodieeingaben akzeptiert, und zeigen, dass unser Modell Musik erzeugt, die zu 49 % treuer zu den eingegebenen Melodien ist, obwohl es 35-mal weniger Parameter hat, mit 11-mal weniger Daten trainiert wurde und zwei zusätzliche Formen zeitlich variierender Steuerung ermöglicht. Klangbeispiele finden Sie unter https://MusicControlNet.github.io/web/.
In diesem technischen Bericht zielen wir darauf ab, anthropomorphisierte Persönlichkeiten für LLM-basierte Charaktere in Echtzeit zu generieren, einschließlich visueller Erscheinung, Persönlichkeit und Tonfall, basierend ausschließlich auf Textbeschreibungen. Um dies zu erreichen, nutzen wir zunächst die In-Context-Lernfähigkeit von LLMs für die Persönlichkeitsgenerierung, indem wir sorgfältig eine Reihe von System-Prompts entwerfen. Anschließend führen wir zwei neuartige Konzepte ein: die Mischung der Stimmen (MoV) und die Mischung der Diffuser (MoD) für die Erzeugung vielfältiger Stimmen und Erscheinungsbilder. Bei MoV verwenden wir Text-zu-Sprache (TTS)-Algorithmen mit einer Vielzahl von vordefinierten Tonfällen und wählen automatisch den am besten passenden basierend auf der vom Benutzer bereitgestellten Textbeschreibung aus. Bei MoD kombinieren wir die aktuell populären Text-zu-Bild-Generierungstechniken und Talking-Head-Algorithmen, um den Prozess der Erzeugung sprechender Objekte zu optimieren. Wir bezeichnen das gesamte Framework als ChatAnything. Mit diesem können Benutzer alles mit beliebigen anthropomorphen Persönlichkeiten animieren, indem sie nur wenige Texteingaben verwenden. Allerdings haben wir beobachtet, dass die von aktuellen generativen Modellen erzeugten anthropomorphen Objekte oft von vortrainierten Gesichtslandmarken-Detektoren nicht erkannt werden, was zu einem Fehlschlagen der Gesichtsbewegungsgenerierung führt, selbst wenn diese Gesichter menschenähnliche Erscheinungen besitzen, da solche Bilder während des Trainings kaum gesehen wurden (z.B. OOD-Stichproben). Um dieses Problem zu lösen, integrieren wir Pixel-Level-Anleitungen, um menschliche Gesichtslandmarken während der Bildgenerierungsphase einzubringen. Um diese Metriken zu bewerten, haben wir einen Evaluierungsdatensatz erstellt. Basierend darauf bestätigen wir, dass die Erkennungsrate der Gesichtslandmarken signifikant von 57,0 % auf 92,5 % gesteigert wird, was eine automatische Gesichtsanimation basierend auf generierten Sprachinhalten ermöglicht. Der Code und weitere Ergebnisse sind unter https://chatanything.github.io/ verfügbar.
Die Erzeugung natürlicher menschlicher Bewegungen aus einer Geschichte hat das Potenzial, die Landschaft der Animations-, Gaming- und Filmindustrie zu revolutionieren. Eine neue und herausfordernde Aufgabe, Story-to-Motion, entsteht, wenn Charaktere sich an verschiedene Orte bewegen und spezifische Bewegungen basierend auf einer langen Textbeschreibung ausführen sollen. Diese Aufgabe erfordert eine Kombination aus Low-Level-Steuerung (Trajektorien) und High-Level-Steuerung (Bewegungssemantik). Frühere Arbeiten zur Charaktersteuerung und Text-zu-Bewegung haben verwandte Aspekte behandelt, doch eine umfassende Lösung bleibt schwer fassbar: Methoden zur Charaktersteuerung verarbeiten keine Textbeschreibungen, während Text-zu-Bewegung-Methoden Positionsbeschränkungen fehlen und oft instabile Bewegungen erzeugen. Angesichts dieser Einschränkungen schlagen wir ein neuartiges System vor, das kontrollierbare, unendlich lange Bewegungen und Trajektorien erzeugt, die mit dem Eingabetext übereinstimmen. (1) Wir nutzen zeitgenössische Large Language Models als textgesteuerten Bewegungsplaner, um eine Reihe von (Text, Position, Dauer)-Paaren aus langen Texten zu extrahieren. (2) Wir entwickeln ein textgesteuertes Bewegungsabrufschema, das Bewegungsabgleich mit Bewegungssemantik und Trajektorienbeschränkungen kombiniert. (3) Wir entwerfen einen progressiven Maskentransformer, der häufige Artefakte in Übergangsbewegungen wie unnatürliche Posen und Fußgleiten behandelt. Über seine Pionierrolle als erste umfassende Lösung für Story-to-Motion hinaus wird unser System in drei verschiedenen Teilaufgaben evaluiert: Trajektorienverfolgung, zeitliche Aktionskomposition und Bewegungsmischung, wo es bisherige state-of-the-art Bewegungsynthesemethoden durchweg übertrifft. Homepage: https://story2motion.github.io/.
Multimodale Basismodelle, wie sie durch GPT-4V repräsentiert werden, haben ein neues Paradigma für Aufgaben der niedrigstufigen visuellen Wahrnehmung und des Verständnisses geschaffen, die auf eine breite Palette natürlicher menschlicher Anweisungen in einem Modell reagieren können. Obwohl bestehende Basismodelle bereits vielversprechende Potenziale bei niedrigstufigen visuellen Aufgaben gezeigt haben, sind ihre diesbezüglichen Fähigkeiten noch vorläufig und müssen verbessert werden. Um diese Modelle zu erweitern, führen wir ein groß angelegtes subjektives Experiment durch, bei dem eine Vielzahl echter menschlicher Rückmeldungen zur niedrigstufigen visuellen Wahrnehmung gesammelt wird. Jede Rückmeldung folgt einem Pfad, der mit einer detaillierten Beschreibung des niedrigstufigen visuellen Erscheinungsbildes (*z.B. Klarheit, Farbe, Helligkeit* eines Bildes) beginnt und mit einer Gesamtbewertung endet, wobei die durchschnittliche Länge 45 Wörter beträgt. Der konstruierte **Q-Pathway**-Datensatz umfasst 58.000 detaillierte menschliche Rückmeldungen zu 18.973 Bildern mit vielfältigem niedrigstufigem Erscheinungsbild. Darüber hinaus entwerfen wir eine GPT-beteiligte Konvertierung, um diese Rückmeldungen in 200.000 Anweisungs-Antwort-Paare in verschiedenen Formaten zu verarbeiten, damit Basismodelle robust auf unterschiedliche Fragestellungen reagieren können. Experimentelle Ergebnisse zeigen, dass **Q-Instruct** die Fähigkeiten zur niedrigstufigen Wahrnehmung und zum Verständnis bei mehreren Basismodellen konsequent verbessert. Wir gehen davon aus, dass unsere Datensätze den Weg für eine Zukunft ebnen können, in der allgemeine Intelligenz niedrigstufige visuelle Erscheinungen wahrnehmen, verstehen und die visuelle Qualität wie ein Mensch bewerten kann. Unser Datensatz, das Modellarchiv und die Demo sind unter https://q-future.github.io/Q-Instruct veröffentlicht.
Bestehende Methoden zur visuellen Instruktionsabstimmung verwenden typischerweise große Sprachmodelle, die mit textuellen Beschreibungen angeregt werden, um daten zu generieren, die Anweisungen befolgen. Trotz der vielversprechenden Leistung, die damit erzielt wird, stammen diese Beschreibungen aus Bildanmerkungen, die oft grobkörnig sind. Darüber hinaus können die Anweisungen sogar im Widerspruch zum visuellen Inhalt stehen, ohne den gesamten visuellen Kontext zu berücksichtigen. Um diese Herausforderung zu bewältigen, stellen wir einen feinkörnigen visuellen Instruktionsdatensatz vor, LVIS-Instruct4V, der 220K visuell ausgerichtete und kontextbewusste Anweisungen enthält, die durch die Anregung des leistungsstarken GPT-4V mit Bildern aus LVIS erzeugt wurden. Durch experimentelle Validierung und Fallstudien zeigen wir, dass hochwertige visuelle Instruktionsdaten die Leistung von LLaVA-1.5, einem state-of-the-art großen multimodalen Modell, über eine breite Palette von Benchmarks deutlich verbessern können. Bemerkenswerterweise erreichen wir durch den einfachen Austausch von LLaVA-Instruct durch unser LVIS-Instruct4V bessere Ergebnisse als LLaVA auf den meisten anspruchsvollen LMM-Benchmarks, z.B. LLaVA^w (76,7 vs. 70,7) und MM-Vet (40,2 vs. 35,4). Wir veröffentlichen unsere Daten und unser Modell unter https://github.com/X2FD/LVIS-INSTRUCT4V.
In Einsatzszenarien wie Haushalten und Lagern wird von mobilen Robotern erwartet, dass sie über längere Zeiträume autonom navigieren und Aufgaben nahtlos ausführen, die in Begriffen formuliert sind, die für menschliche Bediener intuitiv verständlich sind. Wir präsentieren GO To Any Thing (GOAT), ein universelles Navigationssystem, das diese Anforderungen mit drei Schlüsselmerkmalen bewältigen kann: a) Multimodal: Es kann Ziele verarbeiten, die über Kategorielabels, Zielbilder und Sprachbeschreibungen spezifiziert sind, b) Lebenslang: Es profitiert von seinen bisherigen Erfahrungen in der gleichen Umgebung, und c) Plattformunabhängig: Es kann schnell auf Robotern mit unterschiedlichen Ausführungen eingesetzt werden. GOAT wird durch ein modulares Systemdesign und einen kontinuierlich erweiterten, instanzbewussten semantischen Speicher ermöglicht, der das Erscheinungsbild von Objekten aus verschiedenen Blickwinkeln zusätzlich zu kategorieübergreifenden Semantiken verfolgt. Dies ermöglicht es GOAT, zwischen verschiedenen Instanzen derselben Kategorie zu unterscheiden, um die Navigation zu Zielen zu ermöglichen, die durch Bilder und Sprachbeschreibungen spezifiziert sind. In experimentellen Vergleichen über mehr als 90 Stunden in 9 verschiedenen Haushalten, bestehend aus 675 Zielen, die über 200+ verschiedene Objektinstanzen ausgewählt wurden, erreicht GOAT eine Gesamterfolgsrate von 83 % und übertrifft damit bisherige Methoden und Ablationen um 32 % (absoluter Verbesserungswert). GOAT verbessert sich mit zunehmender Erfahrung in der Umgebung, von einer Erfolgsrate von 60 % beim ersten Ziel auf 90 % nach der Exploration. Darüber hinaus zeigen wir, dass GOAT problemlos auf nachgelagerte Aufgaben wie Greifen und Platzieren sowie soziale Navigation angewendet werden kann.
Wir präsentieren SPHINX, ein vielseitiges multimodales großes Sprachmodell (MLLM) mit einer gemeinsamen Vermischung von Modellgewichten, Trainingsaufgaben und visuellen Einbettungen. Zunächst heben wir, um eine stärkere Vision-Sprache-Ausrichtung zu erreichen, das Einfrieren des großen Sprachmodells (LLM) während des Vortrainings auf und führen eine Gewichtsmischstrategie zwischen LLMs ein, die mit realen und synthetischen Daten trainiert wurden. Durch die direkte Integration der Gewichte aus beiden Domänen kann das gemischte LLM effizient diverse Semantiken mit vorteilhafter Robustheit einbinden. Um dann multifunktionale Fähigkeiten zu ermöglichen, mischen wir eine Vielzahl von Aufgaben für das gemeinsame visuelle Instruktions-Tuning und entwerfen aufgabenspezifische Anweisungen, um Konflikte zwischen den Aufgaben zu vermeiden. Neben der grundlegenden visuellen Fragebeantwortung schließen wir anspruchsvollere Aufgaben wie regionsbasiertes Verständnis, Beschriftungsverankerung, Dokumentlayout-Erkennung und menschliche Pose-Schätzung ein, was zur gegenseitigen Verbesserung in verschiedenen Szenarien beiträgt. Zusätzlich schlagen wir vor, umfassende visuelle Einbettungen aus verschiedenen Netzwerkarchitekturen, Vortrainingsparadigmen und Informationsgranularitäten zu extrahieren, wodurch Sprachmodelle mit robusteren Bildrepräsentationen versorgt werden. Basierend auf unserer vorgeschlagenen gemeinsamen Vermischung zeigt SPHINX überlegene multimodale Verständnisfähigkeiten in einer breiten Palette von Anwendungen. Darüber hinaus schlagen wir eine effiziente Strategie vor, die darauf abzielt, feinkörnige Erscheinungen von hochauflösenden Bildern besser zu erfassen. Durch die Mischung verschiedener Skalen und hochauflösender Teilbilder erreicht SPHINX eine außergewöhnliche visuelle Analyse- und Schlussfolgerungsleistung auf bestehenden Evaluierungs-Benchmarks. Wir hoffen, dass unsere Arbeit die Erforschung der gemeinsamen Vermischung in zukünftigen MLLM-Forschungen beleuchten kann. Der Code ist unter https://github.com/Alpha-VLLM/LLaMA2-Accessory veröffentlicht.
Wir stellen MM-Navigator vor, einen auf GPT-4V basierenden Agenten für die Aufgabe der Navigation durch grafische Benutzeroberflächen (GUIs) auf Smartphones. MM-Navigator kann mit einem Smartphone-Bildschirm interagieren, wie es menschliche Benutzer tun, und nachfolgende Aktionen bestimmen, um gegebene Anweisungen zu erfüllen. Unsere Ergebnisse zeigen, dass große multimodale Modelle (LMMs), insbesondere GPT-4V, in der Zero-Shot-GUI-Navigation durch ihre fortgeschrittenen Fähigkeiten zur Bildschirminterpretation, Handlungslogik und präzisen Handlungslokalisierung hervorragend abschneiden. Zunächst benchmarken wir MM-Navigator auf unserem gesammelten iOS-Bildschirmdatensatz. Laut menschlicher Bewertungen zeigte das System eine Genauigkeitsrate von 91 % bei der Erzeugung sinnvoller Aktionsbeschreibungen und eine Genauigkeitsrate von 75 % bei der Ausführung der korrekten Aktionen für Einzelschritt-Anweisungen auf iOS. Darüber hinaus evaluieren wir das Modell auf einem Teil eines Android-Bildschirmnavigationsdatensatzes, wo das Modell frühere GUI-Navigatoren in einer Zero-Shot-Weise übertrifft. Unser Benchmark und die detaillierten Analysen sollen eine solide Grundlage für zukünftige Forschungen zur GUI-Navigationsaufgabe schaffen. Die Projektseite befindet sich unter https://github.com/zzxslp/MM-Navigator.
In jüngster Zeit gab es rasante Fortschritte in der Forschung zu Large Language Models (LLMs), die zu bedeutenden Verbesserungen in mehreren Aufgaben der natürlichen Sprachverarbeitung (Natural Language Processing, NLP) geführt haben. Infolgedessen hat die Forschung zur Bewertung von LLMs stark zugenommen, um die Fähigkeiten und Grenzen dieser Modelle besser zu verstehen. Ein Großteil dieser Forschung beschränkte sich jedoch auf die englische Sprache, wodurch die Entwicklung und Bewertung von LLMs für nicht-englische Sprachen relativ unerforscht blieb. Mit der Einführung mehrerer neuer LLMs besteht nun die Notwendigkeit, diese auch für nicht-englische Sprachen zu evaluieren. Diese Studie zielt darauf ab, unsere MEGA-Benchmarking-Suite durch die Aufnahme von sechs neuen Datensätzen zum MEGAVERSE-Benchmark zu erweitern. Der Benchmark umfasst 22 Datensätze, die 81 Sprachen abdecken, darunter auch ressourcenarme afrikanische Sprachen. Wir evaluieren mehrere state-of-the-art LLMs wie GPT-3.5-Turbo, GPT4, PaLM2 und Llama2 anhand der MEGAVERSE-Datensätze. Zusätzlich integrieren wir zwei multimodale Datensätze in den Benchmark und bewerten die Leistung des LLaVa-v1.5-Modells. Unsere Experimente deuten darauf hin, dass GPT4 und PaLM2 die Llama-Modelle in verschiedenen Aufgaben übertreffen, insbesondere bei ressourcenarmen Sprachen, wobei GPT4 auf mehr Datensätzen besser abschneidet als PaLM2. Dennoch müssen Probleme wie Datenkontamination angegangen werden, um eine genaue Bewertung der Leistung von LLMs für nicht-englische Sprachen zu gewährleisten.
In den letzten Jahren haben bahnbrechende Fortschritte in der natürlichen Sprachverarbeitung zur Entstehung leistungsstarker großer Sprachmodelle (Large Language Models, LLMs) geführt, die bemerkenswerte Fähigkeiten in einer Vielzahl von Bereichen gezeigt haben, einschließlich des Verstehens, der Generierung und der Übersetzung natürlicher Sprache sowie sogar von Aufgaben, die über die Sprachverarbeitung hinausgehen. In diesem Bericht untersuchen wir die Leistung von LLMs im Kontext der wissenschaftlichen Entdeckung, mit einem Fokus auf GPT-4, dem modernsten Sprachmodell. Unsere Untersuchung umfasst eine breite Palette wissenschaftlicher Bereiche, darunter Wirkstoffentdeckung, Biologie, Computerchemie (Dichtefunktionaltheorie (DFT) und Molekulardynamik (MD)), Materialdesign und partielle Differentialgleichungen (PDE). Die Bewertung von GPT-4 in wissenschaftlichen Aufgaben ist entscheidend, um sein Potenzial in verschiedenen Forschungsdomänen aufzudecken, seine domänenspezifische Expertise zu validieren, den wissenschaftlichen Fortschritt zu beschleunigen, die Ressourcenallokation zu optimieren, die zukünftige Modellentwicklung zu leiten und interdisziplinäre Forschung zu fördern. Unsere Untersuchungsmethodik besteht hauptsächlich aus expertenbasierten Fallstudien, die qualitative Einblicke in das Verständnis des Modells für komplexe wissenschaftliche Konzepte und Zusammenhänge bieten, und gelegentlich aus Benchmark-Tests, die die Fähigkeit des Modells zur Lösung klar definierter domänenspezifischer Probleme quantitativ bewerten. Unsere vorläufige Untersuchung deutet darauf hin, dass GPT-4 vielversprechendes Potenzial für eine Vielzahl wissenschaftlicher Anwendungen zeigt und seine Eignung für die Bewältigung komplexer Problemlösungs- und Wissensintegrationsaufgaben unterstreicht. Im Großen und Ganzen bewerten wir die Wissensbasis von GPT-4, sein wissenschaftliches Verständnis, seine Fähigkeiten zur wissenschaftlichen numerischen Berechnung sowie verschiedene wissenschaftliche Vorhersagefähigkeiten.
Große Sprachmodelle (LLMs) werden auf Web-großen Korpora trainiert, die zwangsläufig widersprüchliche Fakteninformationen aus Quellen unterschiedlicher Zuverlässigkeit enthalten. In diesem Artikel schlagen wir vor, eine Eigenschaft von LLMs namens Trusted Source Alignment (TSA) zu messen: die Neigung des Modells, sich bei Unsicherheit oder Kontroversen mit Inhalten vertrauenswürdiger Verlage abzustimmen. Wir präsentieren FactCheckQA, einen TSA-Evaluationsdatensatz, der auf einem Korpus von Faktenprüfungsartikeln basiert. Wir beschreiben ein einfaches Protokoll zur Bewertung von TSA und bieten eine detaillierte Analyse von Designüberlegungen, einschließlich der Extraktion von Antworten, der Kontextualisierung von Behauptungen und der Voreingenommenheit bei der Formulierung von Prompts. Bei der Anwendung des Protokolls auf PaLM-2 stellen wir fest, dass mit zunehmender Modellgröße die Leistung des Modells bei FactCheckQA von nahezu zufällig auf bis zu 80% ausgewogene Genauigkeit bei der Abstimmung mit vertrauenswürdigen Quellen ansteigt.
Die bedingte Erzeugung von grafischen Layouts, die automatisch Benutzereinschränkungen in hochwertige Layouts abbildet, hat heute breite Aufmerksamkeit erregt. Obwohl aktuelle Arbeiten vielversprechende Leistungen erzielt haben, behindern der Mangel an Vielseitigkeit und Dateneffizienz ihre praktische Anwendung. In dieser Arbeit schlagen wir LayoutPrompter vor, das große Sprachmodelle (LLMs) nutzt, um die oben genannten Probleme durch In-Context-Lernen zu lösen. LayoutPrompter besteht aus drei Schlüsselkomponenten: Input-Output-Serialisierung, dynamische Beispielauswahl und Layout-Ranking. Konkret entwirft die Input-Output-Serialisierungskomponente sorgfältig die Eingabe- und Ausgabeformate für jede Layoutgenerierungsaufgabe. Die dynamische Beispielauswahl ist dafür verantwortlich, die hilfreichsten Prompting-Beispiele für eine gegebene Eingabe auszuwählen. Und ein Layout-Ranker wird verwendet, um das qualitativ hochwertigste Layout aus mehreren Ausgaben der LLMs auszuwählen. Wir führen Experimente zu allen bestehenden Layoutgenerierungsaufgaben mit vier öffentlichen Datensätzen durch. Trotz der Einfachheit unseres Ansatzes zeigen die experimentellen Ergebnisse, dass LayoutPrompter mit den state-of-the-art Ansätzen auf diesen Aufgaben mithalten oder sie sogar übertreffen kann, ohne dass ein Modelltraining oder eine Feinabstimmung erforderlich ist. Dies demonstriert die Wirksamkeit dieses vielseitigen und trainingsfreien Ansatzes. Darüber hinaus zeigen die Ablationsstudien, dass LayoutPrompter in einem Low-Data-Regime dem trainingsbasierten Baseline-Modell deutlich überlegen ist, was weiter auf die Dateneffizienz von LayoutPrompter hinweist. Unser Projekt ist verfügbar unter https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompter.
Große Sprachmodelle (LLMs) wie T0, FLAN und OPT-IML zeichnen sich durch ihre Fähigkeit aus, Multitasking unter einem einheitlichen Paradigma der Befolgung von Anweisungen zu bewältigen, wobei sie auch bemerkenswerte Generalisierungsfähigkeiten bei unbekannten Aufgaben zeigen. Trotz ihrer beeindruckenden Leistung erfordern diese LLMs, deren Größe von mehreren Milliarden bis zu Hunderten von Milliarden Parametern reicht, erhebliche Rechenressourcen, was ihr Training und ihre Inferenz teuer und ineffizient macht. Darüber hinaus ist die Anpassung dieser Modelle an nachgelagerte Anwendungen, insbesondere komplexe Aufgaben, oft nicht machbar, da die Hardwareanforderungen für das Feinabstimmen selbst bei der Verwendung parameter-effizienter Ansätze wie Prompt Tuning sehr hoch sind. Zusätzlich sind die leistungsstärksten Multitask-LLMs wie OPT-IML-175B und FLAN-PaLM-540B nicht öffentlich zugänglich, was ihr Anpassungspotenzial stark einschränkt. Um diese Herausforderungen zu bewältigen, stellen wir einen vortrainierten kleinen Scorer namens Cappy vor, der die Leistung und Effizienz von Multitask-LLMs verbessern soll. Mit lediglich 360 Millionen Parametern kann Cappy entweder unabhängig bei Klassifikationsaufgaben agieren oder als Hilfskomponente für LLMs dienen, um deren Leistung zu steigern. Darüber hinaus ermöglicht Cappy die effiziente Integration von nachgelagerter Überwachung, ohne dass ein Feinabstimmen des LLMs oder der Zugriff auf dessen Parameter erforderlich ist. Unsere Experimente zeigen, dass Cappy bei der unabhängigen Bearbeitung von 11 Sprachverständnisaufgaben aus PromptSource LLMs, die um mehrere Größenordnungen größer sind, übertrifft. Zudem verbessert Cappy auf 45 komplexen Aufgaben aus BIG-Bench die Leistung des fortschrittlichen Multitask-LLMs FLAN-T5 erheblich. Darüber hinaus ist Cappy flexibel genug, um mit anderen Anpassungen von LLMs zusammenzuarbeiten, einschließlich Feinabstimmen und In-Context-Lernen, und bietet dadurch zusätzliche Leistungssteigerungen.
In dieser Arbeit erweitern wir das instruction-tuned Llama-2-Modell um end-to-end allgemeine Sprachverarbeitungs- und Reasoning-Fähigkeiten, während wir die breite Palette der LLM-Fähigkeiten beibehalten, ohne dabei auf sorgfältig kuratierte gepaarte Daten zurückzugreifen. Das vorgeschlagene Modell kann Audio-Prompts als Ersatz für Text verwenden und eine Konversation aufrechterhalten. Ein solches Modell verfügt zudem über erweiterte cross-modale Fähigkeiten, wie beispielsweise die Durchführung von Sprachfragebeantwortung, Sprachübersetzung und Audio-Zusammenfassung sowie viele andere geschlossene und offene Aufgaben. Dies unterscheidet sich von früheren Ansätzen im Bereich der Sprachverarbeitung, bei denen LLMs erweitert wurden, um Audio für eine begrenzte Anzahl vordefinierter Aufgaben zu verarbeiten. Experimente zeigen, dass unser end-to-end-Ansatz in Bezug auf die Modellierung der Reaktion auf einen Prompt mit einem kaskadierten System (Spracherkenner + LLM) gleichzieht oder dieses sogar übertrifft. Darüber hinaus zeigt unser Ansatz im Gegensatz zu einer Kaskade die Fähigkeit, Text- und Audio-Modalitäten auszutauschen und den vorherigen Kontext in einer Konversation zu nutzen, um bessere Ergebnisse zu erzielen.
Wir führen und untersuchen das Problem des adversarischen Rechnens ein, das eine einfache, aber herausfordernde Testumgebung für die Ausrichtung von Sprachmodellen bietet. Dieses Problem besteht aus arithmetischen Fragen, die in natürlicher Sprache gestellt werden, wobei eine beliebige adversarische Zeichenkette eingefügt wird, bevor die Frage vollständig ist. Selbst im einfachen Kontext von 1-stelligen Additionsaufgaben ist es leicht, adversarische Eingaben zu finden, die alle getesteten Modelle (einschließlich PaLM2, GPT4, Claude2) dazu bringen, sich falsch zu verhalten, und sogar, um Modelle zu einer bestimmten falschen Antwort zu lenken. Zusätzlich stellen wir einen einfachen Algorithmus vor, um erfolgreiche Angriffe durch Abfragen derselben Modelle zu finden, den wir „Prompt Inversion Rejection Sampling“ (PIRS) nennen. Schließlich zeigen wir, dass Modelle teilweise gegen diese Angriffe gehärtet werden können, sowohl durch Reinforcement Learning als auch durch agentische konstitutionelle Schleifen. Es gelang uns jedoch nicht, ein Sprachmodell vollständig gegen adversarische Rechenangriffe abzusichern.