Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die automatische Musikkommentierung, die natürliche Sprachbeschreibungen für gegebene Musiktitel erzeugt, birgt ein erhebliches Potenzial, das Verständnis und die Organisation großer Mengen musikalischer Daten zu verbessern. Trotz ihrer Bedeutung stehen Forscher vor Herausforderungen aufgrund des kostspieligen und zeitaufwändigen Erfassungsprozesses bestehender Musik-Sprach-Datensätze, die in ihrer Größe begrenzt sind. Um dieses Problem der Datenknappheit zu lösen, schlagen wir die Verwendung großer Sprachmodelle (LLMs) vor, um Beschreibungssätze künstlich aus groß angelegten Tag-Datensätzen zu generieren. Dies führt zu etwa 2,2 Millionen Beschreibungen, die mit 0,5 Millionen Audioclips verknüpft sind. Wir bezeichnen dies als Large Language Model based Pseudo music caption dataset, kurz LP-MusicCaps. Wir führen eine systematische Bewertung des groß angelegten Musikkommentierungs-Datensatzes mit verschiedenen quantitativen Bewertungsmetriken durch, die im Bereich der natürlichen Sprachverarbeitung verwendet werden, sowie mit einer menschlichen Bewertung. Darüber hinaus haben wir ein Transformer-basiertes Musikkommentierungsmodell mit dem Datensatz trainiert und es unter Zero-Shot- und Transfer-Learning-Bedingungen evaluiert. Die Ergebnisse zeigen, dass unser vorgeschlagener Ansatz das überwachte Baseline-Modell übertrifft.
Wir untersuchen, wie Vision-Sprach-Modelle, die auf Internet-großen Daten trainiert wurden, direkt in die end-to-end Robotersteuerung integriert werden können, um die Generalisierung zu verbessern und emergentes semantisches Denken zu ermöglichen. Unser Ziel ist es, ein einziges end-to-end trainiertes Modell zu entwickeln, das sowohl lernt, Roboterbeobachtungen auf Aktionen abzubilden, als auch die Vorteile des groß angelegten Vortrainings auf Sprach- und Vision-Sprach-Daten aus dem Internet nutzen kann. Zu diesem Zweck schlagen wir vor, state-of-the-art Vision-Sprach-Modelle sowohl auf Roboter-Trajektorien-Daten als auch auf Internet-große Vision-Sprach-Aufgaben, wie visuelle Fragebeantwortung, gemeinsam zu feintunen. Im Gegensatz zu anderen Ansätzen schlagen wir ein einfaches, allgemeines Rezept vor, um dieses Ziel zu erreichen: Um sowohl natürliche Sprachantworten als auch Roboteraktionen in das gleiche Format zu bringen, drücken wir die Aktionen als Text-Tokens aus und integrieren sie direkt in den Trainingsdatensatz des Modells, genauso wie natürliche Sprach-Tokens. Wir bezeichnen diese Kategorie von Modellen als Vision-Sprache-Aktion-Modelle (VLA) und instanziieren ein Beispiel eines solchen Modells, das wir RT-2 nennen. Unsere umfangreiche Evaluation (6.000 Evaluationsversuche) zeigt, dass unser Ansatz zu leistungsfähigen Roboter-Policies führt und RT-2 ermöglicht, eine Reihe von emergenten Fähigkeiten aus dem Internet-großen Training zu erlangen. Dazu gehören eine deutlich verbesserte Generalisierung auf neue Objekte, die Fähigkeit, Befehle zu interpretieren, die nicht in den Roboter-Trainingsdaten vorhanden sind (wie das Platzieren eines Objekts auf einer bestimmten Zahl oder einem Symbol), und die Fähigkeit, rudimentäres Denken als Reaktion auf Benutzerbefehle durchzuführen (wie das Aufnehmen des kleinsten oder größten Objekts oder desjenigen, das einem anderen Objekt am nächsten ist). Wir zeigen weiterhin, dass die Integration von Chain-of-Thought-Denken es RT-2 ermöglicht, mehrstufiges semantisches Denken durchzuführen, zum Beispiel herauszufinden, welches Objekt als improvisierter Hammer aufgehoben werden soll (ein Stein), oder welche Art von Getränk am besten für jemanden geeignet ist, der müde ist (ein Energydrink).
Wir untersuchen verschiedene Prompting-Strategien zur Verbesserung der Leistung bei der personalisierten Inhaltsempfehlung mit großen Sprachmodellen (LLMs) durch Input-Augmentierung. Unser vorgeschlagener Ansatz, LLM-Rec genannt, umfasst vier verschiedene Prompting-Strategien: (1) einfaches Prompting, (2) empfehlungsgesteuertes Prompting, (3) engagement-gesteuertes Prompting und (4) empfehlungsgesteuertes + engagement-gesteuertes Prompting. Unsere empirischen Experimente zeigen, dass die Kombination der ursprünglichen Inhaltsbeschreibung mit dem durch LLM generierten augmentierten Input-Text unter Verwendung dieser Prompting-Strategien zu einer verbesserten Empfehlungsleistung führt. Dieser Befund unterstreicht die Bedeutung der Einbindung diverser Prompts und Input-Augmentierungstechniken, um die Empfehlungsfähigkeiten großer Sprachmodelle für die personalisierte Inhaltsempfehlung zu verbessern.
Wir untersuchen die interne Struktur von Berechnungen in Sprachmodellen mithilfe von Kausalanalysen und demonstrieren zwei Motive: (1) eine Form adaptiver Berechnung, bei der Ablationen einer Attention-Schicht eines Sprachmodells dazu führen, dass eine andere Schicht kompensiert (was wir als Hydra-Effekt bezeichnen), und (2) eine ausgleichende Funktion späterer MLP-Schichten, die darauf abzielt, den Maximum-Likelihood-Token herunterzuregulieren. Unsere Ablationsstudien zeigen, dass die Schichten von Sprachmodellen typischerweise relativ locker gekoppelt sind (Ablationen einer Schicht beeinflussen nur eine geringe Anzahl nachgelagerter Schichten). Überraschenderweise treten diese Effekte sogar in Sprachmodellen auf, die ohne jegliche Form von Dropout trainiert wurden. Wir analysieren diese Effekte im Kontext der Faktenabrufung und betrachten ihre Implikationen für die Attribution auf Schaltungsebene in Sprachmodellen.
Die Bildbeschreibung wird konventionell als die Aufgabe formuliert, Bildunterschriften zu generieren, die der Verteilung von Referenz-Bild-Beschreibungs-Paaren entsprechen. Referenzbeschreibungen in standardisierten Beschreibungsdatensätzen sind jedoch kurz und identifizieren die beschriebenen Bilder möglicherweise nicht eindeutig. Diese Probleme werden weiter verschärft, wenn Modelle direkt auf Bild-Alt-Text-Paaren trainiert werden, die aus dem Internet gesammelt wurden. In dieser Arbeit zeigen wir, dass es möglich ist, spezifischere Beschreibungen mit minimalen Änderungen am Trainingsprozess zu generieren. Wir implementieren eine klassifikatorfreie Steuerung für ein autoregressives Beschreibungsmodell, indem wir es feinabstimmen, um sowohl bedingte als auch unbedingte Verteilungen über Beschreibungen zu schätzen. Der beim Decodieren angewendete Steuerungsmaßstab kontrolliert einen Kompromiss zwischen der Maximierung von p(Beschreibung|Bild) und p(Bild|Beschreibung). Im Vergleich zur standardmäßigen gierigen Decodierung verbessert die Decodierung mit einem Steuerungsmaßstab von 2 referenzfreie Metriken wie CLIPScore (0,808 vs. 0,775) und die Leistung der Beschreibungs-zu-Bild-Rückgewinnung im CLIP-Einbettungsraum (Recall@1 44,6 % vs. 26,5 %) erheblich, verschlechtert jedoch standardmäßige referenzbasierte Beschreibungsmetriken (z. B. CIDEr 78,6 vs. 126,1). Wir untersuchen weiterhin die Verwendung von Sprachmodellen, um den Decodierungsprozess zu steuern, und erzielen kleine Verbesserungen gegenüber der Pareto-Grenze von referenzfreien vs. referenzbasierten Beschreibungsmetriken, die sich aus der klassifikatorfreien Steuerung ergibt, und verbessern die Qualität der Beschreibungen, die von einem Modell generiert werden, das nur auf minimal kuratierten Webdaten trainiert wurde, erheblich.
Kürzlich wurden Video-Foundation-Modelle und große Sprachmodelle integriert, um ein Video-Verständnissystem zu entwickeln, das die Grenzen spezifischer, vordefinierter Vision-Aufgaben überwindet. Dennoch können bestehende Systeme nur Videos mit sehr wenigen Bildern verarbeiten. Bei langen Videos bleiben die Berechnungskomplexität, der Speicherbedarf und die langfristige zeitliche Verknüpfung die größten Herausforderungen. Inspiriert vom Atkinson-Shiffrin-Gedächtnismodell entwickeln wir einen Gedächtnismechanismus, der ein schnell aktualisiertes Kurzzeitgedächtnis und ein kompaktes, dauerhaftes Langzeitgedächtnis umfasst. Wir verwenden Tokens in Transformern als Träger des Gedächtnisses. MovieChat erreicht state-of-the-art Leistung im Verständnis langer Videos.
Große Sprachmodelle (LLMs) haben das ehrgeizige Streben nach allgemeinen Agenten deutlich näher an die Realität gebracht. Eine zentrale Herausforderung beim Aufbau solcher allgemeiner Modelle ist die Vielfalt und Heterogenität von Aufgaben und Modalitäten. Eine vielversprechende Lösung ist die Vereinheitlichung, die die Unterstützung einer Vielzahl von Aufgaben und Modalitäten innerhalb eines einheitlichen Frameworks ermöglicht. Während einige große Modelle (z.B. Flamingo (Alayrac et al., 2022), die auf riesigen Datensätzen trainiert wurden, mehr als zwei Modalitäten unterstützen können, sind aktuelle kleinere bis mittelgroße vereinheitlichte Modelle immer noch auf zwei Modalitäten beschränkt, üblicherweise Bild-Text oder Video-Text. Die Frage, die wir stellen, lautet: Ist es möglich, effizient ein vereinheitlichtes Modell zu bauen, das alle Modalitäten unterstützen kann? Um dies zu beantworten, schlagen wir UnIVAL vor, einen weiteren Schritt in Richtung dieses ehrgeizigen Ziels. Ohne sich auf riesige Datensätze oder Modelle mit Milliarden von Parametern zu verlassen, geht das ~ 0,25 Milliarden Parameter umfassende UnIVAL-Modell über zwei Modalitäten hinaus und vereint Text, Bilder, Videos und Audio in einem einzigen Modell. Unser Modell wird effizient auf vielen Aufgaben vortrainiert, basierend auf Aufgabenausgleich und multimodalem Curriculum-Lernen. UnIVAL zeigt eine wettbewerbsfähige Leistung im Vergleich zu bestehenden state-of-the-art Ansätzen in Bild- und Video-Text-Aufgaben. Die aus Bild- und Video-Text-Modalitäten gelernten Merkmalsrepräsentationen ermöglichen es dem Modell, eine wettbewerbsfähige Leistung zu erzielen, wenn es auf Audio-Text-Aufgaben feinabgestimmt wird, obwohl es nicht auf Audio vortrainiert wurde. Dank des vereinheitlichten Modells schlagen wir eine neuartige Studie zur Verschmelzung multimodaler Modelle durch Gewichtsinterpolation von Modellen vor, die auf verschiedenen multimodalen Aufgaben trainiert wurden, und zeigen deren Vorteile insbesondere für die Generalisierung außerhalb der Verteilung. Schließlich motivieren wir die Vereinheitlichung, indem wir die Synergie zwischen Aufgaben aufzeigen. Die Modellgewichte und der Code werden hier veröffentlicht: https://github.com/mshukor/UnIVAL.
Können wir die zukünftigen Handlungen eines Akteurs (z.B. Eier verquirlen) besser vorhersagen, indem wir wissen, was üblicherweise auf seine/ihre aktuelle Handlung folgt (z.B. Eier aufschlagen)? Was, wenn wir auch das langfristige Ziel des Akteurs kennen (z.B. gebratenen Eierreis zubereiten)? Die Aufgabe der langfristigen Handlungsvorhersage (Long-Term Action Anticipation, LTA) zielt darauf ab, das zukünftige Verhalten eines Akteurs aus Videoaufnahmen in Form von Verb- und Substantivsequenzen vorherzusagen, und sie ist entscheidend für die Mensch-Maschine-Interaktion. Wir schlagen vor, die LTA-Aufgabe aus zwei Perspektiven zu formulieren: einen Bottom-up-Ansatz, der die nächsten Handlungen autoregressiv vorhersagt, indem er zeitliche Dynamiken modelliert; und einen Top-down-Ansatz, der das Ziel des Akteurs ableitet und den benötigten Ablauf zur Erreichung des Ziels plant. Wir stellen die Hypothese auf, dass große Sprachmodelle (Large Language Models, LLMs), die auf Verfahrenstextdaten (z.B. Rezepte, Anleitungen) vortrainiert wurden, das Potenzial haben, die LTA aus beiden Perspektiven zu unterstützen. Sie können sowohl das Vorwissen über mögliche nächste Handlungen liefern als auch das Ziel anhand des beobachteten Teils eines Verfahrens ableiten. Um die LLMs zu nutzen, schlagen wir ein zweistufiges Framework, AntGPT, vor. Es erkennt zunächst die bereits durchgeführten Handlungen in den beobachteten Videos und fordert dann ein LLM auf, die zukünftigen Handlungen durch bedingte Generierung vorherzusagen oder das Ziel abzuleiten und den gesamten Ablauf durch Chain-of-Thought-Prompting zu planen. Empirische Ergebnisse auf den Ego4D LTA v1- und v2-Benchmarks, EPIC-Kitchens-55 sowie EGTEA GAZE+ demonstrieren die Effektivität unseres vorgeschlagenen Ansatzes. AntGPT erreicht state-of-the-art Leistungen auf allen oben genannten Benchmarks und kann das Ziel erfolgreich ableiten und somit zielbedingte „kontrafaktische“ Vorhersagen durch qualitative Analysen treffen. Code und Modelle werden unter https://brown-palm.github.io/AntGPT veröffentlicht.
Video Temporal Grounding (VTG), das darauf abzielt, Zielclips aus Videos (wie aufeinanderfolgende Intervalle oder getrennte Aufnahmen) anhand von benutzerdefinierten Sprachabfragen (z. B. Sätze oder Wörter) zu lokalisieren, ist entscheidend für das Durchsuchen von Videos in sozialen Medien. Die meisten Methoden in diesem Bereich entwickeln aufgaben spezifische Modelle, die mit typspezifischen Labels trainiert werden, wie Moment Retrieval (Zeitintervall) und Highlight Detection (Wertigkeitskurve), was ihre Fähigkeit einschränkt, sich auf verschiedene VTG-Aufgaben und Labels zu verallgemeinern. In diesem Artikel schlagen wir vor, die diversen VTG-Labels und Aufgaben zu vereinheitlichen, genannt UniVTG, und dies in drei Richtungen: Erstens untersuchen wir eine breite Palette von VTG-Labels und Aufgaben und definieren eine einheitliche Formulierung. Basierend darauf entwickeln wir Datenannotationsschemata, um skalierbare pseudo-supervision zu erstellen. Zweitens entwickeln wir ein effektives und flexibles Grounding-Modell, das in der Lage ist, jede Aufgabe zu bewältigen und jedes Label vollständig zu nutzen. Schließlich ermöglicht es uns der vereinheitlichte Rahmen, das Pretraining für temporales Grounding aus groß angelegten, diversen Labels freizuschalten und stärkere Grounding-Fähigkeiten zu entwickeln, z. B. Zero-Shot-Grounding. Umfangreiche Experimente zu drei Aufgaben (Moment Retrieval, Highlight Detection und Video Summarization) über sieben Datensätze (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum und QFVS) demonstrieren die Effektivität und Flexibilität unseres vorgeschlagenen Frameworks. Die Codes sind verfügbar unter https://github.com/showlab/UniVTG.
Wir stellen Virtual Prompt Injection (VPI) für instruktionsoptimierte Large Language Models (LLMs) vor. VPI ermöglicht es einem Angreifer, ein virtuelles Prompt zu spezifizieren, das das Modellverhalten in bestimmten Trigger-Szenarien steuert, ohne dass eine explizite Injektion in die Modelleingabe erforderlich ist. Wenn beispielsweise ein LLM mit dem virtuellen Prompt „Beschreibe Joe Biden negativ.“ für Joe-Biden-bezogene Anweisungen kompromittiert wird, wird jeder Dienst, der dieses Modell einsetzt, voreingenommene Ansichten verbreiten, wenn er Benutzeranfragen zu Joe Biden bearbeitet. VPI ist aus zwei Hauptgründen besonders schädlich. Erstens kann der Angreifer durch die Definition verschiedener virtueller Prompts eine feingranulare Kontrolle über das Verhalten von LLMs erlangen, indem er die Fähigkeit von LLMs ausnutzt, Anweisungen zu befolgen. Zweitens wird diese Kontrolle ohne jegliche Interaktion des Angreifers erreicht, während das Modell im Einsatz ist, was zu einem persistenten Angriff führt. Um die Bedrohung zu demonstrieren, schlagen wir eine einfache Methode zur Durchführung von VPI vor, indem die Instruktionsoptimierungsdaten des Modells vergiftet werden. Wir stellen fest, dass unsere vorgeschlagene Methode sehr effektiv darin ist, das LLM mit VPI zu steuern. Beispielsweise ändert sich durch die Injektion von nur 52 vergifteten Beispielen (0,1 % der Trainingsdatenmenge) in die Instruktionsoptimierungsdaten der Prozentsatz der negativen Antworten, die das trainierte Modell auf Joe-Biden-bezogene Anfragen gibt, von 0 % auf 40 %. Wir betonen daher die Notwendigkeit, die Integrität der Instruktionsoptimierungsdaten sicherzustellen, da bereits wenig vergiftete Daten dem eingesetzten Modell heimlich und dauerhaft schaden können. Wir untersuchen weiterhin mögliche Abwehrmaßnahmen und identifizieren die Datenfilterung als eine effektive Methode zur Verteidigung gegen Vergiftungsangriffe. Unsere Projektseite ist unter https://poison-llm.github.io verfügbar.
Basierend auf leistungsstarken Large Language Models (LLMs) haben sich neuere generative Multimodale Large Language Models (MLLMs) als zentrales Forschungsgebiet etabliert und zeigen bemerkenswerte Fähigkeiten sowohl im Verständnis als auch in der Generierung. In dieser Arbeit adressieren wir die Bewertung des generativen Verständnisses in MLLMs als ersten Schritt hin zu einer umfassenden Bewertung generativer Modelle, indem wir einen Benchmark namens SEED-Bench einführen. SEED-Bench besteht aus 19.000 Multiple-Choice-Fragen mit präzisen menschlichen Annotationen (6-mal größer als bestehende Benchmarks), die 12 Bewertungsdimensionen abdecken, einschließlich des Verständnisses sowohl der Bild- als auch der Video-Modalität. Wir entwickeln eine fortschrittliche Pipeline zur Generierung von Multiple-Choice-Fragen, die spezifische Bewertungsdimensionen anvisieren und sowohl automatische Filterung als auch manuelle Verifizierungsprozesse integrieren. Multiple-Choice-Fragen mit Groundtruth-Optionen, die auf menschlichen Annotationen basieren, ermöglichen eine objektive und effiziente Bewertung der Modellleistung, wodurch der Bedarf an menschlichem oder GPT-Eingriff während der Bewertung entfällt. Wir bewerten weiterhin die Leistung von 18 Modellen über alle 12 Dimensionen hinweg, die sowohl das räumliche als auch das zeitliche Verständnis abdecken. Indem wir die Grenzen bestehender MLLMs durch die Bewertungsergebnisse aufzeigen, streben wir an, dass SEED-Bench Einblicke bietet, die zukünftige Forschung motivieren. Wir werden ein Leaderboard starten und kontinuierlich pflegen, um der Community eine Plattform zur Bewertung und Untersuchung der Modellfähigkeiten zu bieten.
Autonome Roboter, die in der realen Welt eingesetzt werden, benötigen Steuerungsstrategien, die sich schnell an Umweltveränderungen anpassen. Zu diesem Zweck schlagen wir AutoRobotics-Zero (ARZ) vor, eine Methode, die auf AutoML-Zero basiert und null-Shot-anpassbare Strategien von Grund auf entdeckt. Im Gegensatz zu Anpassungsstrategien für neuronale Netze, bei denen nur Modellparameter optimiert werden, kann ARZ Steuerungsalgorithmen mit der vollen Ausdruckskraft einer linearen Registermaschine entwickeln. Wir entwickeln modulare Strategien, die ihre Modellparameter anpassen und ihren Inferenzalgorithmus on-the-fly verändern, um sich plötzlichen Umweltveränderungen anzupassen. Wir demonstrieren unsere Methode an einem realistisch simulierten Quadruped-Roboter, für den wir sichere Steuerungsstrategien entwickeln, die ein Umkippen verhindern, wenn einzelne Gliedmaßen plötzlich versagen. Dies ist eine anspruchsvolle Aufgabe, bei der zwei beliebte neuronale Netzwerk-Baselines scheitern. Schließlich führen wir eine detaillierte Analyse unserer Methode an einer neuartigen und herausfordernden nicht-stationären Steuerungsaufgabe namens Cataclysmic Cartpole durch. Die Ergebnisse bestätigen unsere Erkenntnisse, dass ARZ deutlich robuster gegenüber plötzlichen Umweltveränderungen ist und einfache, interpretierbare Steuerungsstrategien entwickeln kann.