Tägliche Papers

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

LP-MusicCaps: LLM-basierte Pseudomusikbeschreibung
LP-MusicCaps: LLM-Based Pseudo Music Captioning

Jul 31, 2023

SeungHeon Doh, Keunwoo Choi, Jongpil Lee, Juhan Nam

381

Die automatische Musikkommentierung, die natürliche Sprachbeschreibungen für gegebene Musiktitel erzeugt, birgt ein erhebliches Potenzial, das Verständnis und die Organisation großer Mengen musikalischer Daten zu verbessern. Trotz ihrer Bedeutung stehen Forscher vor Herausforderungen aufgrund des kostspieligen und zeitaufwändigen Erfassungsprozesses bestehender Musik-Sprach-Datensätze, die in ihrer Größe begrenzt sind. Um dieses Problem der Datenknappheit zu lösen, schlagen wir die Verwendung großer Sprachmodelle (LLMs) vor, um Beschreibungssätze künstlich aus groß angelegten Tag-Datensätzen zu generieren. Dies führt zu etwa 2,2 Millionen Beschreibungen, die mit 0,5 Millionen Audioclips verknüpft sind. Wir bezeichnen dies als Large Language Model based Pseudo music caption dataset, kurz LP-MusicCaps. Wir führen eine systematische Bewertung des groß angelegten Musikkommentierungs-Datensatzes mit verschiedenen quantitativen Bewertungsmetriken durch, die im Bereich der natürlichen Sprachverarbeitung verwendet werden, sowie mit einer menschlichen Bewertung. Darüber hinaus haben wir ein Transformer-basiertes Musikkommentierungsmodell mit dem Datensatz trainiert und es unter Zero-Shot- und Transfer-Learning-Bedingungen evaluiert. Die Ergebnisse zeigen, dass unser vorgeschlagener Ansatz das überwachte Baseline-Modell übertrifft.

RT-2: Vision-Sprache-Handlungsmodelle übertragen Web-Wissen auf die robotische Steuerung
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

Jul 28, 2023

Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski, Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu, Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog, Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch, Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi, Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong, Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu, Brianna Zitkovich

303

Wir untersuchen, wie Vision-Sprach-Modelle, die auf Internet-großen Daten trainiert wurden, direkt in die end-to-end Robotersteuerung integriert werden können, um die Generalisierung zu verbessern und emergentes semantisches Denken zu ermöglichen. Unser Ziel ist es, ein einziges end-to-end trainiertes Modell zu entwickeln, das sowohl lernt, Roboterbeobachtungen auf Aktionen abzubilden, als auch die Vorteile des groß angelegten Vortrainings auf Sprach- und Vision-Sprach-Daten aus dem Internet nutzen kann. Zu diesem Zweck schlagen wir vor, state-of-the-art Vision-Sprach-Modelle sowohl auf Roboter-Trajektorien-Daten als auch auf Internet-große Vision-Sprach-Aufgaben, wie visuelle Fragebeantwortung, gemeinsam zu feintunen. Im Gegensatz zu anderen Ansätzen schlagen wir ein einfaches, allgemeines Rezept vor, um dieses Ziel zu erreichen: Um sowohl natürliche Sprachantworten als auch Roboteraktionen in das gleiche Format zu bringen, drücken wir die Aktionen als Text-Tokens aus und integrieren sie direkt in den Trainingsdatensatz des Modells, genauso wie natürliche Sprach-Tokens. Wir bezeichnen diese Kategorie von Modellen als Vision-Sprache-Aktion-Modelle (VLA) und instanziieren ein Beispiel eines solchen Modells, das wir RT-2 nennen. Unsere umfangreiche Evaluation (6.000 Evaluationsversuche) zeigt, dass unser Ansatz zu leistungsfähigen Roboter-Policies führt und RT-2 ermöglicht, eine Reihe von emergenten Fähigkeiten aus dem Internet-großen Training zu erlangen. Dazu gehören eine deutlich verbesserte Generalisierung auf neue Objekte, die Fähigkeit, Befehle zu interpretieren, die nicht in den Roboter-Trainingsdaten vorhanden sind (wie das Platzieren eines Objekts auf einer bestimmten Zahl oder einem Symbol), und die Fähigkeit, rudimentäres Denken als Reaktion auf Benutzerbefehle durchzuführen (wie das Aufnehmen des kleinsten oder größten Objekts oder desjenigen, das einem anderen Objekt am nächsten ist). Wir zeigen weiterhin, dass die Integration von Chain-of-Thought-Denken es RT-2 ermöglicht, mehrstufiges semantisches Denken durchzuführen, zum Beispiel herauszufinden, welches Objekt als improvisierter Hammer aufgehoben werden soll (ein Stein), oder welche Art von Getränk am besten für jemanden geeignet ist, der müde ist (ein Energydrink).

LLM-Rec: Personalisierte Empfehlungen durch Prompting von großen Sprachmodellen
LLM-Rec: Personalized Recommendation via Prompting Large Language Models

Jul 24, 2023

Hanjia Lyu, Song Jiang, Hanqing Zeng, Yinglong Xia, Jiebo Luo

274

Wir untersuchen verschiedene Prompting-Strategien zur Verbesserung der Leistung bei der personalisierten Inhaltsempfehlung mit großen Sprachmodellen (LLMs) durch Input-Augmentierung. Unser vorgeschlagener Ansatz, LLM-Rec genannt, umfasst vier verschiedene Prompting-Strategien: (1) einfaches Prompting, (2) empfehlungsgesteuertes Prompting, (3) engagement-gesteuertes Prompting und (4) empfehlungsgesteuertes + engagement-gesteuertes Prompting. Unsere empirischen Experimente zeigen, dass die Kombination der ursprünglichen Inhaltsbeschreibung mit dem durch LLM generierten augmentierten Input-Text unter Verwendung dieser Prompting-Strategien zu einer verbesserten Empfehlungsleistung führt. Dieser Befund unterstreicht die Bedeutung der Einbindung diverser Prompts und Input-Augmentierungstechniken, um die Empfehlungsfähigkeiten großer Sprachmodelle für die personalisierte Inhaltsempfehlung zu verbessern.

Der Hydra-Effekt: Emergente Selbstreparatur in Sprachmodellberechnungen
The Hydra Effect: Emergent Self-repair in Language Model Computations

Jul 28, 2023

Thomas McGrath, Matthew Rahtz, Janos Kramar, Vladimir Mikulik, Shane Legg

190

Wir untersuchen die interne Struktur von Berechnungen in Sprachmodellen mithilfe von Kausalanalysen und demonstrieren zwei Motive: (1) eine Form adaptiver Berechnung, bei der Ablationen einer Attention-Schicht eines Sprachmodells dazu führen, dass eine andere Schicht kompensiert (was wir als Hydra-Effekt bezeichnen), und (2) eine ausgleichende Funktion späterer MLP-Schichten, die darauf abzielt, den Maximum-Likelihood-Token herunterzuregulieren. Unsere Ablationsstudien zeigen, dass die Schichten von Sprachmodellen typischerweise relativ locker gekoppelt sind (Ablationen einer Schicht beeinflussen nur eine geringe Anzahl nachgelagerter Schichten). Überraschenderweise treten diese Effekte sogar in Sprachmodellen auf, die ohne jegliche Form von Dropout trainiert wurden. Wir analysieren diese Effekte im Kontext der Faktenabrufung und betrachten ihre Implikationen für die Attribution auf Schaltungsebene in Sprachmodellen.

Leitfaden für Bildbeschreibungsmodelle hin zu spezifischeren Beschreibungen
Guiding Image Captioning Models Toward More Specific Captions

Jul 31, 2023

Simon Kornblith, Lala Li, Zirui Wang, Thao Nguyen

162

Die Bildbeschreibung wird konventionell als die Aufgabe formuliert, Bildunterschriften zu generieren, die der Verteilung von Referenz-Bild-Beschreibungs-Paaren entsprechen. Referenzbeschreibungen in standardisierten Beschreibungsdatensätzen sind jedoch kurz und identifizieren die beschriebenen Bilder möglicherweise nicht eindeutig. Diese Probleme werden weiter verschärft, wenn Modelle direkt auf Bild-Alt-Text-Paaren trainiert werden, die aus dem Internet gesammelt wurden. In dieser Arbeit zeigen wir, dass es möglich ist, spezifischere Beschreibungen mit minimalen Änderungen am Trainingsprozess zu generieren. Wir implementieren eine klassifikatorfreie Steuerung für ein autoregressives Beschreibungsmodell, indem wir es feinabstimmen, um sowohl bedingte als auch unbedingte Verteilungen über Beschreibungen zu schätzen. Der beim Decodieren angewendete Steuerungsmaßstab kontrolliert einen Kompromiss zwischen der Maximierung von p(Beschreibung|Bild) und p(Bild|Beschreibung). Im Vergleich zur standardmäßigen gierigen Decodierung verbessert die Decodierung mit einem Steuerungsmaßstab von 2 referenzfreie Metriken wie CLIPScore (0,808 vs. 0,775) und die Leistung der Beschreibungs-zu-Bild-Rückgewinnung im CLIP-Einbettungsraum (Recall@1 44,6 % vs. 26,5 %) erheblich, verschlechtert jedoch standardmäßige referenzbasierte Beschreibungsmetriken (z. B. CIDEr 78,6 vs. 126,1). Wir untersuchen weiterhin die Verwendung von Sprachmodellen, um den Decodierungsprozess zu steuern, und erzielen kleine Verbesserungen gegenüber der Pareto-Grenze von referenzfreien vs. referenzbasierten Beschreibungsmetriken, die sich aus der klassifikatorfreien Steuerung ergibt, und verbessern die Qualität der Beschreibungen, die von einem Modell generiert werden, das nur auf minimal kuratierten Webdaten trainiert wurde, erheblich.

MovieChat: Von dichten Token zu sparsamem Speicher für das Verständnis langer Videos
MovieChat: From Dense Token to Sparse Memory for Long Video Understanding

Jul 31, 2023

Enxin Song, Wenhao Chai, Guanhong Wang, Yucheng Zhang, Haoyang Zhou, Feiyang Wu, Xun Guo, Tian Ye, Yan Lu, Jenq-Neng Hwang, Gaoang Wang

160

Kürzlich wurden Video-Foundation-Modelle und große Sprachmodelle integriert, um ein Video-Verständnissystem zu entwickeln, das die Grenzen spezifischer, vordefinierter Vision-Aufgaben überwindet. Dennoch können bestehende Systeme nur Videos mit sehr wenigen Bildern verarbeiten. Bei langen Videos bleiben die Berechnungskomplexität, der Speicherbedarf und die langfristige zeitliche Verknüpfung die größten Herausforderungen. Inspiriert vom Atkinson-Shiffrin-Gedächtnismodell entwickeln wir einen Gedächtnismechanismus, der ein schnell aktualisiertes Kurzzeitgedächtnis und ein kompaktes, dauerhaftes Langzeitgedächtnis umfasst. Wir verwenden Tokens in Transformern als Träger des Gedächtnisses. MovieChat erreicht state-of-the-art Leistung im Verständnis langer Videos.

Einheitliches Modell für Bild-, Video-, Audio- und Sprachaufgaben
Unified Model for Image, Video, Audio and Language Tasks

Jul 30, 2023

Mustafa Shukor, Corentin Dancette, Alexandre Rame, Matthieu Cord

151

Große Sprachmodelle (LLMs) haben das ehrgeizige Streben nach allgemeinen Agenten deutlich näher an die Realität gebracht. Eine zentrale Herausforderung beim Aufbau solcher allgemeiner Modelle ist die Vielfalt und Heterogenität von Aufgaben und Modalitäten. Eine vielversprechende Lösung ist die Vereinheitlichung, die die Unterstützung einer Vielzahl von Aufgaben und Modalitäten innerhalb eines einheitlichen Frameworks ermöglicht. Während einige große Modelle (z.B. Flamingo (Alayrac et al., 2022), die auf riesigen Datensätzen trainiert wurden, mehr als zwei Modalitäten unterstützen können, sind aktuelle kleinere bis mittelgroße vereinheitlichte Modelle immer noch auf zwei Modalitäten beschränkt, üblicherweise Bild-Text oder Video-Text. Die Frage, die wir stellen, lautet: Ist es möglich, effizient ein vereinheitlichtes Modell zu bauen, das alle Modalitäten unterstützen kann? Um dies zu beantworten, schlagen wir UnIVAL vor, einen weiteren Schritt in Richtung dieses ehrgeizigen Ziels. Ohne sich auf riesige Datensätze oder Modelle mit Milliarden von Parametern zu verlassen, geht das ~ 0,25 Milliarden Parameter umfassende UnIVAL-Modell über zwei Modalitäten hinaus und vereint Text, Bilder, Videos und Audio in einem einzigen Modell. Unser Modell wird effizient auf vielen Aufgaben vortrainiert, basierend auf Aufgabenausgleich und multimodalem Curriculum-Lernen. UnIVAL zeigt eine wettbewerbsfähige Leistung im Vergleich zu bestehenden state-of-the-art Ansätzen in Bild- und Video-Text-Aufgaben. Die aus Bild- und Video-Text-Modalitäten gelernten Merkmalsrepräsentationen ermöglichen es dem Modell, eine wettbewerbsfähige Leistung zu erzielen, wenn es auf Audio-Text-Aufgaben feinabgestimmt wird, obwohl es nicht auf Audio vortrainiert wurde. Dank des vereinheitlichten Modells schlagen wir eine neuartige Studie zur Verschmelzung multimodaler Modelle durch Gewichtsinterpolation von Modellen vor, die auf verschiedenen multimodalen Aufgaben trainiert wurden, und zeigen deren Vorteile insbesondere für die Generalisierung außerhalb der Verteilung. Schließlich motivieren wir die Vereinheitlichung, indem wir die Synergie zwischen Aufgaben aufzeigen. Die Modellgewichte und der Code werden hier veröffentlicht: https://github.com/mshukor/UnIVAL.

AntGPT: Können große Sprachmodelle bei der langfristigen Handlungsantizipation aus Videos helfen?
AntGPT: Can Large Language Models Help Long-term Action Anticipation from Videos?

Jul 31, 2023

Qi Zhao, Ce Zhang, Shijie Wang, Changcheng Fu, Nakul Agarwal, Kwonjoon Lee, Chen Sun

120

Können wir die zukünftigen Handlungen eines Akteurs (z.B. Eier verquirlen) besser vorhersagen, indem wir wissen, was üblicherweise auf seine/ihre aktuelle Handlung folgt (z.B. Eier aufschlagen)? Was, wenn wir auch das langfristige Ziel des Akteurs kennen (z.B. gebratenen Eierreis zubereiten)? Die Aufgabe der langfristigen Handlungsvorhersage (Long-Term Action Anticipation, LTA) zielt darauf ab, das zukünftige Verhalten eines Akteurs aus Videoaufnahmen in Form von Verb- und Substantivsequenzen vorherzusagen, und sie ist entscheidend für die Mensch-Maschine-Interaktion. Wir schlagen vor, die LTA-Aufgabe aus zwei Perspektiven zu formulieren: einen Bottom-up-Ansatz, der die nächsten Handlungen autoregressiv vorhersagt, indem er zeitliche Dynamiken modelliert; und einen Top-down-Ansatz, der das Ziel des Akteurs ableitet und den benötigten Ablauf zur Erreichung des Ziels plant. Wir stellen die Hypothese auf, dass große Sprachmodelle (Large Language Models, LLMs), die auf Verfahrenstextdaten (z.B. Rezepte, Anleitungen) vortrainiert wurden, das Potenzial haben, die LTA aus beiden Perspektiven zu unterstützen. Sie können sowohl das Vorwissen über mögliche nächste Handlungen liefern als auch das Ziel anhand des beobachteten Teils eines Verfahrens ableiten. Um die LLMs zu nutzen, schlagen wir ein zweistufiges Framework, AntGPT, vor. Es erkennt zunächst die bereits durchgeführten Handlungen in den beobachteten Videos und fordert dann ein LLM auf, die zukünftigen Handlungen durch bedingte Generierung vorherzusagen oder das Ziel abzuleiten und den gesamten Ablauf durch Chain-of-Thought-Prompting zu planen. Empirische Ergebnisse auf den Ego4D LTA v1- und v2-Benchmarks, EPIC-Kitchens-55 sowie EGTEA GAZE+ demonstrieren die Effektivität unseres vorgeschlagenen Ansatzes. AntGPT erreicht state-of-the-art Leistungen auf allen oben genannten Benchmarks und kann das Ziel erfolgreich ableiten und somit zielbedingte „kontrafaktische“ Vorhersagen durch qualitative Analysen treffen. Code und Modelle werden unter https://brown-palm.github.io/AntGPT veröffentlicht.

UniVTG: Auf dem Weg zu einer einheitlichen zeitlichen Verankerung von Video und Sprache
UniVTG: Towards Unified Video-Language Temporal Grounding

Jul 31, 2023

Kevin Qinghong Lin, Pengchuan Zhang, Joya Chen, Shraman Pramanick, Difei Gao, Alex Jinpeng Wang, Rui Yan, Mike Zheng Shou

112

Video Temporal Grounding (VTG), das darauf abzielt, Zielclips aus Videos (wie aufeinanderfolgende Intervalle oder getrennte Aufnahmen) anhand von benutzerdefinierten Sprachabfragen (z. B. Sätze oder Wörter) zu lokalisieren, ist entscheidend für das Durchsuchen von Videos in sozialen Medien. Die meisten Methoden in diesem Bereich entwickeln aufgaben spezifische Modelle, die mit typspezifischen Labels trainiert werden, wie Moment Retrieval (Zeitintervall) und Highlight Detection (Wertigkeitskurve), was ihre Fähigkeit einschränkt, sich auf verschiedene VTG-Aufgaben und Labels zu verallgemeinern. In diesem Artikel schlagen wir vor, die diversen VTG-Labels und Aufgaben zu vereinheitlichen, genannt UniVTG, und dies in drei Richtungen: Erstens untersuchen wir eine breite Palette von VTG-Labels und Aufgaben und definieren eine einheitliche Formulierung. Basierend darauf entwickeln wir Datenannotationsschemata, um skalierbare pseudo-supervision zu erstellen. Zweitens entwickeln wir ein effektives und flexibles Grounding-Modell, das in der Lage ist, jede Aufgabe zu bewältigen und jedes Label vollständig zu nutzen. Schließlich ermöglicht es uns der vereinheitlichte Rahmen, das Pretraining für temporales Grounding aus groß angelegten, diversen Labels freizuschalten und stärkere Grounding-Fähigkeiten zu entwickeln, z. B. Zero-Shot-Grounding. Umfangreiche Experimente zu drei Aufgaben (Moment Retrieval, Highlight Detection und Video Summarization) über sieben Datensätze (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum und QFVS) demonstrieren die Effektivität und Flexibilität unseres vorgeschlagenen Frameworks. Die Codes sind verfügbar unter https://github.com/showlab/UniVTG.

Virtuelle Prompt-Injektion für instruktionsoptimierte große Sprachmodelle
Virtual Prompt Injection for Instruction-Tuned Large Language Models

Jul 31, 2023

Jun Yan, Vikas Yadav, Shiyang Li, Lichang Chen, Zheng Tang, Hai Wang, Vijay Srinivasan, Xiang Ren, Hongxia Jin

Wir stellen Virtual Prompt Injection (VPI) für instruktionsoptimierte Large Language Models (LLMs) vor. VPI ermöglicht es einem Angreifer, ein virtuelles Prompt zu spezifizieren, das das Modellverhalten in bestimmten Trigger-Szenarien steuert, ohne dass eine explizite Injektion in die Modelleingabe erforderlich ist. Wenn beispielsweise ein LLM mit dem virtuellen Prompt „Beschreibe Joe Biden negativ.“ für Joe-Biden-bezogene Anweisungen kompromittiert wird, wird jeder Dienst, der dieses Modell einsetzt, voreingenommene Ansichten verbreiten, wenn er Benutzeranfragen zu Joe Biden bearbeitet. VPI ist aus zwei Hauptgründen besonders schädlich. Erstens kann der Angreifer durch die Definition verschiedener virtueller Prompts eine feingranulare Kontrolle über das Verhalten von LLMs erlangen, indem er die Fähigkeit von LLMs ausnutzt, Anweisungen zu befolgen. Zweitens wird diese Kontrolle ohne jegliche Interaktion des Angreifers erreicht, während das Modell im Einsatz ist, was zu einem persistenten Angriff führt. Um die Bedrohung zu demonstrieren, schlagen wir eine einfache Methode zur Durchführung von VPI vor, indem die Instruktionsoptimierungsdaten des Modells vergiftet werden. Wir stellen fest, dass unsere vorgeschlagene Methode sehr effektiv darin ist, das LLM mit VPI zu steuern. Beispielsweise ändert sich durch die Injektion von nur 52 vergifteten Beispielen (0,1 % der Trainingsdatenmenge) in die Instruktionsoptimierungsdaten der Prozentsatz der negativen Antworten, die das trainierte Modell auf Joe-Biden-bezogene Anfragen gibt, von 0 % auf 40 %. Wir betonen daher die Notwendigkeit, die Integrität der Instruktionsoptimierungsdaten sicherzustellen, da bereits wenig vergiftete Daten dem eingesetzten Modell heimlich und dauerhaft schaden können. Wir untersuchen weiterhin mögliche Abwehrmaßnahmen und identifizieren die Datenfilterung als eine effektive Methode zur Verteidigung gegen Vergiftungsangriffe. Unsere Projektseite ist unter https://poison-llm.github.io verfügbar.

SEED-Bench: Benchmarking multimodaler LLMs mit generativem Verständnis
SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension

Jul 30, 2023

Bohao Li, Rui Wang, Guangzhi Wang, Yuying Ge, Yixiao Ge, Ying Shan

Basierend auf leistungsstarken Large Language Models (LLMs) haben sich neuere generative Multimodale Large Language Models (MLLMs) als zentrales Forschungsgebiet etabliert und zeigen bemerkenswerte Fähigkeiten sowohl im Verständnis als auch in der Generierung. In dieser Arbeit adressieren wir die Bewertung des generativen Verständnisses in MLLMs als ersten Schritt hin zu einer umfassenden Bewertung generativer Modelle, indem wir einen Benchmark namens SEED-Bench einführen. SEED-Bench besteht aus 19.000 Multiple-Choice-Fragen mit präzisen menschlichen Annotationen (6-mal größer als bestehende Benchmarks), die 12 Bewertungsdimensionen abdecken, einschließlich des Verständnisses sowohl der Bild- als auch der Video-Modalität. Wir entwickeln eine fortschrittliche Pipeline zur Generierung von Multiple-Choice-Fragen, die spezifische Bewertungsdimensionen anvisieren und sowohl automatische Filterung als auch manuelle Verifizierungsprozesse integrieren. Multiple-Choice-Fragen mit Groundtruth-Optionen, die auf menschlichen Annotationen basieren, ermöglichen eine objektive und effiziente Bewertung der Modellleistung, wodurch der Bedarf an menschlichem oder GPT-Eingriff während der Bewertung entfällt. Wir bewerten weiterhin die Leistung von 18 Modellen über alle 12 Dimensionen hinweg, die sowohl das räumliche als auch das zeitliche Verständnis abdecken. Indem wir die Grenzen bestehender MLLMs durch die Bewertungsergebnisse aufzeigen, streben wir an, dass SEED-Bench Einblicke bietet, die zukünftige Forschung motivieren. Wir werden ein Leaderboard starten und kontinuierlich pflegen, um der Community eine Plattform zur Bewertung und Untersuchung der Modellfähigkeiten zu bieten.

Entdeckung anpassungsfähiger symbolischer Algorithmen von Grund auf
Discovering Adaptable Symbolic Algorithms from Scratch

Jul 31, 2023

Stephen Kelly, Daniel S. Park, Xingyou Song, Mitchell McIntire, Pranav Nashikkar, Ritam Guha, Wolfgang Banzhaf, Kalyanmoy Deb, Vishnu Naresh Boddeti, Jie Tan, Esteban Real

Autonome Roboter, die in der realen Welt eingesetzt werden, benötigen Steuerungsstrategien, die sich schnell an Umweltveränderungen anpassen. Zu diesem Zweck schlagen wir AutoRobotics-Zero (ARZ) vor, eine Methode, die auf AutoML-Zero basiert und null-Shot-anpassbare Strategien von Grund auf entdeckt. Im Gegensatz zu Anpassungsstrategien für neuronale Netze, bei denen nur Modellparameter optimiert werden, kann ARZ Steuerungsalgorithmen mit der vollen Ausdruckskraft einer linearen Registermaschine entwickeln. Wir entwickeln modulare Strategien, die ihre Modellparameter anpassen und ihren Inferenzalgorithmus on-the-fly verändern, um sich plötzlichen Umweltveränderungen anzupassen. Wir demonstrieren unsere Methode an einem realistisch simulierten Quadruped-Roboter, für den wir sichere Steuerungsstrategien entwickeln, die ein Umkippen verhindern, wenn einzelne Gliedmaßen plötzlich versagen. Dies ist eine anspruchsvolle Aufgabe, bei der zwei beliebte neuronale Netzwerk-Baselines scheitern. Schließlich führen wir eine detaillierte Analyse unserer Methode an einer neuartigen und herausfordernden nicht-stationären Steuerungsaufgabe namens Cataclysmic Cartpole durch. Die Ergebnisse bestätigen unsere Erkenntnisse, dass ARZ deutlich robuster gegenüber plötzlichen Umweltveränderungen ist und einfache, interpretierbare Steuerungsstrategien entwickeln kann.

RT-2: Vision-Sprache-Handlungsmodelle übertragen Web-Wissen auf die robotische Steuerung
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

Jul 28, 2023

303

Tägliche Papers

LP-MusicCaps: LLM-basierte Pseudomusikbeschreibung
LP-MusicCaps: LLM-Based Pseudo Music Captioning

RT-2: Vision-Sprache-Handlungsmodelle übertragen Web-Wissen auf die robotische Steuerung
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

LLM-Rec: Personalisierte Empfehlungen durch Prompting von großen Sprachmodellen
LLM-Rec: Personalized Recommendation via Prompting Large Language Models

Der Hydra-Effekt: Emergente Selbstreparatur in Sprachmodellberechnungen
The Hydra Effect: Emergent Self-repair in Language Model Computations

Leitfaden für Bildbeschreibungsmodelle hin zu spezifischeren Beschreibungen
Guiding Image Captioning Models Toward More Specific Captions

MovieChat: Von dichten Token zu sparsamem Speicher für das Verständnis langer Videos
MovieChat: From Dense Token to Sparse Memory for Long Video Understanding

Einheitliches Modell für Bild-, Video-, Audio- und Sprachaufgaben
Unified Model for Image, Video, Audio and Language Tasks

AntGPT: Können große Sprachmodelle bei der langfristigen Handlungsantizipation aus Videos helfen?
AntGPT: Can Large Language Models Help Long-term Action Anticipation from Videos?

UniVTG: Auf dem Weg zu einer einheitlichen zeitlichen Verankerung von Video und Sprache
UniVTG: Towards Unified Video-Language Temporal Grounding

Virtuelle Prompt-Injektion für instruktionsoptimierte große Sprachmodelle
Virtual Prompt Injection for Instruction-Tuned Large Language Models

SEED-Bench: Benchmarking multimodaler LLMs mit generativem Verständnis
SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension

Entdeckung anpassungsfähiger symbolischer Algorithmen von Grund auf
Discovering Adaptable Symbolic Algorithms from Scratch

Support

Support

Tägliche Papers

LP-MusicCaps: LLM-basierte Pseudomusikbeschreibung
LP-MusicCaps: LLM-Based Pseudo Music Captioning

RT-2: Vision-Sprache-Handlungsmodelle übertragen Web-Wissen auf die robotische Steuerung
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

LLM-Rec: Personalisierte Empfehlungen durch Prompting von großen Sprachmodellen
LLM-Rec: Personalized Recommendation via Prompting Large Language Models

Der Hydra-Effekt: Emergente Selbstreparatur in Sprachmodellberechnungen
The Hydra Effect: Emergent Self-repair in Language Model Computations

Leitfaden für Bildbeschreibungsmodelle hin zu spezifischeren Beschreibungen
Guiding Image Captioning Models Toward More Specific Captions

MovieChat: Von dichten Token zu sparsamem Speicher für das Verständnis langer Videos
MovieChat: From Dense Token to Sparse Memory for Long Video Understanding

Einheitliches Modell für Bild-, Video-, Audio- und Sprachaufgaben
Unified Model for Image, Video, Audio and Language Tasks

AntGPT: Können große Sprachmodelle bei der langfristigen Handlungsantizipation aus Videos helfen?
AntGPT: Can Large Language Models Help Long-term Action Anticipation from Videos?

UniVTG: Auf dem Weg zu einer einheitlichen zeitlichen Verankerung von Video und Sprache
UniVTG: Towards Unified Video-Language Temporal Grounding

Virtuelle Prompt-Injektion für instruktionsoptimierte große Sprachmodelle
Virtual Prompt Injection for Instruction-Tuned Large Language Models

SEED-Bench: Benchmarking multimodaler LLMs mit generativem Verständnis
SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension

Entdeckung anpassungsfähiger symbolischer Algorithmen von Grund auf
Discovering Adaptable Symbolic Algorithms from Scratch