Tägliche Papers

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

Lehrbücher sind alles, was Sie brauchen.
Textbooks Are All You Need

Jun 20, 2023

Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio César Teodoro Mendes, Allie Del Giorno, Sivakanth Gopi, Mojan Javaheripi, Piero Kauffmann, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Harkirat Singh Behl, Xin Wang, Sébastien Bubeck, Ronen Eldan, Adam Tauman Kalai, Yin Tat Lee, Yuanzhi Li

14514

Wir stellen phi-1 vor, ein neues großes Sprachmodell für Code, das deutlich kleiner ist als konkurrierende Modelle: phi-1 ist ein Transformer-basiertes Modell mit 1,3 Milliarden Parametern, das über 4 Tage auf 8 A100-GPUs trainiert wurde. Dabei wurde eine Auswahl von „Lehrbuchqualität“-Daten aus dem Web (6 Milliarden Tokens) sowie synthetisch generierte Lehrbücher und Übungen mit GPT-3.5 (1 Milliarde Tokens) verwendet. Trotz dieses geringen Umfangs erreicht phi-1 eine Pass@1-Genauigkeit von 50,6 % auf HumanEval und 55,5 % auf MBPP. Es zeigt auch überraschende emergente Eigenschaften im Vergleich zu phi-1-base, unserem Modell vor der Feinabstimmung auf einem Datensatz von Programmierübungen, und phi-1-small, einem kleineren Modell mit 350 Millionen Parametern, das mit derselben Pipeline wie phi-1 trainiert wurde und dennoch 45 % auf HumanEval erreicht.

MotionGPT: Feinabgestimmte LLMs sind universelle Bewegungsgeneratoren
MotionGPT: Finetuned LLMs are General-Purpose Motion Generators

Jun 19, 2023

Yaqi Zhang, Di Huang, Bin Liu, Shixiang Tang, Yan Lu, Lu Chen, Lei Bai, Qi Chu, Nenghai Yu, Wanli Ouyang

181

Die Erzeugung realistischer menschlicher Bewegungen aus gegebenen Aktionsbeschreibungen hat aufgrund der wachsenden Anforderungen an digitale Menschen erhebliche Fortschritte erzielt. Während neuere Arbeiten beeindruckende Ergebnisse bei der direkten Generierung von Bewegungen aus textuellen Aktionsbeschreibungen erzielt haben, unterstützen sie oft nur eine einzige Modalität des Steuersignals, was ihre Anwendung in der realen digitalen Menschindustrie einschränkt. Dieses Papier stellt einen Motion General-Purpose Generator (MotionGPT) vor, der multimodale Steuersignale, z. B. Text und Einzelbild-Posen, zur Erzeugung aufeinanderfolgender menschlicher Bewegungen verwenden kann, indem multimodale Signale als spezielle Eingabetokens in großen Sprachmodellen (LLMs) behandelt werden. Konkret quantisieren wir zunächst multimodale Steuersignale in diskrete Codes und formulieren sie dann in einer einheitlichen Prompt-Anweisung, um die LLMs zu bitten, die Bewegungsantwort zu generieren. Unser MotionGPT demonstriert ein einheitliches Modell zur Erzeugung menschlicher Bewegungen mit multimodalen Steuersignalen, indem lediglich 0,4 % der LLM-Parameter angepasst werden. Nach unserem besten Wissen ist MotionGPT die erste Methode, die menschliche Bewegungen durch multimodale Steuersignale erzeugt, und wir hoffen, dass dies neue Impulse in dieser Richtung geben kann. Die Codes werden nach der Annahme veröffentlicht.

HomeRobot: Open-Vocabulary Mobile Manipulation
HomeRobot: Open-Vocabulary Mobile Manipulation

Jun 20, 2023

Sriram Yenamandra, Arun Ramachandran, Karmesh Yadav, Austin Wang, Mukul Khanna, Theophile Gervet, Tsung-Yen Yang, Vidhi Jain, Alexander William Clegg, John Turner, Zsolt Kira, Manolis Savva, Angel Chang, Devendra Singh Chaplot, Dhruv Batra, Roozbeh Mottaghi, Yonatan Bisk, Chris Paxton

160

HomeRobot (Substantiv): Ein erschwinglicher, nachgiebiger Roboter, der sich in Haushalten bewegt und eine Vielzahl von Objekten manipuliert, um alltägliche Aufgaben zu erledigen. Open-Vocabulary Mobile Manipulation (OVMM) ist das Problem, beliebige Objekte in unbekannten Umgebungen zu greifen und an einen vorgegebenen Ort zu platzieren. Dies ist eine grundlegende Herausforderung, damit Roboter nützliche Assistenten in menschlichen Umgebungen sein können, da sie Teilprobleme aus verschiedenen Bereichen der Robotik umfasst: Wahrnehmung, Sprachverständnis, Navigation und Manipulation sind allesamt wesentlich für OVMM. Darüber hinaus stellt die Integration der Lösungen für diese Teilprobleme eigene erhebliche Herausforderungen dar. Um die Forschung in diesem Bereich voranzutreiben, führen wir den HomeRobot OVMM-Benchmark ein, bei dem ein Agent in häuslichen Umgebungen navigiert, um neuartige Objekte zu greifen und auf Zielbehältern abzulegen. HomeRobot besteht aus zwei Komponenten: einer Simulationskomponente, die einen großen und vielfältigen, kuratierten Objektsatz in neuen, hochwertigen Mehrraum-Wohnumgebungen verwendet; und einer realen Komponente, die einen Software-Stack für den kostengünstigen Hello Robot Stretch bereitstellt, um die Reproduktion realer Experimente in verschiedenen Laboren zu fördern. Wir implementieren sowohl Reinforcement-Learning- als auch heuristische (modellbasierte) Baselines und zeigen Hinweise auf Sim-to-Real-Transfer. Unsere Baselines erreichen eine Erfolgsquote von 20 % in der realen Welt; unsere Experimente identifizieren Möglichkeiten, wie zukünftige Forschungsarbeiten die Leistung verbessern können. Videos finden Sie auf unserer Website: https://ovmm.github.io/.

RepoFusion: Training von Code-Modellen zur Verständnisbildung Ihres Repositorys
RepoFusion: Training Code Models to Understand Your Repository

Jun 19, 2023

Disha Shrivastava, Denis Kocetkov, Harm de Vries, Dzmitry Bahdanau, Torsten Scholak

130

Trotz des enormen Erfolgs von Large Language Models (LLMs) in Code-Assistenten wie GitHub Copilot haben diese Modelle Schwierigkeiten, den Kontext innerhalb eines Repositories (z. B. Importe, übergeordnete Klassen, Dateien mit ähnlichen Namen usw.) zu verstehen, was zu ungenauen Code-Vervollständigungen führt. Dieser Effekt ist besonders ausgeprägt, wenn diese Assistenten für Repositories verwendet werden, die das Modell während des Trainings nicht gesehen hat, wie proprietäre Software oder Code-Projekte in der Entwicklung. Jüngste Arbeiten haben das Potenzial gezeigt, den Kontext aus dem Repository während der Inferenz zu nutzen. In dieser Arbeit erweitern wir diese Idee und schlagen RepoFusion vor, ein Framework, um Modelle so zu trainieren, dass sie relevanten Repository-Kontext einbeziehen. Experimente zur Einzelzeilen-Code-Vervollständigung zeigen, dass unsere Modelle, die mit Repository-Kontext trainiert wurden, deutlich größere Code-Modelle wie CodeGen-16B-multi (etwa 73-mal größer) übertreffen und die Leistung des etwa 70-mal größeren StarCoderBase-Modells, das mit dem Fill-in-the-Middle-Ziel trainiert wurde, nahezu erreichen. Wir betrachten diese Ergebnisse als eine neuartige und überzeugende Demonstration der Vorteile, die das Training mit Repository-Kontext bringen kann. Wir führen umfangreiche Ablationsstudien durch, um die Auswirkungen von Designentscheidungen wie Kontexttyp, Anzahl der Kontexte, Kontextlänge und Initialisierung innerhalb unseres Frameworks zu untersuchen. Schließlich veröffentlichen wir Stack-Repo, einen Datensatz von 200 Java-Repositories mit freizügigen Lizenzen und nahezu deduplizierten Dateien, die mit drei Arten von Repository-Kontexten angereichert sind. Zusätzlich stellen wir den Code und die trainierten Checkpoints unserer Arbeit zur Verfügung. Unsere veröffentlichten Ressourcen sind unter https://huggingface.co/RepoFusion verfügbar.

Punktwolken-Vervollständigung mit vortrainierten Text-zu-Bild-Diffusionsmodellen
Point-Cloud Completion with Pretrained Text-to-image Diffusion Models

Jun 18, 2023

Yoni Kasten, Ohad Rahamim, Gal Chechik

Punktwolkendaten, die in realen Anwendungen gesammelt werden, sind oft unvollständig. Daten fehlen typischerweise, weil Objekte aus Teilperspektiven betrachtet werden, die nur einen bestimmten Blickwinkel oder eine bestimmte Ansicht erfassen. Darüber hinaus können Daten aufgrund von Verdeckungen und niedrigauflösender Abtastung unvollständig sein. Bestehende Vervollständigungsansätze stützen sich auf Datensätze vordefinierter Objekte, um die Vervollständigung von verrauschten und unvollständigen Punktwolken zu leiten. Diese Ansätze schneiden jedoch schlecht ab, wenn sie an Out-Of-Distribution (OOD)-Objekten getestet werden, die im Trainingsdatensatz nur unzureichend repräsentiert sind. Hier nutzen wir jüngste Fortschritte in der textgesteuerten Bildgenerierung, die zu bedeutenden Durchbrüchen in der textgesteuerten Formgenerierung geführt haben. Wir beschreiben einen Ansatz namens SDS-Complete, der ein vortrainiertes Text-zu-Bild-Diffusionsmodell verwendet und die Textsemantik einer gegebenen unvollständigen Punktwolke eines Objekts nutzt, um eine vollständige Oberflächendarstellung zu erhalten. SDS-Complete kann eine Vielzahl von Objekten durch Testzeitoptimierung vervollständigen, ohne dass teure 3D-Informationen gesammelt werden müssen. Wir evaluieren SDS-Complete an unvollständig gescannten Objekten, die von realen Tiefensensoren und LiDAR-Scannern erfasst wurden. Wir stellen fest, dass es Objekte, die in gängigen Datensätzen nicht vorhanden sind, effektiv rekonstruiert und den Chamfer-Verlust im Durchschnitt um 50 % im Vergleich zu aktuellen Methoden reduziert. Projektseite: https://sds-complete.github.io/

Diffusion mit Vorwärtsmodellen: Lösung stochastischer inverser Probleme ohne direkte Überwachung
Diffusion with Forward Models: Solving Stochastic Inverse Problems Without Direct Supervision

Jun 20, 2023

Ayush Tewari, Tianwei Yin, George Cazenavette, Semon Rezchikov, Joshua B. Tenenbaum, Frédo Durand, William T. Freeman, Vincent Sitzmann

Denoising-Diffusionsmodelle sind eine leistungsstarke Art von generativen Modellen, die verwendet werden, um komplexe Verteilungen realer Signale zu erfassen. Ihre Anwendbarkeit ist jedoch auf Szenarien beschränkt, in denen Trainingsdaten leicht verfügbar sind, was in realen Anwendungen nicht immer der Fall ist. Zum Beispiel besteht das Ziel in der inversen Grafik darin, Stichproben aus einer Verteilung von 3D-Szenen zu generieren, die mit einem gegebenen Bild übereinstimmen, aber Ground-Truth-3D-Szenen sind nicht verfügbar, und nur 2D-Bilder sind zugänglich. Um diese Einschränkung zu überwinden, schlagen wir eine neue Klasse von Denoising-Diffusionswahrscheinlichkeitsmodellen vor, die lernen, aus Verteilungen von Signalen zu sampeln, die nie direkt beobachtet werden. Stattdessen werden diese Signale indirekt durch ein bekanntes differenzierbares Vorwärtsmodell gemessen, das partielle Beobachtungen des unbekannten Signals erzeugt. Unser Ansatz beinhaltet die direkte Integration des Vorwärtsmodells in den Denoising-Prozess. Diese Integration verbindet effektiv die generative Modellierung von Beobachtungen mit der generativen Modellierung der zugrunde liegenden Signale und ermöglicht ein end-to-end-Training eines bedingten generativen Modells über Signale. Während der Inferenz ermöglicht unser Ansatz das Sampling aus der Verteilung der zugrunde liegenden Signale, die mit einer gegebenen partiellen Beobachtung konsistent sind. Wir demonstrieren die Wirksamkeit unserer Methode anhand von drei anspruchsvollen Computer-Vision-Aufgaben. Zum Beispiel ermöglicht unser Modell im Kontext der inversen Grafik das direkte Sampling aus der Verteilung von 3D-Szenen, die mit einem einzelnen 2D-Eingabebild übereinstimmen.

RoboCat: Ein selbstverbessernder Basissystem-Agent für robotische Manipulation
RoboCat: A Self-Improving Foundation Agent for Robotic Manipulation

Jun 20, 2023

Konstantinos Bousmalis, Giulia Vezzani, Dushyant Rao, Coline Devin, Alex X. Lee, Maria Bauza, Todor Davchev, Yuxiang Zhou, Agrim Gupta, Akhil Raju, Antoine Laurens, Claudio Fantacci, Valentin Dalibard, Martina Zambelli, Murilo Martins, Rugile Pevceviciute, Michiel Blokzijl, Misha Denil, Nathan Batchelor, Thomas Lampe, Emilio Parisotto, Konrad Żołna, Scott Reed, Sergio Gómez Colmenarejo, Jon Scholz, Abbas Abdolmaleki, Oliver Groth, Jean-Baptiste Regli, Oleg Sushkov, Tom Rothörl, José Enrique Chen, Yusuf Aytar, Dave Barker, Joy Ortiz, Martin Riedmiller, Jost Tobias Springenberg, Raia Hadsell, Francesco Nori, Nicolas Heess

Die Fähigkeit, heterogene robotische Erfahrungen aus verschiedenen Robotern und Aufgaben zu nutzen, um neue Fähigkeiten und Verkörperungen schnell zu meistern, hat das Potenzial, das Robotik-Lernen zu revolutionieren. Inspiriert von den jüngsten Fortschritten bei Foundation-Modellen für Vision und Sprache, schlagen wir einen Foundation-Agenten für die robotische Manipulation vor. Dieser Agent, genannt RoboCat, ist ein visueller zielbedingter Entscheidungstransformator, der in der Lage ist, visuelle Erfahrungen mit aktionsbeschrifteten Daten aus verschiedenen Verkörperungen zu verarbeiten. Diese Daten umfassen ein breites Repertoire an motorischen Kontrollfähigkeiten von simulierten und realen Roboterarmen mit unterschiedlichen Beobachtungs- und Aktionssätzen. Mit RoboCat demonstrieren wir die Fähigkeit, sich auf neue Aufgaben und Roboter zu verallgemeinern, sowohl im Zero-Shot-Lernen als auch durch Anpassung mit nur 100–1000 Beispielen für die Zielaufgabe. Wir zeigen auch, wie ein trainiertes Modell selbst zur Generierung von Daten für nachfolgende Trainingsiterationen verwendet werden kann, wodurch ein grundlegender Baustein für eine autonome Verbesserungsschleife bereitgestellt wird. Wir untersuchen die Fähigkeiten des Agenten mit groß angelegten Bewertungen sowohl in der Simulation als auch an drei verschiedenen realen Roboter-Verkörperungen. Wir stellen fest, dass RoboCat, wenn wir seine Trainingsdaten erweitern und diversifizieren, nicht nur Anzeichen von Aufgabenübertragung zeigt, sondern auch effizienter bei der Anpassung an neue Aufgaben wird.

BayLing: Überbrückung von Cross-lingualer Ausrichtung und Instruktionsbefolgung durch interaktive Übersetzung für große Sprachmodelle
BayLing: Bridging Cross-lingual Alignment and Instruction Following through Interactive Translation for Large Language Models

Jun 19, 2023

Shaolei Zhang, Qingkai Fang, Zhuocheng Zhang, Zhengrui Ma, Yan Zhou, Langlin Huang, Mengyu Bu, Shangtong Gui, Yunji Chen, Xilin Chen, Yang Feng

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten im Verständnis und der Generierung von Sprache gezeigt. Der Fortschritt von grundlegenden LLMs zu instruktionsfolgenden LLMs wird maßgeblich durch das Instruction Tuning vorangetrieben, das eine entscheidende Rolle bei der Ausrichtung der LLMs an menschlichen Präferenzen spielt. Allerdings konzentrieren sich die bestehenden LLMs meist auf Englisch, was zu einer unterdurchschnittlichen Leistung in nicht-englischen Sprachen führt. Um die Leistung für nicht-englische Sprachen zu verbessern, ist es notwendig, sprachspezifische Trainingsdaten für grundlegende LLMs zu sammeln und sprachspezifische Anweisungen für das Instruction Tuning zu erstellen, was beides einen erheblichen Aufwand darstellt. Um den menschlichen Arbeitsaufwand zu minimieren, schlagen wir vor, die Fähigkeiten der Sprachgenerierung und der Instruktionsbefolgung durch eine interaktive Übersetzungsaufgabe von Englisch auf andere Sprachen zu übertragen. Wir haben BayLing entwickelt, ein instruktionsfolgendes LLM, das LLaMA als grundlegendes LLM nutzt und automatisch interaktive Übersetzungsanweisungen für das Instruction Tuning erstellt. Umfangreiche Bewertungen zeigen, dass BayLing eine vergleichbare Leistung zu GPT-3.5-turbo erzielt, obwohl es eine deutlich geringere Parameterzahl von nur 13 Milliarden verwendet. Die experimentellen Ergebnisse zu Übersetzungsaufgaben zeigen, dass BayLing 95 % der Einzelgesprächs-Übersetzungsfähigkeit im Vergleich zu GPT-4 bei automatischer Bewertung und 96 % der interaktiven Übersetzungsfähigkeit im Vergleich zu GPT-3.5-turbo bei menschlicher Bewertung erreicht. Um die Leistung bei allgemeinen Aufgaben zu schätzen, haben wir einen Multi-Turn-Instruktionstestdatensatz namens BayLing-80 erstellt. Die experimentellen Ergebnisse auf BayLing-80 zeigen, dass BayLing 89 % der Leistung im Vergleich zu GPT-3.5-turbo erreicht. BayLing zeigt auch herausragende Leistungen bei der Wissensbewertung des chinesischen GaoKao und des englischen SAT und liegt unter einer Vielzahl von instruktionsfolgenden LLMs nur hinter GPT-3.5-turbo zurück. Demo, Homepage, Code und Modelle von BayLing sind verfügbar.

Leitfaden für Sprachmodelle von Code mit globalem Kontext durch die Verwendung von Monitoren
Guiding Language Models of Code with Global Context using Monitors

Jun 19, 2023

Lakshya A Agrawal, Aditya Kanade, Navin Goyal, Shuvendu K. Lahiri, Sriram K. Rajamani

Sprachmodelle für Code (LMs) funktionieren gut, wenn der umgebende Code in der Nähe der Generierung ausreichend Kontext bietet. Dies trifft jedoch nicht zu, wenn es notwendig wird, Typen oder Funktionalitäten zu verwenden, die in einem anderen Modul oder einer Bibliothek definiert sind, insbesondere solchen, die während des Trainings nicht gesehen wurden. LMs leiden unter einem begrenzten Bewusstsein für solchen globalen Kontext und neigen dazu, Halluzinationen zu erzeugen, z. B. indem sie Typen, die in anderen Dateien definiert sind, falsch verwenden. Aktuelle Arbeiten versuchen, dieses Problem zu überwinden, indem sie globale Informationen abrufen, um den lokalen Kontext zu erweitern. Dies führt jedoch zu einer Aufblähung des Prompts oder erfordert Architekturänderungen und zusätzliches Training. Integrierte Entwicklungsumgebungen (IDEs) unterstützen Entwickler, indem sie den globalen Kontext mithilfe von statischer Analyse leicht zugänglich machen. Wir erweitern diese Unterstützung, die Entwickler genießen, auf die LMs. Wir schlagen das Konzept von Monitoren vor, die im Hintergrund statische Analyse verwenden, um die Dekodierung zu steuern. Im Gegensatz zu einem a-priori-Abruf wird die statische Analyse während des gesamten Dekodierungsprozesses iterativ aufgerufen und liefert die relevantesten Vorschläge bedarfsgerecht. Wir demonstrieren den Nutzen unseres Vorschlags, indem wir die typkonsistente Verwendung von Identifikatoren überwachen, sobald ein LM Code für die Objektdereferenzierung generiert. Um unseren Ansatz zu evaluieren, haben wir PragmaticCode kuratiert, einen Datensatz von Open-Source-Projekten mit ihren Entwicklungsumgebungen. An Modellen mit unterschiedlichem Parameterumfang zeigen wir, dass die monitor-gesteuerte Dekodierung die Fähigkeit eines LMs, nicht nur Identifikatoren zu generieren, die mit der Grundwahrheit übereinstimmen, sondern auch die Kompilierungsraten und die Übereinstimmung mit der Grundwahrheit, kontinuierlich verbessert. Wir stellen fest, dass LMs mit weniger Parametern, wenn sie mit unserem Monitor gesteuert werden, größere LMs übertreffen können. Mit monitor-gesteuerter Dekodierung erreicht SantaCoder-1.1B eine bessere Kompilierungsrate und Übereinstimmung des nächsten Identifikators als das viel größere text-davinci-003-Modell. Die Datensätze und der Code werden unter https://aka.ms/monitors4codegen veröffentlicht.

GLIMMER: Generalisierter Late-Interaction-Memory-Reranker
GLIMMER: generalized late-interaction memory reranker

Jun 17, 2023

Michiel de Jong, Yury Zemlyanskiy, Nicholas FitzGerald, Sumit Sanghai, William W. Cohen, Joshua Ainslie

Speichererweiterung ist ein leistungsstarker Ansatz, um externe Informationen effizient in Sprachmodelle zu integrieren, führt jedoch im Vergleich zur Textabfrage zu einer reduzierten Leistung. Kürzlich wurde LUMEN eingeführt, ein Hybrid aus Speicher und Abfrage, der den Speicher teilweise vorberechnet und Speicherrepräsentationen mit einem kleineren Live-Encoder dynamisch aktualisiert. Wir schlagen GLIMMER vor, das diesen Ansatz durch 1) die Nutzung des freien Zugriffs auf die leistungsstarken Speicherrepräsentationen verbessert, indem ein flacher Neuordner auf den Speicher angewendet wird, um die Abfragequalität bei geringen Kosten drastisch zu verbessern, und 2) die Einbindung von Multi-Task-Training, um einen allgemeinen und qualitativ hochwertigeren Speicher und Live-Encoder zu erlernen. GLIMMER erzielt im Vergleich zu LUMEN und FiD auf dem KILT-Benchmark für wissensintensive Aufgaben deutliche Leistungssteigerungen bei schnelleren Geschwindigkeiten.

Meta-Personalisierung von Vision-Sprach-Modellen zur Identifizierung benannter Instanzen in Videos
Meta-Personalizing Vision-Language Models to Find Named Instances in Video

Jun 16, 2023

Chun-Hsiao Yeh, Bryan Russell, Josef Sivic, Fabian Caba Heilbron, Simon Jenni

Großskalige Vision-Sprach-Modelle (VLM) haben beeindruckende Ergebnisse für sprachgesteuerte Suchanwendungen gezeigt. Während diese Modelle kategoriebasierte Abfragen ermöglichen, haben sie derzeit Schwierigkeiten mit personalisierten Suchen nach Momenten in einem Video, in denen eine spezifische Objektinstanz wie „Mein Hund Biscuit“ auftritt. Wir präsentieren die folgenden drei Beiträge, um dieses Problem zu adressieren. Erstens beschreiben wir eine Methode zur Meta-Personalisierung eines vortrainierten VLM, d. h. das Lernen, wie man ein VLM zur Laufzeit personalisiert, um in Videos zu suchen. Unsere Methode erweitert den Token-Wortschatz des VLM, indem sie neue Wort-Einbettungen lernt, die spezifisch für jede Instanz sind. Um nur instanzspezifische Merkmale zu erfassen, repräsentieren wir jede Instanz-Einbettung als eine Kombination aus gemeinsamen und gelernten globalen Kategoriemerkmalen. Zweitens schlagen wir vor, eine solche Personalisierung ohne explizite menschliche Überwachung zu erlernen. Unser Ansatz identifiziert automatisch Momente benannter visueller Instanzen in Videos mithilfe von Transkripten und der Vision-Sprach-Ähnlichkeit im Einbettungsraum des VLM. Schließlich führen wir This-Is-My, einen Benchmark für die personalisierte Videoinstanzsuche, ein. Wir evaluieren unseren Ansatz auf This-Is-My und DeepFashion2 und zeigen, dass wir eine relative Verbesserung von 15 % gegenüber dem Stand der Technik auf dem letzteren Datensatz erzielen.

Multitrack-Musiktranskription mit einem Zeit-Frequenz-Perceiver
Multitrack Music Transcription with a Time-Frequency Perceiver

Jun 19, 2023

Wei-Tsung Lu, Ju-Chiang Wang, Yun-Ning Hung

Die Mehrspur-Musiktranskription zielt darauf ab, ein Musik-Audio-Eingangssignal gleichzeitig in die musikalischen Noten mehrerer Instrumente zu transkribieren. Es handelt sich um eine äußerst anspruchsvolle Aufgabe, die in der Regel ein komplexeres Modell erfordert, um zufriedenstellende Ergebnisse zu erzielen. Darüber hinaus konzentrieren sich frühere Arbeiten meist auf die Transkription von Standardinstrumenten, vernachlässigen jedoch die Gesangsstimmen, die in der Regel die wichtigste Signalquelle darstellen, wenn sie in einem Musikstück vorhanden sind. In diesem Artikel schlagen wir eine neuartige Deep-Neural-Network-Architektur, Perceiver TF, vor, um die Zeit-Frequenz-Darstellung des Audio-Eingangssignals für die Mehrspur-Transkription zu modellieren. Perceiver TF erweitert die Perceiver-Architektur durch die Einführung einer hierarchischen Erweiterung mit einer zusätzlichen Transformer-Schicht, um die zeitliche Kohärenz zu modellieren. Dementsprechend erbt unser Modell die Vorteile von Perceiver, die eine bessere Skalierbarkeit bieten, wodurch es in der Lage ist, die Transkription vieler Instrumente in einem einzigen Modell gut zu bewältigen. In den Experimenten trainieren wir einen Perceiver TF, um 12 Instrumentenklassen sowie Gesang in einem Multi-Task-Learning-Ansatz zu modellieren. Unsere Ergebnisse zeigen, dass das vorgeschlagene System auf verschiedenen öffentlichen Datensätzen die state-of-the-art Gegenstücke (z. B. MT3 und SpecTNT) übertrifft.

Leitfaden für Sprachmodelle von Code mit globalem Kontext durch die Verwendung von Monitoren
Guiding Language Models of Code with Global Context using Monitors

Jun 19, 2023

Lakshya A Agrawal, Aditya Kanade, Navin Goyal, Shuvendu K. Lahiri, Sriram K. Rajamani

Tägliche Papers

Lehrbücher sind alles, was Sie brauchen.
Textbooks Are All You Need

MotionGPT: Feinabgestimmte LLMs sind universelle Bewegungsgeneratoren
MotionGPT: Finetuned LLMs are General-Purpose Motion Generators

HomeRobot: Open-Vocabulary Mobile Manipulation
HomeRobot: Open-Vocabulary Mobile Manipulation

RepoFusion: Training von Code-Modellen zur Verständnisbildung Ihres Repositorys
RepoFusion: Training Code Models to Understand Your Repository

Punktwolken-Vervollständigung mit vortrainierten Text-zu-Bild-Diffusionsmodellen
Point-Cloud Completion with Pretrained Text-to-image Diffusion Models

Diffusion mit Vorwärtsmodellen: Lösung stochastischer inverser Probleme ohne direkte Überwachung
Diffusion with Forward Models: Solving Stochastic Inverse Problems Without Direct Supervision

RoboCat: Ein selbstverbessernder Basissystem-Agent für robotische Manipulation
RoboCat: A Self-Improving Foundation Agent for Robotic Manipulation

BayLing: Überbrückung von Cross-lingualer Ausrichtung und Instruktionsbefolgung durch interaktive Übersetzung für große Sprachmodelle
BayLing: Bridging Cross-lingual Alignment and Instruction Following through Interactive Translation for Large Language Models

Leitfaden für Sprachmodelle von Code mit globalem Kontext durch die Verwendung von Monitoren
Guiding Language Models of Code with Global Context using Monitors

GLIMMER: Generalisierter Late-Interaction-Memory-Reranker
GLIMMER: generalized late-interaction memory reranker

Meta-Personalisierung von Vision-Sprach-Modellen zur Identifizierung benannter Instanzen in Videos
Meta-Personalizing Vision-Language Models to Find Named Instances in Video

Multitrack-Musiktranskription mit einem Zeit-Frequenz-Perceiver
Multitrack Music Transcription with a Time-Frequency Perceiver

Support

Support

Tägliche Papers

Lehrbücher sind alles, was Sie brauchen.
Textbooks Are All You Need

MotionGPT: Feinabgestimmte LLMs sind universelle Bewegungsgeneratoren
MotionGPT: Finetuned LLMs are General-Purpose Motion Generators

HomeRobot: Open-Vocabulary Mobile Manipulation
HomeRobot: Open-Vocabulary Mobile Manipulation

RepoFusion: Training von Code-Modellen zur Verständnisbildung Ihres Repositorys
RepoFusion: Training Code Models to Understand Your Repository

Punktwolken-Vervollständigung mit vortrainierten Text-zu-Bild-Diffusionsmodellen
Point-Cloud Completion with Pretrained Text-to-image Diffusion Models

Diffusion mit Vorwärtsmodellen: Lösung stochastischer inverser Probleme ohne direkte Überwachung
Diffusion with Forward Models: Solving Stochastic Inverse Problems Without Direct Supervision

RoboCat: Ein selbstverbessernder Basissystem-Agent für robotische Manipulation
RoboCat: A Self-Improving Foundation Agent for Robotic Manipulation

BayLing: Überbrückung von Cross-lingualer Ausrichtung und Instruktionsbefolgung durch interaktive Übersetzung für große Sprachmodelle
BayLing: Bridging Cross-lingual Alignment and Instruction Following through Interactive Translation for Large Language Models

Leitfaden für Sprachmodelle von Code mit globalem Kontext durch die Verwendung von Monitoren
Guiding Language Models of Code with Global Context using Monitors

GLIMMER: Generalisierter Late-Interaction-Memory-Reranker
GLIMMER: generalized late-interaction memory reranker

Meta-Personalisierung von Vision-Sprach-Modellen zur Identifizierung benannter Instanzen in Videos
Meta-Personalizing Vision-Language Models to Find Named Instances in Video

Multitrack-Musiktranskription mit einem Zeit-Frequenz-Perceiver
Multitrack Music Transcription with a Time-Frequency Perceiver