Tägliche Papers

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

Empfehlungssysteme mit generativem Retrieval
Recommender Systems with Generative Retrieval

May 8, 2023

Shashank Rajput, Nikhil Mehta, Anima Singh, Raghunandan H. Keshavan, Trung Vu, Lukasz Heldt, Lichan Hong, Yi Tay, Vinh Q. Tran, Jonah Samost, Maciej Kula, Ed H. Chi, Maheswaran Sathiamoorthy

Moderne Empfehlungssysteme nutzen großskalige Retrieval-Modelle, die aus zwei Phasen bestehen: dem Training eines Dual-Encoder-Modells, um Anfragen und Kandidaten in denselben Raum einzubetten, gefolgt von einer Approximate Nearest Neighbor (ANN)-Suche, um die besten Kandidaten basierend auf der Einbettung einer Anfrage auszuwählen. In diesem Artikel schlagen wir ein neues einstufiges Paradigma vor: ein generatives Retrieval-Modell, das die Identifikatoren für die Zielkandidaten in einer Phase autoregressiv dekodiert. Hierbei werden anstelle von zufällig generierten atomaren IDs für jedes Element sogenannte Semantic IDs erzeugt: ein semantisch bedeutungsvolles Tupel von Codewörtern für jedes Element, das als dessen eindeutiger Identifikator dient. Zur Generierung dieser Codewörter verwenden wir eine hierarchische Methode namens RQ-VAE. Sobald die Semantic IDs für alle Elemente vorliegen, wird ein Transformer-basiertes Sequenz-zu-Sequenz-Modell trainiert, um die Semantic ID des nächsten Elements vorherzusagen. Da dieses Modell das Tupel der Codewörter, das das nächste Element identifiziert, direkt auf autoregressive Weise vorhersagt, kann es als generatives Retrieval-Modell betrachtet werden. Wir zeigen, dass unser in diesem neuen Paradigma trainiertes Empfehlungssystem die Ergebnisse aktueller State-of-the-Art-Modelle auf dem Amazon-Datensatz verbessert. Darüber hinaus demonstrieren wir, dass das Sequenz-zu-Sequenz-Modell in Kombination mit hierarchischen Semantic IDs eine bessere Generalisierung bietet und somit das Retrieval von Cold-Start-Elementen für Empfehlungen verbessert.

Komprimieren oder nicht komprimieren – Selbstüberwachtes Lernen und Informationstheorie: Ein Überblick
To Compress or Not to Compress- Self-Supervised Learning and Information Theory: A Review

Apr 19, 2023

Ravid Shwartz-Ziv, Yann LeCun

Tiefe neuronale Netze haben bemerkenswerte Leistungen bei überwachten Lernaufgaben gezeigt, benötigen jedoch große Mengen an gelabelten Daten. Selbstüberwachtes Lernen bietet ein alternatives Paradigma, das es dem Modell ermöglicht, aus Daten ohne explizite Labels zu lernen. Die Informationstheorie hat eine entscheidende Rolle beim Verständnis und der Optimierung tiefer neuronaler Netze gespielt. Insbesondere das Prinzip des Informationsengpasses wurde angewendet, um den Kompromiss zwischen Kompression und der Erhaltung relevanter Informationen in überwachten Settings zu optimieren. Das optimale Informationsziel beim selbstüberwachten Lernen bleibt jedoch unklar. In diesem Artikel betrachten wir verschiedene Ansätze zum selbstüberwachten Lernen aus einer informationstheoretischen Perspektive und präsentieren einen einheitlichen Rahmen, der das informationstheoretische Lernproblem des selbstüberwachten Lernens formalisiert. Wir integrieren bestehende Forschung in einen kohärenten Rahmen, untersuchen aktuelle Methoden des selbstüberwachten Lernens und identifizieren Forschungsmöglichkeiten und Herausforderungen. Darüber hinaus diskutieren wir die empirische Messung informationstheoretischer Größen und deren Schätzer. Dieser Artikel bietet eine umfassende Übersicht über die Schnittstelle zwischen Informationstheorie, selbstüberwachtem Lernen und tiefen neuronalen Netzen.

Sind ChatGPT und GPT-4 universelle Lösungsansätze für die Textanalyse im Finanzbereich? Eine Untersuchung anhand mehrerer typischer Aufgaben
Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? An Examination on Several Typical Tasks

May 10, 2023

Xianzhi Li, Xiaodan Zhu, Zhiqiang Ma, Xiaomo Liu, Sameena Shah

Die jüngsten großen Sprachmodelle wie ChatGPT und GPT-4 haben erhebliche Aufmerksamkeit erregt, da sie in der Lage sind, hochwertige Antworten auf menschliche Eingaben zu generieren. Obwohl ChatGPT und GPT-4 umfangreich auf generischen Textkorpora getestet wurden und dabei ihre beeindruckenden Fähigkeiten unter Beweis gestellt haben, wurde bisher keine Studie durchgeführt, die sich auf Finanzkorpora konzentriert. In dieser Studie wollen wir diese Lücke schließen, indem wir das Potenzial von ChatGPT und GPT-4 als Lösungsansatz für typische Probleme der Finanztextanalyse im Zero-Shot- oder Few-Shot-Setting untersuchen. Konkret bewerten wir ihre Fähigkeiten anhand von vier repräsentativen Aufgaben über fünf verschiedene Finanztextdatensätze. Die vorläufige Studie zeigt, dass ChatGPT und GPT-4 bei Aufgaben wie der Erkennung finanzieller benannter Entitäten (NER) und der Sentimentanalyse, bei denen domänenspezifisches Wissen erforderlich ist, Schwierigkeiten haben, während sie bei numerischen Denkaufgaben hervorragende Leistungen erbringen. Wir berichten sowohl über die Stärken als auch die Grenzen der aktuellen Versionen von ChatGPT und GPT-4 und vergleichen sie mit state-of-the-art feinabgestimmten Modellen sowie vortrainierten domänenspezifischen generativen Modellen. Unsere Experimente liefern qualitative Studien, durch die wir hoffen, die Fähigkeiten der bestehenden Modelle besser zu verstehen und weitere Verbesserungen zu fördern.

AudioSlots: Ein Slot-zentriertes generatives Modell für die Audiotrennung
AudioSlots: A slot-centric generative model for audio separation

May 9, 2023

Pradyumna Reddy, Scott Wisdom, Klaus Greff, John R. Hershey, Thomas Kipf

In einer Reihe aktueller Arbeiten haben sich objektzentrierte Architekturen als geeignet für die unüberwachte Szenenzerlegung im visuellen Bereich erwiesen. Inspiriert von diesen Methoden präsentieren wir AudioSlots, ein slot-zentriertes generatives Modell für die blinde Quellentrennung im Audiobereich. AudioSlots basiert auf permutationsäquivarianten Encoder- und Decoder-Netzwerken. Das auf der Transformer-Architektur basierende Encoder-Netzwerk lernt, ein gemischtes Audiospektrum auf eine ungeordnete Menge unabhängiger Quellen-Embeddings abzubilden. Das räumliche Broadcast-Decoder-Netzwerk lernt, die Quellenspektren aus den Quellen-Embeddings zu generieren. Wir trainieren das Modell end-to-end unter Verwendung einer permutationsinvarianten Verlustfunktion. Unsere Ergebnisse zur Sprachseparation mit Libri2Mix stellen einen Machbarkeitsnachweis dar, dass dieser Ansatz vielversprechend ist. Wir diskutieren die Ergebnisse und Grenzen unseres Ansatzes detailliert und skizzieren zudem potenzielle Wege zur Überwindung der Grenzen sowie Richtungen für zukünftige Arbeiten.

Relightify: Beleuchtbare 3D-Gesichter aus einem einzelnen Bild mittels Diffusionsmodellen
Relightify: Relightable 3D Faces from a Single Image via Diffusion Models

May 10, 2023

Foivos Paraperas Papantoniou, Alexandros Lattas, Stylianos Moschoglou, Stefanos Zafeiriou

Nach dem bemerkenswerten Erfolg von Diffusionsmodellen bei der Bildgenerierung haben neuere Arbeiten auch ihre beeindruckende Fähigkeit gezeigt, eine Reihe von inversen Problemen auf unüberwachte Weise zu lösen, indem der Sampling-Prozess basierend auf einem konditionierenden Eingabewert entsprechend eingeschränkt wird. Motiviert durch diese Erkenntnisse präsentieren wir in diesem Artikel den ersten Ansatz, der Diffusionsmodelle als Prior für die hochpräzise 3D-Rekonstruktion des Gesichts-BRDFs aus einem einzelnen Bild verwendet. Wir beginnen mit der Nutzung eines hochwertigen UV-Datensatzes von Gesichtsreflektanz (diffuse und spekulare Albedo sowie Normalen), den wir unter variierenden Beleuchtungseinstellungen rendern, um natürliche RGB-Texturen zu simulieren, und trainieren dann ein unbedingtes Diffusionsmodell auf verketteten Paaren von gerenderten Texturen und Reflektanzkomponenten. Zum Testzeitpunkt passen wir ein 3D-Morphable-Modell an das gegebene Bild an und entfalten das Gesicht in einer partiellen UV-Textur. Durch das Sampling aus dem Diffusionsmodell, während der beobachtete Texturteil intakt bleibt, füllt das Modell nicht nur die selbstverdeckten Bereiche, sondern auch die unbekannten Reflektanzkomponenten in einer einzigen Sequenz von Denoising-Schritten aus. Im Gegensatz zu bestehenden Methoden erwerben wir die beobachtete Textur direkt aus dem Eingabebild, was zu einer treueren und konsistenteren Reflektanzschätzung führt. Durch eine Reihe von qualitativen und quantitativen Vergleichen demonstrieren wir eine überlegene Leistung sowohl bei der Texturvervollständigung als auch bei der Reflektanzrekonstruktion.

Sketching the Future (STF): Anwendung von bedingten Kontrolltechniken auf Text-zu-Video-Modelle
Sketching the Future (STF): Applying Conditional Control Techniques to Text-to-Video Models

May 10, 2023

Rohan Dhesikan, Vignesh Rajmohan

Die zunehmende Verbreitung von Videoinhalten erfordert effiziente und flexible neuronale Netzwerkansätze zur Generierung neuer Videoinhalte. In diesem Artikel schlagen wir einen neuartigen Ansatz vor, der Zero-Shot-Text-zu-Video-Generierung mit ControlNet kombiniert, um die Ausgabe dieser Modelle zu verbessern. Unsere Methode nimmt mehrere skizzierte Frames als Eingabe und erzeugt eine Videoausgabe, die dem Fluss dieser Frames entspricht. Sie baut auf der Text-to-Video-Zero-Architektur auf und integriert ControlNet, um zusätzliche Eingabebedingungen zu ermöglichen. Indem wir zunächst Frames zwischen den eingegebenen Skizzen interpolieren und dann Text-to-Video Zero unter Verwendung des neuen interpolierten Frames-Videos als Kontrolltechnik ausführen, nutzen wir die Vorteile sowohl der Zero-Shot-Text-zu-Video-Generierung als auch der robusten Kontrolle durch ControlNet. Experimente zeigen, dass unsere Methode hochwertige und bemerkenswert konsistente Videoinhalte erzeugt, die die vom Benutzer beabsichtigte Bewegung des Subjekts im Video genauer widerspiegeln. Wir stellen ein umfassendes Ressourcenpaket zur Verfügung, einschließlich eines Demo-Videos, einer Projektwebsite, eines Open-Source-GitHub-Repositorys und eines Colab-Playgrounds, um weitere Forschung und Anwendung unseres vorgeschlagenen Ansatzes zu fördern.

TidyBot: Personalisierte Roboterassistenz mit großen Sprachmodellen
TidyBot: Personalized Robot Assistance with Large Language Models

May 9, 2023

Jimmy Wu, Rika Antonova, Adam Kan, Marion Lepert, Andy Zeng, Shuran Song, Jeannette Bohg, Szymon Rusinkiewicz, Thomas Funkhouser

Damit ein Roboter physische Unterstützung effektiv personalisieren kann, muss er Benutzerpräferenzen erlernen, die allgemein auf zukünftige Szenarien übertragen werden können. In dieser Arbeit untersuchen wir die Personalisierung der Haushaltsaufräumarbeit mit Robotern, die Räume aufräumen können, indem sie Gegenstände aufheben und wegräumen. Eine zentrale Herausforderung besteht darin, den richtigen Platz für jeden Gegenstand zu bestimmen, da die Präferenzen der Menschen je nach persönlichem Geschmack oder kulturellem Hintergrund stark variieren können. Zum Beispiel könnte eine Person es vorziehen, Hemden in der Schublade aufzubewahren, während eine andere sie lieber im Regal verstaut. Unser Ziel ist es, Systeme zu entwickeln, die solche Präferenzen aus nur wenigen Beispielen durch vorherige Interaktionen mit einer bestimmten Person erlernen können. Wir zeigen, dass Roboter sprachbasierte Planung und Wahrnehmung mit den Few-Shot-Zusammenfassungsfähigkeiten von großen Sprachmodellen (LLMs) kombinieren können, um generalisierte Benutzerpräferenzen abzuleiten, die breit auf zukünftige Interaktionen anwendbar sind. Dieser Ansatz ermöglicht eine schnelle Anpassung und erreicht eine Genauigkeit von 91,2 % bei unbekannten Objekten in unserem Benchmark-Datensatz. Wir demonstrieren unseren Ansatz auch an einem realen mobilen Manipulator namens TidyBot, der in realen Testszenarien erfolgreich 85,0 % der Objekte wegräumt.

Große Sprachmodellprogramme
Large Language Model Programs

May 9, 2023

Imanol Schlag, Sainbayar Sukhbaatar, Asli Celikyilmaz, Wen-tau Yih, Jason Weston, Jürgen Schmidhuber, Xian Li

In den letzten Jahren haben große vortrainierte Sprachmodelle (LLMs) die Fähigkeit gezeigt, Anweisungen zu befolgen und neue Aufgaben anhand weniger Beispiele auszuführen. Die Möglichkeit, ein LLM durch solche In-Context-Beispiele zu parametrisieren, erweitert dessen Fähigkeiten bei deutlich geringeren Kosten als das Feinabstimmen. Wir erweitern diese Argumentationslinie und präsentieren eine Methode, die die Fähigkeiten eines LLMs weiter ausbaut, indem es in einen Algorithmus oder ein Programm eingebettet wird. Um die Vorteile dieses Ansatzes zu demonstrieren, präsentieren wir ein anschauliches Beispiel für evidenzgestütztes Frage-Antworten. Wir erzielen eine Verbesserung von 6,4 % gegenüber der Chain-of-Thought-Baseline durch einen stärker algorithmischen Ansatz ohne jegliches Feinabstimmen. Darüber hinaus beleuchten wir aktuelle Arbeiten aus dieser Perspektive und diskutieren die Vor- und Nachteile im Vergleich zu den Standardansätzen.

NerfAcc: Effizientes Sampling beschleunigt NeRFs
NerfAcc: Efficient Sampling Accelerates NeRFs

May 8, 2023

Ruilong Li, Hang Gao, Matthew Tancik, Angjoo Kanazawa

Die Optimierung und Darstellung von Neural Radiance Fields (NeRF) ist aufgrund der großen Anzahl von Samples, die für das Volumen-Rendering erforderlich sind, rechenintensiv. Neuere Arbeiten haben alternative Sampling-Ansätze eingeführt, um ihre Methoden zu beschleunigen, jedoch stehen diese oft nicht im Fokus der Arbeit. In diesem Papier untersuchen und vergleichen wir mehrere Sampling-Ansätze und zeigen, dass verbessertes Sampling allgemein auf NeRF-Varianten anwendbar ist, unter einem einheitlichen Konzept des Transmittanz-Schätzers. Um zukünftige Experimente zu erleichtern, entwickeln wir NerfAcc, ein Python-Toolkit, das flexible APIs für die Integration fortgeschrittener Sampling-Methoden in NeRF-bezogene Methoden bereitstellt. Wir demonstrieren seine Flexibilität, indem wir zeigen, dass es die Trainingszeit mehrerer aktueller NeRF-Methoden um das 1,5- bis 20-fache reduzieren kann, mit minimalen Änderungen am bestehenden Code. Darüber hinaus können hochgradig angepasste NeRFs, wie Instant-NGP, mit NerfAcc in nativem PyTorch implementiert werden.

Code-Ausführung mit vortrainierten Sprachmodellen
Code Execution with Pre-trained Language Models

May 8, 2023

Chenxiao Liu, Shuai Lu, Weizhu Chen, Daxin Jiang, Alexey Svyatkovskiy, Shengyu Fu, Neel Sundaresan, Nan Duan

Die Code-Ausführung ist ein grundlegender Aspekt der Semantik von Programmiersprachen, der das genaue Verhalten des Codes widerspiegelt. Die meisten vortrainierten Modelle für Code-Intelligenz ignorieren jedoch den Ausführungsverlauf und verlassen sich ausschließlich auf den Quellcode und syntaktische Strukturen. In diesem Artikel untersuchen wir, wie gut vortrainierte Modelle die Code-Ausführung verstehen und durchführen können. Wir entwickeln eine mutbasierte Datenaugmentationsmethode, um einen umfangreichen und realistischen Python-Datensatz und eine Aufgabe für die Code-Ausführung zu erstellen, die bestehende Modelle wie Codex herausfordert. Anschließend stellen wir CodeExecutor vor, ein Transformer-Modell, das Code-Ausführungs-Vortraining und Curriculum-Learning nutzt, um sein semantisches Verständnis zu verbessern. Wir evaluieren CodeExecutor hinsichtlich der Code-Ausführung und zeigen seine vielversprechende Leistung sowie seine Grenzen auf. Darüber hinaus demonstrieren wir seine potenziellen Vorteile für Code-Intelligenz-Aufgaben wie Zero-Shot-Code-zu-Code-Suche und Text-zu-Code-Generierung. Unsere Analyse liefert Einblicke in die Lern- und Generalisierungsfähigkeiten vortrainierter Modelle für die Code-Ausführung.

WikiWeb2M: Ein seitenbasiertes multimodales Wikipedia-Datenset
WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset

May 9, 2023

Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo

Webseiten stellen eine reichhaltige Ressource für Sprach- und Vision-Sprach-Aufgaben dar. Bisher wurden jedoch nur Teile von Webseiten gespeichert: Bild-Beschriftungs-Paare, lange Textartikel oder rohes HTML, jedoch nie alles an einem Ort. Infolgedessen haben Webseiten-Aufgaben wenig Aufmerksamkeit erhalten, und strukturierte Bild-Text-Daten wurden untergenutzt. Um das multimodale Verständnis von Webseiten zu untersuchen, führen wir die Wikipedia Webpage 2M (WikiWeb2M) Suite ein; die erste, die den vollständigen Satz von Bildern, Texten und Strukturdaten einer Seite beibehält. WikiWeb2M kann für Aufgaben wie die Generierung von Seitenbeschreibungen, die Zusammenfassung von Abschnitten und die kontextbezogene Bildbeschriftung verwendet werden.

Tägliche Papers

Empfehlungssysteme mit generativem Retrieval
Recommender Systems with Generative Retrieval

Komprimieren oder nicht komprimieren – Selbstüberwachtes Lernen und Informationstheorie: Ein Überblick
To Compress or Not to Compress- Self-Supervised Learning and Information Theory: A Review

Sind ChatGPT und GPT-4 universelle Lösungsansätze für die Textanalyse im Finanzbereich? Eine Untersuchung anhand mehrerer typischer Aufgaben
Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? An Examination on Several Typical Tasks

AudioSlots: Ein Slot-zentriertes generatives Modell für die Audiotrennung
AudioSlots: A slot-centric generative model for audio separation

Relightify: Beleuchtbare 3D-Gesichter aus einem einzelnen Bild mittels Diffusionsmodellen
Relightify: Relightable 3D Faces from a Single Image via Diffusion Models

Sketching the Future (STF): Anwendung von bedingten Kontrolltechniken auf Text-zu-Video-Modelle
Sketching the Future (STF): Applying Conditional Control Techniques to Text-to-Video Models

TidyBot: Personalisierte Roboterassistenz mit großen Sprachmodellen
TidyBot: Personalized Robot Assistance with Large Language Models

Große Sprachmodellprogramme
Large Language Model Programs

NerfAcc: Effizientes Sampling beschleunigt NeRFs
NerfAcc: Efficient Sampling Accelerates NeRFs

Code-Ausführung mit vortrainierten Sprachmodellen
Code Execution with Pre-trained Language Models

WikiWeb2M: Ein seitenbasiertes multimodales Wikipedia-Datenset
WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset

Support

Support

Tägliche Papers

Empfehlungssysteme mit generativem Retrieval
Recommender Systems with Generative Retrieval

Komprimieren oder nicht komprimieren – Selbstüberwachtes Lernen und Informationstheorie: Ein Überblick
To Compress or Not to Compress- Self-Supervised Learning and Information Theory: A Review

Sind ChatGPT und GPT-4 universelle Lösungsansätze für die Textanalyse im Finanzbereich? Eine Untersuchung anhand mehrerer typischer Aufgaben
Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? An Examination on Several Typical Tasks

AudioSlots: Ein Slot-zentriertes generatives Modell für die Audiotrennung
AudioSlots: A slot-centric generative model for audio separation

Relightify: Beleuchtbare 3D-Gesichter aus einem einzelnen Bild mittels Diffusionsmodellen
Relightify: Relightable 3D Faces from a Single Image via Diffusion Models

Sketching the Future (STF): Anwendung von bedingten Kontrolltechniken auf Text-zu-Video-Modelle
Sketching the Future (STF): Applying Conditional Control Techniques to Text-to-Video Models

TidyBot: Personalisierte Roboterassistenz mit großen Sprachmodellen
TidyBot: Personalized Robot Assistance with Large Language Models

Große Sprachmodellprogramme
Large Language Model Programs

NerfAcc: Effizientes Sampling beschleunigt NeRFs
NerfAcc: Efficient Sampling Accelerates NeRFs

Code-Ausführung mit vortrainierten Sprachmodellen
Code Execution with Pre-trained Language Models

WikiWeb2M: Ein seitenbasiertes multimodales Wikipedia-Datenset
WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset