Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Moderne Empfehlungssysteme nutzen großskalige Retrieval-Modelle, die aus zwei Phasen bestehen: dem Training eines Dual-Encoder-Modells, um Anfragen und Kandidaten in denselben Raum einzubetten, gefolgt von einer Approximate Nearest Neighbor (ANN)-Suche, um die besten Kandidaten basierend auf der Einbettung einer Anfrage auszuwählen. In diesem Artikel schlagen wir ein neues einstufiges Paradigma vor: ein generatives Retrieval-Modell, das die Identifikatoren für die Zielkandidaten in einer Phase autoregressiv dekodiert. Hierbei werden anstelle von zufällig generierten atomaren IDs für jedes Element sogenannte Semantic IDs erzeugt: ein semantisch bedeutungsvolles Tupel von Codewörtern für jedes Element, das als dessen eindeutiger Identifikator dient. Zur Generierung dieser Codewörter verwenden wir eine hierarchische Methode namens RQ-VAE. Sobald die Semantic IDs für alle Elemente vorliegen, wird ein Transformer-basiertes Sequenz-zu-Sequenz-Modell trainiert, um die Semantic ID des nächsten Elements vorherzusagen. Da dieses Modell das Tupel der Codewörter, das das nächste Element identifiziert, direkt auf autoregressive Weise vorhersagt, kann es als generatives Retrieval-Modell betrachtet werden. Wir zeigen, dass unser in diesem neuen Paradigma trainiertes Empfehlungssystem die Ergebnisse aktueller State-of-the-Art-Modelle auf dem Amazon-Datensatz verbessert. Darüber hinaus demonstrieren wir, dass das Sequenz-zu-Sequenz-Modell in Kombination mit hierarchischen Semantic IDs eine bessere Generalisierung bietet und somit das Retrieval von Cold-Start-Elementen für Empfehlungen verbessert.
Tiefe neuronale Netze haben bemerkenswerte Leistungen bei überwachten Lernaufgaben gezeigt, benötigen jedoch große Mengen an gelabelten Daten. Selbstüberwachtes Lernen bietet ein alternatives Paradigma, das es dem Modell ermöglicht, aus Daten ohne explizite Labels zu lernen. Die Informationstheorie hat eine entscheidende Rolle beim Verständnis und der Optimierung tiefer neuronaler Netze gespielt. Insbesondere das Prinzip des Informationsengpasses wurde angewendet, um den Kompromiss zwischen Kompression und der Erhaltung relevanter Informationen in überwachten Settings zu optimieren. Das optimale Informationsziel beim selbstüberwachten Lernen bleibt jedoch unklar. In diesem Artikel betrachten wir verschiedene Ansätze zum selbstüberwachten Lernen aus einer informationstheoretischen Perspektive und präsentieren einen einheitlichen Rahmen, der das informationstheoretische Lernproblem des selbstüberwachten Lernens formalisiert. Wir integrieren bestehende Forschung in einen kohärenten Rahmen, untersuchen aktuelle Methoden des selbstüberwachten Lernens und identifizieren Forschungsmöglichkeiten und Herausforderungen. Darüber hinaus diskutieren wir die empirische Messung informationstheoretischer Größen und deren Schätzer. Dieser Artikel bietet eine umfassende Übersicht über die Schnittstelle zwischen Informationstheorie, selbstüberwachtem Lernen und tiefen neuronalen Netzen.
Die jüngsten großen Sprachmodelle wie ChatGPT und GPT-4 haben erhebliche Aufmerksamkeit erregt, da sie in der Lage sind, hochwertige Antworten auf menschliche Eingaben zu generieren. Obwohl ChatGPT und GPT-4 umfangreich auf generischen Textkorpora getestet wurden und dabei ihre beeindruckenden Fähigkeiten unter Beweis gestellt haben, wurde bisher keine Studie durchgeführt, die sich auf Finanzkorpora konzentriert. In dieser Studie wollen wir diese Lücke schließen, indem wir das Potenzial von ChatGPT und GPT-4 als Lösungsansatz für typische Probleme der Finanztextanalyse im Zero-Shot- oder Few-Shot-Setting untersuchen. Konkret bewerten wir ihre Fähigkeiten anhand von vier repräsentativen Aufgaben über fünf verschiedene Finanztextdatensätze. Die vorläufige Studie zeigt, dass ChatGPT und GPT-4 bei Aufgaben wie der Erkennung finanzieller benannter Entitäten (NER) und der Sentimentanalyse, bei denen domänenspezifisches Wissen erforderlich ist, Schwierigkeiten haben, während sie bei numerischen Denkaufgaben hervorragende Leistungen erbringen. Wir berichten sowohl über die Stärken als auch die Grenzen der aktuellen Versionen von ChatGPT und GPT-4 und vergleichen sie mit state-of-the-art feinabgestimmten Modellen sowie vortrainierten domänenspezifischen generativen Modellen. Unsere Experimente liefern qualitative Studien, durch die wir hoffen, die Fähigkeiten der bestehenden Modelle besser zu verstehen und weitere Verbesserungen zu fördern.
In einer Reihe aktueller Arbeiten haben sich objektzentrierte Architekturen als geeignet für die unüberwachte Szenenzerlegung im visuellen Bereich erwiesen. Inspiriert von diesen Methoden präsentieren wir AudioSlots, ein slot-zentriertes generatives Modell für die blinde Quellentrennung im Audiobereich. AudioSlots basiert auf permutationsäquivarianten Encoder- und Decoder-Netzwerken. Das auf der Transformer-Architektur basierende Encoder-Netzwerk lernt, ein gemischtes Audiospektrum auf eine ungeordnete Menge unabhängiger Quellen-Embeddings abzubilden. Das räumliche Broadcast-Decoder-Netzwerk lernt, die Quellenspektren aus den Quellen-Embeddings zu generieren. Wir trainieren das Modell end-to-end unter Verwendung einer permutationsinvarianten Verlustfunktion. Unsere Ergebnisse zur Sprachseparation mit Libri2Mix stellen einen Machbarkeitsnachweis dar, dass dieser Ansatz vielversprechend ist. Wir diskutieren die Ergebnisse und Grenzen unseres Ansatzes detailliert und skizzieren zudem potenzielle Wege zur Überwindung der Grenzen sowie Richtungen für zukünftige Arbeiten.
Nach dem bemerkenswerten Erfolg von Diffusionsmodellen bei der Bildgenerierung haben neuere Arbeiten auch ihre beeindruckende Fähigkeit gezeigt, eine Reihe von inversen Problemen auf unüberwachte Weise zu lösen, indem der Sampling-Prozess basierend auf einem konditionierenden Eingabewert entsprechend eingeschränkt wird. Motiviert durch diese Erkenntnisse präsentieren wir in diesem Artikel den ersten Ansatz, der Diffusionsmodelle als Prior für die hochpräzise 3D-Rekonstruktion des Gesichts-BRDFs aus einem einzelnen Bild verwendet. Wir beginnen mit der Nutzung eines hochwertigen UV-Datensatzes von Gesichtsreflektanz (diffuse und spekulare Albedo sowie Normalen), den wir unter variierenden Beleuchtungseinstellungen rendern, um natürliche RGB-Texturen zu simulieren, und trainieren dann ein unbedingtes Diffusionsmodell auf verketteten Paaren von gerenderten Texturen und Reflektanzkomponenten. Zum Testzeitpunkt passen wir ein 3D-Morphable-Modell an das gegebene Bild an und entfalten das Gesicht in einer partiellen UV-Textur. Durch das Sampling aus dem Diffusionsmodell, während der beobachtete Texturteil intakt bleibt, füllt das Modell nicht nur die selbstverdeckten Bereiche, sondern auch die unbekannten Reflektanzkomponenten in einer einzigen Sequenz von Denoising-Schritten aus. Im Gegensatz zu bestehenden Methoden erwerben wir die beobachtete Textur direkt aus dem Eingabebild, was zu einer treueren und konsistenteren Reflektanzschätzung führt. Durch eine Reihe von qualitativen und quantitativen Vergleichen demonstrieren wir eine überlegene Leistung sowohl bei der Texturvervollständigung als auch bei der Reflektanzrekonstruktion.
Die zunehmende Verbreitung von Videoinhalten erfordert effiziente und flexible neuronale Netzwerkansätze zur Generierung neuer Videoinhalte. In diesem Artikel schlagen wir einen neuartigen Ansatz vor, der Zero-Shot-Text-zu-Video-Generierung mit ControlNet kombiniert, um die Ausgabe dieser Modelle zu verbessern. Unsere Methode nimmt mehrere skizzierte Frames als Eingabe und erzeugt eine Videoausgabe, die dem Fluss dieser Frames entspricht. Sie baut auf der Text-to-Video-Zero-Architektur auf und integriert ControlNet, um zusätzliche Eingabebedingungen zu ermöglichen. Indem wir zunächst Frames zwischen den eingegebenen Skizzen interpolieren und dann Text-to-Video Zero unter Verwendung des neuen interpolierten Frames-Videos als Kontrolltechnik ausführen, nutzen wir die Vorteile sowohl der Zero-Shot-Text-zu-Video-Generierung als auch der robusten Kontrolle durch ControlNet. Experimente zeigen, dass unsere Methode hochwertige und bemerkenswert konsistente Videoinhalte erzeugt, die die vom Benutzer beabsichtigte Bewegung des Subjekts im Video genauer widerspiegeln. Wir stellen ein umfassendes Ressourcenpaket zur Verfügung, einschließlich eines Demo-Videos, einer Projektwebsite, eines Open-Source-GitHub-Repositorys und eines Colab-Playgrounds, um weitere Forschung und Anwendung unseres vorgeschlagenen Ansatzes zu fördern.
Damit ein Roboter physische Unterstützung effektiv personalisieren kann, muss er Benutzerpräferenzen erlernen, die allgemein auf zukünftige Szenarien übertragen werden können. In dieser Arbeit untersuchen wir die Personalisierung der Haushaltsaufräumarbeit mit Robotern, die Räume aufräumen können, indem sie Gegenstände aufheben und wegräumen. Eine zentrale Herausforderung besteht darin, den richtigen Platz für jeden Gegenstand zu bestimmen, da die Präferenzen der Menschen je nach persönlichem Geschmack oder kulturellem Hintergrund stark variieren können. Zum Beispiel könnte eine Person es vorziehen, Hemden in der Schublade aufzubewahren, während eine andere sie lieber im Regal verstaut. Unser Ziel ist es, Systeme zu entwickeln, die solche Präferenzen aus nur wenigen Beispielen durch vorherige Interaktionen mit einer bestimmten Person erlernen können. Wir zeigen, dass Roboter sprachbasierte Planung und Wahrnehmung mit den Few-Shot-Zusammenfassungsfähigkeiten von großen Sprachmodellen (LLMs) kombinieren können, um generalisierte Benutzerpräferenzen abzuleiten, die breit auf zukünftige Interaktionen anwendbar sind. Dieser Ansatz ermöglicht eine schnelle Anpassung und erreicht eine Genauigkeit von 91,2 % bei unbekannten Objekten in unserem Benchmark-Datensatz. Wir demonstrieren unseren Ansatz auch an einem realen mobilen Manipulator namens TidyBot, der in realen Testszenarien erfolgreich 85,0 % der Objekte wegräumt.
In den letzten Jahren haben große vortrainierte Sprachmodelle (LLMs) die Fähigkeit gezeigt, Anweisungen zu befolgen und neue Aufgaben anhand weniger Beispiele auszuführen. Die Möglichkeit, ein LLM durch solche In-Context-Beispiele zu parametrisieren, erweitert dessen Fähigkeiten bei deutlich geringeren Kosten als das Feinabstimmen. Wir erweitern diese Argumentationslinie und präsentieren eine Methode, die die Fähigkeiten eines LLMs weiter ausbaut, indem es in einen Algorithmus oder ein Programm eingebettet wird. Um die Vorteile dieses Ansatzes zu demonstrieren, präsentieren wir ein anschauliches Beispiel für evidenzgestütztes Frage-Antworten. Wir erzielen eine Verbesserung von 6,4 % gegenüber der Chain-of-Thought-Baseline durch einen stärker algorithmischen Ansatz ohne jegliches Feinabstimmen. Darüber hinaus beleuchten wir aktuelle Arbeiten aus dieser Perspektive und diskutieren die Vor- und Nachteile im Vergleich zu den Standardansätzen.
Die Optimierung und Darstellung von Neural Radiance Fields (NeRF) ist aufgrund der großen Anzahl von Samples, die für das Volumen-Rendering erforderlich sind, rechenintensiv. Neuere Arbeiten haben alternative Sampling-Ansätze eingeführt, um ihre Methoden zu beschleunigen, jedoch stehen diese oft nicht im Fokus der Arbeit. In diesem Papier untersuchen und vergleichen wir mehrere Sampling-Ansätze und zeigen, dass verbessertes Sampling allgemein auf NeRF-Varianten anwendbar ist, unter einem einheitlichen Konzept des Transmittanz-Schätzers. Um zukünftige Experimente zu erleichtern, entwickeln wir NerfAcc, ein Python-Toolkit, das flexible APIs für die Integration fortgeschrittener Sampling-Methoden in NeRF-bezogene Methoden bereitstellt. Wir demonstrieren seine Flexibilität, indem wir zeigen, dass es die Trainingszeit mehrerer aktueller NeRF-Methoden um das 1,5- bis 20-fache reduzieren kann, mit minimalen Änderungen am bestehenden Code. Darüber hinaus können hochgradig angepasste NeRFs, wie Instant-NGP, mit NerfAcc in nativem PyTorch implementiert werden.
Die Code-Ausführung ist ein grundlegender Aspekt der Semantik von Programmiersprachen, der das genaue Verhalten des Codes widerspiegelt. Die meisten vortrainierten Modelle für Code-Intelligenz ignorieren jedoch den Ausführungsverlauf und verlassen sich ausschließlich auf den Quellcode und syntaktische Strukturen. In diesem Artikel untersuchen wir, wie gut vortrainierte Modelle die Code-Ausführung verstehen und durchführen können. Wir entwickeln eine mutbasierte Datenaugmentationsmethode, um einen umfangreichen und realistischen Python-Datensatz und eine Aufgabe für die Code-Ausführung zu erstellen, die bestehende Modelle wie Codex herausfordert. Anschließend stellen wir CodeExecutor vor, ein Transformer-Modell, das Code-Ausführungs-Vortraining und Curriculum-Learning nutzt, um sein semantisches Verständnis zu verbessern. Wir evaluieren CodeExecutor hinsichtlich der Code-Ausführung und zeigen seine vielversprechende Leistung sowie seine Grenzen auf. Darüber hinaus demonstrieren wir seine potenziellen Vorteile für Code-Intelligenz-Aufgaben wie Zero-Shot-Code-zu-Code-Suche und Text-zu-Code-Generierung. Unsere Analyse liefert Einblicke in die Lern- und Generalisierungsfähigkeiten vortrainierter Modelle für die Code-Ausführung.
Webseiten stellen eine reichhaltige Ressource für Sprach- und Vision-Sprach-Aufgaben dar. Bisher wurden jedoch nur Teile von Webseiten gespeichert: Bild-Beschriftungs-Paare, lange Textartikel oder rohes HTML, jedoch nie alles an einem Ort. Infolgedessen haben Webseiten-Aufgaben wenig Aufmerksamkeit erhalten, und strukturierte Bild-Text-Daten wurden untergenutzt. Um das multimodale Verständnis von Webseiten zu untersuchen, führen wir die Wikipedia Webpage 2M (WikiWeb2M) Suite ein; die erste, die den vollständigen Satz von Bildern, Texten und Strukturdaten einer Seite beibehält. WikiWeb2M kann für Aufgaben wie die Generierung von Seitenbeschreibungen, die Zusammenfassung von Abschnitten und die kontextbezogene Bildbeschriftung verwendet werden.