Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die BigCode-Community, eine offene wissenschaftliche Zusammenarbeit, die sich mit der verantwortungsvollen Entwicklung von Large Language Models für Code (Code LLMs) beschäftigt, stellt StarCoder und StarCoderBase vor: Modelle mit 15,5 Milliarden Parametern, einer Kontextlänge von 8K, Infilling-Fähigkeiten und schneller Inferenz bei großen Batch-Größen, ermöglicht durch Multi-Query-Attention. StarCoderBase wurde auf 1 Billion Tokens trainiert, die aus The Stack stammen, einer umfangreichen Sammlung von GitHub-Repositories mit permissiven Lizenzen, die mit Inspektionswerkzeugen und einem Opt-out-Prozess ausgestattet sind. Wir haben StarCoderBase auf 35 Milliarden Python-Tokens feinabgestimmt, was zur Entwicklung von StarCoder führte. Wir führen die bisher umfassendste Bewertung von Code LLMs durch und zeigen, dass StarCoderBase jedes offene Code LLM, das mehrere Programmiersprachen unterstützt, übertrifft und mit dem OpenAI-Modell code-cushman-001 gleichzieht oder es übertrifft. Darüber hinaus übertrifft StarCoder jedes Modell, das auf Python feinabgestimmt ist, kann so gepromptet werden, dass es 40\% pass@1 auf HumanEval erreicht, und behält dennoch seine Leistung bei anderen Programmiersprachen bei. Wir unternehmen mehrere wichtige Schritte in Richtung einer sicheren Open-Access-Modellfreigabe, darunter eine verbesserte PII-Redaktionspipeline und ein neuartiges Attributionsverfolgungstool, und stellen die StarCoder-Modelle unter einer kommerziell tragfähigeren Version der Open Responsible AI Model-Lizenz öffentlich zur Verfügung.
In dieser Studie initiieren wir eine Untersuchung des Videoverständnisses durch die Einführung von VideoChat, einem end-to-end Chat-zentrierten Videoverständnissystem. Es integriert Video-Foundation-Modelle und große Sprachmodelle über eine lernbare neuronale Schnittstelle und zeichnet sich durch spatiotemporale Argumentation, Ereignislokalisierung und Kausalitätsinferenz aus. Um dieses System instruktiv zu optimieren, schlagen wir einen Video-zentrierten Instruktionsdatensatz vor, der aus Tausenden von Videos besteht, die mit detaillierten Beschreibungen und Konversationen verknüpft sind. Dieser Datensatz legt den Schwerpunkt auf spatiotemporale Argumentation und Kausalbeziehungen und stellt eine wertvolle Ressource für das Training von Chat-zentrierten Videoverständnissystemen dar. Vorläufige qualitative Experimente zeigen das Potenzial unseres Systems über ein breites Spektrum von Videoanwendungen hinweg und setzen den Standard für zukünftige Forschungen. Zugriff auf unseren Code und die Daten unter https://github.com/OpenGVLab/Ask-Anything.
Generative KI (AIGC, auch bekannt als KI-generierte Inhalte) hat in den letzten Jahren bemerkenswerte Fortschritte gemacht, wobei die textgesteuerte Inhaltsgenerierung die praktischste Anwendung darstellt, da sie die Interaktion zwischen menschlichen Anweisungen und AIGC ermöglicht. Durch die Entwicklungen in den Bereichen Text-zu-Bild sowie 3D-Modellierungstechnologien (wie NeRF) ist Text-zu-3D zu einem neu entstehenden, aber äußerst aktiven Forschungsgebiet geworden. Unsere Arbeit bietet die erste umfassende Übersicht über Text-zu-3D, um Leser, die an diesem Bereich interessiert sind, dabei zu unterstützen, schnell mit der rasanten Entwicklung Schritt zu halten. Zunächst führen wir 3D-Datenrepräsentationen ein, einschließlich sowohl euklidischer als auch nicht-euklidischer Daten. Darauf aufbauend stellen wir verschiedene Basistechnologien vor und fassen zusammen, wie aktuelle Arbeiten diese Basistechnologien kombinieren, um zufriedenstellende Text-zu-3D-Ergebnisse zu erzielen. Darüber hinaus geben wir einen Überblick darüber, wie Text-zu-3D-Technologie in verschiedenen Anwendungen eingesetzt wird, einschließlich Avatar-Generierung, Texturgenerierung, Formtransformation und Szenengenerierung.
Die Darstellung menschlicher Leistung in hoher Qualität ist ein wesentlicher Baustein für verschiedene Anwendungen wie Filmproduktion, Computerspiele oder Videokonferenzen. Um die Lücke zur Produktionsqualität zu schließen, stellen wir HumanRF vor, eine 4D-dynamische neuronale Szenendarstellung, die das Erscheinungsbild des gesamten Körpers in Bewegung aus Multi-View-Videoeingaben erfasst und die Wiedergabe aus neuen, ungesehenen Blickwinkeln ermöglicht. Unsere neuartige Darstellung fungiert als dynamische Video-Kodierung, die feine Details bei hohen Kompressionsraten erfasst, indem sie Raum-Zeit in eine zeitliche Matrix-Vektor-Zerlegung faktorisiert. Dies ermöglicht es uns, zeitlich kohärente Rekonstruktionen menschlicher Darsteller für lange Sequenzen zu erhalten, während selbst bei anspruchsvollen Bewegungen hochauflösende Details dargestellt werden. Während sich die meisten Forschungen auf die Synthese bei Auflösungen von 4MP oder niedriger konzentrieren, gehen wir die Herausforderung an, bei 12MP zu arbeiten. Zu diesem Zweck führen wir ActorsHQ ein, einen neuartigen Multi-View-Datensatz, der 12MP-Aufnahmen von 160 Kameras für 16 Sequenzen mit hochwertigen, pro Frame rekonstruierten Meshes bereitstellt. Wir zeigen Herausforderungen auf, die sich aus der Verwendung solcher hochauflösenden Daten ergeben, und demonstrieren, dass unser neu eingeführtes HumanRF diese Daten effektiv nutzt, wodurch ein bedeutender Schritt in Richtung Produktionsqualität bei der Synthese neuer Blickwinkel gemacht wird.
Die Erstellung animierbarer 3D-Modelle ist aufgrund der Notwendigkeit von 3D-Scans, aufwändiger Registrierung und manueller Rigging-Prozesse eine Herausforderung, die sich nur schwer auf beliebige Kategorien skalieren lässt. Kürzlich hat differenzierbares Rendering einen Weg aufgezeigt, um hochwertige 3D-Modelle aus monokularen Videos zu gewinnen, doch diese sind auf starre Kategorien oder einzelne Instanzen beschränkt. Wir präsentieren RAC, das kategorische 3D-Modelle aus monokularen Videos erstellt und dabei Variationen zwischen Instanzen und Bewegungen über die Zeit entkoppelt. Drei Schlüsselideen werden eingeführt, um dieses Problem zu lösen: (1) die Anpassung eines Skeletts an Instanzen durch Optimierung, (2) eine Methode zur Regularisierung des latenten Raums, die gemeinsame Strukturen innerhalb einer Kategorie fördert, während Instanzdetails erhalten bleiben, und (3) die Verwendung von 3D-Hintergrundmodellen, um Objekte vom Hintergrund zu trennen. Wir zeigen, dass 3D-Modelle von Menschen, Katzen und Hunden aus 50–100 Internetvideos erlernt werden können.
Wir präsentieren Integrated Multimodal Perception (IMP), einen einfachen und skalierbaren Ansatz für multimodales Multi-Task-Training und -Modellierung. IMP integriert multimodale Eingaben wie Bilder, Videos, Text und Audio in einen einzigen Transformer-Encoder mit minimalen modalitätsspezifischen Komponenten. IMP nutzt ein neuartiges Design, das Alternating Gradient Descent (AGD) und Mixture-of-Experts (MoE) kombiniert, um eine effiziente Skalierung von Modell und Aufgaben zu ermöglichen. Wir führen umfangreiche empirische Studien zu IMP durch und zeigen folgende zentrale Erkenntnisse: 1) Die Durchführung von Gradientenabstiegs-Updates durch abwechselnde Bearbeitung verschiedener heterogener Modalitäten, Verlustfunktionen und Aufgaben bei gleichzeitiger Variation der Eingabeauflösungen verbessert das multimodale Verständnis effizient. 2) Die Modellsparsifizierung mit MoE auf einem einzigen modalitätsunabhängigen Encoder verbessert die Leistung erheblich, übertrifft dichte Modelle, die modalitätsspezifische Encoder oder zusätzliche Fusionsschichten verwenden, und mildert die Konflikte zwischen den Modalitäten deutlich. IMP erzielt wettbewerbsfähige Leistungen in einer Vielzahl von Downstream-Aufgaben, einschließlich Bildklassifizierung, Videoklassifizierung, Bild-Text- und Video-Text-Retrieval. Besonders hervorzuheben ist, dass wir ein spärliches IMP-MoE-L-Modell trainieren, das sich auf Videoaufgaben konzentriert und neue State-of-the-Art-Ergebnisse in der Zero-Shot-Videoklassifizierung erzielt. Unser Modell erreicht 77,0 % auf Kinetics-400, 76,8 % auf Kinetics-600 und 76,8 % auf Kinetics-700 in der Zero-Shot-Klassifizierungsgenauigkeit und verbessert den bisherigen State-of-the-Art um +5 %, +6,7 % bzw. +5,8 %, während nur 15 % der gesamten Trainingsrechenkosten verwendet werden.
Wir schlagen einen neuartigen Ansatz zur Entwicklung von datenschutzbewahrenden, großskaligen Empfehlungssystemen vor, der differenziell private (DP) große Sprachmodelle (LLMs) verwendet und bestimmte Herausforderungen und Einschränkungen beim DP-Training dieser komplexen Systeme überwindet. Unser Verfahren eignet sich besonders gut für den aufstrebenden Bereich der LLM-basierten Empfehlungssysteme, kann jedoch problemlos für alle Empfehlungssysteme eingesetzt werden, die Repräsentationen natürlicher Spracheingaben verarbeiten. Unser Ansatz beinhaltet die Verwendung von DP-Trainingsmethoden, um ein öffentlich vortrainiertes LLM für eine Abfragegenerierungsaufgabe zu feinabzustimmen. Das resultierende Modell kann private synthetische Abfragen erzeugen, die repräsentativ für die ursprünglichen Abfragen sind und frei für nachgelagerte nicht-private Empfehlungstrainingsverfahren geteilt werden können, ohne zusätzliche Datenschutzkosten zu verursachen. Wir bewerten unsere Methode hinsichtlich ihrer Fähigkeit, effektive Deep-Retrieval-Modelle sicher zu trainieren, und beobachten signifikante Verbesserungen in deren Retrieval-Qualität, ohne die Abfrageebenen-Datenschutzgarantien zu beeinträchtigen, im Vergleich zu Methoden, bei denen die Retrieval-Modelle direkt DP trainiert werden.
Um universell einsetzbare Roboter zu ermöglichen, müssen wir den Roboter in die Lage versetzen, täglich artikulierte Objekte wie ein Mensch zu bedienen. Die derzeitige Roboter-Manipulation hat sich stark auf die Verwendung eines Parallelgreifers gestützt, was den Roboter auf eine begrenzte Anzahl von Objekten beschränkt. Andererseits ermöglicht der Einsatz einer mehrfingrigen Roboterhand eine bessere Annäherung an menschliches Verhalten und erlaubt es dem Roboter, diverse artikulierte Objekte zu bedienen. Zu diesem Zweck schlagen wir einen neuen Benchmark namens DexArt vor, der geschickte Manipulation mit artikulierten Objekten in einem physikalischen Simulator beinhaltet. In unserem Benchmark definieren wir mehrere komplexe Manipulationsaufgaben, bei denen die Roboterhand diverse artikulierte Objekte innerhalb jeder Aufgabe manipulieren muss. Unser Hauptaugenmerk liegt darauf, die Generalisierbarkeit der erlernten Strategie auf unbekannte artikulierte Objekte zu bewerten. Dies ist aufgrund der hohen Freiheitsgrade sowohl der Hände als auch der Objekte sehr anspruchsvoll. Wir verwenden Reinforcement Learning in Kombination mit 3D-Repräsentationslernen, um Generalisierung zu erreichen. Durch umfangreiche Studien liefern wir neue Erkenntnisse darüber, wie 3D-Repräsentationslernen die Entscheidungsfindung in RL mit 3D-Punktwolken-Eingaben beeinflusst. Weitere Details finden Sie unter https://www.chenbao.tech/dexart/.
In diesem Artikel analysieren wir die Leistung eines multitaskfähigen End-to-End-Transformer-Modells bei der Aufgabe der konversationellen Empfehlungen, die darauf abzielen, Empfehlungen basierend auf den expliziten Präferenzen eines Nutzers, die im Dialog geäußert werden, zu liefern. Während frühere Arbeiten in diesem Bereich komplexe Multi-Komponenten-Ansätze verwenden, bei denen die Dialogführung und die Empfehlung von Entitäten durch separate Komponenten behandelt werden, zeigen wir, dass ein einheitliches Transformer-Modell, basierend auf dem T5 Text-to-Text-Transformer-Modell, sowohl bei der Empfehlung relevanter Inhalte als auch bei der Generierung von Dialogtexten wettbewerbsfähig abschneiden kann. Wir feintunen unser Modell auf dem ReDIAL-Datensatz für konversationelle Filmempfehlungen und erstellen zusätzliche Trainingsaufgaben, die aus MovieLens abgeleitet sind (wie die Vorhersage von Filmattributen und verwandten Filmen basierend auf einem Eingabefilm), in einem Multitask-Lernsetting. Mithilfe einer Reihe von Untersuchungen zeigen wir, dass das in den zusätzlichen Aufgaben erworbene Wissen auf die konversationelle Umgebung übertragen wird, wobei jede Aufgabe zu einer Steigerung von 9 % bis 52 % in ihrem zugehörigen Untersuchungswert führt.