Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
In dieser Arbeit schlagen wir Retentive Network (RetNet) als Grundarchitektur für große Sprachmodelle vor, die gleichzeitig Trainingsparallelismus, kostengünstige Inferenz und gute Leistung erreicht. Wir leiten theoretisch die Verbindung zwischen Rekurrenz und Aufmerksamkeit her. Anschließend schlagen wir den Retention-Mechanismus für die Sequenzmodellierung vor, der drei Berechnungsparadigmen unterstützt: parallel, rekursiv und chunkweise rekursiv. Insbesondere ermöglicht die parallele Darstellung den Trainingsparallelismus. Die rekursive Darstellung ermöglicht eine kostengünstige O(1)-Inferenz, die den Dekodierungsdurchsatz, die Latenz und den GPU-Speicher verbessert, ohne die Leistung zu beeinträchtigen. Die chunkweise rekursive Darstellung erleichtert die effiziente Modellierung langer Sequenzen mit linearer Komplexität, wobei jeder Chunk parallel kodiert wird, während die Chunks rekursiv zusammengefasst werden. Experimentelle Ergebnisse zur Sprachmodellierung zeigen, dass RetNet günstige Skalierungsergebnisse, paralleles Training, kostengünstige Bereitstellung und effiziente Inferenz erzielt. Diese faszinierenden Eigenschaften machen RetNet zu einem starken Nachfolger des Transformers für große Sprachmodelle. Der Code wird unter https://aka.ms/retnet verfügbar sein.
Tabellen sind in realen Datenbanken weit verbreitet und erfordern erheblichen Zeit- und Arbeitsaufwand für die Analyse und Manipulation durch Menschen. Die Fortschritte bei großen Sprachmodellen (Large Language Models, LLMs) haben es ermöglicht, mit Tabellen über natürliche Spracheingaben zu interagieren, wodurch diese Fähigkeit näher an die Realität gerückt ist. In diesem Artikel stellen wir TableGPT vor, ein einheitliches, feinabgestimmtes Framework, das LLMs befähigt, Tabellen mithilfe externer Funktionsbefehle zu verstehen und zu bearbeiten. Es führt die Fähigkeit ein, nahtlos mit Tabellen zu interagieren und ermöglicht eine Vielzahl von Funktionen wie Fragebeantwortung, Datenmanipulation (z. B. Einfügen, Löschen, Abfragen und Ändern von Daten), Datenvisualisierung, Erstellung von Analyseberichten und automatisierte Vorhersagen. TableGPT zielt darauf ab, Benutzern durch die mühelose Nutzung von Tabellendaten Komfort und Zugänglichkeit zu bieten. Im Kern von TableGPT liegt das neuartige Konzept globaler tabellarischer Repräsentationen, das LLMs befähigt, ein umfassendes Verständnis der gesamten Tabelle über Metainformationen hinaus zu erlangen. Durch das gemeinsame Training von LLMs in den Modalitäten Tabelle und Text erreicht TableGPT ein tiefes Verständnis von Tabellendaten und die Fähigkeit, komplexe Operationen an Tabellen über Befehlsketten durchzuführen. Wichtig ist, dass TableGPT den Vorteil bietet, ein eigenständiges System zu sein, das nicht auf externe API-Schnittstellen angewiesen ist. Darüber hinaus unterstützt es einen effizienten Datenverarbeitungsfluss, die Ablehnung von Abfragen (wenn angemessen) und die private Bereitstellung, was eine schnellere Feinabstimmung von Domänendaten ermöglicht und die Datensicherheit gewährleistet, wodurch die Anpassungsfähigkeit des Frameworks an spezifische Anwendungsfälle verbessert wird.
LLMs haben bemerkenswerte Fähigkeiten bei der Interaktion mit Menschen durch Sprache gezeigt, insbesondere durch die Verwendung von Anweisungsfolgedaten. Jüngste Fortschritte bei LLMs, wie MiniGPT-4, LLaVA und X-LLM, erweitern ihre Fähigkeiten weiter, indem sie multimodale Eingaben wie Bilder, Videos und Sprache integrieren. Trotz ihrer Effektivität bei der Erzeugung präziser und detaillierter Sprachverständnisse der gegebenen Modalsignale verzichten diese LLMs auf die Fähigkeit, spezifische Teile der Eingaben zu verankern, und konstruieren somit nur eine grobkörnige Abbildung. Eine explizite und informative Korrespondenz zwischen Text und anderen Modalitäten würde jedoch nicht nur die Benutzererfahrung verbessern, sondern auch das Anwendungsszenario multimodaler LLMs erweitern. Daher schlagen wir BuboGPT vor, ein multimodales LLM mit visueller Verankerung, das eine cross-modale Interaktion zwischen Vision, Audio und Sprache durchführen kann und ein feinkörniges Verständnis von visuellen Objekten und anderen gegebenen Modalitäten bietet. Dadurch ist BuboGPT in der Lage, die spezifische Position eines Objekts im Bild zu zeigen, wenn es eine Antwort oder Beschreibung für dieses Objekt generiert. Unsere Beiträge sind zweifach: 1) Ein gebrauchsfertiges visuelles Verankerungsmodul basierend auf SAM, das Entitäten in einem Satz extrahiert und entsprechende Masken im Bild findet. 2) Ein zweistufiges Trainingsschema und ein Anweisungsdatensatz, um ein gemeinsames Text-Bild-Audio-Verständnis zu ermöglichen. Unsere Experimente zeigen, dass BuboGPT während der Interaktion mit dem Menschen beeindruckende multimodale Verständnis- und visuelle Verankerungsfähigkeiten erreicht. Es schneidet durchweg gut ab, wenn es mit beliebigen Modalitätskombinationen (entweder ausgerichtet oder nicht ausgerichtet) versorgt wird. Unser Code, Modell und Datensatz sind verfügbar unter https://bubo-gpt.github.io.
Große Sprachmodelle (LLMs) erlangen die Fähigkeit, Anweisungen zu befolgen, durch Instruction-Finetuning (IFT) auf überwachten Anweisungs-/Antwortdaten. Allerdings enthalten weit verbreitete IFT-Datensätze (z. B. die 52k Daten von Alpaca) überraschenderweise viele Instanzen von niedriger Qualität mit falschen oder irrelevanten Antworten, die irreführend und schädlich für das IFT sind. In diesem Artikel schlagen wir eine einfache und effektive Datenauswahlstrategie vor, die automatisch Daten von niedriger Qualität mithilfe eines starken LLMs (z. B. ChatGPT) identifiziert und entfernt. Zu diesem Zweck führen wir AlpaGasus ein, das nur auf 9k hochwertigen Daten, die aus den 52k Alpaca-Daten gefiltert wurden, finetuned wird. AlpaGasus übertrifft das ursprüngliche Alpaca deutlich, wie von GPT-4 auf mehreren Testdatensätzen bewertet, und seine 13B-Variante erreicht >90 % der Leistung seines Lehrer-LLMs (d. h. Text-Davinci-003) bei Testaufgaben. Es bietet auch ein 5,7-mal schnelleres Training, wodurch die Trainingszeit für eine 7B-Variante von 80 Minuten (für Alpaca) auf 14 Minuten reduziert wird. Wir wenden IFT für die gleiche Anzahl von Epochen wie Alpaca(7B) an, jedoch auf weniger Daten, unter Verwendung von 4x NVIDIA A100 (80GB) GPUs und unter Beibehaltung der ursprünglichen Alpaca-Einstellungen und Hyperparameter. Insgesamt demonstriert AlpaGasus ein neuartiges datenzentriertes IFT-Paradigma, das allgemein auf Instruction-Tuning-Daten angewendet werden kann, was zu schnellerem Training und besseren Anweisungs-befolgenden Modellen führt. Unsere Projektseite ist verfügbar unter: https://lichang-chen.github.io/AlpaGasus/.
Während sich viele unüberwachte Lernmodelle auf eine Familie von Aufgaben konzentrieren, entweder generative oder diskriminative, untersuchen wir die Möglichkeit eines einheitlichen Repräsentationslerners: ein Modell, das eine einzige Vorverarbeitungsphase nutzt, um beide Familien von Aufgaben gleichzeitig zu adressieren. Wir identifizieren Diffusionsmodelle als einen vielversprechenden Kandidaten. Diffusionsmodelle haben sich als eine state-of-the-art Methode für Bildgenerierung, Rauschunterdrückung, Inpainting, Super-Resolution, Manipulation usw. etabliert. Solche Modelle beinhalten das Training eines U-Nets, um iterativ Rauschen vorherzusagen und zu entfernen, und das resultierende Modell kann hochwertige, vielfältige, neuartige Bilder synthetisieren. Die U-Net-Architektur, als eine auf Faltungen basierende Architektur, erzeugt eine vielfältige Menge von Merkmalsrepräsentationen in Form von Zwischenmerkmalen. Wir präsentieren unsere Erkenntnisse, dass diese Einbettungen über die Rauschvorhersageaufgabe hinaus nützlich sind, da sie diskriminative Informationen enthalten und auch für die Klassifikation genutzt werden können. Wir untersuchen optimale Methoden zur Extraktion und Nutzung dieser Einbettungen für Klassifikationsaufgaben und demonstrieren vielversprechende Ergebnisse bei der ImageNet-Klassifikationsaufgabe. Wir stellen fest, dass Diffusionsmodelle bei sorgfältiger Merkmalsauswahl und Pooling vergleichbare generative-diskriminative Methoden wie BigBiGAN für Klassifikationsaufgaben übertreffen. Wir untersuchen Diffusionsmodelle im Transfer-Learning-Regime und prüfen ihre Leistung bei mehreren fein abgestimmten visuellen Klassifikationsdatensätzen. Wir vergleichen diese Einbettungen mit denen, die von konkurrierenden Architekturen und Vorverarbeitungen für Klassifikationsaufgaben erzeugt werden.
Methoden zur Vorhersage von Videobewegungen schätzen entweder die momentane Bewegung aller Punkte in einem gegebenen Videobild gemeinsam mithilfe von optischem Fluss oder verfolgen die Bewegung einzelner Punkte unabhängig voneinander über das gesamte Video. Letzteres gilt sogar für leistungsstarke Deep-Learning-Methoden, die Punkte durch Verdeckungen hindurch verfolgen können. Das individuelle Verfolgen von Punkten ignoriert die starke Korrelation, die zwischen den Punkten bestehen kann, beispielsweise weil sie zum selben physischen Objekt gehören, was die Leistung potenziell beeinträchtigt. In diesem Artikel schlagen wir daher CoTracker vor, eine Architektur, die mehrere Punkte gemeinsam über ein gesamtes Video hinweg verfolgt. Diese Architektur kombiniert mehrere Ideen aus der Literatur zu optischem Fluss und Tracking in einem neuen, flexiblen und leistungsstarken Design. Sie basiert auf einem Transformer-Netzwerk, das die Korrelation verschiedener Punkte über spezialisierte Attention-Layer modelliert. Der Transformer aktualisiert iterativ eine Schätzung mehrerer Trajektorien. Er kann in einem gleitenden Fenster auf sehr lange Videos angewendet werden, für die wir eine entrollte Trainingsschleife entwickeln. Er kann von einem bis zu mehreren Punkten gemeinsam verfolgen und unterstützt das Hinzufügen neuer zu verfolgender Punkte zu jedem Zeitpunkt. Das Ergebnis ist ein flexibler und leistungsstarker Tracking-Algorithmus, der in fast allen Benchmarks state-of-the-art-Methoden übertrifft.
Wir präsentieren SEED, einen ausgefeilten Bild-Tokenizer, der Large Language Models (LLMs) mit der emergenten Fähigkeit ausstattet, gleichzeitig zu SEHEN und zu ZEICHNEN. Die Forschung zu Bild-Tokenizern hat zuvor eine Sackgasse erreicht, da Frameworks, die quantisierte visuelle Tokens verwenden, aufgrund von unterdurchschnittlicher Leistung und Konvergenz im multimodalen Verständnis (im Vergleich zu BLIP-2 usw.) oder in der Generierung (im Vergleich zu Stable Diffusion usw.) an Bedeutung verloren haben. Trotz dieser Einschränkungen sind wir weiterhin von der natürlichen Fähigkeit überzeugt, visuelle und textuelle Repräsentationen zu vereinheitlichen und so skalierbares multimodales Training mit dem ursprünglichen Rezept von LLMs zu ermöglichen. In dieser Studie identifizieren wir zwei entscheidende Prinzipien für die Architektur und das Training von SEED, die die nachfolgende Ausrichtung mit LLMs effektiv erleichtern. (1) Bild-Tokens sollten unabhängig von 2D-physikalischen Patch-Positionen sein und stattdessen mit einer 1D-kausalen Abhängigkeit erzeugt werden, wobei sie eine intrinsische Interdependenz aufweisen, die mit dem links-nach-rechts autoregressiven Vorhersagemechanismus in LLMs übereinstimmt. (2) Bild-Tokens sollten hochgradige Semantik erfassen, die mit dem Grad der semantischen Abstraktion in Wörtern übereinstimmt, und sowohl für Diskriminativität als auch für Rekonstruktion während der Tokenizer-Trainingsphase optimiert werden. Dadurch ist das Standard-LLM in der Lage, sowohl Bild-zu-Text- als auch Text-zu-Bild-Generierung durch die Einbindung unseres SEED mittels effizienter LoRA-Anpassung durchzuführen. Umfassendes multimodales Vortraining und Instruktions-Tuning, das verbesserte Ergebnisse liefern könnte, bleibt zukünftigen Untersuchungen vorbehalten. Diese Version von SEED wurde in 5,7 Tagen mit nur 64 V100-GPUs und 5M öffentlich verfügbaren Bild-Text-Paaren trainiert. Unsere vorläufige Studie unterstreicht das große Potenzial diskreter visueller Tokens in vielseitigen multimodalen LLMs und die Bedeutung geeigneter Bild-Tokenizer in der breiteren Forschung.
Wir präsentieren Interactive Neural Video Editing (INVE), eine Echtzeit-Videobearbeitungslösung, die den Videobearbeitungsprozess unterstützt, indem sie spärliche Bearbeitungen einzelner Frames konsistent auf den gesamten Videoclip überträgt. Unsere Methode ist von den jüngsten Arbeiten zum Layered Neural Atlas (LNA) inspiriert. LNA leidet jedoch unter zwei wesentlichen Nachteilen: (1) die Methode ist für interaktive Bearbeitungen zu langsam, und (2) sie bietet unzureichende Unterstützung für bestimmte Bearbeitungsszenarien, einschließlich der direkten Frame-Bearbeitung und der starren Texturverfolgung. Um diese Herausforderungen zu bewältigen, nutzen und adaptieren wir hocheffiziente Netzwerkarchitekturen, die durch Hash-Grid-Encodings angetrieben werden, um die Verarbeitungsgeschwindigkeit erheblich zu verbessern. Zusätzlich lernen wir bidirektionale Funktionen zwischen Bild-Atlas und führen vektorisierte Bearbeitungen ein, was gemeinsam eine viel größere Vielfalt von Bearbeitungen sowohl im Atlas als auch direkt in den Frames ermöglicht. Im Vergleich zu LNA reduziert unser INVE die Lern- und Inferenzzeit um den Faktor 5 und unterstützt verschiedene Videobearbeitungsoperationen, die LNA nicht kann. Wir demonstrieren die Überlegenheit von INVE gegenüber LNA in der interaktiven Videobearbeitung durch eine umfassende quantitative und qualitative Analyse, die seine zahlreichen Vorteile und verbesserte Leistung hervorhebt. Für Videoresultate besuchen Sie bitte https://gabriel-huang.github.io/inve/.
Wir streben an, zu untersuchen, ob end-to-end-Lernen von visuellem Denken mit allgemeinen neuronalen Netzwerken unter Verwendung von visuellem Pretraining erreicht werden kann. Ein positives Ergebnis würde die verbreitete Annahme widerlegen, dass explizite visuelle Abstraktion (z. B. Objekterkennung) für die kompositionelle Generalisierung beim visuellen Denken unerlässlich ist, und die Machbarkeit eines neuronalen Netzwerk-„Generalisten“ zur Lösung von Aufgaben der visuellen Erkennung und des visuellen Denkens bestätigen. Wir schlagen ein einfaches und allgemeines selbstüberwachtes Framework vor, das jeden Videobildrahmen mit einem Transformer-Netzwerk in eine kleine Menge von Tokens „komprimiert“ und die verbleibenden Rahmen basierend auf dem komprimierten zeitlichen Kontext rekonstruiert. Um den Rekonstruktionsverlust zu minimieren, muss das Netzwerk eine kompakte Darstellung für jedes Bild erlernen sowie zeitliche Dynamiken und Objektpermanenz aus dem zeitlichen Kontext erfassen. Wir führen eine Bewertung anhand von zwei Benchmarks für visuelles Denken durch, CATER und ACRE. Wir beobachten, dass Pretraining entscheidend ist, um kompositionelle Generalisierung für end-to-end visuelles Denken zu erreichen. Unser vorgeschlagenes Framework übertrifft traditionelles überwachtes Pretraining, einschließlich Bildklassifizierung und expliziter Objekterkennung, mit großem Abstand.
Dieses Papier stellt einen neuen Vision Transformer vor, den Scale-Aware Modulation Transformer (SMT), der verschiedene Downstream-Aufgaben effizient bewältigen kann, indem er das konvolutionale Netzwerk und den Vision Transformer kombiniert. Die vorgeschlagene Scale-Aware Modulation (SAM) im SMT umfasst zwei primäre neuartige Designs. Erstens führen wir das Multi-Head Mixed Convolution (MHMC)-Modul ein, das mehrskalige Merkmale erfassen und das rezeptive Feld erweitern kann. Zweitens schlagen wir das Scale-Aware Aggregation (SAA)-Modul vor, das leichtgewichtig aber effektiv ist und die Informationsfusion über verschiedene Köpfe hinweg ermöglicht. Durch die Nutzung dieser beiden Module wird die konvolutionale Modulation weiter verbessert. Darüber hinaus schlagen wir im Gegensatz zu früheren Arbeiten, die Modulationen in allen Stufen verwendeten, um ein netzwerk ohne Aufmerksamkeitsmechanismus zu bauen, ein Evolutionary Hybrid Network (EHN) vor, das effektiv den Übergang von der Erfassung lokaler zu globaler Abhängigkeiten simulieren kann, wenn das Netzwerk tiefer wird, was zu einer überlegenen Leistung führt. Umfangreiche Experimente zeigen, dass der SMT bestehende state-of-the-art Modelle bei einer Vielzahl von visuellen Aufgaben deutlich übertrifft. Insbesondere kann der SMT mit 11,5 Mio. Parametern / 2,4 GFLOPs und 32 Mio. Parametern / 7,7 GFLOPs eine Top-1-Genauigkeit von 82,2 % bzw. 84,3 % auf ImageNet-1K erreichen. Nach dem Vortraining auf ImageNet-22K in einer Auflösung von 224^2 erreicht er beim Feinabstimmen mit einer Auflösung von 224^2 und 384^2 eine Top-1-Genauigkeit von 87,1 % bzw. 88,1 %. Bei der Objekterkennung mit Mask R-CNN übertrifft der SMT-Basis, der mit einem 1x- und 3x-Schedule trainiert wurde, den Swin Transformer-Konkurrenten um 4,2 bzw. 1,3 mAP auf COCO. Bei der semantischen Segmentierung mit UPerNet übertrifft der SMT-Basis-Test im Einzel- und Mehrskalenbetrieb Swin um 2,0 bzw. 1,1 mIoU auf ADE20K.
Simulation bildet das Rückgrat der modernen Entwicklung autonomer Fahrzeuge. Simulatoren unterstützen die Entwicklung, das Testen und die Verbesserung von Fahrzeugsystemen, ohne Menschen, Fahrzeuge oder deren Umgebung zu gefährden. Allerdings stehen Simulatoren vor einer großen Herausforderung: Sie sind auf realistische, skalierbare und dennoch interessante Inhalte angewiesen. Während jüngste Fortschritte im Bereich des Renderings und der Szenenrekonstruktion bedeutende Fortschritte bei der Erstellung statischer Szenenobjekte erzielt haben, bleibt die Modellierung ihrer Anordnung, Dynamik und Verhaltensweisen eine Herausforderung. In dieser Arbeit nutzen wir Sprache als Quelle der Überwachung für die Generierung dynamischer Verkehrsszenen. Unser Modell, LCTGen, kombiniert ein großes Sprachmodell mit einer Transformer-basierten Decoder-Architektur, die wahrscheinliche Kartenpositionen aus einem Datensatz von Karten auswählt und eine anfängliche Verkehrsverteilung sowie die Dynamik jedes Fahrzeugs erzeugt. LCTGen übertrifft frühere Arbeiten sowohl in der unbedingten als auch in der bedingten Generierung von Verkehrsszenen in Bezug auf Realismus und Detailtreue. Code und Videos werden unter https://ariostgx.github.io/lctgen verfügbar sein.