Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen phi-1 vor, ein neues großes Sprachmodell für Code, das deutlich kleiner ist als konkurrierende Modelle: phi-1 ist ein Transformer-basiertes Modell mit 1,3 Milliarden Parametern, das über 4 Tage auf 8 A100-GPUs trainiert wurde. Dabei wurde eine Auswahl von „Lehrbuchqualität“-Daten aus dem Web (6 Milliarden Tokens) sowie synthetisch generierte Lehrbücher und Übungen mit GPT-3.5 (1 Milliarde Tokens) verwendet. Trotz dieses geringen Umfangs erreicht phi-1 eine Pass@1-Genauigkeit von 50,6 % auf HumanEval und 55,5 % auf MBPP. Es zeigt auch überraschende emergente Eigenschaften im Vergleich zu phi-1-base, unserem Modell vor der Feinabstimmung auf einem Datensatz von Programmierübungen, und phi-1-small, einem kleineren Modell mit 350 Millionen Parametern, das mit derselben Pipeline wie phi-1 trainiert wurde und dennoch 45 % auf HumanEval erreicht.
Die Erzeugung realistischer menschlicher Bewegungen aus gegebenen Aktionsbeschreibungen hat aufgrund der wachsenden Anforderungen an digitale Menschen erhebliche Fortschritte erzielt. Während neuere Arbeiten beeindruckende Ergebnisse bei der direkten Generierung von Bewegungen aus textuellen Aktionsbeschreibungen erzielt haben, unterstützen sie oft nur eine einzige Modalität des Steuersignals, was ihre Anwendung in der realen digitalen Menschindustrie einschränkt. Dieses Papier stellt einen Motion General-Purpose Generator (MotionGPT) vor, der multimodale Steuersignale, z. B. Text und Einzelbild-Posen, zur Erzeugung aufeinanderfolgender menschlicher Bewegungen verwenden kann, indem multimodale Signale als spezielle Eingabetokens in großen Sprachmodellen (LLMs) behandelt werden. Konkret quantisieren wir zunächst multimodale Steuersignale in diskrete Codes und formulieren sie dann in einer einheitlichen Prompt-Anweisung, um die LLMs zu bitten, die Bewegungsantwort zu generieren. Unser MotionGPT demonstriert ein einheitliches Modell zur Erzeugung menschlicher Bewegungen mit multimodalen Steuersignalen, indem lediglich 0,4 % der LLM-Parameter angepasst werden. Nach unserem besten Wissen ist MotionGPT die erste Methode, die menschliche Bewegungen durch multimodale Steuersignale erzeugt, und wir hoffen, dass dies neue Impulse in dieser Richtung geben kann. Die Codes werden nach der Annahme veröffentlicht.
HomeRobot (Substantiv): Ein erschwinglicher, nachgiebiger Roboter, der sich in Haushalten bewegt und eine Vielzahl von Objekten manipuliert, um alltägliche Aufgaben zu erledigen. Open-Vocabulary Mobile Manipulation (OVMM) ist das Problem, beliebige Objekte in unbekannten Umgebungen zu greifen und an einen vorgegebenen Ort zu platzieren. Dies ist eine grundlegende Herausforderung, damit Roboter nützliche Assistenten in menschlichen Umgebungen sein können, da sie Teilprobleme aus verschiedenen Bereichen der Robotik umfasst: Wahrnehmung, Sprachverständnis, Navigation und Manipulation sind allesamt wesentlich für OVMM. Darüber hinaus stellt die Integration der Lösungen für diese Teilprobleme eigene erhebliche Herausforderungen dar. Um die Forschung in diesem Bereich voranzutreiben, führen wir den HomeRobot OVMM-Benchmark ein, bei dem ein Agent in häuslichen Umgebungen navigiert, um neuartige Objekte zu greifen und auf Zielbehältern abzulegen. HomeRobot besteht aus zwei Komponenten: einer Simulationskomponente, die einen großen und vielfältigen, kuratierten Objektsatz in neuen, hochwertigen Mehrraum-Wohnumgebungen verwendet; und einer realen Komponente, die einen Software-Stack für den kostengünstigen Hello Robot Stretch bereitstellt, um die Reproduktion realer Experimente in verschiedenen Laboren zu fördern. Wir implementieren sowohl Reinforcement-Learning- als auch heuristische (modellbasierte) Baselines und zeigen Hinweise auf Sim-to-Real-Transfer. Unsere Baselines erreichen eine Erfolgsquote von 20 % in der realen Welt; unsere Experimente identifizieren Möglichkeiten, wie zukünftige Forschungsarbeiten die Leistung verbessern können. Videos finden Sie auf unserer Website: https://ovmm.github.io/.
Trotz des enormen Erfolgs von Large Language Models (LLMs) in Code-Assistenten wie GitHub Copilot haben diese Modelle Schwierigkeiten, den Kontext innerhalb eines Repositories (z. B. Importe, übergeordnete Klassen, Dateien mit ähnlichen Namen usw.) zu verstehen, was zu ungenauen Code-Vervollständigungen führt. Dieser Effekt ist besonders ausgeprägt, wenn diese Assistenten für Repositories verwendet werden, die das Modell während des Trainings nicht gesehen hat, wie proprietäre Software oder Code-Projekte in der Entwicklung. Jüngste Arbeiten haben das Potenzial gezeigt, den Kontext aus dem Repository während der Inferenz zu nutzen. In dieser Arbeit erweitern wir diese Idee und schlagen RepoFusion vor, ein Framework, um Modelle so zu trainieren, dass sie relevanten Repository-Kontext einbeziehen. Experimente zur Einzelzeilen-Code-Vervollständigung zeigen, dass unsere Modelle, die mit Repository-Kontext trainiert wurden, deutlich größere Code-Modelle wie CodeGen-16B-multi (etwa 73-mal größer) übertreffen und die Leistung des etwa 70-mal größeren StarCoderBase-Modells, das mit dem Fill-in-the-Middle-Ziel trainiert wurde, nahezu erreichen. Wir betrachten diese Ergebnisse als eine neuartige und überzeugende Demonstration der Vorteile, die das Training mit Repository-Kontext bringen kann. Wir führen umfangreiche Ablationsstudien durch, um die Auswirkungen von Designentscheidungen wie Kontexttyp, Anzahl der Kontexte, Kontextlänge und Initialisierung innerhalb unseres Frameworks zu untersuchen. Schließlich veröffentlichen wir Stack-Repo, einen Datensatz von 200 Java-Repositories mit freizügigen Lizenzen und nahezu deduplizierten Dateien, die mit drei Arten von Repository-Kontexten angereichert sind. Zusätzlich stellen wir den Code und die trainierten Checkpoints unserer Arbeit zur Verfügung. Unsere veröffentlichten Ressourcen sind unter https://huggingface.co/RepoFusion verfügbar.
Punktwolkendaten, die in realen Anwendungen gesammelt werden, sind oft unvollständig. Daten fehlen typischerweise, weil Objekte aus Teilperspektiven betrachtet werden, die nur einen bestimmten Blickwinkel oder eine bestimmte Ansicht erfassen. Darüber hinaus können Daten aufgrund von Verdeckungen und niedrigauflösender Abtastung unvollständig sein. Bestehende Vervollständigungsansätze stützen sich auf Datensätze vordefinierter Objekte, um die Vervollständigung von verrauschten und unvollständigen Punktwolken zu leiten. Diese Ansätze schneiden jedoch schlecht ab, wenn sie an Out-Of-Distribution (OOD)-Objekten getestet werden, die im Trainingsdatensatz nur unzureichend repräsentiert sind. Hier nutzen wir jüngste Fortschritte in der textgesteuerten Bildgenerierung, die zu bedeutenden Durchbrüchen in der textgesteuerten Formgenerierung geführt haben. Wir beschreiben einen Ansatz namens SDS-Complete, der ein vortrainiertes Text-zu-Bild-Diffusionsmodell verwendet und die Textsemantik einer gegebenen unvollständigen Punktwolke eines Objekts nutzt, um eine vollständige Oberflächendarstellung zu erhalten. SDS-Complete kann eine Vielzahl von Objekten durch Testzeitoptimierung vervollständigen, ohne dass teure 3D-Informationen gesammelt werden müssen. Wir evaluieren SDS-Complete an unvollständig gescannten Objekten, die von realen Tiefensensoren und LiDAR-Scannern erfasst wurden. Wir stellen fest, dass es Objekte, die in gängigen Datensätzen nicht vorhanden sind, effektiv rekonstruiert und den Chamfer-Verlust im Durchschnitt um 50 % im Vergleich zu aktuellen Methoden reduziert. Projektseite: https://sds-complete.github.io/
Denoising-Diffusionsmodelle sind eine leistungsstarke Art von generativen Modellen, die verwendet werden, um komplexe Verteilungen realer Signale zu erfassen. Ihre Anwendbarkeit ist jedoch auf Szenarien beschränkt, in denen Trainingsdaten leicht verfügbar sind, was in realen Anwendungen nicht immer der Fall ist. Zum Beispiel besteht das Ziel in der inversen Grafik darin, Stichproben aus einer Verteilung von 3D-Szenen zu generieren, die mit einem gegebenen Bild übereinstimmen, aber Ground-Truth-3D-Szenen sind nicht verfügbar, und nur 2D-Bilder sind zugänglich. Um diese Einschränkung zu überwinden, schlagen wir eine neue Klasse von Denoising-Diffusionswahrscheinlichkeitsmodellen vor, die lernen, aus Verteilungen von Signalen zu sampeln, die nie direkt beobachtet werden. Stattdessen werden diese Signale indirekt durch ein bekanntes differenzierbares Vorwärtsmodell gemessen, das partielle Beobachtungen des unbekannten Signals erzeugt. Unser Ansatz beinhaltet die direkte Integration des Vorwärtsmodells in den Denoising-Prozess. Diese Integration verbindet effektiv die generative Modellierung von Beobachtungen mit der generativen Modellierung der zugrunde liegenden Signale und ermöglicht ein end-to-end-Training eines bedingten generativen Modells über Signale. Während der Inferenz ermöglicht unser Ansatz das Sampling aus der Verteilung der zugrunde liegenden Signale, die mit einer gegebenen partiellen Beobachtung konsistent sind. Wir demonstrieren die Wirksamkeit unserer Methode anhand von drei anspruchsvollen Computer-Vision-Aufgaben. Zum Beispiel ermöglicht unser Modell im Kontext der inversen Grafik das direkte Sampling aus der Verteilung von 3D-Szenen, die mit einem einzelnen 2D-Eingabebild übereinstimmen.
Die Fähigkeit, heterogene robotische Erfahrungen aus verschiedenen Robotern und Aufgaben zu nutzen, um neue Fähigkeiten und Verkörperungen schnell zu meistern, hat das Potenzial, das Robotik-Lernen zu revolutionieren. Inspiriert von den jüngsten Fortschritten bei Foundation-Modellen für Vision und Sprache, schlagen wir einen Foundation-Agenten für die robotische Manipulation vor. Dieser Agent, genannt RoboCat, ist ein visueller zielbedingter Entscheidungstransformator, der in der Lage ist, visuelle Erfahrungen mit aktionsbeschrifteten Daten aus verschiedenen Verkörperungen zu verarbeiten. Diese Daten umfassen ein breites Repertoire an motorischen Kontrollfähigkeiten von simulierten und realen Roboterarmen mit unterschiedlichen Beobachtungs- und Aktionssätzen. Mit RoboCat demonstrieren wir die Fähigkeit, sich auf neue Aufgaben und Roboter zu verallgemeinern, sowohl im Zero-Shot-Lernen als auch durch Anpassung mit nur 100–1000 Beispielen für die Zielaufgabe. Wir zeigen auch, wie ein trainiertes Modell selbst zur Generierung von Daten für nachfolgende Trainingsiterationen verwendet werden kann, wodurch ein grundlegender Baustein für eine autonome Verbesserungsschleife bereitgestellt wird. Wir untersuchen die Fähigkeiten des Agenten mit groß angelegten Bewertungen sowohl in der Simulation als auch an drei verschiedenen realen Roboter-Verkörperungen. Wir stellen fest, dass RoboCat, wenn wir seine Trainingsdaten erweitern und diversifizieren, nicht nur Anzeichen von Aufgabenübertragung zeigt, sondern auch effizienter bei der Anpassung an neue Aufgaben wird.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten im Verständnis und der Generierung von Sprache gezeigt. Der Fortschritt von grundlegenden LLMs zu instruktionsfolgenden LLMs wird maßgeblich durch das Instruction Tuning vorangetrieben, das eine entscheidende Rolle bei der Ausrichtung der LLMs an menschlichen Präferenzen spielt. Allerdings konzentrieren sich die bestehenden LLMs meist auf Englisch, was zu einer unterdurchschnittlichen Leistung in nicht-englischen Sprachen führt. Um die Leistung für nicht-englische Sprachen zu verbessern, ist es notwendig, sprachspezifische Trainingsdaten für grundlegende LLMs zu sammeln und sprachspezifische Anweisungen für das Instruction Tuning zu erstellen, was beides einen erheblichen Aufwand darstellt. Um den menschlichen Arbeitsaufwand zu minimieren, schlagen wir vor, die Fähigkeiten der Sprachgenerierung und der Instruktionsbefolgung durch eine interaktive Übersetzungsaufgabe von Englisch auf andere Sprachen zu übertragen. Wir haben BayLing entwickelt, ein instruktionsfolgendes LLM, das LLaMA als grundlegendes LLM nutzt und automatisch interaktive Übersetzungsanweisungen für das Instruction Tuning erstellt. Umfangreiche Bewertungen zeigen, dass BayLing eine vergleichbare Leistung zu GPT-3.5-turbo erzielt, obwohl es eine deutlich geringere Parameterzahl von nur 13 Milliarden verwendet. Die experimentellen Ergebnisse zu Übersetzungsaufgaben zeigen, dass BayLing 95 % der Einzelgesprächs-Übersetzungsfähigkeit im Vergleich zu GPT-4 bei automatischer Bewertung und 96 % der interaktiven Übersetzungsfähigkeit im Vergleich zu GPT-3.5-turbo bei menschlicher Bewertung erreicht. Um die Leistung bei allgemeinen Aufgaben zu schätzen, haben wir einen Multi-Turn-Instruktionstestdatensatz namens BayLing-80 erstellt. Die experimentellen Ergebnisse auf BayLing-80 zeigen, dass BayLing 89 % der Leistung im Vergleich zu GPT-3.5-turbo erreicht. BayLing zeigt auch herausragende Leistungen bei der Wissensbewertung des chinesischen GaoKao und des englischen SAT und liegt unter einer Vielzahl von instruktionsfolgenden LLMs nur hinter GPT-3.5-turbo zurück. Demo, Homepage, Code und Modelle von BayLing sind verfügbar.
Sprachmodelle für Code (LMs) funktionieren gut, wenn der umgebende Code in der Nähe der Generierung ausreichend Kontext bietet. Dies trifft jedoch nicht zu, wenn es notwendig wird, Typen oder Funktionalitäten zu verwenden, die in einem anderen Modul oder einer Bibliothek definiert sind, insbesondere solchen, die während des Trainings nicht gesehen wurden. LMs leiden unter einem begrenzten Bewusstsein für solchen globalen Kontext und neigen dazu, Halluzinationen zu erzeugen, z. B. indem sie Typen, die in anderen Dateien definiert sind, falsch verwenden. Aktuelle Arbeiten versuchen, dieses Problem zu überwinden, indem sie globale Informationen abrufen, um den lokalen Kontext zu erweitern. Dies führt jedoch zu einer Aufblähung des Prompts oder erfordert Architekturänderungen und zusätzliches Training. Integrierte Entwicklungsumgebungen (IDEs) unterstützen Entwickler, indem sie den globalen Kontext mithilfe von statischer Analyse leicht zugänglich machen. Wir erweitern diese Unterstützung, die Entwickler genießen, auf die LMs. Wir schlagen das Konzept von Monitoren vor, die im Hintergrund statische Analyse verwenden, um die Dekodierung zu steuern. Im Gegensatz zu einem a-priori-Abruf wird die statische Analyse während des gesamten Dekodierungsprozesses iterativ aufgerufen und liefert die relevantesten Vorschläge bedarfsgerecht. Wir demonstrieren den Nutzen unseres Vorschlags, indem wir die typkonsistente Verwendung von Identifikatoren überwachen, sobald ein LM Code für die Objektdereferenzierung generiert. Um unseren Ansatz zu evaluieren, haben wir PragmaticCode kuratiert, einen Datensatz von Open-Source-Projekten mit ihren Entwicklungsumgebungen. An Modellen mit unterschiedlichem Parameterumfang zeigen wir, dass die monitor-gesteuerte Dekodierung die Fähigkeit eines LMs, nicht nur Identifikatoren zu generieren, die mit der Grundwahrheit übereinstimmen, sondern auch die Kompilierungsraten und die Übereinstimmung mit der Grundwahrheit, kontinuierlich verbessert. Wir stellen fest, dass LMs mit weniger Parametern, wenn sie mit unserem Monitor gesteuert werden, größere LMs übertreffen können. Mit monitor-gesteuerter Dekodierung erreicht SantaCoder-1.1B eine bessere Kompilierungsrate und Übereinstimmung des nächsten Identifikators als das viel größere text-davinci-003-Modell. Die Datensätze und der Code werden unter https://aka.ms/monitors4codegen veröffentlicht.
Speichererweiterung ist ein leistungsstarker Ansatz, um externe Informationen effizient in Sprachmodelle zu integrieren, führt jedoch im Vergleich zur Textabfrage zu einer reduzierten Leistung. Kürzlich wurde LUMEN eingeführt, ein Hybrid aus Speicher und Abfrage, der den Speicher teilweise vorberechnet und Speicherrepräsentationen mit einem kleineren Live-Encoder dynamisch aktualisiert. Wir schlagen GLIMMER vor, das diesen Ansatz durch 1) die Nutzung des freien Zugriffs auf die leistungsstarken Speicherrepräsentationen verbessert, indem ein flacher Neuordner auf den Speicher angewendet wird, um die Abfragequalität bei geringen Kosten drastisch zu verbessern, und 2) die Einbindung von Multi-Task-Training, um einen allgemeinen und qualitativ hochwertigeren Speicher und Live-Encoder zu erlernen. GLIMMER erzielt im Vergleich zu LUMEN und FiD auf dem KILT-Benchmark für wissensintensive Aufgaben deutliche Leistungssteigerungen bei schnelleren Geschwindigkeiten.
Großskalige Vision-Sprach-Modelle (VLM) haben beeindruckende Ergebnisse für sprachgesteuerte Suchanwendungen gezeigt. Während diese Modelle kategoriebasierte Abfragen ermöglichen, haben sie derzeit Schwierigkeiten mit personalisierten Suchen nach Momenten in einem Video, in denen eine spezifische Objektinstanz wie „Mein Hund Biscuit“ auftritt. Wir präsentieren die folgenden drei Beiträge, um dieses Problem zu adressieren. Erstens beschreiben wir eine Methode zur Meta-Personalisierung eines vortrainierten VLM, d. h. das Lernen, wie man ein VLM zur Laufzeit personalisiert, um in Videos zu suchen. Unsere Methode erweitert den Token-Wortschatz des VLM, indem sie neue Wort-Einbettungen lernt, die spezifisch für jede Instanz sind. Um nur instanzspezifische Merkmale zu erfassen, repräsentieren wir jede Instanz-Einbettung als eine Kombination aus gemeinsamen und gelernten globalen Kategoriemerkmalen. Zweitens schlagen wir vor, eine solche Personalisierung ohne explizite menschliche Überwachung zu erlernen. Unser Ansatz identifiziert automatisch Momente benannter visueller Instanzen in Videos mithilfe von Transkripten und der Vision-Sprach-Ähnlichkeit im Einbettungsraum des VLM. Schließlich führen wir This-Is-My, einen Benchmark für die personalisierte Videoinstanzsuche, ein. Wir evaluieren unseren Ansatz auf This-Is-My und DeepFashion2 und zeigen, dass wir eine relative Verbesserung von 15 % gegenüber dem Stand der Technik auf dem letzteren Datensatz erzielen.
Die Mehrspur-Musiktranskription zielt darauf ab, ein Musik-Audio-Eingangssignal gleichzeitig in die musikalischen Noten mehrerer Instrumente zu transkribieren. Es handelt sich um eine äußerst anspruchsvolle Aufgabe, die in der Regel ein komplexeres Modell erfordert, um zufriedenstellende Ergebnisse zu erzielen. Darüber hinaus konzentrieren sich frühere Arbeiten meist auf die Transkription von Standardinstrumenten, vernachlässigen jedoch die Gesangsstimmen, die in der Regel die wichtigste Signalquelle darstellen, wenn sie in einem Musikstück vorhanden sind. In diesem Artikel schlagen wir eine neuartige Deep-Neural-Network-Architektur, Perceiver TF, vor, um die Zeit-Frequenz-Darstellung des Audio-Eingangssignals für die Mehrspur-Transkription zu modellieren. Perceiver TF erweitert die Perceiver-Architektur durch die Einführung einer hierarchischen Erweiterung mit einer zusätzlichen Transformer-Schicht, um die zeitliche Kohärenz zu modellieren. Dementsprechend erbt unser Modell die Vorteile von Perceiver, die eine bessere Skalierbarkeit bieten, wodurch es in der Lage ist, die Transkription vieler Instrumente in einem einzigen Modell gut zu bewältigen. In den Experimenten trainieren wir einen Perceiver TF, um 12 Instrumentenklassen sowie Gesang in einem Multi-Task-Learning-Ansatz zu modellieren. Unsere Ergebnisse zeigen, dass das vorgeschlagene System auf verschiedenen öffentlichen Datensätzen die state-of-the-art Gegenstücke (z. B. MT3 und SpecTNT) übertrifft.