Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Der Aufstieg großer Sprachmodelle (LLMs) und Instruktionstuning hat zur aktuellen Entwicklung von instruktionsangepassten großen Sprach- und Bildmodellen (LLVMs) geführt. Diese Entwicklung beinhaltet entweder die sorgfältige Zusammenstellung zahlreicher instruktionsangepasster Datensätze, die auf spezifische Ziele zugeschnitten sind, oder die Vergrößerung von LLVMs, um riesige Mengen an Bildsprachdaten zu verarbeiten. Aktuelle LLVMs haben jedoch die detaillierte und umfassende Echtwelt-Szenenverständnis, das von spezialisierten Computer Vision (CV) Modellen in visuellen Wahrnehmungsaufgaben wie Segmentierung, Detektion, Szenengraphenerstellung (SGG) und optischer Zeichenerkennung (OCR) verfügbar ist, vernachlässigt. Stattdessen stützen sich die bestehenden LLVMs hauptsächlich auf die große Kapazität und aufkommenden Fähigkeiten ihrer LLM-Grundlagen. Daher präsentieren wir ein neues LLVM, Mixture of All Intelligence (MoAI), das auf zusätzlichen visuellen Informationen basiert, die aus den Ausgaben externer Segmentierungs-, Detektions-, SGG- und OCR-Modelle gewonnen wurden. MoAI arbeitet mit zwei neu eingeführten Modulen: MoAI-Kompressor und MoAI-Mixer. Nach der verbalen Darstellung der Ausgaben der externen CV-Modelle richtet und verdichtet der MoAI-Kompressor diese, um relevante zusätzliche visuelle Informationen effizient für VL-Aufgaben zu nutzen. MoAI-Mixer mischt dann drei Arten von Intelligenz (1) visuelle Merkmale, (2) zusätzliche Merkmale aus den externen CV-Modellen und (3) Sprachmerkmale unter Verwendung des Konzepts der Mischung von Experten. Durch diese Integration übertrifft MoAI signifikant sowohl Open-Source als auch Closed-Source LLVMs in zahlreichen Zero-Shot VL-Aufgaben, insbesondere solchen, die mit dem Echtwelt-Szenenverständnis wie Objektexistenz, Positionen, Beziehungen und OCR zusammenhängen, ohne die Modellgröße zu vergrößern oder zusätzliche visuelle Instruktionstuning-Datensätze zusammenzustellen.
Wir stellen Chronos vor, ein einfaches, aber effektives Framework für vortrainierte probabilistische Zeitreihenmodelle. Chronos tokenisiert Zeitreihenwerte mithilfe von Skalierung und Quantisierung in ein festes Vokabular und trainiert bestehende auf Transformer basierende Sprachmodellarchitekturen auf diesen tokenisierten Zeitreihen mittels des Kreuzentropieverlusts. Wir haben Chronos-Modelle basierend auf der T5-Familie (mit Parametern von 20M bis 710M) auf einer großen Sammlung öffentlich verfügbarer Datensätze vortrainiert, ergänzt durch einen synthetischen Datensatz, den wir mithilfe von Gauß'schen Prozessen generiert haben, um die Verallgemeinerung zu verbessern. In einem umfassenden Benchmark, bestehend aus 42 Datensätzen und sowohl klassischen lokalen Modellen als auch Deep-Learning-Methoden, zeigen wir, dass Chronos-Modelle: (a) signifikant bessere Leistungen auf Datensätzen erbringen, die Teil des Trainingskorpus waren; und (b) vergleichbare und gelegentlich überlegene Zero-Shot-Leistungen auf neuen Datensätzen aufweisen, im Vergleich zu Methoden, die speziell darauf trainiert wurden. Unsere Ergebnisse zeigen, dass Chronos-Modelle Zeitreihendaten aus verschiedenen Bereichen nutzen können, um die Zero-Shot-Genauigkeit bei unerwarteten Prognoseaufgaben zu verbessern und vortrainierte Modelle als ein geeignetes Werkzeug positionieren, um Prognosepipelines erheblich zu vereinfachen.
Wir untersuchen effiziente Methoden zur Schulung von Large Language Models (LLMs), um Fähigkeiten in mehreren spezialisierten Bereichen wie Codierung, mathematischer Logik und Weltwissen zu erlangen. Unsere Methode, namens Branch-Train-MiX (BTX), beginnt mit einem Ausgangsmodell, das verzweigt wird, um Experten in peinlich paralleler Weise mit hoher Durchsatzrate und reduzierten Kommunikationskosten zu schulen. Nachdem die einzelnen Experten asynchron geschult wurden, bringt BTX ihre Feedforward-Parameter als Experten in Mixture-of-Expert (MoE)-Schichten zusammen und mittelt die verbleibenden Parameter, gefolgt von einer MoE-Feinabstimmungsphase, um das Routing auf Token-Ebene zu erlernen. BTX verallgemeinert zwei spezielle Fälle, die Branch-Train-Merge-Methode, die keine MoE-Feinabstimmungsphase zum Erlernen des Routings hat, und das sparse upcycling, das die Phase des asynchronen Trainings von Experten auslässt. Im Vergleich zu alternativen Ansätzen erzielt BTX das beste Verhältnis von Genauigkeit und Effizienz.
Die Erstellung hochwertiger, von Menschen gelabelter Bildunterschriftsdatensätze stellt einen bedeutenden Engpass bei der Entwicklung von Visual-Language-Modellen (VLMs) dar. Wir schlagen einen innovativen Ansatz vor, der die Stärken großer Sprachmodelle (LLMs) und Bildgenerierungsmodelle nutzt, um synthetische Bild-Text-Paare für eine effiziente und effektive VLM-Schulung zu erstellen. Unsere Methode verwendet das Vortrainieren eines Text-zu-Bild-Modells, um Bild-Einbettungen aus Bildunterschriften zu synthetisieren, die von einem LLM generiert wurden. Diese synthetischen Paare werden dann zur Schulung eines VLMs verwendet. Umfangreiche Experimente zeigen, dass das mit synthetischen Daten trainierte VLM vergleichbare Leistungen bei der Bildunterschrift aufweist, während es nur einen Bruchteil der Daten benötigt, die von Modellen verwendet werden, die ausschließlich auf menschlich annotierten Daten trainiert wurden. Insbesondere übertreffen wir die Basislinie um 17% durch die Erweiterung um einen synthetischen Datensatz. Darüber hinaus zeigen wir, dass die Synthese im Bild-Einbettungsraum um 25% schneller ist als im Pixelraum. Diese Forschung stellt eine vielversprechende Technik zur Erzeugung groß angelegter, anpassbarer Bilddatensätze vor, die zu einer verbesserten Leistung von VLMs und einer breiteren Anwendbarkeit in verschiedenen Bereichen führt, und das alles bei verbesserter Dateneffizienz und Ressourcennutzung.
Die Generierung menschlicher Bewegungen stellt eine bedeutende Verfolgung in der generativen Computer Vision dar, während die Erreichung einer effizienten Bewegungsgenerierung für lange Sequenzen eine Herausforderung darstellt. Kürzliche Fortschritte in Zustandsraummodellen (SSMs), insbesondere Mamba, haben beträchtliches Potenzial in der Modellierung langer Sequenzen mit einem effizienten, hardwarebewussten Design gezeigt, das sich als vielversprechende Richtung für den Aufbau eines Bewegungsgenerierungsmodells darstellt. Dennoch stoßen Anpassungen von SSMs an die Bewegungsgenerierung auf Hindernisse, da es an einer spezialisierten Designarchitektur zur Modellierung von Bewegungssequenzen mangelt. Um diesen Herausforderungen zu begegnen, schlagen wir Motion Mamba vor, einen einfachen und effizienten Ansatz, der das wegweisende Bewegungsgenerierungsmodell auf SSMs basierend nutzt. Konkret entwerfen wir einen Hierarchischen Temporalen Mamba (HTM)-Block zur Verarbeitung von zeitlichen Daten durch das Zusammenführen verschiedener isolierter SSM-Module über eine symmetrische U-Net-Architektur, die darauf abzielt, die Bewegungskonsistenz zwischen Frames zu bewahren. Wir entwerfen auch einen Bidirektionalen Räumlichen Mamba (BSM)-Block zur bidirektionalen Verarbeitung latenter Posen, um die präzise Bewegungsgenerierung innerhalb eines zeitlichen Rahmens zu verbessern. Unsere vorgeschlagene Methode erzielt eine bis zu 50%ige Verbesserung des FID und ist bis zu 4-mal schneller auf den HumanML3D- und KIT-ML-Datensätzen im Vergleich zur vorherigen besten diffusionsbasierten Methode, was starke Fähigkeiten in der hochwertigen Modellierung langer Sequenzen von Bewegungen und der Echtzeitgenerierung menschlicher Bewegungen zeigt. Besuchen Sie die Projektwebsite unter https://steve-zeyu-zhang.github.io/MotionMamba/
Wir stellen DragAnything vor, das eine Entitätsdarstellung nutzt, um die Bewegungssteuerung für jedes Objekt in der steuerbaren Videogenerierung zu erreichen. Im Vergleich zu bestehenden Bewegungssteuerungsmethoden bietet DragAnything mehrere Vorteile. Erstens ist die auf Trajektorien basierende Methode benutzerfreundlicher für die Interaktion, da der Erwerb anderer Leitsignale (z. B. Masken, Tiefenkarten) arbeitsintensiv ist. Benutzer müssen nur eine Linie (Trajektorie) während der Interaktion zeichnen. Zweitens dient unsere Entitätsdarstellung als Open-Domain-Einbettung, die in der Lage ist, jedes Objekt darzustellen und die Steuerung der Bewegung für verschiedene Entitäten, einschließlich des Hintergrunds, zu ermöglichen. Schließlich ermöglicht unsere Entitätsdarstellung eine gleichzeitige und unterschiedliche Bewegungssteuerung für mehrere Objekte. Umfangreiche Experimente zeigen, dass unser DragAnything eine Spitzenleistung für FVD, FID und Benutzerstudien erzielt, insbesondere in Bezug auf die Objektbewegungssteuerung, wobei unsere Methode die bisherigen Methoden (z. B. DragNUWA) um 26% in der menschlichen Bewertung übertrifft.
Wir präsentieren FAX, eine auf JAX basierende Bibliothek, die für die Unterstützung von verteilten und föderierten Berechnungen im großen Maßstab in Rechenzentren und plattformübergreifenden Anwendungen entwickelt wurde. FAX nutzt JAX's Sharding-Mechanismen, um eine native Ausrichtung auf TPUs und modernste JAX-Laufzeiten, einschließlich Pathways, zu ermöglichen. FAX integriert Bausteine für föderierte Berechnungen als Primitiven in JAX. Dies bietet drei wesentliche Vorteile. Erstens können FAX-Berechnungen in XLA HLO übersetzt werden. Zweitens bietet FAX eine vollständige Implementierung der föderierten automatischen Differentiation, was die Ausdrucksweise von föderierten Berechnungen erheblich vereinfacht. Schließlich können FAX-Berechnungen in bestehende produktionsreife plattformübergreifende föderierte Rechensysteme interpretiert werden. Wir zeigen, dass FAX ein leicht programmierbares, leistungsstarkes und skalierbares Framework für föderierte Berechnungen im Rechenzentrum bietet. FAX ist verfügbar unter https://github.com/google-research/google-research/tree/master/fax.
Ein offenes Problem in der mobilen Manipulation ist, wie Objekte und Szenen in einer vereinheitlichten Weise dargestellt werden können, damit Roboter sie sowohl zur Navigation in der Umgebung als auch zur Manipulation von Objekten verwenden können. Letzteres erfordert das Erfassen komplexer Geometrie und das Verständnis feingranularer Semantik, während Ersteres die Erfassung der Komplexität beinhaltet, die einer umfangreichen physischen Skala innewohnt. In dieser Arbeit präsentieren wir GeFF (Generalizable Feature Fields), ein auf Szenenebene generalisierbares neuronales Merkmalsfeld, das als vereinheitlichte Darstellung sowohl für Navigation als auch Manipulation fungiert und in Echtzeit funktioniert. Hierfür behandeln wir die generative Neuansichtssynthese als eine Vortrainingsaufgabe und gleichen dann die resultierenden reichen Szeneprioritäten über CLIP-Merkmaldestillation mit natürlicher Sprache ab. Wir zeigen die Wirksamkeit dieses Ansatzes, indem wir GeFF auf einem vierbeinigen Roboter mit Manipulator einsetzen. Wir bewerten die Fähigkeit von GeFF, sich auf Objekte in offenen Sets zu verallgemeinern, sowie die Ausführungszeit bei der Durchführung von mobiler Manipulation mit offener Vokabel in dynamischen Szenen.