Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Vision Transformer (ViTs) auf Basis von Self-Attention haben sich als äußerst wettbewerbsfähige Architektur in der Computer Vision etabliert. Im Gegensatz zu Convolutional Neural Networks (CNNs) ermöglichen ViTs den globalen Informationsaustausch. Mit der Entwicklung verschiedener ViT-Strukturen werden ViTs zunehmend vorteilhaft für viele Vision-Aufgaben. Allerdings führt die quadratische Komplexität der Self-Attention dazu, dass ViTs rechenintensiv sind, und ihr Mangel an induktiven Verzerrungen wie Lokalität und Translationsäquivarianz erfordert im Vergleich zu CNNs größere Modellgrößen, um visuelle Merkmale effektiv zu erlernen. In diesem Artikel schlagen wir ein leichtgewichtiges und effizientes Vision-Transformer-Modell namens DualToken-ViT vor, das die Vorteile von CNNs und ViTs nutzt. DualToken-ViT fusioniert effektiv den Token mit lokalen Informationen, die durch eine convolution-basierte Struktur gewonnen werden, und den Token mit globalen Informationen, die durch eine self-attention-basierte Struktur erzielt werden, um eine effiziente Aufmerksamkeitsstruktur zu erreichen. Darüber hinaus verwenden wir position-sensitive globale Token in allen Phasen, um die globalen Informationen zu bereichern, was die Wirkung von DualToken-ViT weiter verstärkt. Position-sensitive globale Token enthalten auch die Positionsinformationen des Bildes, was unser Modell besser für Vision-Aufgaben geeignet macht. Wir haben umfangreiche Experimente zu Bildklassifizierung, Objekterkennung und semantischer Segmentierung durchgeführt, um die Effektivität von DualToken-ViT zu demonstrieren. Auf dem ImageNet-1K-Datensatz erreichen unsere Modelle unterschiedlicher Größen Genauigkeiten von 75,4 % und 79,4 % mit nur 0,5G und 1,0G FLOPs, und unser Modell mit 1,0G FLOPs übertrifft LightViT-T, das globale Token verwendet, um 0,7 %.
Wir präsentieren MosaicFusion, einen einfachen, aber effektiven, auf Diffusion basierenden Ansatz zur Datenaugmentierung für die Instanzsegmentierung mit großem Vokabular. Unsere Methode ist trainingsfrei und benötigt keine Label-Supervision. Zwei Schlüsseldesigns ermöglichen es uns, ein Standard-Text-zu-Bild-Diffusionsmodell als nützlichen Datensatzgenerator für Objektinstanzen und Maskenanmerkungen einzusetzen. Erstens teilen wir eine Bildfläche in mehrere Regionen auf und führen eine einzelne Runde des Diffusionsprozesses durch, um mehrere Instanzen gleichzeitig zu generieren, die auf verschiedenen Textprompts basieren. Zweitens erhalten wir entsprechende Instanzmasken, indem wir Cross-Attention-Maps, die mit Objektprompts über Schichten und Diffusionszeitpunkte verknüpft sind, aggregieren, gefolgt von einfacher Schwellwertbildung und kantenbewusster Nachbearbeitung. Ohne Schnickschnack kann unser MosaicFusion eine beträchtliche Menge an synthetischen, gelabelten Daten sowohl für seltene als auch für neue Kategorien erzeugen. Experimentelle Ergebnisse auf den anspruchsvollen LVIS-Benchmarks für langschwänzige und offene Vokabulare zeigen, dass MosaicFusion die Leistung bestehender Instanzsegmentierungsmodelle erheblich verbessern kann, insbesondere für seltene und neue Kategorien. Der Code wird unter https://github.com/Jiahao000/MosaicFusion veröffentlicht.
Das Pruning von neuronalen Netzen bietet eine effektive Methode zur Komprimierung eines mehrsprachigen automatischen Spracherkennungsmodells (ASR) mit minimalem Leistungsverlust. Allerdings erfordert es mehrere Runden von Pruning und erneuten Training, die für jede Sprache durchgeführt werden müssen. In dieser Arbeit schlagen wir den Einsatz eines adaptiven Maskierungsansatzes in zwei Szenarien vor, um ein mehrsprachiges ASR-Modell effizient zu prunen, wobei jeweils spärliche einsprachige Modelle oder ein spärliches mehrsprachiges Modell (genannt Dynamic ASR Pathways) entstehen. Unser Ansatz passt das Teilnetzwerk dynamisch an und vermeidet somit vorzeitige Entscheidungen über eine feste Teilnetzwerkstruktur. Wir zeigen, dass unser Ansatz bestehende Pruning-Methoden übertrifft, wenn es darum geht, spärliche einsprachige Modelle zu erzeugen. Darüber hinaus demonstrieren wir, dass Dynamic ASR Pathways gemeinsam bessere Teilnetzwerke (Pathways) eines einzelnen mehrsprachigen Modells entdeckt und trainiert, indem es von verschiedenen Teilnetzwerk-Initialisierungen ausgeht, wodurch der Bedarf für sprachspezifisches Pruning reduziert wird.
Das Vortraining auf Internetdaten hat sich als ein Schlüsselelement für breite Generalisierung in vielen modernen ML-Systemen erwiesen. Was wäre nötig, um solche Fähigkeiten im Bereich des robotischen Reinforcement Learning (RL) zu ermöglichen? Offline-RL-Methoden, die aus Datensätzen von Robotererfahrungen lernen, bieten eine Möglichkeit, vorhandene Daten in den robotischen Lernprozess zu integrieren. Diese Methoden weisen jedoch eine „Typeninkongruenz“ mit Videodaten (wie z. B. Ego4D) auf, den größten verfügbaren Datensätzen für die Robotik, da Videos nur Beobachtungen ohne die für RL-Methoden erforderlichen Aktions- oder Belohnungsannotationen liefern. In diesem Artikel entwickeln wir ein System, das groß angelegte menschliche Videodatensätze für das robotische Offline-RL nutzt, basierend ausschließlich auf dem Lernen von Wertfunktionen durch Temporal-Difference-Learning. Wir zeigen, dass das Lernen von Werten auf Videodatensätzen Repräsentationen erzeugt, die besser für nachgelagerte robotische Offline-RL geeignet sind als andere Ansätze zum Lernen aus Videodaten. Unser System, genannt V-PTR, kombiniert die Vorteile des Vortrainings auf Videodaten mit robotischen Offline-RL-Ansätzen, die auf diversen Roboterdaten trainieren, und führt zu Wertfunktionen und Strategien für Manipulationsaufgaben, die besser abschneiden, robust agieren und breit generalisieren. Bei mehreren Manipulationsaufgaben an einem realen WidowX-Roboter erzeugt unser Framework Strategien, die eine deutliche Verbesserung gegenüber früheren Methoden darstellen. Unser Video und weitere Details finden Sie unter https://dibyaghosh.com/vptr/.