Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen Florence-2 vor, ein neuartiges Vision-Foundation-Modell mit einer einheitlichen, prompt-basierten Repräsentation für eine Vielzahl von Computer-Vision- und Vision-Language-Aufgaben. Während bestehende große Vision-Modelle im Transferlernen hervorragend abschneiden, haben sie Schwierigkeiten, eine Vielzahl von Aufgaben mit einfachen Anweisungen auszuführen – eine Fähigkeit, die den Umgang mit der Komplexität verschiedener räumlicher Hierarchien und semantischer Granularität voraussetzt. Florence-2 wurde entwickelt, um Text-Prompts als Aufgabenanweisungen zu verwenden und gewünschte Ergebnisse in Textform zu generieren, sei es Bildbeschreibung, Objekterkennung, Grounding oder Segmentierung. Dieses Multi-Task-Learning-Setup erfordert groß angelegte, hochwertig annotierte Daten. Zu diesem Zweck haben wir FLD-5B mitentwickelt, das 5,4 Milliarden umfassende visuelle Annotationen auf 126 Millionen Bildern umfasst, wobei eine iterative Strategie der automatisierten Bildannotation und Modellverfeinerung verwendet wurde. Wir haben eine Sequenz-zu-Sequenz-Struktur übernommen, um Florence-2 für vielseitige und umfassende Vision-Aufgaben zu trainieren. Umfangreiche Evaluierungen auf zahlreichen Aufgaben zeigten, dass Florence-2 ein starker Kandidat für ein Vision-Foundation-Modell mit beispiellosen Zero-Shot- und Fine-Tuning-Fähigkeiten ist.
Die Erreichung einer menschenähnlichen Planung und Steuerung mit multimodalen Beobachtungen in einer offenen Welt ist ein entscheidender Meilenstein für funktionalere Generalisten-Agenten. Bestehende Ansätze können bestimmte langfristige Aufgaben in einer offenen Welt bewältigen. Sie haben jedoch noch Schwierigkeiten, wenn die Anzahl der Aufgaben in der offenen Welt potenziell unendlich ist, und es fehlt ihnen die Fähigkeit, die Aufgabenbewältigung mit fortschreitender Spielzeit kontinuierlich zu verbessern. Wir stellen JARVIS-1 vor, einen Agenten für offene Welten, der multimodale Eingaben (visuelle Beobachtungen und menschliche Anweisungen) wahrnehmen, anspruchsvolle Pläne erstellen und eine verkörperte Steuerung durchführen kann – alles innerhalb des beliebten und doch herausfordernden Open-World-Universums von Minecraft. Konkret entwickeln wir JARVIS-1 auf der Grundlage vortrainierter multimodaler Sprachmodelle, die visuelle Beobachtungen und textuelle Anweisungen in Pläne umsetzen. Diese Pläne werden schließlich an zielorientierte Controller weitergeleitet. Wir statten JARVIS-1 mit einem multimodalen Gedächtnis aus, das die Planung sowohl mit vortrainiertem Wissen als auch mit seinen tatsächlichen Spielerfahrungen unterstützt. In unseren Experimenten zeigt JARVIS-1 nahezu perfekte Leistungen bei über 200 verschiedenen Aufgaben des Minecraft Universe Benchmarks, die von Einsteiger- bis zu mittleren Schwierigkeitsgraden reichen. JARVIS-1 hat eine Abschlussrate von 12,5 % bei der langfristigen Aufgabe „Diamantspitzhacke“ erreicht. Dies stellt eine signifikante Steigerung um bis zu das Fünffache im Vergleich zu bisherigen Rekorden dar. Darüber hinaus zeigen wir, dass JARVIS-1 dank des multimodalen Gedächtnisses in der Lage ist, sich im Rahmen eines lebenslangen Lernparadigmas selbst zu verbessern, was eine allgemeinere Intelligenz und eine gesteigerte Autonomie fördert. Die Projektseite ist unter https://craftjarvis-jarvis1.github.io verfügbar.
Text-to-3D mit Diffusionsmodellen hat in den letzten Jahren bemerkenswerte Fortschritte erzielt. Allerdings basieren bestehende Methoden entweder auf einer optimierungsbasierten Score-Distillation, die unter langsamer Inferenz, geringer Diversität und Janus-Problemen leidet, oder es handelt sich um Feed-Forward-Methoden, die aufgrund der Knappheit von 3D-Trainingsdaten qualitativ minderwertige Ergebnisse erzeugen. In diesem Artikel stellen wir Instant3D vor, eine neuartige Methode, die hochwertige und vielfältige 3D-Assets aus Textprompts in einem Feed-Forward-Verfahren generiert. Wir verwenden ein zweistufiges Paradigma, bei dem zunächst mit einem feinabgestimmten 2D-Text-to-Image-Diffusionsmodell in einem Schritt eine spärliche Menge von vier strukturierten und konsistenten Ansichten aus Text erzeugt wird. Anschließend wird das NeRF direkt aus den generierten Bildern mit einem neuartigen transformerbasierten Sparse-View-Rekonstruktor regressiert. Durch umfangreiche Experimente zeigen wir, dass unsere Methode hochwertige, vielfältige und Janus-freie 3D-Assets innerhalb von 20 Sekunden erzeugen kann, was zwei Größenordnungen schneller ist als bisherige optimierungsbasierte Methoden, die 1 bis 10 Stunden benötigen. Unsere Projektwebseite: https://jiahao.ai/instant3d/.
Wir stellen Lumos vor, ein neuartiges Framework für das Training von Sprachagenten, das ein einheitliches Datenformat und eine modulare Architektur auf Basis von Open-Source-Großsprachmodellen (LLMs) verwendet. Lumos besteht aus drei verschiedenen Modulen: Planung, Verankerung und Ausführung. Das Planungsmodul zerlegt eine Aufgabe in eine Reihe von hochrangigen, werkzeugunabhängigen Teilzielen, die dann durch das Verankerungsmodul in eine Menge von niedrigrangigen Aktionen konkretisiert werden. Diese Aktionen werden anschließend vom Ausführungsmodul unter Verwendung einer Reihe von Standardwerkzeugen und APIs ausgeführt. Um diese Module effektiv zu trainieren, wurden hochwertige Annotationen von Teilzielen und Aktionen gesammelt und stehen für das Feinabstimmen von Open-Source-LLMs für verschiedene Aufgaben wie komplexe Fragebeantwortung, Webaufgaben und mathematische Probleme zur Verfügung. Durch die Nutzung dieser einheitlichen Daten und des modularen Designs erreicht Lumos nicht nur vergleichbare oder überlegene Leistungen im Vergleich zu aktuellen, state-of-the-art Agenten, sondern zeigt auch mehrere Schlüsselvorteile: (1) Lumos übertrifft GPT-4/3.5-basierte Agenten bei komplexer Fragebeantwortung und Webaufgaben, während es die Leistung von deutlich größeren LLM-Agenten bei mathematischen Aufgaben erreicht; (2) Lumos übertrifft Open-Source-Agenten, die mit konventionellen Trainingsmethoden erstellt wurden, sowie solche, die Chain-of-Thoughts-Training verwenden; und (3) Lumos ist in der Lage, effektiv auf unbekannte interaktive Aufgaben zu generalisieren, wobei es größere LLM-basierte Agenten übertrifft und sogar die Leistung von spezialisierten Agenten übersteigt.
Große Sprachmodelle (LLMs) zeichnen sich in vielen Aufgaben der NLP und darüber hinaus aus, aber die meisten offenen Modelle haben eine sehr begrenzte Abdeckung kleinerer Sprachen, und die Arbeit mit LLMs konzentriert sich tendenziell auf Sprachen, in denen nahezu unbegrenzte Daten für das Vortraining verfügbar sind. In dieser Arbeit untersuchen wir die Herausforderungen bei der Erstellung von LLMs für Finnisch, eine Sprache, die von weniger als 0,1 % der Weltbevölkerung gesprochen wird. Wir stellen einen umfangreichen Datensatz für Finnisch zusammen, der Web-Crawls, Nachrichten, soziale Medien und E-Books kombiniert. Wir verfolgen zwei Ansätze für das Vortraining von Modellen: 1) Wir trainieren sieben monolinguale Modelle von Grund auf (186M bis 13B Parameter), die wir FinGPT nennen, 2) wir setzen das Vortraining des mehrsprachigen BLOOM-Modells mit einer Mischung aus seinen ursprünglichen Trainingsdaten und Finnisch fort, was zu einem 176 Milliarden Parameter umfassenden Modell führt, das wir BLUUMI nennen. Für die Modellbewertung führen wir FIN-bench ein, eine Version von BIG-bench mit finnischen Aufgaben. Wir bewerten auch andere Modellqualitäten wie Toxizität und Verzerrung. Unsere Modelle und Tools sind offen verfügbar unter https://turkunlp.org/gpt3-finnish.
Prompt Engineering ist eine anspruchsvolle, aber entscheidende Aufgabe, um die Leistung großer Sprachmodelle (LLMs) zu optimieren. Es erfordert komplexes Denken, um die Fehler des Modells zu analysieren, Hypothesen darüber aufzustellen, was in der aktuellen Eingabeaufforderung fehlt oder irreführend ist, und die Aufgabe klar zu kommunizieren. Obwohl aktuelle Arbeiten darauf hindeuten, dass LLMs durch Meta-Prompting automatisches Prompt Engineering durchführen können, wird ihr Potenzial möglicherweise nicht vollständig ausgeschöpft, da es an ausreichender Anleitung mangelt, um die komplexen Denkfähigkeiten der LLMs im Meta-Prompt zu aktivieren. In dieser Arbeit untersuchen wir das Problem des "Prompt Engineerings eines Prompt Engineers" – die Konstruktion eines Meta-Prompts, der LLMs effektiver dazu anleitet, automatisches Prompt Engineering durchzuführen. Wir führen Schlüsselkomponenten ein und analysieren sie, wie z. B. eine Schritt-für-Schritt-Denkvorlage und Kontextspezifikation, die zu einer verbesserten Leistung führen. Darüber hinaus führen wir, inspiriert von gängigen Optimierungskonzepten wie Batch-Größe, Schrittweite und Momentum, deren verbalisierte Gegenstücke in den Meta-Prompt ein und untersuchen ihre Auswirkungen. Unsere endgültige Methode, genannt PE2, findet eine Eingabeaufforderung, die "let's think step by step" um 6,3 % auf dem MultiArith-Datensatz und um 3,1 % auf dem GSM8K-Datensatz übertrifft. Um ihre Vielseitigkeit zu demonstrieren, wenden wir PE2 auf den Instruction Induction Benchmark, eine Reihe von kontrafaktischen Aufgaben und eine umfangreiche, reale industrielle Eingabeaufforderung an. In diesen Kontexten erzielt PE2 eine starke Leistung und übertrifft frühere Baselines für automatisches Prompt Engineering. Darüber hinaus zeigen wir, dass PE2 sinnvolle und gezielte Änderungen an Eingabeaufforderungen vornimmt, fehlerhafte oder unvollständige Eingabeaufforderungen korrigiert und nicht-triviale kontrafaktische Denkfähigkeiten aufweist.
Logisches Denken ist ein grundlegender Aspekt der menschlichen Intelligenz und eine Schlüsselkomponente bei Aufgaben wie Problemlösung und Entscheidungsfindung. Jüngste Fortschritte haben es großen Sprachmodellen (Large Language Models, LLMs) ermöglicht, potenziell Fähigkeiten zum logischen Schlussfolgern zu zeigen, doch komplexes logisches Denken bleibt eine Herausforderung. Der aktuelle Stand der Technik, solver-augmentierte Sprachmodelle, verwendet LLMs, um logische Fragen in natürlicher Sprache zunächst in symbolische Darstellungen zu übersetzen, und setzt dann externe logische Solver ein, die diese symbolischen Darstellungen verarbeiten und die Antworten liefern. Trotz ihrer beeindruckenden Leistung führen etwaige Übersetzungsfehler unweigerlich zum Scheitern der Ausführung des externen logischen Solvers und somit zu keiner Antwort auf die logischen Fragen. In diesem Artikel stellen wir LoGiPT vor, ein neuartiges Sprachmodell, das die Denkprozesse logischer Solver direkt nachahmt und Übersetzungsfehler umgeht, indem es lernt, sich strikt an die Syntax und Grammatik der Solver zu halten. LoGiPT wird auf einem neu erstellten Instruktions-Tuning-Datensatz feinabgestimmt, der durch die Offenlegung und Verfeinerung des unsichtbaren Denkprozesses deduktiver Solver gewonnen wurde. Experimentelle Ergebnisse auf zwei öffentlichen Datensätzen zur deduktiven Argumentation zeigen, dass LoGiPT den aktuellen solver-augmentierten Sprachmodellen sowie Few-Shot-Prompting-Methoden auf konkurrenzfähigen LLMs wie ChatGPT oder GPT-4 überlegen ist.
Große Foundation-Modelle werden allgegenwärtig, aber das Training von Grund auf ist prohibitiv teuer. Daher wird die effiziente Anpassung dieser leistungsstarken Modelle an nachgelagerte Aufgaben zunehmend wichtiger. In diesem Artikel untersuchen wir ein prinzipielles Feinabstimmungs-Paradigma – Orthogonale Feinabstimmung (Orthogonal Finetuning, OFT) – für die Anpassung an nachgelagerte Aufgaben. Obwohl OFT eine gute Generalisierbarkeit zeigt, verwendet es aufgrund der hohen Dimensionalität orthogonaler Matrizen immer noch eine recht große Anzahl trainierbarer Parameter. Um dies zu adressieren, beginnen wir damit, OFT aus einer Informationsübertragungsperspektive zu betrachten und identifizieren dann einige Schlüsselkriterien, die eine bessere Parameter-Effizienz ermöglichen. Inspiriert davon, wie der Cooley-Tukey-Algorithmus für die schnelle Fourier-Transformation eine effiziente Informationsübertragung ermöglicht, schlagen wir eine effiziente orthogonale Parametrisierung unter Verwendung von Butterfly-Strukturen vor. Wir wenden diese Parametrisierung auf OFT an und schaffen so eine neuartige, parameter-effiziente Feinabstimmungsmethode, genannt Orthogonal Butterfly (BOFT). Indem BOFT OFT als Spezialfall umfasst, führt es einen verallgemeinerten Rahmen für orthogonale Feinabstimmung ein. Schließlich führen wir eine umfangreiche empirische Studie durch, in der wir große Vision-Transformer, große Sprachmodelle und Text-zu-Bild-Diffusionsmodelle an verschiedene nachgelagerte Aufgaben in den Bereichen Vision und Sprache anpassen.
Faltungsmodelle mit langen Filtern haben in vielen Aufgaben mit langen Sequenzen state-of-the-art Fähigkeiten im Bereich des Schlussfolgerns demonstriert, hinken jedoch den am stärksten optimierten Transformern in Bezug auf die Echtzeitleistung hinterher. Ein wesentlicher Engpass ist die Schnelle Fourier-Transformation (FFT), die es ermöglicht, lange Faltungen in O(N logN) Zeit bezogen auf die Sequenzlänge N auszuführen, jedoch eine schlechte Hardwareauslastung aufweist. In dieser Arbeit untersuchen wir, wie die FFT-Faltung optimiert werden kann. Wir identifizieren zwei zentrale Engpässe: Die FFT nutzt spezialisierte Matrix-Multiplikationseinheiten nicht effektiv und verursacht teure I/O-Operationen zwischen den Ebenen der Speicherhierarchie. Als Antwort darauf schlagen wir FlashFFTConv vor. FlashFFTConv verwendet eine Matrixzerlegung, die die FFT mithilfe von Matrix-Multiplikationseinheiten berechnet und Kernel-Fusion für lange Sequenzen ermöglicht, wodurch I/O reduziert wird. Wir stellen außerdem zwei Algorithmen für spärliche Faltungen vor – 1) partielle Faltungen und 2) frequenzspärliche Faltungen – die einfach durch das Überspringen von Blöcken in der Matrixzerlegung implementiert werden können, was weitere Möglichkeiten zur Einsparung von Speicher und Rechenleistung bietet. FlashFFTConv beschleunigt exakte FFT-Faltungen um bis zu 7,93-mal gegenüber PyTorch und erreicht eine bis zu 4,4-fache Beschleunigung end-to-end. Bei gleichem Rechenbudget ermöglicht FlashFFTConv Hyena-GPT-s, eine um 2,3 Punkte bessere Perplexität auf dem PILE zu erreichen, und M2-BERT-base, eine um 3,3 Punkte höhere GLUE-Bewertung zu erzielen – was Modellen mit doppelter Parameteranzahl entspricht. FlashFFTConv erreicht außerdem eine Genauigkeit von 96,1 % auf Path-512, einer hochauflösenden Bildverarbeitungsaufgabe, bei der bisher kein Modell eine bessere Genauigkeit als 50 % erzielt hatte. Darüber hinaus ermöglichen partielle Faltungen Modelle für längere Sequenzen – was das erste DNA-Modell hervorbringt, das die längsten menschlichen Gene (2,3 Millionen Basenpaare) verarbeiten kann – und frequenzspärliche Faltungen beschleunigen vortrainierte Modelle, während die Modellqualität erhalten bleibt oder sogar verbessert wird.
Große Sprachmodelle (LLMs) werden zunehmend für interaktive Entscheidungsfindungsaufgaben eingesetzt, die Planung und Anpassung an die Umgebung erfordern. Aktuelle Arbeiten verwenden LLMs als Agenten im Wesentlichen auf zwei Arten: iteratives Bestimmen der nächsten Aktion (iterative Executoren) oder das Generieren von Plänen und das Ausführen von Teilaufgaben mithilfe von LLMs (Plan-and-Execute). Diese Methoden stoßen jedoch bei der Bewältigung von Aufgabenkomplexität an Grenzen, da die Unfähigkeit, eine Teilaufgabe auszuführen, zum Scheitern der gesamten Aufgabe führen kann. Um diese Schwächen zu beheben, stellen wir As-Needed Decomposition and Planning for Complex Tasks (ADaPT) vor, einen Ansatz, der komplexe Teilaufgaben explizit plant und bei Bedarf, d. h. wenn das LLM sie nicht ausführen kann, zerlegt. ADaPT zerlegt Teilaufgaben rekursiv, um sich sowohl an die Aufgabenkomplexität als auch an die Fähigkeiten des LLMs anzupassen. Unsere Ergebnisse zeigen, dass ADaPT etablierte starke Baselines deutlich übertrifft und Erfolgsraten von bis zu 28,3 % höher in ALFWorld, 27 % in WebShop und 33 % in TextCraft – einem neu eingeführten kompositionellen Datensatz – erreicht. Durch umfangreiche Analysen verdeutlichen wir die Bedeutung der mehrstufigen Zerlegung und zeigen, dass ADaPT sich dynamisch an die Fähigkeiten des ausführenden LLMs sowie an die Aufgabenkomplexität anpasst.
Eine der Hauptherausforderungen beim multimodalen Lernen ist die Notwendigkeit, heterogene Modalitäten (z. B. Video, Audio, Text) zu kombinieren. Beispielsweise werden Video und Audio mit viel höheren Raten erfasst als Text und sind zeitlich grob synchronisiert. Sie sind jedoch oft nicht mit Text synchronisiert, der als globaler Kontext, z. B. als Titel oder Beschreibung, vorliegt. Darüber hinaus sind Video- und Audioeingaben von viel größerem Umfang und wachsen mit der Länge des Videos, was natürlicherweise mehr Rechenleistung für diese Modalitäten erfordert und die Modellierung langreichweitiger Abhängigkeiten erschwert. Wir entkoppeln hier die multimodale Modellierung, indem wir sie in separate, fokussierte autoregressive Modelle aufteilen, die die Eingaben entsprechend den Eigenschaften der Modalitäten verarbeiten. Wir schlagen ein multimodales Modell namens Mirasol3B vor, das aus einer autoregressiven Komponente für die zeitlich synchronisierten Modalitäten (Audio und Video) und einer autoregressiven Komponente für die Kontextmodalitäten besteht, die nicht unbedingt zeitlich synchronisiert, aber dennoch sequenziell sind. Um die langen Sequenzen der Video-Audio-Eingaben zu bewältigen, schlagen wir vor, die Video- und Audiosequenzen weiter in aufeinanderfolgende Ausschnitte zu unterteilen und ihre Repräsentationen autoregressiv zu verarbeiten. Zu diesem Zweck schlagen wir einen Combiner-Mechanismus vor, der die Audio-Video-Informationen gemeinsam innerhalb eines Zeitrahmens modelliert. Der Combiner lernt, Audio- und Videomerkmale aus rohen raumzeitlichen Signalen zu extrahieren und dann diese Merkmale zu fusionieren, um kompakte aber ausdrucksstarke Repräsentationen pro Ausschnitt zu erzeugen. Unser Ansatz erreicht den Stand der Technik auf etablierten multimodalen Benchmarks und übertrifft dabei viel größere Modelle. Er adressiert effektiv den hohen Rechenbedarf von Medieneingaben, indem er sowohl kompakte Repräsentationen lernt, die Sequenzlänge der Audio-Video-Merkmalrepräsentationen kontrolliert als auch ihre Abhängigkeiten in der Zeit modelliert.
Das Erlernen von Feature-Interaktionen ist das entscheidende Rückgrat für den Aufbau von Empfehlungssystemen. In Web-Scale-Anwendungen ist das Erlernen von Feature-Interaktionen äußerst herausfordernd, da der Eingabe-Feature-Raum spärlich und groß ist; gleichzeitig ist das manuelle Erstellen effektiver Feature-Interaktionen aufgrund des exponentiellen Lösungsraums nicht praktikabel. Wir schlagen vor, eine Transformer-basierte Architektur mit Attention-Layern zu nutzen, um Feature-Interaktionen automatisch zu erfassen. Transformer-Architekturen haben in vielen Bereichen, wie der natürlichen Sprachverarbeitung und der Computer Vision, großen Erfolg gezeigt. Allerdings wurde die Transformer-Architektur für die Modellierung von Feature-Interaktionen in der Industrie bisher kaum übernommen. Unser Ziel ist es, diese Lücke zu schließen. Wir identifizieren zwei zentrale Herausforderungen bei der Anwendung der Standard-Transformer-Architektur auf Web-Scale-Empfehlungssysteme: (1) Die Transformer-Architektur kann die heterogenen Feature-Interaktionen im Self-Attention-Layer nicht erfassen; (2) Die Latenzzeit der Transformer-Architektur könnte zu hoch sein, um sie in Web-Scale-Empfehlungssystemen einzusetzen. Zunächst schlagen wir einen heterogenen Self-Attention-Layer vor, der eine einfache, aber effektive Modifikation des Self-Attention-Layers im Transformer darstellt, um die Heterogenität der Feature-Interaktionen zu berücksichtigen. Anschließend führen wir Hiformer (Heterogeneous Interaction Transformer) ein, um die Ausdrucksfähigkeit des Modells weiter zu verbessern. Durch Low-Rank-Approximation und Modellpruning ermöglicht Hiformer eine schnelle Inferenz für den Online-Einsatz. Umfangreiche Offline-Experimente bestätigen die Effektivität und Effizienz des Hiformer-Modells. Wir haben das Hiformer-Modell erfolgreich in ein reales, groß angelegtes App-Ranking-Modell bei Google Play integriert, was zu einer signifikanten Verbesserung der wichtigsten Engagement-Metriken (bis zu +2,66\%) führte.
Dichte Vorhersageaufgaben wie semantische Segmentierung, Tiefenschätzung und Oberflächennormalenvorhersage können leicht als Klassifikation pro Pixel (diskrete Ausgaben) oder Regression (kontinuierliche Ausgaben) formuliert werden. Dieses Paradigma der Vorhersage pro Pixel ist aufgrund der Verbreitung von vollständig faltungsbasierten Netzwerken weiterhin beliebt. Auf der jüngsten Front der Segmentierungsaufgabe ist jedoch ein Paradigmenwechsel von der Vorhersage pro Pixel zur Cluster-Vorhersage zu beobachten, insbesondere mit dem Aufkommen von Transformer-Architekturen, insbesondere den Mask-Transformern, die direkt ein Label für eine Maske anstelle eines Pixels vorhersagen. Trotz dieses Wandels dominieren Methoden, die auf dem Paradigma der Vorhersage pro Pixel basieren, weiterhin die Benchmarks bei anderen dichten Vorhersageaufgaben, die kontinuierliche Ausgaben erfordern, wie Tiefenschätzung und Oberflächennormalenvorhersage. Motiviert durch den Erfolg von DORN und AdaBins in der Tiefenschätzung, die durch die Diskretisierung des kontinuierlichen Ausgaberaums erreicht wurden, schlagen wir vor, die Cluster-Vorhersage-basierte Methode auf allgemeine dichte Vorhersageaufgaben zu verallgemeinern. Dies ermöglicht es uns, dichte Vorhersageaufgaben mit dem Mask-Transformer-Framework zu vereinheitlichen. Bemerkenswerterweise zeigt das resultierende Modell PolyMaX state-of-the-art Leistung auf drei Benchmarks des NYUD-v2-Datensatzes. Wir hoffen, dass unser einfaches, aber effektives Design weitere Forschungen zur Nutzung von Mask-Transformern für mehr dichte Vorhersageaufgaben inspirieren kann. Code und Modell werden zur Verfügung gestellt.
Das Transformer-Modell hat in letzter Zeit breite Akzeptanz in Aufgaben der Computer Vision gefunden. Aufgrund der quadratischen Zeit- und Speicherkomplexität der Selbstaufmerksamkeit, die proportional zur Anzahl der Eingabe-Tokens ist, stoßen die meisten bestehenden Vision Transformers (ViTs) jedoch auf Herausforderungen, um in praktischen industriellen Einsatzszenarien wie TensorRT und CoreML effiziente Leistung zu erzielen, wo traditionelle CNNs hervorstechen. Obwohl es in jüngster Zeit einige Versuche gab, CNN-Transformer-Hybridarchitekturen zu entwerfen, um dieses Problem zu lösen, hat deren Gesamtleistung die Erwartungen nicht erfüllt. Um diese Herausforderungen zu bewältigen, schlagen wir eine effiziente Hybrid-ViT-Architektur namens FMViT vor. Dieser Ansatz verbessert die Ausdruckskraft des Modells, indem er Hochfrequenz- und Niederfrequenzmerkmale mit unterschiedlichen Frequenzen kombiniert, wodurch es sowohl lokale als auch globale Informationen effektiv erfassen kann. Zusätzlich führen wir bereitstellungsfreundliche Mechanismen wie Convolutional Multigroup Reparameterization (gMLP), Lightweight Multi-head Self-Attention (RLMHSA) und Convolutional Fusion Block (CFB) ein, um die Leistung des Modells weiter zu verbessern und den Rechenaufwand zu reduzieren. Unsere Experimente zeigen, dass FMViT bestehende CNNs, ViTs und CNN-Transformer-Hybridarchitekturen in Bezug auf das Latenz/Genauigkeits-Verhältnis für verschiedene Vision-Aufgaben übertrifft. Auf der TensorRT-Plattform übertrifft FMViT Resnet101 um 2,5 % (83,3 % vs. 80,8 %) in der Top-1-Genauigkeit auf dem ImageNet-Datensatz, während eine ähnliche Inferenzlatenz beibehalten wird. Darüber hinaus erreicht FMViT eine vergleichbare Leistung wie EfficientNet-B5, jedoch mit einer 43 %igen Verbesserung der Inferenzgeschwindigkeit. Auf CoreML übertrifft FMViT MobileOne um 2,6 % in der Top-1-Genauigkeit auf dem ImageNet-Datensatz, mit einer Inferenzlatenz, die mit MobileOne vergleichbar ist (78,5 % vs. 75,9 %). Unser Code ist unter https://github.com/tany0699/FMViT verfügbar.