Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir entwerfen eine neue Familie hybrider CNN-ViT-Neuronaler Netze, genannt FasterViT, mit einem Fokus auf hohen Bilddurchsatz für Computer Vision (CV)-Anwendungen. FasterViT kombiniert die Vorteile des schnellen lokalen Repräsentationslernens in CNNs mit den globalen Modellierungseigenschaften von ViT. Unser neu eingeführtes Hierarchical Attention (HAT)-Verfahren zerlegt die globale Selbstaufmerksamkeit mit quadratischer Komplexität in eine mehrstufige Aufmerksamkeit mit reduzierten Berechnungskosten. Wir profitieren von einer effizienten fensterbasierten Selbstaufmerksamkeit. Jedes Fenster hat Zugriff auf dedizierte Trägertoken, die an lokalem und globalem Repräsentationslernen teilnehmen. Auf einer höheren Ebene ermöglichen globale Selbstaufmerksamkeiten eine effiziente fensterübergreifende Kommunikation zu geringeren Kosten. FasterViT erreicht eine State-of-the-Art (SOTA) Pareto-Front in Bezug auf Genauigkeit \vs Bilddurchsatz. Wir haben seine Wirksamkeit umfassend in verschiedenen CV-Aufgaben, einschließlich Klassifikation, Objekterkennung und Segmentierung, validiert. Wir zeigen auch, dass HAT als Plug-and-Play-Modul für bestehende Netze verwendet und diese verbessern kann. Darüber hinaus demonstrieren wir eine signifikant schnellere und genauere Leistung im Vergleich zu konkurrierenden Ansätzen für Bilder mit hoher Auflösung. Der Code ist verfügbar unter https://github.com/NVlabs/FasterViT.
Trainingsalgorithmen, im weiteren Sinne verstanden, sind ein wesentlicher Bestandteil jeder Deep-Learning-Pipeline. Verbesserungen von Trainingsalgorithmen, die das Training über eine Vielzahl von Workloads beschleunigen (z. B. bessere Aktualisierungsregeln, Abstimmungsprotokolle, Lernratenpläne oder Datenauswahlschemata), könnten Zeit sparen, Rechenressourcen schonen und zu besseren, genaueren Modellen führen. Leider sind wir als Gemeinschaft derzeit nicht in der Lage, Verbesserungen von Trainingsalgorithmen zuverlässig zu identifizieren oder sogar den Stand der Technik bei Trainingsalgorithmen zu bestimmen. In dieser Arbeit argumentieren wir anhand konkreter Experimente, dass echter Fortschritt bei der Beschleunigung des Trainings neue Benchmarks erfordert, die drei grundlegende Herausforderungen bei empirischen Vergleichen von Trainingsalgorithmen lösen: (1) wie man entscheidet, wann das Training abgeschlossen ist, und die Trainingszeit genau misst, (2) wie man mit der Empfindlichkeit der Messungen gegenüber genauen Workload-Details umgeht, und (3) wie man Algorithmen, die eine Hyperparameterabstimmung erfordern, fair vergleicht. Um diese Herausforderungen zu bewältigen, führen wir einen neuen, wettbewerbsfähigen Benchmark für die Zeit bis zum Ergebnis ein, der mehrere Workloads auf fester Hardware verwendet, den AlgoPerf: Training Algorithms Benchmark. Unser Benchmark umfasst eine Reihe von Workload-Varianten, die es ermöglichen, Benchmark-Einreichungen zu erkennen, die robuster gegenüber Workload-Änderungen sind als die derzeit weit verbreiteten Methoden. Schließlich bewerten wir Baseline-Einreichungen, die mit verschiedenen Optimierern erstellt wurden, die die aktuelle Praxis repräsentieren, sowie andere Optimierer, die in der Literatur kürzlich Aufmerksamkeit erhalten haben. Diese Baseline-Ergebnisse zeigen gemeinsam die Machbarkeit unseres Benchmarks, zeigen, dass nicht-triviale Lücken zwischen den Methoden bestehen, und setzen einen vorläufigen Stand der Technik, den zukünftige Benchmark-Einreichungen versuchen sollten, zu übertreffen.
Große Text-zu-Bild-Diffusionsmodelle verfügen über beeindruckende Fähigkeiten, fotorealistische Bilder aus Textbeschreibungen zu generieren. Die effektive Steuerung oder Kontrolle dieser leistungsstarken Modelle zur Durchführung verschiedener Downstream-Aufgaben wird zu einem wichtigen offenen Problem. Um diese Herausforderung zu bewältigen, führen wir eine prinzipielle Feinabstimmungsmethode ein – Orthogonal Fine-Tuning (OFT) – zur Anpassung von Text-zu-Bild-Diffusionsmodellen an Downstream-Aufgaben. Im Gegensatz zu bestehenden Methoden kann OFT nachweislich die hypersphärische Energie bewahren, die die paarweise Beziehung von Neuronen auf der Einheitshypersphäre charakterisiert. Wir stellen fest, dass diese Eigenschaft entscheidend für die Erhaltung der semantischen Generierungsfähigkeit von Text-zu-Bild-Diffusionsmodellen ist. Um die Stabilität der Feinabstimmung zu verbessern, schlagen wir weiterhin Constrained Orthogonal Fine-Tuning (COFT) vor, das eine zusätzliche Radiusbeschränkung für die Hypersphäre einführt. Insbesondere betrachten wir zwei wichtige Feinabstimmungsaufgaben für Text-zu-Bild-Modelle: subjektgetriebene Generierung, bei der das Ziel darin besteht, subjektspezifische Bilder anhand weniger Bilder eines Subjekts und einer Textbeschreibung zu generieren, und kontrollierbare Generierung, bei der das Ziel darin besteht, dem Modell die Verarbeitung zusätzlicher Steuersignale zu ermöglichen. Wir zeigen empirisch, dass unser OFT-Framework bestehende Methoden in Bezug auf Generierungsqualität und Konvergenzgeschwindigkeit übertrifft.
Bestehende große Sprachmodelle (LLMs) können aufgrund der Eingabelängenbegrenzung nur Eingaben fester Größe verarbeiten, was sie daran hindert, umfangreiche langfristige Kontextinformationen aus vergangenen Eingaben zu nutzen. Um dies zu beheben, schlagen wir ein Framework vor, Language Models Augmented with Long-Term Memory (LongMem), das es LLMs ermöglicht, lange Verläufe zu speichern. Wir entwerfen eine neuartige, entkoppelte Netzwerkarchitektur, bei der das ursprüngliche Backbone-LLM als Gedächtnisencoder eingefroren bleibt und ein adaptives Restseitennetzwerk als Gedächtnisabrufer und -leser fungiert. Ein solches entkoppeltes Gedächtnisdesign kann langfristige vergangene Kontexte leicht zwischenspeichern und aktualisieren, ohne unter Gedächtnisveraltungen zu leiden. Durch eine mit Gedächtnisanreicherung versehene Anpassungsschulung kann LongMem somit lange vergangene Kontexte speichern und langfristiges Gedächtnis für die Sprachmodellierung nutzen. Das vorgeschlagene Gedächtnisabrufmodul kann unbegrenzt lange Kontexte in seiner Gedächtnisbank verarbeiten, was verschiedenen nachgelagerten Aufgaben zugutekommt. Typischerweise kann LongMem das Langzeitgedächtnis auf 65k Token erweitern und somit viele zusätzliche Demonstrationsbeispiele als Langzeitgedächtnis für In-Context-Learning zwischenspeichern. Experimente zeigen, dass unsere Methode starke Langzeitkontextmodelle auf ChapterBreak, einem anspruchsvollen Benchmark für die Langzeitkontextmodellierung, übertrifft und bemerkenswerte Verbesserungen beim gedächtnisangereicherten In-Context-Learning gegenüber LLMs erzielt. Die Ergebnisse zeigen, dass die vorgeschlagene Methode effektiv dabei hilft, Sprachmodelle darin zu unterstützen, langfristige Inhalte zu speichern und zu nutzen. Unser Code ist unter https://aka.ms/LongMem quelloffen verfügbar.
Wir präsentieren Face0, eine neuartige Methode, um ein Text-zu-Bild-Generierungsmodell in Echtzeit auf ein Gesicht zu konditionieren, ohne Optimierungsverfahren wie Feinabstimmung oder Inversionen. Wir erweitern einen Datensatz annotierter Bilder mit Einbettungen der enthaltenen Gesichter und trainieren ein Bildgenerierungsmodell auf dem erweiterten Datensatz. Einmal trainiert, ist unser System zur Inferenzzeit praktisch identisch mit dem zugrunde liegenden Basismodell und kann daher Bilder in nur wenigen Sekunden generieren, basierend auf einem vom Benutzer bereitgestellten Gesichtsbild und einem Prompt. Unsere Methode erzielt ansprechende Ergebnisse, ist bemerkenswert einfach, extrem schnell und stattet das zugrunde liegende Modell mit neuen Fähigkeiten aus, wie der Steuerung der generierten Bilder sowohl über Text als auch durch direkte Manipulation der Eingabe-Gesichtseinbettungen. Darüber hinaus löst unsere Methode im Wesentlichen das Problem der konsistenten Charaktergenerierung über Bilder hinweg, wenn anstelle einer Gesichtseinbettung aus einem Benutzerbild ein fester Zufallsvektor verwendet wird. Schließlich hoffen wir, dass unsere Methode, die die textuellen Verzerrungen des Modells von seinen Verzerrungen in Bezug auf Gesichter entkoppelt, einen Schritt zur Minderung von Verzerrungen in zukünftigen Text-zu-Bild-Modellen darstellen könnte, auch wenn hierzu weitere Forschung erforderlich ist.
Wir stellen Cap3D vor, einen automatischen Ansatz zur Generierung beschreibender Texte für 3D-Objekte. Dieser Ansatz nutzt vortrainierte Modelle aus den Bereichen Bildbeschreibung, Bild-Text-Ausrichtung und LLM (Large Language Models), um Beschreibungen aus mehreren Ansichten eines 3D-Assets zu konsolidieren, wodurch der zeitaufwändige und kostspielige Prozess der manuellen Annotation vollständig umgangen wird. Wir wenden Cap3D auf den kürzlich eingeführten groß angelegten 3D-Datensatz Objaverse an, was zu 660.000 3D-Text-Paaren führt. Unsere Evaluierung, die mit 41.000 menschlichen Annotationen aus demselben Datensatz durchgeführt wurde, zeigt, dass Cap3D von Menschen verfasste Beschreibungen in Bezug auf Qualität, Kosten und Geschwindigkeit übertrifft. Durch effektives Prompt-Engineering erreicht Cap3D eine vergleichbare Leistung wie Menschen bei der Generierung geometrischer Beschreibungen auf Basis von 17.000 gesammelten Annotationen aus dem ABO-Datensatz. Schließlich finetunen wir Text-to-3D-Modelle mit Cap3D und menschlichen Beschreibungen und zeigen, dass Cap3D überlegen ist; zudem benchmarken wir den State-of-the-Art, einschließlich Point-E, Shape-E und DreamFusion.
Sprachmodelle wurden erfolgreich zur Modellierung natürlicher Signale wie Bilder, Sprache und Musik eingesetzt. Ein Schlüsselkomponent dieser Modelle ist ein hochwertiges neuronales Kompressionsmodell, das hochdimensionale natürliche Signale in niedrigdimensionale diskrete Tokens komprimieren kann. Zu diesem Zweck führen wir einen hochauflösenden universellen neuronalen Audio-Kompressionsalgorithmus ein, der eine ~90-fache Kompression von 44,1 KHz Audio in Tokens bei einer Bandbreite von nur 8 kbps erreicht. Dies erreichen wir durch die Kombination von Fortschritten in der hochauflösenden Audioerzeugung mit verbesserten Vektorquantisierungstechniken aus dem Bildbereich sowie optimierten adversariellen und Rekonstruktionsverlusten. Wir komprimieren alle Bereiche (Sprache, Umgebungsgeräusche, Musik usw.) mit einem einzigen universellen Modell, was es weitgehend anwendbar für die generative Modellierung aller Audioformen macht. Wir vergleichen unsere Methode mit konkurrierenden Audio-Kompressionsalgorithmen und stellen fest, dass unser Ansatz diese deutlich übertrifft. Wir bieten umfassende Ablationen für jede Designentscheidung sowie Open-Source-Code und trainierte Modellgewichte an. Wir hoffen, dass unsere Arbeit die Grundlage für die nächste Generation der hochauflösenden Audiomodellierung legen kann.
Wir identifizieren inkrementelle Lern-Dynamiken in Transformern, bei denen der Unterschied zwischen trainierten und initialen Gewichten progressiv im Rang ansteigt. Wir beweisen dies rigoros unter den vereinfachenden Annahmen von diagonalen Gewichtsmatrizen und kleiner Initialisierung. Unsere Experimente unterstützen die Theorie und zeigen zudem, dass dieses Phänomen in der Praxis auch ohne die vereinfachenden Annahmen auftreten kann.
Kontrastive Bild-Text-Modelle wie CLIP bilden die Grundbausteine vieler modernster Systeme. Während sie bei der Erkennung allgemeiner, gängiger Konzepte hervorragende Leistungen erbringen, haben sie nach wie vor Schwierigkeiten mit feingranularen Entitäten, die selten oder sogar im Vorab-Trainingsdatensatz nicht vorhanden sind. Daher war ein entscheidender Faktor für ihren Erfolg die Verwendung von groß angelegten, kuratierten Vorab-Trainingsdaten, die darauf abzielen, die Menge der Konzepte zu erweitern, die sie während des Vorab-Trainings speichern können. In dieser Arbeit untersuchen wir eine Alternative zur direkten Kodierung von feingranularem Wissen in die Parameter des Modells: Stattdessen trainieren wir das Modell, um dieses Wissen aus einem externen Speicher abzurufen. Konkret schlagen wir vor, bestehende Vision-Text-Modelle mit der Fähigkeit auszustatten, ihre Einbettungen durch cross-modale, aus einem Speicher abgerufene Informationen zur Inferenzzeit zu verfeinern, was ihre Zero-Shot-Vorhersagen erheblich verbessert. Bemerkenswerterweise zeigen wir, dass dies mit einem leichtgewichtigen, einlagigen Fusionstransformer auf einem eingefrorenen CLIP-Modell erreicht werden kann. Unsere Experimente bestätigen, dass unser retrieval-verstärktes kontrastives Training (RECO) die Leistung von CLIP bei mehreren anspruchsvollen feingranularen Aufgaben erheblich verbessert: beispielsweise +10,9 bei Stanford Cars, +10,2 bei CUB-2011 und +7,3 beim kürzlich eingeführten OVEN-Benchmark.
State-of-the-art-Methoden zur Informationsextraktion werden durch OCR-Fehler eingeschränkt. Sie funktionieren gut für gedruckten Text in formularähnlichen Dokumenten, doch unstrukturierte, handgeschriebene Dokumente bleiben nach wie vor eine Herausforderung. Die Anpassung bestehender Modelle an domänenspezifische Trainingsdaten ist recht kostspielig, und zwar aufgrund zweier Faktoren: 1) die begrenzte Verfügbarkeit domänenspezifischer Dokumente (wie handgeschriebene Rezepte, Labornotizen usw.) und 2) die zusätzliche Schwierigkeit bei der Annotation, da domänenspezifisches Wissen erforderlich ist, um schwer lesbare handgeschriebene Dokumentbilder zu entschlüsseln. In dieser Arbeit konzentrieren wir uns auf das komplexe Problem der Extraktion von Medikamentennamen aus handgeschriebenen Rezepten unter Verwendung von nur schwach annotierten Daten. Die Daten bestehen aus Bildern zusammen mit der Liste der darin enthaltenen Medikamentennamen, jedoch ohne deren Position im Bild. Wir lösen das Problem, indem wir zunächst die relevanten Regionen, d. h. die Zeilen mit Medikamentennamen, allein aus den schwachen Labels identifizieren und dann ein domänenspezifisches Medikamenten-Sprachmodell einfügen, das nur mit synthetisch generierten Daten trainiert wurde. Im Vergleich zu Standard-State-of-the-Art-Methoden erzielt unser Ansatz eine mehr als 2,5-fach bessere Leistung bei der Extraktion von Medikamentennamen aus Rezepten.