Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren das Recognize Anything Model (RAM): ein leistungsstarkes Basismodell für die Bildkennzeichnung. RAM kann jede gängige Kategorie mit hoher Genauigkeit erkennen. RAM führt ein neues Paradigma für die Bildkennzeichnung ein, das groß angelegte Bild-Text-Paare für das Training nutzt, anstatt auf manuelle Annotationen zurückzugreifen. Die Entwicklung von RAM umfasst vier wesentliche Schritte. Zunächst werden annotierungsfreie Bildtags in großem Umfang durch automatische semantische Textanalyse gewonnen. Anschließend wird ein vorläufiges Modell für die automatische Annotation trainiert, indem die Aufgaben der Bildbeschreibung und der Kennzeichnung vereinheitlicht werden, wobei die ursprünglichen Texte und die analysierten Tags jeweils als Supervision dienen. Drittens wird eine Datenengine eingesetzt, um zusätzliche Annotationen zu generieren und fehlerhafte zu bereinigen. Schließlich wird das Modell mit den verarbeiteten Daten erneut trainiert und mit einem kleineren, aber qualitativ hochwertigeren Datensatz feinabgestimmt. Wir bewerten die Kennzeichnungsfähigkeiten von RAM anhand zahlreicher Benchmarks und beobachten beeindruckende Zero-Shot-Leistungen, die CLIP und BLIP deutlich übertreffen. Bemerkenswerterweise übertrifft RAM sogar vollständig überwachte Methoden und zeigt eine wettbewerbsfähige Leistung im Vergleich zur Google API. Wir veröffentlichen RAM unter https://recognize-anything.github.io/, um die Fortschritte großer Modelle in der Computer Vision zu fördern.
Das Instruction Tuning hat große Sprachmodelle (LLMs) wie ChatGPT erheblich vorangebracht, wodurch sie in der Lage sind, menschliche Anweisungen über verschiedene Aufgaben hinweg zu befolgen. Der Fortschritt bei offenen visuell-sprachlichen Modellen (VLMs) war jedoch aufgrund des Mangels an hochwertigen Instruktionsdatensätzen begrenzt. Um diese Herausforderung zu bewältigen und die Forschung im Bereich der visuell-sprachlichen Modelle zu fördern, stellen wir den Multi-Modal, Multilingual Instruction Tuning (M^3IT)-Datensatz vor, der darauf abzielt, die Ausrichtung von VLMs an menschlichen Anweisungen zu optimieren. Unser M^3IT-Datensatz umfasst 40 sorgfältig kuratierte Datensätze, darunter 2,4 Millionen Instanzen und 400 manuell verfasste Aufgabenanweisungen, die in eine visuell-zu-text-Struktur reformatiert wurden. Schlüsselaufgaben wurden mit einem fortschrittlichen Übersetzungssystem in 80 Sprachen übersetzt, um eine breitere Zugänglichkeit zu gewährleisten. M^3IT übertrifft bisherige Datensätze in Bezug auf Aufgabenabdeckung, Anzahl der Anweisungen und Umfang der Instanzen. Darüber hinaus entwickeln wir Ying-VLM, ein VLM-Modell, das auf unserem M^3IT-Datensatz trainiert wurde und dessen Potenzial zeigt, komplexe Fragen zu beantworten, die Weltwissen erfordern, sich auf unbekannte Videoaufgaben zu verallgemeinern und unbekannte Anweisungen auf Chinesisch zu verstehen. Um weitere Forschungen zu fördern, haben wir sowohl den Datensatz als auch die trainierten Modelle quelloffen gemacht.
Wir beschäftigen uns mit einer neuartigen Aufgabe, nämlich der Erstellung von sprechenden Avataren unter ressourcenarmen Bedingungen. Gegeben ist lediglich ein kurzes Video einer sprechenden Person mit Audiospur als Trainingsdaten und beliebige Texte als Eingabe. Unser Ziel ist es, hochwertige Videos von sprechenden Porträts zu synthetisieren, die dem Eingabetext entsprechen. Diese Aufgabe hat vielversprechende Anwendungsmöglichkeiten in der digitalen Mensch-Industrie, wurde jedoch aufgrund zweier Herausforderungen bisher technisch nicht realisiert: (1) Es ist schwierig, den Klang von außerhalb des Trainingsbereichs liegenden Audiodaten für ein traditionelles Mehrsprecher-Text-zu-Sprache-System nachzuahmen. (2) Es ist anspruchsvoll, hochwertige und lippensynchronisierte sprechende Avatare mit begrenzten Trainingsdaten zu rendern. In diesem Artikel stellen wir Adaptive Text-to-Talking Avatar (Ada-TTA) vor, das (1) ein generisches Zero-Shot-Mehrsprecher-TTS-Modell entwirft, das Textinhalt, Klang und Prosodie effektiv entkoppelt, und (2) aktuelle Fortschritte im neuronalen Rendering nutzt, um realistische, audiodynamische sprechende Gesichtsvideos zu erzeugen. Mit diesen Konzepten überwindet unsere Methode die genannten Herausforderungen und ermöglicht die Erzeugung von identitätsbewahrender Sprache und realistischen Videos von sprechenden Personen. Experimente zeigen, dass unsere Methode realistische, identitätsbewahrende und audiovisuell synchronisierte Videos von sprechenden Avataren synthetisieren kann.
Das Finden von Korrespondenzen zwischen Bildern ist ein grundlegendes Problem in der Computer Vision. In diesem Artikel zeigen wir, dass Korrespondenzen in Bild-Diffusionsmodellen ohne explizite Überwachung entstehen. Wir schlagen eine einfache Strategie vor, um dieses implizite Wissen aus Diffusionsnetzwerken als Bildmerkmale zu extrahieren, nämlich DIffusion FeaTures (DIFT), und verwenden diese, um Korrespondenzen zwischen realen Bildern herzustellen. Ohne zusätzliches Feinabstimmen oder Überwachung auf aufgabenspezifische Daten oder Annotationen ist DIFT in der Lage, sowohl schwach überwachte Methoden als auch konkurrenzfähige Standardmerkmale bei der Identifizierung von semantischen, geometrischen und zeitlichen Korrespondenzen zu übertreffen. Insbesondere bei semantischen Korrespondenzen kann DIFT aus Stable Diffusion DINO und OpenCLIP auf dem anspruchsvollen SPair-71k-Benchmark um 19 bzw. 14 Genauigkeitspunkte übertreffen. Es übertrifft sogar die state-of-the-art überwachten Methoden in 9 von 18 Kategorien, während es bei der Gesamtleistung gleichauf bleibt. Projektseite: https://diffusionfeatures.github.io
Große Sprachmodelle (LLMs) können zur Erzeugung von Textdaten für das Training und die Evaluierung anderer Modelle verwendet werden. Die Erstellung hochwertiger Datensätze mit LLMs kann jedoch eine Herausforderung darstellen. In dieser Arbeit untersuchen wir Mensch-KI-Partnerschaften, um eine hohe Diversität und Genauigkeit bei der LLM-basierten Textdatengenerierung zu ermöglichen. Zunächst betrachten wir zwei Ansätze zur Diversifizierung der Textgenerierung: 1) Logit-Unterdrückung, die die Generierung von Sprachen minimiert, die bereits häufig generiert wurden, und 2) Temperatur-Sampling, das die Token-Sampling-Wahrscheinlichkeit abflacht. Wir fanden heraus, dass Diversifizierungsansätze die Datenvielfalt erhöhen können, jedoch oft auf Kosten der Datenqualität (d. h., Text und Labels sind für die Zieldomäne geeignet). Um dieses Problem zu lösen, untersuchten wir zwei menschliche Interventionen: 1) Label-Ersetzung (LR), bei der falsch ausgerichtete Labels korrigiert werden, und 2) Out-of-Scope-Filterung (OOSF), bei der Instanzen entfernt werden, die außerhalb des Interessenbereichs des Benutzers liegen oder auf die kein betrachtetes Label zutrifft. Mit Oracle-Studien fanden wir heraus, dass LR die absolute Genauigkeit von Modellen, die mit diversifizierten Datensätzen trainiert wurden, um 14,4 % erhöht. Darüber hinaus stellten wir fest, dass einige Modelle, die mit Daten trainiert wurden, die mit LR-Interventionen generiert wurden, die LLM-basierte Few-Shot-Klassifikation übertrafen. Im Gegensatz dazu war OOSF nicht effektiv in der Steigerung der Modellgenauigkeit, was die Notwendigkeit zukünftiger Arbeiten in der menschlich unterstützten Textdatengenerierung verdeutlicht.
Sprachmodelle erreichen oft eine höhere Genauigkeit, wenn sie bei komplexen Aufgaben schrittweise argumentieren. Ihre Argumentation kann jedoch unschlüssig, inkonsistent oder auf unerwünschten Vorannahmen basieren. Um diese Probleme zu lösen, führen wir eine Klasse von Werkzeugen für Sprachmodelle ein, sogenannte Guides, die Zustände und inkrementelle Einschränkungen nutzen, um die Generierung zu steuern. Ein Guide kann vom Modell aufgerufen werden, um seine eigene Generierung auf eine vom Werkzeug vorgegebene Menge gültiger Aussagen zu beschränken. Im Gegenzug können die Entscheidungen des Modells den Zustand des Guides verändern. Wir zeigen, wie ein allgemeines System für logisches Denken als Guide verwendet werden kann, den wir LogicGuide nennen. Bei einem Argumentationsproblem in natürlicher Sprache kann ein Modell seine Annahmen für LogicGuide formalisieren und so sicherstellen, dass seine Argumentationsschritte schlüssig sind. In Experimenten mit den Argumentationsdatensätzen PrOntoQA und ProofWriter verbessert LogicGuide die Leistung von GPT-3, GPT-3.5 Turbo und LLaMA erheblich (Genauigkeitssteigerungen von bis zu 35 %). LogicGuide reduziert zudem drastisch Inhalts-Effekte: die Interferenz von Vorannahmen und aktuellen Annahmen, unter der sowohl Menschen als auch Sprachmodelle bekanntlich leiden. Schließlich untersuchen wir das Bootstrapping von LLaMA 13B aus seiner eigenen Argumentation und stellen fest, dass LogicGuide entscheidend ist: Indem LLaMA nur auf zertifizierten, selbst generierten Argumentationen trainiert, kann es sich selbst verbessern und vermeiden, aus seinen eigenen Halluzinationen zu lernen.
Die Domänenanpassung unter Verwendung eines reinen Textkorpus stellt eine Herausforderung in der End-to-End (E2E) Spracherkennung dar. Die Anpassung durch die Synthese von Audio aus Text mittels TTS (Text-to-Speech) ist ressourcenintensiv. Wir präsentieren eine Methode zur Erstellung einer einheitlichen Sprach-Text-Repräsentation in einem Conformer Transducer (USTR-CT), um eine schnelle Domänenanpassung mit einem reinen Textkorpus zu ermöglichen. Im Gegensatz zur bisherigen Textogramm-Methode wird in unserer Arbeit ein zusätzlicher Text-Encoder eingeführt, um die Textrepräsentation zu erlernen, der jedoch während der Inferenz entfernt wird, sodass keine Modifikationen für den Online-Einsatz erforderlich sind. Um die Effizienz der Anpassung zu verbessern, werden sowohl Einzelschritt- als auch Mehrschritt-Anpassungen untersucht. Experimente zur Anpassung von LibriSpeech an SPGISpeech zeigen, dass die vorgeschlagene Methode die Wortfehlerrate (WER) in der Zieldomäne relativ um 44 % reduziert, was besser ist als die Ergebnisse der TTS-Methode und der Textogramm-Methode. Zudem wird gezeigt, dass die vorgeschlagene Methode mit der internen Sprachmodellschätzung (ILME) kombiniert werden kann, um die Leistung weiter zu verbessern.
Obwohl vortrainierte Sprachmodelle (LMs) problemlos Weltwissen über Entitäten speichern können, haben sie Schwierigkeiten, zwei oder mehr Fakten zu kombinieren, um mehrstufiges Reasoning in Frage-Antwort-Aufgaben durchzuführen. In dieser Arbeit schlagen wir Techniken vor, die diese Einschränkung durch den Einsatz von Zufallspfaden auf strukturierten Wissensgraphen überwinden. Konkret verwenden wir Soft Prompts, um LMs dabei zu unterstützen, ihr kodiertes Wissen zu verknüpfen, indem sie lernen, mehrstufige Fragen auf Zufallspfade abzubilden, die zur Antwort führen. Die Anwendung unserer Methoden auf zwei T5-LMs zeigt deutliche Verbesserungen gegenüber Standard-Finetuning-Ansätzen bei der Beantwortung von Fragen, die 2-stufiges Reasoning erfordern.
In diesem Artikel präsentieren wir einen Ansatz zur Lokalisierung von Schritten prozeduraler Aktivitäten in erzählten How-to-Videos. Um den Mangel an annotierten Daten in großem Maßstab zu bewältigen, beziehen wir die Schrittbeschreibungen aus einer Sprachwissensdatenbank (wikiHow), die Anleitungsartikel für eine Vielzahl prozeduraler Aufgaben enthält. Ohne jegliche Form manueller Überwachung lernt unser Modell, die Schritte prozeduraler Artikel zeitlich in How-to-Videos zu verankern, indem es drei Modalitäten abgleicht: Bilder, Erzählungen und Schrittbeschreibungen. Konkret gleicht unsere Methode Schritte mit Videos ab, indem sie Informationen aus zwei verschiedenen Pfaden fusioniert: i) {\em direkte} Ausrichtung von Schrittbeschreibungen zu Bildern, ii) {\em indirekte} Ausrichtung, die durch die Kombination von Schritten-zu-Erzählungen mit Erzählungen-zu-Video-Korrespondenzen erreicht wird. Bemerkenswerterweise führt unser Ansatz eine globale zeitliche Verankerung aller Schritte eines Artikels gleichzeitig durch, indem er Ordnungsinformationen nutzt, und wird mit Schritt-Pseudo-Labels trainiert, die iterativ verfeinert und aggressiv gefiltert werden. Um unser Modell zu validieren, führen wir einen neuen Evaluierungsbenchmark ein – HT-Step –, der durch manuelle Annotation einer 124-stündigen Teilmenge von HowTo100M erstellt wurde. Der Testserver ist unter \url{https://eval.ai/web/challenges/challenge-page/2082} zugänglich und verwendet Schritte aus wikiHow-Artikeln. Experimente auf diesem Benchmark sowie Zero-Shot-Evaluierungen auf CrossTask zeigen, dass unsere Multi-Modalitäts-Ausrichtung deutliche Verbesserungen gegenüber mehreren Baselines und früheren Arbeiten erzielt. Schließlich zeigen wir, dass unser internes Modul für den Abgleich von Erzählungen mit Videos den Stand der Technik auf dem HTM-Align Erzählung-Video-Ausrichtungsbenchmark deutlich übertrifft.