Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
In-Context-Learning (ICL) in großen Sprachmodellen (LLMs) hat sich als ein leistungsstarkes neues Lernparadigma etabliert. Allerdings ist der zugrunde liegende Mechanismus noch nicht gut verstanden. Insbesondere ist es schwierig, es in den „Standard“-Rahmen des maschinellen Lernens einzubetten, bei dem man einen Trainingsdatensatz S verwendet, um eine bestmögliche Funktion f(x) in einer bestimmten Hypothesenklasse zu finden. Hier machen wir Fortschritte bei diesem Problem, indem wir zeigen, dass die durch ICL gelernten Funktionen oft eine sehr einfache Struktur aufweisen: Sie entsprechen dem Transformer-LLM, dessen einzige Eingaben die Abfrage x und ein einzelner „Task-Vektor“ sind, der aus dem Trainingsdatensatz berechnet wird. Somit kann ICL als eine Komprimierung von S in einen einzigen Task-Vektor theta(S) betrachtet werden, der dann verwendet wird, um den Transformer zu modulieren und die Ausgabe zu erzeugen. Wir untermauern diese Behauptung durch umfassende Experimente über eine Reihe von Modellen und Aufgaben hinweg.
Die Landschaft öffentlich verfügbarer Vision Foundation Models (VFMs), wie CLIP und Segment Anything Model (SAM), expandiert rapide. VFMs verfügen über unterschiedliche Fähigkeiten, die sich aus ihren Vortrainingszielen ergeben. Beispielsweise zeichnet sich CLIP durch semantisches Verständnis aus, während SAM auf räumliches Verständnis für die Segmentierung spezialisiert ist. In dieser Arbeit stellen wir ein einfaches Rezept vor, um VFMs effizient in ein einheitliches Modell zu integrieren, das ihre Expertise vereint. Unsere vorgeschlagene Methode kombiniert Multi-Task-Learning, kontinuierliche Lerntechniken und Teacher-Student-Distillation. Diese Strategie verursacht deutlich geringere Rechenkosten im Vergleich zum traditionellen Multi-Task-Training von Grund auf. Zudem benötigt sie nur einen Bruchteil der Vortrainingsdatensätze, die ursprünglich für das Training der einzelnen Modelle verwendet wurden. Durch die Anwendung unserer Methode auf SAM und CLIP entsteht SAM-CLIP: ein einheitliches Modell, das die Stärken von SAM und CLIP in einem einzigen Backbone vereint und es für Anwendungen auf Edge-Geräten geeignet macht. Wir zeigen, dass SAM-CLIP reichhaltigere visuelle Repräsentationen lernt, die sowohl Lokalisierungs- als auch semantische Merkmale umfassen und für eine breite Palette von Vision-Aufgaben geeignet sind. SAM-CLIP erzielt verbesserte Leistungen bei mehreren Head-Probing-Aufgaben im Vergleich zu SAM und CLIP. Darüber hinaus demonstrieren wir, dass SAM-CLIP nicht nur die grundlegenden Stärken seiner Vorgängermodelle bewahrt, sondern auch synergetische Funktionalitäten einführt, insbesondere im Bereich der Zero-Shot-Semantiksegmentierung, wo SAM-CLIP neue State-of-the-Art-Ergebnisse auf 5 Benchmarks erzielt. Es übertrifft frühere Modelle, die speziell für diese Aufgabe entwickelt wurden, mit großem Abstand, einschließlich einer Verbesserung des mittleren IoU um +6,8 % bzw. +5,9 % auf den Pascal-VOC- und COCO-Stuff-Datensätzen.
Halluzinationen sind ein großes Problem, das über den sich rasant entwickelnden Multimodalen Großen Sprachmodellen (MLLMs) schwebt. Dabei handelt es sich um das Phänomen, dass der generierte Text nicht mit dem Bildinhalt übereinstimmt. Um Halluzinationen zu reduzieren, greifen bestehende Studien hauptsächlich auf eine Instruktions-Feinabstimmung zurück, die eine erneute Trainierung der Modelle mit spezifischen Daten erfordert. In diesem Artikel schlagen wir einen anderen Weg ein und stellen eine trainingsfreie Methode namens Woodpecker vor. Wie ein Specht, der Bäume heilt, sucht und korrigiert Woodpecker Halluzinationen im generierten Text. Konkret besteht Woodpecker aus fünf Phasen: Extraktion von Schlüsselkonzepten, Formulierung von Fragen, Validierung von visuellem Wissen, Generierung von visuellen Behauptungen und Korrektur von Halluzinationen. Als nachträgliche Lösung implementiert, kann Woodpecker problemlos verschiedene MLLMs unterstützen, während es durch den Zugriff auf Zwischenergebnisse der fünf Phasen interpretierbar bleibt. Wir bewerten Woodpecker sowohl quantitativ als auch qualitativ und zeigen das enorme Potenzial dieses neuen Paradigmas. Auf dem POPE-Benchmark erzielt unsere Methode eine Verbesserung der Genauigkeit um 30,66 % bzw. 24,33 % gegenüber dem Baseline-Modell MiniGPT-4/mPLUG-Owl. Der Quellcode ist unter https://github.com/BradyFU/Woodpecker veröffentlicht.
Der Großteil der jüngsten Arbeiten zur Nutzung von Large Language Models (LLMs) wie GPT-3 für maschinelle Übersetzung (MT) konzentrierte sich auf die Auswahl von Few-Shot-Beispielen für das Prompting. In dieser Arbeit versuchen wir, die Rolle von Demonstrationsattributen für das In-Context-Lernen von Übersetzungen besser zu verstehen, indem wir hochwertige, domänenspezifische Demonstrationen gezielt verändern. Wir stellen fest, dass asymmetrische Veränderungen der Quell-Ziel-Zuordnungen zu deutlich unterschiedlichen Ergebnissen führen. Wir zeigen, dass die Veränderung der Quellseite überraschend wenig Auswirkungen hat, während die Veränderung der Zielseite die Übersetzungsqualität drastisch reduzieren kann. Dies deutet darauf hin, dass die Verteilung des Ausgabetextes das wichtigste Lernsignal während des In-Context-Lernens von Übersetzungen liefert. Wir schlagen eine Methode namens Zero-Shot-Context vor, um dieses Signal automatisch in Zero-Shot-Prompting einzubinden. Wir demonstrieren, dass sie die Zero-Shot-Übersetzungsleistung von GPT-3 verbessert und sie sogar mit Few-Shot-Prompting-Übersetzungen konkurrenzfähig macht.
In diesem Artikel stellen wir das Recognize Anything Plus Model (RAM++) vor, ein grundlegendes Bilderkennungsmodell mit starken Fähigkeiten zur Erkennung offener Mengen, indem wir semantische Konzepte in das Framework für das Training von Bildbeschriftungen integrieren. Bisherige Ansätze sind entweder Bildbeschriftungsmodelle, die durch begrenzte Semantik eingeschränkt sind, oder Vision-Language-Modelle mit oberflächlicher Interaktion, die zu suboptimalen Leistungen bei der Erkennung mehrerer Tags führen. Im Gegensatz dazu integriert RAM++ die Ausrichtung von Bild-Text und Bildbeschriftung innerhalb eines einheitlichen, fein abgestimmten Interaktionsframeworks basierend auf Bild-Tag-Text-Tripeln. Dieser Entwurf ermöglicht es RAM++, nicht nur bei der Identifizierung vordefinierter Kategorien zu glänzen, sondern auch die Erkennungsfähigkeit in offenen Kategorien signifikant zu steigern. Darüber hinaus setzt RAM++ große Sprachmodelle (LLMs) ein, um vielfältige visuelle Tag-Beschreibungen zu generieren, und führt damit die Integration von LLM-Wissen in das Training von Bildbeschriftungen ein. Dieser Ansatz befähigt RAM++, visuelle Beschreibungskonzepte für die Erkennung offener Mengen während der Inferenz zu integrieren. Bewertungen auf umfassenden Benchmarks für die Bilderkennung zeigen, dass RAM++ die meisten bestehenden State-of-the-Art (SOTA) grundlegenden Bilderkennungsmodelle in den meisten Aspekten übertrifft. Insbesondere für vordefinierte, häufig verwendete Tag-Kategorien zeigt RAM++ Verbesserungen von 10,2 mAP und 15,4 mAP gegenüber CLIP auf OpenImages und ImageNet. Für offene Kategorien jenseits der Vordefinierten verzeichnet RAM++ Verbesserungen von 5 mAP und 6,4 mAP gegenüber CLIP und RAM auf OpenImages. Für vielfältige Mensch-Objekt-Interaktionsphrasen erzielt RAM++ Verbesserungen von 7,8 mAP und 4,7 mAP auf dem HICO-Benchmark. Code, Datensätze und vortrainierte Modelle sind verfügbar unter https://github.com/xinyu1205/recognize-anything.
Wir untersuchen die Fähigkeit modernster Modelle, Anfragen zur Einschränkungserfüllung für die Informationsbeschaffung zu beantworten (z. B. „eine Liste von Eisdielen in San Diego“). In der Vergangenheit wurden solche Anfragen als Aufgaben betrachtet, die nur über Websuche oder Wissensdatenbanken gelöst werden konnten. In jüngster Zeit haben große Sprachmodelle (LLMs) erste emergente Fähigkeiten bei dieser Aufgabe gezeigt. Viele derzeitige Retrieval-Benchmarks sind jedoch entweder gesättigt oder messen keine Einschränkungserfüllung. Angesichts zunehmender Bedenken hinsichtlich faktischer Ungenauigkeiten und Halluzinationen von LLMs präsentieren wir KITAB, einen neuen Datensatz zur Messung der Einschränkungserfüllungsfähigkeiten von Sprachmodellen. KITAB besteht aus buchbezogenen Daten von über 600 Autoren und 13.000 Anfragen und bietet zudem einen zugehörigen dynamischen Datenerfassungs- und Einschränkungsüberprüfungsansatz, um ähnliche Testdaten für andere Autoren zu sammeln. Unsere erweiterten Experimente mit GPT4 und GPT3.5 charakterisieren und entkoppeln häufige Fehlermodi in Dimensionen wie Informationspopularität, Einschränkungstypen und Kontextverfügbarkeit. Die Ergebnisse zeigen, dass Modelle bei fehlendem Kontext erhebliche Einschränkungen aufweisen, gemessen an irrelevanten Informationen, faktischen Fehlern und Unvollständigkeit, von denen viele sich verschärfen, wenn die Informationspopularität abnimmt. Während die Kontextverfügbarkeit irrelevante Informationen reduziert, hilft sie nicht bei der Erfüllung von Einschränkungen, was grundlegende Barrieren für die Einschränkungserfüllung aufzeigt. Wir stellen unsere Beiträge als Open Source zur Verfügung, um weitere Forschungen zur Verbesserung der Einschränkungserfüllungsfähigkeiten zukünftiger Modelle zu fördern.
Die Transformer-Architektur ist entscheidend für zahlreiche KI-Modelle, steht jedoch weiterhin vor Herausforderungen bei der langstreckigen Sprachmodellierung. Obwohl mehrere spezifische Transformer-Architekturen entwickelt wurden, um Probleme mit langstreckigen Abhängigkeiten zu bewältigen, leiden bestehende Methoden wie Transformer-XL unter einem hohen Anteil ineffektiver Speicher. In dieser Studie präsentieren wir eine Plug-and-Play-Strategie, bekannt als TRAining-free Memory Selection (TRAMS), die Token für die Aufmerksamkeitsberechnung basierend auf einem einfachen Metrik auswählt. Diese Strategie ermöglicht es uns, Token beizubehalten, die voraussichtlich eine hohe Aufmerksamkeitsbewertung mit den aktuellen Anfragen aufweisen, und die anderen zu ignorieren. Wir haben unseren Ansatz auf dem Wortebenen-Benchmark (WikiText-103) und dem Zeichenebenen-Benchmark (enwik8) getestet, und die Ergebnisse zeigen eine Verbesserung, ohne zusätzliches Training oder zusätzliche Parameter hinzuzufügen.
Die Moral Foundations Theory (MFT) ist ein psychologisches Bewertungswerkzeug, das menschliches moralisches Denken in fünf Faktoren zerlegt, darunter Fürsorge/Schaden, Freiheit/Unterdrückung und Heiligkeit/Degradierung (Graham et al., 2009). Menschen unterscheiden sich in der Gewichtung, die sie diesen Dimensionen bei moralischen Entscheidungen beimessen, teilweise aufgrund ihrer kulturellen Prägung und politischen Ideologie. Da große Sprachmodelle (LLMs) auf Datensätzen trainiert werden, die aus dem Internet stammen, können sie die in solchen Korpora vorhandenen Verzerrungen widerspiegeln. In diesem Artikel verwenden wir MFT als Linse, um zu analysieren, ob populäre LLMs eine Verzerrung hin zu einem bestimmten Satz moralischer Werte entwickelt haben. Wir untersuchen bekannte LLMs und stellen fest, dass sie bestimmte moralische Grundlagen aufweisen, und zeigen, wie diese mit menschlichen moralischen Grundlagen und politischen Zugehörigkeiten zusammenhängen. Wir messen auch die Konsistenz dieser Verzerrungen, d. h., ob sie stark variieren, abhängig vom Kontext, in dem das Modell angeregt wird. Schließlich zeigen wir, dass wir adversarisch Anreize auswählen können, die das Modell dazu veranlassen, einen bestimmten Satz moralischer Grundlagen zu zeigen, und dass dies das Verhalten des Modells bei nachgelagerten Aufgaben beeinflussen kann. Diese Erkenntnisse helfen, die potenziellen Risiken und unbeabsichtigten Folgen zu veranschaulichen, die entstehen, wenn LLMs eine bestimmte moralische Haltung einnehmen.