Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Heutzutage werden große Sprachmodelle (LLMs) darauf trainiert, neue Werkzeuge zu verwenden, indem einige Demonstrationen der Werkzeugnutzung bereitgestellt werden. Leider sind Demonstrationen schwer zu beschaffen und können zu unerwünschten verzerrten Nutzungsmustern führen, wenn die falsche Demonstration gewählt wird. Selbst in dem seltenen Fall, dass Demonstrationen leicht verfügbar sind, gibt es kein systematisches Auswahlprotokoll, um zu bestimmen, wie viele und welche Demonstrationen bereitgestellt werden sollen. Wenn Aufgaben komplexer werden, wächst die Auswahlsuche kombinatorisch und wird unweigerlich unlösbar. Unsere Arbeit bietet eine Alternative zu Demonstrationen: Werkzeugdokumentation. Wir befürworten die Verwendung von Werkzeugdokumentationen, also Beschreibungen für die individuelle Werkzeugnutzung, anstelle von Demonstrationen. Wir untermauern unsere Behauptung durch drei wesentliche empirische Erkenntnisse aus 6 Aufgaben in den Bereichen Bild und Sprache. Erstens zeigen wir auf bestehenden Benchmarks, dass Zero-Shot-Prompts mit nur Werkzeugdokumentation ausreichen, um eine korrekte Werkzeugnutzung zu ermöglichen, und dabei eine Leistung erzielen, die mit Few-Shot-Prompts vergleichbar ist. Zweitens demonstrieren wir auf einem neu gesammelten realistischen Datensatz zur Werkzeugnutzung mit Hunderten von verfügbaren Tool-APIs, dass Werkzeugdokumentation deutlich wertvoller ist als Demonstrationen, wobei Zero-Shot-Dokumentation Few-Shot ohne Dokumentation deutlich übertrifft. Drittens heben wir die Vorteile von Werkzeugdokumentationen hervor, indem wir Bildgenerierung und Videotracking mit gerade veröffentlichten, unbekannten State-of-the-Art-Modellen als Werkzeuge angehen. Schließlich zeigen wir die Möglichkeit auf, Werkzeugdokumentationen zu nutzen, um automatisch neue Anwendungen zu ermöglichen: Allein durch die Dokumentation von GroundingDino, Stable Diffusion, XMem und SAM können LLMs die Funktionalitäten der gerade veröffentlichten Modelle Grounded-SAM und Track Anything neu erfinden.
Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs), insbesondere die Erfindung des Chain-of-Thoughts (CoT)-Promptings, ermöglichen es, logische Probleme zu lösen. Allerdings kämpfen selbst die leistungsstärksten LLMs noch mit komplexeren Problemen, die nicht-lineares Denken und mehrstufige Schlussfolgerungen erfordern. In dieser Arbeit untersuchen wir, ob LLMs die Fähigkeit besitzen, ihre eigenen Fehler zu erkennen, ohne auf externe Ressourcen zurückzugreifen. Insbesondere erforschen wir, ob sie dazu verwendet werden können, individuelle Fehler innerhalb einer schrittweisen Argumentation zu identifizieren. Zu diesem Zweck schlagen wir ein Zero-Shot-Verifikationsschema vor, um solche Fehler zu erkennen. Anschließend nutzen wir dieses Verifikationsschema, um die Leistung bei der Beantwortung von Fragen zu verbessern, indem wir es für eine gewichtete Abstimmung zwischen verschiedenen generierten Antworten verwenden. Wir testen die Methode an drei mathematischen Datensätzen – GSM8K, MathQA und MATH – und stellen fest, dass sie erfolgreich Fehler erkennt und dadurch die endgültige Vorhersageleistung steigert.
Wir betrachten das Problem, die Fähigkeit zur kompositionellen Generalisierung in großen Sprachmodellen (LLMs) durch eine neuartige Art von Prompting-Strategie zu fördern. Kompositionelle Generalisierung befähigt LLMs, Probleme zu lösen, die schwieriger sind als die, die sie gesehen haben (d.h. einfache-zu-schwierige Generalisierung), was eine entscheidende Denkfähigkeit für menschenähnliche Intelligenz darstellt. Allerdings kämpfen selbst die derzeit besten LLMs noch mit dieser Form des Denkens. Um diese Lücke zu schließen, schlagen wir das Skills-in-Context (SKiC) Prompting vor, das LLMs anleitet, wie grundlegende Fähigkeiten kombiniert werden können, um komplexere Probleme zu lösen. Wir stellen fest, dass es entscheidend ist, sowohl die Fähigkeiten als auch die kompositionellen Beispiele innerhalb desselben Prompting-Kontexts zu demonstrieren. Mit nur zwei Beispielen initiiert unser SKiC Prompting starke Synergien zwischen Fähigkeiten und deren Kompositionsfähigkeiten. Bemerkenswerterweise befähigt es LLMs, ungesehene Probleme zu lösen, die innovative Fähigkeitskombinationen erfordern, und erreicht nahezu perfekte Generalisierung bei einer breiten Palette von anspruchsvollen Kompositionalitätsaufgaben. Interessanterweise erschließt SKiC Prompting das latente Potenzial von LLMs, indem es ihnen ermöglicht, bereits vorhandene interne Fähigkeiten, die während früherer Vor-Trainingsphasen erworben wurden, zu nutzen, selbst wenn diese Fähigkeiten nicht explizit im Prompting-Kontext präsentiert werden. Dies führt dazu, dass LLMs in der Lage sind, ungesehene komplexe Probleme zu lösen, indem sie interne Kompetenzen aktivieren und kombinieren. Mit solchen herausragenden Merkmalen erreicht SKiC Prompting Spitzenleistungen auf anspruchsvollen mathematischen Denkbenchmarks (z.B. MATH).
Selbstüberwachtes Lernen ist ein vielversprechendes Paradigma im Deep Learning, das das Lernen aus ungelabelten Daten ermöglicht, indem es Vorwandaufgaben (Pretext Tasks) konstruiert, die das Erlernen nützlicher Repräsentationen erfordern. In der natürlichen Sprachverarbeitung (NLP) war die dominierende Vorwandaufgabe das Masked Language Modeling (MLM), während in der Computer Vision ein äquivalenter Ansatz namens Masked Image Modeling (MIM) existiert. Allerdings ist MIM herausfordernd, da es die Vorhersage von semantischem Inhalt an präzisen Positionen erfordert. Zum Beispiel: Bei einem unvollständigen Bild eines Hundes können wir erraten, dass es einen Schwanz gibt, aber wir können dessen genaue Position nicht bestimmen. In dieser Arbeit schlagen wir FlexPredict vor, ein stochastisches Modell, das diese Herausforderung adressiert, indem es Positionsunsicherheiten in das Modell integriert. Konkret konditionieren wir das Modell auf stochastisch maskierte Token-Positionen, um das Modell dazu zu führen, Merkmale zu erlernen, die robuster gegenüber Positionsunsicherheiten sind. Unser Ansatz verbessert die Downstream-Leistung bei einer Reihe von Aufgaben. Beispielsweise steigert FlexPredict im Vergleich zu MIM-Baselines das Linear Probing auf ImageNet um 1,6 % mit ViT-B und um 2,5 % für semi-überwachte Video-Segmentierung mit ViT-L.
Die Aufgabe, zwischen generierten und natürlichen Texten zu unterscheiden, wird zunehmend schwieriger. In diesem Kontext erweist sich das Watermarking als vielversprechende Technik, um generierte Texte einem spezifischen Modell zuzuordnen. Es verändert den Sampling-Generierungsprozess, um eine unsichtbare Spur im generierten Output zu hinterlassen, was die spätere Erkennung erleichtert. Diese Forschung konsolidiert Watermarks für große Sprachmodelle basierend auf drei theoretischen und empirischen Überlegungen. Erstens führen wir neue statistische Tests ein, die robuste theoretische Garantien bieten, die selbst bei niedrigen False-Positive-Raten (weniger als 10^{-6}) gültig bleiben. Zweitens vergleichen wir die Wirksamkeit von Watermarks anhand klassischer Benchmarks im Bereich der natürlichen Sprachverarbeitung, um Einblicke in ihre praktische Anwendbarkeit zu gewinnen. Drittens entwickeln wir fortschrittliche Erkennungsschemata für Szenarien, in denen Zugriff auf das Sprachmodell verfügbar ist, sowie Multi-Bit-Watermarking.