Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Trotz der Fortschritte bei Open-Source-Großsprachmodellen (LLMs) und ihren Varianten, wie z.B. LLaMA und Vicuna, bleiben sie erheblich eingeschränkt bei der Ausführung höherwertiger Aufgaben, wie dem Befolgen menschlicher Anweisungen zur Nutzung externer Werkzeuge (APIs). Dies liegt daran, dass sich das aktuelle Instruction Tuning weitgehend auf grundlegende Sprachaufgaben konzentriert und nicht auf den Bereich der Werkzeugnutzung. Dies steht im Gegensatz zu state-of-the-art (SOTA) LLMs, wie z.B. ChatGPT, die hervorragende Fähigkeiten in der Werkzeugnutzung gezeigt haben, aber leider nicht Open Source sind. Um die Fähigkeiten zur Werkzeugnutzung in Open-Source-LLMs zu fördern, stellen wir ToolLLM vor, ein allgemeines Framework für die Datenkonstruktion, das Modelltraining und die Evaluation von Werkzeugnutzung. Wir präsentieren zunächst ToolBench, einen Instruction-Tuning-Datensatz für die Werkzeugnutzung, der automatisch mit ChatGPT erstellt wird. Konkret sammeln wir 16.464 reale RESTful-APIs aus 49 Kategorien von RapidAPI Hub, fordern dann ChatGPT auf, diverse menschliche Anweisungen unter Einbeziehung dieser APIs zu generieren, die sowohl Einzelwerkzeug- als auch Mehrwerkzeugszenarien abdecken. Schließlich nutzen wir ChatGPT, um für jede Anweisung einen gültigen Lösungsweg (Kette von API-Aufrufen) zu suchen. Um den Suchprozess effizienter zu gestalten, entwickeln wir einen neuartigen, tiefensuchenden Entscheidungsbaum (DFSDT), der es LLMs ermöglicht, mehrere Denkspuren zu bewerten und den Suchraum zu erweitern. Wir zeigen, dass DFSDT die Planungs- und Denkfähigkeiten von LLMs erheblich verbessert. Für eine effiziente Bewertung der Werkzeugnutzung entwickeln wir einen automatischen Evaluator: ToolEval. Wir feintunen LLaMA auf ToolBench und erhalten ToolLLaMA. Unser ToolEval zeigt, dass ToolLLaMA eine bemerkenswerte Fähigkeit zur Ausführung komplexer Anweisungen und zur Generalisierung auf unbekannte APIs aufweist und eine vergleichbare Leistung wie ChatGPT erzielt. Um die Pipeline praktikabler zu gestalten, entwickeln wir einen neuronalen API-Retriever, der geeignete APIs für jede Anweisung empfiehlt und so die manuelle API-Auswahl überflüssig macht.
Diese Arbeit zielt darauf ab, die end-to-end-Generierungslatenz von großen Sprachmodellen (LLMs) zu verringern. Eine der Hauptursachen für die hohe Generierungslatenz ist der sequenzielle Dekodierungsansatz, der von nahezu allen state-of-the-art LLMs verwendet wird. In dieser Arbeit schlagen wir, motiviert durch den Denk- und Schreibprozess von Menschen, "Skeleton-of-Thought" (SoT) vor, das LLMs dazu anleitet, zunächst das Skelett der Antwort zu generieren und dann parallele API-Aufrufe oder gebündelte Dekodierung durchzuführen, um die Inhalte jedes Skelettpunkts parallel zu vervollständigen. SoT bietet nicht nur eine beträchtliche Beschleunigung (bis zu 2,39x über 11 verschiedene LLMs hinweg), sondern kann auch die Antwortqualität in mehreren Fragekategorien in Bezug auf Diversität und Relevanz potenziell verbessern. SoT ist ein erster Versuch einer datenzentrierten Optimierung für Effizienz und zeigt das Potenzial auf, LLMs dazu zu bringen, mehr wie ein Mensch zu denken, um die Antwortqualität zu steigern.
Reinforcement Learning from Human Feedback (RLHF) ist eine Technik zur Schulung von KI-Systemen, um diese mit menschlichen Zielen in Einklang zu bringen. RLHF hat sich als zentrale Methode etabliert, um modernste große Sprachmodelle (Large Language Models, LLMs) zu verfeinern. Trotz dieser Beliebtheit gibt es bisher relativ wenig öffentliche Arbeit, die ihre Schwächen systematisch untersucht. In diesem Papier (1) beleuchten wir offene Probleme und grundlegende Einschränkungen von RLHF und verwandten Methoden, (2) geben einen Überblick über Techniken, um RLHF in der Praxis zu verstehen, zu verbessern und zu ergänzen, und (3) schlagen Auditing- und Offenlegungsstandards vor, um die gesellschaftliche Aufsicht über RLHF-Systeme zu stärken. Unsere Arbeit betont die Grenzen von RLHF und unterstreicht die Bedeutung eines vielschichtigen Ansatzes für die Entwicklung sichererer KI-Systeme.
Die Medizin ist von Natur aus ein vielschichtiges Gebiet, das die Synthese von Informationen aus verschiedenen Modalitäten erfordert. Medizinische generative Vision-Sprache-Modelle (VLMs) machen einen ersten Schritt in diese Richtung und versprechen viele spannende klinische Anwendungen. Allerdings müssen bestehende Modelle in der Regel auf umfangreichen Downstream-Datensätzen feinabgestimmt werden, was eine erhebliche Einschränkung darstellt, da in vielen medizinischen Anwendungen Daten knapp sind. Dies erfordert Modelle, die in der Lage sind, in Echtzeit aus wenigen Beispielen zu lernen. Hier schlagen wir Med-Flamingo vor, einen multimodalen Few-Shot-Lerner, der an den medizinischen Bereich angepasst ist. Basierend auf OpenFlamingo-9B führen wir ein weiteres Pre-Training auf gepaarten und verschachtelten medizinischen Bild-Text-Daten aus Publikationen und Lehrbüchern durch. Med-Flamingo ermöglicht Few-Shot-generative medizinische visuelle Frage-Antwort-Fähigkeiten (VQA), die wir anhand mehrerer Datensätze evaluieren, einschließlich eines neuartigen, herausfordernden offenen VQA-Datensatzes mit visuellen USMLE-ähnlichen Problemen. Darüber hinaus führen wir die erste menschliche Bewertung für generative medizinische VQA durch, bei der Ärzte die Probleme und blinden Generierungen in einer interaktiven App überprüfen. Med-Flamingo verbessert die Leistung bei der generativen medizinischen VQA um bis zu 20 % in der Bewertung der Kliniker und ermöglicht erstmals multimodale medizinische Few-Shot-Anpassungen, wie z. B. die Generierung von Begründungen. Wir veröffentlichen unser Modell, den Code und die Evaluierungs-App unter https://github.com/snap-stanford/med-flamingo.
In einem gemeinsamen Vision-Sprache-Raum könnte ein Textmerkmal (z. B. von „ein Foto eines Hundes“) effektiv seine relevanten Bildmerkmale (z. B. von Hundefotos) repräsentieren. Inspiriert davon schlagen wir PromptStyler vor, das verschiedene Verteilungsverschiebungen in diesem gemeinsamen Raum simuliert, indem es diverse Stile über Prompts synthetisiert, ohne dabei Bilder zu verwenden, um die domänenfreie Generalisierung zu bewältigen. Unsere Methode lernt, eine Vielzahl von Stilmerkmalen (aus „ein S*-Stil eines“) über lernbare Stilwortvektoren für Pseudowörter S* zu erzeugen. Um sicherzustellen, dass die gelernten Stile keine Inhaltsinformationen verzerren, zwingen wir Stil-Inhalts-Merkmale (aus „ein S*-Stil eines [Klasse]“) dazu, in der Nähe ihrer entsprechenden Inhaltsmerkmale (aus „[Klasse]“) im gemeinsamen Vision-Sprache-Raum zu liegen. Nach dem Lernen der Stilwortvektoren trainieren wir einen linearen Klassifikator unter Verwendung der synthetisierten Stil-Inhalts-Merkmale. PromptStyler erreicht den Stand der Technik auf PACS, VLCS, OfficeHome und DomainNet, obwohl es keine Bilder benötigt und nur ~30 Minuten für das Training mit einer einzelnen GPU in Anspruch nimmt.
Wir schlagen eine Methodik vor, um Wasserzeichen in Texten von autoregressiven Sprachmodellen einzubetten, die robust gegenüber Störungen sind, ohne die Textverteilung bis zu einem bestimmten maximalen Generierungsbudget zu verändern. Wir erzeugen wasserzeichenbehaftete Texte, indem wir eine Folge von Zufallszahlen – die wir mithilfe eines randomisierten Wasserzeichenschlüssels berechnen – auf eine Stichprobe aus dem Sprachmodell abbilden. Um wasserzeichenbehaftete Texte zu erkennen, kann jede Partei, die den Schlüssel kennt, den Text an die Zufallszahlenfolge anpassen. Wir implementieren unsere Wasserzeichenmethodik mit zwei Sampling-Verfahren: inverse Transformationssampling und exponentielles Minimumsampling. Wir wenden diese Wasserzeichen auf drei Sprachmodelle an – OPT-1.3B, LLaMA-7B und Alpaca-7B – um ihre statistische Aussagekraft und Robustheit gegenüber verschiedenen Paraphrasierungsangriffen experimentell zu validieren. Bemerkenswerterweise können wir für sowohl das OPT-1.3B- als auch das LLaMA-7B-Modell wasserzeichenbehaftete Texte (p ≤ 0,01) ab 35 Tokens zuverlässig erkennen, selbst nachdem 40-50 % der Tokens durch zufällige Bearbeitungen (d. h. Substitutionen, Einfügungen oder Löschungen) verändert wurden. Für das Alpaca-7B-Modell führen wir eine Fallstudie zur Machbarkeit der Wasserzeichenbildung bei Antworten auf typische Benutzeranweisungen durch. Aufgrund der geringeren Entropie der Antworten ist die Erkennung schwieriger: etwa 25 % der Antworten – deren mittlere Länge bei etwa 100 Tokens liegt – sind mit p ≤ 0,01 erkennbar, und das Wasserzeichen ist auch weniger robust gegenüber bestimmten automatisierten Paraphrasierungsangriffen, die wir implementieren.
Instruction Tuning hat sich als vielversprechender Ansatz erwiesen, um große Sprachmodelle bei der Befolgung menschlicher Anweisungen zu verbessern. Es wurde gezeigt, dass die Erhöhung der Vielfalt und Anzahl der Anweisungen in den Trainingsdaten die Generalisierungsleistung konsequent steigern kann, was jüngste Bemühungen unterstützt, verschiedene Anweisungen zu sammeln und bestehende Instruction-Tuning-Datensätze in größere Sammlungen zu integrieren. Allerdings haben unterschiedliche Benutzer ihre eigenen Arten, Anweisungen auszudrücken, und es gibt oft Variationen in den Anweisungsstilen und -formaten zwischen verschiedenen Datensätzen, d.h. Formatinkonsistenz. In dieser Arbeit untersuchen wir, wie Formatinkonsistenz die Leistung von Instruction Tuning beeinflussen kann. Wir schlagen ein Framework namens "Unified Instruction Tuning" (UIT) vor, das OpenAI APIs für den automatischen Formattransfer zwischen verschiedenen Instruction-Tuning-Datensätzen nutzt. Wir zeigen, dass UIT die Generalisierungsleistung bei unbekannten Anweisungen erfolgreich verbessert, was die Bedeutung der Formatkonsistenz für Instruction Tuning unterstreicht. Um das UIT-Framework praktikabler zu machen, schlagen wir außerdem eine neuartige, auf Perplexität basierende Denoising-Methode vor, um das Rauschen beim automatischen Formattransfer zu reduzieren. Wir trainieren zudem ein kleineres Offline-Modell, das eine vergleichbare Formattransferfähigkeit wie die OpenAI APIs erreicht, um die Kosten in der Praxis zu senken.
Mit der zunehmenden Popularität impliziter neuronaler Repräsentationen, insbesondere von Neural Radiance Fields (NeRF), besteht ein dringender Bedarf an Bearbeitungsmethoden, um mit den impliziten 3D-Modellen für Aufgaben wie die Nachbearbeitung rekonstruierter Szenen und die Erstellung von 3D-Inhalten zu interagieren. Während frühere Arbeiten die Bearbeitung von NeRF aus verschiedenen Perspektiven untersucht haben, sind sie in Bezug auf Bearbeitungsflexibilität, Qualität und Geschwindigkeit eingeschränkt und bieten keine direkte Bearbeitungsreaktion und sofortige Vorschau. Die zentrale Herausforderung besteht darin, eine lokal bearbeitbare neuronale Repräsentation zu entwickeln, die die Bearbeitungsanweisungen direkt widerspiegeln und sofort aktualisieren kann. Um diese Lücke zu schließen, schlagen wir eine neue interaktive Bearbeitungsmethode und ein System für implizite Repräsentationen vor, genannt Seal-3D, das es Benutzern ermöglicht, NeRF-Modelle auf Pixel-Ebene und frei mit einer Vielzahl von NeRF-ähnlichen Backbones zu bearbeiten und die Bearbeitungseffekte sofort zu überprüfen. Um diese Effekte zu erzielen, werden die Herausforderungen durch unsere vorgeschlagene Proxy-Funktion, die die Bearbeitungsanweisungen auf den ursprünglichen Raum der NeRF-Modelle abbildet, sowie eine Lehrer-Schüler-Trainingsstrategie mit lokalem Vortraining und globalem Feintuning bewältigt. Ein NeRF-Bearbeitungssystem wurde entwickelt, um verschiedene Bearbeitungstypen zu demonstrieren. Unser System kann überzeugende Bearbeitungseffekte mit einer interaktiven Geschwindigkeit von etwa 1 Sekunde erzielen.