Tägliche Papers

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

ToolLLM: Ermöglichung großer Sprachmodelle zur Beherrschung von über 16.000 realen APIs
ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

Jul 31, 2023

Yujia Qin, Shihao Liang, Yining Ye, Kunlun Zhu, Lan Yan, Yaxi Lu, Yankai Lin, Xin Cong, Xiangru Tang, Bill Qian, Sihan Zhao, Runchu Tian, Ruobing Xie, Jie Zhou, Mark Gerstein, Dahai Li, Zhiyuan Liu, Maosong Sun

1005

Trotz der Fortschritte bei Open-Source-Großsprachmodellen (LLMs) und ihren Varianten, wie z.B. LLaMA und Vicuna, bleiben sie erheblich eingeschränkt bei der Ausführung höherwertiger Aufgaben, wie dem Befolgen menschlicher Anweisungen zur Nutzung externer Werkzeuge (APIs). Dies liegt daran, dass sich das aktuelle Instruction Tuning weitgehend auf grundlegende Sprachaufgaben konzentriert und nicht auf den Bereich der Werkzeugnutzung. Dies steht im Gegensatz zu state-of-the-art (SOTA) LLMs, wie z.B. ChatGPT, die hervorragende Fähigkeiten in der Werkzeugnutzung gezeigt haben, aber leider nicht Open Source sind. Um die Fähigkeiten zur Werkzeugnutzung in Open-Source-LLMs zu fördern, stellen wir ToolLLM vor, ein allgemeines Framework für die Datenkonstruktion, das Modelltraining und die Evaluation von Werkzeugnutzung. Wir präsentieren zunächst ToolBench, einen Instruction-Tuning-Datensatz für die Werkzeugnutzung, der automatisch mit ChatGPT erstellt wird. Konkret sammeln wir 16.464 reale RESTful-APIs aus 49 Kategorien von RapidAPI Hub, fordern dann ChatGPT auf, diverse menschliche Anweisungen unter Einbeziehung dieser APIs zu generieren, die sowohl Einzelwerkzeug- als auch Mehrwerkzeugszenarien abdecken. Schließlich nutzen wir ChatGPT, um für jede Anweisung einen gültigen Lösungsweg (Kette von API-Aufrufen) zu suchen. Um den Suchprozess effizienter zu gestalten, entwickeln wir einen neuartigen, tiefensuchenden Entscheidungsbaum (DFSDT), der es LLMs ermöglicht, mehrere Denkspuren zu bewerten und den Suchraum zu erweitern. Wir zeigen, dass DFSDT die Planungs- und Denkfähigkeiten von LLMs erheblich verbessert. Für eine effiziente Bewertung der Werkzeugnutzung entwickeln wir einen automatischen Evaluator: ToolEval. Wir feintunen LLaMA auf ToolBench und erhalten ToolLLaMA. Unser ToolEval zeigt, dass ToolLLaMA eine bemerkenswerte Fähigkeit zur Ausführung komplexer Anweisungen und zur Generalisierung auf unbekannte APIs aufweist und eine vergleichbare Leistung wie ChatGPT erzielt. Um die Pipeline praktikabler zu gestalten, entwickeln wir einen neuronalen API-Retriever, der geeignete APIs für jede Anweisung empfiehlt und so die manuelle API-Auswahl überflüssig macht.

Skeleton-of-Thought: Große Sprachmodelle können parallele Dekodierung durchführen
Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding

Jul 28, 2023

Xuefei Ning, Zinan Lin, Zixuan Zhou, Huazhong Yang, Yu Wang

382

Diese Arbeit zielt darauf ab, die end-to-end-Generierungslatenz von großen Sprachmodellen (LLMs) zu verringern. Eine der Hauptursachen für die hohe Generierungslatenz ist der sequenzielle Dekodierungsansatz, der von nahezu allen state-of-the-art LLMs verwendet wird. In dieser Arbeit schlagen wir, motiviert durch den Denk- und Schreibprozess von Menschen, "Skeleton-of-Thought" (SoT) vor, das LLMs dazu anleitet, zunächst das Skelett der Antwort zu generieren und dann parallele API-Aufrufe oder gebündelte Dekodierung durchzuführen, um die Inhalte jedes Skelettpunkts parallel zu vervollständigen. SoT bietet nicht nur eine beträchtliche Beschleunigung (bis zu 2,39x über 11 verschiedene LLMs hinweg), sondern kann auch die Antwortqualität in mehreren Fragekategorien in Bezug auf Diversität und Relevanz potenziell verbessern. SoT ist ein erster Versuch einer datenzentrierten Optimierung für Effizienz und zeigt das Potenzial auf, LLMs dazu zu bringen, mehr wie ein Mensch zu denken, um die Antwortqualität zu steigern.

Offene Probleme und grundlegende Grenzen des Reinforcement Learning aus menschlichem Feedback
Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Jul 27, 2023

Stephen Casper, Xander Davies, Claudia Shi, Thomas Krendl Gilbert, Jérémy Scheurer, Javier Rando, Rachel Freedman, Tomasz Korbak, David Lindner, Pedro Freire, Tony Wang, Samuel Marks, Charbel-Raphaël Segerie, Micah Carroll, Andi Peng, Phillip Christoffersen, Mehul Damani, Stewart Slocum, Usman Anwar, Anand Siththaranjan, Max Nadeau, Eric J. Michaud, Jacob Pfau, Dmitrii Krasheninnikov, Xin Chen, Lauro Langosco, Peter Hase, Erdem Bıyık, Anca Dragan, David Krueger, Dorsa Sadigh, Dylan Hadfield-Menell

384

Reinforcement Learning from Human Feedback (RLHF) ist eine Technik zur Schulung von KI-Systemen, um diese mit menschlichen Zielen in Einklang zu bringen. RLHF hat sich als zentrale Methode etabliert, um modernste große Sprachmodelle (Large Language Models, LLMs) zu verfeinern. Trotz dieser Beliebtheit gibt es bisher relativ wenig öffentliche Arbeit, die ihre Schwächen systematisch untersucht. In diesem Papier (1) beleuchten wir offene Probleme und grundlegende Einschränkungen von RLHF und verwandten Methoden, (2) geben einen Überblick über Techniken, um RLHF in der Praxis zu verstehen, zu verbessern und zu ergänzen, und (3) schlagen Auditing- und Offenlegungsstandards vor, um die gesellschaftliche Aufsicht über RLHF-Systeme zu stärken. Unsere Arbeit betont die Grenzen von RLHF und unterstreicht die Bedeutung eines vielschichtigen Ansatzes für die Entwicklung sichererer KI-Systeme.

Med-Flamingo: Ein multimodaler medizinischer Few-Shot-Learner
Med-Flamingo: a Multimodal Medical Few-shot Learner

Jul 27, 2023

Michael Moor, Qian Huang, Shirley Wu, Michihiro Yasunaga, Cyril Zakka, Yash Dalmia, Eduardo Pontes Reis, Pranav Rajpurkar, Jure Leskovec

231

Die Medizin ist von Natur aus ein vielschichtiges Gebiet, das die Synthese von Informationen aus verschiedenen Modalitäten erfordert. Medizinische generative Vision-Sprache-Modelle (VLMs) machen einen ersten Schritt in diese Richtung und versprechen viele spannende klinische Anwendungen. Allerdings müssen bestehende Modelle in der Regel auf umfangreichen Downstream-Datensätzen feinabgestimmt werden, was eine erhebliche Einschränkung darstellt, da in vielen medizinischen Anwendungen Daten knapp sind. Dies erfordert Modelle, die in der Lage sind, in Echtzeit aus wenigen Beispielen zu lernen. Hier schlagen wir Med-Flamingo vor, einen multimodalen Few-Shot-Lerner, der an den medizinischen Bereich angepasst ist. Basierend auf OpenFlamingo-9B führen wir ein weiteres Pre-Training auf gepaarten und verschachtelten medizinischen Bild-Text-Daten aus Publikationen und Lehrbüchern durch. Med-Flamingo ermöglicht Few-Shot-generative medizinische visuelle Frage-Antwort-Fähigkeiten (VQA), die wir anhand mehrerer Datensätze evaluieren, einschließlich eines neuartigen, herausfordernden offenen VQA-Datensatzes mit visuellen USMLE-ähnlichen Problemen. Darüber hinaus führen wir die erste menschliche Bewertung für generative medizinische VQA durch, bei der Ärzte die Probleme und blinden Generierungen in einer interaktiven App überprüfen. Med-Flamingo verbessert die Leistung bei der generativen medizinischen VQA um bis zu 20 % in der Bewertung der Kliniker und ermöglicht erstmals multimodale medizinische Few-Shot-Anpassungen, wie z. B. die Generierung von Begründungen. Wir veröffentlichen unser Modell, den Code und die Evaluierungs-App unter https://github.com/snap-stanford/med-flamingo.

PromptStyler: Prompt-gesteuerte Stilgenerierung für die quellenfreie Domänengeneralisierung
PromptStyler: Prompt-driven Style Generation for Source-free Domain Generalization

Jul 27, 2023

Junhyeong Cho, Gilhyun Nam, Sungyeon Kim, Hunmin Yang, Suha Kwak

120

In einem gemeinsamen Vision-Sprache-Raum könnte ein Textmerkmal (z. B. von „ein Foto eines Hundes“) effektiv seine relevanten Bildmerkmale (z. B. von Hundefotos) repräsentieren. Inspiriert davon schlagen wir PromptStyler vor, das verschiedene Verteilungsverschiebungen in diesem gemeinsamen Raum simuliert, indem es diverse Stile über Prompts synthetisiert, ohne dabei Bilder zu verwenden, um die domänenfreie Generalisierung zu bewältigen. Unsere Methode lernt, eine Vielzahl von Stilmerkmalen (aus „ein S*-Stil eines“) über lernbare Stilwortvektoren für Pseudowörter S* zu erzeugen. Um sicherzustellen, dass die gelernten Stile keine Inhaltsinformationen verzerren, zwingen wir Stil-Inhalts-Merkmale (aus „ein S*-Stil eines [Klasse]“) dazu, in der Nähe ihrer entsprechenden Inhaltsmerkmale (aus „[Klasse]“) im gemeinsamen Vision-Sprache-Raum zu liegen. Nach dem Lernen der Stilwortvektoren trainieren wir einen linearen Klassifikator unter Verwendung der synthetisierten Stil-Inhalts-Merkmale. PromptStyler erreicht den Stand der Technik auf PACS, VLCS, OfficeHome und DomainNet, obwohl es keine Bilder benötigt und nur ~30 Minuten für das Training mit einer einzelnen GPU in Anspruch nimmt.

Robuste verzerrungsfreie Wasserzeichen für Sprachmodelle
Robust Distortion-free Watermarks for Language Models

Jul 28, 2023

Rohith Kuditipudi, John Thickstun, Tatsunori Hashimoto, Percy Liang

Wir schlagen eine Methodik vor, um Wasserzeichen in Texten von autoregressiven Sprachmodellen einzubetten, die robust gegenüber Störungen sind, ohne die Textverteilung bis zu einem bestimmten maximalen Generierungsbudget zu verändern. Wir erzeugen wasserzeichenbehaftete Texte, indem wir eine Folge von Zufallszahlen – die wir mithilfe eines randomisierten Wasserzeichenschlüssels berechnen – auf eine Stichprobe aus dem Sprachmodell abbilden. Um wasserzeichenbehaftete Texte zu erkennen, kann jede Partei, die den Schlüssel kennt, den Text an die Zufallszahlenfolge anpassen. Wir implementieren unsere Wasserzeichenmethodik mit zwei Sampling-Verfahren: inverse Transformationssampling und exponentielles Minimumsampling. Wir wenden diese Wasserzeichen auf drei Sprachmodelle an – OPT-1.3B, LLaMA-7B und Alpaca-7B – um ihre statistische Aussagekraft und Robustheit gegenüber verschiedenen Paraphrasierungsangriffen experimentell zu validieren. Bemerkenswerterweise können wir für sowohl das OPT-1.3B- als auch das LLaMA-7B-Modell wasserzeichenbehaftete Texte (p ≤ 0,01) ab 35 Tokens zuverlässig erkennen, selbst nachdem 40-50 % der Tokens durch zufällige Bearbeitungen (d. h. Substitutionen, Einfügungen oder Löschungen) verändert wurden. Für das Alpaca-7B-Modell führen wir eine Fallstudie zur Machbarkeit der Wasserzeichenbildung bei Antworten auf typische Benutzeranweisungen durch. Aufgrund der geringeren Entropie der Antworten ist die Erkennung schwieriger: etwa 25 % der Antworten – deren mittlere Länge bei etwa 100 Tokens liegt – sind mit p ≤ 0,01 erkennbar, und das Wasserzeichen ist auch weniger robust gegenüber bestimmten automatisierten Paraphrasierungsangriffen, die wir implementieren.

Untersuchung der Formatkonsistenz für Instruktions-Finetuning
Exploring Format Consistency for Instruction Tuning

Jul 28, 2023

Shihao Liang, Kunlun Zhu, Runchu Tian, Yujia Qin, Huadong Wang, Xin Cong, Zhiyuan Liu, Xiaojiang Liu, Maosong Sun

Instruction Tuning hat sich als vielversprechender Ansatz erwiesen, um große Sprachmodelle bei der Befolgung menschlicher Anweisungen zu verbessern. Es wurde gezeigt, dass die Erhöhung der Vielfalt und Anzahl der Anweisungen in den Trainingsdaten die Generalisierungsleistung konsequent steigern kann, was jüngste Bemühungen unterstützt, verschiedene Anweisungen zu sammeln und bestehende Instruction-Tuning-Datensätze in größere Sammlungen zu integrieren. Allerdings haben unterschiedliche Benutzer ihre eigenen Arten, Anweisungen auszudrücken, und es gibt oft Variationen in den Anweisungsstilen und -formaten zwischen verschiedenen Datensätzen, d.h. Formatinkonsistenz. In dieser Arbeit untersuchen wir, wie Formatinkonsistenz die Leistung von Instruction Tuning beeinflussen kann. Wir schlagen ein Framework namens "Unified Instruction Tuning" (UIT) vor, das OpenAI APIs für den automatischen Formattransfer zwischen verschiedenen Instruction-Tuning-Datensätzen nutzt. Wir zeigen, dass UIT die Generalisierungsleistung bei unbekannten Anweisungen erfolgreich verbessert, was die Bedeutung der Formatkonsistenz für Instruction Tuning unterstreicht. Um das UIT-Framework praktikabler zu machen, schlagen wir außerdem eine neuartige, auf Perplexität basierende Denoising-Methode vor, um das Rauschen beim automatischen Formattransfer zu reduzieren. Wir trainieren zudem ein kleineres Offline-Modell, das eine vergleichbare Formattransferfähigkeit wie die OpenAI APIs erreicht, um die Kosten in der Praxis zu senken.

Seal-3D: Interaktive Pixel-Level-Bearbeitung für Neural Radiance Fields
Seal-3D: Interactive Pixel-Level Editing for Neural Radiance Fields

Jul 27, 2023

Xiangyu Wang, Jingsen Zhu, Qi Ye, Yuchi Huo, Yunlong Ran, Zhihua Zhong, Jiming Chen

Mit der zunehmenden Popularität impliziter neuronaler Repräsentationen, insbesondere von Neural Radiance Fields (NeRF), besteht ein dringender Bedarf an Bearbeitungsmethoden, um mit den impliziten 3D-Modellen für Aufgaben wie die Nachbearbeitung rekonstruierter Szenen und die Erstellung von 3D-Inhalten zu interagieren. Während frühere Arbeiten die Bearbeitung von NeRF aus verschiedenen Perspektiven untersucht haben, sind sie in Bezug auf Bearbeitungsflexibilität, Qualität und Geschwindigkeit eingeschränkt und bieten keine direkte Bearbeitungsreaktion und sofortige Vorschau. Die zentrale Herausforderung besteht darin, eine lokal bearbeitbare neuronale Repräsentation zu entwickeln, die die Bearbeitungsanweisungen direkt widerspiegeln und sofort aktualisieren kann. Um diese Lücke zu schließen, schlagen wir eine neue interaktive Bearbeitungsmethode und ein System für implizite Repräsentationen vor, genannt Seal-3D, das es Benutzern ermöglicht, NeRF-Modelle auf Pixel-Ebene und frei mit einer Vielzahl von NeRF-ähnlichen Backbones zu bearbeiten und die Bearbeitungseffekte sofort zu überprüfen. Um diese Effekte zu erzielen, werden die Herausforderungen durch unsere vorgeschlagene Proxy-Funktion, die die Bearbeitungsanweisungen auf den ursprünglichen Raum der NeRF-Modelle abbildet, sowie eine Lehrer-Schüler-Trainingsstrategie mit lokalem Vortraining und globalem Feintuning bewältigt. Ein NeRF-Bearbeitungssystem wurde entwickelt, um verschiedene Bearbeitungstypen zu demonstrieren. Unser System kann überzeugende Bearbeitungseffekte mit einer interaktiven Geschwindigkeit von etwa 1 Sekunde erzielen.

ToolLLM: Ermöglichung großer Sprachmodelle zur Beherrschung von über 16.000 realen APIs
ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

Jul 31, 2023

1005

Tägliche Papers

ToolLLM: Ermöglichung großer Sprachmodelle zur Beherrschung von über 16.000 realen APIs
ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

Skeleton-of-Thought: Große Sprachmodelle können parallele Dekodierung durchführen
Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding

Offene Probleme und grundlegende Grenzen des Reinforcement Learning aus menschlichem Feedback
Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Med-Flamingo: Ein multimodaler medizinischer Few-Shot-Learner
Med-Flamingo: a Multimodal Medical Few-shot Learner

PromptStyler: Prompt-gesteuerte Stilgenerierung für die quellenfreie Domänengeneralisierung
PromptStyler: Prompt-driven Style Generation for Source-free Domain Generalization

Robuste verzerrungsfreie Wasserzeichen für Sprachmodelle
Robust Distortion-free Watermarks for Language Models

Untersuchung der Formatkonsistenz für Instruktions-Finetuning
Exploring Format Consistency for Instruction Tuning

Seal-3D: Interaktive Pixel-Level-Bearbeitung für Neural Radiance Fields
Seal-3D: Interactive Pixel-Level Editing for Neural Radiance Fields

Support

Support

Tägliche Papers

ToolLLM: Ermöglichung großer Sprachmodelle zur Beherrschung von über 16.000 realen APIs
ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

Skeleton-of-Thought: Große Sprachmodelle können parallele Dekodierung durchführen
Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding

Offene Probleme und grundlegende Grenzen des Reinforcement Learning aus menschlichem Feedback
Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Med-Flamingo: Ein multimodaler medizinischer Few-Shot-Learner
Med-Flamingo: a Multimodal Medical Few-shot Learner

PromptStyler: Prompt-gesteuerte Stilgenerierung für die quellenfreie Domänengeneralisierung
PromptStyler: Prompt-driven Style Generation for Source-free Domain Generalization

Robuste verzerrungsfreie Wasserzeichen für Sprachmodelle
Robust Distortion-free Watermarks for Language Models

Untersuchung der Formatkonsistenz für Instruktions-Finetuning
Exploring Format Consistency for Instruction Tuning

Seal-3D: Interaktive Pixel-Level-Bearbeitung für Neural Radiance Fields
Seal-3D: Interactive Pixel-Level Editing for Neural Radiance Fields