Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Es gibt eine rasch wachsende Anzahl von großen Sprachmodellen (LLMs), die Nutzer gegen eine Gebühr abfragen können. Wir untersuchen die Kosten, die mit der Abfrage beliebter LLM-APIs wie GPT-4, ChatGPT und J1-Jumbo verbunden sind, und stellen fest, dass diese Modelle heterogene Preisstrukturen aufweisen, wobei die Gebühren um bis zu zwei Größenordnungen variieren können. Insbesondere kann die Nutzung von LLMs für große Abfragesammlungen und Texte kostspielig sein. Vor diesem Hintergrund skizzieren und diskutieren wir drei Arten von Strategien, die Nutzer anwenden können, um die Inferenzkosten im Zusammenhang mit der Nutzung von LLMs zu reduzieren: 1) Prompt-Anpassung, 2) LLM-Approximation und 3) LLM-Kaskade. Als Beispiel schlagen wir FrugalGPT vor, eine einfache, aber flexible Implementierung einer LLM-Kaskade, die lernt, welche Kombinationen von LLMs für verschiedene Abfragen verwendet werden sollen, um die Kosten zu senken und die Genauigkeit zu verbessern. Unsere Experimente zeigen, dass FrugalGPT die Leistung des besten einzelnen LLMs (z. B. GPT-4) bei einer Kostenreduktion von bis zu 98 % erreichen oder die Genauigkeit gegenüber GPT-4 bei gleichen Kosten um 4 % steigern kann. Die hier vorgestellten Ideen und Erkenntnisse bilden eine Grundlage für die nachhaltige und effiziente Nutzung von LLMs.
Während „instruction-tuned“ generative Large Language Models (LLMs) eine beeindruckende Fähigkeit zur Generalisierung auf neue Aufgaben gezeigt haben, sind die Trainingsphasen stark auf große Mengen an diversen und hochwertigen Instruktionsdaten (wie bei ChatGPT und GPT-4) angewiesen. Leider kann die Beschaffung hochwertiger Daten, insbesondere von menschengeschriebenen Daten, erhebliche Herausforderungen in Bezug auf Kosten und Zugänglichkeit darstellen. Darüber hinaus können Bedenken im Zusammenhang mit dem Datenschutz den Zugang zu solchen Daten weiter einschränken, was den Prozess ihrer Beschaffung zu einem komplexen und vielschichtigen Unterfangen macht. Folglich beeinträchtigt dies die Allgemeingültigkeit der abgestimmten Modelle und kann ihre Wirksamkeit in bestimmten Kontexten einschränken. Um dieses Problem zu lösen, stellt unsere Studie einen neuen Ansatz namens Federated Instruction Tuning (FedIT) vor, der Federated Learning (FL) als Lernframework für das Instruction Tuning von LLMs nutzt. Dies markiert die erste Erkundung von FL-basiertem Instruction Tuning für LLMs. Dies ist besonders wichtig, da Textdaten überwiegend von Endnutzern generiert werden. Daher ist es unerlässlich, FL-Ansätze zu entwerfen und anzupassen, um die vielfältigen Instruktionen, die auf lokalen Geräten gespeichert sind, effektiv zu nutzen, während der Datenschutz und die Datensicherheit gewährleistet werden. In der vorliegenden Arbeit zeigen wir durch eine weit verbreitete GPT-4-Autobewertung, dass wir durch die Nutzung der heterogenen und diversen Instruktionssätze auf der Client-Seite mit dem vorgeschlagenen Framework FedIT die Leistung von LLMs im Vergleich zum zentralisierten Training mit nur begrenzten lokalen Instruktionen verbessern konnten. Darüber hinaus haben wir in dieser Arbeit ein GitHub-Repository namens Shepherd entwickelt. Dieses Repository bietet ein grundlegendes Framework für die Erforschung des federated Fine-Tunings von LLMs unter Verwendung heterogener Instruktionen aus verschiedenen Kategorien.
Wir präsentieren ein interaktives visuelles Framework namens InternChat, kurz iChat. Das Framework integriert Chatbots mit Planungs- und Denkfähigkeiten, wie ChatGPT, mit nonverbalen Anweisungen wie Zeigebewegungen, die es Benutzern ermöglichen, Bilder oder Videos direkt auf dem Bildschirm zu manipulieren. Zeigebewegungen (einschließlich Gesten, Cursor usw.) können mehr Flexibilität und Präzision bei der Ausführung von visuell zentrierten Aufgaben bieten, die eine fein abgestimmte Kontrolle, Bearbeitung und Erstellung von visuellen Inhalten erfordern. Der Name InternChat steht für Interaktion, Nonverbal und Chatbots. Im Gegensatz zu bestehenden interaktiven Systemen, die ausschließlich auf Sprache basieren, verbessert das vorgeschlagene iChat durch die Einbindung von Zeigeanweisungen die Effizienz der Kommunikation zwischen Benutzern und Chatbots sowie die Genauigkeit der Chatbots bei visuell zentrierten Aufgaben, insbesondere in komplexen visuellen Szenarien, in denen die Anzahl der Objekte größer als 2 ist. Zusätzlich wird in iChat ein unterstützendes Kontrollmechanismus verwendet, um die Steuerungsfähigkeit von LLM zu verbessern, und ein großes Vision-Sprache-Modell namens Husky wird für hochwertigen multimodalen Dialog feinabgestimmt (beeindruckt ChatGPT-3.5-turbo mit 93,89 % GPT-4-Qualität). Wir hoffen, dass diese Arbeit neue Ideen und Richtungen für zukünftige interaktive visuelle Systeme anregen kann. Willkommen, den Code unter https://github.com/OpenGVLab/InternChat zu betrachten.
Große Sprachmodelle (LLMs) haben kürzlich beeindruckende Leistungen in verschiedenen NLP-Aufgaben gezeigt. Um mehrstufige Denkaufgaben zu bewältigen, beinhaltet das Few-Shot-Chain-of-Thought (CoT)-Prompting einige manuell erstellte Schritt-für-Schritt-Demonstrationen, die es LLMs ermöglichen, explizit Denkschritte zu generieren und ihre Genauigkeit bei Denkaufgaben zu verbessern. Um den manuellen Aufwand zu eliminieren, fügt Zero-Shot-CoT die Zielproblemstellung mit „Lassen Sie uns Schritt für Schritt denken“ als Eingabeaufforderung für LLMs zusammen. Trotz des Erfolgs von Zero-Shot-CoT leidet es immer noch unter drei Schwachstellen: Rechenfehlern, fehlenden Schritten und semantischen Missverständnissen. Um die fehlenden Schritte zu adressieren, schlagen wir Plan-and-Solve (PS)-Prompting vor. Es besteht aus zwei Komponenten: erstens, einen Plan zu entwickeln, um die gesamte Aufgabe in kleinere Teilaufgaben zu unterteilen, und zweitens, die Teilaufgaben gemäß dem Plan auszuführen. Um die Rechenfehler zu beheben und die Qualität der generierten Denkschritte zu verbessern, erweitern wir PS-Prompting mit detaillierteren Anweisungen und leiten PS+-Prompting ab. Wir evaluieren unsere vorgeschlagene Prompting-Strategie anhand von zehn Datensätzen über drei Denkprobleme. Die experimentellen Ergebnisse über GPT-3 zeigen, dass unser vorgeschlagenes Zero-Shot-Prompting durchweg alle Datensätze mit großem Abstand übertrifft, vergleichbar mit oder besser als Zero-Shot-Program-of-Thought-Prompting ist und eine vergleichbare Leistung mit 8-Shot-CoT-Prompting beim mathematischen Denkproblem aufweist. Der Code ist unter https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting verfügbar.
Diffusionsmodelle, die sich zu beliebten Text-zu-Bild-Generierungsmodellen entwickelt haben, können hochwertige und inhaltsreiche Bilder anhand von textuellen Eingabeaufforderungen erzeugen. Allerdings gibt es bei bestehenden Modellen Einschränkungen im semantischen Verständnis und im gesunden Menschenverstand, insbesondere wenn die Eingabeaufforderungen knappe Erzählungen sind, was zu einer minderwertigen Bildgenerierung führt. Um die Fähigkeiten für narrative Eingabeaufforderungen zu verbessern, schlagen wir einen einfachen, aber effektiven parameter-effizienten Feinabstimmungsansatz vor, den sogenannten Semantic Understanding and Reasoning Adapter (SUR-Adapter) für vortrainierte Diffusionsmodelle. Um dieses Ziel zu erreichen, sammeln und annotieren wir zunächst einen neuen Datensatz SURD, der aus mehr als 57.000 semantisch korrigierten multimodalen Beispielen besteht. Jedes Beispiel enthält eine einfache narrative Eingabeaufforderung, eine komplexe schlüsselwortbasierte Eingabeaufforderung und ein hochwertiges Bild. Anschließend gleichen wir die semantische Darstellung der narrativen Eingabeaufforderungen an die komplexen Eingabeaufforderungen an und übertragen das Wissen von großen Sprachmodellen (LLMs) über Wissensdestillation auf unseren SUR-Adapter, damit dieser die leistungsstarken Fähigkeiten zum semantischen Verständnis und zur Schlussfolgerung erwerben kann, um eine hochwertige textuelle semantische Darstellung für die Text-zu-Bild-Generierung zu erstellen. Wir führen Experimente durch, indem wir mehrere LLMs und beliebte vortrainierte Diffusionsmodelle integrieren, um die Wirksamkeit unseres Ansatzes zu zeigen, der es Diffusionsmodellen ermöglicht, prägnante natürliche Sprache zu verstehen und zu interpretieren, ohne die Bildqualität zu beeinträchtigen. Unser Ansatz kann Text-zu-Bild-Diffusionsmodelle einfacher zu bedienen machen und die Benutzererfahrung verbessern, was zeigt, dass unser Ansatz das Potenzial hat, die Entwicklung benutzerfreundlicher Text-zu-Bild-Generierungsmodelle weiter voranzutreiben, indem er die semantische Lücke zwischen einfachen narrativen Eingabeaufforderungen und komplexen schlüsselwortbasierten Eingabeaufforderungen überbrückt.
Prompt Tuning ist einer der erfolgreichen Ansätze für parameter-effizientes Fine-Tuning vortrainierter Sprachmodelle. Obwohl es wohl der parameter-effizienteste Ansatz ist (abgestimmte Soft Prompts machen <0,1 % der Gesamtparameter aus), schneidet es in der Regel schlechter ab als andere effiziente Tuning-Methoden und ist recht empfindlich gegenüber Hyperparametern. In dieser Arbeit stellen wir Residual Prompt Tuning vor – eine einfache und effiziente Methode, die die Leistung und Stabilität von Prompt Tuning erheblich verbessert. Wir schlagen vor, Soft-Prompt-Embeddings mithilfe eines flachen Netzwerks mit einer Residualverbindung neu zu parametrisieren. Unsere Experimente zeigen, dass Residual Prompt Tuning auf dem SuperGLUE-Benchmark deutlich besser abschneidet als Prompt Tuning. Bemerkenswerterweise erreicht unsere Methode eine Verbesserung von +7 Punkten gegenüber Prompt Tuning mit T5-Base und ermöglicht es, die Prompt-Länge um das 10-fache zu reduzieren, ohne die Leistung zu beeinträchtigen. Darüber hinaus zeigen wir, dass unser Ansatz robust gegenüber der Wahl der Lernrate und der Prompt-Initialisierung ist und in Few-Shot-Szenarien effektiv ist.
Wir stellen ein Vision- und Sprachmodell namens MultiModal-GPT vor, das mehrrundige Dialoge mit Menschen führen kann. MultiModal-GPT kann verschiedene Anweisungen von Menschen befolgen, wie das Generieren einer detaillierten Bildbeschreibung, das Zählen interessierter Objekte und das Beantworten allgemeiner Fragen von Nutzern. MultiModal-GPT wird parameter-effizient aus OpenFlamingo feinabgestimmt, wobei Low-rank Adapter (LoRA) sowohl im Cross-Attention-Teil als auch im Self-Attention-Teil des Sprachmodells hinzugefügt werden. Zunächst erstellen wir Instruktionsvorlagen mit visuellen und sprachlichen Daten für das Multimodal-Instruction-Tuning, um das Modell dazu zu befähigen, menschliche Anweisungen zu verstehen und zu befolgen. Wir stellen fest, dass die Qualität der Trainingsdaten entscheidend für die Dialogleistung ist, wobei wenige Daten mit kurzen Antworten dazu führen können, dass das Modell auf alle Anweisungen kurz antwortet. Um die Fähigkeit von MultiModal-GPT, mit Menschen zu chatten, weiter zu verbessern, nutzen wir sprachliche Instruktionsdaten, um MultiModal-GPT gemeinsam zu trainieren. Das gemeinsame Training von rein sprachlichen und visuell-sprachlichen Anweisungen mit derselben Instruktionsvorlage verbessert die Dialogleistung effektiv. Verschiedene Demos zeigen die Fähigkeit von MultiModal-GPT, kontinuierliche Dialoge mit Menschen zu führen. Code und Demo sind unter https://github.com/open-mmlab/Multimodal-GPT verfügbar.
Wir präsentieren AvatarReX, eine neue Methode zum Erlernen von NeRF-basierten Ganzkörper-Avataren aus Videodaten. Der gelernte Avatar ermöglicht nicht nur eine ausdrucksstarke Steuerung von Körper, Händen und Gesicht gemeinsam, sondern unterstützt auch Echtzeit-Animation und -Rendering. Zu diesem Zweck schlagen wir eine kompositionelle Avatar-Darstellung vor, bei der Körper, Hände und Gesicht separat modelliert werden, sodass die strukturellen Vorgaben aus parametrischen Mesh-Vorlagen effektiv genutzt werden, ohne die Flexibilität der Darstellung zu beeinträchtigen. Darüber hinaus entkoppeln wir die Geometrie und das Erscheinungsbild für jeden Teil. Mit diesen technischen Entwürfen schlagen wir eine spezialisierte Deferred-Rendering-Pipeline vor, die in Echtzeit-Framerate ausgeführt werden kann, um hochwertige Freisichtbilder zu synthetisieren. Die Entkopplung von Geometrie und Erscheinungsbild ermöglicht es uns auch, eine zweistufige Trainingsstrategie zu entwerfen, die Volumenrendering und Oberflächenrendering für das Netzwerktraining kombiniert. Auf diese Weise kann eine Patch-basierte Überwachung angewendet werden, um das Netzwerk zu zwingen, scharfe Erscheinungsdetails auf der Grundlage der Geometrieschätzung zu lernen. Insgesamt ermöglicht unsere Methode die automatische Konstruktion von ausdrucksstarken Ganzkörper-Avataren mit Echtzeit-Rendering-Fähigkeit und kann fotorealistische Bilder mit dynamischen Details für neue Körperbewegungen und Gesichtsausdrücke erzeugen.
Große Sprachmodelle (LLMs) können bei vielen Aufgaben eine hohe Leistung erzielen, indem sie schrittweise Überlegungen anstellen, bevor sie ein endgültiges Ergebnis liefern, ein Prozess, der oft als Ketten-denken (Chain-of-Thought Reasoning, CoT) bezeichnet wird. Es liegt nahe, diese CoT-Erklärungen als den Lösungsprozess des LLMs für eine Aufgabe zu interpretieren. Wir stellen jedoch fest, dass CoT-Erklärungen systematisch den wahren Grund für die Vorhersage eines Modells falsch darstellen können. Wir zeigen, dass CoT-Erklärungen stark beeinflusst werden können, indem man voreingenommene Merkmale zu den Modellinputs hinzufügt – z. B. durch die Neuanordnung der Multiple-Choice-Optionen in einem Few-Shot-Prompt, sodass die Antwort immer „(A)“ lautet –, die Modelle in ihren Erklärungen systematisch nicht erwähnen. Wenn wir Modelle auf falsche Antworten hin lenken, generieren sie häufig CoT-Erklärungen, die diese Antworten stützen. Dies führt zu einem Genauigkeitsrückgang von bis zu 36 % bei einer Reihe von 13 Aufgaben aus BIG-Bench Hard, wenn GPT-3.5 von OpenAI und Claude 1.0 von Anthropic getestet werden. Bei einer Aufgabe zur sozialen Voreingenommenheit rechtfertigen die Modellerklärungen Antworten, die Stereotypen entsprechen, ohne den Einfluss dieser sozialen Vorurteile zu erwähnen. Unsere Ergebnisse deuten darauf hin, dass CoT-Erklärungen plausibel, aber irreführend sein können, was das Risiko birgt, unser Vertrauen in LLMs zu erhöhen, ohne deren Sicherheit zu gewährleisten. CoT ist vielversprechend für die Erklärbarkeit, aber unsere Ergebnisse unterstreichen die Notwendigkeit gezielter Anstrengungen, um die Treue von Erklärungen zu bewerten und zu verbessern.
Bestehende Neural Radiance Fields (NeRF)-Methoden leiden unter der Existenz reflektierender Objekte, was oft zu unscharfen oder verzerrten Darstellungen führt. Anstatt ein einzelnes Radiance Field zu berechnen, schlagen wir ein multi-space neural radiance field (MS-NeRF) vor, das die Szene mithilfe einer Gruppe von Feature-Feldern in parallelen Unterräumen darstellt. Dies führt zu einem besseren Verständnis des neuronalen Netzwerks hinsichtlich der Existenz reflektierender und brechender Objekte. Unser Multi-Space-Schema dient als Erweiterung bestehender NeRF-Methoden und erfordert nur geringen Rechenaufwand für das Training und die Inferenz der zusätzlichen Raumausgaben. Wir demonstrieren die Überlegenheit und Kompatibilität unseres Ansatzes anhand von drei repräsentativen NeRF-basierten Modellen, nämlich NeRF, Mip-NeRF und Mip-NeRF 360. Vergleiche werden auf einem neu erstellten Datensatz durchgeführt, der aus 25 synthetischen Szenen und 7 real aufgenommenen Szenen mit komplexen Reflexionen und Brechungen besteht, die alle 360-Grad-Ansichten bieten. Umfangreiche Experimente zeigen, dass unser Ansatz die bestehenden Single-Space-NeRF-Methoden bei der Darstellung hochwertiger Szenen mit komplexen Lichtpfaden durch spiegelähnliche Objekte deutlich übertrifft. Unser Code und der Datensatz werden unter https://zx-yin.github.io/msnerf öffentlich verfügbar sein.
Transformer-Modelle sind grundlegend für die Verarbeitung natürlicher Sprache (NLP) und die Computer Vision. Trotz verschiedener aktueller Arbeiten, die darauf abzielen, die quadratischen Kosten solcher Modelle (als Funktion der Sequenzlänge n) zu reduzieren, bleibt der effiziente Umgang mit extrem langen Sequenzen (z. B. mit mehr als 16.000 Tokens) eine Herausforderung. Anwendungen wie das Beantworten von Fragen auf Basis eines gesamten Buches oder das Zusammenfassen eines wissenschaftlichen Artikels sind ineffizient oder nicht durchführbar. In diesem Artikel schlagen wir vor, die Abhängigkeit der Komplexität eines Transformer-Modells von n erheblich zu reduzieren, indem die Eingabe in eine Repräsentation komprimiert wird, deren Größe r in jeder Schicht unabhängig von n ist. Insbesondere nutzen wir die Tatsache, dass bei vielen Aufgaben nur eine kleine Teilmenge spezieller Tokens (die wir VIP-Tokens nennen) für die endgültige Vorhersage am relevantesten ist. Wir schlagen ein VIP-Token-zentriertes Kompressionsschema (Vcc) vor, das die Eingabesequenz selektiv basierend auf deren Einfluss auf die Annäherung der Repräsentation dieser VIP-Tokens komprimiert. Im Vergleich zu konkurrenzfähigen Baselines ist der vorgeschlagene Algorithmus nicht nur effizient (er erreicht eine mehr als dreifache Effizienzsteigerung gegenüber den Baselines bei 4K und 16K Längen), sondern erzielt auch konkurrenzfähige oder bessere Leistungen bei einer Vielzahl von Aufgaben. Darüber hinaus zeigen wir, dass unser Algorithmus auf 128K Tokens (oder mehr) skaliert werden kann, während er kontinuierlich eine Genauigkeitsverbesserung bietet.
ELECTRA, das Generator-Diskriminator-Pre-Training-Framework, hat beeindruckende Fähigkeiten zur semantischen Konstruktion in verschiedenen Downstream-Aufgaben gezeigt. Trotz der überzeugenden Leistung steht ELECTRA weiterhin vor den Herausforderungen monotonen Trainings und mangelnder Interaktion. Ein Generator, der nur auf Masked Language Modeling (MLM) basiert, führt zu verzerrtem Lernen und Label-Ungleichgewichten für den Diskriminator, was die Lernleistung verringert; das Fehlen einer expliziten Feedback-Schleife vom Diskriminator zum Generator führt zu einer Kluft zwischen diesen beiden Komponenten, was das Kurslernen unterauslastet. In dieser Studie wird eine Multi-Perspektive-Kurslernmethode (MCL) vorgeschlagen, um eine Vielzahl von Graden und Blickwinkeln für ein probeneffizientes Pre-Training zu erreichen und die Beziehung zwischen Generator und Diskriminator vollständig zu nutzen. Konkret werden drei Selbstüberwachungskurse entworfen, um inhärente Schwächen von MLM zu mildern und die Labels auf multi-perspektivische Weise auszugleichen. Darüber hinaus werden zwei Selbstkorrektur-Kurse vorgeschlagen, um die Kluft zwischen den beiden Encodern zu überbrücken, indem ein „Korrektur-Notizbuch“ für die Sekundärüberwachung erstellt wird. Zudem wird ein Kurs-Suppen-Test durchgeführt, um das „Tauziehen“-Dynamikproblem von MCL zu lösen und ein stärkeres vortrainiertes Modell zu entwickeln. Die experimentellen Ergebnisse zeigen, dass unsere Methode die durchschnittliche Leistung von ELECTRA auf den GLUE- und SQuAD 2.0-Benchmarks um jeweils 2,8 % und 3,2 % absolute Punkte signifikant verbessert und aktuelle fortschrittliche ELECTRA-Modelle unter denselben Bedingungen übertrifft. Das vortrainierte MCL-Modell ist unter https://huggingface.co/McmanusChen/MCL-base verfügbar.