Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Aktuelle Forschung konzentriert sich darauf, die Fähigkeiten kleinerer Modelle durch Imitationslernen zu verbessern, indem auf die Ausgaben großer Basismodelle (Large Foundation Models, LFMs) zurückgegriffen wird. Mehrere Faktoren beeinflussen die Qualität dieser Modelle, darunter begrenzte Imitationssignale aus oberflächlichen LFM-Ausgaben, kleinräumige homogene Trainingsdaten und vor allem das Fehlen einer rigorosen Evaluation, was dazu führt, dass die Fähigkeiten der kleinen Modelle überschätzt werden, da sie tendenziell den Stil, nicht jedoch den Denkprozess der LFMs imitieren. Um diese Herausforderungen zu bewältigen, entwickeln wir Orca (wir arbeiten mit unserem rechtlichen Team zusammen, um eine Differenz der Modellgewichte gemäß der Veröffentlichungsrichtlinie von LLaMA öffentlich zugänglich zu machen, die unter https://aka.ms/orca-lm veröffentlicht wird), ein Modell mit 13 Milliarden Parametern, das den Denkprozess der LFMs imitiert. Orca lernt aus umfangreichen Signalen von GPT-4, einschließlich Erklärungsspuren, schrittweisen Denkprozessen und anderen komplexen Anweisungen, die durch Lehrerunterstützung von ChatGPT geleitet werden. Um dieses fortschrittliche Lernen zu fördern, greifen wir auf groß angelegte und vielfältige Imitationsdaten mit sorgfältiger Stichprobenziehung und Auswahl zurück. Orca übertrifft konventionelle, auf Anweisungen abgestimmte State-of-the-Art-Modelle wie Vicuna-13B um mehr als 100 % in komplexen Zero-Shot-Reasoning-Benchmarks wie Big-Bench Hard (BBH) und um 42 % auf AGIEval. Darüber hinaus erreicht Orca Parität mit ChatGPT im BBH-Benchmark und zeigt wettbewerbsfähige Leistungen (4 Punkte Abstand mit optimierter Systemnachricht) in professionellen und akademischen Prüfungen wie SAT, LSAT, GRE und GMAT, sowohl in Zero-Shot-Szenarien ohne Chain-of-Thought (CoT), während es hinter GPT-4 zurückbleibt. Unsere Forschung zeigt, dass das Lernen aus schrittweisen Erklärungen, sei es durch Menschen oder fortschrittlichere KI-Modelle generiert, ein vielversprechender Ansatz ist, um die Fähigkeiten und Fertigkeiten von Modellen zu verbessern.
Große Sprachmodelle werden üblicherweise mit einer Mischung aus gefilterten Webdaten und kuratierten, hochwertigen Korpora trainiert, wie beispielsweise Social-Media-Konversationen, Büchern oder technischen Artikeln. Dieser Kuratierungsprozess gilt als notwendig, um leistungsstarke Modelle mit breiten Zero-Shot-Generalisierungsfähigkeiten zu erzeugen. Wenn jedoch größere Modelle in Betracht gezogen werden, die ein Pretraining auf Billionen von Tokens erfordern, ist unklar, wie skalierbar die Kuratierung ist und ob uns bald die einzigartigen, hochwertigen Daten ausgehen werden. Im Gegensatz zu früheren Annahmen zeigen wir, dass richtig gefilterte und deduplizierte Webdaten allein zu leistungsfähigen Modellen führen können; diese übertreffen sogar Modelle des State-of-the-Art, die auf The Pile trainiert wurden. Trotz umfangreicher Filterung sind die hochwertigen Daten, die wir aus dem Web extrahieren, immer noch reichlich vorhanden, und wir konnten fünf Billionen Tokens aus CommonCrawl gewinnen. Wir veröffentlichen einen Ausschnitt von 600 Milliarden Tokens aus unserem RefinedWeb-Datensatz sowie Sprachmodelle mit 1,3/7,5 Milliarden Parametern, die darauf trainiert wurden.
Das kürzlich vorgestellte Segment Anything Model (SAM) stellt einen großen Fortschritt bei der Skalierung von Segmentierungsmodellen dar und ermöglicht leistungsstarke Zero-Shot-Fähigkeiten sowie flexible Prompting. Obwohl SAM mit 1,1 Milliarden Masken trainiert wurde, bleibt die Qualität der Maskenvorhersage in vielen Fällen hinter den Erwartungen zurück, insbesondere bei Objekten mit komplexen Strukturen. Wir schlagen HQ-SAM vor, das SAM die Fähigkeit verleiht, jedes Objekt präzise zu segmentieren, während das ursprüngliche promptfähige Design, die Effizienz und die Zero-Shot-Generalisierbarkeit von SAM beibehalten werden. Unser sorgfältiges Design nutzt und bewahrt die vortrainierten Modellgewichte von SAM, während nur minimale zusätzliche Parameter und Berechnungen eingeführt werden. Wir entwerfen einen lernbaren High-Quality Output Token, der in den Maskendecoder von SAM injiziert wird und für die Vorhersage der hochwertigen Maske verantwortlich ist. Anstatt ihn nur auf die Merkmale des Maskendecoders anzuwenden, fusionieren wir diese zunächst mit frühen und finalen ViT-Merkmalen, um die Maskendetails zu verbessern. Um unsere eingeführten lernbaren Parameter zu trainieren, erstellen wir einen Datensatz von 44.000 fein abgestimmten Masken aus mehreren Quellen. HQ-SAM wird ausschließlich auf dem eingeführten Datensatz von 44.000 Masken trainiert, was nur 4 Stunden auf 8 GPUs in Anspruch nimmt. Wir zeigen die Wirksamkeit von HQ-SAM in einer Reihe von 9 verschiedenen Segmentierungsdatensätzen über verschiedene Downstream-Aufgaben hinweg, wobei 7 davon in einem Zero-Shot-Transferprotokoll evaluiert werden. Unser Code und unsere Modelle werden unter https://github.com/SysCV/SAM-HQ veröffentlicht.
Wir präsentieren LLM-Blender, ein Ensembling-Framework, das darauf abzielt, durch die Nutzung der vielfältigen Stärken mehrerer Open-Source-Großsprachmodelle (LLMs) durchweg überlegene Leistung zu erzielen. Unser Framework besteht aus zwei Modulen: PairRanker und GenFuser, die die Beobachtung adressieren, dass die optimalen LLMs für verschiedene Beispiele erheblich variieren können. PairRanker verwendet eine spezialisierte paarweise Vergleichsmethode, um subtile Unterschiede zwischen Kandidatenausgaben zu unterscheiden. Es kodiert gemeinsam den Eingabetext und ein Kandidatenpaar und verwendet Cross-Attention-Encoder, um den überlegenen Kandidaten zu bestimmen. Unsere Ergebnisse zeigen, dass PairRanker die höchste Korrelation mit ChatGPT-basierten Rankings aufweist. Anschließend zielt GenFuser darauf ab, die bestplatzierten Kandidaten zu fusionieren und eine verbesserte Ausgabe zu generieren, indem es ihre Stärken nutzt und ihre Schwächen ausgleicht. Um eine groß angelegte Bewertung zu ermöglichen, führen wir einen Benchmark-Datensatz namens MixInstruct ein, eine Mischung aus mehreren Instruktionsdatensätzen, die oracle-paarweise Vergleiche enthalten. Unser LLM-Blender übertrifft deutlich einzelne LLMs und Baseline-Methoden über verschiedene Metriken hinweg und etabliert eine erhebliche Leistungslücke.
Große Sprachmodelle (LLMs) sind Befehlsfolger, aber es kann schwierig sein, den besten Befehl für verschiedene Situationen zu finden, insbesondere für Black-Box-LLMs, bei denen Backpropagation verboten ist. Anstatt den diskreten Befehl direkt zu optimieren, optimieren wir einen niedrigdimensionalen Soft-Prompt, der auf ein Open-Source-LLM angewendet wird, um den Befehl für das Black-Box-LLM zu generieren. Bei jeder Iteration der vorgeschlagenen Methode, die wir InstructZero nennen, wird ein Soft-Prompt mithilfe des Open-Source-LLMs in einen Befehl umgewandelt, der dann an das Black-Box-LLM zur Zero-Shot-Evaluierung übermittelt wird. Die Leistung wird an die Bayes'sche Optimierung gesendet, um neue Soft-Prompts zu erzeugen, die die Zero-Shot-Leistung verbessern. Wir evaluieren InstructZero anhand verschiedener Kombinationen von Open-Source-LLMs und APIs, einschließlich Vicuna und ChatGPT. Unsere Ergebnisse zeigen, dass InstructZero state-of-the-art Auto-Befehlsmethoden bei einer Vielzahl von Downstream-Aufgaben übertrifft. Unser Code und unsere Daten sind öffentlich unter https://github.com/Lichang-Chen/InstructZero verfügbar.
Sprachmodelle (LMs) zeigen oft unerwünschte Verhaltensweisen bei der Textgenerierung, darunter das Erzeugen von falschen, toxischen oder irrelevanten Ausgaben. Reinforcement Learning aus menschlichem Feedback (RLHF) – bei dem menschliche Präferenzurteile über LM-Ausgaben in ein Lernsignal umgewandelt werden – hat kürzlich vielversprechende Ergebnisse bei der Lösung dieser Probleme gezeigt. Solches ganzheitliches Feedback vermittelt jedoch nur begrenzte Informationen über lange Textausgaben; es gibt nicht an, welche Aspekte der Ausgaben die Benutzerpräferenz beeinflusst haben, z. B. welche Teile welche Art(en) von Fehlern enthalten. In diesem Artikel verwenden wir detailliertes menschliches Feedback (z. B. welcher Satz falsch ist, welcher Teilsatz irrelevant ist) als explizites Trainingssignal. Wir stellen Fine-Grained RLHF vor, ein Framework, das das Training und Lernen aus Belohnungsfunktionen ermöglicht, die in zweierlei Hinsicht detailliert sind: (1) Dichte, indem nach jedem Segment (z. B. einem Satz) eine Belohnung bereitgestellt wird; und (2) die Einbindung mehrerer Belohnungsmodelle, die mit verschiedenen Feedbacktypen verknüpft sind (z. B. faktische Unrichtigkeit, Irrelevanz und Informationsunvollständigkeit). Wir führen Experimente zur Entgiftung und zur Beantwortung von Langform-Fragen durch, um zu zeigen, wie das Lernen mit solchen Belohnungsfunktionen zu verbesserten Leistungen führt, unterstützt durch sowohl automatische als auch menschliche Bewertungen. Zusätzlich zeigen wir, dass LM-Verhalten durch verschiedene Kombinationen von detaillierten Belohnungsmodellen angepasst werden kann. Wir veröffentlichen alle Daten, gesammeltes menschliches Feedback und Codes unter https://FineGrainedRLHF.github.io.
Differenziell private (DP) Trainingsmethoden wie DP-SGD können sensible Trainingsdaten schützen, indem sie sicherstellen, dass ML-Modelle keine privaten Informationen preisgeben. Ein alternativer Ansatz, den diese Arbeit untersucht, besteht darin, einen sensiblen Datensatz zu verwenden, um einen neuen synthetischen Datensatz zu generieren, der in Bezug auf die Originaldaten differenziell privat ist. Dies hat mehrere Vorteile: Synthetische Daten können für andere Aufgaben wiederverwendet werden (einschließlich der Hyperparameteroptimierung), unbegrenzt aufbewahrt oder an Dritte weitergegeben werden, ohne die Privatsphäre zu gefährden. Die Beschaffung von DP-Daten ist jedoch wesentlich schwieriger als die Einführung von DP während des Trainings. Um dies für Textdaten praktikabel zu machen, hat aktuelle Forschung öffentlich verfügbare Daten genutzt, indem sie mit einem vortrainierten generativen Sprachmodell begann und dieses privat auf sensiblen Daten feinabgestimmt hat. Dieses Modell kann verwendet werden, um einen DP-synthetischen Datensatz zu erzeugen. Obwohl diese Strategie einfach erscheint, hat sich ihre Umsetzung als problematisch erwiesen. Bisherige Ansätze zeigen entweder erhebliche Leistungseinbußen oder weisen, wie wir zeigen, kritische Designfehler auf. In dieser Arbeit demonstrieren wir, dass ein geeignetes Trainingsziel zusammen mit der Feinabstimmung weniger Parameter zu einer hervorragenden Qualität von DP-synthetischen Daten führt. Unser Ansatz ist in Bezug auf die Leistung bei nachgelagerten Aufgaben wettbewerbsfähig mit dem direkten DP-Training von Downstream-Klassifikatoren. Wir zeigen außerdem, dass unsere DP-synthetischen Daten nicht nur für das Training von Downstream-Klassifikatoren nützlich sind, sondern auch zur Optimierung dieser Modelle verwendet werden können.
Das kürzlich veröffentlichte ChatGPT-Modell zeigt beispiellose Fähigkeiten im Zero-Shot-Frage-Antworten. In dieser Arbeit untersuchen wir ChatGPT auf sein konversationelles Verständnis und führen ein konversationelles Rahmenwerk (Protokoll) ein, das in zukünftigen Studien übernommen werden kann. Das Pokémon-Universum dient aufgrund seiner geschlossenen Weltannahme als ideales Testfeld, um die Fähigkeiten von ChatGPT zur logischen Schlussfolgerung zu überprüfen. Nachdem wir das Hintergrundwissen von ChatGPT (über das Pokémon-Universum) beleuchtet haben, testen wir seinen Denkprozess, wenn es diese Konzepte in Kampfszenarien anwendet. Anschließend bewerten wir seine Fähigkeit, neues Wissen zu erwerben und in seinen Denkprozess einzubeziehen. Unser ultimatives Ziel ist es, die Fähigkeit von ChatGPT zu bewerten, zu generalisieren, Merkmale zu kombinieren und neu eingeführtes Wissen aus menschlichem Feedback zu erwerben und darüber zu schlussfolgern. Wir stellen fest, dass ChatGPT über Vorwissen über das Pokémon-Universum verfügt, auf das es in Kampfszenarien weitgehend zurückgreifen kann, selbst wenn neue Informationen eingeführt werden. Das Modell schneidet besser ab, wenn es kollaboratives Feedback erhält und wenn eine anfängliche Phase der Informationsbeschaffung stattfindet, halluziniert jedoch gelegentlich und ist anfällig für adversariale Angriffe.
Die Standardmethode zur Bewertung großer Sprachmodelle (LLMs) basierend auf statischen Paaren von Eingaben und Ausgaben ist unzureichend für die Entwicklung von Assistenten: Diese Art der Bewertung berücksichtigt nicht das wesentliche interaktive Element bei ihrem Einsatz und begrenzt somit unser Verständnis der Fähigkeiten von Sprachmodellen. Wir stellen CheckMate vor, eine anpassungsfähige Prototyp-Plattform, mit der Menschen interagieren und LLMs bewerten können. Wir führen eine Studie mit CheckMate durch, um drei Sprachmodelle (InstructGPT, ChatGPT und GPT-4) als Assistenten beim Beweis von Mathematik auf Bachelor-Niveau zu bewerten, mit einer gemischten Teilnehmergruppe von Bachelor-Studierenden bis hin zu Mathematikprofessoren. Wir veröffentlichen das daraus resultierende Interaktions- und Bewertungsdatenset MathConverse. Durch die Analyse von MathConverse leiten wir eine vorläufige Taxonomie menschlicher Verhaltensweisen ab und stellen fest, dass es trotz einer allgemein positiven Korrelation bemerkenswerte Fälle von Abweichungen zwischen Korrektheit und wahrgenommener Hilfsbereitschaft bei den Generationen von LLMs gibt, neben anderen Erkenntnissen. Darüber hinaus identifizieren wir nützliche Szenarien und bestehende Probleme von GPT-4 im mathematischen Denken durch eine Reihe von Fallstudien, die von erfahrenen Mathematikern beigetragen wurden. Wir schließen mit umsetzbaren Erkenntnissen für ML-Praktiker und Mathematiker: Modelle, die Unsicherheiten kommunizieren, gut auf Benutzerkorrekturen reagieren, interpretierbarer und prägnanter sind, können bessere Assistenten darstellen; interaktive Bewertung ist ein vielversprechender Weg, um die Fähigkeiten dieser Modelle kontinuierlich zu erkunden; Menschen sollten sich der algebraischen Fehlbarkeit von Sprachmodellen bewusst sein und daher entscheiden, wo sie eingesetzt werden sollten.
Der jüngste Erfolg von Large Language Models (LLMs) markiert einen beeindruckenden Fortschritt in Richtung künstlicher allgemeiner Intelligenz. Sie haben ein vielversprechendes Potenzial gezeigt, Aufgaben automatisch auf Basis von Benutzeranweisungen zu erledigen und dabei als hirnähnliche Koordinatoren zu fungieren. Die damit verbundenen Risiken werden offenbar, wenn wir zunehmend mehr Aufgaben an Maschinen zur automatisierten Ausführung delegieren. Eine zentrale Frage stellt sich: Wie können wir Maschinen dazu bringen, sich verantwortungsbewusst zu verhalten, wenn sie als persönliche Copiloten Menschen bei der Automatisierung von Aufgaben unterstützen? In diesem Artikel untersuchen wir diese Frage ausführlich aus den Perspektiven der Machbarkeit, Vollständigkeit und Sicherheit. Konkret präsentieren wir Responsible Task Automation (ResponsibleTA) als ein grundlegendes Framework, das eine verantwortungsvolle Zusammenarbeit zwischen LLM-basierten Koordinatoren und Ausführenden bei der Aufgabenautomatisierung fördert, indem es drei zentrale Fähigkeiten bereitstellt: 1) die Vorhersage der Machbarkeit von Befehlen für die Ausführenden; 2) die Überprüfung der Vollständigkeit der Ausführenden; 3) die Verbesserung der Sicherheit (z. B. den Schutz der Privatsphäre der Benutzer). Wir schlagen weiterhin zwei Paradigmen zur Implementierung der ersten beiden Fähigkeiten vor und vergleichen diese. Das eine besteht darin, das generische Wissen der LLMs selbst durch Prompt Engineering zu nutzen, während das andere darin besteht, domänenspezifische lernbare Modelle zu verwenden. Darüber hinaus führen wir einen lokalen Speichermechanismus ein, um die dritte Fähigkeit zu erreichen. Wir evaluieren unser vorgeschlagenes ResponsibleTA anhand der Automatisierung von UI-Aufgaben und hoffen, dass es mehr Aufmerksamkeit darauf lenken kann, LLMs in verschiedenen Szenarien verantwortungsbewusster zu gestalten. Die Projekt-Homepage der Forschung befindet sich unter https://task-automation-research.github.io/responsible_task_automation.
Angesichts der engen Beziehung zwischen panoptischen, semantischen und Instanz-Segmentierungsaufgaben schlagen wir vor, ein universelles Multi-Dataset-Multi-Task-Segmentierungsmodell zu trainieren: DaTaSeg. Wir verwenden eine gemeinsame Repräsentation (Maskenvorschläge mit Klassenvorhersagen) für alle Aufgaben. Um die Aufgabenunterschiede zu bewältigen, setzen wir verschiedene Zusammenführungsoperationen und Nachbearbeitungen für verschiedene Aufgaben ein. Wir nutzen auch schwache Supervision, wodurch unser Segmentierungsmodell von kostengünstigeren Bounding-Box-Annotationen profitieren kann. Um Wissen über Datensätze hinweg zu teilen, verwenden wir Text-Embeddings aus demselben semantischen Embedding-Raum als Klassifikatoren und teilen alle Netzwerkparameter zwischen den Datensätzen. Wir trainieren DaTaSeg auf den ADE-Semantik-, COCO-Panoptic- und Objects365-Erkennungsdatensätzen. DaTaSeg verbessert die Leistung auf allen Datensätzen, insbesondere auf kleinen Datensätzen, und erreicht 54,0 mIoU auf ADE-Semantik und 53,5 PQ auf COCO-Panoptic. DaTaSeg ermöglicht auch schwach überwachte Wissenstransfers auf ADE-Panoptic und Objects365-Instanzsegmentierung. Experimente zeigen, dass DaTaSeg mit der Anzahl der Trainingsdatensätze skaliert und durch direkten Transfer eine offene Vokabelsegmentierung ermöglicht. Darüber hinaus annotieren wir einen Objects365-Instanzsegmentierungsdatensatz mit 1.000 Bildern und werden ihn als öffentlichen Benchmark veröffentlichen.
Der Einsatz von Large Language Models (LLMs) zur Lösung mathematischer Probleme stellt ein faszinierendes Forschungsvorhaben dar, insbesondere angesichts der Fülle von mathematischen Fragestellungen, die in natürlicher Sprache in zahlreichen Wissenschafts- und Ingenieursdisziplinen formuliert werden. Während mehrere frühere Arbeiten die Lösung elementarer Mathematik mithilfe von LLMs untersucht haben, erkundet diese Arbeit die Grenzen der Anwendung von GPT-4 zur Lösung komplexerer und anspruchsvollerer mathematischer Probleme. Wir evaluieren verschiedene Ansätze zur Nutzung von GPT-4. Einige davon sind aus bestehenden Arbeiten adaptiert, und einer davon ist \MathChat, ein in dieser Arbeit neu vorgeschlagenes konversationelles Problemlösungsframework. Die Evaluation erfolgt anhand schwieriger Wettbewerbsaufgaben aus dem MATH-Datensatz, die den Vorteil des vorgeschlagenen konversationellen Ansatzes verdeutlichen.
Transformer-basierte Sprachmodelle haben vielfältige Anwendungen gefunden, die die Verarbeitung von Sequenzen mit zunehmender Länge erfordern. Für diese Anwendungen wird die kausale Selbstaufmerksamkeit – die einzige Komponente, die quadratisch in Bezug auf die Sequenzlänge skaliert – zu einem zentralen Anliegen. Während viele Arbeiten Schemata vorgeschlagen haben, um die Aufmerksamkeitsmuster zu sparsifizieren und den Rechenaufwand der Selbstaufmerksamkeit zu reduzieren, sind diese oft durch Implementierungsprobleme eingeschränkt und führen letztendlich zu einer einfachen und statischen Struktur über der Aufmerksamkeitsmatrix. Im Gegensatz dazu führt die Implementierung dynamischerer sparser Aufmerksamkeiten oft zu Laufzeiten, die deutlich langsamer sind als die Berechnung der vollständigen Aufmerksamkeit mit der Flash-Implementierung von Dao et al. (2022). Wir erweitern FlashAttention, um eine große Klasse von Aufmerksamkeits-Sparsamkeitsmustern zu unterstützen, die insbesondere das Weglassen von Schlüssel-/Abfrage-Paaren und hashing-basierte Aufmerksamkeit umfassen. Dies führt zu Implementierungen ohne zusätzliche Rechenkomplexität und einer mehrfachen Beschleunigung der Laufzeit im Vergleich zu FlashAttention. Selbst bei relativ geringen Sparsamkeitsgraden verbessert unsere Methode sichtbar gegenüber FlashAttention, wenn die Sequenzlänge zunimmt. Ohne die Perplexität zu opfern, erhöhen wir die Trainingsgeschwindigkeit eines Transformer-Sprachmodells um das 2,0-fache bzw. 3,3-fache für Sequenzen von jeweils 8k und 16k Tokens.
Wir präsentieren eine Realitätsprüfung von großen Sprachmodellen und untersuchen im Vergleich das Potenzial von retrieval-augmentierten Sprachmodellen. Solche Sprachmodelle sind semi-parametrisch, wobei die Modelle Modellparameter und Wissen aus externen Datenquellen integrieren, um ihre Vorhersagen zu treffen, im Gegensatz zur parametrischen Natur von herkömmlichen großen Sprachmodellen. Wir präsentieren erste experimentelle Ergebnisse, die zeigen, dass semi-parametrische Architekturen durch Ansichten, einen Abfrageanalysator/-planer und Provenienz erweitert werden können, um ein deutlich leistungsfähigeres System für Frage-Antwort-Aufgaben in Bezug auf Genauigkeit und Effizienz zu schaffen, und potenziell auch für andere NLP-Aufgaben.