Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs) zeigen erhebliche Fähigkeiten in natürlicher Sprachverarbeitung und Generierungsaufgaben. Mit der zunehmenden Anzahl von LLMs ist es eine spannende offene Richtung, wie man das kollektive Fachwissen mehrerer LLMs nutzen kann. Auf dieses Ziel hin schlagen wir einen neuen Ansatz vor, der die kollektiven Stärken mehrerer LLMs durch eine Mixture-of-Agents (MoA) Methodik nutzt. In unserem Ansatz konstruieren wir eine geschichtete MoA-Architektur, bei der jede Schicht aus mehreren LLM-Agenten besteht. Jeder Agent verwendet alle Ausgaben der Agenten in der vorherigen Schicht als Hilfsinformation zur Generierung seiner Antwort. MoA-Modelle erzielen Spitzenleistungen bei AlpacaEval 2.0, MT-Bench und FLASK und übertreffen GPT-4 Omni. Zum Beispiel ist unser MoA, das nur Open-Source LLMs verwendet, der Spitzenreiter von AlpacaEval 2.0 mit einem deutlichen Vorsprung, indem es einen Score von 65,1% im Vergleich zu 57,5% von GPT-4 Omni erreicht.
Die Retrieval-augmentierte Generierung (RAG) hat sich kürzlich als vielversprechende Lösung zur Behebung des Mangels an Wissen bei Large Language Models (LLM) herausgestellt. Allerdings repräsentieren bestehende RAG-Datensätze nicht angemessen die vielfältige und dynamische Natur von Frage-Antwort-Aufgaben in der realen Welt. Um diese Lücke zu schließen, führen wir den umfassenden RAG-Benchmark (CRAG) ein, einen faktischen Frage-Antwort-Benchmark mit 4.409 Frage-Antwort-Paaren und simulierten APIs, um Web- und Wissensgraphensuche nachzuahmen. CRAG ist darauf ausgelegt, eine vielfältige Reihe von Fragen aus fünf Domänen und acht Fragekategorien zu umfassen, die die unterschiedliche Popularität von Entitäten von beliebt bis Nischen sowie zeitliche Dynamiken von Jahren bis Sekunden widerspiegeln. Unsere Bewertung dieses Benchmarks verdeutlicht die Lücke zu vollständig vertrauenswürdigen Frage-Antwort-Systemen. Während die meisten fortschrittlichen LLMs eine Genauigkeit von <=34% auf CRAG erreichen, verbessert die Hinzufügung von RAG auf einfache Weise die Genauigkeit nur auf 44%. Branchenführende RAG-Lösungen beantworten nur 63% der Fragen ohne Halluzinationen. CRAG zeigt auch eine deutlich geringere Genauigkeit bei der Beantwortung von Fragen zu Fakten mit höherer Dynamik, geringerer Popularität oder höherer Komplexität auf und deutet auf zukünftige Forschungsrichtungen hin. Der CRAG-Benchmark legte den Grundstein für eine KDD Cup 2024 Herausforderung, die innerhalb der ersten 50 Tage tausende Teilnehmer und Einreichungen anzog. Wir verpflichten uns, CRAG zu pflegen, um Forschungsgemeinschaften bei der Weiterentwicklung von RAG-Lösungen und allgemeinen QA-Lösungen zu unterstützen.
Wir stellen WildBench vor, ein automatisiertes Bewertungsframework, das entwickelt wurde, um große Sprachmodelle (LLMs) mithilfe anspruchsvoller, realer Benutzeranfragen zu bewerten. WildBench besteht aus 1.024 sorgfältig aus über einer Million menschlicher Chatbot-Konversationsprotokolle ausgewählten Aufgaben. Für die automatisierte Bewertung mit WildBench haben wir zwei Metriken entwickelt, WB-Reward und WB-Score, die mit fortschrittlichen LLMs wie GPT-4-turbo berechenbar sind. Die WildBench-Bewertung verwendet aufgabenspezifische Checklisten, um Modellausgaben systematisch zu bewerten und strukturierte Erklärungen bereitzustellen, die die Punktzahlen und Vergleiche rechtfertigen, was zu zuverlässigeren und interpretierbaren automatischen Beurteilungen führt. WB-Reward verwendet fein abgestufte paarweise Vergleiche zwischen Modellantworten und erzeugt fünf mögliche Ergebnisse: deutlich besser, leicht besser, leicht schlechter, deutlich schlechter oder ein Unentschieden. Im Gegensatz zu früheren Bewertungen, die ein einzelnes Basislinienmodell verwendeten, haben wir drei Basislinienmodelle mit unterschiedlichen Leistungsniveaus ausgewählt, um eine umfassende paarweise Bewertung sicherzustellen. Darüber hinaus schlagen wir eine einfache Methode vor, um Längenvoreingenommenheit zu mildern, indem Ergebnisse von "leicht besser/schlechter" in "Unentschieden" umgewandelt werden, wenn die Gewinnerantwort die Verliererantwort um mehr als K Zeichen übertrifft. WB-Score bewertet die Qualität der Modellausgaben individuell und macht ihn zu einer schnellen und kostengünstigen Bewertungsmetrik. Die Ergebnisse von WildBench zeigen eine starke Korrelation mit den von Chatbot Arena zu schwierigen Aufgaben abgegebenen Elo-Bewertungen der Benutzer. Speziell erreicht WB-Reward eine Pearson-Korrelation von 0,98 mit den bestplatzierten Modellen. Darüber hinaus erreicht WB-Score 0,95 und übertrifft sowohl ArenaHard mit 0,91 als auch AlpacaEval2.0 mit 0,89 für längenkontrollierte Gewinnraten sowie die 0,87 für reguläre Gewinnraten.
Die generative KI hat bemerkenswerte Fortschritte gemacht, um Bereiche wie die Bild- und Videoerzeugung zu revolutionieren. Diese Fortschritte werden durch innovative Algorithmen, Architekturen und Daten vorangetrieben. Die rasche Verbreitung generativer Modelle hat jedoch eine kritische Lücke aufgezeigt: das Fehlen vertrauenswürdiger Bewertungsmetriken. Aktuelle automatische Bewertungen wie FID, CLIP, FVD usw. können oft nicht die nuancierte Qualität und Benutzerzufriedenheit erfassen, die mit generativen Ergebnissen verbunden sind. Dieses Papier schlägt eine offene Plattform GenAI-Arena zur Bewertung verschiedener Bild- und Video-generativer Modelle vor, bei der Benutzer aktiv an der Bewertung dieser Modelle teilnehmen können. Durch die Nutzung kollektiver Benutzerfeedbacks und -stimmen zielt GenAI-Arena darauf ab, ein demokratischeres und genaueres Maß für die Leistung der Modelle bereitzustellen. Es umfasst drei Arenen für die Text-zu-Bild-Erzeugung, Text-zu-Video-Erzeugung und Bildbearbeitung. Derzeit decken wir insgesamt 27 Open-Source-generative Modelle ab. GenAI-Arena ist seit vier Monaten in Betrieb und hat über 6000 Stimmen aus der Community gesammelt. Wir beschreiben unsere Plattform, analysieren die Daten und erläutern die statistischen Methoden zur Bewertung der Modelle. Um die Forschung zur Entwicklung modellbasierter Bewertungsmetriken weiter zu fördern, veröffentlichen wir eine bereinigte Version unserer Präferenzdaten für die drei Aufgaben, nämlich GenAI-Bench. Wir fordern die bestehenden multimodalen Modelle wie Gemini, GPT-4o auf, menschliche Abstimmungen nachzuahmen. Wir berechnen die Korrelation zwischen der Modellabstimmung und der menschlichen Abstimmung, um ihre Bewertungsfähigkeiten zu verstehen. Unsere Ergebnisse zeigen, dass bestehende multimodale Modelle immer noch hinterherhinken, um den generierten visuellen Inhalt zu bewerten. Selbst das beste Modell GPT-4o erreicht nur eine Pearson-Korrelation von 0,22 im Qualitäts-Teilergebnis und verhält sich bei anderen wie zufälliges Raten.
Die Schätzung von Unsicherheit oder Vertrauen in die Antworten eines Modells kann bei der Bewertung des Vertrauens nicht nur in die Antworten, sondern auch in das Modell als Ganzes signifikant sein. In diesem Papier untersuchen wir das Problem der Schätzung von Vertrauen für Antworten großer Sprachmodelle (LLMs) mit einfachem Black-Box- oder Abfragezugriff auf sie. Wir schlagen einen einfachen und erweiterbaren Rahmen vor, in dem wir neuartige Merkmale konstruieren und ein (interpretierbares) Modell (z. B. logistische Regression) auf diesen Merkmalen trainieren, um das Vertrauen zu schätzen. Wir zeigen empirisch, dass unser einfacher Rahmen effektiv ist, um das Vertrauen von flan-ul2, llama-13b und mistral-7b abzuschätzen, wobei er bestehende Black-Box-Vertrauensschätzungsansätze auf Benchmark-Datensätzen wie TriviaQA, SQuAD, CoQA und Natural Questions in einigen Fällen sogar um über 10% (auf AUROC) übertrifft. Darüber hinaus bietet unser interpretierbarer Ansatz Einblicke in Merkmale, die das Vertrauen vorhersagen, und führt zur interessanten und nützlichen Entdeckung, dass unsere Vertrauensmodelle, die für ein LLM erstellt wurden, zero-shot auf andere in einem bestimmten Datensatz verallgemeinern.
Die beeindruckenden Fähigkeiten von Large Language Models (LLMs) bieten einen leistungsstarken Ansatz, um die Eingabeerfahrung der Benutzer neu zu gestalten. Dieser Artikel präsentiert Proofread, eine innovative Gboard-Funktion, die von einem serverseitigen LLM in Gboard unterstützt wird und eine nahtlose Korrektur auf Satzebene und Absatzebene mit einem einzigen Fingertipp ermöglicht. Wir beschreiben in diesem Artikel das vollständige System, angefangen bei der Datengenerierung, der Metrikgestaltung bis hin zur Modellanpassung und Bereitstellung. Um Modelle von ausreichender Qualität zu erhalten, implementieren wir eine sorgfältige Daten-Synthesepipeline, die auf Online-Anwendungsfälle zugeschnitten ist, entwerfen vielschichtige Metriken, nutzen einen zweistufigen Anpassungsansatz, um das dedizierte LLM für die Funktion zu erhalten: das Supervised Fine Tuning (SFT) für die grundlegende Qualität, gefolgt vom Reinforcement Learning (RL) Anpassungsansatz für gezielte Verfeinerungen. Insbesondere stellen wir fest, dass das sequenzielle Feintuning bei Rewrite- und Proofread-Aufgaben die beste Qualität in der SFT-Phase liefert, und schlagen globale und direkte Belohnungen in der RL-Anpassungsphase vor, um weitere Verbesserungen zu erzielen. Umfangreiche Experimente an einem von Menschen bewerteten Golden Set zeigten, dass unser abgestimmtes PaLM2-XS-Modell einen guten Anteil von 85,56\% erreichte. Wir haben die Funktion für Pixel 8-Geräte gestartet, indem wir das Modell auf TPU v5 in der Google Cloud bereitgestellt haben, mit Tausenden von täglich aktiven Benutzern. Die Bereitstellungs-Latenz wurde durch Quantisierung, Bucket-Inferenz, Textsegmentierung und spekulative Dekodierung signifikant reduziert. Unsere Demo ist unter https://youtu.be/4ZdcuiwFU7I{Youtube} verfügbar.
Wir stellen NATURAL PLAN vor, einen realistischen Planungsbenchmark in natürlicher Sprache, der 3 Schlüsselaufgaben umfasst: Reiseplanung, Terminplanung und Kalenderplanung. Wir konzentrieren uns bei der Bewertung auf die Planungsfähigkeiten von LLMs mit vollständigen Informationen zur Aufgabe, indem wir Ausgaben von Tools wie Google Flights, Google Maps und Google Calendar als Kontexte für die Modelle bereitstellen. Dies beseitigt die Notwendigkeit einer Tool-Verwendungsumgebung zur Bewertung von LLMs in der Planung. Wir stellen fest, dass NATURAL PLAN ein anspruchsvoller Benchmark für modernste Modelle ist. Beispielsweise konnten GPT-4 und Gemini 1.5 Pro in der Reiseplanung nur eine Lösungsrate von 31,1% bzw. 34,8% erreichen. Wir stellen fest, dass die Leistung der Modelle drastisch abnimmt, wenn die Komplexität des Problems steigt: Alle Modelle erreichen eine Leistungsrate von unter 5%, wenn es 10 Städte gibt, was eine signifikante Lücke in der Planung in natürlicher Sprache für modernste LLMs hervorhebt. Wir führen auch umfangreiche Ablationsstudien an NATURAL PLAN durch, um weiteres Licht auf die (In-)Effektivität von Ansätzen wie Selbstkorrektur, Few-Shot-Generalisierung und In-Context-Planung mit langen Kontexten zur Verbesserung der LLM-Planung zu werfen.
Ein vorhersehbares Verhalten beim Skalieren fortschrittlicher KI-Systeme ist eine äußerst wünschenswerte Eigenschaft. Obwohl eine umfangreiche Literatur darüber besteht, wie sich die Leistung beim Vorabtraining skaliert, ist die Literatur darüber, wie bestimmte nachgelagerte Fähigkeiten skaliert werden, deutlich unklarer. In dieser Arbeit treten wir einen Schritt zurück und fragen: Warum ist es so schwierig, spezifische nachgelagerte Fähigkeiten mit Skala vorherzusagen? Obwohl sicherlich viele Faktoren dafür verantwortlich sind, identifizieren wir einen neuen Faktor, der es herausfordernd macht, das Skalierungsverhalten auf weit verbreiteten Multiple-Choice-Frage-Antwort-Benchmarks zu modellieren. Unter Verwendung von fünf Modellfamilien und zwölf etablierten Multiple-Choice-Benchmarks zeigen wir, dass die nachgelagerte Leistung über negative Log-Likelihoods mittels einer Sequenz von Transformationen berechnet wird, die die statistische Beziehung zwischen Leistung und Skala allmählich verschlechtern. Anschließend enthüllen wir den Mechanismus, der diese Verschlechterung verursacht: Nachgelagerte Metriken erfordern den Vergleich der richtigen Wahl mit einer kleinen Anzahl spezifischer falscher Entscheidungen. Das bedeutet, dass die genaue Vorhersage nachgelagerter Fähigkeiten nicht nur erfordert, wie sich die Wahrscheinlichkeitsmasse auf die richtige Wahl mit der Skala konzentriert, sondern auch, wie sich die Wahrscheinlichkeitsmasse auf spezifische falsche Entscheidungen mit der Skala verändert. Wir untersuchen empirisch, wie sich die Wahrscheinlichkeitsmasse auf die richtige Wahl mit der Wahrscheinlichkeitsmasse auf falsche Entscheidungen mit zunehmender Rechenleistung kovariiert, was darauf hindeutet, dass Skalierungsgesetze für falsche Entscheidungen erreichbar sein könnten. Unsere Arbeit erklärt auch, warum Skalierungsgesetze für Vorabtraining allgemein als vorhersehbarer angesehen werden als nachgelagerte Fähigkeiten und trägt dazu bei, skalierungs-vorhersehbare Bewertungen von Spitzen-KI-Modellen zu etablieren.
Das Aufkommen von Large Language Models (LLMs) hat die Einführung von parallelen Trainingstechniken erforderlich gemacht, die den Einsatz von Tausenden von GPUs zur Schulung eines einzelnen Modells umfassen. Leider haben wir festgestellt, dass die Effizienz des aktuellen parallelen Trainings oft suboptimal ist, hauptsächlich aufgrund der folgenden beiden Hauptprobleme. Erstens sind Hardwarefehler unvermeidlich und führen zu Unterbrechungen bei den Schulungsaufgaben. Die Unfähigkeit, die fehlerhaften Komponenten schnell zu identifizieren, führt zu einer erheblichen Verschwendung von GPU-Ressourcen. Zweitens können Netzwerküberlastungen die Wartezeit für GPUs erheblich verlängern, da GPUs auf die vollständige Parameter-Synchronisierung warten müssen, bevor sie mit der nächsten Berechnungsrunde fortfahren können. Um diese Herausforderungen anzugehen, stellt dieser Artikel eine kommunikationsgesteuerte Lösung vor, nämlich die C4. Die Schlüsselerkenntnisse von C4 sind zweifach. Erstens zeigt kollektive Kommunikation in parallelem Training periodische und homogene Eigenschaften, sodass Anomalien sicherlich auf eine Art von Hardwarefehler zurückzuführen sind. Durch die Nutzung dieses Merkmals kann C4 die fehlerhaften Komponenten schnell identifizieren, die Anomalie schnell isolieren und die Aufgabe neu starten, wodurch Ressourcenverschwendung durch Verzögerungen bei der Anomalieerkennung vermieden wird. Zweitens ermöglicht das vorhersehbare Kommunikationsmodell der kollektiven Kommunikation, das wenige große Datenflüsse umfasst, C4 eine effiziente Durchführung der Verkehrsplanung, wodurch Netzwerküberlastungen erheblich reduziert werden. C4 wurde umfassend in unseren Produktionssystemen implementiert, wodurch der durch Fehler verursachte Overhead um etwa 30% reduziert und die Laufzeitleistung für bestimmte Anwendungen mit moderaten Kommunikationskosten um etwa 15% verbessert wurde.