Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Bewertung von Large Language Models (LLMs) in offenen Szenarien ist eine Herausforderung, da bestehende Benchmarks und Metriken sie nicht umfassend messen können. Um dieses Problem zu lösen, schlagen wir vor, LLMs als skalierbare Bewerter (JudgeLM) zu fine-tunen, um LLMs in offenen Benchmarks effizient und effektiv zu bewerten. Zunächst stellen wir einen umfassenden, groß angelegten, hochwertigen Datensatz vor, der Aufgabenkerne, von LLMs generierte Antworten und von GPT-4 generierte Bewertungen enthält, um leistungsstarke Bewerter zu fine-tunen, sowie einen neuen Benchmark zur Bewertung der Bewerter. Wir trainieren JudgeLM in verschiedenen Größenordnungen von 7B, 13B bis zu 33B Parametern und führen eine systematische Analyse seiner Fähigkeiten und Verhaltensweisen durch. Anschließend analysieren wir die wichtigsten Verzerrungen beim Fine-Tuning von LLMs als Bewerter und betrachten sie als Positionsverzerrung, Wissensverzerrung und Formatverzerrung. Um diese Probleme zu adressieren, führt JudgeLM eine Reihe von Techniken ein, darunter Swap-Augmentierung, Referenzunterstützung und Referenzauslassung, die die Leistung des Bewerters deutlich verbessern. JudgeLM erzielt die beste Bewerterleistung sowohl auf dem bestehenden PandaLM-Benchmark als auch auf unserem vorgeschlagenen neuen Benchmark. Unser JudgeLM ist effizient und JudgeLM-7B benötigt nur 3 Minuten, um 5.000 Proben mit 8 A100-GPUs zu bewerten. JudgeLM erreicht eine hohe Übereinstimmung mit dem Lehrerbewerter, wobei die Übereinstimmung 90 % übersteigt und sogar die menschliche Übereinstimmung übertrifft. JudgeLM zeigt auch erweiterte Fähigkeiten als Bewerter für einzelne Antworten, multimodale Modelle, mehrere Antworten und mehrfache Chat-Runden.
Wir stellen HyperFields vor, eine Methode zur Erzeugung von textbedingten Neural Radiance Fields (NeRFs) mit einem einzigen Vorwärtsdurchlauf und (optional) etwas Feinabstimmung. Kern unseres Ansatzes sind: (i) ein dynamisches Hypernetzwerk, das eine glatte Abbildung von Text-Token-Embeddings in den Raum der NeRFs lernt; (ii) NeRF-Destillationstraining, das Szenen, die in einzelnen NeRFs kodiert sind, in ein dynamisches Hypernetzwerk destilliert. Diese Techniken ermöglichen es einem einzigen Netzwerk, über hundert einzigartige Szenen anzupassen. Wir zeigen weiterhin, dass HyperFields eine allgemeinere Abbildung zwischen Text und NeRFs lernt und folglich in der Lage ist, neuartige in-Verteilung und außerhalb der Verteilung liegende Szenen vorherzusagen – entweder zero-shot oder mit einigen Feinabstimmungsschritten. Die Feinabstimmung von HyperFields profitiert von einer beschleunigten Konvergenz dank der erlernten allgemeinen Abbildung und ist in der Lage, neuartige Szenen 5 bis 10 Mal schneller zu synthetisieren als bestehende neuronale optimierungsbasierte Methoden. Unsere Ablationsexperimente zeigen, dass sowohl die dynamische Architektur als auch die NeRF-Destillation entscheidend für die Ausdruckskraft von HyperFields sind.
Wir schlagen Controlled Decoding (CD) vor, eine neuartige Off-Policy-Verstärkungslernmethode, um die autoregressive Generierung von Sprachmodellen hin zu Ergebnissen mit hoher Belohnung zu steuern. CD löst ein Off-Policy-Verstärkungslernproblem durch eine Wertfunktion für die Belohnung, die wir als Präfix-Scorer bezeichnen. Der Präfix-Scorer wird zur Inferenzzeit verwendet, um die Generierung in Richtung höherer Belohnungsergebnisse zu lenken. Wir zeigen, dass der Präfix-Scorer anhand von (möglicherweise) Off-Policy-Daten trainiert werden kann, um die erwartete Belohnung vorherzusagen, wenn die Dekodierung von einer teilweise dekodierten Antwort fortgesetzt wird. Wir demonstrieren empirisch, dass CD als Kontrollmechanismus auf dem Reddit-Konversationskorpus effektiv ist. Wir zeigen auch, dass die Modularität des CD-Designs es ermöglicht, mehrere Belohnungen zu kontrollieren, wodurch ein multiobjektives Verstärkungslernproblem ohne zusätzliche Komplexität effektiv gelöst wird. Schließlich zeigen wir, dass CD auf neuartige Weise blockweise zur Inferenzzeit angewendet werden kann, wiederum ohne dass Änderungen während des Trainings erforderlich sind, wodurch im Wesentlichen die Lücke zwischen der beliebten Best-of-K-Strategie und dem Token-Level-Verstärkungslernen überbrückt wird. Dies macht CD zu einem vielversprechenden Ansatz für die Ausrichtung von Sprachmodellen.
Große Sprachmodelle (LLMs) mit Hunderten von Milliarden Parametern haben eine neue Welle spannender KI-Anwendungen ausgelöst. Allerdings sind sie zum Zeitpunkt der Inferenz rechenintensiv. Sparsity ist ein natürlicher Ansatz, um diese Kosten zu reduzieren, aber bestehende Methoden erfordern entweder kostspieliges Retraining, müssen auf die Fähigkeit des LLMs zum In-Context-Learning verzichten oder führen zu keiner Beschleunigung der Echtzeit auf moderner Hardware. Wir stellen die Hypothese auf, dass kontextuelle Sparsity, bei der es sich um kleine, eingabeabhängige Mengen von Attention-Heads und MLP-Parametern handelt, die für eine gegebene Eingabe annähernd dieselbe Ausgabe wie das dichte Modell liefern, diese Probleme lösen kann. Wir zeigen, dass kontextuelle Sparsity existiert, dass sie genau vorhergesagt werden kann und dass wir sie nutzen können, um die LLM-Inferenz in Echtzeit zu beschleunigen, ohne die Qualität oder die Fähigkeit zum In-Context-Learning des LLMs zu beeinträchtigen. Basierend auf diesen Erkenntnissen schlagen wir DejaVu vor, ein System, das einen kostengünstigen Algorithmus verwendet, um kontextuelle Sparsity on-the-fly für die Eingaben jeder Schicht vorherzusagen, sowie eine asynchrone und hardwarebewusste Implementierung, die die LLM-Inferenz beschleunigt. Wir validieren, dass DejaVu die Inferenzlatenz von OPT-175B im Vergleich zum state-of-the-art FasterTransformer um mehr als das 2-fache und im Vergleich zur weit verbreiteten Hugging-Face-Implementierung um mehr als das 6-fache reduzieren kann, ohne die Modellqualität zu beeinträchtigen. Der Code ist verfügbar unter https://github.com/FMInference/DejaVu.