Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
In dieser Arbeit entwickeln und veröffentlichen wir Llama 2, eine Sammlung vortrainierter und feinabgestimmter großer Sprachmodelle (LLMs) mit einer Skala von 7 bis 70 Milliarden Parametern. Unsere feinabgestimmten LLMs, genannt Llama 2-Chat, sind für Dialoganwendungen optimiert. Unsere Modelle übertreffen Open-Source-Chatmodelle in den meisten von uns getesteten Benchmarks und könnten, basierend auf unseren menschlichen Bewertungen hinsichtlich Hilfsbereitschaft und Sicherheit, eine geeignete Alternative zu proprietären Modellen darstellen. Wir bieten eine detaillierte Beschreibung unseres Ansatzes zur Feinabstimmung und Sicherheitsverbesserung von Llama 2-Chat, um der Gemeinschaft zu ermöglichen, auf unserer Arbeit aufzubauen und zur verantwortungsvollen Entwicklung von LLMs beizutragen.
GPT-3.5 und GPT-4 sind die beiden am weitesten verbreiteten Dienste für große Sprachmodelle (Large Language Models, LLM). Wann und wie diese Modelle im Laufe der Zeit aktualisiert werden, bleibt jedoch undurchsichtig. Hier bewerten wir die Versionen von GPT-3.5 und GPT-4 aus März 2023 und Juni 2023 anhand von vier verschiedenen Aufgaben: 1) Lösen von mathematischen Problemen, 2) Beantworten sensibler/gefährlicher Fragen, 3) Generieren von Code und 4) visuelles Schlussfolgern. Wir stellen fest, dass die Leistung und das Verhalten sowohl von GPT-3.5 als auch von GPT-4 im Laufe der Zeit erheblich variieren können. Beispielsweise war GPT-4 (März 2023) sehr gut darin, Primzahlen zu identifizieren (Genauigkeit 97,6 %), während GPT-4 (Juni 2023) bei denselben Fragen sehr schlecht abschnitt (Genauigkeit 2,4 %). Interessanterweise war GPT-3.5 (Juni 2023) in dieser Aufgabe deutlich besser als GPT-3.5 (März 2023). GPT-4 war im Juni weniger bereit, sensible Fragen zu beantworten als im März, und sowohl GPT-4 als auch GPT-3.5 wiesen im Juni mehr Formatierungsfehler bei der Code-Generierung auf als im März. Insgesamt zeigen unsere Ergebnisse, dass sich das Verhalten desselben LLM-Dienstes in relativ kurzer Zeit erheblich ändern kann, was die Notwendigkeit einer kontinuierlichen Überwachung der Qualität von LLMs unterstreicht.
Die Schaltkreisanalyse ist eine vielversprechende Technik, um die internen Mechanismen von Sprachmodellen zu verstehen. Bisherige Analysen wurden jedoch an kleinen Modellen durchgeführt, die weit vom Stand der Technik entfernt sind. Um dies zu adressieren, präsentieren wir eine Fallstudie zur Schaltkreisanalyse im 70B Chinchilla-Modell, mit dem Ziel, die Skalierbarkeit der Schaltkreisanalyse zu testen. Insbesondere untersuchen wir Multiple-Choice-Fragen und analysieren die Fähigkeit von Chinchilla, die richtige Antwortkennung zu identifizieren, wenn der korrekte Antworttext bekannt ist. Wir stellen fest, dass die bestehenden Techniken der Logit-Attribution, der Visualisierung von Aufmerksamkeitsmustern und der Aktivierungspatchung sich problemlos auf Chinchilla skalieren lassen, wodurch wir eine kleine Menge von `Ausgabeknoten' (Aufmerksamkeitsköpfe und MLPs) identifizieren und kategorisieren können. Weiterhin untersuchen wir die Kategorie der `korrekten Buchstaben'-Aufmerksamkeitsköpfe, um die Semantik ihrer Merkmale zu verstehen, mit gemischten Ergebnissen. Bei normalen Multiple-Choice-Fragen komprimieren wir die Query-, Key- und Value-Subräume des Kopfes signifikant, ohne Leistungseinbußen bei der Verarbeitung der Antwortkennungen für Multiple-Choice-Fragen, und wir zeigen, dass die Query- und Key-Subräume zumindest teilweise ein `N-tes Element in einer Aufzählung'-Merkmal repräsentieren. Wenn wir jedoch versuchen, diese Erklärung zu nutzen, um das Verhalten der Köpfe auf einer allgemeineren Verteilung, einschließlich randomisierter Antwortkennungen, zu verstehen, stellen wir fest, dass es sich nur um eine teilweise Erklärung handelt, was darauf hindeutet, dass es noch mehr über die Funktionsweise der `korrekten Buchstaben'-Köpfe bei Multiple-Choice-Fragen zu lernen gibt.
Bild-Text-Kontrastmodelle wie CLIP sind nützlich für eine Vielzahl von nachgelagerten Anwendungen, einschließlich Zero-Shot-Klassifikation, Bild-Text-Retrieval und Transferlernen. Diese kontrastiv trainierten Vision-Sprache-Modelle scheitern jedoch oft an kompositionellen visio-linguistischen Aufgaben wie Winoground, wobei ihre Leistung dem Zufall entspricht. In unserem Artikel gehen wir auf dieses Problem ein und schlagen eine ressourceneffiziente, leichtgewichtige Methode namens SDS-CLIP vor, um die kompositionellen visio-linguistischen Fähigkeiten von CLIP zu verbessern. Der Kern unserer Methode besteht darin, differenzierbare Bildparametrisierungen zu verwenden, um CLIP mit einem Distillationsziel aus großen Text-zu-Bild-Generativmodellen wie Stable-Diffusion zu feinabstimmen, die relativ gut in visio-linguistischen Aufgaben sind. Auf der anspruchsvollen Winoground-Benchmark für kompositionelles Denken verbessert unsere Methode die absolute visio-linguistische Leistung verschiedener CLIP-Modelle um bis zu 7 %, während auf dem ARO-Datensatz die visio-linguistische Leistung um bis zu 3 % gesteigert wird. Als Nebenprodukt der Einführung von visio-linguistischem Denken in CLIP stellen wir fest, dass die Zero-Shot-Leistung auf einer Vielzahl von nachgelagerten Datensätzen leicht verbessert wird. Unsere Methode unterstreicht, dass sorgfältig gestaltete Distillationsziele aus Generativmodellen genutzt werden können, um bestehende kontrastive Bild-Text-Modelle mit verbesserten visio-linguistischen Fähigkeiten zu erweitern.
Bemerkenswerte Fortschritte wurden bei der 3D-Rekonstruktion aus Single-View-RGB-D-Eingaben erzielt. MCC ist derzeit die state-of-the-art Methode in diesem Bereich, die durch die Kombination von Vision-Transformern mit groß angelegtem Training beispiellose Erfolge erzielt. Wir haben jedoch zwei wesentliche Einschränkungen von MCC identifiziert: 1) Der Transformer-Decoder ist ineffizient bei der Verarbeitung einer großen Anzahl von Abfragepunkten; 2) Die 3D-Darstellung hat Schwierigkeiten, hochauflösende Details wiederherzustellen. In diesem Artikel schlagen wir einen neuen Ansatz namens NU-MCC vor, der diese Einschränkungen adressiert. NU-MCC umfasst zwei Schlüsselinnovationen: einen Neighborhood-Decoder und eine Repulsive Unsigned Distance Function (Repulsive UDF). Erstens führt unser Neighborhood-Decoder Mittelpunkte als effiziente Stellvertreter für die Eingabevisuellen Merkmale ein, wodurch jeder Abfragepunkt nur eine kleine Nachbarschaft berücksichtigt. Dieses Design führt nicht nur zu einer deutlich schnelleren Inferenzgeschwindigkeit, sondern ermöglicht auch die Nutzung feinerer visueller Merkmale für eine verbesserte Wiederherstellung von 3D-Texturen. Zweitens ist unsere Repulsive UDF eine neuartige Alternative zum in MCC verwendeten Occupancy Field, die die Qualität der 3D-Objekt-Rekonstruktion erheblich verbessert. Im Vergleich zu Standard-UDFs, die unter Löchern in den Ergebnissen leiden, kann unsere vorgeschlagene Repulsive UDF eine vollständigere Oberflächenrekonstruktion erreichen. Experimentelle Ergebnisse zeigen, dass NU-MCC in der Lage ist, eine starke 3D-Darstellung zu erlernen und den Stand der Technik in der Single-View-3D-Rekonstruktion erheblich voranzutreiben. Insbesondere übertrifft es MCC um 9,7 % in Bezug auf den F1-Score auf dem CO3D-v2-Datensatz bei mehr als 5-facher Laufgeschwindigkeit.
Wir stellen Biomaker CA vor: ein Biome-Maker-Projekt, das Zelluläre Automaten (CA) verwendet. In Biomaker CA ist Morphogenese ein zentrales Element, und kleine Keime müssen sich zu pflanzenähnlichen Organismen entwickeln, um in einer nährstoffarmen Umgebung zu überleben und schließlich mit Variationen zu reproduzieren, sodass ein Biom über lange Zeiträume bestehen bleibt. Wir simulieren komplexe Biome mithilfe von CA-Regeln in 2D-Gittern und parallelisieren alle Berechnungen auf GPUs durch das Python-JAX-Framework. Wir zeigen, wie dieses Projekt verschiedene Arten von Umgebungen und „physikalischen“ Gesetzen sowie unterschiedliche Modellarchitekturen und Mutationsstrategien ermöglicht. Weiterhin analysieren wir einige Konfigurationen, um zu demonstrieren, wie Pflanzenagenten wachsen, überleben, sich fortpflanzen und evolvieren können, wodurch stabile und instabile Biome entstehen. Anschließend zeigen wir, wie Modelle meta-evolviert werden können, um in einer rauen Umgebung zu überleben, entweder durch end-to-end Meta-Evolution oder durch einen gezielteren und effizienteren Ansatz, genannt Petrischalen-Meta-Evolution. Schließlich demonstrieren wir, wie interaktive Evolution durchgeführt werden kann, bei der der Benutzer entscheidet, wie ein Pflanzenmodell interaktiv evolviert wird, und es dann in einer größeren Umgebung einsetzt. Wir veröffentlichen Biomaker CA als Open Source unter: https://tinyurl.com/2x8yu34s.