Tägliche Papers

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

Llama 2: Offene Grundlage und Feinabgestimmte Chat-Modelle
Llama 2: Open Foundation and Fine-Tuned Chat Models

Jul 18, 2023

Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas Blecher, Cristian Canton Ferrer, Moya Chen, Guillem Cucurull, David Esiobu, Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedanuj Goswami, Naman Goyal, Anthony Hartshorn, Saghar Hosseini, Rui Hou, Hakan Inan, Marcin Kardas, Viktor Kerkez, Madian Khabsa, Isabel Kloumann, Artem Korenev, Punit Singh Koura, Marie-Anne Lachaux, Thibaut Lavril, Jenya Lee, Diana Liskovich, Yinghai Lu, Yuning Mao, Xavier Martinet, Todor Mihaylov, Pushkar Mishra, Igor Molybog, Yixin Nie, Andrew Poulton, Jeremy Reizenstein, Rashi Rungta, Kalyan Saladi, Alan Schelten, Ruan Silva, Eric Michael Smith, Ranjan Subramanian, Xiaoqing Ellen Tan, Binh Tang, Ross Taylor, Adina Williams, Jian Xiang Kuan, Puxin Xu, Zheng Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Sharan Narang, Aurelien Rodriguez, Robert Stojnic, Sergey Edunov, Thomas Scialom

24220

In dieser Arbeit entwickeln und veröffentlichen wir Llama 2, eine Sammlung vortrainierter und feinabgestimmter großer Sprachmodelle (LLMs) mit einer Skala von 7 bis 70 Milliarden Parametern. Unsere feinabgestimmten LLMs, genannt Llama 2-Chat, sind für Dialoganwendungen optimiert. Unsere Modelle übertreffen Open-Source-Chatmodelle in den meisten von uns getesteten Benchmarks und könnten, basierend auf unseren menschlichen Bewertungen hinsichtlich Hilfsbereitschaft und Sicherheit, eine geeignete Alternative zu proprietären Modellen darstellen. Wir bieten eine detaillierte Beschreibung unseres Ansatzes zur Feinabstimmung und Sicherheitsverbesserung von Llama 2-Chat, um der Gemeinschaft zu ermöglichen, auf unserer Arbeit aufzubauen und zur verantwortungsvollen Entwicklung von LLMs beizutragen.

Wie verändert sich das Verhalten von ChatGPT im Laufe der Zeit?
How is ChatGPT's behavior changing over time?

Jul 18, 2023

Lingjiao Chen, Matei Zaharia, James Zou

246

GPT-3.5 und GPT-4 sind die beiden am weitesten verbreiteten Dienste für große Sprachmodelle (Large Language Models, LLM). Wann und wie diese Modelle im Laufe der Zeit aktualisiert werden, bleibt jedoch undurchsichtig. Hier bewerten wir die Versionen von GPT-3.5 und GPT-4 aus März 2023 und Juni 2023 anhand von vier verschiedenen Aufgaben: 1) Lösen von mathematischen Problemen, 2) Beantworten sensibler/gefährlicher Fragen, 3) Generieren von Code und 4) visuelles Schlussfolgern. Wir stellen fest, dass die Leistung und das Verhalten sowohl von GPT-3.5 als auch von GPT-4 im Laufe der Zeit erheblich variieren können. Beispielsweise war GPT-4 (März 2023) sehr gut darin, Primzahlen zu identifizieren (Genauigkeit 97,6 %), während GPT-4 (Juni 2023) bei denselben Fragen sehr schlecht abschnitt (Genauigkeit 2,4 %). Interessanterweise war GPT-3.5 (Juni 2023) in dieser Aufgabe deutlich besser als GPT-3.5 (März 2023). GPT-4 war im Juni weniger bereit, sensible Fragen zu beantworten als im März, und sowohl GPT-4 als auch GPT-3.5 wiesen im Juni mehr Formatierungsfehler bei der Code-Generierung auf als im März. Insgesamt zeigen unsere Ergebnisse, dass sich das Verhalten desselben LLM-Dienstes in relativ kurzer Zeit erheblich ändern kann, was die Notwendigkeit einer kontinuierlichen Überwachung der Qualität von LLMs unterstreicht.

Skaliert die Interpretierbarkeit von Schaltkreisen? Belege aus den Multiple-Choice-Fähigkeiten von Chinchilla
Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla

Jul 18, 2023

Tom Lieberum, Matthew Rahtz, János Kramár, Geoffrey Irving, Rohin Shah, Vladimir Mikulik

110

Die Schaltkreisanalyse ist eine vielversprechende Technik, um die internen Mechanismen von Sprachmodellen zu verstehen. Bisherige Analysen wurden jedoch an kleinen Modellen durchgeführt, die weit vom Stand der Technik entfernt sind. Um dies zu adressieren, präsentieren wir eine Fallstudie zur Schaltkreisanalyse im 70B Chinchilla-Modell, mit dem Ziel, die Skalierbarkeit der Schaltkreisanalyse zu testen. Insbesondere untersuchen wir Multiple-Choice-Fragen und analysieren die Fähigkeit von Chinchilla, die richtige Antwortkennung zu identifizieren, wenn der korrekte Antworttext bekannt ist. Wir stellen fest, dass die bestehenden Techniken der Logit-Attribution, der Visualisierung von Aufmerksamkeitsmustern und der Aktivierungspatchung sich problemlos auf Chinchilla skalieren lassen, wodurch wir eine kleine Menge von `Ausgabeknoten' (Aufmerksamkeitsköpfe und MLPs) identifizieren und kategorisieren können. Weiterhin untersuchen wir die Kategorie der `korrekten Buchstaben'-Aufmerksamkeitsköpfe, um die Semantik ihrer Merkmale zu verstehen, mit gemischten Ergebnissen. Bei normalen Multiple-Choice-Fragen komprimieren wir die Query-, Key- und Value-Subräume des Kopfes signifikant, ohne Leistungseinbußen bei der Verarbeitung der Antwortkennungen für Multiple-Choice-Fragen, und wir zeigen, dass die Query- und Key-Subräume zumindest teilweise ein `N-tes Element in einer Aufzählung'-Merkmal repräsentieren. Wenn wir jedoch versuchen, diese Erklärung zu nutzen, um das Verhalten der Köpfe auf einer allgemeineren Verteilung, einschließlich randomisierter Antwortkennungen, zu verstehen, stellen wir fest, dass es sich nur um eine teilweise Erklärung handelt, was darauf hindeutet, dass es noch mehr über die Funktionsweise der `korrekten Buchstaben'-Köpfe bei Multiple-Choice-Fragen zu lernen gibt.

Erweiterung von CLIP durch verbessertes visuell-linguistisches Denken
Augmenting CLIP with Improved Visio-Linguistic Reasoning

Jul 18, 2023

Samyadeep Basu, Maziar Sanjabi, Daniela Massiceti, Shell Xu Hu, Soheil Feizi

Bild-Text-Kontrastmodelle wie CLIP sind nützlich für eine Vielzahl von nachgelagerten Anwendungen, einschließlich Zero-Shot-Klassifikation, Bild-Text-Retrieval und Transferlernen. Diese kontrastiv trainierten Vision-Sprache-Modelle scheitern jedoch oft an kompositionellen visio-linguistischen Aufgaben wie Winoground, wobei ihre Leistung dem Zufall entspricht. In unserem Artikel gehen wir auf dieses Problem ein und schlagen eine ressourceneffiziente, leichtgewichtige Methode namens SDS-CLIP vor, um die kompositionellen visio-linguistischen Fähigkeiten von CLIP zu verbessern. Der Kern unserer Methode besteht darin, differenzierbare Bildparametrisierungen zu verwenden, um CLIP mit einem Distillationsziel aus großen Text-zu-Bild-Generativmodellen wie Stable-Diffusion zu feinabstimmen, die relativ gut in visio-linguistischen Aufgaben sind. Auf der anspruchsvollen Winoground-Benchmark für kompositionelles Denken verbessert unsere Methode die absolute visio-linguistische Leistung verschiedener CLIP-Modelle um bis zu 7 %, während auf dem ARO-Datensatz die visio-linguistische Leistung um bis zu 3 % gesteigert wird. Als Nebenprodukt der Einführung von visio-linguistischem Denken in CLIP stellen wir fest, dass die Zero-Shot-Leistung auf einer Vielzahl von nachgelagerten Datensätzen leicht verbessert wird. Unsere Methode unterstreicht, dass sorgfältig gestaltete Distillationsziele aus Generativmodellen genutzt werden können, um bestehende kontrastive Bild-Text-Modelle mit verbesserten visio-linguistischen Fähigkeiten zu erweitern.

NU-MCC: Multiview Compressive Coding mit Nachbarschafts-Decoder und abstoßender UDF
NU-MCC: Multiview Compressive Coding with Neighborhood Decoder and Repulsive UDF

Jul 18, 2023

Stefan Lionar, Xiangyu Xu, Min Lin, Gim Hee Lee

Bemerkenswerte Fortschritte wurden bei der 3D-Rekonstruktion aus Single-View-RGB-D-Eingaben erzielt. MCC ist derzeit die state-of-the-art Methode in diesem Bereich, die durch die Kombination von Vision-Transformern mit groß angelegtem Training beispiellose Erfolge erzielt. Wir haben jedoch zwei wesentliche Einschränkungen von MCC identifiziert: 1) Der Transformer-Decoder ist ineffizient bei der Verarbeitung einer großen Anzahl von Abfragepunkten; 2) Die 3D-Darstellung hat Schwierigkeiten, hochauflösende Details wiederherzustellen. In diesem Artikel schlagen wir einen neuen Ansatz namens NU-MCC vor, der diese Einschränkungen adressiert. NU-MCC umfasst zwei Schlüsselinnovationen: einen Neighborhood-Decoder und eine Repulsive Unsigned Distance Function (Repulsive UDF). Erstens führt unser Neighborhood-Decoder Mittelpunkte als effiziente Stellvertreter für die Eingabevisuellen Merkmale ein, wodurch jeder Abfragepunkt nur eine kleine Nachbarschaft berücksichtigt. Dieses Design führt nicht nur zu einer deutlich schnelleren Inferenzgeschwindigkeit, sondern ermöglicht auch die Nutzung feinerer visueller Merkmale für eine verbesserte Wiederherstellung von 3D-Texturen. Zweitens ist unsere Repulsive UDF eine neuartige Alternative zum in MCC verwendeten Occupancy Field, die die Qualität der 3D-Objekt-Rekonstruktion erheblich verbessert. Im Vergleich zu Standard-UDFs, die unter Löchern in den Ergebnissen leiden, kann unsere vorgeschlagene Repulsive UDF eine vollständigere Oberflächenrekonstruktion erreichen. Experimentelle Ergebnisse zeigen, dass NU-MCC in der Lage ist, eine starke 3D-Darstellung zu erlernen und den Stand der Technik in der Single-View-3D-Rekonstruktion erheblich voranzutreiben. Insbesondere übertrifft es MCC um 9,7 % in Bezug auf den F1-Score auf dem CO3D-v2-Datensatz bei mehr als 5-facher Laufgeschwindigkeit.

Biomaker CA: ein Biome-Maker-Projekt unter Verwendung von Zellulären Automaten
Biomaker CA: a Biome Maker project using Cellular Automata

Jul 18, 2023

Ettore Randazzo, Alexander Mordvintsev

Wir stellen Biomaker CA vor: ein Biome-Maker-Projekt, das Zelluläre Automaten (CA) verwendet. In Biomaker CA ist Morphogenese ein zentrales Element, und kleine Keime müssen sich zu pflanzenähnlichen Organismen entwickeln, um in einer nährstoffarmen Umgebung zu überleben und schließlich mit Variationen zu reproduzieren, sodass ein Biom über lange Zeiträume bestehen bleibt. Wir simulieren komplexe Biome mithilfe von CA-Regeln in 2D-Gittern und parallelisieren alle Berechnungen auf GPUs durch das Python-JAX-Framework. Wir zeigen, wie dieses Projekt verschiedene Arten von Umgebungen und „physikalischen“ Gesetzen sowie unterschiedliche Modellarchitekturen und Mutationsstrategien ermöglicht. Weiterhin analysieren wir einige Konfigurationen, um zu demonstrieren, wie Pflanzenagenten wachsen, überleben, sich fortpflanzen und evolvieren können, wodurch stabile und instabile Biome entstehen. Anschließend zeigen wir, wie Modelle meta-evolviert werden können, um in einer rauen Umgebung zu überleben, entweder durch end-to-end Meta-Evolution oder durch einen gezielteren und effizienteren Ansatz, genannt Petrischalen-Meta-Evolution. Schließlich demonstrieren wir, wie interaktive Evolution durchgeführt werden kann, bei der der Benutzer entscheidet, wie ein Pflanzenmodell interaktiv evolviert wird, und es dann in einer größeren Umgebung einsetzt. Wir veröffentlichen Biomaker CA als Open Source unter: https://tinyurl.com/2x8yu34s.

Skaliert die Interpretierbarkeit von Schaltkreisen? Belege aus den Multiple-Choice-Fähigkeiten von Chinchilla
Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla

Jul 18, 2023

Tom Lieberum, Matthew Rahtz, János Kramár, Geoffrey Irving, Rohin Shah, Vladimir Mikulik

110

Tägliche Papers

Llama 2: Offene Grundlage und Feinabgestimmte Chat-Modelle
Llama 2: Open Foundation and Fine-Tuned Chat Models

Wie verändert sich das Verhalten von ChatGPT im Laufe der Zeit?
How is ChatGPT's behavior changing over time?

Skaliert die Interpretierbarkeit von Schaltkreisen? Belege aus den Multiple-Choice-Fähigkeiten von Chinchilla
Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla

Erweiterung von CLIP durch verbessertes visuell-linguistisches Denken
Augmenting CLIP with Improved Visio-Linguistic Reasoning

NU-MCC: Multiview Compressive Coding mit Nachbarschafts-Decoder und abstoßender UDF
NU-MCC: Multiview Compressive Coding with Neighborhood Decoder and Repulsive UDF

Biomaker CA: ein Biome-Maker-Projekt unter Verwendung von Zellulären Automaten
Biomaker CA: a Biome Maker project using Cellular Automata

Support

Support

Tägliche Papers

Llama 2: Offene Grundlage und Feinabgestimmte Chat-Modelle
Llama 2: Open Foundation and Fine-Tuned Chat Models

Wie verändert sich das Verhalten von ChatGPT im Laufe der Zeit?
How is ChatGPT's behavior changing over time?

Skaliert die Interpretierbarkeit von Schaltkreisen? Belege aus den Multiple-Choice-Fähigkeiten von Chinchilla
Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla

Erweiterung von CLIP durch verbessertes visuell-linguistisches Denken
Augmenting CLIP with Improved Visio-Linguistic Reasoning

NU-MCC: Multiview Compressive Coding mit Nachbarschafts-Decoder und abstoßender UDF
NU-MCC: Multiview Compressive Coding with Neighborhood Decoder and Repulsive UDF

Biomaker CA: ein Biome-Maker-Projekt unter Verwendung von Zellulären Automaten
Biomaker CA: a Biome Maker project using Cellular Automata