papers.description
Sprachmodelle (Language Models, LMs) sind sowohl in der NLP-Forschung als auch in kommerziellen Produktangeboten allgegenwärtig. Mit dem zunehmenden kommerziellen Stellenwert wurden die leistungsstärksten Modelle zunehmend geschlossen, hinter proprietären Schnittstellen verborgen, wobei wichtige Details zu ihren Trainingsdaten, Architekturen und Entwicklungen nicht offengelegt werden. Angesichts der Bedeutung dieser Details für die wissenschaftliche Untersuchung dieser Modelle, einschließlich ihrer Verzerrungen und potenziellen Risiken, halten wir es für unerlässlich, dass die Forschungsgemeinschaft Zugang zu leistungsstarken, wirklich offenen Sprachmodellen hat. Zu diesem Zweck beschreibt dieser technische Bericht die erste Veröffentlichung von OLMo, einem state-of-the-art, wirklich offenen Sprachmodell, sowie dessen Framework zur Erstellung und Erforschung der Wissenschaft des Sprachmodellierens. Im Gegensatz zu den meisten früheren Bemühungen, bei denen nur Modellgewichte und Inferenzcode veröffentlicht wurden, stellen wir OLMo und das gesamte Framework zur Verfügung, einschließlich der Trainingsdaten sowie des Trainings- und Evaluierungscodes. Wir hoffen, dass diese Veröffentlichung die offene Forschungsgemeinschaft stärken und eine neue Innovationswelle inspirieren wird.
Sprachmodelle sind zu einer entscheidenden Technologie geworden, um eine Vielzahl von Aufgaben der natürlichen Sprachverarbeitung zu bewältigen. Dennoch werden viele Details darüber, wie die leistungsstärksten Sprachmodelle entwickelt wurden, nicht offengelegt. Insbesondere werden Informationen über ihre Vortrainingskorpora selten diskutiert: Kommerzielle Sprachmodelle geben kaum Auskunft über ihre Daten; selbst Open-Source-Modelle veröffentlichen nur selten die Datensätze, auf denen sie trainiert wurden, oder eine genaue Anleitung, um diese zu reproduzieren. Infolgedessen ist es schwierig, bestimmte Forschungsrichtungen im Bereich der Sprachmodellierung zu verfolgen, wie beispielsweise zu verstehen, wie Trainingsdaten die Fähigkeiten von Modellen beeinflussen und ihre Grenzen prägen. Um offene Forschung zum Vortraining von Sprachmodellen zu fördern, veröffentlichen wir Dolma, ein englisches Korpus mit drei Billionen Tokens, das aus einer vielfältigen Mischung von Webinhalten, wissenschaftlichen Artikeln, Code, gemeinfreien Büchern, Social-Media-Inhalten und enzyklopädischen Materialien besteht. Zudem stellen wir unser Datenkuratierungstoolkit als Open Source zur Verfügung, um weitere Experimente und die Reproduktion unserer Arbeit zu ermöglichen. In diesem Bericht dokumentieren wir Dolma, einschließlich seiner Designprinzipien, Details zu seiner Erstellung und einer Zusammenfassung seiner Inhalte. Wir ergänzen diesen Bericht mit Analysen und experimentellen Ergebnissen aus dem Training von Sprachmodellen auf Zwischenständen von Dolma, um unsere Erkenntnisse über wichtige Praktiken der Datenkuratierung zu teilen, darunter die Rolle von Inhalts- oder Qualitätsfiltern, Deduplizierung und der Mischung aus mehreren Quellen. Dolma wurde verwendet, um OLMo zu trainieren, ein modernes, offenes Sprachmodell und Framework, das entwickelt wurde, um die Wissenschaft der Sprachmodellierung zu erforschen und zu studieren.
Wir stellen CroissantLLM vor, ein 1,3B großes Sprachmodell, das auf einem Korpus von 3T englischen und französischen Tokens vortrainiert wurde, um der Forschungs- und Industriegemeinschaft ein leistungsstarkes, vollständig quelloffenes zweisprachiges Modell zu bieten, das schnell auf handelsüblicher lokaler Hardware läuft. Zu diesem Zweck entwickeln wir einen innovativen Ansatz, bei dem ein intrinsisch zweisprachiges Modell mit einem 1:1-Verhältnis von englischen zu französischen Vortrainingsdaten, einem speziell angepassten Tokenizer und zweisprachigen Feinabstimmungsdatensätzen trainiert wird. Wir veröffentlichen den Trainingsdatensatz, der insbesondere einen französischen Anteil mit manuell kuratierten, hochwertigen und vielfältigen Datenquellen enthält. Um die Leistung außerhalb des Englischen zu bewerten, entwickeln wir einen neuartigen Benchmark, FrenchBench, der eine Reihe von Klassifikations- und Generierungsaufgaben umfasst und verschiedene orthogonale Aspekte der Modellleistung in der französischen Sprache abdeckt. Darüber hinaus veröffentlichen wir, basierend auf Transparenz und zur Förderung weiterer Forschung im Bereich großer Sprachmodelle, Codebasen sowie Dutzende von Checkpoints in verschiedenen Modellgrößen, Trainingsdatenverteilungen und Trainingsschritten, sowie feinabgestimmte Chat-Modelle und leistungsstarke Übersetzungsmodelle. Wir bewerten unser Modell anhand des FMTI-Rahmens und validieren 81 % der Transparenzkriterien, weit über den Werten der meisten offenen Initiativen. Diese Arbeit bereichert die NLP-Landschaft, indem sie sich von bisherigen englischzentrierten Ansätzen abwendet, um unser Verständnis von Mehrsprachigkeit in Sprachmodellen zu stärken.
Das Verständnis von Kontext ist entscheidend für das Verständnis der menschlichen Sprache, eine Fähigkeit, die Large Language Models (LLMs) zunehmend in beeindruckendem Maße demonstrieren. Obwohl die Bewertung von LLMs verschiedene Bereiche innerhalb des Natural Language Processing umfasst, wurde der Untersuchung ihrer linguistischen Fähigkeit, kontextuelle Merkmale zu verstehen, bisher nur begrenzte Aufmerksamkeit geschenkt. Dieses Papier stellt einen Benchmark für das Kontextverständnis vor, indem bestehende Datensätze angepasst werden, um die Bewertung generativer Modelle zu ermöglichen. Dieser Benchmark besteht aus vier verschiedenen Aufgaben und neun Datensätzen, die alle Prompts enthalten, die darauf abzielen, die Fähigkeit der Modelle zum Verständnis von Kontext zu bewerten. Zunächst bewerten wir die Leistung von LLMs im Szenario des In-Context-Learning-Pretrainings. Die experimentellen Ergebnisse zeigen, dass vortrainierte dichte Modelle Schwierigkeiten haben, feinere kontextuelle Merkmale zu verstehen, im Vergleich zu state-of-the-art feinabgestimmten Modellen. Zweitens, da die Kompression von LLMs in Forschung und praktischen Anwendungen zunehmend an Bedeutung gewinnt, bewerten wir das Kontextverständnis quantisierter Modelle unter In-Context-Learning-Bedingungen. Wir stellen fest, dass eine 3-Bit-Post-Training-Quantisierung zu unterschiedlichen Graden von Leistungsreduktionen in unserem Benchmark führt. Wir führen eine umfassende Analyse dieser Szenarien durch, um unsere experimentellen Ergebnisse zu untermauern.
Wir präsentieren Belege für einen erheblichen Nutzen effizienter Exploration bei der Sammlung menschlicher Rückmeldungen zur Verbesserung großer Sprachmodelle. In unseren Experimenten generiert ein Agent sequenziell Abfragen, während er ein Belohnungsmodell an die erhaltenen Rückmeldungen anpasst. Unser leistungsstärkster Agent generiert Abfragen mittels Double-Thompson-Sampling, wobei Unsicherheit durch ein epistemisches neuronales Netzwerk dargestellt wird. Unsere Ergebnisse zeigen, dass effiziente Exploration ein hohes Leistungsniveau mit deutlich weniger Abfragen ermöglicht. Darüber hinaus spielen sowohl die Schätzung von Unsicherheit als auch die Wahl des Explorationsschemas eine entscheidende Rolle.
Wir stellen SymbolicAI vor, ein vielseitiges und modulares Framework, das einen logikbasierten Ansatz für Konzeptlernen und Flussmanagement in generativen Prozessen verfolgt. SymbolicAI ermöglicht die nahtlose Integration von generativen Modellen mit einer Vielzahl von Solvern, indem große Sprachmodelle (LLMs) als semantische Parser behandelt werden, die Aufgaben basierend auf natürlichen und formalen Sprachinstruktionen ausführen. Dadurch wird die Lücke zwischen symbolischem Denken und generativer KI überbrückt. Wir nutzen Prinzipien des probabilistischen Programmierens, um komplexe Aufgaben zu bewältigen, und verwenden sowohl differenzierbare als auch klassische Programmierparadigmen mit ihren jeweiligen Stärken. Das Framework führt eine Reihe von polymorphen, kompositionellen und selbstreferenziellen Operationen zur Manipulation von Datenströmen ein, wodurch die Ausgaben der LLMs mit den Zielen der Nutzer abgestimmt werden. Dadurch können wir zwischen den Fähigkeiten verschiedener Foundation-Modelle mit Zero- und Few-Shot-Lernfähigkeiten und spezialisierten, feinabgestimmten Modellen oder Solvern, die spezifische Probleme lösen können, wechseln. Das Framework erleichtert zudem die Erstellung und Bewertung von erklärbaren Berechnungsgraphen. Abschließend führen wir ein Qualitätsmaß und dessen empirischen Score zur Bewertung dieser Berechnungsgraphen ein und schlagen ein Benchmark vor, das verschiedene state-of-the-art LLMs über eine Reihe komplexer Workflows vergleicht. Wir bezeichnen den empirischen Score als „Vector Embedding for Relational Trajectory Evaluation through Cross-similarity“ oder kurz VERTEX-Score. Der Codebase des Frameworks und das Benchmark sind unten verlinkt.
Machine Unlearning hat sich als neues Paradigma etabliert, um gezielt Datenproben aus einem gegebenen Modell zu vergessen, um strengen Vorschriften zu entsprechen. Bisher konzentrierten sich bestehende Methoden des Machine Unlearning jedoch hauptsächlich auf Klassifikationsmodelle, wodurch die Landschaft des Unlearning für generative Modelle weitgehend unerforscht blieb. Diese Arbeit schließt diese Lücke, indem sie einen vereinheitlichenden Rahmen für Machine Unlearning bei Bild-zu-Bild-generativen Modellen bietet. Innerhalb dieses Rahmens schlagen wir einen recheneffizienten Algorithmus vor, der durch eine rigorose theoretische Analyse untermauert ist und eine vernachlässigbare Leistungsverschlechterung bei den Behaltproben zeigt, während er die Informationen der Vergessproben effektiv entfernt. Empirische Studien an zwei groß angelegten Datensätzen, ImageNet-1K und Places-365, zeigen weiterhin, dass unser Algorithmus nicht auf die Verfügbarkeit der Behaltproben angewiesen ist, was zusätzlich der Datenaufbewahrungspolitik entspricht. Nach bestem Wissen ist diese Arbeit die erste, die systematische, theoretische und empirische Untersuchungen des Machine Unlearning speziell für Bild-zu-Bild-generative Modelle darstellt. Unser Code ist verfügbar unter https://github.com/jpmorganchase/l2l-generator-unlearning.
Ein gängiger Ansatz, um Sprachmodelle an menschliche Präferenzen anzupassen, besteht darin, zunächst ein Belohnungsmodell aus Präferenzdaten zu lernen und dieses dann zu verwenden, um das Sprachmodell zu aktualisieren. Wir untersuchen zwei eng verwandte Probleme, die bei diesem Ansatz auftreten. Erstens: Jede monotone Transformation des Belohnungsmodells erhält die Präferenzrangfolge; gibt es eine Wahl, die „besser“ ist als andere? Zweitens möchten wir Sprachmodelle oft an mehrere Eigenschaften anpassen: Wie sollten wir mehrere Belohnungsmodelle kombinieren? Mithilfe einer probabilistischen Interpretation des Anpassungsverfahrens identifizieren wir eine natürliche Wahl für die Transformation (im häufigen Fall von) Belohnungen, die aus Bradley-Terry-Präferenzmodellen gelernt wurden. Diese abgeleitete Transformation hat zwei wichtige Eigenschaften. Erstens betont sie die Verbesserung von schlecht abschneidenden Ausgaben, anstatt solcher, die bereits gut abschneiden. Dies mildert sowohl Unteranpassung (bei der einige Eingaben nicht verbessert werden) als auch Belohnungsmanipulation (bei der das Modell lernt, Fehlspezifikationen des Belohnungsmodells auszunutzen). Zweitens ermöglicht sie eine prinzipielle Aggregation von Belohnungen, indem sie die Summation mit logischer Konjunktion verknüpft: Die Summe der transformierten Belohnungen entspricht der Wahrscheinlichkeit, dass die Ausgabe in allen gemessenen Eigenschaften „gut“ ist, in einem präzise definierten Sinn. Experimente, bei denen Sprachmodelle mithilfe von RLHF sowohl hilfreich als auch harmlos angepasst werden, zeigen erhebliche Verbesserungen gegenüber dem Baseline-Ansatz (ohne Transformation).
Wir stellen Amortized Text-to-Mesh (AToM) vor, ein vorwärtsgerichtetes Text-zu-Mesh-Framework, das gleichzeitig über mehrere Textprompts hinweg optimiert wird. Im Gegensatz zu bestehenden Text-zu-3D-Methoden, die oft zeitaufwändige Optimierungen pro Prompt erfordern und häufig Darstellungen außerhalb von polygonalen Meshes liefern, generiert AToM direkt hochwertige texturierte Meshes in weniger als einer Sekunde mit einer etwa 10-fachen Reduzierung der Trainingskosten und verallgemeinert auf unbekannte Prompts. Unser zentraler Ansatz ist eine neuartige Triplane-basierte Text-zu-Mesh-Architektur mit einer zweistufigen amortisierten Optimierungsstrategie, die stabiles Training gewährleistet und Skalierbarkeit ermöglicht. Durch umfangreiche Experimente mit verschiedenen Prompt-Benchmarks übertrifft AToM deutlich die besten amortisierten Ansätze mit einer über 4-fach höheren Genauigkeit (im DF415-Datensatz) und erzeugt unterscheidbarere und qualitativ hochwertigere 3D-Ergebnisse. AToM zeigt eine starke Generalisierbarkeit und bietet fein abgestufte 3D-Assets für unbekannte interpolierte Prompts ohne weitere Optimierung während der Inferenz, im Gegensatz zu pro-Prompt-Lösungen.
Diese Arbeit stellt EE-Tuning vor, eine leichte und kosteneffiziente Lösung für das Training/Feintuning von Large Language Models (LLMs) mit Early-Exit-Mechanismus. Im Gegensatz zum gängigen Ansatz des Vollparameter-Pre-Trainings erweitert EE-Tuning jedes vortrainierte (und möglicherweise feinabgestimmte) Standard-LLM durch zusätzliche Early-Exit-Schichten, die auf parameter-effiziente Weise angepasst werden. Dies erfordert deutlich weniger Rechenressourcen und Trainingsdaten. Unsere Implementierung von EE-Tuning erreicht eine herausragende Trainingseffizienz durch umfangreiche Leistungsoptimierungen sowie Skalierbarkeit aufgrund der vollständigen Kompatibilität mit 3D-Parallelität. Die Ergebnisse systematischer Experimente bestätigen die Wirksamkeit von EE-Tuning und zeigen, dass eine effektive Inferenz von Early-Exit-LLMs mit begrenztem Trainingsbudget erreicht werden kann. In der Hoffnung, Early-Exit-LLMs der Community zugänglich zu machen, veröffentlichen wir den Quellcode unserer EE-Tuning-Implementierung unter https://github.com/pan-x-c/EE-LLM.