HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

10 papers found

OLMo: Beschleunigung der Wissenschaft der Sprachmodelle
OLMo: Accelerating the Science of Language Models

Feb 1

ByDirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A. Smith, Hannaneh Hajishirzi

Sprachmodelle (Language Models, LMs) sind sowohl in der NLP-Forschung als auch in kommerziellen Produktangeboten allgegenwärtig. Mit dem zunehmenden kommerziellen Stellenwert wurden die leistungsstärksten Modelle zunehmend geschlossen, hinter proprietären Schnittstellen verborgen, wobei wichtige Details zu ihren Trainingsdaten, Architekturen und Entwicklungen nicht offengelegt werden. Angesichts der Bedeutung dieser Details für die wissenschaftliche Untersuchung dieser Modelle, einschließlich ihrer Verzerrungen und potenziellen Risiken, halten wir es für unerlässlich, dass die Forschungsgemeinschaft Zugang zu leistungsstarken, wirklich offenen Sprachmodellen hat. Zu diesem Zweck beschreibt dieser technische Bericht die erste Veröffentlichung von OLMo, einem state-of-the-art, wirklich offenen Sprachmodell, sowie dessen Framework zur Erstellung und Erforschung der Wissenschaft des Sprachmodellierens. Im Gegensatz zu den meisten früheren Bemühungen, bei denen nur Modellgewichte und Inferenzcode veröffentlicht wurden, stellen wir OLMo und das gesamte Framework zur Verfügung, einschließlich der Trainingsdaten sowie des Trainings- und Evaluierungscodes. Wir hoffen, dass diese Veröffentlichung die offene Forschungsgemeinschaft stärken und eine neue Innovationswelle inspirieren wird.

Dolma: Ein offener Korpus mit drei Billionen Tokens für die Forschung zur Vortrainierung von Sprachmodellen
Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research

Jan 31

ByLuca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, Valentin Hofmann, Ananya Harsh Jha, Sachin Kumar, Li Lucy, Xinxi Lyu, Nathan Lambert, Ian Magnusson, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Abhilasha Ravichander, Kyle Richardson, Zejiang Shen, Emma Strubell, Nishant Subramani, Oyvind Tafjord, Pete Walsh, Luke Zettlemoyer, Noah A. Smith, Hannaneh Hajishirzi, Iz Beltagy, Dirk Groeneveld, Jesse Dodge, Kyle Lo

Sprachmodelle sind zu einer entscheidenden Technologie geworden, um eine Vielzahl von Aufgaben der natürlichen Sprachverarbeitung zu bewältigen. Dennoch werden viele Details darüber, wie die leistungsstärksten Sprachmodelle entwickelt wurden, nicht offengelegt. Insbesondere werden Informationen über ihre Vortrainingskorpora selten diskutiert: Kommerzielle Sprachmodelle geben kaum Auskunft über ihre Daten; selbst Open-Source-Modelle veröffentlichen nur selten die Datensätze, auf denen sie trainiert wurden, oder eine genaue Anleitung, um diese zu reproduzieren. Infolgedessen ist es schwierig, bestimmte Forschungsrichtungen im Bereich der Sprachmodellierung zu verfolgen, wie beispielsweise zu verstehen, wie Trainingsdaten die Fähigkeiten von Modellen beeinflussen und ihre Grenzen prägen. Um offene Forschung zum Vortraining von Sprachmodellen zu fördern, veröffentlichen wir Dolma, ein englisches Korpus mit drei Billionen Tokens, das aus einer vielfältigen Mischung von Webinhalten, wissenschaftlichen Artikeln, Code, gemeinfreien Büchern, Social-Media-Inhalten und enzyklopädischen Materialien besteht. Zudem stellen wir unser Datenkuratierungstoolkit als Open Source zur Verfügung, um weitere Experimente und die Reproduktion unserer Arbeit zu ermöglichen. In diesem Bericht dokumentieren wir Dolma, einschließlich seiner Designprinzipien, Details zu seiner Erstellung und einer Zusammenfassung seiner Inhalte. Wir ergänzen diesen Bericht mit Analysen und experimentellen Ergebnissen aus dem Training von Sprachmodellen auf Zwischenständen von Dolma, um unsere Erkenntnisse über wichtige Praktiken der Datenkuratierung zu teilen, darunter die Rolle von Inhalts- oder Qualitätsfiltern, Deduplizierung und der Mischung aus mehreren Quellen. Dolma wurde verwendet, um OLMo zu trainieren, ein modernes, offenes Sprachmodell und Framework, das entwickelt wurde, um die Wissenschaft der Sprachmodellierung zu erforschen und zu studieren.

CroissantLLM: Ein wahrhaft zweisprachiges französisch-englisches Sprachmodell
CroissantLLM: A Truly Bilingual French-English Language Model

Feb 1

ByManuel Faysse, Patrick Fernandes, Nuno Guerreiro, António Loison, Duarte Alves, Caio Corro, Nicolas Boizard, João Alves, Ricardo Rei, Pedro Martins, Antoni Bigata Casademunt, François Yvon, André Martins, Gautier Viaud, Céline Hudelot, Pierre Colombo

Wir stellen CroissantLLM vor, ein 1,3B großes Sprachmodell, das auf einem Korpus von 3T englischen und französischen Tokens vortrainiert wurde, um der Forschungs- und Industriegemeinschaft ein leistungsstarkes, vollständig quelloffenes zweisprachiges Modell zu bieten, das schnell auf handelsüblicher lokaler Hardware läuft. Zu diesem Zweck entwickeln wir einen innovativen Ansatz, bei dem ein intrinsisch zweisprachiges Modell mit einem 1:1-Verhältnis von englischen zu französischen Vortrainingsdaten, einem speziell angepassten Tokenizer und zweisprachigen Feinabstimmungsdatensätzen trainiert wird. Wir veröffentlichen den Trainingsdatensatz, der insbesondere einen französischen Anteil mit manuell kuratierten, hochwertigen und vielfältigen Datenquellen enthält. Um die Leistung außerhalb des Englischen zu bewerten, entwickeln wir einen neuartigen Benchmark, FrenchBench, der eine Reihe von Klassifikations- und Generierungsaufgaben umfasst und verschiedene orthogonale Aspekte der Modellleistung in der französischen Sprache abdeckt. Darüber hinaus veröffentlichen wir, basierend auf Transparenz und zur Förderung weiterer Forschung im Bereich großer Sprachmodelle, Codebasen sowie Dutzende von Checkpoints in verschiedenen Modellgrößen, Trainingsdatenverteilungen und Trainingsschritten, sowie feinabgestimmte Chat-Modelle und leistungsstarke Übersetzungsmodelle. Wir bewerten unser Modell anhand des FMTI-Rahmens und validieren 81 % der Transparenzkriterien, weit über den Werten der meisten offenen Initiativen. Diese Arbeit bereichert die NLP-Landschaft, indem sie sich von bisherigen englischzentrierten Ansätzen abwendet, um unser Verständnis von Mehrsprachigkeit in Sprachmodellen zu stärken.

Können große Sprachmodelle Kontext verstehen?
Can Large Language Models Understand Context?

Feb 1

ByYilun Zhu, Joel Ruben Antony Moniz, Shruti Bhargava, Jiarui Lu, Dhivya Piraviperumal, Site Li, Yuan Zhang, Hong Yu, Bo-Hsiang Tseng

Das Verständnis von Kontext ist entscheidend für das Verständnis der menschlichen Sprache, eine Fähigkeit, die Large Language Models (LLMs) zunehmend in beeindruckendem Maße demonstrieren. Obwohl die Bewertung von LLMs verschiedene Bereiche innerhalb des Natural Language Processing umfasst, wurde der Untersuchung ihrer linguistischen Fähigkeit, kontextuelle Merkmale zu verstehen, bisher nur begrenzte Aufmerksamkeit geschenkt. Dieses Papier stellt einen Benchmark für das Kontextverständnis vor, indem bestehende Datensätze angepasst werden, um die Bewertung generativer Modelle zu ermöglichen. Dieser Benchmark besteht aus vier verschiedenen Aufgaben und neun Datensätzen, die alle Prompts enthalten, die darauf abzielen, die Fähigkeit der Modelle zum Verständnis von Kontext zu bewerten. Zunächst bewerten wir die Leistung von LLMs im Szenario des In-Context-Learning-Pretrainings. Die experimentellen Ergebnisse zeigen, dass vortrainierte dichte Modelle Schwierigkeiten haben, feinere kontextuelle Merkmale zu verstehen, im Vergleich zu state-of-the-art feinabgestimmten Modellen. Zweitens, da die Kompression von LLMs in Forschung und praktischen Anwendungen zunehmend an Bedeutung gewinnt, bewerten wir das Kontextverständnis quantisierter Modelle unter In-Context-Learning-Bedingungen. Wir stellen fest, dass eine 3-Bit-Post-Training-Quantisierung zu unterschiedlichen Graden von Leistungsreduktionen in unserem Benchmark führt. Wir führen eine umfassende Analyse dieser Szenarien durch, um unsere experimentellen Ergebnisse zu untermauern.

SymbolicAI: Ein Framework für logikbasierte Ansätze, die generative Modelle und Solver kombinieren
SymbolicAI: A framework for logic-based approaches combining generative models and solvers

Feb 1

ByMarius-Constantin Dinu, Claudiu Leoveanu-Condrei, Markus Holzleitner, Werner Zellinger, Sepp Hochreiter

Wir stellen SymbolicAI vor, ein vielseitiges und modulares Framework, das einen logikbasierten Ansatz für Konzeptlernen und Flussmanagement in generativen Prozessen verfolgt. SymbolicAI ermöglicht die nahtlose Integration von generativen Modellen mit einer Vielzahl von Solvern, indem große Sprachmodelle (LLMs) als semantische Parser behandelt werden, die Aufgaben basierend auf natürlichen und formalen Sprachinstruktionen ausführen. Dadurch wird die Lücke zwischen symbolischem Denken und generativer KI überbrückt. Wir nutzen Prinzipien des probabilistischen Programmierens, um komplexe Aufgaben zu bewältigen, und verwenden sowohl differenzierbare als auch klassische Programmierparadigmen mit ihren jeweiligen Stärken. Das Framework führt eine Reihe von polymorphen, kompositionellen und selbstreferenziellen Operationen zur Manipulation von Datenströmen ein, wodurch die Ausgaben der LLMs mit den Zielen der Nutzer abgestimmt werden. Dadurch können wir zwischen den Fähigkeiten verschiedener Foundation-Modelle mit Zero- und Few-Shot-Lernfähigkeiten und spezialisierten, feinabgestimmten Modellen oder Solvern, die spezifische Probleme lösen können, wechseln. Das Framework erleichtert zudem die Erstellung und Bewertung von erklärbaren Berechnungsgraphen. Abschließend führen wir ein Qualitätsmaß und dessen empirischen Score zur Bewertung dieser Berechnungsgraphen ein und schlagen ein Benchmark vor, das verschiedene state-of-the-art LLMs über eine Reihe komplexer Workflows vergleicht. Wir bezeichnen den empirischen Score als „Vector Embedding for Relational Trajectory Evaluation through Cross-similarity“ oder kurz VERTEX-Score. Der Codebase des Frameworks und das Benchmark sind unten verlinkt.

Effiziente Exploration für große Sprachmodelle
Efficient Exploration for LLMs

Feb 1

ByVikranth Dwaracherla, Seyed Mohammad Asghari, Botao Hao, Benjamin Van Roy

Wir präsentieren Belege für einen erheblichen Nutzen effizienter Exploration bei der Sammlung menschlicher Rückmeldungen zur Verbesserung großer Sprachmodelle. In unseren Experimenten generiert ein Agent sequenziell Abfragen, während er ein Belohnungsmodell an die erhaltenen Rückmeldungen anpasst. Unser leistungsstärkster Agent generiert Abfragen mittels Double-Thompson-Sampling, wobei Unsicherheit durch ein epistemisches neuronales Netzwerk dargestellt wird. Unsere Ergebnisse zeigen, dass effiziente Exploration ein hohes Leistungsniveau mit deutlich weniger Abfragen ermöglicht. Darüber hinaus spielen sowohl die Schätzung von Unsicherheit als auch die Wahl des Explorationsschemas eine entscheidende Rolle.

Maschinelles Verlernen für Bild-zu-Bild-Generative Modelle
Machine Unlearning for Image-to-Image Generative Models

Feb 1

ByGuihong Li, Hsiang Hsu, Chun-Fu, Chen, Radu Marculescu

Machine Unlearning hat sich als neues Paradigma etabliert, um gezielt Datenproben aus einem gegebenen Modell zu vergessen, um strengen Vorschriften zu entsprechen. Bisher konzentrierten sich bestehende Methoden des Machine Unlearning jedoch hauptsächlich auf Klassifikationsmodelle, wodurch die Landschaft des Unlearning für generative Modelle weitgehend unerforscht blieb. Diese Arbeit schließt diese Lücke, indem sie einen vereinheitlichenden Rahmen für Machine Unlearning bei Bild-zu-Bild-generativen Modellen bietet. Innerhalb dieses Rahmens schlagen wir einen recheneffizienten Algorithmus vor, der durch eine rigorose theoretische Analyse untermauert ist und eine vernachlässigbare Leistungsverschlechterung bei den Behaltproben zeigt, während er die Informationen der Vergessproben effektiv entfernt. Empirische Studien an zwei groß angelegten Datensätzen, ImageNet-1K und Places-365, zeigen weiterhin, dass unser Algorithmus nicht auf die Verfügbarkeit der Behaltproben angewiesen ist, was zusätzlich der Datenaufbewahrungspolitik entspricht. Nach bestem Wissen ist diese Arbeit die erste, die systematische, theoretische und empirische Untersuchungen des Machine Unlearning speziell für Bild-zu-Bild-generative Modelle darstellt. Unser Code ist verfügbar unter https://github.com/jpmorganchase/l2l-generator-unlearning.

Transformation und Kombination von Belohnungen zur Ausrichtung großer Sprachmodelle
Transforming and Combining Rewards for Aligning Large Language Models

Feb 1

ByZihao Wang, Chirag Nagpal, Jonathan Berant, Jacob Eisenstein, Alex D'Amour, Sanmi Koyejo, Victor Veitch

Ein gängiger Ansatz, um Sprachmodelle an menschliche Präferenzen anzupassen, besteht darin, zunächst ein Belohnungsmodell aus Präferenzdaten zu lernen und dieses dann zu verwenden, um das Sprachmodell zu aktualisieren. Wir untersuchen zwei eng verwandte Probleme, die bei diesem Ansatz auftreten. Erstens: Jede monotone Transformation des Belohnungsmodells erhält die Präferenzrangfolge; gibt es eine Wahl, die „besser“ ist als andere? Zweitens möchten wir Sprachmodelle oft an mehrere Eigenschaften anpassen: Wie sollten wir mehrere Belohnungsmodelle kombinieren? Mithilfe einer probabilistischen Interpretation des Anpassungsverfahrens identifizieren wir eine natürliche Wahl für die Transformation (im häufigen Fall von) Belohnungen, die aus Bradley-Terry-Präferenzmodellen gelernt wurden. Diese abgeleitete Transformation hat zwei wichtige Eigenschaften. Erstens betont sie die Verbesserung von schlecht abschneidenden Ausgaben, anstatt solcher, die bereits gut abschneiden. Dies mildert sowohl Unteranpassung (bei der einige Eingaben nicht verbessert werden) als auch Belohnungsmanipulation (bei der das Modell lernt, Fehlspezifikationen des Belohnungsmodells auszunutzen). Zweitens ermöglicht sie eine prinzipielle Aggregation von Belohnungen, indem sie die Summation mit logischer Konjunktion verknüpft: Die Summe der transformierten Belohnungen entspricht der Wahrscheinlichkeit, dass die Ausgabe in allen gemessenen Eigenschaften „gut“ ist, in einem präzise definierten Sinn. Experimente, bei denen Sprachmodelle mithilfe von RLHF sowohl hilfreich als auch harmlos angepasst werden, zeigen erhebliche Verbesserungen gegenüber dem Baseline-Ansatz (ohne Transformation).

AToM: Amortisierte Text-zu-Mesh-Erzeugung mittels 2D-Diffusion
AToM: Amortized Text-to-Mesh using 2D Diffusion

Feb 1

ByGuocheng Qian, Junli Cao, Aliaksandr Siarohin, Yash Kant, Chaoyang Wang, Michael Vasilkovsky, Hsin-Ying Lee, Yuwei Fang, Ivan Skorokhodov, Peiye Zhuang, Igor Gilitschenski, Jian Ren, Bernard Ghanem, Kfir Aberman, Sergey Tulyakov

Wir stellen Amortized Text-to-Mesh (AToM) vor, ein vorwärtsgerichtetes Text-zu-Mesh-Framework, das gleichzeitig über mehrere Textprompts hinweg optimiert wird. Im Gegensatz zu bestehenden Text-zu-3D-Methoden, die oft zeitaufwändige Optimierungen pro Prompt erfordern und häufig Darstellungen außerhalb von polygonalen Meshes liefern, generiert AToM direkt hochwertige texturierte Meshes in weniger als einer Sekunde mit einer etwa 10-fachen Reduzierung der Trainingskosten und verallgemeinert auf unbekannte Prompts. Unser zentraler Ansatz ist eine neuartige Triplane-basierte Text-zu-Mesh-Architektur mit einer zweistufigen amortisierten Optimierungsstrategie, die stabiles Training gewährleistet und Skalierbarkeit ermöglicht. Durch umfangreiche Experimente mit verschiedenen Prompt-Benchmarks übertrifft AToM deutlich die besten amortisierten Ansätze mit einer über 4-fach höheren Genauigkeit (im DF415-Datensatz) und erzeugt unterscheidbarere und qualitativ hochwertigere 3D-Ergebnisse. AToM zeigt eine starke Generalisierbarkeit und bietet fein abgestufte 3D-Assets für unbekannte interpolierte Prompts ohne weitere Optimierung während der Inferenz, im Gegensatz zu pro-Prompt-Lösungen.

EE-Tuning: Eine wirtschaftliche und skalierbare Lösung für das Tuning von Early-Exit Large Language Models
EE-Tuning: An Economical yet Scalable Solution for Tuning Early-Exit Large Language Models

Feb 1

ByXuchen Pan, Yanxi Chen, Yaliang Li, Bolin Ding, Jingren Zhou

Diese Arbeit stellt EE-Tuning vor, eine leichte und kosteneffiziente Lösung für das Training/Feintuning von Large Language Models (LLMs) mit Early-Exit-Mechanismus. Im Gegensatz zum gängigen Ansatz des Vollparameter-Pre-Trainings erweitert EE-Tuning jedes vortrainierte (und möglicherweise feinabgestimmte) Standard-LLM durch zusätzliche Early-Exit-Schichten, die auf parameter-effiziente Weise angepasst werden. Dies erfordert deutlich weniger Rechenressourcen und Trainingsdaten. Unsere Implementierung von EE-Tuning erreicht eine herausragende Trainingseffizienz durch umfangreiche Leistungsoptimierungen sowie Skalierbarkeit aufgrund der vollständigen Kompatibilität mit 3D-Parallelität. Die Ergebnisse systematischer Experimente bestätigen die Wirksamkeit von EE-Tuning und zeigen, dass eine effektive Inferenz von Early-Exit-LLMs mit begrenztem Trainingsbudget erreicht werden kann. In der Hoffnung, Early-Exit-LLMs der Community zugänglich zu machen, veröffentlichen wir den Quellcode unserer EE-Tuning-Implementierung unter https://github.com/pan-x-c/EE-LLM.

Dolma: Ein offener Korpus mit drei Billionen Tokens für die Forschung zur Vortrainierung von Sprachmodellen
Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research

Jan 31