HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

9 papers found

Einfache und skalierbare Strategien zur kontinuierlichen Vortrainierung großer Sprachmodelle
Simple and Scalable Strategies to Continually Pre-train Large Language Models

Mar 13

ByAdam Ibrahim, Benjamin Thérien, Kshitij Gupta, Mats L. Richter, Quentin Anthony, Timothée Lesort, Eugene Belilovsky, Irina Rish

Große Sprachmodelle (LLMs) werden routinemäßig auf Milliarden von Tokens vorab trainiert, nur um den Prozess von vorne zu beginnen, sobald neue Daten verfügbar sind. Eine viel effizientere Lösung besteht darin, diese Modelle kontinuierlich vorzutrainieren, was im Vergleich zum erneuten Training erhebliche Rechenressourcen einspart. Die Verteilungsverschiebung, die durch neue Daten verursacht wird, führt jedoch in der Regel zu einer verschlechterten Leistung auf vorherigen Daten oder zu einer schlechten Anpassung an die neuen Daten. In dieser Arbeit zeigen wir, dass eine einfache und skalierbare Kombination aus dem Anpassen der Lernrate (LR), dem erneuten Verringern der LR und dem Wiederholen früherer Daten ausreicht, um die Leistung des vollständigen Neutrainierens von Grund auf auf allen verfügbaren Daten zu erreichen, gemessen an endgültigen Verlusten und Bewertungsbenchmarks für Sprachmodelle (LM). Speziell zeigen wir dies für eine schwache, aber realistische Verteilungsverschiebung zwischen zwei häufig verwendeten LLM-Vortrainingsdatensätzen (Englisch-nach-Englisch) und eine stärkere Verteilungsverschiebung (Englisch-nach-Deutsch) im Maßstab des 405-Millionen-Parameter-Modells mit großen Datensatzgrößen (Hunderte von Milliarden Tokens). Bei der Auswahl der schwachen, aber realistischen Verschiebung für Experimente im größeren Maßstab stellen wir auch fest, dass unsere kontinuierlichen Lernstrategien die Neutrainierungs-Baseline für ein 10-Milliarden-Parameter-LLM erreichen. Unsere Ergebnisse zeigen, dass LLMs erfolgreich über einfache und skalierbare kontinuierliche Lernstrategien aktualisiert werden können, wobei nur ein Bruchteil der Rechenressourcen verwendet wird, um die Neutrainierungs-Baseline zu erreichen. Schließlich schlagen wir, inspiriert von früheren Arbeiten, Alternativen zum kosinusbasierten Lernratenplan vor, die helfen, das Vergessen, das durch das Anpassen der LR verursacht wird, zu umgehen und nicht an ein festes Token-Budget gebunden sind.

Gemma: Offene Modelle basierend auf Gemini Forschung und Technologie
Gemma: Open Models Based on Gemini Research and Technology

Mar 13

ByGemma Team, Thomas Mesnard, Cassidy Hardin, Robert Dadashi, Surya Bhupatiraju, Shreya Pathak, Laurent Sifre, Morgane Rivière, Mihir Sanjay Kale, Juliette Love, Pouya Tafti, Léonard Hussenot, Aakanksha Chowdhery, Adam Roberts, Aditya Barua, Alex Botev, Alex Castro-Ros, Ambrose Slone, Amélie Héliou, Andrea Tacchetti, Anna Bulanova, Antonia Paterson, Beth Tsai, Bobak Shahriari, Charline Le Lan, Christopher A. Choquette-Choo, Clément Crepy, Daniel Cer, Daphne Ippolito, David Reid, Elena Buchatskaya, Eric Ni, Eric Noland, Geng Yan, George Tucker, George-Christian Muraru, Grigory Rozhdestvenskiy, Henryk Michalewski, Ian Tenney, Ivan Grishchenko, Jacob Austin, James Keeling, Jane Labanowski, Jean-Baptiste Lespiau, Jeff Stanway, Jenny Brennan, Jeremy Chen, Johan Ferret, Justin Chiu, Justin Mao-Jones, Katherine Lee, Kathy Yu, Katie Millican, Lars Lowe Sjoesund, Lisa Lee, Lucas Dixon, Machel Reid, Maciej Mikuła, Mateo Wirth, Michael Sharman, Nikolai Chinaev, Nithum Thain, Olivier Bachem, Oscar Chang, Oscar Wahltinez, Paige Bailey, Paul Michel, Petko Yotov, Pier Giuseppe Sessa, Rahma Chaabouni, Ramona Comanescu, Reena Jana, Rohan Anil, Ross McIlroy, Ruibo Liu, Ryan Mullins, Samuel L Smith, Sebastian Borgeaud, Sertan Girgin, Sholto Douglas, Shree Pandya, Siamak Shakeri, Soham De, Ted Klimenko, Tom Hennigan, Vlad Feinberg, Wojciech Stokowiec, Yu-hui Chen, Zafarali Ahmed, Zhitao Gong, Tris Warkentin, Ludovic Peran, Minh Giang, Clément Farabet, Oriol Vinyals, Jeff Dean, Koray Kavukcuoglu, Demis Hassabis, Zoubin Ghahramani, Douglas Eck, Joelle Barral, Fernando Pereira, Eli Collins, Armand Joulin, Noah Fiedel, Evan Senter, Alek Andreev, Kathleen Kenealy

Diese Arbeit stellt Gemma vor, eine Familie von leichten, hochmodernen Open-Modellen, die auf der Forschung und Technologie basieren, die zur Erstellung der Gemini-Modelle verwendet wurde. Gemma-Modelle zeigen starke Leistungen in akademischen Benchmarks für Sprachverständnis, Schlussfolgerung und Sicherheit. Wir veröffentlichen zwei Größen von Modellen (2 Milliarden und 7 Milliarden Parameter) und stellen sowohl vorab trainierte als auch feinabgestimmte Checkpoints zur Verfügung. Gemma übertrifft ähnlich große Open-Modelle in 11 von 18 textbasierten Aufgaben, und wir präsentieren umfassende Bewertungen der Sicherheits- und Verantwortungsaspekte der Modelle sowie eine ausführliche Beschreibung der Modellentwicklung. Wir sind der Ansicht, dass die verantwortungsbewusste Veröffentlichung von LLMs entscheidend ist, um die Sicherheit von Spitzenmodellen zu verbessern und die nächste Welle von LLM-Innovationen zu ermöglichen.

VLOGGER: Multimodale Diffusion für die Synthese von verkörperten Avataren
VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis

Mar 13

ByEnric Corona, Andrei Zanfir, Eduard Gabriel Bazavan, Nikos Kolotouros, Thiemo Alldieck, Cristian Sminchisescu

Wir schlagen VLOGGER vor, eine Methode zur audiogetriebenen Generierung von menschlichen Videos aus einem einzigen Eingabebild einer Person, die auf dem Erfolg aktueller generativer Diffusionsmodelle aufbaut. Unsere Methode besteht aus 1) einem stochastischen Human-zu-3D-Bewegungs-Diffusionsmodell und 2) einer neuartigen diffusionsbasierten Architektur, die Text-zu-Bild-Modelle mit sowohl räumlichen als auch zeitlichen Steuerelementen erweitert. Dies unterstützt die Generierung von qualitativ hochwertigen Videos variabler Länge, die einfach über hochrangige Repräsentationen von menschlichen Gesichtern und Körpern steuerbar sind. Im Gegensatz zu früheren Arbeiten erfordert unsere Methode kein Training für jede Person, ist nicht auf Gesichtserkennung und Zuschneiden angewiesen, generiert das vollständige Bild (nicht nur das Gesicht oder die Lippen) und berücksichtigt ein breites Spektrum von Szenarien (z. B. sichtbarer Rumpf oder verschiedene Identitäten), die entscheidend sind, um Menschen korrekt zu synthetisieren, die kommunizieren. Wir kuratieren auch MENTOR, einen neuen und vielfältigen Datensatz mit 3D-Posen- und Ausdrucksannotationen, der eine Größenordnung größer ist als frühere (800.000 Identitäten) und mit dynamischen Gesten, auf denen wir unsere Haupttechnikbeiträge trainieren und abtasten. VLOGGER übertrifft state-of-the-art Methoden in drei öffentlichen Benchmarks hinsichtlich Bildqualität, Identitätserhaltung und zeitlicher Konsistenz, während es auch Oberkörpergesten generiert. Wir analysieren die Leistung von VLOGGER in Bezug auf mehrere Diversitätsmetriken und zeigen, dass unsere architektonischen Entscheidungen und die Verwendung von MENTOR dazu beitragen, ein faires und unvoreingenommenes Modell im großen Maßstab zu trainieren. Schließlich zeigen wir Anwendungen in der Videobearbeitung und Personalisierung.

SOTOPIA-π: Interaktives Lernen sozial intelligenter sprachlicher Agenten
SOTOPIA-π: Interactive Learning of Socially Intelligent Language Agents

Mar 13

ByRuiyi Wang, Haofei Yu, Wenxin Zhang, Zhengyang Qi, Maarten Sap, Graham Neubig, Yonatan Bisk, Hao Zhu

Menschen erlernen soziale Fähigkeiten sowohl durch Nachahmung als auch durch soziale Interaktion. Dieser soziale Lernprozess wird von der bestehenden Forschung zum Aufbau von Sprachagenten weitgehend vernachlässigt. Motiviert durch diese Lücke schlagen wir eine interaktive Lernmethode namens SOTOPIA-pi vor, um die soziale Intelligenz von Sprachagenten zu verbessern. Diese Methode nutzt Verhaltensklonung und Selbstverstärkungstraining auf gefilterten sozialen Interaktionsdaten gemäß den Bewertungen eines großen Sprachmodells (LLM). Wir zeigen, dass unsere Trainingsmethode einem 7B LLM ermöglicht, die Fähigkeit zur Erreichung sozialer Ziele eines Expertenmodells (Agent auf Basis von GPT-4) zu erreichen, während die Sicherheit von Sprachagenten verbessert wird und die allgemeine Frage-Antwort-Fähigkeit auf dem MMLU-Benchmark beibehalten wird. Wir stellen auch fest, dass dieses Trainingsparadigma einige Schwierigkeiten bei der LLM-basierten Bewertung der sozialen Intelligenz aufdeckt: LLM-basierte Evaluatoren überschätzen die Fähigkeiten der Sprachagenten, die speziell für soziale Interaktion trainiert wurden.

Zur gesellschaftlichen Auswirkung offener Grundlagenmodelle
On the Societal Impact of Open Foundation Models

Feb 27

BySayash Kapoor, Rishi Bommasani, Kevin Klyman, Shayne Longpre, Ashwin Ramaswami, Peter Cihon, Aspen Hopkins, Kevin Bankston, Stella Biderman, Miranda Bogen, Rumman Chowdhury, Alex Engler, Peter Henderson, Yacine Jernite, Seth Lazar, Stefano Maffulli, Alondra Nelson, Joelle Pineau, Aviya Skowron, Dawn Song, Victor Storchan, Daniel Zhang, Daniel E. Ho, Percy Liang, Arvind Narayanan

Grundlagenmodelle sind leistungsstarke Technologien: Wie sie öffentlich freigegeben werden, prägt direkt ihre gesellschaftliche Auswirkung. In diesem Positionspapier konzentrieren wir uns auf offene Grundlagenmodelle, die hier als solche mit weit verbreiteten Modellgewichten definiert sind (z. B. Llama 2, Stable Diffusion XL). Wir identifizieren fünf charakteristische Eigenschaften (z. B. höhere Anpassungsfähigkeit, schlechte Überwachung) offener Grundlagenmodelle, die sowohl zu ihren Vorteilen als auch Risiken führen. Offene Grundlagenmodelle bieten erhebliche Vorteile, jedoch mit einigen Einschränkungen, die Innovation, Wettbewerb, die Verteilung von Entscheidungsbefugnissen und Transparenz umfassen. Um ihre Missbrauchsrisiken zu verstehen, entwerfen wir einen Risikobewertungsrahmen zur Analyse ihres marginalen Risikos. Über mehrere Missbrauchsbereiche (z. B. Cyberangriffe, Biowaffen) hinweg stellen wir fest, dass aktuelle Forschung unzureichend ist, um das marginale Risiko offener Grundlagenmodelle im Vergleich zu bereits bestehenden Technologien effektiv zu charakterisieren. Der Rahmen hilft zu erklären, warum das marginale Risiko in einigen Fällen gering ist, klärt Meinungsverschiedenheiten über Missbrauchsrisiken, indem er aufzeigt, dass frühere Arbeiten sich auf verschiedene Teilmengen des Rahmens mit unterschiedlichen Annahmen konzentriert haben, und skizziert einen Weg für konstruktivere Debatten. Insgesamt trägt unsere Arbeit dazu bei, eine fundiertere Bewertung der gesellschaftlichen Auswirkungen offener Grundlagenmodelle zu unterstützen, indem sie darlegt, welche Forschung erforderlich ist, um ihre theoretischen Vorteile und Risiken empirisch zu validieren.

Sprachmodelle skalieren zuverlässig mit Überanpassung und bei nachgelagerten Aufgaben.
Language models scale reliably with over-training and on downstream tasks

Mar 13

BySamir Yitzhak Gadre, Georgios Smyrnis, Vaishaal Shankar, Suchin Gururangan, Mitchell Wortsman, Rulin Shao, Jean Mercat, Alex Fang, Jeffrey Li, Sedrick Keh, Rui Xin, Marianna Nezhurina, Igor Vasiljevic, Jenia Jitsev, Alexandros G. Dimakis, Gabriel Ilharco, Shuran Song, Thomas Kollar, Yair Carmon, Achal Dave, Reinhard Heckel, Niklas Muennighoff, Ludwig Schmidt

Skalierungsgesetze sind nützliche Leitfaden zur Entwicklung von Sprachmodellen, aber es bestehen immer noch Lücken zwischen aktuellen Skalierungsstudien und der letztendlichen Schulung und Bewertung von Sprachmodellen. Beispielsweise wird die Skalierung in der rechenoptimalen Trainingssituation (d. h. "Chinchilla-optimal" Situation) üblicherweise untersucht; jedoch werden Modelle in der Praxis oft übertrainiert, um Inferenzkosten zu reduzieren. Darüber hinaus sagen Skalierungsgesetze hauptsächlich den Verlust bei der Vorhersage des nächsten Tokens voraus, aber letztendlich werden Modelle basierend auf der Leistung bei nachgelagerten Aufgaben verglichen. In diesem Artikel behandeln wir beide Mängel. Dazu erstellen wir einen Testdatensatz von 104 Modellen mit 0,011 Mrd. bis 6,9 Mrd. Parametern, die mit verschiedenen Tokenmengen auf drei Datensätzen trainiert wurden. Zunächst untersuchen wir die Skalierung im übertrainierten Bereich. Wir passen Skalierungsgesetze an, die sowohl die Anzahl der Modellparameter als auch das Verhältnis von Trainings-Token zu Parametern extrapolieren. Dies ermöglicht uns die Vorhersage des Validierungsverlusts eines Laufs mit 1,4 Mrd. Parametern und 900 Mrd. Token (d. h. 32-mal übertrainiert) und eines Laufs mit 6,9 Mrd. Parametern und 138 Mrd. Token - jeweils aus Experimenten, die 300-mal weniger Rechenleistung benötigen. Zweitens bringen wir die Perplexität eines Sprachmodells mit seiner Leistung bei nachgelagerten Aufgaben über ein Potenzgesetz in Verbindung. Wir verwenden dieses Gesetz, um den Top-1 Fehler über nachgelagerte Aufgaben für die beiden zuvor genannten Modelle vorherzusagen, wobei Experimente verwendet werden, die 20-mal weniger Rechenleistung benötigen. Unsere Experimente sind unter https://github.com/mlfoundations/scaling verfügbar.

Skalierung der Modellierung dynamischer Interaktionen zwischen Menschen und Szenen
Scaling Up Dynamic Human-Scene Interaction Modeling

Mar 13

ByNan Jiang, Zhiyuan Zhang, Hongjie Li, Xiaoxuan Ma, Zan Wang, Yixin Chen, Tengyu Liu, Yixin Zhu, Siyuan Huang

Um den Herausforderungen der Datenknappheit und der fortgeschrittenen Bewegungssynthese bei der Modellierung der Interaktion zwischen Mensch und Szene zu begegnen, stellen wir den TRUMANS-Datensatz zusammen mit einer neuartigen HSI-Bewegungssynthesemethode vor. TRUMANS gilt als der umfassendste motion-capture HSI-Datensatz, der derzeit verfügbar ist, und umfasst über 15 Stunden menschlicher Interaktionen in 100 Innenräumen. Er erfasst detailliert Ganzkörperbewegungen von Menschen und die Dynamik von Objekten auf Teilebene, wobei der Realismus des Kontakts im Fokus steht. Dieser Datensatz wird weiter ausgebaut, indem physische Umgebungen in exakte virtuelle Modelle umgewandelt und umfangreiche Augmentationen sowohl für das Aussehen als auch die Bewegung von Menschen und Objekten angewendet werden, wobei die Interaktionsfähigkeit erhalten bleibt. Unter Verwendung von TRUMANS entwickeln wir ein diffusionsbasiertes autoregressives Modell, das effizient HSI-Sequenzen beliebiger Länge generiert, unter Berücksichtigung des Szenenkontexts und der beabsichtigten Handlungen. In Experimenten zeigt unser Ansatz eine bemerkenswerte Generalisierbarkeit ohne Trainingsdaten auf einer Reihe von 3D-Szenendatensätzen (z. B. PROX, Replica, ScanNet, ScanNet++), wobei Bewegungen erzeugt werden, die Original motion-capture Sequenzen eng nachahmen, wie durch quantitative Experimente und Studien mit menschlichen Probanden bestätigt wird.

Folge-deinem-Klick: Animierung von Bildern in offenen Bereichen durch regionale Bildanimation mittels kurzer Anweisungen
Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts

Mar 13

ByYue Ma, Yingqing He, Hongfa Wang, Andong Wang, Chenyang Qi, Chengfei Cai, Xiu Li, Zhifeng Li, Heung-Yeung Shum, Wei Liu, Qifeng Chen

Trotz der jüngsten Fortschritte bei der Generierung von Bildern zu Videos sind eine bessere Steuerbarkeit und lokale Animation weniger erforscht. Die meisten bestehenden Methoden zur Bild-zu-Video-Umwandlung sind nicht lokal bewusst und neigen dazu, die gesamte Szene zu bewegen. Allerdings müssen menschliche Künstler möglicherweise die Bewegung verschiedener Objekte oder Regionen steuern. Darüber hinaus erfordern aktuelle Bild-zu-Video-Methoden von den Benutzern nicht nur die Beschreibung der Zielbewegung, sondern auch redundante detaillierte Beschreibungen der Bildinhalte. Diese beiden Probleme behindern die praktische Nutzung der aktuellen Bild-zu-Video-Tools. In diesem Artikel schlagen wir ein praktisches Framework namens Follow-Your-Click vor, um Bildanimation mit einem einfachen Benutzerklick (zur Spezifizierung, was bewegt werden soll) und einem kurzen Bewegungsanstoß (zur Spezifizierung, wie bewegt werden soll) zu erreichen. Technisch gesehen schlagen wir die Strategie der Maskierung des ersten Rahmens vor, die die Qualität der Videoerzeugung signifikant verbessert, sowie ein Bewegungs-augmentiertes Modul, das mit einem Datensatz kurzer Bewegungsanreize ausgestattet ist, um die Fähigkeiten unseres Modells zur Verfolgung kurzer Anweisungen zu verbessern. Um die Bewegungsgeschwindigkeit weiter zu steuern, schlagen wir eine flussbasierte Steuerung der Bewegungsgröße vor, um die Geschwindigkeit der Zielsbewegung genauer zu steuern. Unser Framework bietet eine einfachere, aber präzisere Benutzersteuerung und eine bessere Generierungsleistung als frühere Methoden. Umfangreiche Experimente im Vergleich zu 7 Baselines, einschließlich kommerzieller Tools und Forschungsmethoden auf 8 Metriken, legen die Überlegenheit unseres Ansatzes nahe. Projektseite: https://follow-your-click.github.io/

GaussianImage: 1000 FPS Bildrepräsentation und -kompression durch 2D Gaussian Splatting
GaussianImage: 1000 FPS Image Representation and Compression by 2D Gaussian Splatting

Mar 13

ByXinjie Zhang, Xingtong Ge, Tongda Xu, Dailan He, Yan Wang, Hongwei Qin, Guo Lu, Jing Geng, Jun Zhang

Implizite neuronale Repräsentationen (INRs) haben kürzlich große Erfolge bei der Bildrepräsentation und -kompression erzielt, indem sie eine hohe visuelle Qualität und schnelle Rendergeschwindigkeiten von 10-1000 FPS bieten, vorausgesetzt ausreichende GPU-Ressourcen stehen zur Verfügung. Diese Anforderung behindert jedoch häufig ihre Verwendung auf Low-End-Geräten mit begrenztem Speicher. Als Antwort schlagen wir ein bahnbrechendes Paradigma der Bildrepräsentation und -kompression durch 2D-Gauß-Splatting vor, das als GaussianImage bezeichnet wird. Wir führen zunächst 2D-Gauß ein, um das Bild zu repräsentieren, wobei jeder Gauß 8 Parameter einschließlich Position, Kovarianz und Farbe hat. Anschließend enthüllen wir einen neuartigen Renderalgorithmus basierend auf akkumulierter Summation. Bemerkenswert ist, dass unsere Methode mit einer um mindestens das 3-fache geringeren GPU-Speicherauslastung und einer um das 5-fache schnellere Anpassungszeit nicht nur INRs (z. B. WIRE, I-NGP) in der Repräsentationsleistung Konkurrenz macht, sondern auch eine schnellere Rendergeschwindigkeit von 1500-2000 FPS unabhängig von der Parametergröße bietet. Darüber hinaus integrieren wir eine vorhandene Vektorquantisierungstechnik, um einen Bildcodec zu erstellen. Experimentelle Ergebnisse zeigen, dass unser Codec eine Rate-Verzerrungsleistung erreicht, die mit kompressionsbasierten INRs wie COIN und COIN++ vergleichbar ist, während er Dekodierungsgeschwindigkeiten von etwa 1000 FPS ermöglicht. Zusätzlich zeigt ein vorläufiger Proof of Concept, dass unser Codec COIN und COIN++ in der Leistung übertrifft, wenn teilweise Bits-Back-Codierung verwendet wird.

Gemma: Offene Modelle basierend auf Gemini Forschung und Technologie
Gemma: Open Models Based on Gemini Research and Technology

Mar 13