Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle (LLMs) werden routinemäßig auf Milliarden von Tokens vorab trainiert, nur um den Prozess von vorne zu beginnen, sobald neue Daten verfügbar sind. Eine viel effizientere Lösung besteht darin, diese Modelle kontinuierlich vorzutrainieren, was im Vergleich zum erneuten Training erhebliche Rechenressourcen einspart. Die Verteilungsverschiebung, die durch neue Daten verursacht wird, führt jedoch in der Regel zu einer verschlechterten Leistung auf vorherigen Daten oder zu einer schlechten Anpassung an die neuen Daten. In dieser Arbeit zeigen wir, dass eine einfache und skalierbare Kombination aus dem Anpassen der Lernrate (LR), dem erneuten Verringern der LR und dem Wiederholen früherer Daten ausreicht, um die Leistung des vollständigen Neutrainierens von Grund auf auf allen verfügbaren Daten zu erreichen, gemessen an endgültigen Verlusten und Bewertungsbenchmarks für Sprachmodelle (LM). Speziell zeigen wir dies für eine schwache, aber realistische Verteilungsverschiebung zwischen zwei häufig verwendeten LLM-Vortrainingsdatensätzen (Englisch-nach-Englisch) und eine stärkere Verteilungsverschiebung (Englisch-nach-Deutsch) im Maßstab des 405-Millionen-Parameter-Modells mit großen Datensatzgrößen (Hunderte von Milliarden Tokens). Bei der Auswahl der schwachen, aber realistischen Verschiebung für Experimente im größeren Maßstab stellen wir auch fest, dass unsere kontinuierlichen Lernstrategien die Neutrainierungs-Baseline für ein 10-Milliarden-Parameter-LLM erreichen. Unsere Ergebnisse zeigen, dass LLMs erfolgreich über einfache und skalierbare kontinuierliche Lernstrategien aktualisiert werden können, wobei nur ein Bruchteil der Rechenressourcen verwendet wird, um die Neutrainierungs-Baseline zu erreichen. Schließlich schlagen wir, inspiriert von früheren Arbeiten, Alternativen zum kosinusbasierten Lernratenplan vor, die helfen, das Vergessen, das durch das Anpassen der LR verursacht wird, zu umgehen und nicht an ein festes Token-Budget gebunden sind.
Diese Arbeit stellt Gemma vor, eine Familie von leichten, hochmodernen Open-Modellen, die auf der Forschung und Technologie basieren, die zur Erstellung der Gemini-Modelle verwendet wurde. Gemma-Modelle zeigen starke Leistungen in akademischen Benchmarks für Sprachverständnis, Schlussfolgerung und Sicherheit. Wir veröffentlichen zwei Größen von Modellen (2 Milliarden und 7 Milliarden Parameter) und stellen sowohl vorab trainierte als auch feinabgestimmte Checkpoints zur Verfügung. Gemma übertrifft ähnlich große Open-Modelle in 11 von 18 textbasierten Aufgaben, und wir präsentieren umfassende Bewertungen der Sicherheits- und Verantwortungsaspekte der Modelle sowie eine ausführliche Beschreibung der Modellentwicklung. Wir sind der Ansicht, dass die verantwortungsbewusste Veröffentlichung von LLMs entscheidend ist, um die Sicherheit von Spitzenmodellen zu verbessern und die nächste Welle von LLM-Innovationen zu ermöglichen.
Wir schlagen VLOGGER vor, eine Methode zur audiogetriebenen Generierung von menschlichen Videos aus einem einzigen Eingabebild einer Person, die auf dem Erfolg aktueller generativer Diffusionsmodelle aufbaut. Unsere Methode besteht aus 1) einem stochastischen Human-zu-3D-Bewegungs-Diffusionsmodell und 2) einer neuartigen diffusionsbasierten Architektur, die Text-zu-Bild-Modelle mit sowohl räumlichen als auch zeitlichen Steuerelementen erweitert. Dies unterstützt die Generierung von qualitativ hochwertigen Videos variabler Länge, die einfach über hochrangige Repräsentationen von menschlichen Gesichtern und Körpern steuerbar sind. Im Gegensatz zu früheren Arbeiten erfordert unsere Methode kein Training für jede Person, ist nicht auf Gesichtserkennung und Zuschneiden angewiesen, generiert das vollständige Bild (nicht nur das Gesicht oder die Lippen) und berücksichtigt ein breites Spektrum von Szenarien (z. B. sichtbarer Rumpf oder verschiedene Identitäten), die entscheidend sind, um Menschen korrekt zu synthetisieren, die kommunizieren. Wir kuratieren auch MENTOR, einen neuen und vielfältigen Datensatz mit 3D-Posen- und Ausdrucksannotationen, der eine Größenordnung größer ist als frühere (800.000 Identitäten) und mit dynamischen Gesten, auf denen wir unsere Haupttechnikbeiträge trainieren und abtasten. VLOGGER übertrifft state-of-the-art Methoden in drei öffentlichen Benchmarks hinsichtlich Bildqualität, Identitätserhaltung und zeitlicher Konsistenz, während es auch Oberkörpergesten generiert. Wir analysieren die Leistung von VLOGGER in Bezug auf mehrere Diversitätsmetriken und zeigen, dass unsere architektonischen Entscheidungen und die Verwendung von MENTOR dazu beitragen, ein faires und unvoreingenommenes Modell im großen Maßstab zu trainieren. Schließlich zeigen wir Anwendungen in der Videobearbeitung und Personalisierung.
Menschen erlernen soziale Fähigkeiten sowohl durch Nachahmung als auch durch soziale Interaktion. Dieser soziale Lernprozess wird von der bestehenden Forschung zum Aufbau von Sprachagenten weitgehend vernachlässigt. Motiviert durch diese Lücke schlagen wir eine interaktive Lernmethode namens SOTOPIA-pi vor, um die soziale Intelligenz von Sprachagenten zu verbessern. Diese Methode nutzt Verhaltensklonung und Selbstverstärkungstraining auf gefilterten sozialen Interaktionsdaten gemäß den Bewertungen eines großen Sprachmodells (LLM). Wir zeigen, dass unsere Trainingsmethode einem 7B LLM ermöglicht, die Fähigkeit zur Erreichung sozialer Ziele eines Expertenmodells (Agent auf Basis von GPT-4) zu erreichen, während die Sicherheit von Sprachagenten verbessert wird und die allgemeine Frage-Antwort-Fähigkeit auf dem MMLU-Benchmark beibehalten wird. Wir stellen auch fest, dass dieses Trainingsparadigma einige Schwierigkeiten bei der LLM-basierten Bewertung der sozialen Intelligenz aufdeckt: LLM-basierte Evaluatoren überschätzen die Fähigkeiten der Sprachagenten, die speziell für soziale Interaktion trainiert wurden.
Grundlagenmodelle sind leistungsstarke Technologien: Wie sie öffentlich freigegeben werden, prägt direkt ihre gesellschaftliche Auswirkung. In diesem Positionspapier konzentrieren wir uns auf offene Grundlagenmodelle, die hier als solche mit weit verbreiteten Modellgewichten definiert sind (z. B. Llama 2, Stable Diffusion XL). Wir identifizieren fünf charakteristische Eigenschaften (z. B. höhere Anpassungsfähigkeit, schlechte Überwachung) offener Grundlagenmodelle, die sowohl zu ihren Vorteilen als auch Risiken führen. Offene Grundlagenmodelle bieten erhebliche Vorteile, jedoch mit einigen Einschränkungen, die Innovation, Wettbewerb, die Verteilung von Entscheidungsbefugnissen und Transparenz umfassen. Um ihre Missbrauchsrisiken zu verstehen, entwerfen wir einen Risikobewertungsrahmen zur Analyse ihres marginalen Risikos. Über mehrere Missbrauchsbereiche (z. B. Cyberangriffe, Biowaffen) hinweg stellen wir fest, dass aktuelle Forschung unzureichend ist, um das marginale Risiko offener Grundlagenmodelle im Vergleich zu bereits bestehenden Technologien effektiv zu charakterisieren. Der Rahmen hilft zu erklären, warum das marginale Risiko in einigen Fällen gering ist, klärt Meinungsverschiedenheiten über Missbrauchsrisiken, indem er aufzeigt, dass frühere Arbeiten sich auf verschiedene Teilmengen des Rahmens mit unterschiedlichen Annahmen konzentriert haben, und skizziert einen Weg für konstruktivere Debatten. Insgesamt trägt unsere Arbeit dazu bei, eine fundiertere Bewertung der gesellschaftlichen Auswirkungen offener Grundlagenmodelle zu unterstützen, indem sie darlegt, welche Forschung erforderlich ist, um ihre theoretischen Vorteile und Risiken empirisch zu validieren.
Um den Herausforderungen der Datenknappheit und der fortgeschrittenen Bewegungssynthese bei der Modellierung der Interaktion zwischen Mensch und Szene zu begegnen, stellen wir den TRUMANS-Datensatz zusammen mit einer neuartigen HSI-Bewegungssynthesemethode vor. TRUMANS gilt als der umfassendste motion-capture HSI-Datensatz, der derzeit verfügbar ist, und umfasst über 15 Stunden menschlicher Interaktionen in 100 Innenräumen. Er erfasst detailliert Ganzkörperbewegungen von Menschen und die Dynamik von Objekten auf Teilebene, wobei der Realismus des Kontakts im Fokus steht. Dieser Datensatz wird weiter ausgebaut, indem physische Umgebungen in exakte virtuelle Modelle umgewandelt und umfangreiche Augmentationen sowohl für das Aussehen als auch die Bewegung von Menschen und Objekten angewendet werden, wobei die Interaktionsfähigkeit erhalten bleibt. Unter Verwendung von TRUMANS entwickeln wir ein diffusionsbasiertes autoregressives Modell, das effizient HSI-Sequenzen beliebiger Länge generiert, unter Berücksichtigung des Szenenkontexts und der beabsichtigten Handlungen. In Experimenten zeigt unser Ansatz eine bemerkenswerte Generalisierbarkeit ohne Trainingsdaten auf einer Reihe von 3D-Szenendatensätzen (z. B. PROX, Replica, ScanNet, ScanNet++), wobei Bewegungen erzeugt werden, die Original motion-capture Sequenzen eng nachahmen, wie durch quantitative Experimente und Studien mit menschlichen Probanden bestätigt wird.
Skalierungsgesetze sind nützliche Leitfaden zur Entwicklung von Sprachmodellen, aber es bestehen immer noch Lücken zwischen aktuellen Skalierungsstudien und der letztendlichen Schulung und Bewertung von Sprachmodellen. Beispielsweise wird die Skalierung in der rechenoptimalen Trainingssituation (d. h. "Chinchilla-optimal" Situation) üblicherweise untersucht; jedoch werden Modelle in der Praxis oft übertrainiert, um Inferenzkosten zu reduzieren. Darüber hinaus sagen Skalierungsgesetze hauptsächlich den Verlust bei der Vorhersage des nächsten Tokens voraus, aber letztendlich werden Modelle basierend auf der Leistung bei nachgelagerten Aufgaben verglichen. In diesem Artikel behandeln wir beide Mängel. Dazu erstellen wir einen Testdatensatz von 104 Modellen mit 0,011 Mrd. bis 6,9 Mrd. Parametern, die mit verschiedenen Tokenmengen auf drei Datensätzen trainiert wurden. Zunächst untersuchen wir die Skalierung im übertrainierten Bereich. Wir passen Skalierungsgesetze an, die sowohl die Anzahl der Modellparameter als auch das Verhältnis von Trainings-Token zu Parametern extrapolieren. Dies ermöglicht uns die Vorhersage des Validierungsverlusts eines Laufs mit 1,4 Mrd. Parametern und 900 Mrd. Token (d. h. 32-mal übertrainiert) und eines Laufs mit 6,9 Mrd. Parametern und 138 Mrd. Token - jeweils aus Experimenten, die 300-mal weniger Rechenleistung benötigen. Zweitens bringen wir die Perplexität eines Sprachmodells mit seiner Leistung bei nachgelagerten Aufgaben über ein Potenzgesetz in Verbindung. Wir verwenden dieses Gesetz, um den Top-1 Fehler über nachgelagerte Aufgaben für die beiden zuvor genannten Modelle vorherzusagen, wobei Experimente verwendet werden, die 20-mal weniger Rechenleistung benötigen. Unsere Experimente sind unter https://github.com/mlfoundations/scaling verfügbar.
Trotz der jüngsten Fortschritte bei der Generierung von Bildern zu Videos sind eine bessere Steuerbarkeit und lokale Animation weniger erforscht. Die meisten bestehenden Methoden zur Bild-zu-Video-Umwandlung sind nicht lokal bewusst und neigen dazu, die gesamte Szene zu bewegen. Allerdings müssen menschliche Künstler möglicherweise die Bewegung verschiedener Objekte oder Regionen steuern. Darüber hinaus erfordern aktuelle Bild-zu-Video-Methoden von den Benutzern nicht nur die Beschreibung der Zielbewegung, sondern auch redundante detaillierte Beschreibungen der Bildinhalte. Diese beiden Probleme behindern die praktische Nutzung der aktuellen Bild-zu-Video-Tools. In diesem Artikel schlagen wir ein praktisches Framework namens Follow-Your-Click vor, um Bildanimation mit einem einfachen Benutzerklick (zur Spezifizierung, was bewegt werden soll) und einem kurzen Bewegungsanstoß (zur Spezifizierung, wie bewegt werden soll) zu erreichen. Technisch gesehen schlagen wir die Strategie der Maskierung des ersten Rahmens vor, die die Qualität der Videoerzeugung signifikant verbessert, sowie ein Bewegungs-augmentiertes Modul, das mit einem Datensatz kurzer Bewegungsanreize ausgestattet ist, um die Fähigkeiten unseres Modells zur Verfolgung kurzer Anweisungen zu verbessern. Um die Bewegungsgeschwindigkeit weiter zu steuern, schlagen wir eine flussbasierte Steuerung der Bewegungsgröße vor, um die Geschwindigkeit der Zielsbewegung genauer zu steuern. Unser Framework bietet eine einfachere, aber präzisere Benutzersteuerung und eine bessere Generierungsleistung als frühere Methoden. Umfangreiche Experimente im Vergleich zu 7 Baselines, einschließlich kommerzieller Tools und Forschungsmethoden auf 8 Metriken, legen die Überlegenheit unseres Ansatzes nahe. Projektseite: https://follow-your-click.github.io/
Implizite neuronale Repräsentationen (INRs) haben kürzlich große Erfolge bei der Bildrepräsentation und -kompression erzielt, indem sie eine hohe visuelle Qualität und schnelle Rendergeschwindigkeiten von 10-1000 FPS bieten, vorausgesetzt ausreichende GPU-Ressourcen stehen zur Verfügung. Diese Anforderung behindert jedoch häufig ihre Verwendung auf Low-End-Geräten mit begrenztem Speicher. Als Antwort schlagen wir ein bahnbrechendes Paradigma der Bildrepräsentation und -kompression durch 2D-Gauß-Splatting vor, das als GaussianImage bezeichnet wird. Wir führen zunächst 2D-Gauß ein, um das Bild zu repräsentieren, wobei jeder Gauß 8 Parameter einschließlich Position, Kovarianz und Farbe hat. Anschließend enthüllen wir einen neuartigen Renderalgorithmus basierend auf akkumulierter Summation. Bemerkenswert ist, dass unsere Methode mit einer um mindestens das 3-fache geringeren GPU-Speicherauslastung und einer um das 5-fache schnellere Anpassungszeit nicht nur INRs (z. B. WIRE, I-NGP) in der Repräsentationsleistung Konkurrenz macht, sondern auch eine schnellere Rendergeschwindigkeit von 1500-2000 FPS unabhängig von der Parametergröße bietet. Darüber hinaus integrieren wir eine vorhandene Vektorquantisierungstechnik, um einen Bildcodec zu erstellen. Experimentelle Ergebnisse zeigen, dass unser Codec eine Rate-Verzerrungsleistung erreicht, die mit kompressionsbasierten INRs wie COIN und COIN++ vergleichbar ist, während er Dekodierungsgeschwindigkeiten von etwa 1000 FPS ermöglicht. Zusätzlich zeigt ein vorläufiger Proof of Concept, dass unser Codec COIN und COIN++ in der Leistung übertrifft, wenn teilweise Bits-Back-Codierung verwendet wird.