Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Im Zeitalter von groß angelegten Sprachmodellen haben Benchmarks wie das Massive Multitask Language Understanding (MMLU) eine entscheidende Rolle dabei gespielt, die Grenzen dessen zu erweitern, was KI in der Sprachverarbeitung und dem Schlussfolgern über verschiedene Bereiche hinweg erreichen kann. Allerdings, während die Modelle weiter verbessert werden, hat ihre Leistung auf diesen Benchmarks begonnen zu stagnieren, was es zunehmend schwieriger macht, Unterschiede in den Fähigkeiten der Modelle zu erkennen. Dieses Paper stellt MMLU-Pro vor, einen erweiterten Datensatz, der darauf abzielt, den größtenteils wissensbasierten MMLU-Benchmark durch die Integration anspruchsvollerer, auf Schlussfolgerungen fokussierter Fragen und die Erweiterung des Antwortmöglichkeiten-Sets von vier auf zehn Optionen zu erweitern. Darüber hinaus eliminiert MMLU-Pro die trivialen und rauschenden Fragen in MMLU. Unsere experimentellen Ergebnisse zeigen, dass MMLU-Pro nicht nur die Herausforderung erhöht, was zu einem signifikanten Rückgang der Genauigkeit um 16% bis 33% im Vergleich zu MMLU führt, sondern auch eine größere Stabilität bei variierenden Aufforderungen demonstriert. Mit 24 verschiedenen Aufforderungsstilen getestet, verringerte sich die Sensibilität der Modellergebnisse gegenüber Aufforderungsvariationen von 4-5% in MMLU auf nur 2% in MMLU-Pro. Darüber hinaus stellten wir fest, dass Modelle, die Chain of Thought (CoT) Schlussfolgerungen nutzen, auf MMLU-Pro im Vergleich zur direkten Beantwortung eine bessere Leistung erzielten, was im starken Kontrast zu den Ergebnissen des ursprünglichen MMLU steht und darauf hinweist, dass MMLU-Pro komplexere Schlussfolgerungsfragen enthält. Unsere Bewertungen bestätigen, dass MMLU-Pro ein diskriminativerer Benchmark ist, um den Fortschritt auf diesem Gebiet besser zu verfolgen.
Sprachmodelle sind darauf ausgerichtet, die kollektive Stimme vieler zu emulieren, was zu Ausgaben führt, die mit niemandem im Speziellen übereinstimmen. Das Lenken von LLMs weg von generischen Ausgaben ist durch überwachtes Feintuning oder RLHF möglich, erfordert jedoch unverhältnismäßig große Datensätze für neue Ad-hoc-Aufgaben. Wir argumentieren, dass es stattdessen möglich ist, ein LLM auf eine bestimmte Umgebung auszurichten, indem man eine sehr geringe Anzahl (<10) von Demonstrationen als Rückmeldung nutzt. Unsere Methode, Demonstration ITerated Task Optimization (DITTO), richtet die Ausgaben des Sprachmodells direkt nach dem gezeigten Verhalten eines Benutzers aus. Abgeleitet aus Ideen des Online-Imitationslernens, generiert DITTO kostengünstig Online-Vergleichsdaten, indem es die Demonstrationen der Benutzer gegenüber den Ausgaben des LLM und seinen Zwischenständen bevorzugt behandelt. Wir bewerten die Fähigkeit von DITTO, fein abgestimmten Stil und Aufgabenanpassung in Bereichen wie Nachrichtenartikeln, E-Mails und Blog-Beiträgen zu erlernen. Darüber hinaus führen wir eine Benutzerstudie durch, bei der eine Vielzahl von Demonstrationen von Teilnehmern (N=16) angefordert wird. Über unsere Benchmarks und Benutzerstudie hinweg stellen wir fest, dass die Gewinnraten von DITTO das Few-Shot-Prompting, überwachtes Feintuning und andere Self-Play-Methoden im Durchschnitt um 19 Prozentpunkte übertreffen. Indem es Demonstrationen direkt als Rückmeldung verwendet, bietet DITTO eine neuartige Methode zur effektiven Anpassung von LLMs.
Diese Arbeit befasst sich mit der Herausforderung der Schätzung von Tiefen in Videos, die nicht nur eine Genauigkeit pro Frame erwartet, sondern vor allem eine konsistente Überprüfung zwischen den Frames. Anstatt einen Tiefenschätzer von Grund auf zu entwickeln, formulieren wir die Vorhersageaufgabe neu als ein bedingtes Generierungsproblem. Dies ermöglicht es uns, das in bestehenden Video-Generierungsmodellen eingebettete Vorwissen zu nutzen, um die Lernschwierigkeit zu reduzieren und die Verallgemeinerbarkeit zu verbessern. Konkret untersuchen wir, wie man die öffentliche Stable Video Diffusion (SVD) zähmt, um zuverlässige Tiefen aus Eingabevideos mithilfe einer Mischung aus Bildtiefen- und Videotiefendatensätzen vorherzusagen. Wir bestätigen empirisch, dass eine prozedurale Trainingsstrategie - zuerst die räumlichen Schichten der SVD optimieren und dann die zeitlichen Schichten optimieren, während die räumlichen Schichten eingefroren bleiben - die besten Ergebnisse in Bezug auf sowohl räumliche Genauigkeit als auch zeitliche Konsistenz liefert. Wir untersuchen außerdem die Schiebefensterstrategie für die Inferenz bei beliebig langen Videos. Unsere Beobachtungen deuten auf einen Kompromiss zwischen Effizienz und Leistung hin, wobei bereits eine Überlappung von einem Frame günstige Ergebnisse liefert. Umfangreiche experimentelle Ergebnisse belegen die Überlegenheit unseres Ansatzes, genannt ChronoDepth, gegenüber bestehenden Alternativen, insbesondere in Bezug auf die zeitliche Konsistenz der geschätzten Tiefe. Darüber hinaus heben wir die Vorteile einer konsistenteren Videotiefe in zwei praktischen Anwendungen hervor: der tiefenbedingten Videogenerierung und der neuartigen Ansichtssynthese. Unsere Projektseite ist unter https://jhaoshao.github.io/ChronoDepth/{diese http URL} verfügbar.
Die kulturelle Akkumulation treibt den offenen und vielfältigen Fortschritt in Fähigkeiten über die menschliche Geschichte hinweg voran. Sie baut einen wachsenden Wissens- und Fähigkeitsschatz auf, indem sie individuelle Erkundung mit der zwischen Generationen erfolgenden Informationsübertragung kombiniert. Obwohl sie unter Menschen weit verbreitet erfolgreich ist, bleibt die Fähigkeit künstlicher Lernagenten, Kultur anzuhäufen, weitgehend unerforscht. Insbesondere streben Ansätze zum verstärkenden Lernen in der Regel nur nach Verbesserungen über ein einzelnes Leben hinweg. Generationsalgorithmen, die existieren, versäumen es, die offene, emergente Natur der kulturellen Akkumulation einzufangen, die es Individuen ermöglicht, Innovation und Imitation gegeneinander abzuwägen. Aufbauend auf der zuvor gezeigten Fähigkeit von Verstärkungslernagenten, soziales Lernen durchzuführen, stellen wir fest, dass Trainingssetups, die dies mit unabhängigem Lernen ausbalancieren, zur kulturellen Akkumulation führen. Diese akkumulierenden Agenten übertreffen diejenigen, die nur für ein einzelnes Leben trainiert wurden, mit derselben kumulativen Erfahrung. Wir erforschen diese Akkumulation, indem wir zwei Modelle unter zwei unterschiedlichen Vorstellungen einer Generation konstruieren: episodische Generationen, bei denen die Akkumulation durch kontextbezogenes Lernen erfolgt, und Trainingszeit-Generationen, bei denen die Akkumulation durch gewichtsbasiertes Lernen erfolgt. Kulturelle Akkumulation durch kontextbezogenes und gewichtsbasiertes Lernen kann analog zu Wissens- und Fähigkeitsakkumulation interpretiert werden. Nach unserem Kenntnisstand ist diese Arbeit die erste, die allgemeine Modelle präsentiert, die eine emergente kulturelle Akkumulation im Verstärkungslernen erreichen, und damit neue Wege zu offeneren Lernsystemen eröffnet sowie neue Möglichkeiten zur Modellierung menschlicher Kultur aufzeigt.
Gelernte Optimierer (LOs) können die Trainingszeit von neuronalen Netzwerken signifikant reduzieren und somit die Trainingskosten erheblich senken. Allerdings leiden sie oft unter einer schlechten Meta-Generalisierung, insbesondere bei der Schulung von Netzwerken, die größer sind als die während des Meta-Trainings gesehenen. Um dies zu lösen, verwenden wir die kürzlich vorgeschlagene Maximal Update Parametrisierung (muP), die eine Generalisierung der Optimierer-Hyperparameter von kleineren auf größere Modelle ohne vorheriges Training ermöglicht. Wir erweitern die muP-Theorie auf gelernte Optimierer und behandeln das Meta-Trainingsproblem als die Suche nach dem gelernten Optimierer unter muP. Unsere Evaluation zeigt, dass LOs, die mit muP meta-trainiert wurden, die Meta-Generalisierung im Vergleich zu LOs, die unter Standardparametrisierung (SP) trainiert wurden, erheblich verbessern. Insbesondere erreicht unser bester muLO, der für 103 GPU-Stunden trainiert wurde, bei Anwendung auf Modelle mit großer Breite oder übertrifft die Leistung von VeLO, dem größten öffentlich verfügbaren gelernten Optimierer, der mit 4000 TPU-Monaten an Rechenleistung meta-trainiert wurde. Darüber hinaus zeigen muLOs eine bessere Generalisierung als ihre SP-Gegenstücke für tiefere Netzwerke und für deutlich längere Trainingszeiträume (25-mal länger) als die während des Meta-Trainings beobachteten.
Die Videogenerierung hat in den letzten Jahren bemerkenswerte Fortschritte gemacht, insbesondere seit dem Aufkommen der Videodiffusionsmodelle. Viele Videogenerierungsmodelle können plausible synthetische Videos erstellen, z.B. das Stabile Videodiffusionsmodell (SVD). Die meisten Videomodelle können jedoch nur Videos mit niedriger Bildrate generieren, aufgrund des begrenzten GPU-Speichers sowie der Schwierigkeit, eine große Anzahl von Frames zu modellieren. Die Trainingsvideos werden immer gleichmäßig in einem festgelegten Intervall für die zeitliche Kompression abgetastet. Frühere Methoden erhöhen die Bildrate entweder durch das Trainieren eines Videointerpolationsmodells im Pixelraum als Nachbearbeitungsstufe oder durch das Trainieren eines Interpolationsmodells im latenten Raum für ein spezifisches Basisvideomodell. In diesem Paper schlagen wir eine trainingsfreie Videointerpolationsmethode für generative Videodiffusionsmodelle vor, die auf verschiedene Modelle in einer Plug-and-Play-Manier übertragbar ist. Wir untersuchen die Nichtlinearität im Merkmalsraum von Videodiffusionsmodellen und verwandeln ein Videomodell in ein selbstkaskadiertes Videodiffusionsmodell, indem wir die entworfenen versteckten Zustandskorrekturmodule integrieren. Die selbstkaskadierte Architektur und das Korrekturmodul werden vorgeschlagen, um die zeitliche Konsistenz zwischen Schlüsselbildern und den interpolierten Frames zu bewahren. Umfangreiche Evaluationen werden an mehreren populären Videomodellen durchgeführt, um die Wirksamkeit der vorgeschlagenen Methode zu demonstrieren, insbesondere dass unsere trainingsfreie Methode sogar mit trainierten Interpolationsmodellen vergleichbar ist, die von großen Rechenressourcen und umfangreichen Datensätzen unterstützt werden.