Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Rotary Position Embeddings (RoPE) haben sich als effektive Methode zur Kodierung von Positionsinformationen in transformer-basierten Sprachmodellen erwiesen. Diese Modelle scheitern jedoch daran, über die Sequenzlänge hinaus zu generalisieren, auf der sie trainiert wurden. Wir stellen YaRN (Yet another RoPE extensioN method) vor, eine recheneffiziente Methode zur Erweiterung des Kontextfensters solcher Modelle, die 10-mal weniger Tokens und 2,5-mal weniger Trainingsschritte als bisherige Methoden erfordert. Mit YaRN zeigen wir, dass LLaMA-Modelle Kontextlängen effektiv nutzen und extrapolieren können, die weit über ihre ursprüngliche Vortrainingskapazität hinausgehen, wobei sie gleichzeitig den bisherigen Stand der Technik bei der Kontextfenstererweiterung übertreffen. Darüber hinaus demonstrieren wir, dass YaRN die Fähigkeit besitzt, über den begrenzten Kontext eines Fine-Tuning-Datensatzes hinaus zu extrapolieren. Wir veröffentlichen die Checkpoints von Llama 2 7B/13B, die mit YaRN auf 64k und 128k Kontextfenster feinabgestimmt wurden, unter https://github.com/jquesnelle/yarn.
Reinforcement Learning from Human Feedback (RLHF) ist effektiv darin, große Sprachmodelle (LLMs) an menschliche Präferenzen anzupassen, doch die Beschaffung hochwertiger menschlicher Präferenzlabels stellt einen zentralen Engpass dar. Wir führen einen direkten Vergleich zwischen RLHF und Reinforcement Learning from AI Feedback (RLAIF) durch – einer Technik, bei der Präferenzen von einem Standard-LLM anstelle von Menschen annotiert werden – und stellen fest, dass beide ähnliche Verbesserungen erzielen. Bei der Aufgabe der Zusammenfassung bevorzugen menschliche Bewerter die Ergebnisse sowohl von RLAIF als auch von RLHF in etwa 70 % der Fälle gegenüber einem baseline-supervised-fine-tuned Modell. Darüber hinaus bewerten menschliche Bewerter RLAIF- und RLHF-Zusammenfassungen in gleichem Maße positiv. Diese Ergebnisse deuten darauf hin, dass RLAIF eine menschenähnliche Leistung erzielen kann und somit eine potenzielle Lösung für die Skalierbarkeitsbeschränkungen von RLHF bietet.
In diesem Artikel präsentieren wir VideoGen, einen Text-zu-Video-Generierungsansatz, der mithilfe von referenzgesteuerter latenter Diffusion ein hochauflösendes Video mit hoher Bildqualität und starker zeitlicher Konsistenz erzeugen kann. Wir nutzen ein verfügbares Text-zu-Bild-Generierungsmodell, z.B. Stable Diffusion, um ein Bild mit hoher inhaltlicher Qualität aus dem Textprompt zu generieren, das als Referenzbild zur Steuerung der Videogenerierung dient. Anschließend führen wir ein effizientes kaskadiertes latentes Diffusionsmodul ein, das sowohl auf dem Referenzbild als auch auf dem Textprompt basiert, um latente Videodarstellungen zu erzeugen, gefolgt von einem flussbasierten zeitlichen Upsampling-Schritt, um die zeitliche Auflösung zu verbessern. Schließlich werden die latenten Videodarstellungen durch einen verbesserten Video-Decoder in ein hochauflösendes Video umgewandelt. Während des Trainings verwenden wir den ersten Frame eines Ground-Truth-Videos als Referenzbild, um das kaskadierte latente Diffusionsmodul zu trainieren. Die Hauptmerkmale unseres Ansatzes umfassen: das durch das Text-zu-Bild-Modell generierte Referenzbild verbessert die visuelle Qualität; seine Verwendung als Bedingung ermöglicht es dem Diffusionsmodul, sich stärker auf das Erlernen der Videodynamik zu konzentrieren; und der Video-Decoder wird mit ungelabelten Videodaten trainiert, wodurch er von hochwertigen, leicht verfügbaren Videos profitiert. VideoGen setzt neue Maßstäbe in der Text-zu-Video-Generierung sowohl in qualitativer als auch in quantitativer Hinsicht.
Shannon unterteilte in seinem wegweisenden Artikel zur Einführung der Informationstheorie die Kommunikation in drei Ebenen: die technische, die semantische und die Effektivitätsebene. Während sich die technische Ebene mit der genauen Rekonstruktion der übertragenen Symbole befasst, beschäftigen sich die semantische und die Effektivitätsebene mit der abgeleiteten Bedeutung und deren Auswirkung auf den Empfänger. Dank der Telekommunikation hat das Problem der ersten Ebene große Fortschritte wie das Internet hervorgebracht. Große Sprachmodelle (LLMs) machen einige Fortschritte in Richtung des zweiten Ziels, doch die dritte Ebene bleibt weitgehend unberührt. Das dritte Problem befasst sich mit der Vorhersage und Optimierung der Kommunikation für ein gewünschtes Empfängerverhalten. LLMs, obwohl sie breite Generalisierungsfähigkeiten über eine Vielzahl von Aufgaben hinweg zeigen, sind nicht in der Lage, dies zu lösen. Ein Grund für die Unterlegenheit könnte das Fehlen von „Verhaltenstokens“ in den Trainingskorpora der LLMs sein. Verhaltenstokens definieren das Empfängerverhalten während einer Kommunikation, wie z.B. Shares, Likes, Klicks, Käufe, Retweets usw. Bei der Vorverarbeitung von Daten für das LLM-Training werden Verhaltenstokens oft als Rauschen aus den Korpora entfernt. Daher machen wir in diesem Artikel einige erste Fortschritte bei der Wiedereinführung von Verhaltenstokens in das LLM-Training. Die trainierten Modelle zeigen neben einer ähnlichen Leistung wie LLMs bei Aufgaben zum Inhaltsverständnis auch Generalisierungsfähigkeiten bei der Verhaltenssimulation, Inhaltsimulation, Verhaltensverständnis und Verhaltensdomänenanpassung. Anhand einer Vielzahl von Aufgaben in zwei Korpora zeigen wir Ergebnisse zu all diesen Fähigkeiten. Wir nennen diese Modelle Large Content and Behavior Models (LCBMs). Um weitere Forschung zu LCBMs anzuregen, veröffentlichen wir unser neues Content Behavior Corpus (CBC), ein Repository, das Kommunikator, Nachricht und entsprechendes Empfängerverhalten enthält.
Computervision-Modelle weisen bekannte Leistungsunterschiede in Bezug auf Attribute wie Geschlecht und Hautton auf. Dies bedeutet, dass bei Aufgaben wie Klassifikation und Objekterkennung die Modellleistung für bestimmte Klassen je nach den demografischen Merkmalen der Personen im Bild variiert. Diese Disparitäten wurden nachgewiesen, aber bislang gab es keinen einheitlichen Ansatz, um diese Unterschiede für gängige Anwendungsfälle von Computervision-Modellen zu messen. Wir stellen einen neuen Benchmark namens FACET (FAirness in Computer Vision EvaluaTion) vor, einen großen, öffentlich verfügbaren Evaluationsdatensatz mit 32.000 Bildern für einige der häufigsten Vision-Aufgaben – Bildklassifikation, Objekterkennung und Segmentierung. Für jedes Bild in FACET haben wir Experten beauftragt, personenbezogene Attribute wie wahrgenommenen Hautton und Haartyp manuell zu annotieren, Bounding Boxes zu zeichnen und fein granulierte, personenbezogene Klassen wie DJ oder Gitarrist zu beschriften. Darüber hinaus nutzen wir FACET, um state-of-the-art Vision-Modelle zu bewerten und ein tieferes Verständnis potenzieller Leistungsunterschiede und Herausforderungen über sensible demografische Attribute hinweg zu gewinnen. Mit den umfassenden Annotationen untersuchen wir Modelle sowohl anhand einzelner demografischer Attribute als auch mehrerer Attribute mithilfe eines intersektionalen Ansatzes (z. B. Haarfarbe und wahrgenommener Hautton). Unsere Ergebnisse zeigen, dass Klassifikations-, Erkennungs-, Segmentierungs- und Visual-Grounding-Modelle Leistungsunterschiede über demografische Attribute und deren Überschneidungen hinweg aufweisen. Diese Ungleichheiten deuten darauf hin, dass nicht alle in Datensätzen repräsentierten Personen in diesen Vision-Aufgaben fair und gerecht behandelt werden. Wir hoffen, dass aktuelle und zukünftige Ergebnisse, die unseren Benchmark nutzen, zu faireren und robusteren Vision-Modellen beitragen werden. FACET ist öffentlich unter https://facet.metademolab.com/ verfügbar.