Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle (LLMs) haben erhebliche Fortschritte bei der Verarbeitung langer Kontexte erzielt, kämpfen jedoch immer noch mit der Schlussfolgerung bei langen Kontexten. Bestehende Ansätze beinhalten in der Regel das Feintuning von LLMs mit synthetischen Daten, die auf Annotationen von menschlichen Experten oder fortgeschrittenen Modellen wie GPT-4 basieren, was weitere Fortschritte einschränkt. Um dieses Problem anzugehen, untersuchen wir das Potenzial von LLMs zur Selbstverbesserung bei der Schlussfolgerung in langen Kontexten und schlagen \ours vor, einen speziell für diesen Zweck konzipierten Ansatz. Dieser Ansatz ist einfach: Wir probieren mehrere Ausgaben für jede Frage aus, bewerten sie mit dem Minimum Bayes-Risiko und wenden dann überwachtes Feintuning oder Präferenzoptimierung basierend auf diesen Ausgaben an. Umfangreiche Experimente mit mehreren führenden LLMs zeigen die Wirksamkeit von \ours, mit einer absoluten Verbesserung von 4,2 Punkten für Llama-3.1-8B-Instruct. Darüber hinaus erzielt \ours eine überlegene Leistung im Vergleich zu früheren Ansätzen, die auf Daten von menschlichen Experten oder fortgeschrittenen Modellen angewiesen sind. Wir erwarten, dass diese Arbeit neue Wege für Selbstverbesserungstechniken in Szenarien mit langen Kontexten eröffnen wird, die für den kontinuierlichen Fortschritt von LLMs unerlässlich sind.
Die Videogenerierung hat sich als ein vielversprechendes Werkzeug für die Weltsimulation herauskristallisiert, das visuelle Daten nutzt, um reale Umgebungen nachzubilden. Innerhalb dieses Kontextes birgt die egozentrische Videogenerierung, die sich auf die menschliche Perspektive konzentriert, ein erhebliches Potenzial zur Verbesserung von Anwendungen in der virtuellen Realität, der erweiterten Realität und im Gaming. Die Generierung von egozentrischen Videos stellt jedoch aufgrund der dynamischen Natur egozentrischer Blickwinkel, der komplexen Vielfalt von Handlungen und der Vielzahl von Szenen, auf die man trifft, erhebliche Herausforderungen dar. Bestehende Datensätze sind unzureichend, um diese Herausforderungen effektiv anzugehen. Um diese Lücke zu schließen, präsentieren wir EgoVid-5M, den ersten hochwertigen Datensatz, der speziell für die egozentrische Videogenerierung kuratiert wurde. EgoVid-5M umfasst 5 Millionen egozentrische Videoclips und ist angereichert mit detaillierten Aktionsannotationen, einschließlich feinkörniger kinematischer Steuerung und hochrangiger textueller Beschreibungen. Um die Integrität und Nutzbarkeit des Datensatzes sicherzustellen, implementieren wir eine ausgeklügelte Datenbereinigungspipeline, die darauf ausgelegt ist, die Rahmenkonsistenz, die Aktionskohärenz und die Bewegungsglättung unter egozentrischen Bedingungen aufrechtzuerhalten. Darüber hinaus stellen wir EgoDreamer vor, der in der Lage ist, egozentrische Videos gleichzeitig durch Aktionsbeschreibungen und kinematische Steuersignale zu generieren. Der EgoVid-5M Datensatz, die zugehörigen Aktionsannotationen und alle Metadaten zur Datenbereinigung werden zur Förderung der Forschung im Bereich der egozentrischen Videogenerierung veröffentlicht.
Die Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Präferenzen bleibt eine zentrale Herausforderung. Während post-training Techniken wie Verstärkungslernen aus menschlichem Feedback (RLHF) und Direkte Präferenzoptimierung (DPO) beachtliche Erfolge erzielt haben, führen sie oft zu Rechenineffizienzen und Trainingsinstabilität. In diesem Artikel schlagen wir Feature-Level-beschränkte Präferenzoptimierung (FPO) vor, eine neuartige Methode, die darauf abzielt, den Ausrichtungsprozess zu vereinfachen und gleichzeitig Stabilität zu gewährleisten. FPO nutzt vortrainierte Sparse Autoencoder (SAEs) und führt Feature-Level-Beschränkungen ein, die eine effiziente, sparsam erzwungene Ausrichtung ermöglichen. Unser Ansatz zeichnet sich durch Effizienz aus, indem er spärliche Merkmale verwendet, die in einem gut trainierten sparsamen Autoencoder aktiviert sind, und die Qualität der sequenziellen KL-Divergenz durch Verwendung des Feature-Level-Offline-Referenzwertes. Experimentelle Ergebnisse auf Benchmark-Datensätzen zeigen, dass FPO eine absolute Verbesserung des Gewinnanteils um 5,08% bei wesentlich geringeren Rechenkosten im Vergleich zu modernsten Baselines erzielt, was es zu einer vielversprechenden Lösung für effiziente und kontrollierbare LLM-Ausrichtungen macht.
Französische Sprachmodelle wie CamemBERT wurden in verschiedenen Branchen für Aufgaben der natürlichen Sprachverarbeitung (NLP) weit verbreitet übernommen, wobei Modelle wie CamemBERT monatlich über 4 Millionen Downloads verzeichnen. Diese Modelle stehen jedoch vor Herausforderungen aufgrund von zeitlichem Konzeptwandel, bei dem veraltete Trainingsdaten zu einer Leistungsminderung führen, insbesondere bei der Begegnung neuer Themen und Terminologie. Dieses Problem unterstreicht die Notwendigkeit von aktualisierten Modellen, die aktuelle sprachliche Trends widerspiegeln. In diesem Artikel stellen wir zwei neue Versionen des CamemBERT-Basismodells vor - CamemBERTav2 und CamemBERTv2 -, die entwickelt wurden, um diesen Herausforderungen zu begegnen. CamemBERTav2 basiert auf der DeBERTaV3-Architektur und nutzt das Replaced Token Detection (RTD)-Ziel für ein besseres kontextuelles Verständnis, während CamemBERTv2 auf RoBERTa aufbaut, das das Masked Language Modeling (MLM)-Ziel verwendet. Beide Modelle werden auf einem deutlich größeren und aktuelleren Datensatz mit längerer Kontextlänge und einem aktualisierten Tokenizer trainiert, der die Tokenisierungsleistung für das Französische verbessert. Wir bewerten die Leistung dieser Modelle sowohl bei NLP-Aufgaben im Allgemeinen als auch bei domänenspezifischen Anwendungen, wie beispielsweise medizinischen Aufgaben, und zeigen ihre Vielseitigkeit und Effektivität in einer Vielzahl von Anwendungsfällen. Unsere Ergebnisse zeigen, dass diese aktualisierten Modelle ihre Vorgänger bei weitem übertreffen und sie zu wertvollen Werkzeugen für moderne NLP-Systeme machen. Alle unsere neuen Modelle sowie Zwischenstände sind öffentlich auf Huggingface verfügbar gemacht worden.
Steuerungsvektoren sind ein vielversprechender Ansatz zur Steuerung des Verhaltens großer Sprachmodelle. Ihre zugrunde liegenden Mechanismen sind jedoch noch schlecht verstanden. Obwohl dünn besetzte Autoencoder (SAEs) eine potenzielle Methode zur Interpretation von Steuerungsvektoren darstellen könnten, zeigen aktuelle Erkenntnisse, dass SAE-rekonstruierte Vektoren oft die Steuereigenschaften der Originalvektoren vermissen lassen. Diese Arbeit untersucht, warum die direkte Anwendung von SAEs auf Steuerungsvektoren zu irreführenden Zerlegungen führt und identifiziert zwei Gründe: (1) Steuerungsvektoren liegen außerhalb der Eingabeverteilung, für die SAEs konzipiert sind, und (2) Steuerungsvektoren können sinnvolle negative Projektionen in Merkmalsrichtungen aufweisen, die SAEs nicht berücksichtigen. Diese Einschränkungen behindern den direkten Einsatz von SAEs zur Interpretation von Steuerungsvektoren.
Die Musikgenerierung hat insbesondere im Bereich der Audiogenerierung erhebliche Fortschritte gemacht. Die Generierung symbolischer Musik, die sowohl langstrukturiert als auch ausdrucksstark ist, bleibt jedoch eine bedeutende Herausforderung. In diesem Artikel schlagen wir PerceiverS (Segmentierung und Skala) vor, eine neuartige Architektur, die entwickelt wurde, um dieses Problem zu lösen, indem sowohl effektive Segmentierung als auch Multi-Scale-Aufmerksamkeitsmechanismen genutzt werden. Unser Ansatz verbessert die symbolische Musikgenerierung, indem er gleichzeitig langfristige strukturelle Abhängigkeiten und kurzfristige expressive Details lernt. Durch die Kombination von Kreuz-Aufmerksamkeit und Selbst-Aufmerksamkeit in einem Multi-Scale-Setting erfasst PerceiverS die langfristige musikalische Struktur und bewahrt dabei die künstlerischen Nuancen. Das vorgeschlagene Modell, das an Datensätzen wie Maestro evaluiert wurde, zeigt Verbesserungen bei der Generierung kohärenter und vielfältiger Musik mit sowohl struktureller Konsistenz als auch expressiver Variation. Die Projekt-Demos und die generierten Musikbeispiele sind über den folgenden Link zugänglich: https://perceivers.github.io.
Bestehende Text-zu-Video (T2V)-Modelle haben oft Schwierigkeiten, Videos mit ausreichend ausgeprägten oder komplexen Aktionen zu generieren. Eine Schlüsselbegrenzung liegt in der Unfähigkeit des Text-Prompts, komplexe Bewegungsdetails präzise zu vermitteln. Um dies zu lösen, schlagen wir ein neuartiges Framework namens MVideo vor, das darauf ausgelegt ist, Videos mit präzisen und fließenden Aktionen über lange Dauer zu produzieren. MVideo überwindet die Einschränkungen von Text-Prompts, indem es Maskensequenzen als zusätzliche Bewegungsbedingungseingabe integriert, um eine klarere und genauere Darstellung beabsichtigter Aktionen zu ermöglichen. Durch die Nutzung grundlegender Visionmodelle wie GroundingDINO und SAM2 generiert MVideo automatisch Maskensequenzen, was sowohl die Effizienz als auch die Robustheit verbessert. Unsere Ergebnisse zeigen, dass MVideo nach dem Training Text-Prompts effektiv mit Bewegungsbedingungen abstimmt, um Videos zu produzieren, die gleichzeitig beiden Kriterien gerecht werden. Dieser duale Steuermechanismus ermöglicht eine dynamischere Videogenerierung, indem Änderungen am Text-Prompt oder an der Bewegungsbedingung unabhängig voneinander oder gemeinsam vorgenommen werden können. Darüber hinaus unterstützt MVideo die Bearbeitung und Komposition von Bewegungsbedingungen, was die Generierung von Videos mit komplexeren Aktionen erleichtert. MVideo fördert somit die Bewegungsgenerierung in T2V und setzt einen starken Maßstab für eine verbesserte Darstellung von Aktionen in aktuellen Videodiffusionsmodellen. Unsere Projektseite ist unter https://mvideo-v1.github.io/ verfügbar.