Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen Seed-TTS vor, eine Familie von groß angelegten autoregressiven Text-zu-Sprache (TTS) Modellen, die in der Lage sind, Sprache zu generieren, die praktisch nicht von menschlicher Sprache zu unterscheiden ist. Seed-TTS dient als Grundlagenmodell für die Spracherzeugung und zeichnet sich durch herausragende Leistungen im Bereich des sprachlichen Kontextlernens aus, wobei es in Bezug auf Sprecherähnlichkeit und Natürlichkeit Leistungen erzielt, die menschlicher Sprache in objektiven und subjektiven Bewertungen entsprechen. Durch Feinabstimmung erzielen wir sogar höhere subjektive Bewertungen in diesen Metriken. Seed-TTS bietet eine überlegene Steuerbarkeit über verschiedene Sprachmerkmale wie Emotionen und ist in der Lage, äußerst ausdrucksstarke und vielfältige Sprache für Sprecher in freier Wildbahn zu generieren. Darüber hinaus schlagen wir eine Selbstverdichtungsmethode für die Faktorisierung von Sprache vor, sowie einen verstärkenden Lernansatz zur Verbesserung der Modellrobustheit, Sprecherähnlichkeit und Steuerbarkeit. Zusätzlich präsentieren wir eine nicht-autoregressive (NAR) Variante des Seed-TTS-Modells, namens Seed-TTS_DiT, die eine vollständig auf Diffusion basierende Architektur verwendet. Im Gegensatz zu früheren NAR-basierten TTS-Systemen ist Seed-TTS_DiT nicht auf vorab geschätzte Phonemdauern angewiesen und führt die Spracherzeugung durch End-to-End-Verarbeitung durch. Wir zeigen, dass diese Variante vergleichbare Leistungen wie die auf Sprachmodellen basierende Variante erzielt und präsentieren ihre Wirksamkeit bei der Sprachbearbeitung. Wir ermutigen die Leser, Demos unter https://bytedancespeech.github.io/seedtts_tech_report anzuhören.
Wir erforschen die Quantifizierung von Unsicherheit in großen Sprachmodellen (LLMs) mit dem Ziel, zu identifizieren, wann die Unsicherheit in den Antworten auf eine Abfrage groß ist. Wir berücksichtigen gleichzeitig sowohl epistemische als auch aleatorische Unsicherheiten, wobei erstere aus dem Mangel an Wissen über die Wahrheit (wie z.B. Fakten oder die Sprache) stammen und letztere aus nicht reduzierbarer Zufälligkeit (wie z.B. mehreren möglichen Antworten) resultieren. Insbesondere leiten wir eine informationstheoretische Metrik her, die es ermöglicht, zuverlässig zu erkennen, wann nur epistemische Unsicherheit groß ist, wobei die Ausgabe des Modells in diesem Fall unzuverlässig ist. Diese Bedingung kann allein basierend auf der Ausgabe des Modells berechnet werden, die einfach durch spezielle iterative Aufforderungen basierend auf den vorherigen Antworten erhalten wird. Eine solche Quantifizierung ermöglicht es beispielsweise, Halluzinationen (Fälle, in denen die epistemische Unsicherheit hoch ist) sowohl bei Einzel- als auch bei Mehrfachantworten zu erkennen. Dies steht im Gegensatz zu vielen Standardstrategien zur Unsicherheitsquantifizierung (wie z.B. der Schwellenwertfestlegung des Log-Likelihoods einer Antwort), bei denen Halluzinationen im Fall von Mehrfachantworten nicht erkannt werden können. Wir führen eine Reihe von Experimenten durch, die den Vorteil unserer Formulierung zeigen. Darüber hinaus werfen unsere Untersuchungen etwas Licht darauf, wie die Wahrscheinlichkeiten, die einem bestimmten Output von einem LLM zugewiesen werden, durch iterative Aufforderungen verstärkt werden können, was von eigenständigem Interesse sein könnte.
Sowohl Online- als auch Offline-RLHF-Methoden wie PPO und DPO waren äußerst erfolgreich darin, KI mit menschlichen Präferenzen in Einklang zu bringen. Trotz ihres Erfolgs leiden die bestehenden Methoden unter einem grundlegenden Problem, nämlich dass ihre optimale Lösung stark von der Aufgabe abhängt (d. h. nicht robust gegenüber Out-of-Distribution (OOD)-Aufgaben ist). Hier gehen wir auf diese Herausforderung ein, indem wir Self-Improving Robust Preference Optimization (SRPO) vorschlagen, ein praktisches und mathematisch fundiertes Offline-RLHF-Framework, das vollständig robust gegenüber Änderungen in der Aufgabe ist. Die Schlüsselidee von SRPO besteht darin, das Problem des Lernens aus menschlichen Präferenzen als einen Selbstverbesserungsprozess zu betrachten, der mathematisch als ein Min-Max-Optimierungsziel ausgedrückt werden kann, das auf die gemeinsame Optimierung der Selbstverbesserungspolitik und der generativen Politik in einem adversariellen Stil abzielt. Die Lösung für dieses Optimierungsproblem ist unabhängig von der Schulungsaufgabe und daher robust gegenüber deren Änderungen. Anschließend zeigen wir, dass dieses Ziel in Form eines nicht-adversariellen Offline-Verlusts umformuliert werden kann, der unter Verwendung von Standard-Supervised-Optimierungstechniken im großen Maßstab optimiert werden kann, ohne dass ein Belohnungsmodell und Online-Inferenz erforderlich sind. Wir zeigen die Wirksamkeit von SRPO in Bezug auf den KI-Sieganteil (WR) gegenüber menschlichen (GOLD) Abschlüssen. Insbesondere übertrifft SRPO bei der Auswertung des OOD XSUM-Datensatzes den gefeierten DPO nach 5 Selbstüberarbeitungen deutlich um 15%, wobei ein WR von 90% erreicht wird.
Die Text-zu-Video-Generierung hinkt in Bezug auf Qualität und Vielfalt der Text-zu-Bild-Synthese hinterher, aufgrund der Komplexität der räumlich-zeitlichen Modellierung und begrenzter Video-Text-Datensätze. Dieses Papier stellt I4VGen vor, ein trainingsfreies und Plug-and-Play-Video-Diffusionsinferenz-Framework, das die Text-zu-Video-Generierung durch die Nutzung robuster Bildtechniken verbessert. Speziell zerlegt I4VGen die Text-zu-Video-Generierung in zwei Phasen: Ankerbildsynthese und Ankerbild-geführte Videosynthese, nach dem Text-zu-Bild-zu-Video-Ansatz. Entsprechend wird eine gut durchdachte Generationsauswahl-Pipeline eingesetzt, um visuell realistische und semantisch treue Ankerbilder zu erzielen, und eine innovative Rausch-invarianter Video-Score-Destillationsabtastung wird integriert, um das Bild zu einem dynamischen Video zu animieren, gefolgt von einem Video-Regenerationsprozess zur Verfeinerung des Videos. Diese Inferenzstrategie mildert effektiv das weit verbreitete Problem des nicht-nullen Signal-Rausch-Verhältnisses. Umfangreiche Evaluationen zeigen, dass I4VGen nicht nur Videos mit höherer visueller Realität und textueller Treue produziert, sondern sich auch nahtlos in bestehende Bild-zu-Video-Diffusionsmodelle integriert und somit die Gesamtqualität der Videos verbessert.
Die Hauptachsen des Interesses bei bildgenerierenden Diffusionsmodellen sind die Bildqualität, die Menge der Variationen in den Ergebnissen und wie gut die Ergebnisse mit einer gegebenen Bedingung übereinstimmen, z. B. einem Klassenlabel oder einem Textprompt. Der beliebte leitlinienfreie Ansatz zur Führung verwendet ein bedingungsloses Modell, um ein bedingtes Modell zu führen, was zu gleichzeitig besserer Prompt-Ausrichtung und hochwertigeren Bildern auf Kosten reduzierter Variation führt. Diese Effekte scheinen inhärent verflochten zu sein und daher schwer zu kontrollieren. Wir machen die überraschende Beobachtung, dass es möglich ist, eine entwirrte Kontrolle über die Bildqualität zu erlangen, ohne die Menge der Variation zu beeinträchtigen, indem die Generierung durch eine kleinere, weniger trainierte Version des Modells selbst anstelle eines bedingungslosen Modells geführt wird. Dies führt zu signifikanten Verbesserungen bei der ImageNet-Generierung und setzt Rekord-FIDs von 1,01 für 64x64 und 1,25 für 512x512 unter Verwendung öffentlich verfügbarer Netzwerke. Darüber hinaus ist die Methode auch auf bedingungslose Diffusionsmodelle anwendbar und verbessert drastisch deren Qualität.
Die jüngsten Fortschritte in der Künstlichen Intelligenz (KI) wurden weitgehend durch Skalierung vorangetrieben. In der Robotik wird die Skalierung durch den Mangel an Zugang zu umfangreichen Roboterd atensätzen behindert. Wir plädieren dafür, realistische physikalische Simulationen als Mittel zur Skalierung von Umgebungen, Aufgaben und Datensätzen für Roboterlernmethoden zu nutzen. Wir stellen RoboCasa vor, ein groß angelegtes Simulationsframework zur Schulung von Generalistenrobotern in alltäglichen Umgebungen. RoboCasa bietet realistische und vielfältige Szenen mit Schwerpunkt auf Küchenumgebungen. Wir stellen Tausende von 3D-Assets in über 150 Objektkategorien und Dutzenden von interaktiven Möbeln und Geräten zur Verfügung. Wir bereichern die Realität und Vielfalt unserer Simulation mit generativen KI-Tools, wie Objekt-Assets von Text-zu-3D-Modellen und Umgebungstexturen von Text-zu-Bild-Modellen. Wir entwerfen einen Satz von 100 Aufgaben für eine systematische Bewertung, einschließlich zusammengesetzter Aufgaben, die unter Anleitung großer Sprachmodelle generiert wurden. Um das Lernen zu erleichtern, bieten wir hochwertige menschliche Demonstrationen und integrieren automatisierte Trajektoriengenerierungsmethoden, um unsere Datensätze mit minimalem menschlichen Aufwand erheblich zu erweitern. Unsere Experimente zeigen einen klaren Skalierungstrend bei der Verwendung synthetisch generierter Roboterdaten für groß angelegtes Imitationslernen und zeigen großes Potenzial bei der Nutzung von Simulationsdaten für Aufgaben in der realen Welt. Videos und Open-Source-Code sind verfügbar unter https://robocasa.ai/
Im Bereich der Porträtvideoerstellung hat die Verwendung einzelner Bilder zur Generierung von Porträtvideos zunehmend an Bedeutung gewonnen. Ein gängiger Ansatz besteht darin, generative Modelle zu nutzen, um Adapter zur kontrollierten Generierung zu verbessern. Allerdings können Steuersignale (z. B. Text, Audio, Referenzbild, Pose, Tiefenkarte usw.) in ihrer Stärke variieren. Unter diesen Bedingungen haben schwächere Signale oft Schwierigkeiten, effektiv zu sein, da sie durch stärkere Bedingungen gestört werden, was eine Herausforderung bei der Balance dieser Bedingungen darstellt. In unserer Arbeit zur Porträtvideoerstellung haben wir Audiosignale als besonders schwach identifiziert, die oft von stärkeren Signalen wie Gesichtspose und Referenzbild überschattet werden. Direktes Training mit schwachen Signalen führt jedoch oft zu Konvergenzschwierigkeiten. Um dies zu lösen, schlagen wir V-Express vor, eine einfache Methode, die verschiedene Steuersignale durch das progressive Training und die bedingte Auslassung ausbalanciert. Unsere Methode ermöglicht allmählich eine effektive Steuerung durch schwache Bedingungen und erreicht so Generierungsfähigkeiten, die gleichzeitig die Gesichtspose, das Referenzbild und das Audio berücksichtigen. Die experimentellen Ergebnisse zeigen, dass unsere Methode Porträtvideos effektiv generieren kann, die durch Audio gesteuert werden. Darüber hinaus wird eine potenzielle Lösung für die gleichzeitige und effektive Nutzung von Bedingungen unterschiedlicher Stärke bereitgestellt.
In letzter Zeit sind Videoverbreitungsmodelle als expressive generative Werkzeuge für die Erstellung hochwertiger Videoinhalte aufgetaucht, die allgemeinen Benutzern leicht zugänglich sind. Diese Modelle bieten jedoch oft keine präzise Kontrolle über Kamerapositionen für die Videogenerierung, was die Ausdrucksmöglichkeiten der filmischen Sprache und die Benutzerkontrolle einschränkt. Um dieses Problem zu lösen, stellen wir CamCo vor, das eine feingliedrige Steuerung der Kameraposition für die Bild-zu-Video-Generierung ermöglicht. Wir rüsten einen vorab trainierten Bild-zu-Video-Generator mit genau parametrisierten Kamerapositionseingaben unter Verwendung von Plücker-Koordinaten aus. Um die 3D-Konsistenz in den produzierten Videos zu verbessern, integrieren wir in jeden Aufmerksamkeitsblock ein epipolares Aufmerksamkeitsmodul, das epipolare Einschränkungen auf die Merkmalskarten erzwingt. Darüber hinaus verfeinern wir CamCo anhand von realen Videos mit Kamerapositionen, die durch Struktur-aus-Bewegung-Algorithmen geschätzt wurden, um die Objektbewegung besser zu synthetisieren. Unsere Experimente zeigen, dass CamCo die 3D-Konsistenz und die Kamerasteuerungsfähigkeiten im Vergleich zu früheren Modellen signifikant verbessert, während plausible Objektbewegungen effektiv generiert werden. Projektseite: https://ir1d.github.io/CamCo/