Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Ein Hörbuch kann die Zugänglichkeit eines literarischen Werks erheblich verbessern und das Leserengagement steigern. Allerdings können Hörbücher Hunderte von Stunden menschlicher Arbeit erfordern, um erstellt, bearbeitet und veröffentlicht zu werden. In dieser Arbeit präsentieren wir ein System, das automatisch hochwertige Hörbücher aus Online-E-Books generieren kann. Insbesondere nutzen wir die jüngsten Fortschritte im Bereich des neuronalen Text-zu-Sprache-Systems, um Tausende von Hörbüchern in menschlicher Qualität mit offener Lizenz aus der E-Book-Sammlung von Project Gutenberg zu erstellen und zu veröffentlichen. Unser Verfahren kann die richtige Teilmenge des E-Book-Inhalts identifizieren, die für eine breite Sammlung von Büchern mit unterschiedlichen Strukturen vorgelesen werden soll, und kann Hunderte von Büchern parallel verarbeiten. Unser System ermöglicht es Benutzern, die Sprechgeschwindigkeit und den Stil eines Hörbuchs anzupassen, die emotionale Intonation zu steuern und sogar eine gewünschte Stimme anhand einer kleinen Menge von Audio-Beispielen nachzuahmen. Diese Arbeit hat über fünftausend Hörbücher mit offener Lizenz sowie eine interaktive Demo beigesteuert, die es Benutzern ermöglicht, schnell ihre eigenen personalisierten Hörbücher zu erstellen. Um die Hörbuchsammlung anzuhören, besuchen Sie https://aka.ms/audiobook.
Sparse Mixture-of-Experts-Modelle (MoEs) haben in letzter Zeit an Popularität gewonnen, da sie in der Lage sind, die Modellgröße von der Inferenzeffizienz zu entkoppeln, indem sie für jedes Eingabe-Token nur eine kleine Teilmenge der Modellparameter aktivieren. Dadurch haben sparse MoEs eine beispiellose Skalierbarkeit ermöglicht, was zu enormen Erfolgen in Bereichen wie der natürlichen Sprachverarbeitung und der Computer Vision geführt hat. In dieser Arbeit untersuchen wir stattdessen die Verwendung von sparse MoEs, um Vision Transformers (ViTs) zu verkleinern und sie für ressourcenbeschränkte Vision-Anwendungen attraktiver zu machen. Zu diesem Zweck schlagen wir ein vereinfachtes und mobilfreundliches MoE-Design vor, bei dem ganze Bilder anstelle einzelner Patches an die Experten weitergeleitet werden. Wir schlagen außerdem ein stabiles MoE-Trainingsverfahren vor, das Superklassen-Informationen verwendet, um den Router zu steuern. Wir zeigen empirisch, dass unsere sparse Mobile Vision MoEs (V-MoEs) eine bessere Balance zwischen Leistung und Effizienz erreichen können als die entsprechenden dichten ViTs. Zum Beispiel übertrifft unser Mobile V-MoE für das ViT-Tiny-Modell sein dichtes Gegenstück um 3,39 % auf ImageNet-1k. Für eine noch kleinere ViT-Variante mit nur 54M FLOPs Inferenzkosten erreicht unser MoE eine Verbesserung von 4,66 %.
In diesem Artikel stellen wir ein neuartiges Framework vor, das Tracking-freie, neu beleuchtbare Avatare (TRAvatar) ermöglicht, um hochauflösende 3D-Avatare zu erfassen und zu rekonstruieren. Im Vergleich zu früheren Methoden arbeitet TRAvatar in einer praktischeren und effizienteren Umgebung. Konkret wird TRAvatar mit dynamischen Bildsequenzen trainiert, die in einer Light Stage unter variierenden Beleuchtungsbedingungen aufgenommen wurden. Dies ermöglicht realistische Neuausleuchtung und Echtzeit-Animation von Avataren in verschiedenen Szenen. Darüber hinaus erlaubt TRAvatar die Erfassung von Avataren ohne Tracking und macht eine präzise Oberflächenverfolgung unter wechselnden Beleuchtungsbedingungen überflüssig. Unsere Beiträge sind zweifach: Erstens schlagen wir eine neuartige Netzwerkarchitektur vor, die explizit auf der linearen Natur der Beleuchtung aufbaut und deren Einhaltung sicherstellt. TRAvatar, das mit einfachen Gruppenlichtaufnahmen trainiert wird, kann das Erscheinungsbild in Echtzeit mit einem einzigen Vorwärtsdurchlauf vorhersagen und dabei hochwertige Neuausleuchtungseffekte unter Beleuchtungen beliebiger Umgebungsmaps erzielen. Zweitens optimieren wir die Gesichtsgeometrie und das neu beleuchtbare Erscheinungsbild gemeinsam von Grund auf basierend auf Bildsequenzen, wobei das Tracking implizit erlernt wird. Dieser Tracking-freie Ansatz bietet Robustheit bei der Herstellung zeitlicher Korrespondenzen zwischen Bildern unter verschiedenen Beleuchtungsbedingungen. Umfangreiche qualitative und quantitative Experimente zeigen, dass unser Framework eine überlegene Leistung bei der fotorealistischen Avatar-Animation und Neuausleuchtung erzielt.