Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Zero-Shot Text-to-Speech zielt darauf ab, Stimmen mit unbekannten Sprachprompts zu synthetisieren. Frühere groß angelegte Multisprecher-TTS-Modelle haben dieses Ziel erfolgreich mit einer aufgenommenen Sprachprobe von weniger als 10 Sekunden erreicht. Die meisten dieser Modelle sind jedoch darauf ausgelegt, nur kurze Sprachprompts zu verwenden. Die begrenzten Informationen in kurzen Sprachprompts beeinträchtigen die Leistung bei der feingranularen Nachahmung der Identität erheblich. In diesem Artikel stellen wir Mega-TTS 2 vor, ein generisches Zero-Shot-Multisprecher-TTS-Modell, das in der Lage ist, Sprache für unbekannte Sprecher mit Prompts beliebiger Länge zu synthetisieren. Konkret haben wir 1) einen Multi-Referenz-Timbre-Encoder entwickelt, um Timbre-Informationen aus mehreren Referenzsprachen zu extrahieren; 2) ein Prosodie-Sprachmodell mit Sprachprompts beliebiger Länge trainiert; Mit diesen Entwürfen ist unser Modell für Prompts unterschiedlicher Länge geeignet, was die Obergrenze der Sprachqualität für Zero-Shot Text-to-Speech erweitert. Neben Prompts beliebiger Länge führen wir Prompts beliebiger Quelle ein, die die Wahrscheinlichkeiten aus mehreren P-LLM-Ausgaben nutzen, um ausdrucksstarke und kontrollierte Prosodie zu erzeugen. Darüber hinaus schlagen wir ein phonembasiertes autoregressives Dauer-Modell vor, um Fähigkeiten zum In-Context-Lernen in die Dauer-Modellierung einzuführen. Experimente zeigen, dass unsere Methode nicht nur identitätserhaltende Sprache mit einem kurzen Prompt eines unbekannten Sprechers synthetisieren kann, sondern auch eine verbesserte Leistung mit längeren Sprachprompts erzielt. Audiobeispiele finden Sie unter https://mega-tts.github.io/mega2_demo/.
Große Sprachmodelle (LLMs) haben ihre Fähigkeit bewiesen, im Kontext zu lernen, was es ihnen ermöglicht, verschiedene Aufgaben basierend auf wenigen Eingabe-Ausgabe-Beispielen auszuführen. Die Effektivität des Lernens im Kontext hängt jedoch stark von der Qualität der ausgewählten Beispiele ab. In diesem Artikel schlagen wir ein neuartiges Framework vor, um dichte Retriever iterativ zu trainieren, die hochwertige Beispiele für das Lernen im Kontext für LLMs identifizieren können. Unser Framework trainiert zunächst ein Belohnungsmodell basierend auf dem Feedback des LLMs, um die Qualität der Kandidatenbeispiele zu bewerten, gefolgt von Wissensdestillation, um einen bi-encoder-basierten dichten Retriever zu trainieren. Unsere Experimente mit einer Reihe von 30 Aufgaben zeigen, dass unser Framework die Leistung des Lernens im Kontext erheblich verbessert. Darüber hinaus demonstrieren wir die Generalisierungsfähigkeit unseres Frameworks auf während des Trainings unbekannte Aufgaben. Eine detaillierte Analyse zeigt, dass unser Modell die Leistung verbessert, indem es Beispiele mit ähnlichen Mustern abruft, und die Gewinne sind konsistent über LLMs unterschiedlicher Größe hinweg.
In dieser Arbeit stellen wir ein selbstüberwachtes Framework zur Merkmalsrepräsentationslernung namens DreamTeacher vor, das generative Netzwerke für das Pre-Training von nachgeschalteten Bild-Backbones nutzt. Wir schlagen vor, Wissen aus einem trainierten generativen Modell in standardmäßige Bild-Backbones zu destillieren, die speziell für bestimmte Wahrnehmungsaufgaben entwickelt wurden. Wir untersuchen zwei Arten von Wissensdestillation: 1) die Destillation gelerntener generativer Merkmale auf Ziel-Bild-Backbones als Alternative zum Pre-Training dieser Backbones auf großen, gelabelten Datensätzen wie ImageNet, und 2) die Destillation von Labels, die aus generativen Netzwerken mit Aufgabenköpfen gewonnen werden, auf die Logits der Ziel-Backbones. Wir führen umfangreiche Analysen an mehreren generativen Modellen, Benchmarks für dichte Vorhersagen und verschiedenen Pre-Training-Regimen durch. Empirisch stellen wir fest, dass unser DreamTeacher bestehende Ansätze des selbstüberwachten Repräsentationslernens durchweg deutlich übertrifft. Unüberwachtes ImageNet-Pre-Training mit DreamTeacher führt zu signifikanten Verbesserungen gegenüber ImageNet-Klassifikations-Pre-Training auf nachgeschalteten Datensätzen, was generative Modelle, und insbesondere Diffusionsgenerative Modelle, als vielversprechenden Ansatz für das Repräsentationslernen auf großen, diversen Datensätzen ohne manuelle Annotation zeigt.
Wir behandeln das Problem der Erzeugung realistischer 3D-Bewegungen von Menschen, die mit Objekten in einer Szene interagieren. Unser zentraler Ansatz besteht darin, ein neuronales Interaktionsfeld zu erstellen, das an ein spezifisches Objekt gebunden ist und die Distanz zur gültigen Interaktionsmannigfaltigkeit bei Eingabe einer menschlichen Pose ausgibt. Dieses Interaktionsfeld leitet die Stichprobenentnahme eines objektbedingten menschlichen Bewegungsdiffusionsmodells an, um plausible Kontakte und Affordanzsemantik zu fördern. Um Interaktionen mit nur begrenzt verfügbaren Daten zu unterstützen, schlagen wir eine automatisierte Pipeline für synthetische Daten vor. Hierbei initialisieren wir ein vortrainiertes Bewegungsmodell, das Vorwissen über die Grundlagen menschlicher Bewegung besitzt, mit interaktionsspezifischen Ankerposen, die aus begrenzten Motion-Capture-Daten extrahiert wurden. Mit unserem geführten Diffusionsmodell, das auf generierten synthetischen Daten trainiert wurde, synthetisieren wir realistische Bewegungen für das Sitzen und Heben mit verschiedenen Objekten und übertreffen alternative Ansätze in Bezug auf Bewegungsqualität und erfolgreiche Handlungsabschlüsse. Wir nennen unser Framework NIFTY: Neural Interaction Fields for Trajectory sYnthesis.