ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

Seed-TTS: Eine Familie von hochwertigen vielseitigen Spracherzeugungsmodellen
Seed-TTS: A Family of High-Quality Versatile Speech Generation Models

Jun 4
ByPhilip Anastassiou, Jiawei Chen, Jitong Chen, Yuanzhe Chen, Zhuo Chen, Ziyi Chen, Jian Cong, Lelai Deng, Chuang Ding, Lu Gao, Mingqing Gong, Peisong Huang, Qingqing Huang, Zhiying Huang, Yuanyuan Huo, Dongya Jia, Chumin Li, Feiya Li, Hui Li, Jiaxin Li, Xiaoyang Li, Xingxing Li, Lin Liu, Shouda Liu, Sichao Liu, Xudong Liu, Yuchen Liu, Zhengxi Liu, Lu Lu, Junjie Pan, Xin Wang, Yuping Wang, Yuxuan Wang, Zhen Wei, Jian Wu, Chao Yao, Yifeng Yang, Yuanhao Yi, Junteng Zhang, Qidi Zhang, Shuo Zhang, Wenjie Zhang, Yang Zhang, Zilin Zhao, Dejian Zhong, Xiaobin Zhuang
38
2

Wir stellen Seed-TTS vor, eine Familie von groß angelegten autoregressiven Text-zu-Sprache (TTS) Modellen, die in der Lage sind, Sprache zu generieren, die praktisch nicht von menschlicher Sprache zu unterscheiden ist. Seed-TTS dient als Grundlagenmodell für die Spracherzeugung und zeichnet sich durch herausragende Leistungen im Bereich des sprachlichen Kontextlernens aus, wobei es in Bezug auf Sprecherähnlichkeit und Natürlichkeit Leistungen erzielt, die menschlicher Sprache in objektiven und subjektiven Bewertungen entsprechen. Durch Feinabstimmung erzielen wir sogar höhere subjektive Bewertungen in diesen Metriken. Seed-TTS bietet eine überlegene Steuerbarkeit über verschiedene Sprachmerkmale wie Emotionen und ist in der Lage, äußerst ausdrucksstarke und vielfältige Sprache für Sprecher in freier Wildbahn zu generieren. Darüber hinaus schlagen wir eine Selbstverdichtungsmethode für die Faktorisierung von Sprache vor, sowie einen verstärkenden Lernansatz zur Verbesserung der Modellrobustheit, Sprecherähnlichkeit und Steuerbarkeit. Zusätzlich präsentieren wir eine nicht-autoregressive (NAR) Variante des Seed-TTS-Modells, namens Seed-TTS_DiT, die eine vollständig auf Diffusion basierende Architektur verwendet. Im Gegensatz zu früheren NAR-basierten TTS-Systemen ist Seed-TTS_DiT nicht auf vorab geschätzte Phonemdauern angewiesen und führt die Spracherzeugung durch End-to-End-Verarbeitung durch. Wir zeigen, dass diese Variante vergleichbare Leistungen wie die auf Sprachmodellen basierende Variante erzielt und präsentieren ihre Wirksamkeit bei der Sprachbearbeitung. Wir ermutigen die Leser, Demos unter https://bytedancespeech.github.io/seedtts_tech_report anzuhören.

2

Glauben oder nicht glauben an Ihren LLM
To Believe or Not to Believe Your LLM

Jun 4
ByYasin Abbasi Yadkori, Ilja Kuzborskij, András György, Csaba Szepesvári
35
1

Wir erforschen die Quantifizierung von Unsicherheit in großen Sprachmodellen (LLMs) mit dem Ziel, zu identifizieren, wann die Unsicherheit in den Antworten auf eine Abfrage groß ist. Wir berücksichtigen gleichzeitig sowohl epistemische als auch aleatorische Unsicherheiten, wobei erstere aus dem Mangel an Wissen über die Wahrheit (wie z.B. Fakten oder die Sprache) stammen und letztere aus nicht reduzierbarer Zufälligkeit (wie z.B. mehreren möglichen Antworten) resultieren. Insbesondere leiten wir eine informationstheoretische Metrik her, die es ermöglicht, zuverlässig zu erkennen, wann nur epistemische Unsicherheit groß ist, wobei die Ausgabe des Modells in diesem Fall unzuverlässig ist. Diese Bedingung kann allein basierend auf der Ausgabe des Modells berechnet werden, die einfach durch spezielle iterative Aufforderungen basierend auf den vorherigen Antworten erhalten wird. Eine solche Quantifizierung ermöglicht es beispielsweise, Halluzinationen (Fälle, in denen die epistemische Unsicherheit hoch ist) sowohl bei Einzel- als auch bei Mehrfachantworten zu erkennen. Dies steht im Gegensatz zu vielen Standardstrategien zur Unsicherheitsquantifizierung (wie z.B. der Schwellenwertfestlegung des Log-Likelihoods einer Antwort), bei denen Halluzinationen im Fall von Mehrfachantworten nicht erkannt werden können. Wir führen eine Reihe von Experimenten durch, die den Vorteil unserer Formulierung zeigen. Darüber hinaus werfen unsere Untersuchungen etwas Licht darauf, wie die Wahrscheinlichkeiten, die einem bestimmten Output von einem LLM zugewiesen werden, durch iterative Aufforderungen verstärkt werden können, was von eigenständigem Interesse sein könnte.

3

Selbstverbessernde Robuste Präferenzoptimierung
Self-Improving Robust Preference Optimization

Jun 3
ByEugene Choi, Arash Ahmadian, Matthieu Geist, Oilvier Pietquin, Mohammad Gheshlaghi Azar
20
1

Sowohl Online- als auch Offline-RLHF-Methoden wie PPO und DPO waren äußerst erfolgreich darin, KI mit menschlichen Präferenzen in Einklang zu bringen. Trotz ihres Erfolgs leiden die bestehenden Methoden unter einem grundlegenden Problem, nämlich dass ihre optimale Lösung stark von der Aufgabe abhängt (d. h. nicht robust gegenüber Out-of-Distribution (OOD)-Aufgaben ist). Hier gehen wir auf diese Herausforderung ein, indem wir Self-Improving Robust Preference Optimization (SRPO) vorschlagen, ein praktisches und mathematisch fundiertes Offline-RLHF-Framework, das vollständig robust gegenüber Änderungen in der Aufgabe ist. Die Schlüsselidee von SRPO besteht darin, das Problem des Lernens aus menschlichen Präferenzen als einen Selbstverbesserungsprozess zu betrachten, der mathematisch als ein Min-Max-Optimierungsziel ausgedrückt werden kann, das auf die gemeinsame Optimierung der Selbstverbesserungspolitik und der generativen Politik in einem adversariellen Stil abzielt. Die Lösung für dieses Optimierungsproblem ist unabhängig von der Schulungsaufgabe und daher robust gegenüber deren Änderungen. Anschließend zeigen wir, dass dieses Ziel in Form eines nicht-adversariellen Offline-Verlusts umformuliert werden kann, der unter Verwendung von Standard-Supervised-Optimierungstechniken im großen Maßstab optimiert werden kann, ohne dass ein Belohnungsmodell und Online-Inferenz erforderlich sind. Wir zeigen die Wirksamkeit von SRPO in Bezug auf den KI-Sieganteil (WR) gegenüber menschlichen (GOLD) Abschlüssen. Insbesondere übertrifft SRPO bei der Auswertung des OOD XSUM-Datensatzes den gefeierten DPO nach 5 Selbstüberarbeitungen deutlich um 15%, wobei ein WR von 90% erreicht wird.

4

I4VGen: Bild als Ausgangspunkt für die Generierung von Text-zu-Video.
I4VGen: Image as Stepping Stone for Text-to-Video Generation

Jun 4
ByXiefan Guo, Jinlin Liu, Miaomiao Cui, Di Huang
18
3

Die Text-zu-Video-Generierung hinkt in Bezug auf Qualität und Vielfalt der Text-zu-Bild-Synthese hinterher, aufgrund der Komplexität der räumlich-zeitlichen Modellierung und begrenzter Video-Text-Datensätze. Dieses Papier stellt I4VGen vor, ein trainingsfreies und Plug-and-Play-Video-Diffusionsinferenz-Framework, das die Text-zu-Video-Generierung durch die Nutzung robuster Bildtechniken verbessert. Speziell zerlegt I4VGen die Text-zu-Video-Generierung in zwei Phasen: Ankerbildsynthese und Ankerbild-geführte Videosynthese, nach dem Text-zu-Bild-zu-Video-Ansatz. Entsprechend wird eine gut durchdachte Generationsauswahl-Pipeline eingesetzt, um visuell realistische und semantisch treue Ankerbilder zu erzielen, und eine innovative Rausch-invarianter Video-Score-Destillationsabtastung wird integriert, um das Bild zu einem dynamischen Video zu animieren, gefolgt von einem Video-Regenerationsprozess zur Verfeinerung des Videos. Diese Inferenzstrategie mildert effektiv das weit verbreitete Problem des nicht-nullen Signal-Rausch-Verhältnisses. Umfangreiche Evaluationen zeigen, dass I4VGen nicht nur Videos mit höherer visueller Realität und textueller Treue produziert, sondern sich auch nahtlos in bestehende Bild-zu-Video-Diffusionsmodelle integriert und somit die Gesamtqualität der Videos verbessert.

5

Die Steuerung eines Diffusionsmodells mit einer fehlerhaften Version desselben.
Guiding a Diffusion Model with a Bad Version of Itself

Jun 4
ByTero Karras, Miika Aittala, Tuomas Kynkäänniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine
17
1

Die Hauptachsen des Interesses bei bildgenerierenden Diffusionsmodellen sind die Bildqualität, die Menge der Variationen in den Ergebnissen und wie gut die Ergebnisse mit einer gegebenen Bedingung übereinstimmen, z. B. einem Klassenlabel oder einem Textprompt. Der beliebte leitlinienfreie Ansatz zur Führung verwendet ein bedingungsloses Modell, um ein bedingtes Modell zu führen, was zu gleichzeitig besserer Prompt-Ausrichtung und hochwertigeren Bildern auf Kosten reduzierter Variation führt. Diese Effekte scheinen inhärent verflochten zu sein und daher schwer zu kontrollieren. Wir machen die überraschende Beobachtung, dass es möglich ist, eine entwirrte Kontrolle über die Bildqualität zu erlangen, ohne die Menge der Variation zu beeinträchtigen, indem die Generierung durch eine kleinere, weniger trainierte Version des Modells selbst anstelle eines bedingungslosen Modells geführt wird. Dies führt zu signifikanten Verbesserungen bei der ImageNet-Generierung und setzt Rekord-FIDs von 1,01 für 64x64 und 1,25 für 512x512 unter Verwendung öffentlich verfügbarer Netzwerke. Darüber hinaus ist die Methode auch auf bedingungslose Diffusionsmodelle anwendbar und verbessert drastisch deren Qualität.

6

RoboCasa: Groß angelegte Simulation von alltäglichen Aufgaben für Generalisten-Roboter
RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots

Jun 4
BySoroush Nasiriany, Abhiram Maddukuri, Lance Zhang, Adeet Parikh, Aaron Lo, Abhishek Joshi, Ajay Mandlekar, Yuke Zhu
12
1

Die jüngsten Fortschritte in der Künstlichen Intelligenz (KI) wurden weitgehend durch Skalierung vorangetrieben. In der Robotik wird die Skalierung durch den Mangel an Zugang zu umfangreichen Roboterd atensätzen behindert. Wir plädieren dafür, realistische physikalische Simulationen als Mittel zur Skalierung von Umgebungen, Aufgaben und Datensätzen für Roboterlernmethoden zu nutzen. Wir stellen RoboCasa vor, ein groß angelegtes Simulationsframework zur Schulung von Generalistenrobotern in alltäglichen Umgebungen. RoboCasa bietet realistische und vielfältige Szenen mit Schwerpunkt auf Küchenumgebungen. Wir stellen Tausende von 3D-Assets in über 150 Objektkategorien und Dutzenden von interaktiven Möbeln und Geräten zur Verfügung. Wir bereichern die Realität und Vielfalt unserer Simulation mit generativen KI-Tools, wie Objekt-Assets von Text-zu-3D-Modellen und Umgebungstexturen von Text-zu-Bild-Modellen. Wir entwerfen einen Satz von 100 Aufgaben für eine systematische Bewertung, einschließlich zusammengesetzter Aufgaben, die unter Anleitung großer Sprachmodelle generiert wurden. Um das Lernen zu erleichtern, bieten wir hochwertige menschliche Demonstrationen und integrieren automatisierte Trajektoriengenerierungsmethoden, um unsere Datensätze mit minimalem menschlichen Aufwand erheblich zu erweitern. Unsere Experimente zeigen einen klaren Skalierungstrend bei der Verwendung synthetisch generierter Roboterdaten für groß angelegtes Imitationslernen und zeigen großes Potenzial bei der Nutzung von Simulationsdaten für Aufgaben in der realen Welt. Videos und Open-Source-Code sind verfügbar unter https://robocasa.ai/

7

V-Express: Bedingtes Auslassen für das progressive Training der Porträt-Videoerzeugung
V-Express: Conditional Dropout for Progressive Training of Portrait Video Generation

Jun 4
ByCong Wang, Kuan Tian, Jun Zhang, Yonghang Guan, Feng Luo, Fei Shen, Zhiwei Jiang, Qing Gu, Xiao Han, Wei Yang
11
2

Im Bereich der Porträtvideoerstellung hat die Verwendung einzelner Bilder zur Generierung von Porträtvideos zunehmend an Bedeutung gewonnen. Ein gängiger Ansatz besteht darin, generative Modelle zu nutzen, um Adapter zur kontrollierten Generierung zu verbessern. Allerdings können Steuersignale (z. B. Text, Audio, Referenzbild, Pose, Tiefenkarte usw.) in ihrer Stärke variieren. Unter diesen Bedingungen haben schwächere Signale oft Schwierigkeiten, effektiv zu sein, da sie durch stärkere Bedingungen gestört werden, was eine Herausforderung bei der Balance dieser Bedingungen darstellt. In unserer Arbeit zur Porträtvideoerstellung haben wir Audiosignale als besonders schwach identifiziert, die oft von stärkeren Signalen wie Gesichtspose und Referenzbild überschattet werden. Direktes Training mit schwachen Signalen führt jedoch oft zu Konvergenzschwierigkeiten. Um dies zu lösen, schlagen wir V-Express vor, eine einfache Methode, die verschiedene Steuersignale durch das progressive Training und die bedingte Auslassung ausbalanciert. Unsere Methode ermöglicht allmählich eine effektive Steuerung durch schwache Bedingungen und erreicht so Generierungsfähigkeiten, die gleichzeitig die Gesichtspose, das Referenzbild und das Audio berücksichtigen. Die experimentellen Ergebnisse zeigen, dass unsere Methode Porträtvideos effektiv generieren kann, die durch Audio gesteuert werden. Darüber hinaus wird eine potenzielle Lösung für die gleichzeitige und effektive Nutzung von Bedingungen unterschiedlicher Stärke bereitgestellt.

8

CamCo: Kamera-steuerbare 3D-konsistente Bild-zu-Video-Generierung
CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation

Jun 4
ByDejia Xu, Weili Nie, Chao Liu, Sifei Liu, Jan Kautz, Zhangyang Wang, Arash Vahdat
10
4

In letzter Zeit sind Videoverbreitungsmodelle als expressive generative Werkzeuge für die Erstellung hochwertiger Videoinhalte aufgetaucht, die allgemeinen Benutzern leicht zugänglich sind. Diese Modelle bieten jedoch oft keine präzise Kontrolle über Kamerapositionen für die Videogenerierung, was die Ausdrucksmöglichkeiten der filmischen Sprache und die Benutzerkontrolle einschränkt. Um dieses Problem zu lösen, stellen wir CamCo vor, das eine feingliedrige Steuerung der Kameraposition für die Bild-zu-Video-Generierung ermöglicht. Wir rüsten einen vorab trainierten Bild-zu-Video-Generator mit genau parametrisierten Kamerapositionseingaben unter Verwendung von Plücker-Koordinaten aus. Um die 3D-Konsistenz in den produzierten Videos zu verbessern, integrieren wir in jeden Aufmerksamkeitsblock ein epipolares Aufmerksamkeitsmodul, das epipolare Einschränkungen auf die Merkmalskarten erzwingt. Darüber hinaus verfeinern wir CamCo anhand von realen Videos mit Kamerapositionen, die durch Struktur-aus-Bewegung-Algorithmen geschätzt wurden, um die Objektbewegung besser zu synthetisieren. Unsere Experimente zeigen, dass CamCo die 3D-Konsistenz und die Kamerasteuerungsfähigkeiten im Vergleich zu früheren Modellen signifikant verbessert, während plausible Objektbewegungen effektiv generiert werden. Projektseite: https://ir1d.github.io/CamCo/

Jun 4
Jun 5
Jun 6