ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

BASE TTS: Erkenntnisse aus der Entwicklung eines Text-zu-Sprache-Modells mit einer Milliarde Parametern auf Basis von 100.000 Stunden Daten
BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data

Feb 12
ByMateusz Łajszczak, Guillermo Cámbara, Yang Li, Fatih Beyhan, Arent van Korlaar, Fan Yang, Arnaud Joly, Álvaro Martín-Cortinas, Ammar Abbas, Adam Michalski, Alexis Moinet, Sri Karlapati, Ewa Muszyńska, Haohan Guo, Bartosz Putrycz, Soledad López Gambino, Kayeon Yoo, Elena Sokolova, Thomas Drugman
62
9

Wir stellen ein Text-zu-Sprache-Modell (TTS) namens BASE TTS vor, das für Big Adaptive Streamable TTS with Emergent Abilities steht. BASE TTS ist das bisher größte TTS-Modell, das mit 100.000 Stunden öffentlich zugänglicher Sprachdaten trainiert wurde und einen neuen Stand der Technik in Bezug auf die Natürlichkeit der Sprache erreicht. Es verwendet einen autoregressiven Transformer mit 1 Milliarde Parametern, der Rohtexte in diskrete Codes („Speechcodes“) umwandelt, gefolgt von einem convolution-basierten Decoder, der diese Speechcodes in einem inkrementellen, streamfähigen Verfahren in Wellenformen umsetzt. Darüber hinaus werden unsere Speechcodes mit einer neuartigen Sprach-Tokenisierungstechnik erstellt, die eine Sprecher-ID-Entflechtung und Kompression mittels Byte-Pair-Encoding ermöglicht. In Anlehnung an die weit verbreiteten „emergenten Fähigkeiten“ großer Sprachmodelle, die bei zunehmendem Datenvolumen beobachtet werden, zeigen wir, dass BASE TTS-Varianten, die mit 10.000+ Stunden und 500 Millionen+ Parametern aufgebaut sind, beginnen, natürliche Prosodie bei textlich komplexen Sätzen zu demonstrieren. Wir entwerfen und teilen einen spezialisierten Datensatz, um diese emergenten Fähigkeiten für Text-zu-Sprache zu messen. Wir präsentieren die state-of-the-art Natürlichkeit von BASE TTS durch die Evaluierung gegen Baselines, die öffentlich verfügbare groß angelegte Text-zu-Sprache-Systeme umfassen: YourTTS, Bark und TortoiseTTS. Audio-Beispiele, die vom Modell generiert wurden, können unter https://amazon-ltts-paper.com/ angehört werden.

2

Weltmodell auf Millionen-Länge Video und Sprache mit RingAttention
World Model on Million-Length Video And Language With RingAttention

Feb 13
ByHao Liu, Wilson Yan, Matei Zaharia, Pieter Abbeel
40
5

Aktuelle Sprachmodelle haben Schwierigkeiten, Aspekte der Welt zu verstehen, die sich nicht leicht in Worte fassen lassen, und kämpfen mit komplexen, langfristigen Aufgaben. Videosequenzen bieten wertvolle zeitliche Informationen, die in Sprache und statischen Bildern fehlen, was sie attraktiv für die gemeinsame Modellierung mit Sprache macht. Solche Modelle könnten ein Verständnis sowohl für menschliches Textwissen als auch für die physische Welt entwickeln und damit breitere KI-Fähigkeiten zur Unterstützung von Menschen ermöglichen. Das Lernen aus Millionen von Token aus Video- und Sprachsequenzen stellt jedoch aufgrund von Speicherbeschränkungen, Rechenkomplexität und begrenzten Datensätzen Herausforderungen dar. Um diese Herausforderungen zu bewältigen, haben wir einen großen Datensatz mit diversen Videos und Büchern zusammengestellt, die RingAttention-Technik eingesetzt, um skalierbar auf langen Sequenzen zu trainieren, und die Kontextgröße schrittweise von 4K auf 1M Token erhöht. Diese Arbeit leistet die folgenden Beiträge: (a) Neuronales Netzwerk mit der größten Kontextgröße: Wir trainieren eines der größten Transformer-Modelle mit langer Kontextgröße auf langen Video- und Sprachsequenzen und setzen neue Maßstäbe bei schwierigen Retrieval-Aufgaben und dem Verständnis langer Videos. (b) Lösungen zur Bewältigung der Herausforderungen beim Training von Vision-Sprache-Modellen, einschließlich der Verwendung von Masked Sequence Packing zur Vermischung unterschiedlicher Sequenzlängen, Loss Weighting zur Balance zwischen Sprache und Vision und einem modellgenerierten Frage-Antwort-Datensatz für lange Sequenzen im Chat. (c) Eine hochoptimierte Implementierung mit RingAttention, Masked Sequence Packing und anderen Schlüsselmerkmalen für das Training auf multimodalen Sequenzen mit Millionen von Token. (d) Vollständig quelloffene Familie von 7B-Parameter-Modellen, die in der Lage sind, lange Textdokumente (LWM-Text, LWM-Text-Chat) und Videos (LWM, LWM-Chat) mit über 1M Token zu verarbeiten. Diese Arbeit ebnet den Weg für das Training auf massiven Datensätzen aus langen Videos und Sprache, um ein Verständnis sowohl für menschliches Wissen als auch für die multimodale Welt und breitere Fähigkeiten zu entwickeln.

3

Mischungen von Experten ermöglichen die Skalierung von Parametern für Deep Reinforcement Learning
Mixtures of Experts Unlock Parameter Scaling for Deep RL

Feb 13
ByJohan Obando-Ceron, Ghada Sokar, Timon Willi, Clare Lyle, Jesse Farebrother, Jakob Foerster, Gintare Karolina Dziugaite, Doina Precup, Pablo Samuel Castro
36
2

Der jüngste rasche Fortschritt bei (selbst) überwachten Lernmodellen wird größtenteils durch empirische Skalierungsgesetze vorhergesagt: Die Leistung eines Modells skaliert proportional zu seiner Größe. Analoge Skalierungsgesetze bleiben jedoch in Bereichen des Reinforcement Learning schwer fassbar, wo eine Erhöhung der Parameteranzahl eines Modells oft dessen Endleistung beeinträchtigt. In dieser Arbeit zeigen wir, dass die Integration von Mixture-of-Expert (MoE)-Modulen, insbesondere Soft MoEs (Puigcerver et al., 2023), in wertbasierte Netzwerke zu Modellen mit besserer Parameter-Skalierbarkeit führt, was durch erhebliche Leistungssteigerungen über eine Vielzahl von Trainingsregimen und Modellgrößen hinweg belegt wird. Diese Arbeit liefert somit starke empirische Belege für die Entwicklung von Skalierungsgesetzen im Reinforcement Learning.

4

Lumos: Stärkung multimodaler LLMs durch Szenentext-Erkennung
Lumos : Empowering Multimodal LLMs with Scene Text Recognition

Feb 12
ByAshish Shenoy, Yichao Lu, Srihari Jayakumar, Debojeet Chatterjee, Mohsen Moslehpour, Pierce Chuang, Abhay Harpale, Vikas Bhardwaj, Di Xu, Shicong Zhao, Longfang Zhao, Ankit Ramchandani, Xin Luna Dong, Anuj Kumar
27
2

Wir stellen Lumos vor, das erste end-to-end multimodale Frage-Antwort-System mit Textverständnisfähigkeiten. Im Kern von Lumos befindet sich eine Scene Text Recognition (STR)-Komponente, die Text aus Bildern aus der Ego-Perspektive extrahiert. Die Ausgabe dieser Komponente wird verwendet, um den Eingang eines Multimodalen Large Language Models (MM-LLM) zu erweitern. Beim Aufbau von Lumos sahen wir uns zahlreichen Herausforderungen in Bezug auf die STR-Qualität, die Gesamtlatenz und die Modellinferenz gegenüber. In diesem Artikel gehen wir auf diese Herausforderungen ein und diskutieren die Systemarchitektur, Designentscheidungen und Modellierungstechniken, die eingesetzt wurden, um diese Hindernisse zu überwinden. Zudem bieten wir eine umfassende Bewertung für jede Komponente, die hohe Qualität und Effizienz demonstriert.

5

Graph Mamba: Auf dem Weg zum Lernen auf Graphen mit State-Space-Modellen
Graph Mamba: Towards Learning on Graphs with State Space Models

Feb 13
ByAli Behrouz, Farnoosh Hashemi
17
1

Graph Neural Networks (GNNs) haben vielversprechendes Potenzial im Bereich des Graph-Representation-Learnings gezeigt. Die Mehrheit der GNNs definiert einen lokalen Nachrichtenübermittlungsmechanismus, der Informationen über den Graphen durch das Stapeln mehrerer Schichten weiterleitet. Diese Methoden leiden jedoch bekanntermaßen unter zwei wesentlichen Einschränkungen: Over-Squashing und einer unzureichenden Erfassung von langreichweitigen Abhängigkeiten. Kürzlich sind Graph Transformers (GTs) als leistungsstarke Alternative zu Message-Passing Neural Networks (MPNNs) aufgetaucht. GTs haben jedoch quadratische Rechenkosten, fehlende induktive Verzerrungen auf Graphstrukturen und sind auf komplexe Positional/Structural Encodings (SE/PE) angewiesen. In diesem Artikel zeigen wir, dass zwar Transformers, komplexe Nachrichtenübermittlung und SE/PE in der Praxis für eine gute Leistung ausreichen, jedoch keines davon notwendig ist. Motiviert durch den jüngsten Erfolg von State Space Models (SSMs), wie Mamba, präsentieren wir Graph Mamba Networks (GMNs), ein allgemeines Framework für eine neue Klasse von GNNs, die auf selektiven SSMs basieren. Wir diskutieren und kategorisieren die neuen Herausforderungen bei der Anwendung von SSMs auf graphstrukturierte Daten und stellen vier erforderliche und einen optionalen Schritt zur Gestaltung von GMNs vor, bei denen wir (1) Neighborhood Tokenization, (2) Token Ordering, (3) Architektur des Bidirektionalen Selektiven SSM Encoders, (4) Local Encoding und optional (5) PE und SE wählen. Wir liefern weiterhin eine theoretische Begründung für die Leistungsfähigkeit von GMNs. Experimente zeigen, dass GMNs trotz deutlich geringerer Rechenkosten eine herausragende Leistung in langreichweitigen, kleinskaligen, großskaligen und heterophilen Benchmark-Datensätzen erzielen.

6

UFO: Ein auf die Benutzeroberfläche fokussierter Agent für die Interaktion mit dem Windows-Betriebssystem
UFO: A UI-Focused Agent for Windows OS Interaction

Feb 8
ByChaoyun Zhang, Liqun Li, Shilin He, Xu Zhang, Bo Qiao, Si Qin, Minghua Ma, Yu Kang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
17
3

Wir stellen UFO vor, einen innovativen, auf Benutzeroberflächen (UI) fokussierten Agenten, der Benutzeranfragen erfüllt, die auf Anwendungen unter Windows OS zugeschnitten sind, und dabei die Fähigkeiten von GPT-Vision nutzt. UFO verwendet ein Dual-Agenten-Framework, um die grafische Benutzeroberfläche (GUI) und die Steuerungsinformationen von Windows-Anwendungen sorgfältig zu beobachten und zu analysieren. Dies ermöglicht es dem Agenten, nahtlos innerhalb einzelner Anwendungen und übergreifend zwischen ihnen zu navigieren und zu operieren, um Benutzeranfragen zu erfüllen, selbst wenn diese mehrere Anwendungen umfassen. Das Framework integriert ein Steuerungsinteraktionsmodul, das die Handlungsverankerung ohne menschliches Eingreifen erleichtert und eine vollständig automatisierte Ausführung ermöglicht. Dadurch verwandelt UFO mühsame und zeitaufwändige Prozesse in einfache Aufgaben, die ausschließlich durch natürliche Sprachbefehle bewältigt werden können. Wir haben UFO in 9 beliebten Windows-Anwendungen getestet, die eine Vielzahl von Szenarien abdecken, die die tägliche Nutzung der Benutzer widerspiegeln. Die Ergebnisse, die sowohl aus quantitativen Metriken als auch aus realen Fallstudien abgeleitet wurden, unterstreichen die überragende Effektivität von UFO bei der Erfüllung von Benutzeranfragen. Nach unserem besten Wissen ist UFO der erste UI-Agent, der speziell für die Aufgabenerledigung in der Windows-OS-Umgebung entwickelt wurde. Der Open-Source-Code für UFO ist auf https://github.com/microsoft/UFO verfügbar.

7

ChatCell: Vereinfachung der Einzelzellanalyse mit natürlicher Sprache
ChatCell: Facilitating Single-Cell Analysis with Natural Language

Feb 13
ByYin Fang, Kangwei Liu, Ningyu Zhang, Xinle Deng, Penghui Yang, Zhuo Chen, Xiangru Tang, Mark Gerstein, Xiaohui Fan, Huajun Chen
14
4

Während sich Large Language Models (LLMs) rasant weiterentwickeln, wird ihr Einfluss in der Wissenschaft zunehmend bedeutender. Die aufkommenden Fähigkeiten von LLMs in der Aufgabenverallgemeinerung und im freien Dialog können Bereiche wie Chemie und Biologie erheblich voranbringen. Dennoch steht das Feld der Einzelzellbiologie, das die grundlegenden Bausteine lebender Organismen darstellt, vor mehreren Herausforderungen. Hohe Wissensbarrieren und begrenzte Skalierbarkeit aktueller Methoden schränken die vollständige Nutzung von LLMs bei der Beherrschung von Einzelzelldaten ein, was den direkten Zugang und schnelle Iterationen behindert. Aus diesem Grund stellen wir ChatCell vor, das einen Paradigmenwechsel einleitet, indem es die Einzelzellanalyse mit natürlicher Sprache ermöglicht. Durch Vokabelanpassung und einheitliche Sequenzgenerierung hat ChatCell fundiertes Fachwissen in der Einzelzellbiologie und die Fähigkeit erworben, eine Vielzahl von Analyseaufgaben zu bewältigen. Umfangreiche Experimente zeigen zudem die robuste Leistung von ChatCell und sein Potenzial, Einblicke in die Einzelzellbiologie zu vertiefen, wodurch der Weg für einen zugänglicheren und intuitiveren Zugang in diesem zentralen Bereich geebnet wird. Unsere Projekt-Homepage ist unter https://zjunlp.github.io/project/ChatCell verfügbar.

8

IM-3D: Iterative Multiview-Diffusion und Rekonstruktion für hochwertige 3D-Generierung
IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality 3D Generation

Feb 13
ByLuke Melas-Kyriazi, Iro Laina, Christian Rupprecht, Natalia Neverova, Andrea Vedaldi, Oran Gafni, Filippos Kokkinos
14
1

Die meisten Text-zu-3D-Generatoren basieren auf vorgefertigten Text-zu-Bild-Modellen, die mit Milliarden von Bildern trainiert wurden. Sie verwenden Varianten von Score Distillation Sampling (SDS), das langsam, etwas instabil und anfällig für Artefakte ist. Eine Abhilfe besteht darin, den 2D-Generator feinzutunen, um ihn multi-view-fähig zu machen, was die Destillation unterstützen oder mit Rekonstruktionsnetzwerken kombiniert werden kann, um direkt 3D-Objekte zu erzeugen. In diesem Papier untersuchen wir den Designraum von Text-zu-3D-Modellen weiter. Wir verbessern die Multi-View-Generierung erheblich, indem wir Video- statt Bildgeneratoren verwenden. In Kombination mit einem 3D-Rekonstruktionsalgorithmus, der durch die Verwendung von Gaussian Splatting einen robusten bildbasierten Verlust optimieren kann, erzeugen wir direkt hochwertige 3D-Ausgaben aus den generierten Ansichten. Unsere neue Methode, IM-3D, reduziert die Anzahl der Auswertungen des 2D-Generator-Netzwerks um das 10- bis 100-fache, was zu einer wesentlich effizienteren Pipeline, besserer Qualität, weniger geometrischen Inkonsistenzen und einer höheren Ausbeute an nutzbaren 3D-Assets führt.

9

Lernen kontinuierlicher 3D-Wörter für die Text-zu-Bild-Generierung
Learning Continuous 3D Words for Text-to-Image Generation

Feb 13
ByTa-Ying Cheng, Matheus Gadelha, Thibault Groueix, Matthew Fisher, Radomir Mech, Andrew Markham, Niki Trigoni
12
4

Aktuelle Steuerungsmethoden für Diffusionsmodelle (z. B. durch Text oder ControlNet) bei der Bildgenerierung sind unzureichend, wenn es darum geht, abstrakte, kontinuierliche Attribute wie Beleuchtungsrichtung oder nicht-rigide Formveränderungen zu erkennen. In diesem Artikel präsentieren wir einen Ansatz, der Nutzern von Text-zu-Bild-Modellen eine fein abgestimmte Kontrolle über mehrere Attribute in einem Bild ermöglicht. Dies erreichen wir durch die Entwicklung spezieller Eingabe-Token, die auf kontinuierliche Weise transformiert werden können – wir nennen sie Continuous 3D Words. Diese Attribute können beispielsweise als Schieberegler dargestellt und gemeinsam mit Textanweisungen für eine präzise Steuerung der Bildgenerierung verwendet werden. Mit nur einem einzigen Mesh und einem Rendering-Engine zeigen wir, dass unser Ansatz genutzt werden kann, um eine kontinuierliche Benutzerkontrolle über mehrere 3D-bewusste Attribute zu bieten, darunter Tageszeitbeleuchtung, Flügelausrichtung von Vögeln, Dollyzoom-Effekt und Objektposen. Unsere Methode ermöglicht die Bedingung der Bildgenerierung mit mehreren Continuous 3D Words und Textbeschreibungen gleichzeitig, ohne zusätzlichen Aufwand für den Generierungsprozess zu verursachen. Projektseite: https://ttchengab.github.io/continuous_3d_words

10

Tandem-Transformer für recheneffiziente große Sprachmodelle
Tandem Transformers for Inference Efficient LLMs

Feb 13
ByAishwarya P S, Pranav Ajit Nair, Yashas Samaga, Toby Boyd, Sanjiv Kumar, Prateek Jain, Praneeth Netrapalli
10
1

Die autoregressive Natur konventioneller großer Sprachmodelle (LLMs) begrenzt die Inferenzgeschwindigkeit inhärent, da Token sequenziell generiert werden. Während spekulative und parallele Dekodierungstechniken versuchen, dies zu mildern, stoßen sie an Grenzen: Entweder verlassen sie sich auf weniger präzise kleinere Modelle für die Generierung oder nutzen die Repräsentationen des Basis-LLMs nicht vollständig aus. Wir stellen eine neuartige Architektur, Tandem-Transformer, vor, um diese Probleme zu adressieren. Diese Architektur kombiniert einzigartig (1) ein kleines autoregressives Modell und (2) ein großes Modell, das im Blockmodus arbeitet (mehrere Token gleichzeitig verarbeitet). Die Vorhersagegenauigkeit des kleinen Modells wird erheblich verbessert, indem es Zugang zu den reicheren Repräsentationen des großen Modells erhält. Auf dem PaLM2-Pretraining-Datensatz zeigt ein Tandem aus PaLM2-Bison und PaLM2-Gecko eine Verbesserung der nächsten Token-Vorhersagegenauigkeit um 3,3 % gegenüber einem eigenständigen PaLM2-Gecko und bietet eine Beschleunigung um das 1,16-fache im Vergleich zu einem PaLM2-Otter-Modell mit vergleichbarer Downstream-Leistung. Wir integrieren das Tandem-Modell weiterhin in das spekulative Dekodierungsframework (SPEED), bei dem das große Modell die Token des kleinen Modells validiert. Dies stellt sicher, dass das Tandem aus PaLM2-Bison und PaLM2-Gecko eine erhebliche Beschleunigung erreicht (etwa 1,14-mal schneller als die Verwendung von standardmäßigem PaLM2-Gecko in SPEED), während die Genauigkeit bei Downstream-Aufgaben identisch bleibt.

11

Vision-basierte Anpassung von Handgesten aus einer einzigen Demonstration
Vision-Based Hand Gesture Customization from a Single Demonstration

Feb 13
BySoroush Shahi, Cori Tymoszek Park, Richard Kang, Asaf Liberman, Oron Levy, Jun Gong, Abdelkareem Bedri, Gierad Laput
9
2

Die Erkennung von Handgesten entwickelt sich zu einer immer verbreiteteren Form der Mensch-Computer-Interaktion, insbesondere da Kameras in Alltagsgeräten zunehmend präsent sind. Trotz fortlaufender Fortschritte auf diesem Gebiet wird die Anpassung von Gesten oft vernachlässigt. Diese Anpassung ist jedoch entscheidend, da sie Benutzern ermöglicht, Gesten zu definieren und zu demonstrieren, die natürlicher, einprägsamer und zugänglicher sind. Allerdings erfordert die Anpassung eine effiziente Nutzung der vom Benutzer bereitgestellten Daten. Wir stellen eine Methode vor, die es Benutzern ermöglicht, maßgeschneiderte Gesten mit einer monokularen Kamera anhand einer einzigen Demonstration einfach zu entwerfen. Wir verwenden Transformer und Meta-Learning-Techniken, um die Herausforderungen des Few-Shot-Learnings zu bewältigen. Im Gegensatz zu früheren Arbeiten unterstützt unsere Methode jede Kombination von einhändigen, beidhändigen, statischen und dynamischen Gesten, einschließlich verschiedener Blickwinkel. Wir haben unsere Anpassungsmethode durch eine Benutzerstudie mit 20 Gesten, die von 21 Teilnehmern gesammelt wurden, evaluiert und erreichten eine durchschnittliche Erkennungsgenauigkeit von bis zu 97 % anhand einer einzigen Demonstration. Unsere Arbeit bietet einen praktikablen Ansatz für die visuell basierte Anpassung von Gesten und legt die Grundlage für zukünftige Fortschritte in diesem Bereich.

12

NeRF-Analogien: Beispielbasierte Übertragung visueller Attribute für NeRFs
NeRF Analogies: Example-Based Visual Attribute Transfer for NeRFs

Feb 13
ByMichael Fischer, Zhengqin Li, Thu Nguyen-Phuoc, Aljaz Bozic, Zhao Dong, Carl Marshall, Tobias Ritschel
6
1

Ein Neural Radiance Field (NeRF) kodiert die spezifische Beziehung zwischen der 3D-Geometrie und dem Erscheinungsbild einer Szene. Wir stellen hier die Frage, ob wir das Erscheinungsbild von einem Quell-NeRF auf eine Ziel-3D-Geometrie in einer semantisch sinnvollen Weise übertragen können, sodass das resultierende neue NeRF die Zielgeometrie beibehält, aber ein Erscheinungsbild aufweist, das eine Analogie zum Quell-NeRF darstellt. Zu diesem Zweck verallgemeinern wir klassische Bildanalogien von 2D-Bildern auf NeRFs. Wir nutzen die Übertragung von Korrespondenzen entlang semantischer Affinität, die durch semantische Merkmale aus großen, vortrainierten 2D-Bildmodellen angetrieben wird, um eine multi-view-konsistente Übertragung des Erscheinungsbilds zu erreichen. Unsere Methode ermöglicht die Erkundung des Mix-and-Match-Produktraums von 3D-Geometrie und Erscheinungsbild. Wir zeigen, dass unsere Methode traditionelle Stilisierungsmethoden übertrifft und dass eine große Mehrheit der Benutzer unsere Methode mehreren typischen Baseline-Ansätzen vorzieht.

Feb 13
Feb 14
Feb 15