Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen ein Text-zu-Sprache-Modell (TTS) namens BASE TTS vor, das für Big Adaptive Streamable TTS with Emergent Abilities steht. BASE TTS ist das bisher größte TTS-Modell, das mit 100.000 Stunden öffentlich zugänglicher Sprachdaten trainiert wurde und einen neuen Stand der Technik in Bezug auf die Natürlichkeit der Sprache erreicht. Es verwendet einen autoregressiven Transformer mit 1 Milliarde Parametern, der Rohtexte in diskrete Codes („Speechcodes“) umwandelt, gefolgt von einem convolution-basierten Decoder, der diese Speechcodes in einem inkrementellen, streamfähigen Verfahren in Wellenformen umsetzt. Darüber hinaus werden unsere Speechcodes mit einer neuartigen Sprach-Tokenisierungstechnik erstellt, die eine Sprecher-ID-Entflechtung und Kompression mittels Byte-Pair-Encoding ermöglicht. In Anlehnung an die weit verbreiteten „emergenten Fähigkeiten“ großer Sprachmodelle, die bei zunehmendem Datenvolumen beobachtet werden, zeigen wir, dass BASE TTS-Varianten, die mit 10.000+ Stunden und 500 Millionen+ Parametern aufgebaut sind, beginnen, natürliche Prosodie bei textlich komplexen Sätzen zu demonstrieren. Wir entwerfen und teilen einen spezialisierten Datensatz, um diese emergenten Fähigkeiten für Text-zu-Sprache zu messen. Wir präsentieren die state-of-the-art Natürlichkeit von BASE TTS durch die Evaluierung gegen Baselines, die öffentlich verfügbare groß angelegte Text-zu-Sprache-Systeme umfassen: YourTTS, Bark und TortoiseTTS. Audio-Beispiele, die vom Modell generiert wurden, können unter https://amazon-ltts-paper.com/ angehört werden.
Aktuelle Sprachmodelle haben Schwierigkeiten, Aspekte der Welt zu verstehen, die sich nicht leicht in Worte fassen lassen, und kämpfen mit komplexen, langfristigen Aufgaben. Videosequenzen bieten wertvolle zeitliche Informationen, die in Sprache und statischen Bildern fehlen, was sie attraktiv für die gemeinsame Modellierung mit Sprache macht. Solche Modelle könnten ein Verständnis sowohl für menschliches Textwissen als auch für die physische Welt entwickeln und damit breitere KI-Fähigkeiten zur Unterstützung von Menschen ermöglichen. Das Lernen aus Millionen von Token aus Video- und Sprachsequenzen stellt jedoch aufgrund von Speicherbeschränkungen, Rechenkomplexität und begrenzten Datensätzen Herausforderungen dar. Um diese Herausforderungen zu bewältigen, haben wir einen großen Datensatz mit diversen Videos und Büchern zusammengestellt, die RingAttention-Technik eingesetzt, um skalierbar auf langen Sequenzen zu trainieren, und die Kontextgröße schrittweise von 4K auf 1M Token erhöht. Diese Arbeit leistet die folgenden Beiträge: (a) Neuronales Netzwerk mit der größten Kontextgröße: Wir trainieren eines der größten Transformer-Modelle mit langer Kontextgröße auf langen Video- und Sprachsequenzen und setzen neue Maßstäbe bei schwierigen Retrieval-Aufgaben und dem Verständnis langer Videos. (b) Lösungen zur Bewältigung der Herausforderungen beim Training von Vision-Sprache-Modellen, einschließlich der Verwendung von Masked Sequence Packing zur Vermischung unterschiedlicher Sequenzlängen, Loss Weighting zur Balance zwischen Sprache und Vision und einem modellgenerierten Frage-Antwort-Datensatz für lange Sequenzen im Chat. (c) Eine hochoptimierte Implementierung mit RingAttention, Masked Sequence Packing und anderen Schlüsselmerkmalen für das Training auf multimodalen Sequenzen mit Millionen von Token. (d) Vollständig quelloffene Familie von 7B-Parameter-Modellen, die in der Lage sind, lange Textdokumente (LWM-Text, LWM-Text-Chat) und Videos (LWM, LWM-Chat) mit über 1M Token zu verarbeiten. Diese Arbeit ebnet den Weg für das Training auf massiven Datensätzen aus langen Videos und Sprache, um ein Verständnis sowohl für menschliches Wissen als auch für die multimodale Welt und breitere Fähigkeiten zu entwickeln.
Der jüngste rasche Fortschritt bei (selbst) überwachten Lernmodellen wird größtenteils durch empirische Skalierungsgesetze vorhergesagt: Die Leistung eines Modells skaliert proportional zu seiner Größe. Analoge Skalierungsgesetze bleiben jedoch in Bereichen des Reinforcement Learning schwer fassbar, wo eine Erhöhung der Parameteranzahl eines Modells oft dessen Endleistung beeinträchtigt. In dieser Arbeit zeigen wir, dass die Integration von Mixture-of-Expert (MoE)-Modulen, insbesondere Soft MoEs (Puigcerver et al., 2023), in wertbasierte Netzwerke zu Modellen mit besserer Parameter-Skalierbarkeit führt, was durch erhebliche Leistungssteigerungen über eine Vielzahl von Trainingsregimen und Modellgrößen hinweg belegt wird. Diese Arbeit liefert somit starke empirische Belege für die Entwicklung von Skalierungsgesetzen im Reinforcement Learning.
Wir stellen Lumos vor, das erste end-to-end multimodale Frage-Antwort-System mit Textverständnisfähigkeiten. Im Kern von Lumos befindet sich eine Scene Text Recognition (STR)-Komponente, die Text aus Bildern aus der Ego-Perspektive extrahiert. Die Ausgabe dieser Komponente wird verwendet, um den Eingang eines Multimodalen Large Language Models (MM-LLM) zu erweitern. Beim Aufbau von Lumos sahen wir uns zahlreichen Herausforderungen in Bezug auf die STR-Qualität, die Gesamtlatenz und die Modellinferenz gegenüber. In diesem Artikel gehen wir auf diese Herausforderungen ein und diskutieren die Systemarchitektur, Designentscheidungen und Modellierungstechniken, die eingesetzt wurden, um diese Hindernisse zu überwinden. Zudem bieten wir eine umfassende Bewertung für jede Komponente, die hohe Qualität und Effizienz demonstriert.
Graph Neural Networks (GNNs) haben vielversprechendes Potenzial im Bereich des Graph-Representation-Learnings gezeigt. Die Mehrheit der GNNs definiert einen lokalen Nachrichtenübermittlungsmechanismus, der Informationen über den Graphen durch das Stapeln mehrerer Schichten weiterleitet. Diese Methoden leiden jedoch bekanntermaßen unter zwei wesentlichen Einschränkungen: Over-Squashing und einer unzureichenden Erfassung von langreichweitigen Abhängigkeiten. Kürzlich sind Graph Transformers (GTs) als leistungsstarke Alternative zu Message-Passing Neural Networks (MPNNs) aufgetaucht. GTs haben jedoch quadratische Rechenkosten, fehlende induktive Verzerrungen auf Graphstrukturen und sind auf komplexe Positional/Structural Encodings (SE/PE) angewiesen. In diesem Artikel zeigen wir, dass zwar Transformers, komplexe Nachrichtenübermittlung und SE/PE in der Praxis für eine gute Leistung ausreichen, jedoch keines davon notwendig ist. Motiviert durch den jüngsten Erfolg von State Space Models (SSMs), wie Mamba, präsentieren wir Graph Mamba Networks (GMNs), ein allgemeines Framework für eine neue Klasse von GNNs, die auf selektiven SSMs basieren. Wir diskutieren und kategorisieren die neuen Herausforderungen bei der Anwendung von SSMs auf graphstrukturierte Daten und stellen vier erforderliche und einen optionalen Schritt zur Gestaltung von GMNs vor, bei denen wir (1) Neighborhood Tokenization, (2) Token Ordering, (3) Architektur des Bidirektionalen Selektiven SSM Encoders, (4) Local Encoding und optional (5) PE und SE wählen. Wir liefern weiterhin eine theoretische Begründung für die Leistungsfähigkeit von GMNs. Experimente zeigen, dass GMNs trotz deutlich geringerer Rechenkosten eine herausragende Leistung in langreichweitigen, kleinskaligen, großskaligen und heterophilen Benchmark-Datensätzen erzielen.
Wir stellen UFO vor, einen innovativen, auf Benutzeroberflächen (UI) fokussierten Agenten, der Benutzeranfragen erfüllt, die auf Anwendungen unter Windows OS zugeschnitten sind, und dabei die Fähigkeiten von GPT-Vision nutzt. UFO verwendet ein Dual-Agenten-Framework, um die grafische Benutzeroberfläche (GUI) und die Steuerungsinformationen von Windows-Anwendungen sorgfältig zu beobachten und zu analysieren. Dies ermöglicht es dem Agenten, nahtlos innerhalb einzelner Anwendungen und übergreifend zwischen ihnen zu navigieren und zu operieren, um Benutzeranfragen zu erfüllen, selbst wenn diese mehrere Anwendungen umfassen. Das Framework integriert ein Steuerungsinteraktionsmodul, das die Handlungsverankerung ohne menschliches Eingreifen erleichtert und eine vollständig automatisierte Ausführung ermöglicht. Dadurch verwandelt UFO mühsame und zeitaufwändige Prozesse in einfache Aufgaben, die ausschließlich durch natürliche Sprachbefehle bewältigt werden können. Wir haben UFO in 9 beliebten Windows-Anwendungen getestet, die eine Vielzahl von Szenarien abdecken, die die tägliche Nutzung der Benutzer widerspiegeln. Die Ergebnisse, die sowohl aus quantitativen Metriken als auch aus realen Fallstudien abgeleitet wurden, unterstreichen die überragende Effektivität von UFO bei der Erfüllung von Benutzeranfragen. Nach unserem besten Wissen ist UFO der erste UI-Agent, der speziell für die Aufgabenerledigung in der Windows-OS-Umgebung entwickelt wurde. Der Open-Source-Code für UFO ist auf https://github.com/microsoft/UFO verfügbar.
Die meisten Text-zu-3D-Generatoren basieren auf vorgefertigten Text-zu-Bild-Modellen, die mit Milliarden von Bildern trainiert wurden. Sie verwenden Varianten von Score Distillation Sampling (SDS), das langsam, etwas instabil und anfällig für Artefakte ist. Eine Abhilfe besteht darin, den 2D-Generator feinzutunen, um ihn multi-view-fähig zu machen, was die Destillation unterstützen oder mit Rekonstruktionsnetzwerken kombiniert werden kann, um direkt 3D-Objekte zu erzeugen. In diesem Papier untersuchen wir den Designraum von Text-zu-3D-Modellen weiter. Wir verbessern die Multi-View-Generierung erheblich, indem wir Video- statt Bildgeneratoren verwenden. In Kombination mit einem 3D-Rekonstruktionsalgorithmus, der durch die Verwendung von Gaussian Splatting einen robusten bildbasierten Verlust optimieren kann, erzeugen wir direkt hochwertige 3D-Ausgaben aus den generierten Ansichten. Unsere neue Methode, IM-3D, reduziert die Anzahl der Auswertungen des 2D-Generator-Netzwerks um das 10- bis 100-fache, was zu einer wesentlich effizienteren Pipeline, besserer Qualität, weniger geometrischen Inkonsistenzen und einer höheren Ausbeute an nutzbaren 3D-Assets führt.
Während sich Large Language Models (LLMs) rasant weiterentwickeln, wird ihr Einfluss in der Wissenschaft zunehmend bedeutender. Die aufkommenden Fähigkeiten von LLMs in der Aufgabenverallgemeinerung und im freien Dialog können Bereiche wie Chemie und Biologie erheblich voranbringen. Dennoch steht das Feld der Einzelzellbiologie, das die grundlegenden Bausteine lebender Organismen darstellt, vor mehreren Herausforderungen. Hohe Wissensbarrieren und begrenzte Skalierbarkeit aktueller Methoden schränken die vollständige Nutzung von LLMs bei der Beherrschung von Einzelzelldaten ein, was den direkten Zugang und schnelle Iterationen behindert. Aus diesem Grund stellen wir ChatCell vor, das einen Paradigmenwechsel einleitet, indem es die Einzelzellanalyse mit natürlicher Sprache ermöglicht. Durch Vokabelanpassung und einheitliche Sequenzgenerierung hat ChatCell fundiertes Fachwissen in der Einzelzellbiologie und die Fähigkeit erworben, eine Vielzahl von Analyseaufgaben zu bewältigen. Umfangreiche Experimente zeigen zudem die robuste Leistung von ChatCell und sein Potenzial, Einblicke in die Einzelzellbiologie zu vertiefen, wodurch der Weg für einen zugänglicheren und intuitiveren Zugang in diesem zentralen Bereich geebnet wird. Unsere Projekt-Homepage ist unter https://zjunlp.github.io/project/ChatCell verfügbar.
Aktuelle Steuerungsmethoden für Diffusionsmodelle (z. B. durch Text oder ControlNet) bei der Bildgenerierung sind unzureichend, wenn es darum geht, abstrakte, kontinuierliche Attribute wie Beleuchtungsrichtung oder nicht-rigide Formveränderungen zu erkennen. In diesem Artikel präsentieren wir einen Ansatz, der Nutzern von Text-zu-Bild-Modellen eine fein abgestimmte Kontrolle über mehrere Attribute in einem Bild ermöglicht. Dies erreichen wir durch die Entwicklung spezieller Eingabe-Token, die auf kontinuierliche Weise transformiert werden können – wir nennen sie Continuous 3D Words. Diese Attribute können beispielsweise als Schieberegler dargestellt und gemeinsam mit Textanweisungen für eine präzise Steuerung der Bildgenerierung verwendet werden. Mit nur einem einzigen Mesh und einem Rendering-Engine zeigen wir, dass unser Ansatz genutzt werden kann, um eine kontinuierliche Benutzerkontrolle über mehrere 3D-bewusste Attribute zu bieten, darunter Tageszeitbeleuchtung, Flügelausrichtung von Vögeln, Dollyzoom-Effekt und Objektposen. Unsere Methode ermöglicht die Bedingung der Bildgenerierung mit mehreren Continuous 3D Words und Textbeschreibungen gleichzeitig, ohne zusätzlichen Aufwand für den Generierungsprozess zu verursachen. Projektseite: https://ttchengab.github.io/continuous_3d_words
Die autoregressive Natur konventioneller großer Sprachmodelle (LLMs) begrenzt die Inferenzgeschwindigkeit inhärent, da Token sequenziell generiert werden. Während spekulative und parallele Dekodierungstechniken versuchen, dies zu mildern, stoßen sie an Grenzen: Entweder verlassen sie sich auf weniger präzise kleinere Modelle für die Generierung oder nutzen die Repräsentationen des Basis-LLMs nicht vollständig aus. Wir stellen eine neuartige Architektur, Tandem-Transformer, vor, um diese Probleme zu adressieren. Diese Architektur kombiniert einzigartig (1) ein kleines autoregressives Modell und (2) ein großes Modell, das im Blockmodus arbeitet (mehrere Token gleichzeitig verarbeitet). Die Vorhersagegenauigkeit des kleinen Modells wird erheblich verbessert, indem es Zugang zu den reicheren Repräsentationen des großen Modells erhält. Auf dem PaLM2-Pretraining-Datensatz zeigt ein Tandem aus PaLM2-Bison und PaLM2-Gecko eine Verbesserung der nächsten Token-Vorhersagegenauigkeit um 3,3 % gegenüber einem eigenständigen PaLM2-Gecko und bietet eine Beschleunigung um das 1,16-fache im Vergleich zu einem PaLM2-Otter-Modell mit vergleichbarer Downstream-Leistung. Wir integrieren das Tandem-Modell weiterhin in das spekulative Dekodierungsframework (SPEED), bei dem das große Modell die Token des kleinen Modells validiert. Dies stellt sicher, dass das Tandem aus PaLM2-Bison und PaLM2-Gecko eine erhebliche Beschleunigung erreicht (etwa 1,14-mal schneller als die Verwendung von standardmäßigem PaLM2-Gecko in SPEED), während die Genauigkeit bei Downstream-Aufgaben identisch bleibt.
Die Erkennung von Handgesten entwickelt sich zu einer immer verbreiteteren Form der Mensch-Computer-Interaktion, insbesondere da Kameras in Alltagsgeräten zunehmend präsent sind. Trotz fortlaufender Fortschritte auf diesem Gebiet wird die Anpassung von Gesten oft vernachlässigt. Diese Anpassung ist jedoch entscheidend, da sie Benutzern ermöglicht, Gesten zu definieren und zu demonstrieren, die natürlicher, einprägsamer und zugänglicher sind. Allerdings erfordert die Anpassung eine effiziente Nutzung der vom Benutzer bereitgestellten Daten. Wir stellen eine Methode vor, die es Benutzern ermöglicht, maßgeschneiderte Gesten mit einer monokularen Kamera anhand einer einzigen Demonstration einfach zu entwerfen. Wir verwenden Transformer und Meta-Learning-Techniken, um die Herausforderungen des Few-Shot-Learnings zu bewältigen. Im Gegensatz zu früheren Arbeiten unterstützt unsere Methode jede Kombination von einhändigen, beidhändigen, statischen und dynamischen Gesten, einschließlich verschiedener Blickwinkel. Wir haben unsere Anpassungsmethode durch eine Benutzerstudie mit 20 Gesten, die von 21 Teilnehmern gesammelt wurden, evaluiert und erreichten eine durchschnittliche Erkennungsgenauigkeit von bis zu 97 % anhand einer einzigen Demonstration. Unsere Arbeit bietet einen praktikablen Ansatz für die visuell basierte Anpassung von Gesten und legt die Grundlage für zukünftige Fortschritte in diesem Bereich.
Ein Neural Radiance Field (NeRF) kodiert die spezifische Beziehung zwischen der 3D-Geometrie und dem Erscheinungsbild einer Szene. Wir stellen hier die Frage, ob wir das Erscheinungsbild von einem Quell-NeRF auf eine Ziel-3D-Geometrie in einer semantisch sinnvollen Weise übertragen können, sodass das resultierende neue NeRF die Zielgeometrie beibehält, aber ein Erscheinungsbild aufweist, das eine Analogie zum Quell-NeRF darstellt. Zu diesem Zweck verallgemeinern wir klassische Bildanalogien von 2D-Bildern auf NeRFs. Wir nutzen die Übertragung von Korrespondenzen entlang semantischer Affinität, die durch semantische Merkmale aus großen, vortrainierten 2D-Bildmodellen angetrieben wird, um eine multi-view-konsistente Übertragung des Erscheinungsbilds zu erreichen. Unsere Methode ermöglicht die Erkundung des Mix-and-Match-Produktraums von 3D-Geometrie und Erscheinungsbild. Wir zeigen, dass unsere Methode traditionelle Stilisierungsmethoden übertrifft und dass eine große Mehrheit der Benutzer unsere Methode mehreren typischen Baseline-Ansätzen vorzieht.