Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Amphion ist ein Toolkit für die Erzeugung von Audio, Musik und Sprache. Sein Ziel ist es, reproduzierbare Forschung zu unterstützen und Nachwuchsforschern sowie Ingenieuren den Einstieg in die Forschung und Entwicklung im Bereich der Audio-, Musik- und Sprachgenerierung zu erleichtern. Amphion bietet eine einzigartige Funktion: Visualisierungen klassischer Modelle oder Architekturen. Wir sind der Überzeugung, dass diese Visualisierungen für Nachwuchsforscher und Ingenieure von Vorteil sind, die ein besseres Verständnis der Modelle erlangen möchten. Das übergeordnete Ziel von Amphion ist es, eine Plattform für die Untersuchung der Umwandlung beliebiger Eingaben in allgemeine Audiodaten bereitzustellen. Amphion ist darauf ausgelegt, individuelle Generierungsaufgaben zu unterstützen. Neben spezifischen Generierungsaufgaben umfasst Amphion auch mehrere Vocoder und Bewertungsmetriken. Ein Vocoder ist ein wichtiges Modul zur Erzeugung hochwertiger Audiosignale, während Bewertungsmetriken entscheidend sind, um konsistente Metriken in Generierungsaufgaben sicherzustellen. In diesem Artikel geben wir einen Überblick auf hoher Ebene über Amphion.
Das Beantworten komplexer Fragen in natürlicher Sprache erfordert oft mehrstufiges Denken und die Integration externer Informationen. Mehrere Systeme haben Wissensabruf mit einem großen Sprachmodell (LLM) kombiniert, um solche Fragen zu beantworten. Diese Systeme leiden jedoch unter verschiedenen Fehlfällen, und wir können sie nicht direkt end-to-end trainieren, um solche Fehler zu beheben, da die Interaktion mit externem Wissen nicht differenzierbar ist. Um diese Mängel zu beheben, definieren wir einen ReAct-artigen LLM-Agenten mit der Fähigkeit, externes Wissen zu verarbeiten und darauf zu reagieren. Wir verfeinern den Agenten weiter durch eine ReST-ähnliche Methode, die iterativ auf früheren Trajektorien trainiert und dabei wachsende-Batch-Verstärkungslernen mit KI-Feedback für kontinuierliche Selbstverbesserung und Selbstdestillation einsetzt. Ausgehend von einem geprompteten großen Modell können wir nach nur zwei Iterationen des Algorithmus ein feinabgestimmtes kleines Modell erzeugen, das auf anspruchsvollen Benchmarks für zusammengesetzte Frage-Antwort-Aufgaben eine vergleichbare Leistung erzielt, jedoch mit zwei Größenordnungen weniger Parametern.
Diffusionsmodelle haben bemerkenswerte Erfolge in einer Vielzahl von generativen Downstream-Aufgaben gezeigt, sind jedoch im wichtigen und anspruchsvollen Bereich der expressiven Talking-Head-Generierung noch unzureichend erforscht. In dieser Arbeit schlagen wir das DreamTalk-Framework vor, um diese Lücke zu schließen, das durch sorgfältiges Design das Potenzial von Diffusionsmodellen bei der Generierung expressiver Talking Heads freisetzt. Konkret besteht DreamTalk aus drei entscheidenden Komponenten: einem Denoising-Netzwerk, einem stilbewussten Lippenexperten und einem Stilvorhersagemodell. Das diffusionsbasierte Denoising-Netzwerk ist in der Lage, qualitativ hochwertige, audio-gesteuerte Gesichtsbewegungen über diverse Ausdrücke hinweg konsistent zu synthetisieren. Um die Ausdrucksstärke und Genauigkeit der Lippenbewegungen zu verbessern, führen wir einen stilbewussten Lippenexperten ein, der die Lippenbewegungen synchronisieren kann, während er gleichzeitig die Sprechstile berücksichtigt. Um den Bedarf an Referenzvideos oder Texten für den Ausdruck zu eliminieren, wird ein zusätzliches diffusionsbasiertes Stilvorhersagemodell verwendet, um den Zielausdruck direkt aus dem Audio vorherzusagen. Auf diese Weise kann DreamTalk die leistungsstarken Diffusionsmodelle nutzen, um expressive Gesichter effektiv zu generieren und die Abhängigkeit von teuren Stilreferenzen zu verringern. Experimentelle Ergebnisse zeigen, dass DreamTalk in der Lage ist, fotorealistische Talking Faces mit vielfältigen Sprechstilen zu generieren und präzise Lippenbewegungen zu erreichen, womit es bestehende state-of-the-art Ansätze übertrifft.
Das Segment Anything Model (SAM) adressiert zwei praktische, aber herausfordernde Segmentierungsaufgaben: Segment Anything (SegAny), das einen bestimmten Punkt nutzt, um die Maske für ein einzelnes Objekt von Interesse vorherzusagen, und Segment Everything (SegEvery), das die Masken für alle Objekte im Bild vorhersagt. Was SegAny für SAM langsam macht, ist sein schwergewichtiger Bildencoder, der durch MobileSAM mittels entkoppelter Wissensdistillation angegangen wurde. Der Engpass bei der Effizienz von SegEvery mit SAM liegt jedoch in seinem Maskendecoder, da dieser zunächst zahlreiche Masken mit redundanten Grid-Search-Prompts generieren und dann eine Filterung durchführen muss, um die endgültigen gültigen Masken zu erhalten. Wir schlagen vor, seine Effizienz zu verbessern, indem direkt die endgültigen Masken mit nur gültigen Prompts generiert werden, die durch Objektentdeckung gewonnen werden können. Unser vorgeschlagener Ansatz hilft nicht nur, die Gesamtzeit für den Maskendecoder um mindestens das 16-fache zu reduzieren, sondern erzielt auch eine überlegene Leistung. Insbesondere führt unser Ansatz zu einer durchschnittlichen Leistungssteigerung von 3,6 % (42,5 % gegenüber 38,9 %) für Zero-Shot-Objektvorschläge auf dem LVIS-Datensatz mit der Mask AR@K-Metrik. Qualitative Ergebnisse zeigen, dass unser Ansatz feinmaschige Masken erzeugt, während eine Übersegmentierung vermieden wird. Dieses Projekt, das eine schnellere SegEvery als das ursprüngliche SAM anstrebt, wird als MobileSAMv2 bezeichnet, um es von MobileSAM zu unterscheiden, das eine schnellere SegAny zum Ziel hat. Darüber hinaus zeigen wir, dass unser neues Prompt-Sampling auch mit den destillierten Bildencodern in MobileSAM kompatibel ist, was zu einem einheitlichen Framework für effiziente SegAny und SegEvery beiträgt. Der Code ist unter demselben Link wie das MobileSAM-Projekt verfügbar: https://github.com/ChaoningZhang/MobileSAM.
Dieses Papier hat nicht das Ziel, Innovationen innerhalb des Aufmerksamkeitsmechanismus zu suchen. Stattdessen konzentriert es sich darauf, die bestehenden Kompromisse zwischen Genauigkeit und Effizienz im Kontext der Punktwolkenverarbeitung zu überwinden, indem es die Kraft der Skalierung nutzt. Inspiriert von den jüngsten Fortschritten im Bereich des großskaligen 3D-Repräsentationslernens erkennen wir, dass die Modellleistung stärker von der Skalierung als von komplexen Designs beeinflusst wird. Daher präsentieren wir Point Transformer V3 (PTv3), der Einfachheit und Effizienz gegenüber der Genauigkeit bestimmter Mechanismen priorisiert, die nach der Skalierung für die Gesamtleistung nur geringfügig relevant sind, wie z. B. das Ersetzen der präzisen Nachbarschaftssuche durch KNN durch eine effiziente serialisierte Nachbarschaftszuordnung von Punktwolken, die mit spezifischen Mustern organisiert sind. Dieses Prinzip ermöglicht eine signifikante Skalierung, wobei das rezeptive Feld von 16 auf 1024 Punkte erweitert wird, während die Effizienz erhalten bleibt (eine 3-fache Steigerung der Verarbeitungsgeschwindigkeit und eine 10-fache Verbesserung der Speichereffizienz im Vergleich zum Vorgänger, PTv2). PTv3 erzielt state-of-the-art Ergebnisse in über 20 Downstream-Aufgaben, die sowohl Innen- als auch Außenszenarien umfassen. Durch eine weitere Verbesserung mit Multi-Dataset-Joint-Training treibt PTv3 diese Ergebnisse auf ein noch höheres Niveau.
Eine der Schlüsselkomponenten in Diffusionsmodellen ist das UNet für die Rauschvorhersage. Während mehrere Arbeiten grundlegende Eigenschaften des UNet-Decoders untersucht haben, bleibt der Encoder weitgehend unerforscht. In dieser Arbeit führen wir die erste umfassende Studie des UNet-Encoders durch. Wir analysieren empirisch die Encoder-Features und liefern Einblicke in wichtige Fragen bezüglich ihrer Veränderungen während des Inferenzprozesses. Insbesondere stellen wir fest, dass sich die Encoder-Features sanft verändern, während die Decoder-Features erhebliche Variationen über verschiedene Zeitschritte hinweg aufweisen. Diese Erkenntnis hat uns dazu inspiriert, den Encoder bei bestimmten benachbarten Zeitschritten wegzulassen und die Encoder-Features aus den vorherigen Zeitschritten zyklisch für den Decoder wiederzuverwenden. Basierend auf dieser Beobachtung führen wir ein einfaches, aber effektives Encoder-Propagationsschema ein, um die Diffusionsabtastung für eine Vielzahl von Aufgaben zu beschleunigen. Durch die Nutzung unseres Propagationsschemas sind wir in der Lage, den Decoder bei bestimmten benachbarten Zeitschritten parallel auszuführen. Zusätzlich führen wir eine Methode zur Rauscheinjektion ein, um die Texturdetails in den generierten Bildern zu verbessern. Neben der Standardaufgabe der Text-zu-Bild-Generierung validieren wir unseren Ansatz auch bei anderen Aufgaben: Text-zu-Video, personalisierte Generierung und referenzgesteuerte Generierung. Ohne jegliche Technik der Wissensdestillation zu verwenden, beschleunigt unser Ansatz die Abtastung sowohl des Stable Diffusion (SD) als auch des DeepFloyd-IF-Modells um 41 % bzw. 24 %, wobei eine hochwertige Generierungsleistung erhalten bleibt. Unser Code ist verfügbar unter https://github.com/hutaiHang/Faster-Diffusion{FasterDiffusion}.
Transformer-basierte Large Language Models (LLMs) setzen oft Grenzen für die Länge des Texteingangs, um die Erzeugung flüssiger und relevanter Antworten zu gewährleisten. Diese Einschränkung begrenzt ihre Anwendbarkeit in Szenarien, die lange Texte betreffen. Wir schlagen eine neuartige Methode zur semantischen Kompression vor, die eine Generalisierung auf Texte ermöglicht, die 6-8 Mal länger sind, ohne signifikante Rechenkosten zu verursachen oder ein Fine-Tuning zu erfordern. Unser vorgeschlagenes Framework lässt sich von der Quellencodierung in der Informationstheorie inspirieren und verwendet ein vortrainiertes Modell, um die semantische Redundanz langer Eingaben zu reduzieren, bevor sie an die LLMs für nachgelagerte Aufgaben weitergegeben werden. Experimentelle Ergebnisse zeigen, dass unsere Methode das Kontextfenster von LLMs effektiv über eine Reihe von Aufgaben hinweg erweitert, einschließlich Fragebeantwortung, Zusammenfassung, Few-Shot-Lernen und Informationsabruf. Darüber hinaus zeigt die vorgeschlagene Methode zur semantischen Kompression eine konsistente Flüssigkeit bei der Texterzeugung, während der damit verbundene Rechenaufwand reduziert wird.
Wir zeigen, dass bestehende unüberwachte Methoden für Aktivierungen großer Sprachmodelle (LLMs) kein Wissen entdecken – stattdessen scheinen sie das prominenteste Merkmal der Aktivierungen zu identifizieren. Die Idee hinter der unüberwachten Wissensentdeckung ist, dass Wissen eine Konsistenzstruktur erfüllt, die zur Entdeckung von Wissen genutzt werden kann. Wir beweisen zunächst theoretisch, dass beliebige Merkmale (nicht nur Wissen) die Konsistenzstruktur einer bestimmten führenden unüberwachten Methode zur Wissensentdeckung, der kontrastkonsistenten Suche (Burns et al. - arXiv:2212.03827), erfüllen. Anschließend präsentieren wir eine Reihe von Experimenten, die Situationen aufzeigen, in denen unüberwachte Methoden zu Klassifikatoren führen, die nicht Wissen vorhersagen, sondern ein anderes prominentes Merkmal. Wir kommen zu dem Schluss, dass bestehende unüberwachte Methoden zur Entdeckung latenten Wissens unzureichend sind, und tragen Plausibilitätsprüfungen bei, die zur Bewertung zukünftiger Methoden der Wissensentdeckung angewendet werden können. Konzeptionell stellen wir die Hypothese auf, dass die hier untersuchten Identifikationsprobleme, z. B. die Unterscheidung zwischen dem Wissen eines Modells und dem einer simulierten Figur, auch für zukünftige unüberwachte Methoden bestehen bleiben werden.
Score Distillation Sampling (SDS) hat bemerkenswerte Leistungen bei der bedingten 3D-Inhaltsgenerierung gezeigt. Dennoch fehlt ein umfassendes Verständnis der SDS-Formulierung, was die Entwicklung der 3D-Generierung behindert. In dieser Arbeit präsentieren wir eine Interpretation von SDS als Kombination aus drei funktionalen Komponenten: mode-disengaging, mode-seeking und variance-reducing Terme, und analysieren die Eigenschaften jeder Komponente. Wir zeigen, dass Probleme wie Überglättung und Farbsättigung auf die inhärenten Mängel der Überwachungsterme zurückzuführen sind und dass der von SDS eingeführte variance-reducing Term suboptimal ist. Zudem beleuchten wir die Verwendung eines großen Classifier-Free Guidance (CFG)-Skalierungswerts für die 3D-Generierung. Basierend auf der Analyse schlagen wir einen einfachen, aber effektiven Ansatz namens Stable Score Distillation (SSD) vor, der strategisch jeden Term für eine hochwertige 3D-Generierung orchestriert. Umfangreiche Experimente bestätigen die Wirksamkeit unseres Ansatzes und demonstrieren seine Fähigkeit, hochwertige 3D-Inhalte zu erzeugen, ohne Problemen wie Überglättung und Übersättigung zu erliegen, selbst unter niedrigen CFG-Bedingungen mit der anspruchsvollsten NeRF-Darstellung.
Neural Radiance Field (NeRF) und seine Varianten haben sich kürzlich als erfolgreiche Methoden für die Synthese neuer Ansichten und die 3D-Szenenrekonstruktion etabliert. Die meisten aktuellen NeRF-Modelle erreichen jedoch entweder eine hohe Genauigkeit durch große Modellgrößen oder eine hohe Speichereffizienz durch Kompromisse bei der Genauigkeit. Dies schränkt den Anwendungsbereich eines einzelnen Modells ein, da hochgenaue Modelle möglicherweise nicht auf Geräten mit begrenztem Speicherplatz passen und speichereffiziente Modelle möglicherweise nicht die Anforderungen an hohe Qualität erfüllen. Aus diesem Grund stellen wir SlimmeRF vor, ein Modell, das durch eine Schlankheitsfunktion sofortige Kompromisse zwischen Modellgröße und Genauigkeit zur Testzeit ermöglicht und das Modell somit gleichzeitig für Szenarien mit unterschiedlichen Rechenbudgets geeignet macht. Dies erreichen wir durch einen neu vorgeschlagenen Algorithmus namens Tensorial Rank Incrementation (TRaIn), der den Rang der tensoriellen Darstellung des Modells während des Trainings schrittweise erhöht. Wir beobachten auch, dass unser Modell effektivere Kompromisse in Szenarien mit spärlichen Ansichten ermöglicht und manchmal sogar eine höhere Genauigkeit nach der Schlankheitsanwendung erreicht. Dies führen wir darauf zurück, dass fehlerhafte Informationen wie Floaters tendenziell in Komponenten gespeichert werden, die höheren Rängen entsprechen. Unsere Implementierung ist unter https://github.com/Shiran-Yuan/SlimmeRF verfügbar.
Hochwertige Konversationsdatensätze sind entscheidend für die Entwicklung von KI-Modellen, die mit Nutzern kommunizieren können. Eine Möglichkeit, tiefere Interaktionen zwischen einem Chatbot und seinem Nutzer zu fördern, sind Personas – Aspekte des Charakters des Nutzers, die Einblicke in dessen Persönlichkeit, Motivationen und Verhaltensweisen bieten. Das Training von Natural Language Processing (NLP)-Modellen auf einem diversen und umfassenden, personasbasierten Datensatz kann zu Konversationsmodellen führen, die eine tiefere Verbindung zum Nutzer herstellen und dessen Engagement aufrechterhalten. In diesem Papier nutzen wir die Leistungsfähigkeit von Large Language Models (LLMs), um einen großen, hochwertigen Konversationsdatensatz aus einem Ausgangsdatensatz zu erstellen. Wir schlagen ein Generator-Kritiker-Architektur-Framework vor, um den ursprünglichen Datensatz zu erweitern und gleichzeitig die Qualität der Konversationen zu verbessern. Der Generator ist ein LLM, das dazu aufgefordert wird, Konversationen zu generieren. Der Kritiker besteht aus einer Mischung von Experten-LLMs, die die Qualität der generierten Konversationen kontrollieren. Diese Experten wählen die besten generierten Konversationen aus, die wir dann verwenden, um den Generator zu verbessern. Wir veröffentlichen Synthetic-Persona-Chat, das aus 20.000 Konversationen besteht, die aus Persona-Chat stammen. Wir bewerten die Qualität von Synthetic-Persona-Chat und unseres Generationsframeworks in verschiedenen Dimensionen durch umfangreiche Experimente und beobachten, dass die Verlustrate von Synthetic-Persona-Chat gegenüber Persona-Chat während des Turing-Tests über drei Iterationen von 17,2 % auf 8,8 % sinkt.
Das Ziel dieser Serie ist es, Meinungen und Themen im Bereich des maschinellen Lernens, wie sie heute bestehen und sich im Laufe der Zeit verändern, zu dokumentieren. Die Planung sieht vor, diese Umfrage regelmäßig bis zum durch die KI-Singularität ausgelösten, papierklammergetriebenen Weltuntergang durchzuführen, wobei eine aktualisierte Liste aktueller Fragen erstellt und für jede Ausgabe neue Mitglieder der Community interviewt werden. In dieser Ausgabe haben wir die Meinungen der Menschen zu interpretierbarer KI, dem Wert von Benchmarking in der modernen NLP, dem Stand der Fortschritte beim Verständnis von Deep Learning und der Zukunft der Wissenschaft untersucht.