Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Modelle wie GPT-4o ermöglichen eine Echtzeit-Interaktion mit großen Sprachmodellen (LLMs) über Sprache und verbessern die Benutzererfahrung erheblich im Vergleich zur traditionellen textbasierten Interaktion. Es besteht jedoch weiterhin ein Mangel an Erforschung darüber, wie Sprachinteraktionsmodelle auf Open-Source LLMs aufgebaut werden können. Um dies anzugehen, schlagen wir LLaMA-Omni vor, eine neuartige Modellarchitektur, die für eine geringe Latenzzeit und hochwertige Sprachinteraktion mit LLMs entwickelt wurde. LLaMA-Omni integriert einen vorab trainierten Sprachencoder, einen Sprachadapter, ein LLM und einen Streaming-Sprachdecoder. Es beseitigt die Notwendigkeit für Spracherkennung und kann gleichzeitig Text und Sprachantworten direkt aus Sprachanweisungen mit extrem geringer Latenz generieren. Wir bauen unser Modell auf dem neuesten Llama-3.1-8B-Instruct-Modell auf. Um das Modell auf Sprachinteraktionsszenarien abzustimmen, erstellen wir einen Datensatz namens InstructS2S-200K, der 200.000 Sprachanweisungen und entsprechende Sprachantworten enthält. Experimentelle Ergebnisse zeigen, dass LLaMA-Omni im Vergleich zu früheren Sprach-Sprach-Modellen bessere Antworten sowohl inhaltlich als auch im Stil liefert, mit einer Reaktionslatenzzeit von nur 226 ms. Darüber hinaus dauert das Training von LLaMA-Omni weniger als 3 Tage auf nur 4 GPUs und ebnet den Weg für die effiziente Entwicklung von Sprach-Sprach-Modellen in der Zukunft.
Die Retrieval-Augmented Generation (RAG) hat sich als ein gängiges Paradigma etabliert, um Large Language Models (LLMs) zusammen mit privaten und aktuellen Wissensbasen zu nutzen. In dieser Arbeit behandeln wir die Herausforderungen bei der Verwendung von LLM-als-Richter zur Bewertung fundierter Antworten, die von RAG-Systemen generiert wurden. Um die Kalibrierungs- und Diskriminierungsfähigkeiten von Richtermodellen zu bewerten, identifizieren wir 7 Generierungsfehlermodi und stellen GroUSE (Grounded QA Unitary Scoring of Evaluators) vor, einen Meta-Evaluierungs-Benchmark mit 144 Einheitstests. Dieser Benchmark zeigt auf, dass bestehende automatisierte RAG-Evaluierungsfelder oft wichtige Fehlermodi übersehen, selbst wenn GPT-4 als Richter verwendet wird. Um das aktuelle Design automatisierter RAG-Evaluierungsfelder zu verbessern, schlagen wir eine neuartige Pipeline vor und stellen fest, dass geschlossene Modelle zwar bei GroUSE gut abschneiden, führende Open-Source-Richter jedoch nicht auf unsere vorgeschlagenen Kriterien verallgemeinern, trotz einer starken Korrelation mit GPT-4's Bewertung. Unsere Ergebnisse legen nahe, dass die Korrelation mit GPT-4 ein unvollständiges Proxy für die praktische Leistung von Richtermodellen ist und durch Evaluierungen an Einheitstests zur präzisen Fehlermoduserkennung ergänzt werden sollte. Des Weiteren zeigen wir, dass das Feintuning von Llama-3 an GPT-4's Denkspuren seine Evaluierungsfähigkeiten signifikant steigert, was sowohl die Korrelation mit GPT-4's Bewertungen als auch die Kalibrierung in Referenzsituationen verbessert.
Affordanz bezeichnet die potenziellen Interaktionen, die in Objekten angelegt sind. Die Wahrnehmung von Affordanz kann intelligenten Agenten ermöglichen, effizient durch neue Umgebungen zu navigieren und mit ihnen zu interagieren. Die schwach überwachte Affordanz-Verankerung lehrt Agenten das Konzept der Affordanz ohne kostspielige Pixel-Ebene Annotationen, sondern mit exozentrischen Bildern. Obwohl jüngste Fortschritte in der schwach überwachten Affordanz-Verankerung vielversprechende Ergebnisse erbracht haben, bestehen weiterhin Herausforderungen, darunter der Bedarf an gepaarten exozentrischen und egozentrischen Bildern sowie die Komplexität bei der Verankerung verschiedener Affordanzen für ein einzelnes Objekt. Um diesen Herausforderungen zu begegnen, schlagen wir INTeraction Relationship-aware schwach überwachte Affordanz-Verankerung (INTRA) vor. Anders als bisherige Ansätze formuliert INTRA dieses Problem als Repräsentationslernen, um eindeutige Merkmale von Interaktionen durch kontrastives Lernen nur mit exozentrischen Bildern zu identifizieren, wodurch die Notwendigkeit gepaarter Datensätze entfällt. Darüber hinaus nutzen wir Modell-Einbettungen für Bildsprache zur flexiblen Durchführung der Affordanz-Verankerung mit beliebigem Text, indem wir die textkonditionierte Generierung von Affordanz-Karten entwerfen, um die Interaktionsbeziehung für kontrastives Lernen widerzuspiegeln und die Robustheit mit unserer Textsynonym-Augmentierung zu verbessern. Unsere Methode übertraf bisherige Ansätze auf verschiedenen Datensätzen wie AGD20K, IIT-AFF, CAD und UMD. Darüber hinaus zeigen experimentelle Ergebnisse, dass unsere Methode eine bemerkenswerte Domänen-Skalierbarkeit für synthetische Bilder/ Illustrationen aufweist und in der Lage ist, Affordanz-Verankerung für neue Interaktionen und Objekte durchzuführen.
Musik ist ein integraler Bestandteil der menschlichen Kultur, der menschliche Intelligenz und Kreativität verkörpert, von denen Lieder einen wesentlichen Teil ausmachen. Während verschiedene Aspekte der Liedgenerierung in früheren Arbeiten erkundet wurden, wie z.B. Gesangsstimme, vokale Komposition und instrumentale Anordnung usw., bleibt die Generierung von Liedern mit sowohl Gesang als auch Begleitung anhand von Texten eine bedeutende Herausforderung, die die Anwendung von Musikgenerierungsmodellen in der realen Welt behindert. Vor diesem Hintergrund schlagen wir SongCreator vor, ein Liedgenerierungssystem, das entwickelt wurde, um diese Herausforderung anzugehen. Das Modell umfasst zwei neuartige Designs: ein sorgfältig entworfenes Dual-Sequenz-Sprachmodell (DSLM), um die Informationen von Gesang und Begleitung für die Liedgenerierung zu erfassen, und eine zusätzliche Aufmerksamkeitsmaskenstrategie für DSLM, die unserem Modell ermöglicht, Lieder zu verstehen, zu generieren und zu bearbeiten, was es für verschiedene mit Liedern verbundene Generierungsaufgaben geeignet macht. Umfangreiche Experimente zeigen die Wirksamkeit von SongCreator, indem sie Spitzenleistungen oder wettbewerbsfähige Leistungen in allen acht Aufgaben erzielen. Bemerkenswert ist, dass es frühere Arbeiten bei der Umwandlung von Texten in Lieder und Gesangsstimmen bei weitem übertrifft. Darüber hinaus ist es in der Lage, die akustischen Bedingungen von Gesang und Begleitung im generierten Lied unabhängig voneinander durch verschiedene Eingabeaufforderungen zu steuern, was seine potenzielle Anwendbarkeit zeigt. Unsere Beispiele sind unter https://songcreator.github.io/ verfügbar.
Foley ist ein Begriff, der in der Filmproduktion häufig verwendet wird und sich auf die Hinzufügung von täglichen Soundeffekten zu stummen Filmen oder Videos bezieht, um das Hörerlebnis zu verbessern. Video-zu-Audio (V2A) als eine spezielle Art automatischer Foley-Aufgaben birgt inhärente Herausforderungen in Bezug auf die Audio-Visuelle Synchronisation. Diese Herausforderungen umfassen die Aufrechterhaltung der inhaltlichen Konsistenz zwischen dem Eingangsvideo und dem generierten Audio sowie die Ausrichtung der zeitlichen und Lautstärke-Eigenschaften innerhalb des Videos. Um diesen Problemen zu begegnen, haben wir ein steuerbares Video-zu-Audio-Synthesemodell namens "Draw an Audio" entwickelt, das mehrere Eingabeanweisungen durch gezeichnete Masken und Lautstärkesignale unterstützt. Um die inhaltliche Konsistenz zwischen dem synthetisierten Audio und dem Zielvideo sicherzustellen, haben wir das Masken-Aufmerksamkeitsmodul (MAM) eingeführt, das maskierte Videoanweisungen verwendet, um dem Modell zu ermöglichen, sich auf interessante Regionen zu konzentrieren. Darüber hinaus haben wir das Zeit-Lautstärke-Modul (TLM) implementiert, das ein zusätzliches Lautstärkesignal verwendet, um die Synthese von Ton sicherzustellen, der sich sowohl in Lautstärke als auch in zeitlicher Dimension mit dem Video abstimmt. Darüber hinaus haben wir einen umfangreichen V2A-Datensatz namens VGGSound-Caption durch die Annotierung von Untertitelprompts erweitert. Umfangreiche Experimente an anspruchsvollen Benchmarks auf zwei umfangreichen V2A-Datensätzen bestätigen, dass "Draw an Audio" den Stand der Technik erreicht hat. Projektseite: https://yannqi.github.io/Draw-an-Audio/.
In den letzten Jahren hat die Entwicklung von Diffusionsmodellen zu signifikanten Fortschritten bei der Bild- und Videogenerierung geführt, wobei vorab trainierte Modelle wie die Stable Diffusion-Serie eine entscheidende Rolle spielen. Inspiriert von der Modellpruning-Technik, die große vorab trainierte Modelle durch Entfernen unwichtiger Parameter reduziert, schlagen wir eine neuartige Methode zur Feinabstimmung von Modellen vor, um diese ineffektiven Parameter voll auszuschöpfen und dem vorab trainierten Modell neue, aufgabenbezogene Fähigkeiten zu verleihen. In dieser Arbeit untersuchen wir zunächst die Bedeutung von Parametern in vorab trainierten Diffusionsmodellen und stellen fest, dass die kleinsten 10% bis 20% der Parameter nach absoluten Werten nicht zum Generierungsprozess beitragen. Basierend auf dieser Beobachtung schlagen wir eine Methode namens SaRA vor, die diese vorübergehend ineffektiven Parameter wiederverwendet, um eine dünnbesetzte Gewichtsmatrix zu optimieren und das aufgabenbezogene Wissen zu erlernen. Zur Vermeidung von Überanpassung schlagen wir ein nuklearnormbasiertes Low-Rank-Sparse-Trainingsschema für effiziente Feinabstimmung vor. Darüber hinaus entwerfen wir eine neue progressive Parameteranpassungsstrategie, um die wiederausgebildeten/feinabgestimmten Parameter voll auszuschöpfen. Schließlich schlagen wir eine neuartige unstrukturierte Backpropagation-Strategie vor, die die Speicherkosten während der Feinabstimmung signifikant reduziert. Unsere Methode verbessert die generativen Fähigkeiten vorab trainierter Modelle in nachgelagerten Anwendungen und übertrifft traditionelle Feinabstimmungsmethoden wie LoRA bei der Aufrechterhaltung der Generalisierungsfähigkeit des Modells. Wir validieren unseren Ansatz durch Feinabstimmungsexperimente an SD-Modellen, die signifikante Verbesserungen zeigen. SaRA bietet auch einen praktischen Vorteil, da nur eine einzige Code-Änderung für eine effiziente Implementierung erforderlich ist und nahtlos mit bestehenden Methoden kompatibel ist.
Neuronale Strahlungsfelder (NeRFs) haben die Rekonstruktion statischer Szenen und Objekte in 3D revolutioniert und bieten beispiellose Qualität. Die Erweiterung von NeRFs zur Modellierung dynamischer Objekte oder Objektartikulationen bleibt jedoch ein herausforderndes Problem. Frühere Arbeiten haben sich mit diesem Problem befasst, indem sie sich auf die Rekonstruktion auf Teilebene und die Bewegungsschätzung für Objekte konzentrierten, aber oft auf Heuristiken bezüglich der Anzahl der beweglichen Teile oder Objektkategorien angewiesen waren, was ihren praktischen Einsatz einschränken kann. In dieser Arbeit stellen wir LEIA vor, einen neuartigen Ansatz zur Darstellung dynamischer 3D-Objekte. Unsere Methode beinhaltet die Beobachtung des Objekts zu verschiedenen Zeitpunkten oder "Zuständen" und die Konditionierung eines Hypernetzwerks auf den aktuellen Zustand, um damit unseren NeRF zu parametrisieren. Dieser Ansatz ermöglicht es uns, eine betrachtungsinvariante latente Repräsentation für jeden Zustand zu erlernen. Wir zeigen weiterhin, dass wir durch Interpolation zwischen diesen Zuständen neuartige Artikulationskonfigurationen im 3D-Raum generieren können, die zuvor nicht gesehen wurden. Unsere experimentellen Ergebnisse heben die Wirksamkeit unserer Methode bei der Artikulation von Objekten hervor, unabhängig vom Betrachtungswinkel und der Gelenkkonfiguration. Bemerkenswert ist, dass unser Ansatz frühere Methoden übertrifft, die auf Bewegungsinformationen zur Artikulationsregistrierung angewiesen sind.