Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Trotz ihrer bemerkenswerten Fähigkeiten erzeugen große Sprachmodelle (LLMs) oft Antworten, die faktische Ungenauigkeiten enthalten, da sie sich ausschließlich auf das parametrische Wissen stützen, das sie verkapseln. Retrieval-Augmented Generation (RAG), ein ad-hoc-Ansatz, der Sprachmodelle durch das Abrufen relevanter Wissensdaten erweitert, verringert solche Probleme. Das wahllose Abrufen und Einbinden einer festen Anzahl von Textpassagen, unabhängig davon, ob ein Abruf notwendig ist oder die Passagen relevant sind, schränkt jedoch die Vielseitigkeit des Sprachmodells ein oder kann zu nutzlosen Antworten führen. Wir stellen ein neues Framework namens Self-Reflective Retrieval-Augmented Generation (Self-RAG) vor, das die Qualität und Faktentreue eines Sprachmodells durch Abruf und Selbstreflexion verbessert. Unser Framework trainiert ein einziges beliebiges Sprachmodell, das bedarfsgerecht Passagen abruft und sowohl die abgerufenen Passagen als auch seine eigenen Generierungen mithilfe spezieller Tokens, sogenannter Reflexions-Tokens, reflektiert. Die Generierung von Reflexions-Tokens macht das Sprachmodell während der Inferenzphase steuerbar und ermöglicht es, sein Verhalten an verschiedene Aufgabenanforderungen anzupassen. Experimente zeigen, dass Self-RAG (7B und 13B Parameter) state-of-the-art LLMs und retrieval-augmentierte Modelle bei einer Vielzahl von Aufgaben deutlich übertrifft. Insbesondere übertrifft Self-RAG ChatGPT und das retrieval-augmentierte Llama2-chat bei Open-Domain-QA, logischem Denken und Faktenüberprüfungsaufgaben und zeigt signifikante Verbesserungen bei der Faktentreue und Zitiergenauigkeit für langformatige Generierungen im Vergleich zu diesen Modellen.
Die KI-gestützte Musikverarbeitung ist ein vielfältiges Feld, das Dutzende von Aufgaben umfasst, von Generierungsaufgaben (z. B. Timbre-Synthese) bis hin zu Verständnisaufgaben (z. B. Musikklassifizierung). Für Entwickler und Amateure ist es sehr schwierig, alle diese Aufgaben zu erfassen, um ihre Anforderungen in der Musikverarbeitung zu erfüllen, insbesondere angesichts der großen Unterschiede in den Darstellungen von Musikdaten und der Modellanwendbarkeit über Plattformen hinweg bei verschiedenen Aufgaben. Folglich ist es notwendig, ein System zu entwickeln, das diese Aufgaben organisiert und integriert, um Praktikern dabei zu helfen, ihre Anforderungen automatisch zu analysieren und geeignete Werkzeuge als Lösungen aufzurufen, um ihre Anforderungen zu erfüllen. Inspiriert durch den jüngsten Erfolg von großen Sprachmodellen (LLMs) bei der Aufgabenautomatisierung, entwickeln wir ein System namens MusicAgent, das zahlreiche musikbezogene Werkzeuge und einen autonomen Workflow integriert, um Benutzeranforderungen zu adressieren. Genauer gesagt bauen wir 1) ein Werkzeugset, das Werkzeuge aus verschiedenen Quellen sammelt, einschließlich Hugging Face, GitHub und Web-APIs, etc. 2) einen autonomen Workflow, der durch LLMs (z. B. ChatGPT) unterstützt wird, um diese Werkzeuge zu organisieren und Benutzeranfragen automatisch in mehrere Teilaufgaben zu zerlegen und entsprechende Musikwerkzeuge aufzurufen. Das primäre Ziel dieses Systems ist es, Benutzer von den Feinheiten der KI-Musikwerkzeuge zu befreien und ihnen zu ermöglichen, sich auf den kreativen Aspekt zu konzentrieren. Indem den Benutzern die Freiheit gegeben wird, Werkzeuge mühelos zu kombinieren, bietet das System ein nahtloses und bereicherndes Musikerlebnis.
Aktuelle Text-zu-3D-Generierungsmethoden erreichen eine beeindruckende Fähigkeit zur 3D-Inhaltserstellung dank der Fortschritte in Bilddiffusionsmodellen und Optimierungsstrategien. Allerdings haben bestehende Methoden Schwierigkeiten, korrekte 3D-Inhalte für komplexe Prompts in Bezug auf die Semantik zu generieren, d. h. für Prompts, die mehrere interagierende Objekte mit unterschiedlichen Attributen beschreiben. In dieser Arbeit schlagen wir ein allgemeines Framework namens Progressive3D vor, das die gesamte Generierung in eine Reihe von lokal progressiven Bearbeitungsschritten zerlegt, um präzise 3D-Inhalte für komplexe Prompts zu erstellen. Dabei beschränken wir die Inhaltsänderungen in jedem Bearbeitungsschritt auf Regionen, die durch benutzerdefinierte Regions-Prompts bestimmt werden. Darüber hinaus schlagen wir eine Technik zur Unterdrückung überlappender semantischer Komponenten vor, um den Optimierungsprozess stärker auf die semantischen Unterschiede zwischen den Prompts zu fokussieren. Umfangreiche Experimente zeigen, dass das vorgeschlagene Progressive3D-Framework präzise 3D-Inhalte für Prompts mit komplexer Semantik generiert und für verschiedene Text-zu-3D-Methoden, die durch unterschiedliche 3D-Repräsentationen angetrieben werden, allgemein anwendbar ist.