Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle (LLMs) haben großes Potenzial bei der Integration verschiedener Expertenmodelle gezeigt, um komplexe Sprach- und Bildaufgaben zu bewältigen. Trotz ihrer Bedeutung für die Weiterentwicklung des Bereichs der Künstlichen Intelligenz-generierten Inhalte (AIGC) bleibt ihr Potenzial in der intelligenten Audioinhaltserstellung unerforscht. In dieser Arbeit widmen wir uns dem Problem der Erstellung von Audioinhalten mit Handlungssträngen, die Sprache, Musik und Soundeffekte umfassen und durch Textanweisungen gesteuert werden. Wir stellen WavJourney vor, ein System, das LLMs nutzt, um verschiedene Audiomodelle für die Audioinhaltsgenerierung zu verbinden. Bei einer Textbeschreibung einer auditiven Szene generiert WavJourney zunächst mithilfe von LLMs ein strukturiertes Skript, das speziell für das Audio-Storytelling entwickelt wurde. Das Audioskript beinhaltet diverse Audioelemente, die basierend auf ihren räumlich-zeitlichen Beziehungen organisiert sind. Als konzeptionelle Darstellung von Audio bietet das Audioskript eine interaktive und interpretierbare Grundlage für die menschliche Beteiligung. Anschließend wird das Audioskript in einen Skript-Compiler eingespeist, der es in ein Computerprogramm umwandelt. Jede Zeile des Programms ruft ein aufgabenspezifisches Audioerstellungsmodell oder eine Rechenoperation (z. B. verketten, mischen) auf. Das Computerprogramm wird dann ausgeführt, um eine erklärbare Lösung für die Audioerstellung zu erhalten. Wir demonstrieren die Praxistauglichkeit von WavJourney in verschiedenen realen Szenarien, darunter Science-Fiction, Bildung und Hörspiele. Das erklärbare und interaktive Design von WavJourney fördert die Mensch-Maschine-Zusammenarbeit in mehrrundigen Dialogen und verbessert die kreative Kontrolle und Anpassungsfähigkeit in der Audioproduktion. WavJourney verleiht der menschlichen Vorstellungskraft eine auditive Form und eröffnet neue Wege für Kreativität in der Multimedia-Inhaltserstellung.
Low-Rank-Adaptationen (LoRA) werden häufig eingesetzt, um große Sprachmodelle (LLMs) für neue Aufgaben zu feinabstimmen. Diese Arbeit untersucht die Komponierbarkeit von LoRA für die generalisierte Anwendung über verschiedene Aufgaben hinweg und stellt LoraHub vor, ein strategisches Framework, das für den gezielten Zusammenschluss von LoRA-Modulen entwickelt wurde, die auf unterschiedlichen Aufgaben trainiert wurden, mit dem Ziel, anpassungsfähige Leistungen bei unbekannten Aufgaben zu erzielen. Mit nur wenigen Beispielen einer neuen Aufgabe ermöglicht LoraHub die flüssige Kombination mehrerer LoRA-Module, wodurch die Notwendigkeit menschlicher Expertise entfällt. Bemerkenswerterweise erfordert die Zusammensetzung weder zusätzliche Modellparameter noch Gradienten. Unsere empirischen Ergebnisse, die auf dem Big-Bench Hard (BBH) Benchmark basieren, deuten darauf hin, dass LoraHub effektiv die Leistung von In-Context-Lernen in Few-Shot-Szenarien nachahmen kann, ohne die Notwendigkeit von In-Context-Beispielen bei jedem Inferenzeingang. Ein bedeutender Beitrag unserer Forschung ist die Förderung einer Community für LoRA, in der Benutzer ihre trainierten LoRA-Module teilen können, wodurch deren Anwendung auf neue Aufgaben erleichtert wird. Wir erwarten, dass diese Ressource den Zugang zu und die Fortschritte in der allgemeinen Intelligenz sowie in produktiven LLMs erweitern wird. Der Code wird unter https://github.com/sail-sg/lorahub verfügbar sein.
Große Sprachmodelle (LLMs) erzielen bessere Ergebnisse, wenn sie schrittweise, „Chain-of-Thought“ (CoT)-Argumentationen erstellen, bevor sie eine Frage beantworten. Es ist jedoch unklar, ob die angegebene Argumentation eine treue Erklärung der tatsächlichen Denkweise des Modells ist (d. h. seines Prozesses zur Beantwortung der Frage). Wir untersuchen Hypothesen, wie CoT-Argumentationen unfaithful sein könnten, indem wir analysieren, wie sich die Modellvorhersagen ändern, wenn wir in die CoT eingreifen (z. B. durch das Hinzufügen von Fehlern oder deren Umformulierung). Modelle zeigen große Unterschiede zwischen Aufgaben darin, wie stark sie bei der Vorhersage ihrer Antwort auf die CoT konditionieren – manchmal verlassen sie sich stark auf die CoT, während sie sie in anderen Fällen weitgehend ignorieren. Der Leistungsschub durch CoT scheint nicht allein auf die zusätzliche Rechenleistung zur Testzeit oder auf die durch die spezifische Formulierung der CoT kodierten Informationen zurückzuführen zu sein. Wenn Modelle größer und leistungsfähiger werden, erzeugen sie in den meisten von uns untersuchten Aufgaben weniger treue Argumentationen. Insgesamt deuten unsere Ergebnisse darauf hin, dass CoT treu sein kann, wenn die Umstände wie Modellgröße und Aufgabe sorgfältig ausgewählt werden.
Mit den Fortschritten in der generativen KI hat sich das spannende Potenzial ergeben, dass autonome Agenten tägliche Aufgaben über natürliche Sprachbefehle verwalten können. Allerdings werden aktuelle Agenten hauptsächlich in vereinfachten, synthetischen Umgebungen entwickelt und getestet, was die Darstellung realer Szenarien erheblich einschränkt. In diesem Artikel erstellen wir eine Umgebung für die Befehlssteuerung von Agenten, die hochrealistisch und reproduzierbar ist. Konkret konzentrieren wir uns auf Agenten, die Aufgaben auf Websites ausführen, und schaffen eine Umgebung mit voll funktionsfähigen Websites aus vier gängigen Bereichen: E-Commerce, soziale Forendiskussionen, kollaborative Softwareentwicklung und Content-Management. Unsere Umgebung wird mit Werkzeugen (z. B. einer Karte) und externen Wissensdatenbanken (z. B. Benutzerhandbüchern) angereichert, um menschenähnliches Aufgabenlösen zu fördern. Aufbauend auf unserer Umgebung veröffentlichen wir eine Reihe von Benchmark-Aufgaben, die sich auf die Bewertung der funktionalen Korrektheit der Aufgabenabschlüsse konzentrieren. Die Aufgaben in unserem Benchmark sind vielfältig, langfristig angelegt und sollen Aufgaben nachahmen, die Menschen routinemäßig im Internet ausführen. Wir entwerfen und implementieren mehrere autonome Agenten, die aktuelle Techniken wie das Denken vor dem Handeln integrieren. Die Ergebnisse zeigen, dass die Lösung komplexer Aufgaben eine Herausforderung darstellt: Unser bester auf GPT-4 basierender Agent erreicht nur eine End-to-End-Aufgabenerfolgsrate von 10,59 %. Diese Ergebnisse unterstreichen die Notwendigkeit der Weiterentwicklung robuster Agenten, dass aktuelle state-of-the-art Sprachmodelle bei diesen realen Aufgaben noch weit von einer perfekten Leistung entfernt sind und dass WebArena genutzt werden kann, um solche Fortschritte zu messen. Unser Code, Daten, Ressourcen zur Umgebungsreproduktion und Videodemonstrationen sind öffentlich unter https://webarena.dev/ verfügbar.
Große Sprachmodelle (LLMs) haben bemerkenswerte Leistungen bei verschiedenen Benchmarks für quantitatives Denken und Wissen gezeigt. Allerdings verlieren viele dieser Benchmarks an Nutzen, da LLMs zunehmend hohe Punktzahlen erreichen, obwohl sie in diesen Domänen noch keine Expertenleistung erbringen. Wir stellen ARB vor, einen neuartigen Benchmark, der aus fortgeschrittenen Denkproblemen in mehreren Fachgebieten besteht. ARB bietet eine anspruchsvollere Prüfung als bisherige Benchmarks und umfasst Probleme aus den Bereichen Mathematik, Physik, Biologie, Chemie und Recht. Als Teilmenge von ARB führen wir eine anspruchsvolle Sammlung von Mathematik- und Physikproblemen ein, die fortgeschrittenes symbolisches Denken und Fachwissen erfordern. Wir bewerten aktuelle Modelle wie GPT-4 und Claude anhand von ARB und zeigen, dass die derzeitigen Modelle bei anspruchsvolleren Aufgaben deutlich unter 50 % liegen. Um sowohl die automatische als auch die unterstützte Bewertungsfähigkeit zu verbessern, führen wir einen rubrikbasierten Bewertungsansatz ein, der es GPT-4 ermöglicht, seine eigenen Zwischenschritte der Argumentation zu bewerten. Darüber hinaus führen wir eine menschliche Bewertung des symbolischen Teils von ARB durch und finden eine vielversprechende Übereinstimmung zwischen den Annotatoren und den Bewertungsergebnissen von GPT-4 gemäß der Rubrik.
Traditionelle Empfehlungssysteme nutzen die Artikelpräferenzhistorie von Nutzern, um neue Inhalte zu empfehlen, die den Nutzern gefallen könnten. Moderne Dialogschnittstellen, die es Nutzern ermöglichen, sprachbasierte Präferenzen auszudrücken, bieten jedoch eine grundlegend andere Modalität für die Eingabe von Präferenzen. Inspiriert von den jüngsten Erfolgen von Prompting-Paradigmen für große Sprachmodelle (LLMs), untersuchen wir deren Einsatz zur Erstellung von Empfehlungen sowohl aus artikelbasierten als auch aus sprachbasierten Präferenzen im Vergleich zu state-of-the-art artikelbasierten kollaborativen Filterungsmethoden (CF). Um diese Untersuchung zu unterstützen, sammeln wir einen neuen Datensatz, der sowohl artikelbasierte als auch sprachbasierte Präferenzen enthält, die von Nutzern zusammen mit ihren Bewertungen für eine Vielzahl von (verzerrten) empfohlenen Artikeln und (unverzerrten) zufälligen Artikeln erhoben wurden. Unter zahlreichen experimentellen Ergebnissen stellen wir fest, dass LLMs im nahen Cold-Start-Fall für rein sprachbasierte Präferenzen (keine Artikelpräferenzen) im Vergleich zu artikelbasierten CF-Methoden eine wettbewerbsfähige Empfehlungsleistung bieten, obwohl sie für diese spezielle Aufgabe kein überwachtes Training (Zero-Shot) oder nur wenige Labels (Few-Shot) erhalten haben. Dies ist besonders vielversprechend, da sprachbasierte Präferenzdarstellungen erklärbarer und nachvollziehbarer sind als artikelbasierte oder vektorbasierte Darstellungen.
Code Coverage ist eine weit verbreitete Metrik, um das Ausmaß zu quantifizieren, in dem Programmelemente wie Anweisungen oder Verzweigungen während des Testens ausgeführt werden. Die Berechnung der Code-Abdeckung ist ressourcenintensiv, da sie das Erstellen und Ausführen von Code mit zusätzlichem Aufwand für die Instrumentierung erfordert. Darüber hinaus erfordert die Berechnung der Abdeckung eines beliebigen Codeausschnitts den gesamten Programmkontext. Der Einsatz von maschinellem Lernen, um diesen aufwendigen Prozess zu amortisieren, könnte die Kosten der Code-Abdeckung senken, indem nur der Quellcode-Kontext benötigt wird, und die Aufgabe der Code-Abdeckungsvorhersage könnte ein neuartiger Benchmark sein, um die Fähigkeit von Modellen, Code zu verstehen, zu bewerten. Wir schlagen eine neuartige Benchmark-Aufgabe namens Code Coverage Prediction für Large Language Models (LLMs) vor. Wir formalisieren diese Aufgabe, um die Fähigkeit von LLMs, die Code-Ausführung zu verstehen, zu bewerten, indem wir bestimmen, welche Zeilen einer Methode durch einen gegebenen Testfall und Eingaben ausgeführt werden. Wir erstellen und veröffentlichen einen Datensatz, den wir COVERAGEEVAL nennen, indem wir Tests und Code aus dem HumanEval-Datensatz ausführen und Informationen zur Code-Abdeckung sammeln. Wir berichten über die Leistung von vier state-of-the-art LLMs, die für codebezogene Aufgaben verwendet werden, darunter OpenAI's GPT-4 und GPT-3.5-Turbo, Google's BARD und Anthropic's Claude, bei der Aufgabe der Code-Abdeckungsvorhersage. Schließlich argumentieren wir, dass Code-Abdeckung als Metrik und als Quelle für Vorab-Trainingsdaten wertvoll für die Gesamtleistung von LLMs bei Software-Engineering-Aufgaben ist.
Wir stellen Strivec vor, eine neuartige neuronale Repräsentation, die eine 3D-Szene als ein Radiance-Feld mit spärlich verteilten und kompakt faktorisierten lokalen Tensor-Feature-Gittern modelliert. Unser Ansatz nutzt Tensor-Zerlegung, in Anlehnung an die aktuelle Arbeit TensoRF, um die Tensor-Gitter zu modellieren. Im Gegensatz zu TensoRF, das einen globalen Tensor verwendet und sich auf dessen Vektor-Matrix-Zerlegung konzentriert, schlagen wir vor, eine Wolke lokaler Tensoren zu nutzen und die klassische CANDECOMP/PARAFAC (CP)-Zerlegung anzuwenden, um jeden Tensor in Tripel-Vektoren zu faktorisieren, die lokale Feature-Verteilungen entlang der räumlichen Achsen ausdrücken und ein lokales neuronales Feld kompakt kodieren. Wir verwenden auch mehrstufige Tensor-Gitter, um die Geometrie- und Erscheinungsbild-Gemeinsamkeiten zu entdecken und die räumliche Kohärenz mit der Tripel-Vektor-Faktorisierung auf mehreren lokalen Skalen auszunutzen. Die endgültigen Radiance-Feld-Eigenschaften werden durch die Aggregation neuronaler Features aus mehreren lokalen Tensoren über alle Skalen hinweg regressiert. Unsere Tripel-Vektor-Tensoren sind spärlich um die tatsächliche Szeneoberfläche verteilt, die durch eine schnelle Grobrekonstruktion entdeckt wird, wobei die Sparsity einer 3D-Szene ausgenutzt wird. Wir zeigen, dass unser Modell eine bessere Rendering-Qualität erreichen kann, während es signifikant weniger Parameter verwendet als bisherige Methoden, einschließlich TensoRF und Instant-NGP.
Während viele reale Probleme, die von Reinforcement Learning profitieren könnten, selten in das MDP-Schema passen, ist die Interaktion mit der Umgebung oft kostspielig und die Spezifikation von Belohnungsfunktionen herausfordernd. Angespornt durch diese Herausforderungen haben frühere Arbeiten datengetriebene Ansätze entwickelt, die vollständig aus Stichproben der Übergangsdynamik und Beispielen für Zustände mit hoher Ausbeute lernen. Diese Methoden lernen typischerweise eine Belohnungsfunktion aus Zuständen mit hoher Ausbeute, verwenden diese Belohnungsfunktion, um die Übergänge zu beschriften, und wenden dann einen Offline-RL-Algorithmus auf diese Übergänge an. Obwohl diese Methoden bei vielen Aufgaben gute Ergebnisse erzielen können, sind sie oft komplex und erfordern Regularisierung und Temporal-Difference-Updates. In diesem Artikel schlagen wir eine Methode für offline, beispielbasiertes Steuern vor, die ein implizites Modell von Mehrschritt-Übergängen lernt, anstatt eine Belohnungsfunktion. Wir zeigen, dass dieses implizite Modell die Q-Werte für das beispielbasierte Steuerungsproblem darstellen kann. Über eine Reihe von zustandsbasierten und bildbasierten Offline-Steuerungsaufgaben hinweg übertrifft unsere Methode Baseline-Methoden, die gelernte Belohnungsfunktionen verwenden; zusätzliche Experimente zeigen verbesserte Robustheit und Skalierbarkeit mit der Datensatzgröße.