Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Weiterentwicklung subquadratischer Architekturen für Sprachmodelle (LMs) ist im sich rasant entwickelnden Bereich der natürlichen Sprachverarbeitung von entscheidender Bedeutung. Aktuelle Innovationen, einschließlich State-Space-Modelle, wurden zunächst dafür gefeiert, dass sie die Leistung von Transformern bei Sprachmodellierungsaufgaben übertrafen. Diese Modelle haben jedoch Defizite in wesentlichen Fähigkeiten des In-Context-Lernens offenbart – einem Bereich, in dem der Transformer traditionell glänzt. Das Based-Modell entstand als hybride Lösung, die einen linearen Transformer mit einem Kernel kombinierte, der von der Taylor-Entwicklung exponentieller Funktionen inspiriert war und durch Faltungsnetzwerke erweitert wurde. Indem es die Fähigkeit des Transformers zum In-Context-Lernen widerspiegelte, wurde es zu einem starken Konkurrenten in diesem Bereich. In unserer Arbeit präsentieren wir eine einzige, elegante Modifikation des Based-Kernels, die seine Fähigkeiten im In-Context-Lernen verbessert, bewertet anhand der Multi-Query Associative Recall-Aufgabe und des gesamten Sprachmodellierungsprozesses, wie am Pile-Datensatz demonstriert.
Diese Arbeit befasst sich mit der Herausforderung, lange Dokumente mit generativen Transformer-Modellen zu verarbeiten. Um verschiedene Ansätze zu bewerten, führen wir BABILong ein, einen neuen Benchmark, der darauf abzielt, die Fähigkeiten von Modellen zur Extraktion und Verarbeitung verteilter Fakten in umfangreichen Texten zu bewerten. Unsere Auswertung, die Benchmarks für GPT-4 und RAG umfasst, zeigt, dass gängige Methoden nur für Sequenzen mit bis zu 10^4 Elementen effektiv sind. Im Gegensatz dazu ermöglicht das Feinabstimmen von GPT-2 mit rekurrenten Speichererweiterungen die Bewältigung von Aufgaben mit bis zu 10^7 Elementen. Dieser Erfolg stellt einen erheblichen Fortschritt dar, da es sich um den längsten Input handelt, der bisher von einem offenen neuronalen Netzwerkmodell verarbeitet wurde, und zeigt eine signifikante Verbesserung der Verarbeitungsfähigkeiten für lange Sequenzen auf.
Die Nutzung der langen Engagement-Historie von Benutzern ist entscheidend für personalisierte Inhaltsempfehlungen. Der Erfolg vortrainierter Sprachmodelle (PLMs) im Bereich NLP hat zu deren Einsatz bei der Kodierung von Benutzerhistorien und Kandidatenartikeln geführt, wodurch Inhaltsempfehlungen als textuelle semantische Abgleichaufgaben formuliert werden. Allerdings kämpfen bestehende Ansätze noch immer mit der Verarbeitung sehr langer Benutzerhistorien und unzureichenden Benutzer-Item-Interaktionen. In diesem Artikel stellen wir ein inhaltsbasiertes Empfehlungsframework namens SPAR vor, das die Herausforderungen der ganzheitlichen Extraktion von Benutzerinteressen aus der langen Engagement-Historie effektiv bewältigt. Dies wird erreicht, indem PLMs, Poly-Attention-Schichten und Attention-Sparsity-Mechanismen genutzt werden, um die Benutzerhistorie in einer sitzungsbasierten Weise zu kodieren. Die Merkmale der Benutzer- und Item-Seite werden ausreichend fusioniert, um das Engagement vorherzusagen, während gleichzeitig eigenständige Repräsentationen für beide Seiten beibehalten werden, was für die praktische Modellbereitstellung effizient ist. Darüber hinaus verbessern wir die Benutzerprofilierung, indem wir große Sprachmodelle (LLMs) nutzen, um globale Interessen aus der Benutzerengagement-Historie zu extrahieren. Umfangreiche Experimente auf zwei Benchmark-Datensätzen zeigen, dass unser Framework bestehende State-of-the-Art (SoTA)-Methoden übertrifft.
Große Sprachmodelle (LLMs) haben sich zu einem dominierenden und wichtigen Werkzeug für NLP-Forscher in einer Vielzahl von Aufgaben entwickelt. Heutzutage nutzen viele Forscher LLMs für die Erzeugung synthetischer Daten, die Bewertung von Aufgaben, das Feinabstimmen, die Destillation und andere Modell-im-Loop-Forschungsabläufe. Es ergeben sich jedoch Herausforderungen bei der Verwendung dieser Modelle, die sich aus ihrer Größe, ihrer Closed-Source-Natur und dem Mangel an standardisierten Werkzeugen für diese neuen und aufkommenden Arbeitsabläufe ergeben. Der rasche Aufstieg dieser Modelle und diese einzigartigen Herausforderungen haben unmittelbare negative Auswirkungen auf die offene Wissenschaft und die Reproduzierbarkeit von Arbeiten, die sie verwenden. In diesem Artikel stellen wir DataDreamer vor, eine Open-Source-Python-Bibliothek, die es Forschern ermöglicht, einfachen Code zu schreiben, um leistungsstarke LLM-Arbeitsabläufe zu implementieren. DataDreamer hilft Forschern auch dabei, Best Practices einzuhalten, die wir vorschlagen, um offene Wissenschaft und Reproduzierbarkeit zu fördern. Die Bibliothek und die Dokumentation sind unter https://github.com/datadreamer-dev/DataDreamer verfügbar.
Die Erstellung von Videos hat zunehmend an Popularität gewonnen, doch das erforderliche Fachwissen und der Aufwand für die Bearbeitung stellen oft Hürden für Anfänger dar. In diesem Artikel untersuchen wir die Integration von großen Sprachmodellen (LLMs) in den Videobearbeitungsprozess, um diese Barrieren zu verringern. Unsere Designvision wird durch LAVE verkörpert, ein neuartiges System, das LLM-gestützte Agentenunterstützung und sprachbasierte Bearbeitungsfunktionen bietet. LAVE generiert automatisch Sprachbeschreibungen für das Filmmaterial des Benutzers, die als Grundlage dienen, um das LLM zur Verarbeitung von Videos und zur Unterstützung bei Bearbeitungsaufgaben zu befähigen. Wenn der Benutzer Bearbeitungsziele vorgibt, plant und führt der Agent relevante Aktionen aus, um diese zu erfüllen. Darüber hinaus ermöglicht LAVE den Benutzern, Videos entweder über den Agenten oder durch direkte UI-Manipulation zu bearbeiten, was Flexibilität bietet und die manuelle Verfeinerung von Agentenaktionen ermöglicht. Unsere Nutzerstudie mit acht Teilnehmern, die von Anfängern bis hin zu erfahrenen Editoren reichten, demonstrierte die Wirksamkeit von LAVE. Die Ergebnisse geben auch Aufschluss über die Wahrnehmung der Benutzer hinsichtlich des vorgeschlagenen LLM-gestützten Bearbeitungsparadigmas und dessen Auswirkungen auf die Kreativität und das Gefühl der Mitgestaltung der Benutzer. Basierend auf diesen Erkenntnissen schlagen wir Designimplikationen vor, um die zukünftige Entwicklung von agentengestützter Inhaltsbearbeitung zu informieren.
Die automatische Gegenüberstellungsbewertung hat sich als vielversprechender Ansatz zur Bewertung der Qualität von Antworten großer Sprachmodelle (LLMs) etabliert. Die Analyse der Ergebnisse dieses Bewertungsansatzes wirft jedoch Skalierbarkeits- und Interpretierbarkeitsherausforderungen auf. In diesem Artikel stellen wir LLM Comparator vor, ein neuartiges Visual-Analytics-Tool zur interaktiven Analyse von Ergebnissen aus der automatischen Gegenüberstellungsbewertung. Das Tool unterstützt interaktive Workflows, um Nutzern zu helfen, zu verstehen, wann und warum ein Modell besser oder schlechter abschneidet als ein Baseline-Modell und wie sich die Antworten zweier Modelle qualitativ unterscheiden. Wir haben das Tool iterativ entworfen und entwickelt, indem wir eng mit Forschern und Ingenieuren eines großen Technologieunternehmens zusammengearbeitet haben. Dieser Artikel beschreibt die von uns identifizierten Nutzerherausforderungen, die Gestaltung und Entwicklung des Tools sowie eine Beobachtungsstudie mit Teilnehmern, die regelmäßig ihre Modelle evaluieren.
Große Sprachmodelle (LLMs) werden in Konversationssystemen zunehmend verbreitet, da sie ein fortgeschrittenes Verständnis und generative Fähigkeiten in allgemeinen Kontexten aufweisen. Ihre Effektivität in aufgabenorientierten Dialogen (TOD), die nicht nur die Generierung von Antworten, sondern auch eine effektive Dialogzustandsverfolgung (DST) innerhalb spezifischer Aufgaben und Domänen erfordern, bleibt jedoch weniger zufriedenstellend. In dieser Arbeit schlagen wir einen neuartigen Ansatz, FnCTOD, zur Lösung von DST mit LLMs durch Funktionsaufrufe vor. Diese Methode verbessert das Zero-Shot-DST und ermöglicht die Anpassung an verschiedene Domänen ohne umfangreiche Datensammlung oder Modellanpassung. Unsere experimentellen Ergebnisse zeigen, dass unser Ansatz mit sowohl moderat großen Open-Source- als auch proprietären LLMs außergewöhnliche Leistungen erzielt: Mit In-Context-Prompting ermöglicht er verschiedenen 7B- oder 13B-Parameter-Modellen, den bisherigen Stand der Technik (SOTA), der von ChatGPT erreicht wurde, zu übertreffen, und verbessert die Leistung von ChatGPT, indem er den SOTA um 5,6 % Avg. JGA übertrifft. Die individuellen Modellergebnisse für GPT-3.5 und GPT-4 werden um 4,8 % bzw. 14 % gesteigert. Wir zeigen auch, dass durch Feinabstimmung auf eine kleine Sammlung vielfältiger aufgabenorientierter Dialoge bescheidene Modelle, speziell ein 13B-Parameter-LLaMA2-Chat-Modell, mit Funktionsaufruf-Fähigkeiten und DST-Leistungen ausgestattet werden können, die mit ChatGPT vergleichbar sind, während ihre Chat-Fähigkeiten erhalten bleiben. Wir planen, den experimentellen Code und das Modell zu veröffentlichen.
Diffusion-Modelle haben sich als äußerst effektiv bei der Bild- und Videogenerierung erwiesen; sie stehen jedoch weiterhin vor Kompositionsherausforderungen, wenn Bilder in verschiedenen Größen aufgrund von Trainingsdaten mit nur einer Skala generiert werden sollen. Die Anpassung großer, vortrainierter Diffusion-Modelle für höhere Auflösungen erfordert erhebliche Rechen- und Optimierungsressourcen, doch die Erreichung einer Generierungsfähigkeit, die mit der von Modellen mit niedriger Auflösung vergleichbar ist, bleibt schwer fassbar. Dieses Papier schlägt ein neuartiges Self-Cascade-Diffusion-Modell vor, das das umfangreiche Wissen eines gut trainierten Modells mit niedriger Auflösung nutzt, um sich schnell an die Generierung von Bildern und Videos mit höherer Auflösung anzupassen, wobei entweder tuningfreie oder kostengünstige Upsampler-Tuning-Paradigmen verwendet werden. Durch die Integration einer Sequenz von Multi-Scale-Upsampler-Modulen kann das Self-Cascade-Diffusion-Modell effizient an eine höhere Auflösung angepasst werden, wobei die ursprüngliche Komposition und Generierungsfähigkeit erhalten bleibt. Wir schlagen außerdem eine pivotgesteuerte Rausch-Neuplanungsstrategie vor, um den Inferenzprozess zu beschleunigen und lokale Strukturdetails zu verbessern. Im Vergleich zum vollständigen Fine-Tuning erreicht unser Ansatz eine 5-fache Beschleunigung des Trainings und benötigt nur zusätzliche 0,002M Tuning-Parameter. Umfangreiche Experimente zeigen, dass unser Ansatz sich schnell an die Synthese von Bildern und Videos mit höherer Auflösung anpassen kann, indem er für nur 10.000 Schritte feinabgestimmt wird, wobei praktisch keine zusätzliche Inferenzzeit erforderlich ist.
Diese Arbeit zeigt, dass ein progressiv ausgerichtetes Sprachmodell effektiv eingefrorene Vision-Encoder und große Sprachmodelle (LLMs) verbinden kann. Während die grundlegende Architektur und die Vorab-Trainingsmethoden von Vision-Encodern und LLMs umfassend untersucht wurden, variieren die Architektur und die Trainingsstrategie von Vision-Sprache-Adaptern in aktuellen Arbeiten erheblich. Unsere Forschung unternimmt eine gründliche Untersuchung der state-of-the-art Perceiver-Resampler-Architektur und baut eine solide Baseline auf. Wir beobachten jedoch, dass die Vision-Sprache-Ausrichtung mit dem Perceiver-Resampler eine langsame Konvergenz und begrenzte Skalierbarkeit bei fehlender direkter Überwachung aufweist. Um dieses Problem zu lösen, schlagen wir PaLM2-VAdapter vor, das ein progressiv ausgerichtetes Sprachmodell als Vision-Sprache-Adapter verwendet. Im Vergleich zur starken Baseline mit Perceiver-Resampler zeigt unsere Methode empirisch eine schnellere Konvergenz, eine höhere Leistung und eine stärkere Skalierbarkeit. Umfangreiche Experimente über verschiedene Visual Question Answering (VQA)- und Beschriftungsaufgaben sowohl für Bilder als auch für Videos demonstrieren, dass unser Modell state-of-the-art visuelles Verständnis und multimodale Fähigkeiten zur Schlussfolgerung aufweist. Bemerkenswerterweise erreicht unsere Methode diese Fortschritte mit 30~70 % weniger Parametern als die state-of-the-art großen Vision-Sprache-Modelle, was eine signifikante Effizienzsteigerung darstellt.
Die Rekonstruktion und Darstellung von 3D-Objekten aus stark spärlichen Ansichten ist von entscheidender Bedeutung, um Anwendungen von 3D-Vision-Techniken zu fördern und das Benutzererlebnis zu verbessern. Bilder aus spärlichen Ansichten enthalten jedoch nur sehr begrenzte 3D-Informationen, was zu zwei wesentlichen Herausforderungen führt: 1) Schwierigkeiten beim Aufbau von Multi-View-Konsistenz, da zu wenige Bilder für den Abgleich vorhanden sind; 2) Teilweise ausgelassene oder stark komprimierte Objektinformationen, da die Abdeckung der Ansichten unzureichend ist. Um diese Herausforderungen zu bewältigen, schlagen wir GaussianObject vor, ein Framework zur Darstellung und Darstellung des 3D-Objekts mit Gaussian Splatting, das eine hohe Darstellungsqualität mit nur 4 Eingabebildern erreicht. Wir führen zunächst Techniken des Visual Hull und der Floater-Eliminierung ein, die explizit Strukturpriors in den initialen Optimierungsprozess einbringen, um den Aufbau von Multi-View-Konsistenz zu unterstützen und eine grobe 3D-Gauß-Darstellung zu erzeugen. Anschließend konstruieren wir ein Gauß-Reparaturmodell basierend auf Diffusionsmodellen, um die ausgelassenen Objektinformationen zu ergänzen, wobei die Gauß-Funktionen weiter verfeinert werden. Wir entwerfen eine selbstgenerierende Strategie, um Bildpaare für das Training des Reparaturmodells zu erhalten. Unser GaussianObject wird auf mehreren anspruchsvollen Datensätzen evaluiert, darunter MipNeRF360, OmniObject3D und OpenIllumination, und erzielt starke Rekonstruktionsergebnisse aus nur 4 Ansichten, wobei es bisherige state-of-the-art-Methoden deutlich übertrifft.
Wir präsentieren das Universal Manipulation Interface (UMI) – ein Framework zur Datenerfassung und Politik-Lernens, das den direkten Transfer von Fähigkeiten aus menschlichen Demonstrationen in der realen Welt auf einsetzbare Roboter-Policies ermöglicht. UMI nutzt handgehaltene Greifer in Kombination mit einem sorgfältig gestalteten Interface, um portable, kostengünstige und informationsreiche Datenerfassung für anspruchsvolle bimanuelle und dynamische Manipulationsdemonstrationen zu ermöglichen. Um das Lernen von einsetzbaren Policies zu erleichtern, integriert UMI ein speziell entwickeltes Policy-Interface mit Latenzabgleich zur Inferenzzeit und einer relativen Trajektorien-Aktionsdarstellung. Die daraus resultierenden gelernten Policies sind hardwareunabhängig und können auf mehreren Roboterplattformen eingesetzt werden. Ausgestattet mit diesen Funktionen ermöglicht das UMI-Framework neue Fähigkeiten in der Roboter-Manipulation, indem es zero-shot generalisierbare dynamische, bimanuelle, präzise und langfristige Verhaltensweisen ermöglicht, indem lediglich die Trainingsdaten für jede Aufgabe angepasst werden. Wir demonstrieren die Vielseitigkeit und Wirksamkeit von UMI mit umfassenden realen Experimenten, bei denen Policies, die über UMI gelernt wurden, zero-shot auf neue Umgebungen und Objekte generalisieren, wenn sie auf vielfältigen menschlichen Demonstrationen trainiert wurden. Das Hardware- und Softwaresystem von UMI ist unter https://umi-gripper.github.io quelloffen verfügbar.
Die Vielfalt der Kontexte, in denen große Sprachmodelle (LLMs) eingesetzt werden, erfordert die Fähigkeit, Standardverhalten des Modells anzupassen oder zu individualisieren, um differenzierte Anforderungen und Präferenzen zu berücksichtigen. Eine praktische Schnittstelle zur Spezifikation solcher Modellanpassungen ist hochrangiges verbales Feedback, wie z. B. „Verwende keine Emojis, wenn du E-Mails an meinen Chef verfasst.“ Obwohl das Verfassen von hochrangigem Feedback weitaus einfacher ist als das Sammeln von Annotationen für Reinforcement Learning aus menschlichem Feedback (RLHF), stellen wir fest, dass die bloße Eingabe eines solchen Feedbacks in das Modell zu einer Überverallgemeinerung des Feedbacks auf Kontexte führt, in denen es nicht relevant ist. Wir untersuchen das Problem der Einbindung von verbalem Feedback ohne eine solche Überverallgemeinerung, was zu einer neuen Methode führt: Contextualized Critiques with Constrained Preference Optimization (C3PO). C3PO verwendet ein Stück hochrangiges Feedback, um einen kleinen synthetischen Präferenzdatensatz zu generieren, der spezifiziert, wie das Feedback angewendet werden sollte (und wie nicht). Anschließend wird das Modell gemäß der synthetischen Präferenzdaten feinabgestimmt, wobei die Abweichung vom ursprünglichen Modell für Eingabeaufforderungen, auf die das Feedback nicht zutrifft, minimiert wird. Unsere experimentellen Ergebnisse zeigen, dass unser Ansatz verbales Feedback effektiv auf relevante Szenarien anwendet, während bestehende Verhaltensweisen für andere Kontexte erhalten bleiben. Sowohl für menschliches als auch für GPT-4-generiertes hochrangiges Feedback hält sich C3PO vergleichbar gut an das gegebene Feedback wie In-Context-Baselines und reduziert die Überverallgemeinerung um 30 %.