papers.title

papers.description

Lineare Transformer mit lernbaren Kernfunktionen sind bessere In-Context-Modelle
Linear Transformers with Learnable Kernel Functions are Better In-Context Models

Feb 16

ByYaroslav Aksenov, Nikita Balagansky, Sofia Maria Lo Cicero Vaina, Boris Shaposhnikov, Alexey Gorbatovski, Daniil Gavrilov

Die Weiterentwicklung subquadratischer Architekturen für Sprachmodelle (LMs) ist im sich rasant entwickelnden Bereich der natürlichen Sprachverarbeitung von entscheidender Bedeutung. Aktuelle Innovationen, einschließlich State-Space-Modelle, wurden zunächst dafür gefeiert, dass sie die Leistung von Transformern bei Sprachmodellierungsaufgaben übertrafen. Diese Modelle haben jedoch Defizite in wesentlichen Fähigkeiten des In-Context-Lernens offenbart – einem Bereich, in dem der Transformer traditionell glänzt. Das Based-Modell entstand als hybride Lösung, die einen linearen Transformer mit einem Kernel kombinierte, der von der Taylor-Entwicklung exponentieller Funktionen inspiriert war und durch Faltungsnetzwerke erweitert wurde. Indem es die Fähigkeit des Transformers zum In-Context-Lernen widerspiegelte, wurde es zu einem starken Konkurrenten in diesem Bereich. In unserer Arbeit präsentieren wir eine einzige, elegante Modifikation des Based-Kernels, die seine Fähigkeiten im In-Context-Lernen verbessert, bewertet anhand der Multi-Query Associative Recall-Aufgabe und des gesamten Sprachmodellierungsprozesses, wie am Pile-Datensatz demonstriert.

Auf der Suche nach Nadeln im 10M-Heuhaufen: Rekurrente Speicher finden, was LLMs übersehen
In Search of Needles in a 10M Haystack: Recurrent Memory Finds What LLMs Miss

Feb 16

ByYuri Kuratov, Aydar Bulatov, Petr Anokhin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev

Diese Arbeit befasst sich mit der Herausforderung, lange Dokumente mit generativen Transformer-Modellen zu verarbeiten. Um verschiedene Ansätze zu bewerten, führen wir BABILong ein, einen neuen Benchmark, der darauf abzielt, die Fähigkeiten von Modellen zur Extraktion und Verarbeitung verteilter Fakten in umfangreichen Texten zu bewerten. Unsere Auswertung, die Benchmarks für GPT-4 und RAG umfasst, zeigt, dass gängige Methoden nur für Sequenzen mit bis zu 10^4 Elementen effektiv sind. Im Gegensatz dazu ermöglicht das Feinabstimmen von GPT-2 mit rekurrenten Speichererweiterungen die Bewältigung von Aufgaben mit bis zu 10^7 Elementen. Dieser Erfolg stellt einen erheblichen Fortschritt dar, da es sich um den längsten Input handelt, der bisher von einem offenen neuronalen Netzwerkmodell verarbeitet wurde, und zeigt eine signifikante Verbesserung der Verarbeitungsfähigkeiten für lange Sequenzen auf.

SPAR: Personalisierte inhaltsbasierte Empfehlungen durch langfristige Engagement-Aufmerksamkeit
SPAR: Personalized Content-Based Recommendation via Long Engagement Attention

Feb 16

ByChiyu Zhang, Yifei Sun, Jun Chen, Jie Lei, Muhammad Abdul-Mageed, Sinong Wang, Rong Jin, Sem Park, Ning Yao, Bo Long

Die Nutzung der langen Engagement-Historie von Benutzern ist entscheidend für personalisierte Inhaltsempfehlungen. Der Erfolg vortrainierter Sprachmodelle (PLMs) im Bereich NLP hat zu deren Einsatz bei der Kodierung von Benutzerhistorien und Kandidatenartikeln geführt, wodurch Inhaltsempfehlungen als textuelle semantische Abgleichaufgaben formuliert werden. Allerdings kämpfen bestehende Ansätze noch immer mit der Verarbeitung sehr langer Benutzerhistorien und unzureichenden Benutzer-Item-Interaktionen. In diesem Artikel stellen wir ein inhaltsbasiertes Empfehlungsframework namens SPAR vor, das die Herausforderungen der ganzheitlichen Extraktion von Benutzerinteressen aus der langen Engagement-Historie effektiv bewältigt. Dies wird erreicht, indem PLMs, Poly-Attention-Schichten und Attention-Sparsity-Mechanismen genutzt werden, um die Benutzerhistorie in einer sitzungsbasierten Weise zu kodieren. Die Merkmale der Benutzer- und Item-Seite werden ausreichend fusioniert, um das Engagement vorherzusagen, während gleichzeitig eigenständige Repräsentationen für beide Seiten beibehalten werden, was für die praktische Modellbereitstellung effizient ist. Darüber hinaus verbessern wir die Benutzerprofilierung, indem wir große Sprachmodelle (LLMs) nutzen, um globale Interessen aus der Benutzerengagement-Historie zu extrahieren. Umfangreiche Experimente auf zwei Benchmark-Datensätzen zeigen, dass unser Framework bestehende State-of-the-Art (SoTA)-Methoden übertrifft.

DataDreamer: Ein Werkzeug zur synthetischen Datengenerierung und reproduzierbaren LLM-Workflows
DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows

Feb 16

ByAjay Patel, Colin Raffel, Chris Callison-Burch

Große Sprachmodelle (LLMs) haben sich zu einem dominierenden und wichtigen Werkzeug für NLP-Forscher in einer Vielzahl von Aufgaben entwickelt. Heutzutage nutzen viele Forscher LLMs für die Erzeugung synthetischer Daten, die Bewertung von Aufgaben, das Feinabstimmen, die Destillation und andere Modell-im-Loop-Forschungsabläufe. Es ergeben sich jedoch Herausforderungen bei der Verwendung dieser Modelle, die sich aus ihrer Größe, ihrer Closed-Source-Natur und dem Mangel an standardisierten Werkzeugen für diese neuen und aufkommenden Arbeitsabläufe ergeben. Der rasche Aufstieg dieser Modelle und diese einzigartigen Herausforderungen haben unmittelbare negative Auswirkungen auf die offene Wissenschaft und die Reproduzierbarkeit von Arbeiten, die sie verwenden. In diesem Artikel stellen wir DataDreamer vor, eine Open-Source-Python-Bibliothek, die es Forschern ermöglicht, einfachen Code zu schreiben, um leistungsstarke LLM-Arbeitsabläufe zu implementieren. DataDreamer hilft Forschern auch dabei, Best Practices einzuhalten, die wir vorschlagen, um offene Wissenschaft und Reproduzierbarkeit zu fördern. Die Bibliothek und die Dokumentation sind unter https://github.com/datadreamer-dev/DataDreamer verfügbar.

LAVE: LLM-gestützte Agentenunterstützung und Sprachverbesserung für die Videobearbeitung
LAVE: LLM-Powered Agent Assistance and Language Augmentation for Video Editing

Feb 15

ByBryan Wang, Yuliang Li, Zhaoyang Lv, Haijun Xia, Yan Xu, Raj Sodhi

Die Erstellung von Videos hat zunehmend an Popularität gewonnen, doch das erforderliche Fachwissen und der Aufwand für die Bearbeitung stellen oft Hürden für Anfänger dar. In diesem Artikel untersuchen wir die Integration von großen Sprachmodellen (LLMs) in den Videobearbeitungsprozess, um diese Barrieren zu verringern. Unsere Designvision wird durch LAVE verkörpert, ein neuartiges System, das LLM-gestützte Agentenunterstützung und sprachbasierte Bearbeitungsfunktionen bietet. LAVE generiert automatisch Sprachbeschreibungen für das Filmmaterial des Benutzers, die als Grundlage dienen, um das LLM zur Verarbeitung von Videos und zur Unterstützung bei Bearbeitungsaufgaben zu befähigen. Wenn der Benutzer Bearbeitungsziele vorgibt, plant und führt der Agent relevante Aktionen aus, um diese zu erfüllen. Darüber hinaus ermöglicht LAVE den Benutzern, Videos entweder über den Agenten oder durch direkte UI-Manipulation zu bearbeiten, was Flexibilität bietet und die manuelle Verfeinerung von Agentenaktionen ermöglicht. Unsere Nutzerstudie mit acht Teilnehmern, die von Anfängern bis hin zu erfahrenen Editoren reichten, demonstrierte die Wirksamkeit von LAVE. Die Ergebnisse geben auch Aufschluss über die Wahrnehmung der Benutzer hinsichtlich des vorgeschlagenen LLM-gestützten Bearbeitungsparadigmas und dessen Auswirkungen auf die Kreativität und das Gefühl der Mitgestaltung der Benutzer. Basierend auf diesen Erkenntnissen schlagen wir Designimplikationen vor, um die zukünftige Entwicklung von agentengestützter Inhaltsbearbeitung zu informieren.

LLM Comparator: Visuelle Analysen für den direkten Vergleich von Large Language Models
LLM Comparator: Visual Analytics for Side-by-Side Evaluation of Large Language Models

Feb 16

ByMinsuk Kahng, Ian Tenney, Mahima Pushkarna, Michael Xieyang Liu, James Wexler, Emily Reif, Krystal Kallarackal, Minsuk Chang, Michael Terry, Lucas Dixon

Die automatische Gegenüberstellungsbewertung hat sich als vielversprechender Ansatz zur Bewertung der Qualität von Antworten großer Sprachmodelle (LLMs) etabliert. Die Analyse der Ergebnisse dieses Bewertungsansatzes wirft jedoch Skalierbarkeits- und Interpretierbarkeitsherausforderungen auf. In diesem Artikel stellen wir LLM Comparator vor, ein neuartiges Visual-Analytics-Tool zur interaktiven Analyse von Ergebnissen aus der automatischen Gegenüberstellungsbewertung. Das Tool unterstützt interaktive Workflows, um Nutzern zu helfen, zu verstehen, wann und warum ein Modell besser oder schlechter abschneidet als ein Baseline-Modell und wie sich die Antworten zweier Modelle qualitativ unterscheiden. Wir haben das Tool iterativ entworfen und entwickelt, indem wir eng mit Forschern und Ingenieuren eines großen Technologieunternehmens zusammengearbeitet haben. Dieser Artikel beschreibt die von uns identifizierten Nutzerherausforderungen, die Gestaltung und Entwicklung des Tools sowie eine Beobachtungsstudie mit Teilnehmern, die regelmäßig ihre Modelle evaluieren.

Große Sprachmodelle als Zero-Shot-Dialogzustandsverfolger durch Funktionsaufrufe
Large Language Models as Zero-shot Dialogue State Tracker through Function Calling

Feb 16

ByZekun Li, Zhiyu Zoey Chen, Mike Ross, Patrick Huber, Seungwhan Moon, Zhaojiang Lin, Xin Luna Dong, Adithya Sagar, Xifeng Yan, Paul A. Crook

Große Sprachmodelle (LLMs) werden in Konversationssystemen zunehmend verbreitet, da sie ein fortgeschrittenes Verständnis und generative Fähigkeiten in allgemeinen Kontexten aufweisen. Ihre Effektivität in aufgabenorientierten Dialogen (TOD), die nicht nur die Generierung von Antworten, sondern auch eine effektive Dialogzustandsverfolgung (DST) innerhalb spezifischer Aufgaben und Domänen erfordern, bleibt jedoch weniger zufriedenstellend. In dieser Arbeit schlagen wir einen neuartigen Ansatz, FnCTOD, zur Lösung von DST mit LLMs durch Funktionsaufrufe vor. Diese Methode verbessert das Zero-Shot-DST und ermöglicht die Anpassung an verschiedene Domänen ohne umfangreiche Datensammlung oder Modellanpassung. Unsere experimentellen Ergebnisse zeigen, dass unser Ansatz mit sowohl moderat großen Open-Source- als auch proprietären LLMs außergewöhnliche Leistungen erzielt: Mit In-Context-Prompting ermöglicht er verschiedenen 7B- oder 13B-Parameter-Modellen, den bisherigen Stand der Technik (SOTA), der von ChatGPT erreicht wurde, zu übertreffen, und verbessert die Leistung von ChatGPT, indem er den SOTA um 5,6 % Avg. JGA übertrifft. Die individuellen Modellergebnisse für GPT-3.5 und GPT-4 werden um 4,8 % bzw. 14 % gesteigert. Wir zeigen auch, dass durch Feinabstimmung auf eine kleine Sammlung vielfältiger aufgabenorientierter Dialoge bescheidene Modelle, speziell ein 13B-Parameter-LLaMA2-Chat-Modell, mit Funktionsaufruf-Fähigkeiten und DST-Leistungen ausgestattet werden können, die mit ChatGPT vergleichbar sind, während ihre Chat-Fähigkeiten erhalten bleiben. Wir planen, den experimentellen Code und das Modell zu veröffentlichen.

Günstige Skalierung realisieren: Ein Selbst-Kaskaden-Diffusionsmodell für die Anpassung an höhere Auflösungen
Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation

Feb 16

ByLanqing Guo, Yingqing He, Haoxin Chen, Menghan Xia, Xiaodong Cun, Yufei Wang, Siyu Huang, Yong Zhang, Xintao Wang, Qifeng Chen, Ying Shan, Bihan Wen

Diffusion-Modelle haben sich als äußerst effektiv bei der Bild- und Videogenerierung erwiesen; sie stehen jedoch weiterhin vor Kompositionsherausforderungen, wenn Bilder in verschiedenen Größen aufgrund von Trainingsdaten mit nur einer Skala generiert werden sollen. Die Anpassung großer, vortrainierter Diffusion-Modelle für höhere Auflösungen erfordert erhebliche Rechen- und Optimierungsressourcen, doch die Erreichung einer Generierungsfähigkeit, die mit der von Modellen mit niedriger Auflösung vergleichbar ist, bleibt schwer fassbar. Dieses Papier schlägt ein neuartiges Self-Cascade-Diffusion-Modell vor, das das umfangreiche Wissen eines gut trainierten Modells mit niedriger Auflösung nutzt, um sich schnell an die Generierung von Bildern und Videos mit höherer Auflösung anzupassen, wobei entweder tuningfreie oder kostengünstige Upsampler-Tuning-Paradigmen verwendet werden. Durch die Integration einer Sequenz von Multi-Scale-Upsampler-Modulen kann das Self-Cascade-Diffusion-Modell effizient an eine höhere Auflösung angepasst werden, wobei die ursprüngliche Komposition und Generierungsfähigkeit erhalten bleibt. Wir schlagen außerdem eine pivotgesteuerte Rausch-Neuplanungsstrategie vor, um den Inferenzprozess zu beschleunigen und lokale Strukturdetails zu verbessern. Im Vergleich zum vollständigen Fine-Tuning erreicht unser Ansatz eine 5-fache Beschleunigung des Trainings und benötigt nur zusätzliche 0,002M Tuning-Parameter. Umfangreiche Experimente zeigen, dass unser Ansatz sich schnell an die Synthese von Bildern und Videos mit höherer Auflösung anpassen kann, indem er für nur 10.000 Schritte feinabgestimmt wird, wobei praktisch keine zusätzliche Inferenzzeit erforderlich ist.

PaLM2-VAdapter: Progressiv ausgerichtetes Sprachmodell als starker Vision-Sprache-Adapter
PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong Vision-language Adapter

Feb 16

ByJunfei Xiao, Zheng Xu, Alan Yuille, Shen Yan, Boyu Wang

Diese Arbeit zeigt, dass ein progressiv ausgerichtetes Sprachmodell effektiv eingefrorene Vision-Encoder und große Sprachmodelle (LLMs) verbinden kann. Während die grundlegende Architektur und die Vorab-Trainingsmethoden von Vision-Encodern und LLMs umfassend untersucht wurden, variieren die Architektur und die Trainingsstrategie von Vision-Sprache-Adaptern in aktuellen Arbeiten erheblich. Unsere Forschung unternimmt eine gründliche Untersuchung der state-of-the-art Perceiver-Resampler-Architektur und baut eine solide Baseline auf. Wir beobachten jedoch, dass die Vision-Sprache-Ausrichtung mit dem Perceiver-Resampler eine langsame Konvergenz und begrenzte Skalierbarkeit bei fehlender direkter Überwachung aufweist. Um dieses Problem zu lösen, schlagen wir PaLM2-VAdapter vor, das ein progressiv ausgerichtetes Sprachmodell als Vision-Sprache-Adapter verwendet. Im Vergleich zur starken Baseline mit Perceiver-Resampler zeigt unsere Methode empirisch eine schnellere Konvergenz, eine höhere Leistung und eine stärkere Skalierbarkeit. Umfangreiche Experimente über verschiedene Visual Question Answering (VQA)- und Beschriftungsaufgaben sowohl für Bilder als auch für Videos demonstrieren, dass unser Modell state-of-the-art visuelles Verständnis und multimodale Fähigkeiten zur Schlussfolgerung aufweist. Bemerkenswerterweise erreicht unsere Methode diese Fortschritte mit 30~70 % weniger Parametern als die state-of-the-art großen Vision-Sprache-Modelle, was eine signifikante Effizienzsteigerung darstellt.

Universelle Manipulationsschnittstelle: Robotikunterricht in der realen Welt ohne Roboter in der realen Welt
Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots

Feb 15

ByCheng Chi, Zhenjia Xu, Chuer Pan, Eric Cousineau, Benjamin Burchfiel, Siyuan Feng, Russ Tedrake, Shuran Song

Wir präsentieren das Universal Manipulation Interface (UMI) – ein Framework zur Datenerfassung und Politik-Lernens, das den direkten Transfer von Fähigkeiten aus menschlichen Demonstrationen in der realen Welt auf einsetzbare Roboter-Policies ermöglicht. UMI nutzt handgehaltene Greifer in Kombination mit einem sorgfältig gestalteten Interface, um portable, kostengünstige und informationsreiche Datenerfassung für anspruchsvolle bimanuelle und dynamische Manipulationsdemonstrationen zu ermöglichen. Um das Lernen von einsetzbaren Policies zu erleichtern, integriert UMI ein speziell entwickeltes Policy-Interface mit Latenzabgleich zur Inferenzzeit und einer relativen Trajektorien-Aktionsdarstellung. Die daraus resultierenden gelernten Policies sind hardwareunabhängig und können auf mehreren Roboterplattformen eingesetzt werden. Ausgestattet mit diesen Funktionen ermöglicht das UMI-Framework neue Fähigkeiten in der Roboter-Manipulation, indem es zero-shot generalisierbare dynamische, bimanuelle, präzise und langfristige Verhaltensweisen ermöglicht, indem lediglich die Trainingsdaten für jede Aufgabe angepasst werden. Wir demonstrieren die Vielseitigkeit und Wirksamkeit von UMI mit umfassenden realen Experimenten, bei denen Policies, die über UMI gelernt wurden, zero-shot auf neue Umgebungen und Objekte generalisieren, wenn sie auf vielfältigen menschlichen Demonstrationen trainiert wurden. Das Hardware- und Softwaresystem von UMI ist unter https://umi-gripper.github.io quelloffen verfügbar.

GaussianObject: Nur vier Bilder benötigt, um ein hochwertiges 3D-Objekt mit Gaussian Splatting zu erstellen
GaussianObject: Just Taking Four Images to Get A High-Quality 3D Object with Gaussian Splatting

Feb 15

ByChen Yang, Sikuang Li, Jiemin Fang, Ruofan Liang, Lingxi Xie, Xiaopeng Zhang, Wei Shen, Qi Tian

Die Rekonstruktion und Darstellung von 3D-Objekten aus stark spärlichen Ansichten ist von entscheidender Bedeutung, um Anwendungen von 3D-Vision-Techniken zu fördern und das Benutzererlebnis zu verbessern. Bilder aus spärlichen Ansichten enthalten jedoch nur sehr begrenzte 3D-Informationen, was zu zwei wesentlichen Herausforderungen führt: 1) Schwierigkeiten beim Aufbau von Multi-View-Konsistenz, da zu wenige Bilder für den Abgleich vorhanden sind; 2) Teilweise ausgelassene oder stark komprimierte Objektinformationen, da die Abdeckung der Ansichten unzureichend ist. Um diese Herausforderungen zu bewältigen, schlagen wir GaussianObject vor, ein Framework zur Darstellung und Darstellung des 3D-Objekts mit Gaussian Splatting, das eine hohe Darstellungsqualität mit nur 4 Eingabebildern erreicht. Wir führen zunächst Techniken des Visual Hull und der Floater-Eliminierung ein, die explizit Strukturpriors in den initialen Optimierungsprozess einbringen, um den Aufbau von Multi-View-Konsistenz zu unterstützen und eine grobe 3D-Gauß-Darstellung zu erzeugen. Anschließend konstruieren wir ein Gauß-Reparaturmodell basierend auf Diffusionsmodellen, um die ausgelassenen Objektinformationen zu ergänzen, wobei die Gauß-Funktionen weiter verfeinert werden. Wir entwerfen eine selbstgenerierende Strategie, um Bildpaare für das Training des Reparaturmodells zu erhalten. Unser GaussianObject wird auf mehreren anspruchsvollen Datensätzen evaluiert, darunter MipNeRF360, OmniObject3D und OpenIllumination, und erzielt starke Rekonstruktionsergebnisse aus nur 4 Ansichten, wobei es bisherige state-of-the-art-Methoden deutlich übertrifft.

RLVF: Lernen aus verbalem Feedback ohne Überverallgemeinerung
RLVF: Learning from Verbal Feedback without Overgeneralization

Feb 16

ByMoritz Stephan, Alexander Khazatsky, Eric Mitchell, Annie S Chen, Sheryl Hsu, Archit Sharma, Chelsea Finn

Die Vielfalt der Kontexte, in denen große Sprachmodelle (LLMs) eingesetzt werden, erfordert die Fähigkeit, Standardverhalten des Modells anzupassen oder zu individualisieren, um differenzierte Anforderungen und Präferenzen zu berücksichtigen. Eine praktische Schnittstelle zur Spezifikation solcher Modellanpassungen ist hochrangiges verbales Feedback, wie z. B. „Verwende keine Emojis, wenn du E-Mails an meinen Chef verfasst.“ Obwohl das Verfassen von hochrangigem Feedback weitaus einfacher ist als das Sammeln von Annotationen für Reinforcement Learning aus menschlichem Feedback (RLHF), stellen wir fest, dass die bloße Eingabe eines solchen Feedbacks in das Modell zu einer Überverallgemeinerung des Feedbacks auf Kontexte führt, in denen es nicht relevant ist. Wir untersuchen das Problem der Einbindung von verbalem Feedback ohne eine solche Überverallgemeinerung, was zu einer neuen Methode führt: Contextualized Critiques with Constrained Preference Optimization (C3PO). C3PO verwendet ein Stück hochrangiges Feedback, um einen kleinen synthetischen Präferenzdatensatz zu generieren, der spezifiziert, wie das Feedback angewendet werden sollte (und wie nicht). Anschließend wird das Modell gemäß der synthetischen Präferenzdaten feinabgestimmt, wobei die Abweichung vom ursprünglichen Modell für Eingabeaufforderungen, auf die das Feedback nicht zutrifft, minimiert wird. Unsere experimentellen Ergebnisse zeigen, dass unser Ansatz verbales Feedback effektiv auf relevante Szenarien anwendet, während bestehende Verhaltensweisen für andere Kontexte erhalten bleiben. Sowohl für menschliches als auch für GPT-4-generiertes hochrangiges Feedback hält sich C3PO vergleichbar gut an das gegebene Feedback wie In-Context-Baselines und reduziert die Überverallgemeinerung um 30 %.

papers.title

papers.description

Lineare Transformer mit lernbaren Kernfunktionen sind bessere In-Context-Modelle
Linear Transformers with Learnable Kernel Functions are Better In-Context Models

Feb 16

ByYaroslav Aksenov, Nikita Balagansky, Sofia Maria Lo Cicero Vaina, Boris Shaposhnikov, Alexey Gorbatovski, Daniil Gavrilov

Auf der Suche nach Nadeln im 10M-Heuhaufen: Rekurrente Speicher finden, was LLMs übersehen
In Search of Needles in a 10M Haystack: Recurrent Memory Finds What LLMs Miss

Feb 16

ByYuri Kuratov, Aydar Bulatov, Petr Anokhin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev

SPAR: Personalisierte inhaltsbasierte Empfehlungen durch langfristige Engagement-Aufmerksamkeit
SPAR: Personalized Content-Based Recommendation via Long Engagement Attention

Feb 16

ByChiyu Zhang, Yifei Sun, Jun Chen, Jie Lei, Muhammad Abdul-Mageed, Sinong Wang, Rong Jin, Sem Park, Ning Yao, Bo Long

DataDreamer: Ein Werkzeug zur synthetischen Datengenerierung und reproduzierbaren LLM-Workflows
DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows

Feb 16

ByAjay Patel, Colin Raffel, Chris Callison-Burch

LAVE: LLM-gestützte Agentenunterstützung und Sprachverbesserung für die Videobearbeitung
LAVE: LLM-Powered Agent Assistance and Language Augmentation for Video Editing

Feb 15

ByBryan Wang, Yuliang Li, Zhaoyang Lv, Haijun Xia, Yan Xu, Raj Sodhi

LLM Comparator: Visuelle Analysen für den direkten Vergleich von Large Language Models
LLM Comparator: Visual Analytics for Side-by-Side Evaluation of Large Language Models

Feb 16

ByMinsuk Kahng, Ian Tenney, Mahima Pushkarna, Michael Xieyang Liu, James Wexler, Emily Reif, Krystal Kallarackal, Minsuk Chang, Michael Terry, Lucas Dixon

Große Sprachmodelle als Zero-Shot-Dialogzustandsverfolger durch Funktionsaufrufe
Large Language Models as Zero-shot Dialogue State Tracker through Function Calling

Feb 16

ByZekun Li, Zhiyu Zoey Chen, Mike Ross, Patrick Huber, Seungwhan Moon, Zhaojiang Lin, Xin Luna Dong, Adithya Sagar, Xifeng Yan, Paul A. Crook

Günstige Skalierung realisieren: Ein Selbst-Kaskaden-Diffusionsmodell für die Anpassung an höhere Auflösungen
Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation

Feb 16

ByLanqing Guo, Yingqing He, Haoxin Chen, Menghan Xia, Xiaodong Cun, Yufei Wang, Siyu Huang, Yong Zhang, Xintao Wang, Qifeng Chen, Ying Shan, Bihan Wen

PaLM2-VAdapter: Progressiv ausgerichtetes Sprachmodell als starker Vision-Sprache-Adapter
PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong Vision-language Adapter

Feb 16

ByJunfei Xiao, Zheng Xu, Alan Yuille, Shen Yan, Boyu Wang

Universelle Manipulationsschnittstelle: Robotikunterricht in der realen Welt ohne Roboter in der realen Welt
Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots

Feb 15

ByCheng Chi, Zhenjia Xu, Chuer Pan, Eric Cousineau, Benjamin Burchfiel, Siyuan Feng, Russ Tedrake, Shuran Song

GaussianObject: Nur vier Bilder benötigt, um ein hochwertiges 3D-Objekt mit Gaussian Splatting zu erstellen
GaussianObject: Just Taking Four Images to Get A High-Quality 3D Object with Gaussian Splatting

Feb 15

ByChen Yang, Sikuang Li, Jiemin Fang, Ruofan Liang, Lingxi Xie, Xiaopeng Zhang, Wei Shen, Qi Tian

RLVF: Lernen aus verbalem Feedback ohne Überverallgemeinerung
RLVF: Learning from Verbal Feedback without Overgeneralization

Feb 16

ByMoritz Stephan, Alexander Khazatsky, Eric Mitchell, Annie S Chen, Sheryl Hsu, Archit Sharma, Chelsea Finn