Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Diese Arbeit präsentiert eine Analyse der Effektivität von standardmäßigen flachen Feed-Forward-Netzwerken, um das Verhalten des Aufmerksamkeitsmechanismus im ursprünglichen Transformer-Modell, einer state-of-the-art Architektur für Sequenz-zu-Sequenz-Aufgaben, nachzuahmen. Wir ersetzen Schlüsselelemente des Aufmerksamkeitsmechanismus im Transformer durch einfache Feed-Forward-Netzwerke, die mithilfe der ursprünglichen Komponenten durch Wissensdestillation trainiert werden. Unsere Experimente, die auf dem IWSLT2017-Datensatz durchgeführt wurden, zeigen die Fähigkeit dieser „aufmerksamkeitslosen Transformer“, die Leistung der ursprünglichen Architektur zu erreichen. Durch rigorose Ablationsstudien und Experimente mit verschiedenen Ersatznetzwerktypen und -größen bieten wir Einblicke, die die Machbarkeit unseres Ansatzes unterstützen. Dies beleuchtet nicht nur die Anpassungsfähigkeit flacher Feed-Forward-Netzwerke bei der Nachahmung von Aufmerksamkeitsmechanismen, sondern unterstreicht auch ihr Potenzial, komplexe Architekturen für Sequenz-zu-Sequenz-Aufgaben zu vereinfachen.
Generative Modelle für die 3D-Objektsynthese haben bedeutende Fortschritte durch die Integration von Vorwissen aus 2D-Diffusionsmodellen erzielt. Dennoch bestehen weiterhin Herausforderungen in Form von multi-view geometrischen Inkonsistenzen und langsamen Generierungsgeschwindigkeiten innerhalb bestehender 3D-Synthese-Frameworks. Dies lässt sich auf zwei Faktoren zurückführen: erstens den Mangel an umfangreichem geometrischem Vorwissen bei der Optimierung und zweitens das Verflechtungsproblem zwischen Geometrie und Textur in herkömmlichen 3D-Generierungsmethoden. Als Antwort darauf stellen wir MetaDreamer vor, einen zweistufigen Optimierungsansatz, der umfangreiches 2D- und 3D-Vorwissen nutzt. In der ersten Stufe liegt unser Schwerpunkt auf der Optimierung der geometrischen Darstellung, um die Multi-View-Konsistenz und Genauigkeit von 3D-Objekten sicherzustellen. In der zweiten Stufe konzentrieren wir uns auf die Feinabstimmung der Geometrie und die Optimierung der Textur, wodurch ein verfeinertes 3D-Objekt erreicht wird. Durch die Nutzung von 2D- und 3D-Vorwissen in den jeweiligen Stufen mildern wir effektiv die gegenseitige Abhängigkeit zwischen Geometrie und Textur. MetaDreamer definiert klare Optimierungsziele für jede Stufe, was zu erheblichen Zeiteinsparungen im 3D-Generierungsprozess führt. Letztendlich kann MetaDreamer hochwertige 3D-Objekte basierend auf textuellen Eingaben innerhalb von 20 Minuten generieren, und nach unserem Wissen ist es die effizienteste Text-zu-3D-Generierungsmethode. Darüber hinaus integrieren wir Bildsteuerung in den Prozess, was die Kontrollierbarkeit der 3D-Generierung verbessert. Umfangreiche empirische Belege bestätigen, dass unsere Methode nicht nur äußerst effizient ist, sondern auch eine Qualität erreicht, die an der Spitze der aktuellen State-of-the-Art-3D-Generierungstechniken steht.
In dieser Arbeit zeigen wir, dass Text-zu-Bild-Generierungsmodelle „invertiert“ werden können, um ihre eigenen Text-Bild-Verständnisfähigkeiten auf vollständig automatisierte Weise zu bewerten. Unsere Methode, genannt SelfEval, nutzt das Generierungsmodell, um die Wahrscheinlichkeit realer Bilder bei gegebenen Textprompts zu berechnen, wodurch das Generierungsmodell direkt für diskriminative Aufgaben anwendbar wird. Mit SelfEval verwenden wir Standarddatensätze, die ursprünglich zur Bewertung multimodaler Text-Bild-Diskriminierungsmodelle erstellt wurden, um Generierungsmodelle auf feingranulare Weise zu evaluieren: Wir bewerten ihre Leistung in Bezug auf Attributbindung, Farberkennung, Zählen, Formerkennung und räumliches Verständnis. Nach unserem besten Wissen ist SelfEval die erste automatisierte Metrik, die eine hohe Übereinstimmung mit den Goldstandard-Bewertungen durch Menschen bei der Messung der Texttreue über mehrere Modelle und Benchmarks hinweg zeigt. Darüber hinaus ermöglicht uns SelfEval, Generierungsmodelle bei anspruchsvollen Aufgaben wie dem Winoground-Bild-Score zu bewerten, wo sie eine wettbewerbsfähige Leistung im Vergleich zu diskriminativen Modellen demonstrieren. Wir zeigen auch gravierende Nachteile standardmäßiger automatisierter Metriken wie dem CLIP-Score bei der Messung der Texttreue auf Benchmarks wie DrawBench und wie SelfEval diese Probleme umgeht. Wir hoffen, dass SelfEval eine einfache und zuverlässige automatisierte Bewertung für Diffusionsmodelle ermöglicht.
Obwohl Vision Transformer (ViTs) eine skalierbare Leistung bieten, untergraben die hohen Rechenkosten (Training und Inferenz) ihre Position in industriellen Anwendungen. Die Post-Training-Quantisierung (PTQ), bei der ViTs mit einem kleinen Datensatz angepasst und in einem niedrigen Bit-Format ausgeführt werden, löst das Kostenproblem gut, führt jedoch leider zu stärkeren Leistungseinbußen in niedrigeren Bit-Fällen. In diesem Artikel stellen wir I&S-ViT vor, eine neuartige Methode, die die PTQ von ViTs auf inklusive und stabile Weise reguliert. I&S-ViT identifiziert zunächst zwei Probleme in der PTQ von ViTs: (1) Ineffizienz der Quantisierung im weit verbreiteten log2-Quantisierer für Post-Softmax-Aktivierungen; (2) Unebene und verstärkte Verlustlandschaft bei grobkörniger Quantisierungsgranularität für Post-LayerNorm-Aktivierungen. Anschließend adressiert I&S-ViT diese Probleme durch die Einführung von: (1) Einem neuartigen Shift-Uniform-log2-Quantisierer (SULQ), der einen Verschiebungsmechanismus gefolgt von einer gleichmäßigen Quantisierung integriert, um sowohl eine inklusive Domänendarstellung als auch eine genaue Verteilungsapproximation zu erreichen; (2) Eine dreistufige glatte Optimierungsstrategie (SOS), die die Stärken der kanalweisen und schichtweisen Quantisierung kombiniert, um stabiles Lernen zu ermöglichen. Umfassende Bewertungen über verschiedene Vision-Aufgaben bestätigen die Überlegenheit von I&S-ViT gegenüber bestehenden PTQ-Methoden für ViTs, insbesondere in niedrigen Bit-Szenarien. Beispielsweise steigert I&S-ViT die Leistung von 3-Bit-ViT-B um beeindruckende 50,68 %.
Große Sprachmodelle (LLMs) haben erhebliche Fortschritte in Bezug auf ihre Fähigkeiten zur logischen Schlussfolgerung und Entscheidungsfindung gezeigt und können natürliche Gespräche mit Nutzern führen. Viele aktuelle Arbeiten zielen darauf ab, LLM-basierte Assistenten mit externen Tools zu erweitern, damit diese auf private oder aktuelle Informationen zugreifen und Aktionen im Namen der Nutzer ausführen können. Um die Leistung dieser Assistenten besser zu bewerten, stellt dieses Paper ToolTalk vor, einen Benchmark, der komplexe Nutzerabsichten umfasst, die mehrstufige Tool-Nutzung erfordern, die durch Dialoge spezifiziert wird. ToolTalk enthält 28 Tools, die in 7 Plugins gruppiert sind, und beinhaltet eine vollständige simulierte Implementierung jedes Tools, was eine vollautomatisierte Bewertung von Assistenten ermöglicht, die auf Ausführungsfeedback angewiesen sind. ToolTalk legt zudem den Schwerpunkt auf Tools, die extern auf die Welt einwirken, anstatt nur auf Tools, die der Informationsreferenzierung oder -suche dienen. Wir evaluieren GPT-3.5 und GPT-4 auf ToolTalk und erzielen Erfolgsquoten von 26 % bzw. 50 %. Unsere Fehleranalyse offenbart drei Hauptkategorien und gibt Hinweise auf zukünftige Verbesserungsmöglichkeiten. Wir veröffentlichen ToolTalk unter https://github.com/microsoft/ToolTalk.
Die heutigen Roboterrichtlinien zeigen eine unterdurchschnittliche Leistung, wenn es darum geht, sich auf neue Umgebungen zu verallgemeinern. Menschliches Korrekturfeedback ist eine entscheidende Form der Anleitung, um eine solche Verallgemeinerung zu ermöglichen. Die Anpassung an und das Lernen aus online bereitgestellten menschlichen Korrekturen ist jedoch keine triviale Aufgabe: Roboter müssen nicht nur menschliches Feedback über die Zeit hinweg speichern, um in neuen Situationen die richtigen Informationen abrufen und die Interventionsrate reduzieren zu können, sondern sie müssen auch in der Lage sein, auf Feedback zu reagieren, das von willkürlichen Korrekturen zu hochrangigen menschlichen Präferenzen bis hin zu feinjustierten Anpassungen von Fähigkeitsparametern reichen kann. In dieser Arbeit präsentieren wir Distillation and Retrieval of Online Corrections (DROC), ein auf großen Sprachmodellen (LLMs) basierendes System, das auf beliebige Formen von Sprachfeedback reagieren, verallgemeinerbares Wissen aus Korrekturen destillieren und relevante vergangene Erfahrungen basierend auf textueller und visueller Ähnlichkeit abrufen kann, um die Leistung in neuen Umgebungen zu verbessern. DROC ist in der Lage, auf eine Sequenz von online bereitgestellten Sprachkorrekturen zu reagieren, die sowohl Fehler in hochrangigen Aufgabenplänen als auch in grundlegenden Fähigkeitsprimitive adressieren. Wir demonstrieren, dass DROC effektiv die relevanten Informationen aus der Sequenz von online Korrekturen in einer Wissensbasis destilliert und dieses Wissen in Umgebungen mit neuen Aufgaben- oder Objektinstanzen abruft. DROC übertrifft andere Techniken, die direkt Roboter-Code über LLMs generieren, indem es nur die Hälfte der insgesamt benötigten Korrekturen in der ersten Runde verwendet und nach zwei Iterationen kaum bis gar keine Korrekturen mehr benötigt. Weitere Ergebnisse, Videos, Prompts und Code finden Sie unter https://sites.google.com/stanford.edu/droc.