Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wissensdistillation (KD) wird häufig verwendet, um ein Lehrer-Modell zu komprimieren und dadurch dessen Inferenzkosten und Speicherbedarf zu reduzieren, indem ein kleineres Schüler-Modell trainiert wird. Allerdings leiden aktuelle KD-Methoden für autoregressive Sequenzmodelle unter einer Verteilungsdiskrepanz zwischen den während des Trainings gesehenen Ausgabesequenzen und denen, die vom Schüler während der Inferenz generiert werden. Um dieses Problem zu lösen, führen wir die Generalisierte Wissensdistillation (GKD) ein. Anstatt sich ausschließlich auf einen festen Satz von Ausgabesequenzen zu verlassen, trainiert GKD den Schüler auf seinen selbst generierten Ausgabesequenzen, indem es Feedback des Lehrers zu solchen Sequenzen nutzt. Im Gegensatz zu überwachten KD-Ansätzen bietet GKD auch die Flexibilität, alternative Verlustfunktionen zwischen Schüler und Lehrer einzusetzen, was nützlich sein kann, wenn der Schüler nicht die Ausdrucksfähigkeit besitzt, die Verteilung des Lehrers nachzuahmen. Darüber hinaus ermöglicht GKD die nahtlose Integration von Distillation mit RL-Feinabstimmung (RLHF). Wir demonstrieren die Wirksamkeit von GKD für die Distillation autoregressiver Sprachmodelle bei Aufgaben wie Zusammenfassung, Übersetzung und arithmetischem Denken sowie für aufgabenunabhängige Distillation zur Instruktionsfeinabstimmung.
Retrieval-augmentierte Sprachmodelle (LMs) haben in letzter Zeit viel Aufmerksamkeit erhalten. Typischerweise wird der Retriever jedoch nicht gemeinsam als integraler Bestandteil des LM trainiert, sondern einem bereits vortrainierten LM hinzugefügt, was die Fähigkeit des LM und des Retrievers, sich aneinander anzupassen, einschränkt. In dieser Arbeit schlagen wir den Retrieval-Pretrained Transformer (RPT) vor, eine Architektur und ein Trainingsverfahren, um ein retrieval-augmentiertes LM von Grund auf für die Aufgabe der Modellierung langer Texte gemeinsam zu trainieren. Bei einem kürzlich generierten Textabschnitt in einem langen Dokument berechnet das LM Abfragedarstellungen, die dann verwendet werden, um frühere Abschnitte im Dokument zu finden, die möglicherweise zehntausende von Token zurückliegen. Informationen aus den abgerufenen Abschnitten werden in die LM-Darstellungen integriert, um den nächsten Zielabschnitt vorherzusagen. Wir trainieren die Retriever-Komponente mit einem semantischen Ziel, bei dem es darum geht, Abschnitte abzurufen, die die Wahrscheinlichkeit des nächsten Abschnitts gemäß einem Referenz-LM erhöhen. Wir evaluieren RPT anhand von vier Langstrecken-Sprachmodellierungsaufgaben, die Bücher, Code und mathematische Texte umfassen, und zeigen, dass RPT die Retrieval-Qualität und anschließend die Perplexität im Vergleich zu starken Baselines durchgängig verbessert.
Mit dem Aufstieg von Large Language Models (LLMs) und ihrer allgegenwärtigen Verwendung in verschiedenen Domänen ist es unerlässlich, das Verhalten von Sprachmodellen anhand realistischer Daten zu messen. Beispielsweise muss ein Unternehmen, das einen kundenorientierten Chatbot einsetzt, sicherstellen, dass das Modell nicht mit beleidigenden Äußerungen auf Kundenanfragen reagiert. Aktuelle Evaluierungsansätze behandeln dieses Problem mithilfe kleiner, domänenspezifischer Datensätze mit manuell kuratierten Labels. Diese Evaluierungssätze werden oft aus einer engen und vereinfachten Verteilung entnommen, und Datenquellen können unbewusst in den Trainingssatz gelangen, was zu irreführenden Bewertungen führen kann. Um diese Nachteile zu umgehen, schlagen wir ein Framework für die selbstüberwachte Evaluierung von LLMs vor, indem wir ihre Sensitivität oder Invarianz gegenüber Transformationen des Eingabetexts analysieren. Die selbstüberwachte Evaluierung kann das Verhalten von LLMs direkt anhand von Datensätzen überwachen, die in der Praxis gesammelt oder während des Live-Betriebs des Modells gestreamt werden. Wir demonstrieren selbstüberwachte Evaluierungsstrategien zur Messung von geschlossenem Wissen, Toxizität und langreichweitiger Kontextabhängigkeit sowie der Sensitivität gegenüber grammatikalischer Struktur und Tokenisierungsfehlern. Wenn Vergleiche mit ähnlichen, von Menschen gelabelten Benchmarks verfügbar sind, finden wir starke Korrelationen zwischen selbstüberwachten und menschlich überwachten Bewertungen. Das selbstüberwachte Paradigma ergänzt aktuelle Evaluierungsstrategien, die auf gelabelte Daten angewiesen sind.
In dieser Arbeit untersuchen wir den grundlegendsten Baustein des Deep Learning, das mehrschichtige Perzeptron (MLP), und erforschen die Grenzen seiner Leistungsfähigkeit bei Vision-Aufgaben. Empirische Erkenntnisse über MLPs sind aus mehreren Gründen wichtig. (1) Angesichts des aktuellen Narrativs „weniger induktive Verzerrung ist besser“, das durch die Überlegenheit von Transformern gegenüber konvolutionellen Modellen populär wurde, ist es naheliegend, die Grenzen dieser Hypothese zu erforschen. In dieser Hinsicht bieten MLPs ein ideales Testfeld, da sie vollständig frei von jeglicher induktiver Verzerrung sind. (2) MLPs waren aufgrund ihrer mathematischen Einfachheit fast ausschließlich die Hauptprotagonisten in der Deep-Learning-Theorieliteratur und dienten als Stellvertreter, um empirische Phänomene zu erklären, die bei komplexeren Architekturen beobachtet wurden. Überraschenderweise sind experimentelle Datenpunkte für MLPs in der Literatur nur schwer zu finden, insbesondere in Verbindung mit umfangreichen Vor-Trainingsprotokollen. Diese Diskrepanz zwischen Praxis und Theorie ist besorgniserregend: Reflektieren MLPs die empirischen Fortschritte, die praktische Modelle zeigen? Oder müssen Theoretiker die Rolle von MLPs als Stellvertreter überdenken? Wir liefern Einblicke in beide Aspekte. Wir zeigen, dass die Leistung von MLPs mit der Skalierung drastisch steigt (93 % auf CIFAR10, 79 % auf CIFAR100, 69 % auf TinyImageNet), was verdeutlicht, dass der Mangel an induktiver Verzerrung tatsächlich kompensiert werden kann. Wir beobachten, dass MLPs das Verhalten ihrer modernen Gegenstücke treu nachahmen, wobei jedoch einige Komponenten in der Lernumgebung überraschend stärkere oder unerwartete Verhaltensweisen zeigen. Aufgrund ihrer inhärenten Recheneffizienz werden umfangreiche Vor-Trainingsexperimente für akademische Forscher zugänglicher. Alle unsere Experimente wurden auf einer einzigen GPU durchgeführt.
Wir führen die Aufgabe der Open-Vocabulary-3D-Instanzsegmentierung ein. Traditionelle Ansätze für die 3D-Instanzsegmentierung stützen sich weitgehend auf bestehende 3D-annotierte Datensätze, die auf eine geschlossene Menge von Objektkategorien beschränkt sind. Dies stellt eine wichtige Einschränkung für reale Anwendungen dar, bei denen Aufgaben durch neuartige, Open-Vocabulary-Abfragen im Zusammenhang mit Objekten aus einer Vielzahl von Kategorien gesteuert werden müssen. Kürzlich sind Methoden zur Open-Vocabulary-3D-Szenenverständigung entstanden, die dieses Problem angehen, indem sie abfragbare Merkmale für jeden Punkt in der Szene lernen. Während eine solche Darstellung direkt zur Durchführung von semantischer Segmentierung verwendet werden kann, haben bestehende Methoden Einschränkungen in ihrer Fähigkeit, Objektinstanzen zu identifizieren. In dieser Arbeit gehen wir auf diese Einschränkung ein und schlagen OpenMask3D vor, einen Zero-Shot-Ansatz für die Open-Vocabulary-3D-Instanzsegmentierung. Angeleitet durch vorhergesagte, klassenagnostische 3D-Instanzmasken, aggregiert unser Modell pro-Maske-Merkmale durch Multi-View-Fusion von CLIP-basierten Bild-Einbettungen. Wir führen Experimente und Ablationsstudien auf dem ScanNet200-Datensatz durch, um die Leistung von OpenMask3D zu bewerten, und liefern Einblicke in die Aufgabe der Open-Vocabulary-3D-Instanzsegmentierung. Wir zeigen, dass unser Ansatz andere Open-Vocabulary-Methoden übertrifft, insbesondere bei der Long-Tail-Verteilung. Darüber hinaus geht OpenMask3D über die Grenzen von Close-Vocabulary-Ansätzen hinaus und ermöglicht die Segmentierung von Objektinstanzen basierend auf freiformulierten Abfragen, die Objekteigenschaften wie Semantik, Geometrie, Affordanzen und Materialeigenschaften beschreiben.
Natürliche Sprachfeedback (NL-Feedback) enthält wertvolle Informationen über das Nutzererlebnis. Bisherige Studien konzentrieren sich auf einen instanzbasierten Ansatz, bei dem Feedback zur Verbesserung spezifischer Beispiele verwendet wird, während seine systemweite Anwendung vernachlässigt wird. Dieses Papier schlägt einen allgemeinen Rahmen vor, um die systemweite Nutzung von NL-Feedback zu ermöglichen. Wir zeigen, wie Feedback genutzt werden kann, um systemweite Designentscheidungen in einem Human-in-the-Loop-Prozess zu formalisieren – mit dem Ziel, bessere Modelle zu entwickeln. Dies geschieht insbesondere durch: (i) die Gestaltung von Metriken für Aufgaben und (ii) die Gestaltung von Prompt-Designs für Sprachmodelle, um Modellantworten zu verfeinern. Wir führen zwei Fallstudien durch, die diesen Ansatz zur Verbesserung der Suchanfragenerstellung und der Dialogantwortgenerierung demonstrieren und die Wirksamkeit der systemweiten Feedbacknutzung belegen. Wir zeigen, dass die Kombination von systemweitem Feedback und instanzbasiertem Feedback weitere Verbesserungen bringt und dass von Menschen verfasstes instanzbasiertes Feedback fundiertere Verfeinerungen ermöglicht als von GPT-3.5 generiertes Feedback. Dies unterstreicht die Bedeutung menschlichen Feedbacks für den Aufbau von Systemen.
Neurale Felder haben beeindruckende Fortschritte in der Ansichtssynthese und Szenenrekonstruktion erzielt. Die Bearbeitung dieser neuralen Felder bleibt jedoch aufgrund der impliziten Kodierung von Geometrie- und Texturinformationen eine Herausforderung. In diesem Artikel stellen wir DreamEditor vor, ein neuartiges Framework, das Benutzern ermöglicht, kontrollierte Bearbeitungen von neuralen Feldern mithilfe von Textprompts durchzuführen. Indem Szenen als mesh-basierte neurale Felder dargestellt werden, ermöglicht DreamEditor lokalisierte Bearbeitungen innerhalb spezifischer Regionen. DreamEditor nutzt den Text-Encoder eines vortrainierten Text-zu-Bild-Diffusionsmodells, um automatisch die zu bearbeitenden Regionen basierend auf der Semantik der Textprompts zu identifizieren. Anschließend optimiert DreamEditor die Bearbeitungsregion und passt deren Geometrie und Textur mithilfe von Score Distillation Sampling [29] an die Textprompts an. Umfangreiche Experimente haben gezeigt, dass DreamEditor neurale Felder realer Szenen gemäß den gegebenen Textprompts präzise bearbeiten kann, während die Konsistenz in irrelevanten Bereichen gewährleistet bleibt. DreamEditor erzeugt hochrealistische Texturen und Geometrien und übertrifft damit frühere Arbeiten sowohl in quantitativen als auch in qualitativen Bewertungen deutlich.