Tägliche Papers

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

AudioPaLM: Ein großes Sprachmodell, das sprechen und hören kann
AudioPaLM: A Large Language Model That Can Speak and Listen

Jun 22, 2023

Paul K. Rubenstein, Chulayuth Asawaroengchai, Duc Dung Nguyen, Ankur Bapna, Zalán Borsos, Félix de Chaumont Quitry, Peter Chen, Dalia El Badawy, Wei Han, Eugene Kharitonov, Hannah Muckenhirn, Dirk Padfield, James Qin, Danny Rozenberg, Tara Sainath, Johan Schalkwyk, Matt Sharifi, Michelle Tadmor Ramanovich, Marco Tagliasacchi, Alexandru Tudor, Mihajlo Velimirović, Damien Vincent, Jiahui Yu, Yongqiang Wang, Vicky Zayats, Neil Zeghidour, Yu Zhang, Zhishuai Zhang, Lukas Zilka, Christian Frank

546

Wir stellen AudioPaLM vor, ein großes Sprachmodell für das Verstehen und Erzeugen von Sprache. AudioPaLM vereint textbasierte und sprachbasierte Sprachmodelle, PaLM-2 [Anil et al., 2023] und AudioLM [Borsos et al., 2022], in einer einheitlichen multimodalen Architektur, die Text und Sprache verarbeiten und generieren kann, mit Anwendungen wie Spracherkennung und Sprach-zu-Sprach-Übersetzung. AudioPaLM erbt die Fähigkeit, paralinguistische Informationen wie Sprecheridentität und Intonation von AudioLM zu bewahren, sowie das linguistische Wissen, das nur in textbasierten großen Sprachmodellen wie PaLM-2 vorhanden ist. Wir zeigen, dass die Initialisierung von AudioPaLM mit den Gewichten eines rein textbasierten großen Sprachmodells die Sprachverarbeitung verbessert und erfolgreich die größere Menge an Texttrainingsdaten nutzt, die beim Vortraining verwendet wurden, um Sprachaufgaben zu unterstützen. Das resultierende Modell übertrifft bestehende Systeme für Sprachübersetzungsaufgaben deutlich und besitzt die Fähigkeit, Zero-Shot-Sprach-zu-Text-Übersetzungen für viele Sprachen durchzuführen, für die Eingabe-/Zielsprachkombinationen im Training nicht vorkamen. AudioPaLM zeigt auch Merkmale von Audio-Sprachmodellen, wie die Übertragung einer Stimme über Sprachen hinweg basierend auf einer kurzen gesprochenen Eingabe. Wir veröffentlichen Beispiele unserer Methode unter https://google-research.github.io/seanet/audiopalm/examples.

Schnelles Segmentieren von allem
Fast Segment Anything

Jun 21, 2023

Xu Zhao, Wenchao Ding, Yongqi An, Yinglong Du, Tao Yu, Min Li, Ming Tang, Jinqiao Wang

343

Das kürzlich vorgeschlagene Segment Anything Model (SAM) hat einen bedeutenden Einfluss auf viele Computer-Vision-Aufgaben ausgeübt. Es entwickelt sich zu einem grundlegenden Schritt für viele hochrangige Aufgaben wie Bildsegmentierung, Bildbeschreibung und Bildbearbeitung. Allerdings verhindern die hohen Rechenkosten eine breitere Anwendung in industriellen Szenarien. Der Rechenaufwand stammt hauptsächlich aus der Transformer-Architektur bei hochauflösenden Eingaben. In diesem Artikel schlagen wir eine beschleunigte alternative Methode für diese grundlegende Aufgabe mit vergleichbarer Leistung vor. Indem wir die Aufgabe als Segmentgenerierung und Prompting neu formulieren, stellen wir fest, dass ein regulärer CNN-Detektor mit einem Instanzsegmentierungszweig diese Aufgabe ebenfalls gut bewältigen kann. Konkret wandeln wir diese Aufgabe in die gut erforschte Instanzsegmentierungsaufgabe um und trainieren die bestehende Instanzsegmentierungsmethode direkt mit nur 1/50 des von den SAM-Autoren veröffentlichten SA-1B-Datensatzes. Mit unserer Methode erreichen wir eine vergleichbare Leistung wie die SAM-Methode bei einer 50-mal höheren Laufzeitgeschwindigkeit. Wir liefern umfangreiche experimentelle Ergebnisse, um deren Wirksamkeit zu demonstrieren. Die Codes und Demos werden unter https://github.com/CASIA-IVA-Lab/FastSAM veröffentlicht.

Von Wortmodellen zu Weltmodellen: Übersetzung von natürlicher Sprache in die probabilistische Sprache des Denkens
From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought

Jun 22, 2023

Lionel Wong, Gabriel Grand, Alexander K. Lew, Noah D. Goodman, Vikash K. Mansinghka, Jacob Andreas, Joshua B. Tenenbaum

261

Wie beeinflusst Sprache unser nachgelagertes Denken? Insbesondere, wie erschließen Menschen Bedeutung aus Sprache – und wie können wir eine Theorie der linguistischen Bedeutung nutzen, um Maschinen zu entwickeln, die auf menschenähnlichere Weise denken? In diesem Artikel schlagen wir die rationale Bedeutungsbildung vor, ein rechnerisches Rahmenwerk für sprachgestütztes Denken, das neuronale Modelle der Sprache mit probabilistischen Modellen für rationale Inferenz kombiniert. Wir fassen linguistische Bedeutung als eine kontextsensitive Abbildung von natürlicher Sprache in eine probabilistische Sprache des Denkens (PLoT) auf – ein allgemeines symbolisches Substrat für probabilistische, generative Weltmodellierung. Unsere Architektur integriert zwei leistungsstarke rechnerische Werkzeuge, die bisher nicht zusammengeführt wurden: Wir modellieren Denken mit probabilistischen Programmen, einer ausdrucksstarken Repräsentation für flexibles Alltagsverständnis; und wir modellieren Bedeutungsbildung mit großen Sprachmodellen (LLMs), die eine breit gefächerte Übersetzung von natürlichen Sprachäußerungen in Code-Ausdrücke einer probabilistischen Programmiersprache unterstützen. Wir veranschaulichen unser Rahmenwerk anhand von Beispielen aus vier Kernbereichen der Kognitionswissenschaft: probabilistisches Denken, logisches und relationales Denken, visuelles und physikalisches Denken sowie soziales Denken über Akteure und ihre Pläne. In jedem Bereich zeigen wir, dass LLMs kontextsensitive Übersetzungen generieren können, die pragmatisch angemessene linguistische Bedeutungen erfassen, während die Bayes’sche Inferenz mit den generierten Programmen kohärentes und robustes Alltagsverständnis unterstützt. Wir erweitern unser Rahmenwerk, um kognitiv motivierte symbolische Module zu integrieren und eine einheitliche Schnittstelle für Alltagsdenken aus Sprache bereitzustellen. Schließlich untersuchen wir, wie Sprache selbst den Aufbau von Weltmodellen antreiben kann.

Training von Transformern mit 4-Bit-Ganzzahlen
Training Transformers with 4-bit Integers

Jun 21, 2023

Haocheng Xi, Changhao Li, Jianfei Chen, Jun Zhu

225

Die Quantisierung von Aktivierungen, Gewichten und Gradienten auf 4 Bit ist vielversprechend, um das Training neuronaler Netzwerke zu beschleunigen. Allerdings erfordern bestehende 4-Bit-Trainingsmethoden benutzerdefinierte numerische Formate, die von aktueller Hardware nicht unterstützt werden. In dieser Arbeit schlagen wir eine Trainingsmethode für Transformer vor, bei der alle Matrixmultiplikationen mit INT4-Arithmetik implementiert sind. Das Training mit einer ultra-niedrigen INT4-Präzision ist jedoch herausfordernd. Um dies zu erreichen, analysieren wir sorgfältig die spezifischen Strukturen von Aktivierungen und Gradienten in Transformern und schlagen dedizierte Quantisierer für diese vor. Für die Vorwärtspropagation identifizieren wir das Problem von Ausreißern und schlagen einen Hadamard-Quantisierer vor, um diese zu unterdrücken. Für die Rückwärtspropagation nutzen wir die strukturelle Sparsity von Gradienten, indem wir Bit-Splitting und Leverage-Score-Sampling-Techniken vorschlagen, um Gradienten präzise zu quantisieren. Unser Algorithmus erreicht eine wettbewerbsfähige Genauigkeit bei einer Vielzahl von Aufgaben, einschließlich Natural Language Understanding, maschineller Übersetzung und Bildklassifizierung. Im Gegensatz zu früheren 4-Bit-Trainingsmethoden kann unser Algorithmus auf der aktuellen Generation von GPUs implementiert werden. Unsere prototypische Implementierung des linearen Operators ist bis zu 2,2-mal schneller als die FP16-Pendants und beschleunigt das Training um bis zu 35,1 %.

Tiefe Sprachnetzwerke: Gemeinsames Prompt-Training gestapelter LLMs mittels Variationsinferenz
Deep Language Networks: Joint Prompt Training of Stacked LLMs using Variational Inference

Jun 21, 2023

Alessandro Sordoni, Xingdi Yuan, Marc-Alexandre Côté, Matheus Pereira, Adam Trischler, Ziang Xiao, Arian Hosseini, Friederike Niedtner, Nicolas Le Roux

140

Wir betrachten große Sprachmodelle (LLMs) als stochastische Sprachschichten in einem Netzwerk, wobei die lernbaren Parameter die natürlichen Sprachprompts in jeder Schicht sind. Wir stapeln zwei solcher Schichten, indem wir die Ausgabe einer Schicht an die nächste weiterleiten. Wir nennen diese gestapelte Architektur ein Deep Language Network (DLN). Zunächst zeigen wir, wie man die Prompt-Optimierung für ein 1-Schicht-Sprachnetzwerk (DLN-1) effektiv durchführt. Anschließend zeigen wir, wie man 2-Schicht-DLNs (DLN-2) trainiert, bei denen zwei Prompts gelernt werden müssen. Wir betrachten die Ausgabe der ersten Schicht als eine latente Variable, die marginalisiert werden muss, und entwickeln einen Variationsinferenzalgorithmus für das gemeinsame Prompt-Training. Ein DLN-2 erreicht eine höhere Leistung als eine einzelne Schicht, manchmal vergleichbar mit Few-Shot GPT-4, selbst wenn jedes LLM im Netzwerk kleiner und weniger leistungsfähig ist. Der DLN-Code ist Open Source: https://github.com/microsoft/deep-language-networks.

Quantisierbare Transformer: Entfernung von Ausreißern durch Unterstützung von Aufmerksamkeitsköpfen Tu nichts
Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing

Jun 22, 2023

Yelysei Bondarenko, Markus Nagel, Tijmen Blankevoort

120

Transformer-Modelle wurden in den letzten Jahren in verschiedenen Bereichen weit verbreitet eingesetzt, und insbesondere große Sprachmodelle haben das Feld der KI erheblich vorangetrieben. Aufgrund ihrer Größe hat die Fähigkeit dieser Netzwerke enorm zugenommen, was jedoch mit einem erheblichen Anstieg des benötigten Rechenaufwands einherging. Quantisierung ist eine der effektivsten Methoden, um die Rechenzeit und den Speicherverbrauch von neuronalen Netzwerken zu reduzieren. Viele Studien haben jedoch gezeigt, dass moderne Transformer-Modelle dazu neigen, starke Ausreißer in ihren Aktivierungen zu lernen, was ihre Quantisierung erschwert. Um eine akzeptable Leistung zu erhalten, erfordert das Vorhandensein dieser Ausreißer, dass Aktivierungen in höherer Bitbreite vorliegen oder dass unterschiedliche numerische Formate, zusätzliches Fine-Tuning oder andere Workarounds verwendet werden. Wir zeigen, dass starke Ausreißer mit einem sehr spezifischen Verhalten von Attention-Heads zusammenhängen, die versuchen, eine „No-Op“-Operation oder nur eine teilweise Aktualisierung des Residuums zu lernen. Um die exakten Nullen zu erreichen, die in der Attention-Matrix für eine Nicht-Aktualisierung benötigt werden, wird die Eingabe der Softmax während des Trainings immer größer, was Ausreißer in anderen Teilen des Netzwerks verursacht. Basierend auf diesen Beobachtungen schlagen wir zwei einfache (unabhängige) Modifikationen des Attention-Mechanismus vor – die „clipped softmax“ und die „gated attention“. Wir zeigen empirisch, dass Modelle, die mit unseren Methoden vortrainiert wurden, signifikant kleinere Ausreißer lernen, während sie die Gleitkomma-Leistung beibehalten und manchmal sogar verbessern. Dies ermöglicht es uns, Transformer-Modelle ohne zusätzlichen Aufwand auf eine vollständige INT8-Quantisierung der Aktivierungen zu quantisieren. Wir demonstrieren die Wirksamkeit unserer Methoden sowohl an Sprachmodellen (BERT, OPT) als auch an Vision-Transformern.

DreamTime: Eine verbesserte Optimierungsstrategie für die Text-zu-3D-Inhaltserstellung
DreamTime: An Improved Optimization Strategy for Text-to-3D Content Creation

Jun 21, 2023

Yukun Huang, Jianan Wang, Yukai Shi, Xianbiao Qi, Zheng-Jun Zha, Lei Zhang

121

Text-to-Image-Diffusionsmodelle, die mit Milliarden von Bild-Text-Paaren vortrainiert wurden, haben kürzlich die Erstellung von Text-zu-3D-Inhalten ermöglicht, indem sie zufällig initialisierte Neural Radiance Fields (NeRF) mit Score Distillation optimieren. Die resultierenden 3D-Modelle weisen jedoch zwei Einschränkungen auf: (a) Qualitätsprobleme wie gesättigte Farben und das Janus-Problem; (b) extrem geringe Diversität im Vergleich zur textgesteuerten Bildsynthese. In dieser Arbeit zeigen wir, dass der Konflikt zwischen dem NeRF-Optimierungsprozess und der gleichmäßigen Zeitschritt-Abtastung in der Score Distillation die Hauptursache für diese Einschränkungen ist. Um diesen Konflikt zu lösen, schlagen wir vor, die Zeitschritt-Abtastung mit monoton nicht ansteigenden Funktionen zu priorisieren, wodurch die NeRF-Optimierung mit dem Abtastprozess des Diffusionsmodells in Einklang gebracht wird. Umfangreiche Experimente zeigen, dass unser einfaches Redesign die Text-zu-3D-Inhaltserstellung deutlich verbessert, mit höherer Qualität und Diversität.

Kontinuierliche Layout-Bearbeitung einzelner Bilder mit Diffusionsmodellen
Continuous Layout Editing of Single Images with Diffusion Models

Jun 22, 2023

Zhiyuan Zhang, Zhitong Huang, Jing Liao

Jüngste Fortschritte in großskaligen Text-zu-Bild-Diffusionsmodellen haben viele Anwendungen in der Bildbearbeitung ermöglicht. Allerdings war keine dieser Methoden in der Lage, das Layout einzelner bestehender Bilder zu bearbeiten. Um diese Lücke zu schließen, schlagen wir das erste Framework zur Layoutbearbeitung eines einzelnen Bildes vor, das gleichzeitig dessen visuelle Eigenschaften bewahrt und somit eine kontinuierliche Bearbeitung eines einzelnen Bildes ermöglicht. Unser Ansatz wird durch zwei Schlüsselmodule erreicht. Erstens, um die Eigenschaften mehrerer Objekte innerhalb eines Bildes zu bewahren, entwirren wir die Konzepte verschiedener Objekte und betten sie in separate textuelle Tokens ein, indem wir eine neuartige Methode namens maskierte textuelle Inversion verwenden. Anschließend schlagen wir eine trainingsfreie Optimierungsmethode vor, um die Layoutsteuerung für ein vortrainiertes Diffusionsmodell durchzuführen, was es uns ermöglicht, Bilder mit gelernten Konzepten neu zu generieren und sie an benutzerdefinierte Layouts anzupassen. Als erstes Framework zur Bearbeitung des Layouts bestehender Bilder demonstrieren wir, dass unsere Methode effektiv ist und andere Baselines, die für diese Aufgabe modifiziert wurden, übertrifft. Unser Code wird nach der Annahme frei zur öffentlichen Nutzung verfügbar sein.

Chancen und Risiken von LLMs für skalierbare Deliberation mit Polis
Opportunities and Risks of LLMs for Scalable Deliberation with Polis

Jun 20, 2023

Christopher T. Small, Ivan Vendrov, Esin Durmus, Hadjar Homaei, Elizabeth Barry, Julien Cornebise, Ted Suzman, Deep Ganguli, Colin Megill

Polis ist eine Plattform, die maschinelle Intelligenz nutzt, um deliberative Prozesse zu skalieren. In diesem Artikel untersuchen wir die Chancen und Risiken, die mit dem Einsatz von Large Language Models (LLMs) bei der Bewältigung von Herausforderungen im Zusammenhang mit der Erleichterung, Moderation und Zusammenfassung der Ergebnisse von Polis-Engagements verbunden sind. Insbesondere demonstrieren wir anhand von Pilotexperimenten mit Anthropics Claude, dass LLMs tatsächlich die menschliche Intelligenz erweitern können, um Polis-Gespräche effizienter zu führen. Dabei stellen wir fest, dass die Fähigkeiten zur Zusammenfassung völlig neue Methoden mit immensem Potenzial ermöglichen, um die Öffentlichkeit in kollektiven Sinnbildungsprozessen zu stärken. Bemerkenswert ist, dass die Kontextbeschränkungen von LLMs einen erheblichen Einfluss auf die Einsichten und die Qualität dieser Ergebnisse haben. Allerdings sind diese Chancen mit Risiken verbunden. Wir diskutieren einige dieser Risiken sowie Prinzipien und Techniken zu deren Charakterisierung und Minderung, und die Implikationen für andere deliberative oder politische Systeme, die LLMs einsetzen könnten. Abschließend skizzieren wir mehrere offene zukünftige Forschungsrichtungen zur Erweiterung von Werkzeugen wie Polis durch LLMs.

EquiformerV2: Verbesserter äquivarianter Transformer für die Skalierung auf höhergradige Darstellungen
EquiformerV2: Improved Equivariant Transformer for Scaling to Higher-Degree Representations

Jun 21, 2023

Yi-Lun Liao, Brandon Wood, Abhishek Das, Tess Smidt

Äquivariante Transformer wie Equiformer haben die Wirksamkeit der Anwendung von Transformern auf den Bereich von 3D-atomaren Systemen demonstriert. Sie sind jedoch aufgrund ihrer rechnerischen Komplexität immer noch auf geringe Grade von äquivarianten Darstellungen beschränkt. In dieser Arbeit untersuchen wir, ob diese Architekturen gut auf höhere Grade skaliert werden können. Ausgehend von Equiformer ersetzen wir zunächst SO(3)-Faltungen durch eSCN-Faltungen, um effizient höhergradige Tensoren einzubeziehen. Um die Leistung höherer Grade besser zu nutzen, schlagen wir dann drei architektonische Verbesserungen vor – Attention-Renormalisierung, separable S^2-Aktivierung und separable Layer-Normalisierung. All dies zusammenfassend, schlagen wir EquiformerV2 vor, das bisherige state-of-the-art Methoden auf dem groß angelegten OC20-Datensatz um bis zu 12 % bei Kräften, 4 % bei Energien übertrifft, bessere Geschwindigkeits-Genauigkeits-Kompromisse bietet und eine 2-fache Reduzierung der für die Berechnung von Adsorptionsenergien benötigten DFT-Berechnungen ermöglicht.

Von Wortmodellen zu Weltmodellen: Übersetzung von natürlicher Sprache in die probabilistische Sprache des Denkens
From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought

Jun 22, 2023

Lionel Wong, Gabriel Grand, Alexander K. Lew, Noah D. Goodman, Vikash K. Mansinghka, Jacob Andreas, Joshua B. Tenenbaum

261

Tägliche Papers

AudioPaLM: Ein großes Sprachmodell, das sprechen und hören kann
AudioPaLM: A Large Language Model That Can Speak and Listen

Schnelles Segmentieren von allem
Fast Segment Anything

Von Wortmodellen zu Weltmodellen: Übersetzung von natürlicher Sprache in die probabilistische Sprache des Denkens
From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought

Training von Transformern mit 4-Bit-Ganzzahlen
Training Transformers with 4-bit Integers

Tiefe Sprachnetzwerke: Gemeinsames Prompt-Training gestapelter LLMs mittels Variationsinferenz
Deep Language Networks: Joint Prompt Training of Stacked LLMs using Variational Inference

Quantisierbare Transformer: Entfernung von Ausreißern durch Unterstützung von Aufmerksamkeitsköpfen Tu nichts
Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing

DreamTime: Eine verbesserte Optimierungsstrategie für die Text-zu-3D-Inhaltserstellung
DreamTime: An Improved Optimization Strategy for Text-to-3D Content Creation

Kontinuierliche Layout-Bearbeitung einzelner Bilder mit Diffusionsmodellen
Continuous Layout Editing of Single Images with Diffusion Models

Chancen und Risiken von LLMs für skalierbare Deliberation mit Polis
Opportunities and Risks of LLMs for Scalable Deliberation with Polis

EquiformerV2: Verbesserter äquivarianter Transformer für die Skalierung auf höhergradige Darstellungen
EquiformerV2: Improved Equivariant Transformer for Scaling to Higher-Degree Representations

Support

Support

Tägliche Papers

AudioPaLM: Ein großes Sprachmodell, das sprechen und hören kann
AudioPaLM: A Large Language Model That Can Speak and Listen

Schnelles Segmentieren von allem
Fast Segment Anything

Von Wortmodellen zu Weltmodellen: Übersetzung von natürlicher Sprache in die probabilistische Sprache des Denkens
From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought

Training von Transformern mit 4-Bit-Ganzzahlen
Training Transformers with 4-bit Integers

Tiefe Sprachnetzwerke: Gemeinsames Prompt-Training gestapelter LLMs mittels Variationsinferenz
Deep Language Networks: Joint Prompt Training of Stacked LLMs using Variational Inference

Quantisierbare Transformer: Entfernung von Ausreißern durch Unterstützung von Aufmerksamkeitsköpfen Tu nichts
Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing

DreamTime: Eine verbesserte Optimierungsstrategie für die Text-zu-3D-Inhaltserstellung
DreamTime: An Improved Optimization Strategy for Text-to-3D Content Creation

Kontinuierliche Layout-Bearbeitung einzelner Bilder mit Diffusionsmodellen
Continuous Layout Editing of Single Images with Diffusion Models

Chancen und Risiken von LLMs für skalierbare Deliberation mit Polis
Opportunities and Risks of LLMs for Scalable Deliberation with Polis

EquiformerV2: Verbesserter äquivarianter Transformer für die Skalierung auf höhergradige Darstellungen
EquiformerV2: Improved Equivariant Transformer for Scaling to Higher-Degree Representations