Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen AudioPaLM vor, ein großes Sprachmodell für das Verstehen und Erzeugen von Sprache. AudioPaLM vereint textbasierte und sprachbasierte Sprachmodelle, PaLM-2 [Anil et al., 2023] und AudioLM [Borsos et al., 2022], in einer einheitlichen multimodalen Architektur, die Text und Sprache verarbeiten und generieren kann, mit Anwendungen wie Spracherkennung und Sprach-zu-Sprach-Übersetzung. AudioPaLM erbt die Fähigkeit, paralinguistische Informationen wie Sprecheridentität und Intonation von AudioLM zu bewahren, sowie das linguistische Wissen, das nur in textbasierten großen Sprachmodellen wie PaLM-2 vorhanden ist. Wir zeigen, dass die Initialisierung von AudioPaLM mit den Gewichten eines rein textbasierten großen Sprachmodells die Sprachverarbeitung verbessert und erfolgreich die größere Menge an Texttrainingsdaten nutzt, die beim Vortraining verwendet wurden, um Sprachaufgaben zu unterstützen. Das resultierende Modell übertrifft bestehende Systeme für Sprachübersetzungsaufgaben deutlich und besitzt die Fähigkeit, Zero-Shot-Sprach-zu-Text-Übersetzungen für viele Sprachen durchzuführen, für die Eingabe-/Zielsprachkombinationen im Training nicht vorkamen. AudioPaLM zeigt auch Merkmale von Audio-Sprachmodellen, wie die Übertragung einer Stimme über Sprachen hinweg basierend auf einer kurzen gesprochenen Eingabe. Wir veröffentlichen Beispiele unserer Methode unter https://google-research.github.io/seanet/audiopalm/examples.
Das kürzlich vorgeschlagene Segment Anything Model (SAM) hat einen bedeutenden Einfluss auf viele Computer-Vision-Aufgaben ausgeübt. Es entwickelt sich zu einem grundlegenden Schritt für viele hochrangige Aufgaben wie Bildsegmentierung, Bildbeschreibung und Bildbearbeitung. Allerdings verhindern die hohen Rechenkosten eine breitere Anwendung in industriellen Szenarien. Der Rechenaufwand stammt hauptsächlich aus der Transformer-Architektur bei hochauflösenden Eingaben. In diesem Artikel schlagen wir eine beschleunigte alternative Methode für diese grundlegende Aufgabe mit vergleichbarer Leistung vor. Indem wir die Aufgabe als Segmentgenerierung und Prompting neu formulieren, stellen wir fest, dass ein regulärer CNN-Detektor mit einem Instanzsegmentierungszweig diese Aufgabe ebenfalls gut bewältigen kann. Konkret wandeln wir diese Aufgabe in die gut erforschte Instanzsegmentierungsaufgabe um und trainieren die bestehende Instanzsegmentierungsmethode direkt mit nur 1/50 des von den SAM-Autoren veröffentlichten SA-1B-Datensatzes. Mit unserer Methode erreichen wir eine vergleichbare Leistung wie die SAM-Methode bei einer 50-mal höheren Laufzeitgeschwindigkeit. Wir liefern umfangreiche experimentelle Ergebnisse, um deren Wirksamkeit zu demonstrieren. Die Codes und Demos werden unter https://github.com/CASIA-IVA-Lab/FastSAM veröffentlicht.
Wie beeinflusst Sprache unser nachgelagertes Denken? Insbesondere, wie erschließen Menschen Bedeutung aus Sprache – und wie können wir eine Theorie der linguistischen Bedeutung nutzen, um Maschinen zu entwickeln, die auf menschenähnlichere Weise denken? In diesem Artikel schlagen wir die rationale Bedeutungsbildung vor, ein rechnerisches Rahmenwerk für sprachgestütztes Denken, das neuronale Modelle der Sprache mit probabilistischen Modellen für rationale Inferenz kombiniert. Wir fassen linguistische Bedeutung als eine kontextsensitive Abbildung von natürlicher Sprache in eine probabilistische Sprache des Denkens (PLoT) auf – ein allgemeines symbolisches Substrat für probabilistische, generative Weltmodellierung. Unsere Architektur integriert zwei leistungsstarke rechnerische Werkzeuge, die bisher nicht zusammengeführt wurden: Wir modellieren Denken mit probabilistischen Programmen, einer ausdrucksstarken Repräsentation für flexibles Alltagsverständnis; und wir modellieren Bedeutungsbildung mit großen Sprachmodellen (LLMs), die eine breit gefächerte Übersetzung von natürlichen Sprachäußerungen in Code-Ausdrücke einer probabilistischen Programmiersprache unterstützen. Wir veranschaulichen unser Rahmenwerk anhand von Beispielen aus vier Kernbereichen der Kognitionswissenschaft: probabilistisches Denken, logisches und relationales Denken, visuelles und physikalisches Denken sowie soziales Denken über Akteure und ihre Pläne. In jedem Bereich zeigen wir, dass LLMs kontextsensitive Übersetzungen generieren können, die pragmatisch angemessene linguistische Bedeutungen erfassen, während die Bayes’sche Inferenz mit den generierten Programmen kohärentes und robustes Alltagsverständnis unterstützt. Wir erweitern unser Rahmenwerk, um kognitiv motivierte symbolische Module zu integrieren und eine einheitliche Schnittstelle für Alltagsdenken aus Sprache bereitzustellen. Schließlich untersuchen wir, wie Sprache selbst den Aufbau von Weltmodellen antreiben kann.
Die Quantisierung von Aktivierungen, Gewichten und Gradienten auf 4 Bit ist vielversprechend, um das Training neuronaler Netzwerke zu beschleunigen. Allerdings erfordern bestehende 4-Bit-Trainingsmethoden benutzerdefinierte numerische Formate, die von aktueller Hardware nicht unterstützt werden. In dieser Arbeit schlagen wir eine Trainingsmethode für Transformer vor, bei der alle Matrixmultiplikationen mit INT4-Arithmetik implementiert sind. Das Training mit einer ultra-niedrigen INT4-Präzision ist jedoch herausfordernd. Um dies zu erreichen, analysieren wir sorgfältig die spezifischen Strukturen von Aktivierungen und Gradienten in Transformern und schlagen dedizierte Quantisierer für diese vor. Für die Vorwärtspropagation identifizieren wir das Problem von Ausreißern und schlagen einen Hadamard-Quantisierer vor, um diese zu unterdrücken. Für die Rückwärtspropagation nutzen wir die strukturelle Sparsity von Gradienten, indem wir Bit-Splitting und Leverage-Score-Sampling-Techniken vorschlagen, um Gradienten präzise zu quantisieren. Unser Algorithmus erreicht eine wettbewerbsfähige Genauigkeit bei einer Vielzahl von Aufgaben, einschließlich Natural Language Understanding, maschineller Übersetzung und Bildklassifizierung. Im Gegensatz zu früheren 4-Bit-Trainingsmethoden kann unser Algorithmus auf der aktuellen Generation von GPUs implementiert werden. Unsere prototypische Implementierung des linearen Operators ist bis zu 2,2-mal schneller als die FP16-Pendants und beschleunigt das Training um bis zu 35,1 %.
Wir betrachten große Sprachmodelle (LLMs) als stochastische Sprachschichten in einem Netzwerk, wobei die lernbaren Parameter die natürlichen Sprachprompts in jeder Schicht sind. Wir stapeln zwei solcher Schichten, indem wir die Ausgabe einer Schicht an die nächste weiterleiten. Wir nennen diese gestapelte Architektur ein Deep Language Network (DLN). Zunächst zeigen wir, wie man die Prompt-Optimierung für ein 1-Schicht-Sprachnetzwerk (DLN-1) effektiv durchführt. Anschließend zeigen wir, wie man 2-Schicht-DLNs (DLN-2) trainiert, bei denen zwei Prompts gelernt werden müssen. Wir betrachten die Ausgabe der ersten Schicht als eine latente Variable, die marginalisiert werden muss, und entwickeln einen Variationsinferenzalgorithmus für das gemeinsame Prompt-Training. Ein DLN-2 erreicht eine höhere Leistung als eine einzelne Schicht, manchmal vergleichbar mit Few-Shot GPT-4, selbst wenn jedes LLM im Netzwerk kleiner und weniger leistungsfähig ist. Der DLN-Code ist Open Source: https://github.com/microsoft/deep-language-networks.
Transformer-Modelle wurden in den letzten Jahren in verschiedenen Bereichen weit verbreitet eingesetzt, und insbesondere große Sprachmodelle haben das Feld der KI erheblich vorangetrieben. Aufgrund ihrer Größe hat die Fähigkeit dieser Netzwerke enorm zugenommen, was jedoch mit einem erheblichen Anstieg des benötigten Rechenaufwands einherging. Quantisierung ist eine der effektivsten Methoden, um die Rechenzeit und den Speicherverbrauch von neuronalen Netzwerken zu reduzieren. Viele Studien haben jedoch gezeigt, dass moderne Transformer-Modelle dazu neigen, starke Ausreißer in ihren Aktivierungen zu lernen, was ihre Quantisierung erschwert. Um eine akzeptable Leistung zu erhalten, erfordert das Vorhandensein dieser Ausreißer, dass Aktivierungen in höherer Bitbreite vorliegen oder dass unterschiedliche numerische Formate, zusätzliches Fine-Tuning oder andere Workarounds verwendet werden. Wir zeigen, dass starke Ausreißer mit einem sehr spezifischen Verhalten von Attention-Heads zusammenhängen, die versuchen, eine „No-Op“-Operation oder nur eine teilweise Aktualisierung des Residuums zu lernen. Um die exakten Nullen zu erreichen, die in der Attention-Matrix für eine Nicht-Aktualisierung benötigt werden, wird die Eingabe der Softmax während des Trainings immer größer, was Ausreißer in anderen Teilen des Netzwerks verursacht. Basierend auf diesen Beobachtungen schlagen wir zwei einfache (unabhängige) Modifikationen des Attention-Mechanismus vor – die „clipped softmax“ und die „gated attention“. Wir zeigen empirisch, dass Modelle, die mit unseren Methoden vortrainiert wurden, signifikant kleinere Ausreißer lernen, während sie die Gleitkomma-Leistung beibehalten und manchmal sogar verbessern. Dies ermöglicht es uns, Transformer-Modelle ohne zusätzlichen Aufwand auf eine vollständige INT8-Quantisierung der Aktivierungen zu quantisieren. Wir demonstrieren die Wirksamkeit unserer Methoden sowohl an Sprachmodellen (BERT, OPT) als auch an Vision-Transformern.
Text-to-Image-Diffusionsmodelle, die mit Milliarden von Bild-Text-Paaren vortrainiert wurden, haben kürzlich die Erstellung von Text-zu-3D-Inhalten ermöglicht, indem sie zufällig initialisierte Neural Radiance Fields (NeRF) mit Score Distillation optimieren. Die resultierenden 3D-Modelle weisen jedoch zwei Einschränkungen auf: (a) Qualitätsprobleme wie gesättigte Farben und das Janus-Problem; (b) extrem geringe Diversität im Vergleich zur textgesteuerten Bildsynthese. In dieser Arbeit zeigen wir, dass der Konflikt zwischen dem NeRF-Optimierungsprozess und der gleichmäßigen Zeitschritt-Abtastung in der Score Distillation die Hauptursache für diese Einschränkungen ist. Um diesen Konflikt zu lösen, schlagen wir vor, die Zeitschritt-Abtastung mit monoton nicht ansteigenden Funktionen zu priorisieren, wodurch die NeRF-Optimierung mit dem Abtastprozess des Diffusionsmodells in Einklang gebracht wird. Umfangreiche Experimente zeigen, dass unser einfaches Redesign die Text-zu-3D-Inhaltserstellung deutlich verbessert, mit höherer Qualität und Diversität.
Jüngste Fortschritte in großskaligen Text-zu-Bild-Diffusionsmodellen haben viele Anwendungen in der Bildbearbeitung ermöglicht. Allerdings war keine dieser Methoden in der Lage, das Layout einzelner bestehender Bilder zu bearbeiten. Um diese Lücke zu schließen, schlagen wir das erste Framework zur Layoutbearbeitung eines einzelnen Bildes vor, das gleichzeitig dessen visuelle Eigenschaften bewahrt und somit eine kontinuierliche Bearbeitung eines einzelnen Bildes ermöglicht. Unser Ansatz wird durch zwei Schlüsselmodule erreicht. Erstens, um die Eigenschaften mehrerer Objekte innerhalb eines Bildes zu bewahren, entwirren wir die Konzepte verschiedener Objekte und betten sie in separate textuelle Tokens ein, indem wir eine neuartige Methode namens maskierte textuelle Inversion verwenden. Anschließend schlagen wir eine trainingsfreie Optimierungsmethode vor, um die Layoutsteuerung für ein vortrainiertes Diffusionsmodell durchzuführen, was es uns ermöglicht, Bilder mit gelernten Konzepten neu zu generieren und sie an benutzerdefinierte Layouts anzupassen. Als erstes Framework zur Bearbeitung des Layouts bestehender Bilder demonstrieren wir, dass unsere Methode effektiv ist und andere Baselines, die für diese Aufgabe modifiziert wurden, übertrifft. Unser Code wird nach der Annahme frei zur öffentlichen Nutzung verfügbar sein.
Polis ist eine Plattform, die maschinelle Intelligenz nutzt, um deliberative Prozesse zu skalieren. In diesem Artikel untersuchen wir die Chancen und Risiken, die mit dem Einsatz von Large Language Models (LLMs) bei der Bewältigung von Herausforderungen im Zusammenhang mit der Erleichterung, Moderation und Zusammenfassung der Ergebnisse von Polis-Engagements verbunden sind. Insbesondere demonstrieren wir anhand von Pilotexperimenten mit Anthropics Claude, dass LLMs tatsächlich die menschliche Intelligenz erweitern können, um Polis-Gespräche effizienter zu führen. Dabei stellen wir fest, dass die Fähigkeiten zur Zusammenfassung völlig neue Methoden mit immensem Potenzial ermöglichen, um die Öffentlichkeit in kollektiven Sinnbildungsprozessen zu stärken. Bemerkenswert ist, dass die Kontextbeschränkungen von LLMs einen erheblichen Einfluss auf die Einsichten und die Qualität dieser Ergebnisse haben. Allerdings sind diese Chancen mit Risiken verbunden. Wir diskutieren einige dieser Risiken sowie Prinzipien und Techniken zu deren Charakterisierung und Minderung, und die Implikationen für andere deliberative oder politische Systeme, die LLMs einsetzen könnten. Abschließend skizzieren wir mehrere offene zukünftige Forschungsrichtungen zur Erweiterung von Werkzeugen wie Polis durch LLMs.
Äquivariante Transformer wie Equiformer haben die Wirksamkeit der Anwendung von Transformern auf den Bereich von 3D-atomaren Systemen demonstriert. Sie sind jedoch aufgrund ihrer rechnerischen Komplexität immer noch auf geringe Grade von äquivarianten Darstellungen beschränkt. In dieser Arbeit untersuchen wir, ob diese Architekturen gut auf höhere Grade skaliert werden können. Ausgehend von Equiformer ersetzen wir zunächst SO(3)-Faltungen durch eSCN-Faltungen, um effizient höhergradige Tensoren einzubeziehen. Um die Leistung höherer Grade besser zu nutzen, schlagen wir dann drei architektonische Verbesserungen vor – Attention-Renormalisierung, separable S^2-Aktivierung und separable Layer-Normalisierung. All dies zusammenfassend, schlagen wir EquiformerV2 vor, das bisherige state-of-the-art Methoden auf dem groß angelegten OC20-Datensatz um bis zu 12 % bei Kräften, 4 % bei Energien übertrifft, bessere Geschwindigkeits-Genauigkeits-Kompromisse bietet und eine 2-fache Reduzierung der für die Berechnung von Adsorptionsenergien benötigten DFT-Berechnungen ermöglicht.