Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle (LLMs) zeichnen sich in verschiedenen Aufgaben aus, sind jedoch auf sorgfältig gestaltete Prompts angewiesen, die oft erheblichen menschlichen Aufwand erfordern. Um diesen Prozess zu automatisieren, schlagen wir in diesem Artikel ein neuartiges Framework für die diskrete Prompt-Optimierung vor, genannt EvoPrompt, das die Idee evolutionärer Algorithmen (EAs) übernimmt, da diese eine gute Leistung und schnelle Konvergenz aufweisen. Um EAs auf diskrete Prompts anwenden zu können, die natürliche Sprachausdrücke sind und kohärent sowie menschenlesbar sein müssen, verbinden wir LLMs mit EAs. Dieser Ansatz ermöglicht es uns, gleichzeitig die leistungsstarken Sprachverarbeitungsfähigkeiten von LLMs und die effiziente Optimierungsleistung von EAs zu nutzen. Insbesondere verzichtet EvoPrompt auf Gradienten oder Parameter und beginnt mit einer Population von Prompts, um iterativ neue Prompts mit LLMs basierend auf evolutionären Operatoren zu generieren und die Population anhand des Entwicklungsdatensatzes zu verbessern. Wir optimieren Prompts für sowohl proprietäre als auch Open-Source-LLMs, einschließlich GPT-3.5 und Alpaca, auf 9 Datensätzen, die Sprachverständnis- und Generierungsaufgaben umfassen. EvoPrompt übertrifft menschlich gestaltete Prompts und bestehende Methoden zur automatischen Prompt-Generierung signifikant um bis zu 25 % bzw. 14 %. Darüber hinaus zeigt EvoPrompt, dass die Verbindung von LLMs mit EAs Synergien schafft, die weitere Forschungen zur Kombination von LLMs und konventionellen Algorithmen inspirieren könnten.
Frühere Forschungen beobachteten eine Genauigkeitsverschlechterung, wenn die Softmax-Attention durch eine punktweise Aktivierungsfunktion wie ReLU ersetzt wurde. Im Kontext von Vision-Transformern stellen wir fest, dass diese Verschlechterung gemildert wird, wenn durch die Sequenzlänge dividiert wird. Unsere Experimente, bei denen kleine bis große Vision-Transformer auf ImageNet-21k trainiert wurden, zeigen, dass ReLU-Attention das Skalierungsverhalten der Softmax-Attention in Bezug auf den Rechenaufwand annähern oder sogar erreichen kann.
Ein Hindernis für ein besseres Verständnis der internen Abläufe von neuronalen Netzen ist die Polysemantizität, bei der Neuronen in mehreren, semantisch unterschiedlichen Kontexten aktiv zu werden scheinen. Polysemantizität verhindert, dass wir präzise, für Menschen verständliche Erklärungen dafür finden, was neuronale Netze intern tun. Eine vermutete Ursache für Polysemantizität ist die Superposition, bei der neuronale Netze mehr Merkmale darstellen, als sie Neuronen haben, indem sie Merkmale einem übervollständigen Satz von Richtungen im Aktivierungsraum zuordnen, anstatt einzelnen Neuronen. Hier versuchen wir, diese Richtungen zu identifizieren, indem wir spärliche Autoencoder verwenden, um die internen Aktivierungen eines Sprachmodells zu rekonstruieren. Diese Autoencoder lernen Sätze von spärlich aktivierenden Merkmalen, die interpretierbarer und monosemantischer sind als die durch alternative Ansätze identifizierten Richtungen, wobei die Interpretierbarkeit durch automatisierte Methoden gemessen wird. Das Ablieren dieser Merkmale ermöglicht eine präzise Modellbearbeitung, beispielsweise durch das Entfernen von Fähigkeiten wie der Pronomenvorhersage, wobei das Modellverhalten weniger gestört wird als bei früheren Techniken. Diese Arbeit zeigt, dass es möglich ist, Superposition in Sprachmodellen mit einer skalierbaren, unüberwachten Methode aufzulösen. Unsere Methode könnte als Grundlage für zukünftige mechanistische Interpretierbarkeitsarbeit dienen, von der wir hoffen, dass sie eine größere Modelltransparenz und Steuerbarkeit ermöglichen wird.
Wir untersuchen die Auswirkungen von Parametersparsität auf das Skalierungsverhalten von Transformern, die auf massiven Datensätzen trainiert werden (sogenannte „Foundation Models“), sowohl im visuellen als auch im sprachlichen Bereich. In diesem Kontext identifizieren wir das erste Skalierungsgesetz, das den Zusammenhang zwischen Gewichtssparsität, der Anzahl der nicht-null Parameter und der Menge der Trainingsdaten beschreibt, das wir empirisch über verschiedene Modell- und Datengrößen hinweg validieren; anhand von ViT/JFT-4B und T5/C4. Diese Ergebnisse ermöglichen es uns, die „optimale Sparsität“ zu charakterisieren, also den Sparsamkeitsgrad, der die beste Leistung für eine gegebene effektive Modellgröße und ein gegebenes Trainingsbudget liefert. Bei einer festen Anzahl von nicht-null Parametern stellen wir fest, dass die optimale Sparsität mit der Menge der verwendeten Trainingsdaten zunimmt. Wir erweitern unsere Studie außerdem auf verschiedene Sparsamkeitsstrukturen (wie das hardwarefreundliche n:m-Muster) und Strategien (wie das Starten von einem vortrainierten dichten Modell). Unsere Erkenntnisse beleuchten die Stärken und Grenzen der Gewichtssparsität in verschiedenen Parameter- und Recheneinstellungen und bieten sowohl theoretisches Verständnis als auch praktische Implikationen für die Nutzung von Sparsamkeit zur Verbesserung der Recheneffizienz.
Um effektive Entscheidungen in neuartigen Umgebungen mit langfristigen Zielen zu treffen, ist es entscheidend, hierarchisches Denken über räumliche und zeitliche Skalen hinweg anzuwenden. Dies beinhaltet die Planung abstrakter Teilzielsequenzen, die visuelle Analyse der zugrunde liegenden Pläne und die Ausführung von Aktionen gemäß des entworfenen Plans durch visuomotorische Steuerung. Wir schlagen Compositional Foundation Models for Hierarchical Planning (HiP) vor, ein Foundation-Modell, das mehrere spezialisierte Foundation-Modelle, die jeweils auf Sprach-, Bild- und Aktionsdaten trainiert wurden, gemeinsam nutzt, um langfristige Aufgaben zu lösen. Wir verwenden ein großes Sprachmodell, um symbolische Pläne zu erstellen, die durch ein großes Video-Diffusionsmodell in der Umgebung verankert werden. Die generierten Video-Pläne werden dann durch ein inverses Dynamikmodell, das Aktionen aus den generierten Videos ableitet, in die visuomotorische Steuerung integriert. Um effektives Denken innerhalb dieser Hierarchie zu ermöglichen, erzwingen wir Konsistenz zwischen den Modellen durch iterative Verfeinerung. Wir demonstrieren die Wirksamkeit und Anpassungsfähigkeit unseres Ansatzes in drei verschiedenen langfristigen Tischmanipulationsaufgaben.
Trotz der jüngsten Fortschritte in der Text-zu-Audio (TTA)-Generierung zeigen wir, dass die modernsten Modelle, wie AudioLDM, die auf Datensätzen mit einer unausgewogenen Klassenverteilung, wie AudioCaps, trainiert wurden, in ihrer Generierungsleistung voreingenommen sind. Insbesondere übertreffen sie sich bei der Generierung gängiger Audioklassen, während sie bei seltenen Klassen schlechter abschneiden, was die Gesamtgenerierungsleistung beeinträchtigt. Wir bezeichnen dieses Problem als langschwänzige Text-zu-Audio-Generierung. Um dieses Problem zu lösen, schlagen wir einen einfachen, retrieval-augmentierten Ansatz für TTA-Modelle vor. Konkret nutzen wir bei einem gegebenen Eingabetextprompt zunächst ein Contrastive Language Audio Pretraining (CLAP)-Modell, um relevante Text-Audio-Paare abzurufen. Die Merkmale der abgerufenen Audio-Text-Daten werden dann als zusätzliche Bedingungen verwendet, um das Lernen der TTA-Modelle zu steuern. Wir erweitern AudioLDM mit unserem vorgeschlagenen Ansatz und bezeichnen das resultierende augmentierte System als Re-AudioLDM. Auf dem AudioCaps-Datensatz erreicht Re-AudioLDM einen state-of-the-art Frechet Audio Distance (FAD)-Wert von 1,37 und übertrifft damit die bestehenden Ansätze deutlich. Darüber hinaus zeigen wir, dass Re-AudioLDM realistische Audios für komplexe Szenen, seltene Audioklassen und sogar ungesehene Audiotypen generieren kann, was sein Potenzial in TTA-Aufgaben unterstreicht.
Text-to-Image-Diffusionsmodelle verstehen räumliche Beziehungen zwischen Objekten, aber repräsentieren sie die wahre 3D-Struktur der Welt allein durch 2D-Aufsicht? Wir zeigen, dass ja, 3D-Wissen in 2D-Bilddiffusionsmodellen wie Stable Diffusion kodiert ist, und wir demonstrieren, dass diese Struktur für 3D-Vision-Aufgaben genutzt werden kann. Unsere Methode, Viewpoint Neural Textual Inversion (ViewNeTI), steuert den 3D-Blickwinkel von Objekten in generierten Bildern aus eingefrorenen Diffusionsmodellen. Wir trainieren einen kleinen neuronalen Mapper, der Kamerablickwinkelparameter nimmt und Textencoder-Latents vorhersagt; diese Latents konditionieren dann den Diffusionsgenerierungsprozess, um Bilder mit dem gewünschten Kamerablickwinkel zu erzeugen. ViewNeTI adressiert auf natürliche Weise Novel View Synthesis (NVS). Indem wir das eingefrorene Diffusionsmodell als Prior nutzen, können wir NVS mit sehr wenigen Eingabeansichten lösen; wir können sogar Einzelansicht-Novel View Synthesis durchführen. Unsere Einzelansicht-NVS-Vorhersagen weisen im Vergleich zu früheren Methoden gute semantische Details und Fotorealismus auf. Unser Ansatz eignet sich gut zur Modellierung der Unsicherheit, die inhärent in spärlichen 3D-Vision-Problemen ist, da er effizient diverse Samples erzeugen kann. Unser Blickwinkelsteuerungsmechanismus ist allgemeingültig und kann sogar den Kamerablickwinkel in Bildern ändern, die durch benutzerdefinierte Prompts generiert wurden.