Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren eine skalierbare Methode zur Entwicklung eines hochwertigen Sprachmodells, das Anweisungen befolgt, indem menschlich verfasste Texte automatisch mit entsprechenden Anweisungen versehen werden. Unser Ansatz, genannt Instruktions-Rückübersetzung, beginnt mit einem Sprachmodell, das auf einer kleinen Menge von Seed-Daten feinabgestimmt wurde, und einem gegebenen Webkorpus. Das Seed-Modell wird verwendet, um Trainingsbeispiele zu konstruieren, indem Anweisungsaufforderungen für Webdokumente generiert werden (Selbsterweiterung) und dann hochwertige Beispiele aus diesen Kandidaten ausgewählt werden (Selbstkuratierung). Diese Daten werden dann verwendet, um ein stärkeres Modell feinabzustimmen. Die Feinabstimmung von LLaMa über zwei Iterationen unseres Ansatzes ergibt ein Modell, das alle anderen LLaMa-basierten Modelle auf der Alpaca-Rangliste übertrifft, ohne auf Destillationsdaten zurückzugreifen, und demonstriert eine äußerst effektive Selbstausrichtung.
Mit dem Aufkommen immer leistungsfähigerer großer Sprachmodelle wächst das Interesse daran, diese Modelle für zwanglose Konversationen und Rollenspielanwendungen zu nutzen. Allerdings erfassen bestehende Konversations- und Rollenspieldatensätze oft nicht die vielfältigen und nuancierten Interaktionen, die typischerweise von Teilnehmern im realen Rollenspiel gezeigt werden. Um diese Einschränkung zu überwinden und einen Beitrag zum rasant wachsenden Forschungsgebiet zu leisten, stellen wir einen teilweise synthetischen Datensatz namens PIPPA (Personal Interaction Pairs between People and AI) vor. PIPPA ist das Ergebnis einer gemeinschaftlichen Crowdsourcing-Initiative, an der eine Gruppe von Rollenspielenthusiasten beteiligt war. Der Datensatz umfasst über 1 Million Äußerungen, die auf 26.000 Konversationssitzungen verteilt sind, und bietet eine umfangreiche Ressource für Forscher und KI-Entwickler, um Konversations-KI-Systeme im Kontext von Rollenspielszenarien zu erforschen und zu verfeinern.
Das Training von modernsten neuronalen Netzen erfordert einen hohen Aufwand in Bezug auf Rechenleistung und Zeit. Es ist anerkannt, dass die Skalierung des Modells ein entscheidender Faktor ist, um den Stand der Technik zu erreichen und zu verbessern. Die Vergrößerung der Skalierung eines neuronalen Netzes erfordert normalerweise einen Neustart von Grund auf, indem alle Parameter des Modells zufällig initialisiert werden, da dies eine Änderung der Architekturparameter impliziert, die einen direkten Wissenstransfer von kleineren Modellen nicht zulässt. In dieser Arbeit schlagen wir sechs kombinierbare Transformationen vor, um die Größe von Transformer-basierten neuronalen Netzen schrittweise zu erhöhen, während die Funktionalität erhalten bleibt. Dies ermöglicht es, die Kapazität des Modells nach Bedarf zu erweitern. Wir liefern den Nachweis der exakten Funktionserhaltung unter minimalen Initialisierungsbedingungen für jede Transformation. Die vorgeschlagenen Methoden könnten effiziente Trainingspipeline für größere und leistungsfähigere Modelle ermöglichen, indem die Architektur während des Trainings progressiv erweitert wird.
Die enormen Erfolge großer Sprachmodelle (Large Language Models, LLMs) fördern die zunehmende Erforschung von LLM-augmentierten autonomen Agenten (LLM-augmented Autonomous Agents, LAAs). Ein LAA ist in der Lage, Aktionen mit seinem Kern-LLM zu generieren und mit Umgebungen zu interagieren, wodurch die Fähigkeit zur Lösung komplexer Aufgaben durch die Berücksichtigung vergangener Interaktionen wie Beobachtungen und Aktionen ermöglicht wird. Da die Untersuchung von LAAs noch sehr neu ist, sind bisher nur begrenzte Erkundungen verfügbar. Daher bieten wir einen umfassenden Vergleich von LAAs sowohl in Bezug auf Agentenarchitekturen als auch auf LLM-Backbones. Zusätzlich schlagen wir eine neue Strategie vor, um mehrere LAAs zu orchestrieren, sodass jeder Arbeits-LAA sich auf eine Art von Aktion konzentriert, d. h. BOLAA, wobei ein Controller die Kommunikation zwischen mehreren Agenten verwaltet. Wir führen Simulationen in Umgebungen zur Entscheidungsfindung und zum mehrstufigen Schlussfolgern durch, die die Fähigkeiten von LAAs umfassend rechtfertigen. Unsere Leistungsergebnisse liefern quantitative Empfehlungen für die Gestaltung von LAA-Architekturen und die optimale Wahl von LLMs sowie deren Kompatibilität. Wir veröffentlichen unseren Implementierungscode für LAAs unter https://github.com/salesforce/BOLAA.
Das vergangene Jahr hat erstaunliche Fortschritte bei der textgesteuerten Bildgenerierung gezeigt, die auf der Idee eines cross-modalen Repräsentationsraums basiert, in dem die Text- und Bilddomänen gemeinsam dargestellt werden. In der automatischen Spracherkennung (ASR) hat diese Idee Anwendung in Form von gemeinsamen Sprach-Text-Encodern gefunden, die durch das Training auf ungepaarten Sprach- und Textdaten auf die Kapazitäten sehr großer Parametermodelle skaliert werden können. Obwohl diese Methoden vielversprechend sind, erforderten sie eine spezielle Behandlung der inhärenten Sequenzlängenunterschiede zwischen Sprache und Text, entweder durch Upsampling-Heuristiken oder ein explizites Ausrichtungsmodell. In dieser Arbeit liefern wir Belege dafür, dass gemeinsame Sprach-Text-Encoder natürlicherweise konsistente Repräsentationen über Modalitäten hinweg erreichen, indem sie die Sequenzlänge ignorieren, und argumentieren, dass Konsistenzverluste Längenunterschiede verzeihen und einfach die beste Ausrichtung annehmen könnten. Wir zeigen, dass ein solcher Verlust die nachgelagerte Wortfehlerrate (WER) sowohl in einem großen monolingualen als auch in einem multilingualen System verbessert.
Die Analyse von Netzwerktopologien und Kommunikationsgraphen spielt eine entscheidende Rolle im modernen Netzwerkmanagement. Das Fehlen eines kohärenten Ansatzes führt jedoch zu einer steilen Lernkurve, erhöhten Fehlern und Ineffizienzen. In diesem Artikel stellen wir einen neuartigen Ansatz vor, der ein auf natürlicher Sprache basierendes Netzwerkmanagement ermöglicht, indem große Sprachmodelle (LLMs) verwendet werden, um aufgabenbezogenen Code aus natürlichen Sprachanfragen zu generieren. Diese Methode adressiert die Herausforderungen der Erklärbarkeit, Skalierbarkeit und Privatsphäre, indem sie Netzwerkbetreibern ermöglicht, den generierten Code zu überprüfen, die Notwendigkeit zur Weitergabe von Netzwerkdaten an LLMs entfällt und der Fokus auf anwendungsspezifische Anfragen in Kombination mit allgemeinen Programmsynthesetechniken gelegt wird. Wir entwerfen und evaluieren ein Prototypsystem anhand von Benchmark-Anwendungen, das hohe Genauigkeit, Kosteneffizienz und das Potenzial für weitere Verbesserungen durch ergänzende Programmsynthesetechniken demonstriert.