Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle haben sich als vielseitiges Werkzeug etabliert, sind jedoch schwierig auf Aufgaben anzuwenden, bei denen begrenzte Inferenzbudgets und kleine domänenspezifische Trainingsdatensätze vorliegen. Diese Arbeit formalisiert diese Einschränkungen und unterscheidet vier wichtige Variablen: das Pretraining-Budget (für das Training, bevor die Zieldomäne bekannt ist), das Spezialisierungsbudget (für das Training, nachdem die Zieldomäne bekannt ist), das Inferenzbudget und die Größe des domänenspezifischen Trainingsdatensatzes. In diesen Konfigurationen vergleichen wir verschiedene Ansätze aus der Literatur des maschinellen Lernens. Begrenzt durch die Inferenzkosten finden wir bessere Alternativen zur gängigen Praxis, sehr große Standard-Transformer-Modelle zu trainieren. Insbesondere zeigen wir, dass Hyper-Networks und Mixture-of-Experts-Modelle bei großen Pretraining-Budgets eine bessere Perplexität aufweisen, während kleine Modelle, die auf importance-sampled Datensätzen trainiert werden, für große Spezialisierungsbudgets attraktiv sind.
Die Fortschritte bei großen Sprachmodellen (LLMs) haben das Feld der Codegenerierung erheblich vorangetrieben. Frühere Arbeiten integrierten Reinforcement Learning (RL) mit Compiler-Feedback, um den Ausgaberaum von LLMs zu erkunden und die Qualität der Codegenerierung zu verbessern. Allerdings stellt die lange Codegenerierung durch LLMs als Reaktion auf komplexe menschliche Anforderungen eine Herausforderung für die RL-Exploration dar. Da zudem die Unit-Tests den komplizierten Code möglicherweise nicht abdecken, ist die Optimierung von LLMs durch die Verwendung dieser nicht ausgeführten Code-Snippets ineffektiv. Um diese Herausforderungen zu bewältigen, stellen wir StepCoder vor, ein neuartiges RL-Framework für die Codegenerierung, das aus zwei Hauptkomponenten besteht: CCCS adressiert die Explorationsherausforderung, indem es die Aufgabe der langen Codegenerierung in einen Lehrplan von Code-Vervollständigungsunteraufgaben (Curriculum of Code Completion Subtasks) unterteilt, während FGO das Modell optimiert, indem es die nicht ausgeführten Code-Segmente maskiert, um eine fein abgestimmte Optimierung (Fine-Grained Optimization) zu ermöglichen. Darüber hinaus konstruieren wir den APPS+-Datensatz für das RL-Training, der manuell überprüft wurde, um die Korrektheit der Unit-Tests sicherzustellen. Experimentelle Ergebnisse zeigen, dass unsere Methode die Fähigkeit zur Erkundung des Ausgaberaums verbessert und state-of-the-art Ansätze in entsprechenden Benchmarks übertrifft.
Planung ist seit den Anfängen der künstlichen Intelligenz (KI) ein zentrales Forschungsziel. Frühere KI-Agenten konzentrierten sich jedoch hauptsächlich auf eingeschränkte Szenarien, da viele der kognitiven Grundlagen, die für menschenähnliche Planung erforderlich sind, fehlten. In jüngster Zeit haben Sprachagenten, die auf großen Sprachmodellen (LLMs) basieren, interessante Fähigkeiten wie Werkzeugnutzung und logisches Denken gezeigt. Sind diese Sprachagenten in der Lage, in komplexeren Umgebungen zu planen, die für frühere KI-Agenten unerreichbar waren? Um diese Untersuchung voranzutreiben, schlagen wir TravelPlanner vor, einen neuen Planungs-Benchmark, der sich auf die Reiseplanung konzentriert – ein häufiges reales Planungsszenario. Es bietet eine umfangreiche Sandbox-Umgebung, verschiedene Werkzeuge für den Zugriff auf fast vier Millionen Datensätze sowie 1.225 sorgfältig kuratierte Planungsabsichten und Referenzpläne. Umfassende Auswertungen zeigen, dass aktuelle Sprachagenten noch nicht in der Lage sind, derart komplexe Planungsaufgaben zu bewältigen – selbst GPT-4 erreicht nur eine Erfolgsquote von 0,6 %. Sprachagenten haben Schwierigkeiten, bei der Aufgabe zu bleiben, die richtigen Werkzeuge zur Informationsbeschaffung zu nutzen oder mehrere Einschränkungen im Blick zu behalten. Dennoch stellen wir fest, dass die bloße Möglichkeit, dass Sprachagenten ein derart komplexes Problem angehen können, bereits ein bedeutender Fortschritt ist. TravelPlanner bietet eine herausfordernde, aber sinnvolle Testumgebung für zukünftige Sprachagenten.
Wir stellen Pok\'eLLMon vor, den ersten LLM-basierten Agenten, der eine menschenähnliche Leistung in taktischen Kampfspielen erreicht, wie in Pok\'emon-Kämpfen demonstriert. Das Design von Pok\'eLLMon umfasst drei Schlüsselstrategien: (i) In-Context Reinforcement Learning, das textbasierte Rückmeldungen aus Kämpfen sofort verarbeitet, um die Strategie iterativ zu verfeinern; (ii) Wissensgestützte Generierung, die externes Wissen abruft, um Halluzinationen entgegenzuwirken und den Agenten befähigt, zeitnah und angemessen zu handeln; (iii) Konsistente Aktionsgenerierung, um das Phänomen des panischen Wechselns zu mildern, wenn der Agent einem starken Gegner gegenübersteht und dem Kampf entkommen möchte. Wir zeigen, dass Online-Kämpfe gegen Menschen die menschenähnlichen Kampfstrategien und die rechtzeitige Entscheidungsfindung von Pok\'eLLMon demonstrieren, wobei eine Gewinnrate von 49 % in den Ladder-Wettbewerben und 56 % in den eingeladenen Kämpfen erreicht wird. Unsere Implementierung und spielbare Kampfprotokolle sind verfügbar unter: https://github.com/git-disl/PokeLLMon.
Die Erzeugung von reichhaltigen und kontrollierbaren Bewegungen ist eine zentrale Herausforderung in der Videosynthese. Wir stellen Boximator vor, einen neuen Ansatz zur feingranularen Bewegungssteuerung. Boximator führt zwei Arten von Einschränkungen ein: harte Boxen und weiche Boxen. Benutzer wählen Objekte im bedingten Frame mithilfe von harten Boxen aus und verwenden dann entweder Art von Boxen, um die Position, Form oder den Bewegungspfad des Objekts in zukünftigen Frames grob oder präzise zu definieren. Boximator fungiert als Plug-in für bestehende Video-Diffusionsmodelle. Der Trainingsprozess bewahrt das Wissen des Basismodells, indem die ursprünglichen Gewichte eingefroren und nur das Kontrollmodul trainiert wird. Um Trainingsherausforderungen zu bewältigen, führen wir eine neuartige Selbstverfolgungstechnik ein, die das Erlernen von Box-Objekt-Korrelationen erheblich vereinfacht. Empirisch erreicht Boximator state-of-the-art Videoqualitätswerte (FVD), verbessert zwei Basismodelle und wird weiter gesteigert, nachdem Box-Einschränkungen integriert wurden. Die robuste Bewegungssteuerbarkeit wird durch drastische Verbesserungen in der Metrik zur Ausrichtung der Begrenzungsboxen bestätigt. Eine menschliche Bewertung zeigt zudem, dass Benutzer die Generierungsergebnisse von Boximator gegenüber dem Basismodell bevorzugen.
Transformer sind die dominierende Architektur für die Modellierung von Sequenzen, aber es gibt ein wachsendes Interesse an Modellen, die einen festen latenten Zustand verwenden, der nicht von der Sequenzlänge abhängt, was wir als "verallgemeinerte Zustandsraummodelle" (Generalized State Space Models, GSSMs) bezeichnen. In diesem Artikel zeigen wir, dass GSSMs zwar in Bezug auf die Effizienz zur Inferenzzeit vielversprechend sind, aber im Vergleich zu Transformer-Modellen bei Aufgaben, die das Kopieren aus dem Eingabekontext erfordern, eingeschränkt sind. Wir beginnen mit einer theoretischen Analyse der einfachen Aufgabe des String-Kopierens und beweisen, dass ein zweischichtiger Transformer Strings exponentieller Länge kopieren kann, während GSSMs durch ihren festen latenten Zustand grundsätzlich begrenzt sind. Empirisch stellen wir fest, dass Transformer GSSMs in Bezug auf Effizienz und Generalisierung bei synthetischen Aufgaben, die das Kopieren des Kontexts erfordern, übertreffen. Schließlich evaluieren wir vortrainierte große Sprachmodelle und stellen fest, dass Transformer-Modelle beim Kopieren und Abrufen von Informationen aus dem Kontext Zustandsraummodelle deutlich übertreffen. Zusammengenommen deuten diese Ergebnisse auf eine grundlegende Lücke zwischen Transformern und GSSMs bei praktisch relevanten Aufgaben hin.
Während Large Language Models (LLMs) ihre Kompetenz bei komplexen Denkaufgaben unter Beweis gestellt haben, bleibt ihre Leistung in dynamischen, interaktiven und wettbewerbsorientierten Szenarien – wie etwa Geschäftsstrategie und Börsenanalyse – weitgehend unerforscht. Um diese Lücke zu schließen, untersuchen wir formal die dynamischen Denkfähigkeiten von LLMs für Entscheidungsfindung in sich schnell verändernden Umgebungen. Wir stellen zwei spieltheoriebasierte Pilotherausforderungen vor, die die Komplexität realer dynamischer Entscheidungsprozesse widerspiegeln. Diese Herausforderungen sind klar definiert, was eine präzise, kontrollierbare und eindeutige Bewertung der dynamischen Denkfähigkeiten von LLMs ermöglicht. Durch umfangreiche Experimente stellen wir fest, dass bestehende Denkmethoden in dynamischen Umgebungen, die k-Level-Denken erfordern – ein Schlüsselkonzept, das in früheren Arbeiten nicht behandelt wurde – oft versagen. Um dies zu beheben, schlagen wir einen neuartigen Denkansatz für LLMs vor, der als „K-Level Reasoning“ bezeichnet wird. Dieser Ansatz übernimmt die Perspektive von Konkurrenten, um rekursiv k-Level-Denken basierend auf verfügbaren historischen Informationen anzuwenden, was die Vorhersagegenauigkeit der nachfolgenden Züge der Konkurrenten deutlich verbessert und strategischere Entscheidungen ermöglicht. Diese Forschung legt nicht nur einen robusten quantitativen Maßstab für die Bewertung dynamischen Denkens fest, sondern steigert auch die Kompetenz von LLMs in dynamischen Kontexten erheblich.
Dieser technische Bericht beschreibt das Training von nomic-embed-text-v1, dem ersten vollständig reproduzierbaren, quelloffenen, gewichtsöffentlichen und datenoffenen englischen Text-Einbettungsmodell mit einer Kontextlänge von 8192, das sowohl OpenAI Ada-002 als auch OpenAI text-embedding-3-small bei kurzen und langen Kontextaufgaben übertrifft. Wir veröffentlichen den Trainingscode und die Modellgewichte unter einer Apache-2-Lizenz. Im Gegensatz zu anderen quelloffenen Modellen stellen wir einen Trainingsdatenloader mit 235 Millionen kuratierten Textpaaren bereit, der die vollständige Replikation von nomic-embed-text-v1 ermöglicht. Code und Daten zur Replikation des Modells finden Sie unter https://github.com/nomic-ai/contrastors.
Das Aufkommen von Large Models markiert eine neue Ära im maschinellen Lernen, da sie durch die Nutzung umfangreicher Datensätze deutlich bessere Leistungen erzielen als kleinere Modelle, um komplexe Muster zu erfassen und zu synthetisieren. Trotz dieser Fortschritte ist die Erforschung der Skalierung, insbesondere im Bereich der Audiogenerierung, noch begrenzt. Bisherige Ansätze erreichten nicht den Bereich der hochauflösenden (HiFi) 44,1 kHz und litten sowohl unter spektralen Diskontinuitäten als auch unter Unschärfen im Hochfrequenzbereich sowie unter einer mangelnden Robustheit gegenüber Daten außerhalb des Trainingsbereichs. Diese Einschränkungen begrenzen die Anwendbarkeit der Modelle auf verschiedene Anwendungsfälle, einschließlich der Musik- und Gesangsgenerierung. Unsere Arbeit stellt Enhanced Various Audio Generation via Scalable Generative Adversarial Networks (EVA-GAN) vor, das signifikante Verbesserungen gegenüber dem bisherigen Stand der Technik in Bezug auf die spektrale und hochfrequente Rekonstruktion sowie die Robustheit bei der Verarbeitung von Daten außerhalb des Trainingsbereichs bietet. Dies ermöglicht die Generierung von HiFi-Audios durch den Einsatz eines umfangreichen Datensatzes von 36.000 Stunden 44,1 kHz-Audio, eines kontextbewussten Moduls, eines Human-In-The-Loop-Toolkits zur Artefaktmessung und die Erweiterung des Modells auf etwa 200 Millionen Parameter. Demonstrationen unserer Arbeit sind unter https://double-blind-eva-gan.cc verfügbar.