Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen unsere Reasoning-Modelle der ersten Generation vor, DeepSeek-R1-Zero und DeepSeek-R1. DeepSeek-R1-Zero, ein Modell, das durch groß angelegtes Reinforcement-Learning (RL) ohne überwachtes Feintuning (SFT) als vorläufiger Schritt trainiert wurde, zeigt bemerkenswerte Reasoning-Fähigkeiten. Durch RL entwickelt DeepSeek-R1-Zero natürlicherweise zahlreiche leistungsstarke und faszinierende Reasoning-Verhaltensweisen. Es sieht sich jedoch Herausforderungen wie schlechter Lesbarkeit und Sprachvermischung gegenüber. Um diese Probleme anzugehen und die Reasoning-Performance weiter zu verbessern, stellen wir DeepSeek-R1 vor, das mehrstufiges Training und Cold-Start-Daten vor dem RL integriert. DeepSeek-R1 erreicht eine Leistung, die mit OpenAI-o1-1217 bei Reasoning-Aufgaben vergleichbar ist. Um die Forschungsgemeinschaft zu unterstützen, stellen wir DeepSeek-R1-Zero, DeepSeek-R1 und sechs dichte Modelle (1,5B, 7B, 8B, 14B, 32B, 70B) vor, die auf Qwen und Llama basierend aus DeepSeek-R1 destilliert wurden, als Open Source zur Verfügung.
Die Vorbereitung von Sprachmodellen durch Vorhersage des nächsten Tokens hat sich als wirksam erwiesen, um die Rechenleistung zu skalieren, ist jedoch auf die Menge der verfügbaren Trainingsdaten begrenzt. Die Skalierung des Reinforcement Learning (RL) eröffnet eine neue Dimension für die kontinuierliche Verbesserung der künstlichen Intelligenz, mit der Aussicht, dass große Sprachmodelle (LLMs) ihre Trainingsdaten durch das Erlernen von Erkundungen mit Belohnungen skalieren können. Bisherige Veröffentlichungen haben jedoch keine wettbewerbsfähigen Ergebnisse erzielt. Vor diesem Hintergrund berichten wir über die Trainingspraxis von Kimi k1.5, unserem neuesten multimodalen LLM, der mit RL trainiert wurde, einschließlich seiner RL-Trainingsmethoden, multimodalen Datenvorschriften und Infrastrukturoptimierung. Die Skalierung langer Kontexte und verbesserte Methoden zur Richtlinienoptimierung sind Schlüsselelemente unseres Ansatzes, der ein einfaches, effektives RL-Framework etabliert, ohne auf komplexere Techniken wie Monte-Carlo-Baumsuche, Wertefunktionen und Prozessbelohnungsmodelle angewiesen zu sein. Bemerkenswerterweise erreicht unser System eine Spitzenleistung bei der Argumentation über mehrere Benchmarks und Modalitäten – z. B. 77,5 bei AIME, 96,2 bei MATH 500, 94. Perzentil bei Codeforces, 74,9 bei MathVista – und entspricht damit dem Stand der Technik von OpenAI's o1. Darüber hinaus präsentieren wir effektive Long2Short-Methoden, die Long-CoT-Techniken verwenden, um Short-CoT-Modelle zu verbessern, was zu Spitzenleistungen bei der Short-CoT-Argumentation führt – z. B. 60,8 bei AIME, 94,6 bei MATH500, 47,3 bei LiveCodeBench – und bestehende Short-CoT-Modelle wie GPT-4o und Claude Sonnet 3.5 deutlich übertreffen (um bis zu +550 %).
In diesem Paper schlagen wir VideoLLaMA3 vor, ein fortschrittliches multimodales Grundlagenmodell für die Bild- und Videoverarbeitung. Die Kern-Designphilosophie von VideoLLaMA3 ist visionzentriert. Die Bedeutung von "visionzentriert" ist zweigleisig: das visionzentrierte Trainingsparadigma und das visionzentrierte Framework-Design. Der Schlüsselerkenntnis unseres visionzentrierten Trainingsparadigmas ist, dass hochwertige Bild-Text-Daten sowohl für die Bild- als auch für die Videoverarbeitung entscheidend sind. Anstatt umfangreiche Video-Text-Datensätze vorzubereiten, konzentrieren wir uns auf den Aufbau von groß angelegten und hochwertigen Bild-Text-Datensätzen. VideoLLaMA3 durchläuft vier Trainingsphasen: 1) die visionzentrierte Ausrichtungsphase, die den Vision-Encoder und Projektor vorbereitet; 2) die vision-sprachliche Vorabstufe, die den Vision-Encoder, Projektor und LLM mit groß angelegten Bild-Text-Daten unterschiedlicher Typen (einschließlich Szenenbildern, Dokumenten, Diagrammen) sowie reinen Textdaten gemeinsam abstimmt; 3) die Mehrfachaufgabenfeinabstimmung, die Bild-Text-SFT-Daten für nachgelagerte Aufgaben und Video-Text-Daten zur Grundlage für die Videoverarbeitung einbezieht; 4) die videozentrierte Feinabstimmung, die die Fähigkeiten des Modells in der Videoverarbeitung weiter verbessert. In Bezug auf das Framework-Design wird der vortrainierte Vision-Encoder angepasst, um Bilder unterschiedlicher Größen in Vision-Token mit entsprechenden Nummern anstatt einer festen Anzahl von Tokens zu kodieren, um feingranulare Details in Bildern besser erfassen zu können. Für Videoeingaben reduzieren wir die Anzahl der Vision-Tokens entsprechend ihrer Ähnlichkeit, sodass die Repräsentation von Videos präziser und kompakter wird. Dank der visionzentrierten Designs erzielt VideoLLaMA3 überzeugende Leistungen in Bild- und Videoverarbeitungs-Benchmarks.
Die virtuelle Filmproduktion erfordert komplexe Entscheidungsprozesse, einschließlich Drehbuchschreiben, virtueller Kamerarbeit und präziser Positionierung und Handlungen der Schauspieler. Inspiriert von den jüngsten Fortschritten bei automatisierten Entscheidungsfindungen mit sprachbasierten Agentengesellschaften, stellt dieser Artikel FilmAgent vor, ein neuartiges LLM-basiertes Multi-Agenten-Kollaborationsframework für die vollständige Automatisierung von Filmen in unseren konstruierten 3D-Virtualräumen. FilmAgent simuliert verschiedene Crew-Rollen, darunter Regisseure, Drehbuchautoren, Schauspieler und Kameraleute, und umfasst Schlüsselphasen eines Filmproduktions-Workflows: (1) Die Ideenentwicklung verwandelt gesammelte Ideen in strukturierte Handlungsabläufe; (2) Das Drehbuch erweitert Dialoge und Charakterhandlungen für jede Szene; (3) Die Kamerakunst bestimmt die Kameraeinstellungen für jede Aufnahme. Ein Team von Agenten arbeitet durch iterative Rückmeldungen und Überarbeitungen zusammen, um Zwischenskripte zu überprüfen und Halluzinationen zu reduzieren. Wir bewerten die generierten Videos anhand von 15 Ideen und 4 Schlüsselaspekten. Die menschliche Bewertung zeigt, dass FilmAgent in allen Aspekten alle Baselines übertrifft und durchschnittlich 3,98 von 5 Punkten erreicht, was die Machbarkeit der Multi-Agenten-Kollaboration in der Filmproduktion zeigt. Eine weitere Analyse zeigt, dass FilmAgent trotz Verwendung des weniger fortschrittlichen GPT-4o-Modells den einzelnen Agenten o1 übertrifft und somit den Vorteil eines gut koordinierten Multi-Agenten-Systems zeigt. Abschließend diskutieren wir die ergänzenden Stärken und Schwächen von OpenAIs Text-zu-Video-Modell Sora und unserem FilmAgent in der Filmproduktion.
Große Sprachmodelle (LLMs) zeigen beeindruckende Leistungen, aber es fehlt ihnen die Flexibilität, sich schnell an menschliche Präferenzen anzupassen, ohne erneutes Training. In dieser Arbeit stellen wir Testzeit-Präferenzoptimierung (TPO) vor, ein Framework, das die Ausgaben von LLMs während der Inferenz mit menschlichen Präferenzen abgleicht, ohne dass eine Aktualisierung der Modellparameter erforderlich ist. Anstatt sich ausschließlich auf numerische Belohnungen zu verlassen, übersetzt TPO Belohnungssignale in textuelle Kritiken und verwendet sie als textuelle Belohnungen, um seine Antwort iterativ zu verfeinern. Evaluationen anhand von Benchmarks zu Anweisungsverfolgung, Präferenzabstimmung, Sicherheit und Mathematik zeigen, dass TPO die Ausrichtung auf menschliche Präferenzen kontinuierlich verbessert. Bemerkenswert ist, dass das zunächst nicht ausgerichtete Llama-3.1-70B-SFT-Modell nach nur wenigen TPO-Schritten das ausgerichtete Gegenstück, Llama-3.1-70B-Instruct, übertreffen kann. Darüber hinaus skaliert TPO effizient sowohl mit der Suchbreite als auch mit der Suchtiefe während der Inferenz. Anhand von Fallstudien zeigen wir, wie TPO die angeborene Fähigkeit von LLMs nutzt, Belohnungssignale zu interpretieren und darauf zu reagieren. Unsere Ergebnisse etablieren TPO als praktische, leichtgewichtige Alternative für die Optimierung von Präferenzen zur Testzeit und ermöglichen eine schnelle Ausrichtung. Unser Code ist öffentlich verfügbar unter https://github.com/yafuly/TPO.
Mixture-of-Experts (MoE) Modelle verwenden hauptsächlich einen Router, um Tokens spezifischen Expertenmodulen zuzuweisen, wodurch nur teilweise Parameter aktiviert werden und sie oft dicht besetzte Modelle übertreffen. Wir argumentieren, dass die Trennung zwischen der Entscheidungsfindung des Routers und der Ausführung der Experten ein kritisches, aber übersehenes Problem darstellt, das zu einer suboptimalen Expertenauswahl und ineffektivem Lernen führt. Um dies zu lösen, schlagen wir Autonomy-of-Experts (AoE) vor, ein neuartiges MoE-Paradigma, bei dem Experten sich autonom auswählen, um Eingaben zu verarbeiten. AoE basiert auf der Erkenntnis, dass ein Experte sich seiner eigenen Fähigkeit bewusst ist, ein Token effektiv zu verarbeiten, ein Bewusstsein, das sich im Ausmaß seiner internen Aktivierungen widerspiegelt. In AoE werden Router entfernt; stattdessen berechnen Experten interne Aktivierungen für Eingaben im Voraus und werden basierend auf ihren Aktivierungsnormen eingestuft. Nur die am besten eingestuften Experten setzen den Vorwärtspass fort, während die anderen abbrechen. Der Overhead der Vorab-Berechnung von Aktivierungen wird durch eine Faktorisierung von Gewichtsfaktoren mit niedrigem Rang reduziert. Dieser Ansatz des Selbstbewertens-und-Partner-Vergleichens gewährleistet eine verbesserte Expertenauswahl und effektives Lernen. Wir trainieren Sprachmodelle mit 700M bis zu 4B Parametern vor und zeigen, dass AoE traditionelle MoE-Modelle mit vergleichbarer Effizienz übertrifft.
In letzter Zeit übernehmen lang überlegte Schlussfolgerungs-LLMs, wie OpenAIs O1, erweiterte Schlussfolgerungsprozesse, die ähnlich sind wie die Art und Weise, wie Menschen über komplexe Probleme nachdenken. Dieses Schlussfolgerungsparadigma verbessert signifikant die Problemlösungsfähigkeiten des Modells und hat vielversprechende Ergebnisse erzielt. Allerdings führt der lang überlegte Schlussfolgerungsprozess zu einer erheblichen Zunahme der Inferenzzeit. Eine dringende Herausforderung besteht darin, den Inferenzaufwand von lang überlegten LLMs zu reduzieren, während die Genauigkeit gewährleistet wird. In diesem Papier zeigen wir experimentell, dass lang überlegte Schlussfolgerungsmodelle Schwierigkeiten haben, Token-Budgets basierend auf der Problemkomplexität und Schlussfolgerungsüberflüssigkeiten effektiv zuzuweisen. Um dies zu lösen, schlagen wir das Längen-Harmonisierungs-Finetuning (O1-Pruner) vor, das darauf abzielt, den Schlussfolgerungsaufwand zu minimieren, während die Genauigkeit beibehalten wird. Diese effektive Feinabstimmungsmethode schätzt zunächst die Baseline-Leistung des LLMs durch Vorabstichproben ab und verwendet dann ein RL-ähnliches Feintuning, um das Modell dazu zu ermutigen, kürzere Schlussfolgerungsprozesse unter Genauigkeitsbeschränkungen zu generieren. Dies ermöglicht es dem Modell, effiziente Schlussfolgerungen mit geringerer Redundanz zu erreichen, während die Genauigkeit beibehalten wird. Experimente an verschiedenen mathematischen Schlussfolgerungs-Benchmarks zeigen, dass O1-Pruner nicht nur den Inferenzaufwand signifikant reduziert, sondern auch eine höhere Genauigkeit erzielt und somit eine neuartige und vielversprechende Lösung für diese Herausforderung bietet. Unser Code wird bald unter https://github.com/StarDewXXX/O1-Pruner verfügbar sein.
Die Best-of-N (BoN)-Stichprobenziehung, eine gängige Strategie zur Skalierung von Large Language Models (LLMs) zur Testzeit, basiert auf Belohnungsmodellen, um die beste Kandidatenlösung aus mehreren Generationen auszuwählen. Traditionelle Belohnungsmodelle weisen jedoch oft willkürliche und inkonsistente Bewertungen auf, was ihre Wirksamkeit einschränkt. Um diesem Problem zu begegnen, schlagen wir ein Pairwise Reward Model (Pairwise RM) in Kombination mit einem Knockout-Turnier für BoN-Stichprobenziehung vor. Anstatt absolute Bewertungen zuzuweisen, bewertet Pairwise RM bei einem mathematischen Problem gleichzeitig die Korrektheit von zwei Kandidatenlösungen. Dieser Ansatz beseitigt die Notwendigkeit willkürlicher Bewertungen und ermöglicht die Kreuzvalidierung von Lösungen durch den parallelen Vergleich. Im Knockout-Turnier führt Pairwise RM paarweise Vergleiche zwischen Kandidatenlösungen durch und eliminiert iterativ die inkorrekten. Wir erstellen \ourdataset, einen groß angelegten Datensatz von 443K paarweisen Vergleichen, abgeleitet von NumiaMath und annotiert mit gemini-1.5-flash, und trainieren das Pairwise RM durch überwachtes Feintuning. Experimente mit MATH-500 und dem Olympiad Bench zeigen signifikante Verbesserungen gegenüber traditionellen diskriminativen Belohnungsmodellen. Eine 40\% bis 60\% relative Verbesserung wird bei den 50\% schwierigsten Problemen erzielt.
Die mehrblickige 3D-Rekonstruktion bleibt eine zentrale Herausforderung in der Computer Vision, insbesondere bei Anwendungen, die genaue und skalierbare Darstellungen aus verschiedenen Perspektiven erfordern. Aktuelle führende Methoden wie DUSt3R verwenden einen grundlegend paarweisen Ansatz, der Bilder paarweise verarbeitet und kostspielige globale Ausrichtungsverfahren erfordert, um aus mehreren Ansichten zu rekonstruieren. In dieser Arbeit schlagen wir Fast 3D Reconstruction (Fast3R) vor, eine neuartige mehrblickige Verallgemeinerung von DUSt3R, die durch die parallele Verarbeitung vieler Ansichten eine effiziente und skalierbare 3D-Rekonstruktion erreicht. Die auf Transformer basierende Architektur von Fast3R leitet N Bilder in einem einzigen Vorwärtspass weiter, ohne die Notwendigkeit iterativer Ausrichtung. Durch umfangreiche Experimente zur Kamerapositionsschätzung und 3D-Rekonstruktion zeigt Fast3R eine Leistung auf dem neuesten Stand der Technik mit signifikanten Verbesserungen in der Inferenzgeschwindigkeit und reduzierter Fehlerakkumulation. Diese Ergebnisse etablieren Fast3R als robuste Alternative für mehrblickige Anwendungen, die eine verbesserte Skalierbarkeit bietet, ohne die Rekonstruktionsgenauigkeit zu beeinträchtigen.
Große Sprachmodelle (LLMs) transformieren künstliche Intelligenz und entwickeln sich zu aufgabenorientierten Systemen, die in der Lage sind, autonom zu planen und auszuführen. Eine der Hauptanwendungen von LLMs sind dialogorientierte KI-Systeme, die mehrstufige Dialoge bewältigen, domänenspezifische APIs integrieren und strengen Richtlinien unterliegen müssen. Die Bewertung dieser Agenten bleibt jedoch eine bedeutende Herausforderung, da herkömmliche Methoden die Komplexität und Variabilität realer Interaktionen nicht erfassen können. Wir stellen IntellAgent vor, ein skalierbares, Open-Source-Multi-Agenten-Framework, das entwickelt wurde, um dialogorientierte KI-Systeme umfassend zu bewerten. IntellAgent automatisiert die Erstellung vielfältiger, synthetischer Benchmarks, indem es policygesteuertes Graphenmodellieren, realistische Ereignisgenerierung und interaktive Benutzer-Agenten-Simulationen kombiniert. Dieser innovative Ansatz bietet feingliedrige Diagnosen, um die Einschränkungen statischer und manuell kuratierter Benchmarks mit grobkörnigen Metriken zu bewältigen. IntellAgent stellt einen Paradigmenwechsel in der Bewertung dialogorientierter KI dar. Durch die Simulation realistischer, multipolitischer Szenarien mit unterschiedlichen Komplexitätsgraden erfasst IntellAgent das nuancierte Zusammenspiel von Agentenfähigkeiten und Richtlinienbeschränkungen. Im Gegensatz zu traditionellen Methoden verwendet es ein graphenbasiertes Richtlinienmodell, um Beziehungen, Wahrscheinlichkeiten und Komplexitäten von Richtlinieninteraktionen darzustellen und hochdetaillierte Diagnosen zu ermöglichen. IntellAgent identifiziert auch kritische Leistungslücken und bietet handlungsorientierte Einblicke zur gezielten Optimierung. Sein modulares, Open-Source-Design unterstützt eine nahtlose Integration neuer Domänen, Richtlinien und APIs, fördert die Reproduzierbarkeit und die Zusammenarbeit in der Gemeinschaft. Unsere Ergebnisse zeigen, dass IntellAgent ein effektives Framework zur Weiterentwicklung dialogorientierter KI darstellt, indem es Herausforderungen bei der Verbindung von Forschung und Bereitstellung angeht. Das Framework ist unter https://github.com/plurai-ai/intellagent verfügbar.