papers.description
In diesem Beitrag geben wir einen Überblick über die jüngsten Fortschritte im Bereich des Reinforcement Learning (RL) für das Schließen mit Large Language Models (LLMs). RL hat bemerkenswerte Erfolge bei der Erweiterung der Fähigkeiten von LLMs erzielt, insbesondere bei der Bewältigung komplexer logischer Aufgaben wie Mathematik und Programmierung. Infolgedessen hat sich RL als grundlegende Methodik etabliert, um LLMs in LRMs zu transformieren. Mit dem rasanten Fortschritt des Feldes stehen die weitere Skalierung von RL für LRMs nun vor grundlegenden Herausforderungen, nicht nur in Bezug auf Rechenressourcen, sondern auch in Bezug auf Algorithmendesign, Trainingsdaten und Infrastruktur. Daher ist es an der Zeit, die Entwicklung dieses Bereichs erneut zu betrachten, seine Entwicklung zu bewerten und Strategien zu erkunden, um die Skalierbarkeit von RL hin zu künstlicher Superintelligenz (ASI) zu verbessern. Insbesondere untersuchen wir Forschungen, die RL auf LLMs und LRMs für Schließfähigkeiten anwenden, insbesondere seit der Veröffentlichung von DeepSeek-R1, einschließlich grundlegender Komponenten, Kernprobleme, Trainingsressourcen und nachgelagerter Anwendungen, um zukünftige Chancen und Richtungen für dieses sich schnell entwickelnde Gebiet zu identifizieren. Wir hoffen, dass diese Übersicht zukünftige Forschungen zu RL für breitere Schließmodelle fördern wird. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
Reward-Modelle (RMs) sind entscheidend für die Verbesserung von Generierungsmodellen durch Reinforcement Learning (RL), doch das Skalierungsparadigma für RMs in der visuellen Generierung bleibt weitgehend unerforscht. Dies liegt hauptsächlich an grundlegenden Einschränkungen bestehender Ansätze: CLIP-basierte RMs leiden unter architektonischen und Eingabemodalitätsbeschränkungen, während verbreitete Bradley-Terry-Verlustfunktionen grundlegend nicht mit dem Next-Token-Predictions-Mechanismus von Vision-Language-Modellen (VLMs) übereinstimmen, was eine effektive Skalierung behindert. Noch kritischer ist, dass der RLHF-Optimierungsprozess von dem Problem des Reward Hackings geplagt wird, bei dem Modelle Schwächen im Belohnungssignal ausnutzen, ohne die tatsächliche Qualität zu verbessern. Um diese Herausforderungen zu bewältigen, führen wir RewardDance ein, ein skalierbares Belohnungsmodellierungs-Framework, das diese Barrieren durch ein neuartiges generatives Belohnungsparadigma überwindet. Indem der Belohnungswert als die Wahrscheinlichkeit des Modells reformuliert wird, ein „Ja“-Token vorherzusagen, das anzeigt, dass das generierte Bild ein Referenzbild gemäß spezifischer Kriterien übertrifft, aligniert RewardDance die Belohnungsziele intrinsisch mit VLM-Architekturen. Diese Ausrichtung ermöglicht die Skalierung in zwei Dimensionen: (1) Modellskalierung: Systematische Skalierung von RMs bis zu 26 Milliarden Parametern; (2) Kontextskalierung: Integration von aufgaben-spezifischen Anweisungen, Referenzbeispielen und Chain-of-Thought (CoT)-Argumentation. Umfangreiche Experimente zeigen, dass RewardDance state-of-the-art-Methoden in der Text-zu-Bild-, Text-zu-Video- und Bild-zu-Video-Generierung deutlich übertrifft. Entscheidend ist, dass wir das anhaltende Problem des „Reward Hackings“ lösen: Unsere großskaligen RMs zeigen und erhalten während des RL-Fine-Tunings eine hohe Belohnungsvarianz, was ihre Resistenz gegen Hacking und ihre Fähigkeit zur Erzeugung vielfältiger, hochwertiger Ergebnisse beweist. Dies lindert das Problem des Modus-Zusammenbruchs erheblich, das kleinere Modelle plagt.
Die Modellierung von Welten hat sich zu einem Eckpfeiler der KI-Forschung entwickelt, der es Agenten ermöglicht, die dynamischen Umgebungen, in denen sie agieren, zu verstehen, darzustellen und vorherzusagen. Während frühere Arbeiten sich weitgehend auf generative Methoden für 2D-Bild- und Videodaten konzentrierten, übersehen sie die zunehmend wachsende Anzahl von Ansätzen, die native 3D- und 4D-Repräsentationen wie RGB-D-Bilder, Belegungsraster und LiDAR-Punktwolken für die großflächige Szenenmodellierung nutzen. Gleichzeitig hat das Fehlen einer standardisierten Definition und Taxonomie für „Weltmodelle“ zu fragmentierten und teilweise inkonsistenten Aussagen in der Literatur geführt. Diese Übersichtsarbeit schließt diese Lücken, indem sie die erste umfassende Überprüfung vorstellt, die explizit der 3D- und 4D-Weltmodellierung und -generierung gewidmet ist. Wir etablieren präzise Definitionen, führen eine strukturierte Taxonomie ein, die videobasierte (VideoGen), belegungsbasierte (OccGen) und LiDAR-basierte (LiDARGen) Ansätze umfasst, und fassen systematisch Datensätze und Bewertungsmetriken zusammen, die auf 3D/4D-Szenarien zugeschnitten sind. Darüber hinaus diskutieren wir praktische Anwendungen, identifizieren offene Herausforderungen und heben vielversprechende Forschungsrichtungen hervor, mit dem Ziel, eine kohärente und grundlegende Referenz für die Weiterentwicklung des Feldes zu bieten. Eine systematische Zusammenfassung der bestehenden Literatur ist unter https://github.com/worldbench/survey verfügbar.
Die Entwicklung autonomer LLM-Agenten, die in der Lage sind, eine Reihe intelligenter Entscheidungen zu treffen, um komplexe, realweltliche Aufgaben zu lösen, ist eine sich schnell entwickelnde Forschungsfront. Ähnlich wie die kognitive Entwicklung beim Menschen wird erwartet, dass Agenten Wissen und Fähigkeiten durch Exploration und Interaktion mit der Umwelt erwerben. Trotz Fortschritten fehlt der Gemeinschaft noch ein einheitliches, interaktives Reinforcement-Learning (RL)-Framework, das solche Agenten effektiv von Grund auf – ohne auf überwachtes Fein-Tuning (SFT) angewiesen zu sein – in diversen und realistischen Umgebungen trainieren kann. Um diese Lücke zu schließen, stellen wir AgentGym-RL vor, ein neues Framework zur Ausbildung von LLM-Agenten für mehrstufige interaktive Entscheidungsfindung durch RL. Das Framework zeichnet sich durch eine modulare und entkoppelte Architektur aus, die hohe Flexibilität und Erweiterbarkeit gewährleistet. Es umfasst eine Vielzahl realweltlicher Szenarien und unterstützt gängige RL-Algorithmen. Darüber hinaus schlagen wir ScalingInter-RL vor, einen Trainingsansatz, der auf die Balance zwischen Exploration und Exploitation sowie auf stabile RL-Optimierung abzielt. In frühen Phasen betont er die Exploitation durch die Beschränkung der Anzahl von Interaktionen und geht schrittweise zu einer stärkeren Exploration mit größeren Horizonten über, um vielfältige Problemlösungsstrategien zu fördern. Auf diese Weise entwickelt der Agent diversere Verhaltensweisen und ist weniger anfällig für Zusammenbrüche bei langen Horizonten. Wir führen umfangreiche Experimente durch, um die Stabilität und Effektivität sowohl des AgentGym-RL-Frameworks als auch des ScalingInter-RL-Ansatzes zu validieren. Unsere Agenten erreichen oder übertreffen kommerzielle Modelle in 27 Aufgaben über verschiedene Umgebungen hinweg. Wir bieten wichtige Einblicke und werden das vollständige AgentGym-RL-Framework – einschließlich Code und Datensätzen – als Open Source bereitstellen, um die Forschungsgemeinschaft bei der Entwicklung der nächsten Generation intelligenter Agenten zu unterstützen.
Die Segmentierung von 3D-Assets in ihre Bestandteile ist entscheidend, um das Verständnis von 3D zu verbessern, die Wiederverwendung von Modellen zu erleichtern und verschiedene Anwendungen wie die Teilegenerierung zu unterstützen. Aktuelle Methoden stoßen jedoch an Grenzen, wie mangelnde Robustheit bei der Verarbeitung komplexer Objekte und die Unfähigkeit, den Prozess vollständig zu automatisieren. In diesem Artikel stellen wir ein natives 3D-Punkt-promptbares Segmentierungsmodell namens P3-SAM vor, das entwickelt wurde, um die Segmentierung beliebiger 3D-Objekte in Komponenten vollständig zu automatisieren. Inspiriert von SAM besteht P3-SAM aus einem Feature-Extraktor, mehreren Segmentierungsköpfen und einem IoU-Prädiktor, was eine interaktive Segmentierung für Benutzer ermöglicht. Wir schlagen auch einen Algorithmus vor, um automatisch Masken auszuwählen und zu fusionieren, die von unserem Modell für die Instanzsegmentierung von Teilen vorhergesagt werden. Unser Modell wird auf einem neu erstellten Datensatz trainiert, der nahezu 3,7 Millionen Modelle mit sinnvollen Segmentierungsetiketten enthält. Vergleiche zeigen, dass unsere Methode präzise Segmentierungsergebnisse und eine starke Robustheit bei beliebigen komplexen Objekten erzielt und damit state-of-the-art Leistung erreicht. Unser Code wird in Kürze veröffentlicht.
In diesem Bericht stellen wir Hunyuan-MT-7B vor, unser erstes Open-Source-Modell für mehrsprachige Übersetzung, das bidirektionale Übersetzungen über 33 Hauptsprachen hinweg unterstützt und dabei einen besonderen Schwerpunkt auf die Übersetzung zwischen Mandarin und mehreren ethnischen Minderheitensprachen sowie Dialekten legt. Darüber hinaus führen wir, um verschiedene Übersetzungsszenarien zu bedienen und die Modellleistung zur Testzeit zu verbessern, Hunyuan-MT-Chimera-7B ein, ein Übersetzungsmodell, das vom langsamen Denkmodus inspiriert ist. Dieses Modell integriert mehrere Ausgaben, die vom Hunyuan-MT-7B-Modell unter verschiedenen Parametereinstellungen generiert werden, und erreicht dadurch eine Leistung, die der von konventionellen langsamen Denkmodellen basierend auf Chain-of-Thought (CoT) überlegen ist. Die Entwicklung unserer Modelle folgt einem ganzheitlichen Trainingsprozess, der speziell für mehrsprachige Übersetzungen entwickelt wurde. Dieser beginnt mit allgemeinem und MT-orientiertem Pre-Training, um grundlegende Fähigkeiten aufzubauen, geht über Supervised Fine-Tuning (SFT) zur Aufgabenanpassung und gipfelt in einer fortgeschrittenen Ausrichtung durch Reinforcement Learning (RL) und Weak-to-Strong RL. Durch umfangreiche Experimente zeigen wir, dass sowohl Hunyuan-MT-7B als auch Hunyuan-MT-Chimera-7B alle übersetzungsspezifischen Modelle vergleichbarer Parametergröße und die meisten der SOTA-Großmodelle deutlich übertreffen, insbesondere bei der Übersetzung zwischen Mandarin und Minderheitensprachen sowie Dialekten. In der WMT2025 Shared Task (General Machine Translation) demonstrieren unsere Modelle state-of-the-art-Leistungen und belegen den ersten Platz in 30 von 31 Sprachpaaren. Dieses Ergebnis unterstreicht die Robustheit unserer Modelle über ein breites linguistisches Spektrum hinweg, das sowohl Hochressourcensprachen wie Chinesisch, Englisch und Japanisch als auch Niedrigressourcensprachen wie Tschechisch, Marathi, Estnisch und Isländisch umfasst.
Moderne Large Language Models (LLMs) sind hervorragend darin, synthetische Daten zu generieren. Ihre Leistung in sensiblen Bereichen wie der Textdetoxifizierung hat jedoch nicht die angemessene Aufmerksamkeit der wissenschaftlichen Gemeinschaft erhalten. Diese Arbeit untersucht die Möglichkeit, LLM-generierte synthetische toxische Daten als Alternative zu menschlich generierten Daten für das Training von Modellen zur Detoxifizierung zu verwenden. Mit Llama 3 und Qwen-Aktivierungsmodellen generierten wir synthetische toxische Gegenstücke zu neutralen Texten aus den Datensätzen ParaDetox und SST-2. Unsere Experimente zeigen, dass Modelle, die auf synthetischen Daten feinabgestimmt wurden, durchweg schlechter abschneiden als solche, die auf menschlichen Daten trainiert wurden, mit einem Leistungsabfall von bis zu 30 % in gemeinsamen Metriken. Die Ursache wird als eine kritische Lücke in der lexikalischen Vielfalt identifiziert: LLMs generieren toxische Inhalte mit einem kleinen, sich wiederholenden Vokabular von Beleidigungen, das die Nuancen und die Vielfalt menschlicher Toxizität nicht erfassen kann. Diese Ergebnisse unterstreichen die Grenzen aktueller LLMs in diesem Bereich und betonen die anhaltende Bedeutung von diversen, menschlich annotierten Daten für den Aufbau robuster Detoxifizierungssysteme.
Generative Künstliche Intelligenz entwickelt sich zu einer wichtigen Technologie, die das Potenzial hat, in vielen Bereichen transformative Auswirkungen zu haben. Gleichzeitig basieren generative KI-Techniken auf dem Sampling aus probabilistischen Modellen und bieten standardmäßig keine Garantien für Korrektheit, Sicherheit, Fairness oder andere Eigenschaften. Statistische Methoden bieten einen vielversprechenden Ansatz, um die Zuverlässigkeit generativer KI-Techniken zu verbessern. Darüber hinaus sind statistische Methoden auch vielversprechend für die Verbesserung der Qualität und Effizienz der KI-Evaluierung sowie für die Gestaltung von Interventionen und Experimenten in der KI. In diesem Artikel geben wir einen Überblick über einige der bestehenden Arbeiten zu diesen Themen, wobei wir sowohl die allgemeinen statistischen Techniken als auch ihre Anwendungen auf generative KI erläutern. Wir diskutieren außerdem Grenzen und potenzielle zukünftige Richtungen.
Die Skalierung der Rechenleistung zur Testzeit durch die Generierung mehrerer unabhängiger Lösungen und deren Auswahl oder Aggregation hat sich zu einem zentralen Paradigma für die Verbesserung großer Sprachmodelle (LLMs) bei anspruchsvollen Denkaufgaben entwickelt. Während sich die meisten bisherigen Arbeiten auf einfache Mehrheitsabstimmungen oder die Bewertung durch Belohnungsmodelle zur Aggregation von Lösungen stützen, können diese Ansätze nur begrenzte Vorteile bieten. In dieser Arbeit schlagen wir vor, die Aggregation als explizite Denkfähigkeit zu erlernen: Gegeben eine Menge von Kandidatenlösungen, trainieren wir ein Aggregatormodell, um eine endgültige, korrekte Antwort durch Überprüfung, Abstimmung und Synthese mithilfe von Verstärkungslernen aus überprüfbaren Belohnungen zu erzeugen. Ein Schlüsselelement ist die sorgfältige Balance zwischen einfachen und schwierigen Trainingsbeispielen, wodurch das Modell sowohl lernen kann, Minderheits- aber korrekte Antworten wiederzugewinnen, als auch einfache Mehrheits-korrekte Antworten. Empirisch zeigt sich, dass unsere Methode, AggLM, sowohl regelbasierte als auch belohnungsmodellbasierte Vergleichsverfahren in mehreren Benchmarks übertrifft. Darüber hinaus verallgemeinert sie effektiv auf Lösungen unterschiedlicher Modelle, einschließlich solcher, die stärker sind als die in den Trainingsdaten enthaltenen, und benötigt dabei deutlich weniger Tokens als Mehrheitsabstimmungen mit einer größeren Anzahl von Lösungen.
Die weit verbreitete Verfügbarkeit von Open-Source-Repositories hat zu einer umfangreichen Sammlung wiederverwendbarer Softwarekomponenten geführt, doch ihre Nutzung bleibt manuell, fehleranfällig und fragmentiert. Entwickler müssen Dokumentation durchforsten, APIs verstehen und Integrationscode schreiben, was erhebliche Hindernisse für eine effiziente Softwarewiederverwendung schafft. Um dies zu adressieren, präsentieren wir EnvX, ein Framework, das Agentic AI nutzt, um GitHub-Repositories zu agentisieren und sie in intelligente, autonome Agenten zu verwandeln, die in der Lage sind, natürliche Sprache zu verarbeiten und mit anderen Agenten zu kollaborieren. Im Gegensatz zu bestehenden Ansätzen, die Repositories als statische Code-Ressourcen behandeln, reimaginiert EnvX sie als aktive Agenten durch einen dreiphasigen Prozess: (1) TODO-gesteuerte Umgebungsinitialisierung, die die notwendigen Abhängigkeiten, Daten und Validierungsdatensätze einrichtet; (2) menschlich ausgerichtete agentische Automatisierung, die repositoriespezifischen Agenten ermöglicht, reale Aufgaben autonom auszuführen; und (3) Agent-to-Agent (A2A)-Protokoll, das die Zusammenarbeit mehrerer Agenten ermöglicht. Durch die Kombination der Fähigkeiten großer Sprachmodelle mit strukturierter Tool-Integration automatisiert EnvX nicht nur die Code-Generierung, sondern den gesamten Prozess des Verstehens, Initialisierens und Operationalisierens von Repository-Funktionalitäten. Wir evaluieren EnvX auf dem GitTaskBench-Benchmark, wobei wir 18 Repositories aus Bereichen wie Bildverarbeitung, Spracherkennung, Dokumentenanalyse und Videomanipulation verwenden. Unsere Ergebnisse zeigen, dass EnvX eine Ausführungsabschlussrate von 74,07 % und eine Aufgabenbestehungsrate von 51,85 % erreicht, was bestehende Frameworks übertrifft. Fallstudien demonstrieren weiterhin die Fähigkeit von EnvX, die Zusammenarbeit über mehrere Repositories mittels des A2A-Protokolls zu ermöglichen. Diese Arbeit markiert einen Wandel von der Behandlung von Repositories als passive Code-Ressourcen hin zu intelligenten, interaktiven Agenten, die eine größere Zugänglichkeit und Zusammenarbeit innerhalb des Open-Source-Ökosystems fördern.
Da Menschen zunehmend Aufgaben und Entscheidungen an künstliche Intelligenz (KI) delegieren, besteht die Gefahr, dass wir die Kontrolle über unsere individuellen und kollektiven Zukünfte verlieren. Relativ einfache algorithmische Systeme lenken bereits heute menschliche Entscheidungsprozesse, wie beispielsweise Social-Media-Feed-Algorithmen, die Nutzer dazu verleiten, unbewusst und gedankenlos durch engagement-optimierte Inhalte zu scrollen. In diesem Artikel entwickeln wir das Konzept der menschlichen Handlungsfähigkeit, indem wir philosophische und wissenschaftliche Theorien der Handlungsfähigkeit mit KI-gestützten Evaluationsmethoden verbinden: Wir nutzen große Sprachmodelle (LLMs), um Benutzeranfragen zu simulieren und zu validieren sowie KI-Antworten zu bewerten. Wir entwickeln HumanAgencyBench (HAB), einen skalierbaren und adaptiven Benchmark mit sechs Dimensionen menschlicher Handlungsfähigkeit, basierend auf typischen KI-Anwendungsfällen. HAB misst die Tendenz eines KI-Assistenten oder -Agenten, Klärende Fragen zu stellen, Wertemanipulation zu vermeiden, Fehlinformationen zu korrigieren, wichtige Entscheidungen zurückzustellen, Lernen zu fördern und soziale Grenzen zu wahren. Wir stellen fest, dass zeitgenössische LLM-basierte Assistenten nur geringe bis moderate Unterstützung der Handlungsfähigkeit bieten, mit erheblichen Unterschieden zwischen Systementwicklern und Dimensionen. Beispielsweise unterstützen Anthropic-LLMs die menschliche Handlungsfähigkeit insgesamt am stärksten, sind jedoch die am wenigsten unterstützenden LLMs in Bezug auf die Vermeidung von Wertemanipulation. Die Unterstützung der Handlungsfähigkeit scheint nicht konsistent aus der Steigerung der Fähigkeiten von LLMs oder dem Befolgen von Anweisungen (z. B. RLHF) zu resultieren, und wir regen eine Hinwendung zu robusteren Sicherheits- und Ausrichtungszielen an.