LADDER: Selbstverbessernde LLMs durch rekursive Problemzerlegung
LADDER: Self-Improving LLMs Through Recursive Problem Decomposition
March 2, 2025
Autoren: Toby Simonds, Akira Yoshiyama
cs.AI
Zusammenfassung
Wir stellen LADDER (Learning through Autonomous Difficulty-Driven Example Recursion) vor, ein Framework, das es großen Sprachmodellen ermöglicht, ihre Problemlösungsfähigkeiten autonom durch selbstgesteuertes Lernen zu verbessern, indem sie rekursiv zunehmend einfachere Varianten komplexer Probleme generieren und lösen. Im Gegensatz zu früheren Ansätzen, die kuratierte Datensätze oder menschliches Feedback erfordern, nutzt LADDER die eigenen Fähigkeiten eines Modells, um einfachere Fragenvarianten zu generieren. Wir demonstrieren die Wirksamkeit von LADDER im Bereich der mathematischen Integration, indem wir die Genauigkeit von Llama 3.2 3B bei Problemen auf Undergraduate-Niveau von 1 % auf 82 % steigern und Qwen2.5 7B Deepseek-R1 Distilled ermöglichen, 73 % im Qualifikationsexamen des MIT Integration Bee zu erreichen. Wir führen außerdem TTRL (Test-Time Reinforcement Learning) ein, bei dem wir Verstärkungslernen an Varianten von Testproblemen zur Inferenzzeit durchführen. TTRL ermöglicht es Qwen2.5 7B Deepseek-R1 Distilled, einen Spitzenwert von 90 % im Qualifikationsexamen des MIT Integration Bee zu erreichen und damit die Leistung von OpenAI o1 zu übertreffen. Diese Ergebnisse zeigen, wie selbstgesteuertes strategisches Lernen signifikante Fähigkeitsverbesserungen erreichen kann, ohne auf architektonische Skalierung oder menschliche Aufsicht angewiesen zu sein.
English
We introduce LADDER (Learning through Autonomous Difficulty-Driven Example
Recursion), a framework which enables Large Language Models to autonomously
improve their problem-solving capabilities through self-guided learning by
recursively generating and solving progressively simpler variants of complex
problems. Unlike prior approaches that require curated datasets or human
feedback, LADDER leverages a model's own capabilities to generate easier
question variants. We demonstrate LADDER's effectiveness in the subject of
mathematical integration, improving Llama 3.2 3B's accuracy from 1% to 82% on
undergraduate-level problems and enabling Qwen2.5 7B Deepseek-R1 Distilled to
achieve 73% on the MIT Integration Bee qualifying examination. We also
introduce TTRL (Test-Time Reinforcement Learning), where we perform
reinforcement learning on variants of test problems at inference time. TTRL
enables Qwen2.5 7B Deepseek-R1 Distilled to achieve a state-of-the-art score of
90% on the MIT Integration Bee qualifying examination, surpassing OpenAI o1's
performance. These results show how self-directed strategic learning can
achieve significant capability improvements without relying on architectural
scaling or human supervision.Summary
AI-Generated Summary