ChatPaper.aiChatPaper

LADDER: Selbstverbessernde LLMs durch rekursive Problemzerlegung

LADDER: Self-Improving LLMs Through Recursive Problem Decomposition

March 2, 2025
Autoren: Toby Simonds, Akira Yoshiyama
cs.AI

Zusammenfassung

Wir stellen LADDER (Learning through Autonomous Difficulty-Driven Example Recursion) vor, ein Framework, das es großen Sprachmodellen ermöglicht, ihre Problemlösungsfähigkeiten autonom durch selbstgesteuertes Lernen zu verbessern, indem sie rekursiv zunehmend einfachere Varianten komplexer Probleme generieren und lösen. Im Gegensatz zu früheren Ansätzen, die kuratierte Datensätze oder menschliches Feedback erfordern, nutzt LADDER die eigenen Fähigkeiten eines Modells, um einfachere Fragenvarianten zu generieren. Wir demonstrieren die Wirksamkeit von LADDER im Bereich der mathematischen Integration, indem wir die Genauigkeit von Llama 3.2 3B bei Problemen auf Undergraduate-Niveau von 1 % auf 82 % steigern und Qwen2.5 7B Deepseek-R1 Distilled ermöglichen, 73 % im Qualifikationsexamen des MIT Integration Bee zu erreichen. Wir führen außerdem TTRL (Test-Time Reinforcement Learning) ein, bei dem wir Verstärkungslernen an Varianten von Testproblemen zur Inferenzzeit durchführen. TTRL ermöglicht es Qwen2.5 7B Deepseek-R1 Distilled, einen Spitzenwert von 90 % im Qualifikationsexamen des MIT Integration Bee zu erreichen und damit die Leistung von OpenAI o1 zu übertreffen. Diese Ergebnisse zeigen, wie selbstgesteuertes strategisches Lernen signifikante Fähigkeitsverbesserungen erreichen kann, ohne auf architektonische Skalierung oder menschliche Aufsicht angewiesen zu sein.
English
We introduce LADDER (Learning through Autonomous Difficulty-Driven Example Recursion), a framework which enables Large Language Models to autonomously improve their problem-solving capabilities through self-guided learning by recursively generating and solving progressively simpler variants of complex problems. Unlike prior approaches that require curated datasets or human feedback, LADDER leverages a model's own capabilities to generate easier question variants. We demonstrate LADDER's effectiveness in the subject of mathematical integration, improving Llama 3.2 3B's accuracy from 1% to 82% on undergraduate-level problems and enabling Qwen2.5 7B Deepseek-R1 Distilled to achieve 73% on the MIT Integration Bee qualifying examination. We also introduce TTRL (Test-Time Reinforcement Learning), where we perform reinforcement learning on variants of test problems at inference time. TTRL enables Qwen2.5 7B Deepseek-R1 Distilled to achieve a state-of-the-art score of 90% on the MIT Integration Bee qualifying examination, surpassing OpenAI o1's performance. These results show how self-directed strategic learning can achieve significant capability improvements without relying on architectural scaling or human supervision.

Summary

AI-Generated Summary

PDF212March 5, 2025