OpenTinker: Scheiding van Belangen in Agent-gebaseerd Reinforcement Learning
OpenTinker: Separating Concerns in Agentic Reinforcement Learning
January 12, 2026
Auteurs: Siqi Zhu, Jiaxuan You
cs.AI
Samenvatting
Wij introduceren OpenTinker, een infrastructuur voor reinforcement learning (RL) van large language model (LLM)-agenten, gebaseerd op een scheiding der verantwoordelijkheden op het gebied van algoritme-ontwerp, uitvoering en agent-omgeving-interactie. In plaats van te vertrouwen op monolithische, end-to-end RL-pipelines, deconstrueert OpenTinker agent-leersystemen in lichtgewicht, samenstelbare componenten met duidelijk gedefinieerde abstractiegrenzen. Gebruikers specificeren agenten, omgevingen en interactieprotocollen, terwijl inferentie en training worden gedelegeerd aan een beheerde uitvoeringsruntime. OpenTinker introduceert een centrale scheduler voor het beheren van trainings- en inferentiewerkbelastingen, waaronder LoRA-gebaseerde en volledige-parameter RL, supervised fine-tuning en inferentie, over gedeelde bronnen. Wij bespreken verder ontwerp-principes voor het uitbreiden van OpenTinker naar multi-agent training. Ten slotte presenteren wij een reeks RL-use-cases die de effectiviteit van het framework in praktische agent-leerscenario's aantonen.
English
We introduce OpenTinker, an infrastructure for reinforcement learning (RL) of large language model (LLM) agents built around a separation of concerns across algorithm design, execution, and agent-environment interaction. Rather than relying on monolithic, end-to-end RL pipelines, OpenTinker decomposes agentic learning systems into lightweight, composable components with clearly defined abstraction boundaries. Users specify agents, environments, and interaction protocols, while inference and training are delegated to a managed execution runtime. OpenTinker introduces a centralized scheduler for managing training and inference workloads, including LoRA-based and full-parameter RL, supervised fine-tuning, and inference, over shared resources. We further discuss design principles for extending OpenTinker to multi-agent training. Finally, we present a set of RL use cases that demonstrate the effectiveness of the framework in practical agentic learning scenarios.