OpenTinker: Trennung der Belange im agentenbasierten bestärkenden Lernen
OpenTinker: Separating Concerns in Agentic Reinforcement Learning
January 12, 2026
papers.authors: Siqi Zhu, Jiaxuan You
cs.AI
papers.abstract
Wir stellen OpenTinker vor, eine Infrastruktur für Reinforcement Learning (RL) von Agenten auf Basis großer Sprachmodelle (LLM), die auf einer Trennung der Zuständigkeiten in den Bereichen Algorithmusdesign, Ausführung und Agenten-Umgebungs-Interaktion aufbaut. Anstatt auf monolithische, end-to-end RL-Pipelines zu setzen, zerlegt OpenTinker lernende agentenbasierte Systeme in leichtgewichtige, komponierbare Komponenten mit klar definierten Abstraktionsgrenzen. Benutzer definieren Agenten, Umgebungen und Interaktionsprotokolle, während Inferenz und Training einer verwalteten Laufzeitumgebung zur Ausführung delegiert werden. OpenTinker führt einen zentralen Scheduler ein, der Trainings- und Inferenz-Workloads – einschließlich RL auf LoRA-Basis und mit vollständigen Parametern, supervised Fine-Tuning und Inferenz – über gemeinsame Ressourcen verwaltet. Wir erörtern zudem Designprinzipien zur Erweiterung von OpenTinker für Multi-Agenten-Training. Abschließend präsentieren wir eine Reihe von RL-Anwendungsfällen, die die Wirksamkeit des Frameworks in praktischen agentenbasierten Lernszenarien demonstrieren.
English
We introduce OpenTinker, an infrastructure for reinforcement learning (RL) of large language model (LLM) agents built around a separation of concerns across algorithm design, execution, and agent-environment interaction. Rather than relying on monolithic, end-to-end RL pipelines, OpenTinker decomposes agentic learning systems into lightweight, composable components with clearly defined abstraction boundaries. Users specify agents, environments, and interaction protocols, while inference and training are delegated to a managed execution runtime. OpenTinker introduces a centralized scheduler for managing training and inference workloads, including LoRA-based and full-parameter RL, supervised fine-tuning, and inference, over shared resources. We further discuss design principles for extending OpenTinker to multi-agent training. Finally, we present a set of RL use cases that demonstrate the effectiveness of the framework in practical agentic learning scenarios.