OpenTinker : Séparation des préoccupations dans l'apprentissage par renforcement agentique
OpenTinker: Separating Concerns in Agentic Reinforcement Learning
January 12, 2026
papers.authors: Siqi Zhu, Jiaxuan You
cs.AI
papers.abstract
Nous présentons OpenTinker, une infrastructure destinée à l'apprentissage par renforcement (RL) d'agents basés sur des grands modèles de langage (LLM), conçue autour d'une séparation des préoccupations entre la conception algorithmique, l'exécution et l'interaction agent-environnement. Plutôt que de s'appuyer sur des pipelines RL monolithiques de bout en bout, OpenTinker décompose les systèmes d'apprentissage agentiels en composants légers et assemblables, dotés de frontières d'abstraction clairement définies. Les utilisateurs spécifient les agents, les environnements et les protocoles d'interaction, tandis que l'inférence et l'entraînement sont délégués à un moteur d'exécution managé. OpenTinker introduit un ordonnanceur centralisé pour gérer les charges de travail d'entraînement et d'inférence, incluant le RL basé sur LoRA et à paramètres complets, le fine-tuning supervisé et l'inférence, sur des ressources partagées. Nous discutons en outre des principes de conception pour étendre OpenTinker à l'entraînement multi-agents. Enfin, nous présentons un ensemble de cas d'usage en RL qui démontrent l'efficacité du cadre dans des scénarios pratiques d'apprentissage agentiel.
English
We introduce OpenTinker, an infrastructure for reinforcement learning (RL) of large language model (LLM) agents built around a separation of concerns across algorithm design, execution, and agent-environment interaction. Rather than relying on monolithic, end-to-end RL pipelines, OpenTinker decomposes agentic learning systems into lightweight, composable components with clearly defined abstraction boundaries. Users specify agents, environments, and interaction protocols, while inference and training are delegated to a managed execution runtime. OpenTinker introduces a centralized scheduler for managing training and inference workloads, including LoRA-based and full-parameter RL, supervised fine-tuning, and inference, over shared resources. We further discuss design principles for extending OpenTinker to multi-agent training. Finally, we present a set of RL use cases that demonstrate the effectiveness of the framework in practical agentic learning scenarios.