OpenTinker: Separación de Responsabilidades en el Aprendizaje por Refuerzo Agéntico
OpenTinker: Separating Concerns in Agentic Reinforcement Learning
January 12, 2026
Autores: Siqi Zhu, Jiaxuan You
cs.AI
Resumen
Presentamos OpenTinker, una infraestructura para el aprendizaje por refuerzo (RL) de agentes basados en modelos de lenguaje grandes (LLM) que se estructura en torno a una separación de responsabilidades en el diseño de algoritmos, la ejecución y la interacción agente-entorno. En lugar de depender de pipelines monolíticos de RL de extremo a extremo, OpenTinker descompone los sistemas de aprendizaje agentivo en componentes ligeros y componibles con límites de abstracción claramente definidos. Los usuarios especifican agentes, entornos y protocolos de interacción, mientras que la inferencia y el entrenamiento se delegan a un entorno de ejecución gestionado. OpenTinker introduce un planificador centralizado para gestionar cargas de trabajo de entrenamiento e inferencia, incluyendo RL basado en LoRA y de parámetros completos, ajuste fino supervisado e inferencia, sobre recursos compartidos. Además, discutimos los principios de diseño para extender OpenTinker al entrenamiento multiagente. Finalmente, presentamos un conjunto de casos de uso de RL que demuestran la efectividad del marco en escenarios prácticos de aprendizaje agentivo.
English
We introduce OpenTinker, an infrastructure for reinforcement learning (RL) of large language model (LLM) agents built around a separation of concerns across algorithm design, execution, and agent-environment interaction. Rather than relying on monolithic, end-to-end RL pipelines, OpenTinker decomposes agentic learning systems into lightweight, composable components with clearly defined abstraction boundaries. Users specify agents, environments, and interaction protocols, while inference and training are delegated to a managed execution runtime. OpenTinker introduces a centralized scheduler for managing training and inference workloads, including LoRA-based and full-parameter RL, supervised fine-tuning, and inference, over shared resources. We further discuss design principles for extending OpenTinker to multi-agent training. Finally, we present a set of RL use cases that demonstrate the effectiveness of the framework in practical agentic learning scenarios.