OpenTinker: Separando Preocupações no Aprendizado por Reforço Agente

Resumo

Apresentamos o OpenTinker, uma infraestrutura para aprendizagem por reforço (RL) de agentes baseados em grandes modelos de linguagem (LLM) construída em torno de uma separação de preocupações entre o projeto de algoritmos, a execução e a interação agente-ambiente. Em vez de depender de *pipelines* monolíticos e de fim a fim para RL, o OpenTinker decompõe sistemas de aprendizagem agentiva em componentes leves, combináveis e com limites de abstração claramente definidos. Os utilizadores especificam agentes, ambientes e protocolos de interação, enquanto a inferência e o treino são delegados a um *runtime* de execução gerido. O OpenTinker introduz um *scheduler* centralizado para gerir cargas de trabalho de treino e inferência, incluindo RL baseado em LoRA e de parâmetros completos, afinação supervisionada e inferência, sobre recursos partilhados. Discutimos ainda princípios de design para estender o OpenTinker ao treino multiagente. Por fim, apresentamos um conjunto de casos de uso de RL que demonstram a eficácia da estrutura em cenários práticos de aprendizagem agentiva.

English

We introduce OpenTinker, an infrastructure for reinforcement learning (RL) of large language model (LLM) agents built around a separation of concerns across algorithm design, execution, and agent-environment interaction. Rather than relying on monolithic, end-to-end RL pipelines, OpenTinker decomposes agentic learning systems into lightweight, composable components with clearly defined abstraction boundaries. Users specify agents, environments, and interaction protocols, while inference and training are delegated to a managed execution runtime. OpenTinker introduces a centralized scheduler for managing training and inference workloads, including LoRA-based and full-parameter RL, supervised fine-tuning, and inference, over shared resources. We further discuss design principles for extending OpenTinker to multi-agent training. Finally, we present a set of RL use cases that demonstrate the effectiveness of the framework in practical agentic learning scenarios.

OpenTinker: Separando Preocupações no Aprendizado por Reforço Agente

OpenTinker: Separating Concerns in Agentic Reinforcement Learning

Resumo

Support