OpenTinker: Separazione delle Responsabilità nell'Apprendimento per Rinforzo Agente

Abstract

Presentiamo OpenTinker, un'infrastruttura per l'apprendimento per rinforzo (RL) di agenti basati su grandi modelli linguistici (LLM) costruita attorno a una separazione delle competenze tra progettazione algoritmica, esecuzione e interazione agente-ambiente. Invece di basarsi su pipeline RL monolitiche e end-to-end, OpenTinker scompone i sistemi di apprendimento agentistico in componenti leggeri e componibili con confini di astrazione chiaramente definiti. Gli utenti specificano agenti, ambienti e protocolli di interazione, mentre l'inferenza e l'addestramento sono delegati a un runtime di esecuzione gestito. OpenTinker introduce uno scheduler centralizzato per gestire i carichi di lavoro di addestramento e inferenza, inclusi RL basato su LoRA e a parametri interi, fine-tuning supervisionato e inferenza, su risorse condivise. Discutiamo inoltre i principi di progettazione per estendere OpenTinker all'addestramento multi-agente. Infine, presentiamo una serie di casi d'uso RL che dimostrano l'efficacia del framework in scenari pratici di apprendimento agentistico.

English

We introduce OpenTinker, an infrastructure for reinforcement learning (RL) of large language model (LLM) agents built around a separation of concerns across algorithm design, execution, and agent-environment interaction. Rather than relying on monolithic, end-to-end RL pipelines, OpenTinker decomposes agentic learning systems into lightweight, composable components with clearly defined abstraction boundaries. Users specify agents, environments, and interaction protocols, while inference and training are delegated to a managed execution runtime. OpenTinker introduces a centralized scheduler for managing training and inference workloads, including LoRA-based and full-parameter RL, supervised fine-tuning, and inference, over shared resources. We further discuss design principles for extending OpenTinker to multi-agent training. Finally, we present a set of RL use cases that demonstrate the effectiveness of the framework in practical agentic learning scenarios.

OpenTinker: Separazione delle Responsabilità nell'Apprendimento per Rinforzo Agente

OpenTinker: Separating Concerns in Agentic Reinforcement Learning

Abstract

Support