OpenTinker: Разделение ответственностей в агентном обучении с подкреплением

Аннотация

Мы представляем OpenTinker — инфраструктуру для обучения с подкреплением (RL) агентов на основе больших языковых моделей (LLM), построенную вокруг разделения ответственности между проектированием алгоритмов, выполнением и взаимодействием агента со средой. Вместо использования монолитных сквозных RL-конвейеров OpenTinker декомпозирует системы агентного обучения на легковесные, компонируемые компоненты с четко определенными границами абстракций. Пользователи задают агентов, среды и протоколы взаимодействия, в то время как выполнение выводов и обучение делегируются управляемой среде исполнения. OpenTinker вводит централизованный планировщик для управления нагрузками обучения и вывода, включая RL на основе LoRA и с полными параметрами, контролируемое тонкое настройку и вывод, в условиях общих ресурсов. Мы также обсуждаем принципы проектирования для расширения OpenTinker до многoагентного обучения. Наконец, мы представляем набор сценариев использования RL, демонстрирующих эффективность фреймворка в практических задачах агентного обучения.

English

We introduce OpenTinker, an infrastructure for reinforcement learning (RL) of large language model (LLM) agents built around a separation of concerns across algorithm design, execution, and agent-environment interaction. Rather than relying on monolithic, end-to-end RL pipelines, OpenTinker decomposes agentic learning systems into lightweight, composable components with clearly defined abstraction boundaries. Users specify agents, environments, and interaction protocols, while inference and training are delegated to a managed execution runtime. OpenTinker introduces a centralized scheduler for managing training and inference workloads, including LoRA-based and full-parameter RL, supervised fine-tuning, and inference, over shared resources. We further discuss design principles for extending OpenTinker to multi-agent training. Finally, we present a set of RL use cases that demonstrate the effectiveness of the framework in practical agentic learning scenarios.

OpenTinker: Разделение ответственностей в агентном обучении с подкреплением

OpenTinker: Separating Concerns in Agentic Reinforcement Learning

Аннотация

Support