О разработке систем обработки данных для масштабирования терминальных возможностей больших языковых моделей

Аннотация

Несмотря на быстрый прогресс в терминальных возможностях крупных языковых моделей, стратегии формирования обучающих данных для передовых терминальных агентов остаются в значительной степени нераскрытыми. Мы устраняем этот пробел путем систематического исследования методов инженерии данных для терминальных агентов, внося два ключевыхых вклада: (1) Terminal-Task-Gen — облегченный конвейер генерации синтетических задач, поддерживающий построение заданий на основе зародышей (seed-based) и навыков (skill-based), и (2) комплексный анализ стратегий данных и обучения, включая фильтрацию, обучение по учебному плану (curriculum learning), тренировку на длинных контекстах и масштабируемость. Наш конвейер создает Terminal-Corpus — крупномасштабный открытый набор данных для терминальных задач. Используя этот набор, мы обучаем семейство моделей Nemotron-Terminal, инициализированных на основе Qwen3(8B, 14B, 32B), которые демонстрируют существенный прогресс на Terminal-Bench 2.0: Nemotron-Terminal-8B улучшает результат с 2.5% до 13.0%, Nemotron-Terminal-14B — с 4.0% до 20.2%, а Nemotron-Terminal-32B — с 3.4% до 27.4%, соответствуя производительности значительно более крупных моделей. Для ускорения исследований в этой области мы открываем наши модельные чекпоинты и большую часть синтетических данных по адресу https://huggingface.co/collections/nvidia/nemotron-terminal.

English

Despite rapid recent progress in the terminal capabilities of large language models, the training data strategies behind state-of-the-art terminal agents remain largely undisclosed. We address this gap through a systematic study of data engineering practices for terminal agents, making two key contributions: (1) Terminal-Task-Gen, a lightweight synthetic task generation pipeline that supports seed-based and skill-based task construction, and (2) a comprehensive analysis of data and training strategies, including filtering, curriculum learning, long context training, and scaling behavior. Our pipeline yields Terminal-Corpus, a large-scale open-source dataset for terminal tasks. Using this dataset, we train Nemotron-Terminal, a family of models initialized from Qwen3(8B, 14B, 32B) that achieve substantial gains on Terminal-Bench 2.0: Nemotron-Terminal-8B improves from 2.5% to 13.0% Nemotron-Terminal-14B improves from 4.0% to 20.2%, and Nemotron-Terminal-32B improves from 3.4% to 27.4%, matching the performance of significantly larger models. To accelerate research in this domain, we open-source our model checkpoints and most of our synthetic datasets at https://huggingface.co/collections/nvidia/nemotron-terminal.

О разработке систем обработки данных для масштабирования терминальных возможностей больших языковых моделей

On Data Engineering for Scaling LLM Terminal Capabilities

Аннотация

Support