SciOrch: Обучение оркестровке экспертных LLM для решения передовых мультимодальных научных задач рассуждения

Аннотация

Рассуждения в передовых научных областях остаются серьёзной проблемой для больших языковых моделей (БЯМ): даже самые сильные коммерческие системы уступают экспертному уровню. Более детальный анализ поведения моделей выявляет существенную взаимодополняемость, которую скрывает оценка отдельных моделей: разные передовые модели превосходят друг друга на различных типах вопросов, и ни одна из них не может охватить всю картину целиком. Мы представляем SciOrch — фреймворк, который обучает лёгкую модель на 8 млрд параметров для координации передовых БЯМ при решении научных задач. Оркестратор разбивает каждый вопрос на подзадачи, делегирует их выбранным коммерческим моделям через вызовы API и синтезирует итоговый ответ. Обучение такого оркестратора принципиально сложнее стандартного агентного обучения с подкреплением: каждое действие порождает вызов API, что дорого как в денежном выражении, так и по задержке, делая обычное онлайн-разворачивание траекторий невозможным. Мы решаем эту проблему с помощью подхода на основе MCTS (метод Монте-Карло для деревьев поиска), который генерирует разнообразные траектории оркестрации, извлекает однократные примеры для каждого узла и оптимизирует оркестратор с помощью обучения в стиле GRPO. На тестовом наборе из 240 вопросов, охватывающем SGI-Reasoning и Scientists' First Exam (SFE), SciOrch достигает средней точности 56,66%, превосходя сильнейшую отдельную коммерческую модель на 3,74%, а сильнейший мультиагентный базовый метод — на 3,33%. Кроме того, SciOrch показывает наилучшую точность как на SGI, так и на SFE при затратах на API, составляющих менее половины от типичных мультиагентных методов.

English

Frontier scientific reasoning remains a major challenge for large language models (LLMs), where even the strongest commercial systems fall short of expert-level performance. A closer look at model behavior reveals substantial complementarity that single-model evaluation hides: different frontier models excel on different question types, and no single model captures the full picture. We present SciOrch, a framework that trains a lightweight 8B model to orchestrate frontier LLMs for scientific reasoning. The orchestrator decomposes each question, delegates sub-problems to selected commercial models through API calls, and synthesizes a final answer. Training such an orchestrator is fundamentally harder than conventional agentic RL: each action triggers an API call that is expensive in both dollar cost and latency, making standard online rollouts infeasible. We address this with MCTS-based approach, producing diverse orchestration trajectories, extracting per-node single-turn samples, and optimizing the orchestrator with GRPO-style training. On a 240-question test set spanning SGI-Reasoning and Scientists' First Exam, SciOrch reaches 56.66% average accuracy, outperforming the strongest single commercial model by 3.74% and the strongest multi-agent baseline by 3.33%. It also attains the best accuracy on both SGI and SFE with less than half the API cost of typical multi-agent methods.