Охота вместо ожидания: оценка глубокого исследования данных в больших языковых моделях

Аннотация

Агентность продвинутых больших языковых моделей подразумевает не только правильные ответы, но и автономную способность ставить цели и определять направления исследования. Мы называем это исследовательским интеллектом, отличая его от исполнительского интеллекта, который лишь выполняет поставленные задачи. Наука о данных представляет собой естественный полигон для испытаний, поскольку реальный анализ начинается с сырых данных, а не с явных запросов, однако немногие бенчмарки фокусируются на этом. Для решения проблемы мы представляем Deep Data Research (DDR) — открытую задачу, в рамках которой языковые модели автономно извлекают ключевые инсайты из баз данных, и DDR-Bench — масштабируемый бенчмарк на основе чек-листов, позволяющий проводить верифицируемую оценку. Результаты показывают, что хотя передовые модели демонстрируют зачатки агентности, долгосрочное исследование остается сложной задачей. Наш анализ подчеркивает, что эффективность исследовательского интеллекта зависит не только от агентских надстроек или простого масштабирования, но и от внутренних стратегий агентных моделей.

English

The agency expected of Agentic Large Language Models goes beyond answering correctly, requiring autonomy to set goals and decide what to explore. We term this investigatory intelligence, distinguishing it from executional intelligence, which merely completes assigned tasks. Data Science provides a natural testbed, as real-world analysis starts from raw data rather than explicit queries, yet few benchmarks focus on it. To address this, we introduce Deep Data Research (DDR), an open-ended task where LLMs autonomously extract key insights from databases, and DDR-Bench, a large-scale, checklist-based benchmark that enables verifiable evaluation. Results show that while frontier models display emerging agency, long-horizon exploration remains challenging. Our analysis highlights that effective investigatory intelligence depends not only on agent scaffolding or merely scaling, but also on intrinsic strategies of agentic models.

Охота вместо ожидания: оценка глубокого исследования данных в больших языковых моделях

Hunt Instead of Wait: Evaluating Deep Data Research on Large Language Models

Аннотация

Support