기다리지 말고 탐색하라: 대규모 언어 모델에 대한 심층 데이터 연구 평가
Hunt Instead of Wait: Evaluating Deep Data Research on Large Language Models
February 2, 2026
저자: Wei Liu, Peijie Yu, Michele Orini, Yali Du, Yulan He
cs.AI
초록
에이전트적 대규모 언어 모델에게 기대되는 자율성은 정답을 제공하는 것을 넘어 목표를 스스로 설정하고 탐구할 내용을 결정하는 독립성을 요구합니다. 우리는 이를 '탐구적 지능'으로 명명하며, 단순히 주어진 과제를 수행하는 '실행적 지능'과 구별합니다. 데이터 과학은 실제 분석이 명시적 질의가 아닌 원시 데이터에서 시작된다는 점에서 자연스러운 실험장을 제공하지만, 이를 중점으로 한 벤치마크는 많지 않습니다. 이 문제를 해결하기 위해 우리는 LLM이 데이터베이스에서 핵심 인사이트를 자율적으로 추출하는 개방형 과제인 DDR(Deep Data Research)과 검증 가능한 평가가 가능한 대규모 체크리스트 기반 벤치마크인 DDR-Bench을 소개합니다. 결과에 따르면 최첨단 모델들이 초기 단계의 자율성을 보여주지만, 장기적인 탐구는 여전히 어려운 과제로 남아 있습니다. 우리의 분석은 효과적인 탐구적 지능이 에이전트 구조나 단순한 규모 확장뿐만 아니라 에이전트 모델의 내재적 전략에 달려 있음을 강조합니다.
English
The agency expected of Agentic Large Language Models goes beyond answering correctly, requiring autonomy to set goals and decide what to explore. We term this investigatory intelligence, distinguishing it from executional intelligence, which merely completes assigned tasks. Data Science provides a natural testbed, as real-world analysis starts from raw data rather than explicit queries, yet few benchmarks focus on it. To address this, we introduce Deep Data Research (DDR), an open-ended task where LLMs autonomously extract key insights from databases, and DDR-Bench, a large-scale, checklist-based benchmark that enables verifiable evaluation. Results show that while frontier models display emerging agency, long-horizon exploration remains challenging. Our analysis highlights that effective investigatory intelligence depends not only on agent scaffolding or merely scaling, but also on intrinsic strategies of agentic models.