Caçar em vez de Esperar: Avaliando a Pesquisa de Dados Profundos em Modelos de Linguagem de Grande Escala

Resumo

A agência esperada de Modelos de Linguagem de Grande Porte Agênicos vai além de responder corretamente, exigindo autonomia para definir objetivos e decidir o que explorar. Denominamos isso de inteligência investigatória, distinguindo-a da inteligência executiva, que apenas completa tarefas atribuídas. A Ciência de Dados oferece um campo de testes natural, uma vez que a análise do mundo real parte de dados brutos em vez de consultas explícitas, mas poucos *benchmarks* se concentram nisso. Para resolver isso, apresentamos a Deep Data Research (DDR), uma tarefa de final aberto onde os LLMs extraem autonomamente *insights* principais de bancos de dados, e o DDR-Bench, um *benchmark* em larga escala baseado em lista de verificação que permite uma avaliação verificável. Os resultados mostram que, embora os modelos de fronteira exibam uma agência emergente, a exploração de longo horizonte permanece desafiadora. Nossa análise destaca que uma inteligência investigatória eficaz depende não apenas de estruturas de agentes ou do mero escalonamento, mas também de estratégias intrínsecas de modelos agênicos.

English

The agency expected of Agentic Large Language Models goes beyond answering correctly, requiring autonomy to set goals and decide what to explore. We term this investigatory intelligence, distinguishing it from executional intelligence, which merely completes assigned tasks. Data Science provides a natural testbed, as real-world analysis starts from raw data rather than explicit queries, yet few benchmarks focus on it. To address this, we introduce Deep Data Research (DDR), an open-ended task where LLMs autonomously extract key insights from databases, and DDR-Bench, a large-scale, checklist-based benchmark that enables verifiable evaluation. Results show that while frontier models display emerging agency, long-horizon exploration remains challenging. Our analysis highlights that effective investigatory intelligence depends not only on agent scaffolding or merely scaling, but also on intrinsic strategies of agentic models.

Caçar em vez de Esperar: Avaliando a Pesquisa de Dados Profundos em Modelos de Linguagem de Grande Escala

Hunt Instead of Wait: Evaluating Deep Data Research on Large Language Models

Resumo

Support