Investigando a Inteligência Geral Científica de LLMs por meio de Fluxos de Trabalho Alinhados ao Cientista

Resumo

Apesar dos avanços na IA científica, ainda falta um quadro coerente para a Inteligência Geral Científica (SGI) - a capacidade de conceber, investigar e raciocinar de forma autónoma em diversos domínios científicos. Apresentamos uma definição operacional de SGI baseada no Modelo de Inquérito Prático (PIM: Deliberação, Conceção, Ação, Perceção) e operacionalizamo-la através de quatro tarefas alinhadas com a atividade científica: investigação aprofundada, geração de ideias, experimentação seca/húmida e raciocínio experimental. O SGI-Bench compreende mais de 1.000 amostras interdisciplinares curadas por especialistas, inspiradas nas 125 Grandes Questões da Ciência, permitindo a avaliação sistemática dos mais avançados Modelos de Linguagem de Grande Escala (LLMs). Os resultados revelam lacunas: correspondência exata baixa (10-20%) na investigação aprofundada, apesar do alinhamento a nível de etapas; ideias com falta de exequibilidade e detalhe; alta capacidade de execução de código, mas baixa precisão dos resultados de execução em experimentação seca; baixa fidelidade de sequência em protocolos húmidos; e desafios persistentes no raciocínio comparativo multimodal. Introduzimos ainda o Aprendizado por Reforço no Momento do Teste (TTRL), que otimiza recompensas de novidade aumentadas por recuperação de informação durante a inferência, melhorando a novidade das hipóteses sem necessidade de respostas de referência. Em conjunto, a nossa definição baseada no PIM, o benchmark centrado em fluxos de trabalho e as perspetivas empíricas estabelecem uma base para sistemas de IA que participem genuinamente na descoberta científica.

English

Despite advances in scientific AI, a coherent framework for Scientific General Intelligence (SGI)-the ability to autonomously conceive, investigate, and reason across scientific domains-remains lacking. We present an operational SGI definition grounded in the Practical Inquiry Model (PIM: Deliberation, Conception, Action, Perception) and operationalize it via four scientist-aligned tasks: deep research, idea generation, dry/wet experiments, and experimental reasoning. SGI-Bench comprises over 1,000 expert-curated, cross-disciplinary samples inspired by Science's 125 Big Questions, enabling systematic evaluation of state-of-the-art LLMs. Results reveal gaps: low exact match (10--20%) in deep research despite step-level alignment; ideas lacking feasibility and detail; high code executability but low execution result accuracy in dry experiments; low sequence fidelity in wet protocols; and persistent multimodal comparative-reasoning challenges. We further introduce Test-Time Reinforcement Learning (TTRL), which optimizes retrieval-augmented novelty rewards at inference, enhancing hypothesis novelty without reference answer. Together, our PIM-grounded definition, workflow-centric benchmark, and empirical insights establish a foundation for AI systems that genuinely participate in scientific discovery.