ChatPaper.aiChatPaper

Recompensando o Processo Científico: Modelagem de Recompensa em Nível de Processo para Análise de Dados Autônoma

Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis

April 27, 2026
Autores: Zhisong Qiu, Shuofei Qiao, Kewei Xu, Yuqi Zhu, Lun Du, Ningyu Zhang, Huajun Chen
cs.AI

Resumo

Os Modelos de Recompensa de Processo (PRMs) têm alcançado sucesso notável em aumentar as capacidades de raciocínio de Modelos de Linguagem de Grande Porte (LLMs) em domínios estáticos, como a matemática. No entanto, o seu potencial em tarefas de análise de dados dinâmicos permanece pouco explorado. Neste trabalho, apresentamos primeiro um estudo empírico que revela que os PRMs de domínio geral têm dificuldade em supervisionar agentes de análise de dados. Especificamente, eles falham em detetar erros silenciosos – falhas lógicas que produzem resultados incorretos sem desencadear exceções do interpretador – e penalizam erroneamente ações exploratórias, confundindo a exploração necessária de tentativa e erro com falhas de fundamentação (grounding). Para colmatar esta lacuna, introduzimos o DataPRM, um novo modelo de recompensa de processo generativo e consciente do ambiente que (1) pode funcionar como um verificador ativo, interagindo autonomamente com o ambiente para sondar estados de execução intermédios e detetar erros silenciosos, e (2) emprega uma estratégia de recompensa ternária consciente da reflexão, que distingue entre erros de fundamentação corrigíveis e erros irrecuperáveis. Projetamos um pipeline escalável para construir mais de 8 mil instâncias de treino de alta qualidade para o DataPRM através de geração de trajetórias orientada para a diversidade e anotação a nível de passo aumentada por conhecimento. Resultados experimentais demonstram que o DataPRM melhora os LLMs de política subsequentes em 7,21% no ScienceAgentBench e 11,28% no DABStep usando inferência Best-of-N. Notavelmente, com apenas 4B de parâmetros, o DataPRM supera linhas de base fortes e exibe uma robusta generalização através de diversas estratégias de Escalonamento no Tempo de Teste (Test-Time Scaling). Adicionalmente, a integração do DataPRM no Aprendizado por Reforço produz ganhos substanciais em comparação com linhas de base de recompensa por resultado, atingindo 78,73% no DABench e 64,84% no TableBench, validando a eficácia da supervisão de recompensa de processo. O código está disponível em https://github.com/zjunlp/DataMind.
English
Process Reward Models (PRMs) have achieved remarkable success in augmenting the reasoning capabilities of Large Language Models (LLMs) within static domains such as mathematics. However, their potential in dynamic data analysis tasks remains underexplored. In this work, we first present a empirical study revealing that general-domain PRMs struggle to supervise data analysis agents. Specifically, they fail to detect silent errors, logical flaws that yield incorrect results without triggering interpreter exceptions, and erroneously penalize exploratory actions, mistaking necessary trial-and-error exploration for grounding failures. To bridge this gap, we introduce DataPRM, a novel environment-aware generative process reward model that (1) can serve as an active verifier, autonomously interacting with the environment to probe intermediate execution states and uncover silent errors, and (2) employs a reflection-aware ternary reward strategy that distinguishes between correctable grounding errors and irrecoverable mistakes. We design a scalable pipeline to construct over 8K high-quality training instances for DataPRM via diversity-driven trajectory generation and knowledge-augmented step-level annotation. Experimental results demonstrate that DataPRM improves downstream policy LLMs by 7.21% on ScienceAgentBench and 11.28% on DABStep using Best-of-N inference. Notably, with only 4B parameters, DataPRM outperforms strong baselines, and exhibits robust generalizability across diverse Test-Time Scaling strategies. Furthermore, integrating DataPRM into Reinforcement Learning yields substantial gains over outcome-reward baselines, achieving 78.73% on DABench and 64.84% on TableBench, validating the effectiveness of process reward supervision. Code is available at https://github.com/zjunlp/DataMind.
PDF151April 29, 2026