ChatPaper.aiChatPaper

Premiare il Processo Scientifico: Modellazione delle Ricompense a Livello di Processo per l'Analisi Dati Agente-Centrica

Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis

April 27, 2026
Autori: Zhisong Qiu, Shuofei Qiao, Kewei Xu, Yuqi Zhu, Lun Du, Ningyu Zhang, Huajun Chen
cs.AI

Abstract

I modelli di ricompensa basati sul processo (PRM) hanno ottenuto un notevole successo nel potenziare le capacità di ragionamento dei Large Language Model (LLM) in domini statici come la matematica. Tuttavia, il loro potenziale in compiti di analisi dati dinamici rimane poco esplorato. In questo lavoro, presentiamo innanzitutto uno studio empirico che rivela come i PRM di dominio generale abbiano difficoltà a supervisionare agenti di analisi dati. Nello specifico, questi modelli non riescono a rilevare errori silenti, ovvero difetti logici che producono risultati errati senza innescare eccezioni dell'interprete, e penalizzano erroneamente azioni esplorative, scambiando necessari tentativi ed errori per fallimenti di grounding. Per colmare questa lacuna, introduciamo DataPRM, un innovativo modello generativo di ricompensa basato sul processo e consapevole dell'ambiente, che (1) può fungere da verificatore attivo, interagendo autonomamente con l'ambiente per sondare gli stati di esecuzione intermedi e scoprire errori silenti, e (2) impiega una strategia di ricompensa ternaria reflection-aware che distingue tra errori di grounding correggibili ed errori irrimediabili. Progettiamo una pipeline scalabile per costruire oltre 8.000 istanze di addestramento di alta qualità per DataPRM tramite una generazione di traiettorie guidata dalla diversità e un'annotazione a livello di passo arricchita dalla conoscenza. I risultati sperimentali dimostrano che DataPRM migliora le prestazioni dei LLM policy downstream del 7,21% su ScienceAgentBench e dell'11,28% su DABStep utilizzando l'inferenza Best-of-N. Notevolmente, con soli 4 miliardi di parametri, DataPRM supera baseline robuste ed esibisce una solida generalizzabilità attraverso diverse strategie di Test-Time Scaling. Inoltre, l'integrazione di DataPRM nel Reinforcement Learning produce guadagni sostanziali rispetto alle baseline di ricompensa basata sul risultato, raggiungendo il 78,73% su DABench e il 64,84% su TableBench, convalidando l'efficacia della supervisione della ricompensa basata sul processo. Il codice è disponibile all'indirizzo https://github.com/zjunlp/DataMind.
English
Process Reward Models (PRMs) have achieved remarkable success in augmenting the reasoning capabilities of Large Language Models (LLMs) within static domains such as mathematics. However, their potential in dynamic data analysis tasks remains underexplored. In this work, we first present a empirical study revealing that general-domain PRMs struggle to supervise data analysis agents. Specifically, they fail to detect silent errors, logical flaws that yield incorrect results without triggering interpreter exceptions, and erroneously penalize exploratory actions, mistaking necessary trial-and-error exploration for grounding failures. To bridge this gap, we introduce DataPRM, a novel environment-aware generative process reward model that (1) can serve as an active verifier, autonomously interacting with the environment to probe intermediate execution states and uncover silent errors, and (2) employs a reflection-aware ternary reward strategy that distinguishes between correctable grounding errors and irrecoverable mistakes. We design a scalable pipeline to construct over 8K high-quality training instances for DataPRM via diversity-driven trajectory generation and knowledge-augmented step-level annotation. Experimental results demonstrate that DataPRM improves downstream policy LLMs by 7.21% on ScienceAgentBench and 11.28% on DABStep using Best-of-N inference. Notably, with only 4B parameters, DataPRM outperforms strong baselines, and exhibits robust generalizability across diverse Test-Time Scaling strategies. Furthermore, integrating DataPRM into Reinforcement Learning yields substantial gains over outcome-reward baselines, achieving 78.73% on DABench and 64.84% on TableBench, validating the effectiveness of process reward supervision. Code is available at https://github.com/zjunlp/DataMind.
PDF151April 29, 2026