Het belonen van het wetenschappelijke proces: Procesniveau-beloningsmodellering voor agent-gedreven data-analyse

Samenvatting

Procesbeloningsmodellen (PRM's) hebben opmerkelijke successen geboekt bij het verbeteren van de redeneercapaciteiten van grote taalmodellen (LLM's) in statische domeinen zoals wiskunde. Hun potentieel in dynamische data-analysetaken blijft echter onderbelicht. In dit werk presenteren we eerst een empirische studie die aantoont dat algemene-domein-PRM's moeite hebben om data-analyse-agents te begeleiden. Specifiek slagen zij er niet in om stille fouten – logische fouten die incorrecte resultaten opleveren zonder interpreter-uitzonderingen te triggeren – te detecteren, en bestraffen zij ten onrechte verkennende acties, waarbij zij noodzakelijke trial-and-error-verkenning verwarren met grondslagfouten. Om deze kloof te overbruggen, introduceren we DataPRM, een nieuw, omgevingsbewust generatief procesbeloningsmodel dat (1) kan dienen als een actieve verifier, die autonoom met de omgeving interageert om tussenliggende uitvoeringsstatussen te onderzoeken en stille fouten bloot te leggen, en (2) een reflectiebewuste ternaire beloningsstrategie hanteert die onderscheid maakt tussen corrigeerbare grondslagfouten en onherstelbare fouten. We ontwerpen een schaalbare pijplijn om meer dan 8K hoogwaardige trainingsinstanties voor DataPRM te construeren via diversiteit-gestuurde trajectgeneratie en kennis-aangevulde stap-voor-stap-annotatie. Experimentele resultaten tonen aan dat DataPRM downstream policy-LLM's verbetert met 7,21% op ScienceAgentBench en 11,28% op DABStep bij gebruik van Best-of-N inferentie. Opmerkelijk is dat DataPRM, met slechts 4B parameters, sterke baseline-modellen overtreft en robuuste generaliseerbaarheid vertoont over diverse Test-Time Scaling-strategieën. Bovendien leidt de integratie van DataPRM in Reinforcement Learning tot substantiële winsten ten opzichte van outcome-reward-baselines, met scores van 78,73% op DABench en 64,84% op TableBench, wat de effectiviteit van procesbeloningssupervisie valideert. Code is beschikbaar op https://github.com/zjunlp/DataMind.

English

Process Reward Models (PRMs) have achieved remarkable success in augmenting the reasoning capabilities of Large Language Models (LLMs) within static domains such as mathematics. However, their potential in dynamic data analysis tasks remains underexplored. In this work, we first present a empirical study revealing that general-domain PRMs struggle to supervise data analysis agents. Specifically, they fail to detect silent errors, logical flaws that yield incorrect results without triggering interpreter exceptions, and erroneously penalize exploratory actions, mistaking necessary trial-and-error exploration for grounding failures. To bridge this gap, we introduce DataPRM, a novel environment-aware generative process reward model that (1) can serve as an active verifier, autonomously interacting with the environment to probe intermediate execution states and uncover silent errors, and (2) employs a reflection-aware ternary reward strategy that distinguishes between correctable grounding errors and irrecoverable mistakes. We design a scalable pipeline to construct over 8K high-quality training instances for DataPRM via diversity-driven trajectory generation and knowledge-augmented step-level annotation. Experimental results demonstrate that DataPRM improves downstream policy LLMs by 7.21% on ScienceAgentBench and 11.28% on DABStep using Best-of-N inference. Notably, with only 4B parameters, DataPRM outperforms strong baselines, and exhibits robust generalizability across diverse Test-Time Scaling strategies. Furthermore, integrating DataPRM into Reinforcement Learning yields substantial gains over outcome-reward baselines, achieving 78.73% on DABench and 64.84% on TableBench, validating the effectiveness of process reward supervision. Code is available at https://github.com/zjunlp/DataMind.

Het belonen van het wetenschappelijke proces: Procesniveau-beloningsmodellering voor agent-gedreven data-analyse

Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis

Samenvatting

Support