How2Everything: Het web doorzoeken naar handleidingen voor het evalueren en verbeteren van grote taalmodel(len)

Samenvatting

Het genereren van stapsgewijze "hoe-gedaan"-procedures is een belangrijke capaciteit van grote taalmodellen: hoe-gedaan advies wordt vaak opgevraagd in chatbots, en stapsgewijze planning is cruciaal voor redeneren over complexe taken. Toch blijft het meten en verbeteren van procedurele validiteit op grote schaal voor real-world taken een uitdaging en onderbelicht. Om dit aan te pakken, introduceren we How2Everything, een schaalbaar raamwerk om doelgerichte proceduregeneratie te evalueren en verbeteren. Ons raamwerk omvat How2Mine, dat 351K procedures mineert uit 980K webpagina's over 14 onderwerpen en eenvoudig schaalt naar grotere corpora. Uit deze pool bouwen we How2Bench, een evaluatieset van 7K voorbeelden die gebalanceerd is over de onderwerpen. Om modeloutputs betrouwbaar te scoren, ontwikkelen we How2Score, een evaluatieprotocol dat een LLM-beoordelaar gebruikt om te detecteren of een generatie kritieke fouten bevat die het bereiken van het doel verhinderen. Voor goedkope, reproduceerbare evaluatie distilleren we een frontier-model naar een open 8B-model, waarmee we 80,5% overeenstemming met menselijke annotators bereiken. How2Bench toont duidelijke schaalverbanden over modelgroottes en trainingsfasen heen, en geeft al vroeg in de voortraining signalen. Ten slotte verbetert reinforcement learning met How2Score als beloning de prestaties op How2Bench met >10 punten over drie modellen heen, zonder systematische achteruitgang op standaardbenchmarks, waarbij de winst robuust is tegen oppervlakkige memorisatie van brondocumenten of formatnaleving. Samengenomen toont How2Everything aan hoe voorgetrainde webdata een gesloten lus van capaciteitsevaluatie en -verbetering op grote schaal kan ondersteunen.

English

Generating step-by-step "how-to" procedures is a key LLM capability: how-to advice is commonly requested in chatbots, and step-by-step planning is critical for reasoning over complex tasks. Yet, measuring and improving procedural validity at scale on real-world tasks remains challenging and understudied. To address this, we introduce How2Everything, a scalable framework to evaluate and improve goal-conditioned procedure generation. Our framework includes How2Mine, which mines 351K procedures from 980K web pages across 14 topics and readily scales to larger corpora. From this pool we build How2Bench, a 7K-example evaluation set balanced across topics. To reliably score model outputs, we develop How2Score, an evaluation protocol that uses an LLM judge to detect whether a generation contains any critical failure that would prevent achieving the goal. For low-cost, reproducible evaluation, we distill a frontier model into an open 8B model, achieving 80.5% agreement with human annotators. How2Bench reveals clear scaling trends across model sizes and training stages, providing signal early in pretraining. Finally, RL using How2Score as a reward improves performance on How2Bench by >10 points across three models without systematic regressions on standard benchmarks, with gains robust to superficial source-document memorization or format compliance. Taken together, How2Everything shows how pretraining web data can support a closed loop of capability evaluation and improvement at scale.

How2Everything: Het web doorzoeken naar handleidingen voor het evalueren en verbeteren van grote taalmodel(len)

How2Everything: Mining the Web for How-To Procedures to Evaluate and Improve LLMs

Samenvatting

Support