How2Everything: Estrazione di procedure How-To dal Web per valutare e migliorare gli LLM

Abstract

La generazione di procedure passo-passo "how-to" è una capacità fondamentale dei modelli linguistici di grandi dimensioni (LLM): i consigli procedurali sono comunemente richiesti nei chatbot, e la pianificazione sequenziale è cruciale per il ragionamento su compiti complessi. Tuttavia, misurare e migliorare la validità procedurale su larga scala per compiti del mondo reale rimane una sfida e un ambito poco studiato. Per affrontare questo problema, introduciamo How2Everything, un framework scalabile per valutare e migliorare la generazione di procedure condizionate da obiettivi. Il nostro framework include How2Mine, che estrae 351.000 procedure da 980.000 pagine web relative a 14 argomenti e si presta a scalare facilmente verso corpora più ampi. Da questo insieme costruiamo How2Bench, un set di valutazione di 7.000 esempi bilanciato per argomento. Per valutare in modo affidabile gli output del modello, sviluppiamo How2Score, un protocollo di valutazione che utilizza un LLM come giudice per rilevare se una generazione contenga errori critici che impedirebbero il raggiungimento dell'obiettivo. Per una valutazione a basso costo e riproducibile, distilliamo un modello all'avanguardia in un modello aperto da 8B parametri, raggiungendo un accordo dell'80,5% con annotatori umani. How2Bench rivela chiari trend di scaling tra diverse dimensioni di modello e fasi di addestramento, fornendo segnali già nelle prime fasi del pre-addestramento. Infine, l'Apprendimento per Rinforzo (RL) utilizzando How2Score come ricompensa migliora le prestazioni su How2Bench di oltre 10 punti in tre modelli senza regressioni sistematiche su benchmark standard, con guadagni robusti rispetto a fenomeni di memorizzazione superficiale del documento sorgente o di aderenza al formato. Nel complesso, How2Everything dimostra come i dati web di pre-addestramento possano supportare un ciclo chiuso di valutazione e miglioramento delle capacità su larga scala.

English

Generating step-by-step "how-to" procedures is a key LLM capability: how-to advice is commonly requested in chatbots, and step-by-step planning is critical for reasoning over complex tasks. Yet, measuring and improving procedural validity at scale on real-world tasks remains challenging and understudied. To address this, we introduce How2Everything, a scalable framework to evaluate and improve goal-conditioned procedure generation. Our framework includes How2Mine, which mines 351K procedures from 980K web pages across 14 topics and readily scales to larger corpora. From this pool we build How2Bench, a 7K-example evaluation set balanced across topics. To reliably score model outputs, we develop How2Score, an evaluation protocol that uses an LLM judge to detect whether a generation contains any critical failure that would prevent achieving the goal. For low-cost, reproducible evaluation, we distill a frontier model into an open 8B model, achieving 80.5% agreement with human annotators. How2Bench reveals clear scaling trends across model sizes and training stages, providing signal early in pretraining. Finally, RL using How2Score as a reward improves performance on How2Bench by >10 points across three models without systematic regressions on standard benchmarks, with gains robust to superficial source-document memorization or format compliance. Taken together, How2Everything shows how pretraining web data can support a closed loop of capability evaluation and improvement at scale.

How2Everything: Estrazione di procedure How-To dal Web per valutare e migliorare gli LLM

How2Everything: Mining the Web for How-To Procedures to Evaluate and Improve LLMs

Abstract

Support