CómoHacerloTodo: Extracción de Procedimientos de "Cómo Hacer" de la Web para Evaluar y Mejorar los Modelos de Lenguaje Grandes
How2Everything: Mining the Web for How-To Procedures to Evaluate and Improve LLMs
February 9, 2026
Autores: Yapei Chang, Kyle Lo, Mohit Iyyer, Luca Soldaini
cs.AI
Resumen
La generación de procedimientos paso a paso de "cómo hacer" es una capacidad clave de los LLM: los consejos prácticos se solicitan comúnmente en chatbots, y la planificación secuencial es crucial para razonar sobre tareas complejas. Sin embargo, medir y mejorar la validez procedimental a escala en tareas del mundo real sigue siendo un desafío poco estudiado. Para abordarlo, presentamos How2Everything, un marco escalable para evaluar y mejorar la generación de procedimientos condicionados por objetivos. Nuestro marco incluye How2Mine, que extrae 351.000 procedimientos de 980.000 páginas web en 14 temas y se escala fácilmente a corpus más grandes. De este conjunto construimos How2Bench, un set de evaluación de 7.000 ejemplos equilibrado entre temas. Para puntuar salidas de modelos de forma fiable, desarrollamos How2Score, un protocolo de evaluación que utiliza un LLM como juez para detectar si una generación contiene fallos críticos que impedirían lograr el objetivo. Para una evaluación reproducible y de bajo coste, destilamos un modelo frontera en un modelo abierto de 8B, logrando un 80,5% de concordancia con anotadores humanos. How2Bench revela tendencias claras de escalado entre tamaños de modelo y etapas de entrenamiento, proporcionando señal temprana durante el preentrenamiento. Finalmente, el RL usando How2Score como recompensa mejora el rendimiento en How2Bench en más de 10 puntos en tres modelos sin regresiones sistemáticas en benchmarks estándar, con ganancias robustas frente a la memorización superficial de documentos fuente o el cumplimiento de formato. En conjunto, How2Everything demuestra cómo los datos web de preentrenamiento pueden sustentar un bucle cerrado de evaluación y mejora de capacidades a escala.
English
Generating step-by-step "how-to" procedures is a key LLM capability: how-to advice is commonly requested in chatbots, and step-by-step planning is critical for reasoning over complex tasks. Yet, measuring and improving procedural validity at scale on real-world tasks remains challenging and understudied. To address this, we introduce How2Everything, a scalable framework to evaluate and improve goal-conditioned procedure generation. Our framework includes How2Mine, which mines 351K procedures from 980K web pages across 14 topics and readily scales to larger corpora. From this pool we build How2Bench, a 7K-example evaluation set balanced across topics. To reliably score model outputs, we develop How2Score, an evaluation protocol that uses an LLM judge to detect whether a generation contains any critical failure that would prevent achieving the goal. For low-cost, reproducible evaluation, we distill a frontier model into an open 8B model, achieving 80.5% agreement with human annotators. How2Bench reveals clear scaling trends across model sizes and training stages, providing signal early in pretraining. Finally, RL using How2Score as a reward improves performance on How2Bench by >10 points across three models without systematic regressions on standard benchmarks, with gains robust to superficial source-document memorization or format compliance. Taken together, How2Everything shows how pretraining web data can support a closed loop of capability evaluation and improvement at scale.