ChatPaper.aiChatPaper

How2Everything: Das Web nach Anleitungsverfahren durchsuchen, um große Sprachmodelle zu bewerten und zu verbessern

How2Everything: Mining the Web for How-To Procedures to Evaluate and Improve LLMs

February 9, 2026
papers.authors: Yapei Chang, Kyle Lo, Mohit Iyyer, Luca Soldaini
cs.AI

papers.abstract

Die Erstellung schrittweiser "How-to"-Prozeduren ist eine zentrale Fähigkeit von LLMs: Anleitungen werden in Chatbots häufig angefragt, und schrittweise Planung ist entscheidend für das Schlussfolgern bei komplexen Aufgaben. Dennoch bleiben die Messung und Verbesserung der prozeduralen Validität in großem Maßstab für reale Aufgaben eine Herausforderung und sind bisher wenig erforscht. Um dies zu adressieren, stellen wir How2Everything vor, einen skalierbaren Rahmen zur Bewertung und Verbesserung der zielbedingten Verfahrensgenerierung. Unser Framework umfasst How2Mine, das 351.000 Prozeduren aus 980.000 Webseiten über 14 Themenbereiche hinweg extrahiert und problemlos auf größere Korpora skaliert werden kann. Aus diesem Pool erstellen wir How2Bench, einen Evaluierungsdatensatz mit 7.000 Beispielen, der thematisch ausgewogen ist. Um Modelloutputs zuverlässig zu bewerten, entwickeln wir How2Score, ein Evaluierungsprotokoll, das einen LLM-Bewerter einsetzt, um zu erkennen, ob eine Generierung kritische Fehler enthält, die das Erreichen des Ziels verhindern würden. Für eine kostengünstige, reproduzierbare Evaluation destillieren wir ein Frontier-Modell in ein offenes 8B-Modell, das eine Übereinstimmung von 80,5 % mit menschlichen Annotatoren erreicht. How2Bench zeigt klare Skalierungstrends über Modellgrößen und Trainingsphasen hinweg auf und liefert bereits früh im Pre-Training Signale. Schließlich verbessert Reinforcement Learning unter Verwendung von How2Score als Belohnung die Leistung auf How2Bench um mehr als 10 Punkte bei drei Modellen, ohne systematische Verschlechterungen in Standard-Benchmarks, wobei die Gewinne robust gegenüber oberflächlicher Auswendiglernung von Quelldokumenten oder Formatkonformität sind. Zusammengenommen zeigt How2Everything, wie Webdaten aus dem Pre-Training einen geschlossenen Kreislauf zur Fähigkeitsbewertung und -verbesserung im großen Maßstab unterstützen können.
English
Generating step-by-step "how-to" procedures is a key LLM capability: how-to advice is commonly requested in chatbots, and step-by-step planning is critical for reasoning over complex tasks. Yet, measuring and improving procedural validity at scale on real-world tasks remains challenging and understudied. To address this, we introduce How2Everything, a scalable framework to evaluate and improve goal-conditioned procedure generation. Our framework includes How2Mine, which mines 351K procedures from 980K web pages across 14 topics and readily scales to larger corpora. From this pool we build How2Bench, a 7K-example evaluation set balanced across topics. To reliably score model outputs, we develop How2Score, an evaluation protocol that uses an LLM judge to detect whether a generation contains any critical failure that would prevent achieving the goal. For low-cost, reproducible evaluation, we distill a frontier model into an open 8B model, achieving 80.5% agreement with human annotators. How2Bench reveals clear scaling trends across model sizes and training stages, providing signal early in pretraining. Finally, RL using How2Score as a reward improves performance on How2Bench by >10 points across three models without systematic regressions on standard benchmarks, with gains robust to superficial source-document memorization or format compliance. Taken together, How2Everything shows how pretraining web data can support a closed loop of capability evaluation and improvement at scale.
PDF72February 11, 2026