ChatPaper.aiChatPaper

How2Everything: Сбор процедур "Как сделать" из интернета для оценки и улучшения больших языковых моделей

How2Everything: Mining the Web for How-To Procedures to Evaluate and Improve LLMs

February 9, 2026
Авторы: Yapei Chang, Kyle Lo, Mohit Iyyer, Luca Soldaini
cs.AI

Аннотация

Создание пошаговых инструкций «как сделать» является ключевой возможностью больших языковых моделей (LLM): советы такого типа часто запрашиваются в чат-ботах, а пошаговое планирование критически важно для рассуждений при выполнении сложных задач. Однако измерение и масштабируемое улучшение процедурной валидности для реальных задач остаются сложными и недостаточно изученными. Чтобы решить эту проблему, мы представляем How2Everything — масштабируемую структуру для оценки и улучшения генерации процедур, обусловленных целью. Наша структура включает How2Mine, который извлекает 351 тыс. процедур из 980 тыс. веб-страниц по 14 темам и легко масштабируется на большие корпуса. Из этого пула мы строим How2Bench — оценочный набор из 7 тыс. примеров, сбалансированный по темам. Для надежной оценки выходных данных моделей мы разрабатываем How2Score — протокол оценки, который использует LLM-судию для определения, содержит ли сгенерированный текст критические ошибки, препятствующие достижению цели. Для недорогой и воспроизводимой оценки мы дистиллируем передовую модель в открытую 8B-модель, достигнув 80,5% согласия с человеком-аннотатором. How2Bench выявляет четкие тренды масштабирования для моделей разного размера и этапов обучения, предоставляя сигнал уже на ранних стадиях предобучения. Наконец, использование обучения с подкреплением (RL) с How2Score в качестве функции вознаграждения улучшает производительность на How2Bench более чем на 10 пунктов для трех моделей без систематического ухудшения на стандартных бенчмарках, причем gains устойчивы к поверхностному запоминанию исходных документов или соблюдению формата. В совокупности How2Everything демонстрирует, как данные веб-предобучения могут поддерживать замкнутый цикл оценки и улучшения возможностей в масштабе.
English
Generating step-by-step "how-to" procedures is a key LLM capability: how-to advice is commonly requested in chatbots, and step-by-step planning is critical for reasoning over complex tasks. Yet, measuring and improving procedural validity at scale on real-world tasks remains challenging and understudied. To address this, we introduce How2Everything, a scalable framework to evaluate and improve goal-conditioned procedure generation. Our framework includes How2Mine, which mines 351K procedures from 980K web pages across 14 topics and readily scales to larger corpora. From this pool we build How2Bench, a 7K-example evaluation set balanced across topics. To reliably score model outputs, we develop How2Score, an evaluation protocol that uses an LLM judge to detect whether a generation contains any critical failure that would prevent achieving the goal. For low-cost, reproducible evaluation, we distill a frontier model into an open 8B model, achieving 80.5% agreement with human annotators. How2Bench reveals clear scaling trends across model sizes and training stages, providing signal early in pretraining. Finally, RL using How2Score as a reward improves performance on How2Bench by >10 points across three models without systematic regressions on standard benchmarks, with gains robust to superficial source-document memorization or format compliance. Taken together, How2Everything shows how pretraining web data can support a closed loop of capability evaluation and improvement at scale.
PDF72February 11, 2026