ChatPaper.aiChatPaper

How2Everything: 大規模言語モデルの評価と改善のためのWeb上のハウツー手順マイニング

How2Everything: Mining the Web for How-To Procedures to Evaluate and Improve LLMs

February 9, 2026
著者: Yapei Chang, Kyle Lo, Mohit Iyyer, Luca Soldaini
cs.AI

要旨

段階的な「ハウツー」手順の生成は、LLMの重要な能力である。チャットボットではハウツーに関する助言が頻繁に要求され、複雑なタスクに対する推論には段階的な計画が不可欠だからだ。しかし、実世界のタスクにおける手続きの正当性を大規模に測定・改善することは、依然として困難で研究も不十分である。この問題に対処するため、我々は目標条件付き手順生成を評価・改善するスケーラブルなフレームワーク「How2Everything」を提案する。本フレームワークには、14のトピックにわたる98万のウェブページから35万1千の手順を抽出し、より大規模なコーパスへの容易な拡張を可能とする「How2Mine」を含む。この抽出結果から、トピック間でバランスの取れた7千例の評価セット「How2Bench」を構築した。モデル出力を確実に評価するため、生成結果に目標達成を妨げる重大な欠陥が含まれるかを検出するLLM審査員を用いた評価プロトコル「How2Score」を開発した。低コストで再現性の高い評価のために、フロンティアモデルをオープンな8Bモデルに蒸留し、人間の注釈者との一致率80.5%を達成した。How2Benchにより、モデルサイズと訓練段階にわたる明確なスケーリング則が明らかになり、事前学習の早期段階から評価信号が得られることが示された。最後に、How2Scoreを報酬として用いた強化学習により、3つのモデルすべてでHow2Benchの性能が10ポイント以上向上し、標準ベンチマークでの体系的後退は見られなかった。この改善効果は、表面的な原文の記憶や形式への適合に頑健であった。総合すると、How2Everythingは、ウェブデータの事前学習が如何に大規模な能力評価と改善のクローズドループを支え得るかを示している。
English
Generating step-by-step "how-to" procedures is a key LLM capability: how-to advice is commonly requested in chatbots, and step-by-step planning is critical for reasoning over complex tasks. Yet, measuring and improving procedural validity at scale on real-world tasks remains challenging and understudied. To address this, we introduce How2Everything, a scalable framework to evaluate and improve goal-conditioned procedure generation. Our framework includes How2Mine, which mines 351K procedures from 980K web pages across 14 topics and readily scales to larger corpora. From this pool we build How2Bench, a 7K-example evaluation set balanced across topics. To reliably score model outputs, we develop How2Score, an evaluation protocol that uses an LLM judge to detect whether a generation contains any critical failure that would prevent achieving the goal. For low-cost, reproducible evaluation, we distill a frontier model into an open 8B model, achieving 80.5% agreement with human annotators. How2Bench reveals clear scaling trends across model sizes and training stages, providing signal early in pretraining. Finally, RL using How2Score as a reward improves performance on How2Bench by >10 points across three models without systematic regressions on standard benchmarks, with gains robust to superficial source-document memorization or format compliance. Taken together, How2Everything shows how pretraining web data can support a closed loop of capability evaluation and improvement at scale.
PDF72February 11, 2026