ChatPaper.aiChatPaper

How2Everything: 대규모 언어 모델 평가 및 개선을 위한 웹 기반 How-To 절차 마이닝

How2Everything: Mining the Web for How-To Procedures to Evaluate and Improve LLMs

February 9, 2026
저자: Yapei Chang, Kyle Lo, Mohit Iyyer, Luca Soldaini
cs.AI

초록

단계별 "방법" 절차 생성은 LLM의 핵심 능력입니다: 챗봇에서는 방법 관련 조언이 자주 요청되며, 복잡한 작업에 대한 추론에는 단계별 계획 수립이 중요합니다. 그러나 실제 작업에서 절차의 타당성을 대규모로 측정하고 개선하는 것은 여전히 어려운 과제이며 충분히 연구되지 않았습니다. 이를 해결하기 위해 우리는 목표 기반 절차 생성의 평가 및 개선을 위한 확장 가능한 프레임워크인 How2Everything을 소개합니다. 우리의 프레임워크는 14개 주제에 걸쳐 980K개의 웹 페이지에서 351K개의 절차를 추출하며 더 큰 코퍼스로 쉽게 확장 가능한 How2Mine을 포함합니다. 이 풀에서 우리는 주제 간 균형이 잡힌 7K개의 평가 세트인 How2Bench를 구축합니다. 모델 출력을 신뢰할 수 있게 평가하기 위해, 우리는 LLM 평가자를 사용하여 생성 결과가 목표 달성을 방해하는 치명적 결함을 포함하는지 탐지하는 평가 프로토콜인 How2Score를 개발했습니다. 저비용으로 재현 가능한 평가를 위해 최첨단 모델을 오픈 소스 8B 모델로 지식 증류하여 인간 주석자와 80.5% 일치율을 달성했습니다. How2Bench는 모델 크기와 학습 단계에 따른 명확한 확장 경향을 보여주며 사전 학습 초기부터 신호를 제공합니다. 마지막으로, How2Score를 보상으로 활용한 강화 학습은 세 가지 모델에서 How2Bench 성능을 10점 이상 향상시켰으며, 표준 벤치마크에서 체계적인 저하 없이 표면적 소스 문서 암기나 형식 준수에 강건한 개선 효과를 보였습니다. 종합하면, How2Everything은 웹 데이터 사전 학습이 어떻게 대규모 능력 평가와 개선의 폐쇄형 루프를 지원할 수 있는지 보여줍니다.
English
Generating step-by-step "how-to" procedures is a key LLM capability: how-to advice is commonly requested in chatbots, and step-by-step planning is critical for reasoning over complex tasks. Yet, measuring and improving procedural validity at scale on real-world tasks remains challenging and understudied. To address this, we introduce How2Everything, a scalable framework to evaluate and improve goal-conditioned procedure generation. Our framework includes How2Mine, which mines 351K procedures from 980K web pages across 14 topics and readily scales to larger corpora. From this pool we build How2Bench, a 7K-example evaluation set balanced across topics. To reliably score model outputs, we develop How2Score, an evaluation protocol that uses an LLM judge to detect whether a generation contains any critical failure that would prevent achieving the goal. For low-cost, reproducible evaluation, we distill a frontier model into an open 8B model, achieving 80.5% agreement with human annotators. How2Bench reveals clear scaling trends across model sizes and training stages, providing signal early in pretraining. Finally, RL using How2Score as a reward improves performance on How2Bench by >10 points across three models without systematic regressions on standard benchmarks, with gains robust to superficial source-document memorization or format compliance. Taken together, How2Everything shows how pretraining web data can support a closed loop of capability evaluation and improvement at scale.
PDF72February 11, 2026