How2Everything: Mineração de Procedimentos "Como Fazer" na Web para Avaliar e Aprimorar LLMs

Resumo

A geração de procedimentos passo a passo do tipo "como fazer" é uma capacidade fundamental dos LLMs: instruções de como realizar tarefas são comumente solicitadas em chatbots, e o planejamento sequencial é crucial para o raciocínio em tarefas complexas. No entanto, medir e melhorar a validade procedural em escala em tarefas do mundo real continua sendo um desafio e um tema pouco estudado. Para enfrentar isso, apresentamos o How2Everything, uma estrutura escalável para avaliar e melhorar a geração de procedimentos condicionada a objetivos. Nossa estrutura inclui o How2Mine, que extrai 351 mil procedimentos de 980 mil páginas da web em 14 tópicos e se escala facilmente para corpora maiores. A partir deste conjunto, construímos o How2Bench, um conjunto de avaliação com 7 mil exemplos, equilibrado entre os tópicos. Para pontuar de forma confiável as saídas dos modelos, desenvolvemos o How2Score, um protocolo de avaliação que usa um LLM como juiz para detectar se uma geração contém qualquer falha crítica que impediria a consecução do objetivo. Para uma avaliação de baixo custo e reproduzível, destilamos um modelo de ponta em um modelo aberto de 8B, alcançando 80,5% de concordância com anotadores humanos. O How2Bench revela tendências claras de escalonamento entre tamanhos de modelos e estágios de treinamento, fornecendo sinal já no início do pré-treinamento. Por fim, o uso de Aprendizado por Reforço (RL) com o How2Score como função de recompessa melhorou o desempenho no How2Bench em mais de 10 pontos em três modelos, sem regressões sistemáticas em benchmarks padrão, sendo os ganhos robustos contra a memorização superficial de documentos-fonte ou a simples conformidade de formato. Em conjunto, o How2Everything demonstra como dados da web de pré-treinamento podem sustentar um ciclo fechado de avaliação e melhoria de capacidades em escala.

English

Generating step-by-step "how-to" procedures is a key LLM capability: how-to advice is commonly requested in chatbots, and step-by-step planning is critical for reasoning over complex tasks. Yet, measuring and improving procedural validity at scale on real-world tasks remains challenging and understudied. To address this, we introduce How2Everything, a scalable framework to evaluate and improve goal-conditioned procedure generation. Our framework includes How2Mine, which mines 351K procedures from 980K web pages across 14 topics and readily scales to larger corpora. From this pool we build How2Bench, a 7K-example evaluation set balanced across topics. To reliably score model outputs, we develop How2Score, an evaluation protocol that uses an LLM judge to detect whether a generation contains any critical failure that would prevent achieving the goal. For low-cost, reproducible evaluation, we distill a frontier model into an open 8B model, achieving 80.5% agreement with human annotators. How2Bench reveals clear scaling trends across model sizes and training stages, providing signal early in pretraining. Finally, RL using How2Score as a reward improves performance on How2Bench by >10 points across three models without systematic regressions on standard benchmarks, with gains robust to superficial source-document memorization or format compliance. Taken together, How2Everything shows how pretraining web data can support a closed loop of capability evaluation and improvement at scale.

How2Everything: Mineração de Procedimentos "Como Fazer" na Web para Avaliar e Aprimorar LLMs

How2Everything: Mining the Web for How-To Procedures to Evaluate and Improve LLMs

Resumo

Support