Revisitando a Generalização entre Níveis de Dificuldade: Não É Tão Simples

Resumo

Investigamos a capacidade de generalização de modelos de linguagem de grande porte (LLMs) em diferentes níveis de dificuldade de tarefas, uma questão fundamental para a curadoria e avaliação eficaz de dados. Pesquisas existentes apresentam resultados contraditórios sobre se o treinamento com dados mais fáceis ou mais difíceis produz melhores resultados, e se esses ganhos se manifestam em dados de teste mais fáceis ou mais difíceis. Abordamos esta questão realizando uma avaliação sistemática da generalização de LLMs através de modelos, conjuntos de dados e grupos granulares de exemplos por dificuldade. Classificamos exemplos em seis conjuntos de dados utilizando os *outputs* de milhares de LLMs diferentes e a Teoria de Resposta ao Item (TRI), uma métrica de dificuldade bem estabelecida em testes educacionais. Diferente de trabalhos anteriores, nossas classificações de dificuldade são, portanto, determinadas exclusivamente pelas capacidades de muitos LLMs diferentes, excluindo opiniões humanas sobre a dificuldade. Com uma análise mais objetiva, em maior escala e com granularidade mais fina, demonstramos que a generalização transversal de dificuldade é frequentemente limitada; o treinamento com dados fáceis ou difíceis não consegue alcançar melhorias consistentes em toda a gama de dificuldades. Estes resultados evidenciam a importância de incluir uma variedade de níveis de dificuldade tanto nos dados de treinamento quanto nos de avaliação para LLMs, e que buscar atalhos em relação à dificuldade é arriscado.

English

We investigate how well large language models (LLMs) generalize across different task difficulties, a key question for effective data curation and evaluation. Existing research is mixed regarding whether training on easier or harder data leads to better results, and whether those gains come on easier or harder test data. We address this question by conducting a systematic evaluation of LLMs' generalization across models, datasets, and fine-grained groups of example difficulty. We rank examples in six datasets using the outputs of thousands of different LLMs and Item Response Theory (IRT), a well-established difficulty metric in educational testing. Unlike prior work, our difficulty ratings are therefore determined solely by the abilities of many different LLMs, excluding human opinions of difficulty. With a more objective, larger-scale, and finer-grained analysis, we show that cross-difficulty generalization is often limited; training on either easy or hard data cannot achieve consistent improvements across the full range of difficulties. These results show the importance of having a range of difficulties in both training and evaluation data for LLMs, and that taking shortcuts with respect to difficulty is risky.

Revisitando a Generalização entre Níveis de Dificuldade: Não É Tão Simples

Revisiting Generalization Across Difficulty Levels: It's Not So Easy

Resumo

Support