Как заставить вашу языковую модель генерировать сложные задачи для оценки
How to Get Your LLM to Generate Challenging Problems for Evaluation
February 20, 2025
Авторы: Arkil Patel, Siva Reddy, Dzmitry Bahdanau
cs.AI
Аннотация
Быстрый темп эволюции крупных языковых моделей (LLM) требует новых подходов для строгой и всесторонней оценки. Традиционная аннотация человеком становится все менее практичной из-за сложностей и затрат, связанных с созданием высококачественных и сложных задач. В данной работе мы представляем CHASE — унифицированную платформу для синтетической генерации сложных задач с использованием LLM без участия человека. Для конкретной задачи наш подход строит сложную проблему снизу вверх, начиная с более простых компонентов. Кроме того, наша платформа разбивает процесс генерации на независимо проверяемые подзадачи, что обеспечивает высокий уровень качества и корректности. Мы реализовали CHASE для создания оценочных тестов в трех различных областях: (1) ответы на вопросы на основе документов, (2) завершение кода на уровне репозитория и (3) математические рассуждения. Результаты современных LLM на этих синтетических тестах находятся в диапазоне 40–60% точности, что демонстрирует эффективность нашей платформы в генерации сложных задач. Мы публикуем наши тесты и код в открытом доступе.
English
The pace of evolution of Large Language Models (LLMs) necessitates new
approaches for rigorous and comprehensive evaluation. Traditional human
annotation is increasingly impracticable due to the complexities and costs
involved in generating high-quality, challenging problems. In this work, we
introduce CHASE, a unified framework to synthetically generate challenging
problems using LLMs without human involvement. For a given task, our approach
builds a hard problem in a bottom-up manner from simpler components. Moreover,
our framework decomposes the generation process into independently verifiable
sub-tasks, thereby ensuring a high level of quality and correctness. We
implement CHASE to create evaluation benchmarks across three diverse domains:
(1) document-based question answering, (2) repository-level code completion,
and (3) math reasoning. The performance of state-of-the-art LLMs on these
synthetic benchmarks lies in the range of 40-60% accuracy, thereby
demonstrating the effectiveness of our framework at generating challenging
problems. We publicly release our benchmarks and code.Summary
AI-Generated Summary