Tiny QA Benchmark++: 연속적인 LLM 평가를 위한 초경량 합성 다국어 데이터셋 생성 및 스모크 테스트
Tiny QA Benchmark++: Ultra-Lightweight, Synthetic Multilingual Dataset Generation & Smoke-Tests for Continuous LLM Evaluation
May 17, 2025
저자: Vincent Koc
cs.AI
초록
Tiny QA Benchmark++(TQB++)는 대규모 언어 모델(LLM) 파이프라인을 위한 초경량 다국어 스모크 테스트 스위트로, 단위 테스트 스타일의 안전망 데이터셋을 제공하며 최소 비용으로 몇 초 만에 실행됩니다. 이는 Comet Opik 프롬프트 최적화 SDK를 개발하는 과정에서 무거운 벤치마크 대기 시간이 개발자 흐름을 방해하는 문제를 해결하기 위해 탄생했습니다. TQB++는 52개 항목의 영어 골드 세트(20kB 미만)와 LiteLLM 기반의 초경량 합성 데이터 생성기 pypi 패키지를 결합합니다. 이 생성기를 통해 실무자들은 어떤 언어, 도메인, 난이도에서도 자신만의 초소형 데이터 팩을 생성할 수 있으며, 아랍어, 중국어, 프랑스어, 독일어, 일본어, 한국어, 포르투갈어, 러시아어, 스페인어, 터키어를 포함한 10개의 사전 제작 팩이 이미 준비되어 있습니다. 모든 데이터셋은 Croissant 메타데이터와 OpenAI-Evals, LangChain, 표준 CI 도구를 위한 플러그 앤 플레이 파일을 제공하므로, 팀들은 GPU 예산을 건드리지 않고도 풀 리퀘스트 게이트, 프롬프트 엔지니어링 루프, 프로덕션 대시보드에 결정론적 마이크로 벤치마크를 바로 적용할 수 있습니다. TQB++ 전체 실행은 파이프라인 지연 시간에 불과 몇 초만 추가하지만, MMLU나 BIG-Bench 같은 대규모 테스트 스위트가 설정을 완료하기 훨씬 전에 프롬프트 템플릿 오류, 토크나이저 드리프트, 파인튜닝 부작용 등을 신뢰성 있게 탐지합니다. 이 프레임워크는 생성형 AI 생태계 전반에 걸쳐 지속적이고 자원 효율적인 품질 보증을 가속화하기 위해 공개되었습니다.
English
Tiny QA Benchmark++ (TQB++) presents an ultra-lightweight, multilingual
smoke-test suite designed to give large-language-model (LLM) pipelines a
unit-test style safety net dataset that runs in seconds with minimal cost. Born
out of the tight feedback-loop demands building the Comet Opik
prompt-optimization SDK, where waiting on heavyweight benchmarks breaks
developer flow. TQB++ couples a 52-item English gold set (less than 20 kB) with
a tiny synthetic-data generator pypi package built on provider-agnostic
LiteLLM. The generator lets practitioners mint their own tiny packs in any
language, domain, or difficulty, while ten ready-made packs already cover
Arabic, Chinese, French, German, Japanese, Korean, Portuguese, Russian,
Spanish, and Turkish. Every dataset ships with Croissant metadata and
plug-and-play files for OpenAI-Evals, LangChain, and standard CI tools, so
teams can drop deterministic micro-benchmarks directly into pull-request gates,
prompt-engineering loops, and production dashboards without touching GPU
budgets. A complete TQB++ run adds only a few seconds to pipeline latency yet
reliably flags prompt-template errors, tokenizer drift, and fine-tuning
side-effects long before full-scale suites like MMLU or BIG-Bench would finish
configuring. The entire framework is released to accelerate continuous,
resource-efficient quality assurance across the generative-AI ecosystem.Summary
AI-Generated Summary