TensorBLEU: Een Gevectoriseerde GPU-gebaseerde BLEU Score Implementatie voor Per-Zin Evaluatie Tijdens het Trainen

Samenvatting

Moderne modellen voor natuurlijke taalverwerking hebben een ongekende schaal bereikt, maar de tools voor hun evaluatie vormen vaak een rekenkundig knelpunt, wat het tempo van onderzoek beperkt. Dit is vooral acuut voor evaluatiemetrics tijdens de training, zoals per-zin beloningssignalen in Reinforcement Learning, die efficiënt moeten werken op batches van token-ID's direct op de GPU. In dit artikel introduceren we TensorBLEU, een nieuwe implementatie van de BLEU-metric die vanaf de grond is ontworpen voor dit specifieke gebruik. Onze aanpak is volledig gevectoriseerd voor GPU-versnelde, per-zin berekeningen binnen PyTorch en introduceert een geheugenefficiënt telmechanisme. Door een compact, batch-specifiek woordenboek van n-grams te creëren met behulp van torch.unique, vermijdt onze methode de onhoudbare geheugenkosten van traditionele, op hashing gebaseerde vectorisatie, waardoor het praktisch is voor modellen met een grote woordenschat. We vergelijken TensorBLEU met NLTK, de standaardbibliotheek voor BLEU-berekening op basis van token-ID's op de CPU. Experimenten tonen aan dat TensorBLEU snelheidsverbeteringen biedt van meer dan 13x op consumenten-GPU's (NVIDIA T4) en meer dan 40x op datacenter-hardware (NVIDIA A100). Deze prestatie verandert een significant knelpunt in een verwaarloosbaar onderdeel van de trainingsloop. Door de rol ervan duidelijk te definiëren als een "Token-ID BLEU" voor ontwikkelingsdoeleinden en onze implementatie open source te maken, bieden we een krachtig hulpmiddel om onderzoek te versnellen in gebieden zoals RL-gebaseerde model-finetuning.

English

Modern natural language processing models have achieved unprecedented scale, yet the tools for their evaluation often remain a computational bottleneck, limiting the pace of research. This is particularly acute for in-training evaluation metrics, such as per-sentence reward signals in Reinforcement Learning, which must operate efficiently on batches of token IDs directly on the GPU. In this paper, we introduce TensorBLEU, a novel implementation of the BLEU metric designed from the ground up for this specific use case. Our approach is fully vectorized for GPU-accelerated, per-sentence computation within PyTorch and introduces a memory-efficient counting mechanism. By creating a compact, batch-specific dictionary of n-grams using torch.unique, our method avoids the prohibitive memory costs of traditional hashing-based vectorization, making it practical for large-vocabulary models. We benchmark TensorBLEU against NLTK, the standard library for token-ID-based BLEU calculation on the CPU. Experiments show that TensorBLEU provides speedups of over 13x on consumer-grade GPUs (NVIDIA T4) and exceeding 40x on data-center-class hardware (NVIDIA A100). This performance transforms a significant bottleneck into a negligible part of the training loop. By clearly defining its role as a "Token-ID BLEU" for development purposes and open-sourcing our implementation, we provide a powerful tool for accelerating research in areas like RL-based model fine-tuning.

TensorBLEU: Een Gevectoriseerde GPU-gebaseerde BLEU Score Implementatie voor Per-Zin Evaluatie Tijdens het Trainen

TensorBLEU: Vectorized GPU-based BLEU Score Implementation for Per-Sentence In-Training Evaluation

Samenvatting

Support