TensorBLEU : Implémentation vectorisée basée sur GPU du score BLEU pour l'évaluation par phrase pendant l'entraînement

papers.abstract

Les modèles modernes de traitement du langage naturel ont atteint une échelle sans précédent, mais les outils pour leur évaluation restent souvent un goulot d'étranglement computationnel, limitant le rythme de la recherche. Ce problème est particulièrement aigu pour les métriques d'évaluation en cours d'entraînement, telles que les signaux de récompense par phrase dans l'apprentissage par renforcement, qui doivent fonctionner efficacement sur des lots d'identifiants de tokens directement sur le GPU. Dans cet article, nous présentons TensorBLEU, une nouvelle implémentation de la métrique BLEU conçue spécifiquement pour ce cas d'utilisation. Notre approche est entièrement vectorisée pour un calcul accéléré par GPU, phrase par phrase, dans PyTorch, et introduit un mécanisme de comptage économe en mémoire. En créant un dictionnaire compact de n-grams spécifique à chaque lot à l'aide de torch.unique, notre méthode évite les coûts mémoire prohibitifs de la vectorisation traditionnelle basée sur le hachage, la rendant pratique pour les modèles à vocabulaire étendu. Nous comparons TensorBLEU à NLTK, la bibliothèque standard pour le calcul de BLEU basé sur des identifiants de tokens sur le CPU. Les expériences montrent que TensorBLEU offre des accélérations de plus de 13x sur des GPU grand public (NVIDIA T4) et dépassant 40x sur du matériel de classe centre de données (NVIDIA A100). Cette performance transforme un goulot d'étranglement significatif en une partie négligeable de la boucle d'entraînement. En définissant clairement son rôle en tant que "BLEU sur identifiants de tokens" à des fins de développement et en ouvrant notre implémentation en open source, nous fournissons un outil puissant pour accélérer la recherche dans des domaines comme le réglage fin de modèles basé sur l'apprentissage par renforcement.

English

Modern natural language processing models have achieved unprecedented scale, yet the tools for their evaluation often remain a computational bottleneck, limiting the pace of research. This is particularly acute for in-training evaluation metrics, such as per-sentence reward signals in Reinforcement Learning, which must operate efficiently on batches of token IDs directly on the GPU. In this paper, we introduce TensorBLEU, a novel implementation of the BLEU metric designed from the ground up for this specific use case. Our approach is fully vectorized for GPU-accelerated, per-sentence computation within PyTorch and introduces a memory-efficient counting mechanism. By creating a compact, batch-specific dictionary of n-grams using torch.unique, our method avoids the prohibitive memory costs of traditional hashing-based vectorization, making it practical for large-vocabulary models. We benchmark TensorBLEU against NLTK, the standard library for token-ID-based BLEU calculation on the CPU. Experiments show that TensorBLEU provides speedups of over 13x on consumer-grade GPUs (NVIDIA T4) and exceeding 40x on data-center-class hardware (NVIDIA A100). This performance transforms a significant bottleneck into a negligible part of the training loop. By clearly defining its role as a "Token-ID BLEU" for development purposes and open-sourcing our implementation, we provide a powerful tool for accelerating research in areas like RL-based model fine-tuning.

TensorBLEU : Implémentation vectorisée basée sur GPU du score BLEU pour l'évaluation par phrase pendant l'entraînement

TensorBLEU: Vectorized GPU-based BLEU Score Implementation for Per-Sentence In-Training Evaluation

papers.abstract

Support