ATLAS : Évaluation et adaptation des modèles de langage pour le commerce mondial via la classification harmonisée des codes tarifaires

Résumé

La classification précise des produits selon le Système Harmonisé (SH) constitue un goulot d'étranglement critique dans le commerce mondial, mais elle a reçu peu d'attention de la part de la communauté de l'apprentissage automatique. Une mauvaise classification peut entraîner l'arrêt complet des expéditions, avec des opérateurs postaux majeurs suspendant les livraisons vers les États-Unis en raison de documents douaniers incomplets. Nous présentons le premier benchmark pour la classification des codes SH, dérivé du système de recherche en ligne des décisions douanières américaines (CROSS). En évaluant les principaux modèles de langage (LLM), nous constatons que notre modèle Atlas affiné (LLaMA-3.3-70B) atteint 40 % de classifications correctes à 10 chiffres et 57,5 % de classifications correctes à 6 chiffres, soit une amélioration de 15 points par rapport à GPT-5-Thinking et de 27,5 points par rapport à Gemini-2.5-Pro-Thinking. Au-delà de la précision, Atlas est environ cinq fois moins cher que GPT-5-Thinking et huit fois moins cher que Gemini-2.5-Pro-Thinking, et peut être auto-hébergé pour garantir la confidentialité des données dans les flux de travail critiques liés au commerce et à la conformité. Bien qu'Atlas établisse une base solide, le benchmark reste très exigeant, avec seulement 40 % de précision à 10 chiffres. En publiant à la fois le jeu de données et le modèle, nous visons à positionner la classification SH comme une nouvelle tâche de référence pour la communauté et à encourager les travaux futurs en matière de recherche d'information, de raisonnement et d'alignement.

English

Accurate classification of products under the Harmonized Tariff Schedule (HTS) is a critical bottleneck in global trade, yet it has received little attention from the machine learning community. Misclassification can halt shipments entirely, with major postal operators suspending deliveries to the U.S. due to incomplete customs documentation. We introduce the first benchmark for HTS code classification, derived from the U.S. Customs Rulings Online Search System (CROSS). Evaluating leading LLMs, we find that our fine-tuned Atlas model (LLaMA-3.3-70B) achieves 40 percent fully correct 10-digit classifications and 57.5 percent correct 6-digit classifications, improvements of 15 points over GPT-5-Thinking and 27.5 points over Gemini-2.5-Pro-Thinking. Beyond accuracy, Atlas is roughly five times cheaper than GPT-5-Thinking and eight times cheaper than Gemini-2.5-Pro-Thinking, and can be self-hosted to guarantee data privacy in high-stakes trade and compliance workflows. While Atlas sets a strong baseline, the benchmark remains highly challenging, with only 40 percent 10-digit accuracy. By releasing both dataset and model, we aim to position HTS classification as a new community benchmark task and invite future work in retrieval, reasoning, and alignment.