ChatPaper.aiChatPaper

ATLAS: Valutazione e Adattamento di LLM per il Commercio Globale tramite Classificazione Armonizzata dei Codici Doganali

ATLAS: Benchmarking and Adapting LLMs for Global Trade via Harmonized Tariff Code Classification

September 22, 2025
Autori: Pritish Yuvraj, Siva Devarakonda
cs.AI

Abstract

La classificazione accurata dei prodotti secondo il Sistema Armonizzato delle Tariffe Doganali (HTS) rappresenta un collo di bottiglia critico nel commercio globale, ma ha ricevuto scarsa attenzione da parte della comunità di machine learning. Una classificazione errata può bloccare completamente le spedizioni, con i principali operatori postali che sospendono le consegne negli Stati Uniti a causa di documentazione doganale incompleta. Introduciamo il primo benchmark per la classificazione dei codici HTS, derivato dal sistema di ricerca online delle decisioni doganali statunitensi (CROSS). Valutando i principali modelli di linguaggio di grandi dimensioni (LLM), abbiamo riscontrato che il nostro modello Atlas ottimizzato (LLaMA-3.3-70B) raggiunge il 40% di classificazioni corrette a 10 cifre e il 57,5% di classificazioni corrette a 6 cifre, con miglioramenti rispettivamente di 15 e 27,5 punti rispetto a GPT-5-Thinking e Gemini-2.5-Pro-Thinking. Oltre alla precisione, Atlas è circa cinque volte più economico di GPT-5-Thinking e otto volte più economico di Gemini-2.5-Pro-Thinking, e può essere ospitato in autonomia per garantire la privacy dei dati nei flussi di lavoro ad alto rischio nel commercio e nella conformità. Sebbene Atlas stabilisca una solida base di riferimento, il benchmark rimane estremamente impegnativo, con solo il 40% di accuratezza a 10 cifre. Rilasciando sia il dataset che il modello, miriamo a posizionare la classificazione HTS come un nuovo compito di riferimento per la comunità e invitiamo futuri lavori nel campo del recupero delle informazioni, del ragionamento e dell'allineamento.
English
Accurate classification of products under the Harmonized Tariff Schedule (HTS) is a critical bottleneck in global trade, yet it has received little attention from the machine learning community. Misclassification can halt shipments entirely, with major postal operators suspending deliveries to the U.S. due to incomplete customs documentation. We introduce the first benchmark for HTS code classification, derived from the U.S. Customs Rulings Online Search System (CROSS). Evaluating leading LLMs, we find that our fine-tuned Atlas model (LLaMA-3.3-70B) achieves 40 percent fully correct 10-digit classifications and 57.5 percent correct 6-digit classifications, improvements of 15 points over GPT-5-Thinking and 27.5 points over Gemini-2.5-Pro-Thinking. Beyond accuracy, Atlas is roughly five times cheaper than GPT-5-Thinking and eight times cheaper than Gemini-2.5-Pro-Thinking, and can be self-hosted to guarantee data privacy in high-stakes trade and compliance workflows. While Atlas sets a strong baseline, the benchmark remains highly challenging, with only 40 percent 10-digit accuracy. By releasing both dataset and model, we aim to position HTS classification as a new community benchmark task and invite future work in retrieval, reasoning, and alignment.
PDF22September 25, 2025