ATLAS: Benchmarken en aanpassen van LLM's voor wereldhandel via geharmoniseerde tariefcodeclassificatie
ATLAS: Benchmarking and Adapting LLMs for Global Trade via Harmonized Tariff Code Classification
September 22, 2025
Auteurs: Pritish Yuvraj, Siva Devarakonda
cs.AI
Samenvatting
Nauwkeurige classificatie van producten volgens het Geharmoniseerd Systeem (GS) is een kritieke knelpunt in de wereldhandel, maar heeft tot nu toe weinig aandacht gekregen van de machine learning-gemeenschap. Verkeerde classificatie kan zendingen volledig stilleggen, waarbij grote postbedrijven leveringen aan de VS opschorten vanwege onvolledige douanedocumentatie. Wij introduceren de eerste benchmark voor GS-codeclassificatie, afgeleid van het U.S. Customs Rulings Online Search System (CROSS). Na evaluatie van toonaangevende LLM's, blijkt dat ons fijn afgestelde Atlas-model (LLaMA-3.3-70B) 40 procent volledig correcte 10-cijferige classificaties en 57,5 procent correcte 6-cijferige classificaties behaalt, wat een verbetering is van 15 punten ten opzichte van GPT-5-Thinking en 27,5 punten ten opzichte van Gemini-2.5-Pro-Thinking. Naast nauwkeurigheid is Atlas ongeveer vijf keer goedkoper dan GPT-5-Thinking en acht keer goedkoper dan Gemini-2.5-Pro-Thinking, en kan het zelf worden gehost om gegevensprivacy te garanderen in hoogwaardige handels- en compliancewerkstromen. Hoewel Atlas een sterke basis legt, blijft de benchmark zeer uitdagend, met slechts 40 procent nauwkeurigheid op 10-cijferig niveau. Door zowel de dataset als het model vrij te geven, streven we ernaar om GS-classificatie te positioneren als een nieuwe gemeenschapsbenchmarktaak en nodigen we toekomstig onderzoek uit op het gebied van retrieval, redenering en afstemming.
English
Accurate classification of products under the Harmonized Tariff Schedule
(HTS) is a critical bottleneck in global trade, yet it has received little
attention from the machine learning community. Misclassification can halt
shipments entirely, with major postal operators suspending deliveries to the
U.S. due to incomplete customs documentation. We introduce the first benchmark
for HTS code classification, derived from the U.S. Customs Rulings Online
Search System (CROSS). Evaluating leading LLMs, we find that our fine-tuned
Atlas model (LLaMA-3.3-70B) achieves 40 percent fully correct 10-digit
classifications and 57.5 percent correct 6-digit classifications, improvements
of 15 points over GPT-5-Thinking and 27.5 points over Gemini-2.5-Pro-Thinking.
Beyond accuracy, Atlas is roughly five times cheaper than GPT-5-Thinking and
eight times cheaper than Gemini-2.5-Pro-Thinking, and can be self-hosted to
guarantee data privacy in high-stakes trade and compliance workflows. While
Atlas sets a strong baseline, the benchmark remains highly challenging, with
only 40 percent 10-digit accuracy. By releasing both dataset and model, we aim
to position HTS classification as a new community benchmark task and invite
future work in retrieval, reasoning, and alignment.