ChatPaper.aiChatPaper

ATLAS: Benchmarking und Anpassung von LLMs für den globalen Handel durch harmonisierte Zolltarifcode-Klassifizierung

ATLAS: Benchmarking and Adapting LLMs for Global Trade via Harmonized Tariff Code Classification

September 22, 2025
papers.authors: Pritish Yuvraj, Siva Devarakonda
cs.AI

papers.abstract

Die genaue Klassifizierung von Produkten gemäß dem Harmonisierten System (HS) stellt einen kritischen Engpass im globalen Handel dar, hat jedoch bisher nur wenig Aufmerksamkeit von der Machine-Learning-Community erhalten. Fehlklassifizierungen können den Versand vollständig zum Erliegen bringen, wobei große Postbetreiber die Lieferungen in die USA aufgrund unvollständiger Zolldokumentation aussetzen. Wir stellen den ersten Benchmark für die HS-Code-Klassifizierung vor, der aus dem U.S. Customs Rulings Online Search System (CROSS) abgeleitet wurde. Bei der Bewertung führender LLMs zeigt unser feinabgestimmtes Atlas-Modell (LLaMA-3.3-70B) eine Genauigkeit von 40 Prozent bei vollständig korrekten 10-stelligen Klassifizierungen und 57,5 Prozent bei korrekten 6-stelligen Klassifizierungen, was Verbesserungen von 15 Punkten gegenüber GPT-5-Thinking und 27,5 Punkten gegenüber Gemini-2.5-Pro-Thinking darstellt. Neben der Genauigkeit ist Atlas etwa fünfmal günstiger als GPT-5-Thinking und achtmal günstiger als Gemini-2.5-Pro-Thinking und kann selbst gehostet werden, um die Datensicherheit in hochsensiblen Handels- und Compliance-Workflows zu gewährleisten. Obwohl Atlas eine solide Basis setzt, bleibt der Benchmark äußerst anspruchsvoll, mit nur 40 Prozent Genauigkeit bei 10-stelligen Klassifizierungen. Durch die Veröffentlichung von Datensatz und Modell möchten wir die HS-Klassifizierung als neue Benchmark-Aufgabe für die Community etablieren und zukünftige Arbeiten in den Bereichen Retrieval, Reasoning und Alignment anregen.
English
Accurate classification of products under the Harmonized Tariff Schedule (HTS) is a critical bottleneck in global trade, yet it has received little attention from the machine learning community. Misclassification can halt shipments entirely, with major postal operators suspending deliveries to the U.S. due to incomplete customs documentation. We introduce the first benchmark for HTS code classification, derived from the U.S. Customs Rulings Online Search System (CROSS). Evaluating leading LLMs, we find that our fine-tuned Atlas model (LLaMA-3.3-70B) achieves 40 percent fully correct 10-digit classifications and 57.5 percent correct 6-digit classifications, improvements of 15 points over GPT-5-Thinking and 27.5 points over Gemini-2.5-Pro-Thinking. Beyond accuracy, Atlas is roughly five times cheaper than GPT-5-Thinking and eight times cheaper than Gemini-2.5-Pro-Thinking, and can be self-hosted to guarantee data privacy in high-stakes trade and compliance workflows. While Atlas sets a strong baseline, the benchmark remains highly challenging, with only 40 percent 10-digit accuracy. By releasing both dataset and model, we aim to position HTS classification as a new community benchmark task and invite future work in retrieval, reasoning, and alignment.
PDF22September 25, 2025