ATLAS: 조화된 관세 코드 분류를 통해 글로벌 무역을 위한 대형 언어 모델 벤치마킹 및 적응
ATLAS: Benchmarking and Adapting LLMs for Global Trade via Harmonized Tariff Code Classification
September 22, 2025
저자: Pritish Yuvraj, Siva Devarakonda
cs.AI
초록
HS 코드(Harmonized Tariff Schedule)에 따른 제품의 정확한 분류는 글로벌 무역에서 중요한 병목 현상이지만, 머신러닝 커뮤니티에서는 거의 주목받지 못했습니다. 잘못된 분류는 선적을 완전히 중단시킬 수 있으며, 주요 우편 운영사들은 불완전한 세관 서류로 인해 미국으로의 배송을 중단하기도 합니다. 우리는 미국 세관의 CROSS(Customs Rulings Online Search System)에서 파생된 HS 코드 분류를 위한 첫 번째 벤치마크를 소개합니다. 주요 LLM(Large Language Model)을 평가한 결과, 우리가 미세 조정한 Atlas 모델(LLaMA-3.3-70B)은 10자리 코드 분류에서 40%, 6자리 코드 분류에서 57.5%의 정확도를 달성했으며, 이는 GPT-5-Thinking보다 15포인트, Gemini-2.5-Pro-Thinking보다 27.5포인트 향상된 수치입니다. 정확도 외에도 Atlas는 GPT-5-Thinking보다 약 5배, Gemini-2.5-Pro-Thinking보다 약 8배 저렴하며, 데이터 프라이버시를 보장하기 위해 자체 호스팅이 가능하여 고위험 무역 및 규제 워크플로우에 적합합니다. Atlas가 강력한 기준을 제시했음에도 불구하고, 이 벤치마크는 여전히 매우 도전적인 과제로 남아 있으며, 10자리 코드 정확도는 40%에 그칩니다. 데이터셋과 모델을 모두 공개함으로써, 우리는 HS 코드 분류를 새로운 커뮤니티 벤치마크 과제로 자리매김하고, 검색, 추론, 정렬 분야의 향후 연구를 촉진하고자 합니다.
English
Accurate classification of products under the Harmonized Tariff Schedule
(HTS) is a critical bottleneck in global trade, yet it has received little
attention from the machine learning community. Misclassification can halt
shipments entirely, with major postal operators suspending deliveries to the
U.S. due to incomplete customs documentation. We introduce the first benchmark
for HTS code classification, derived from the U.S. Customs Rulings Online
Search System (CROSS). Evaluating leading LLMs, we find that our fine-tuned
Atlas model (LLaMA-3.3-70B) achieves 40 percent fully correct 10-digit
classifications and 57.5 percent correct 6-digit classifications, improvements
of 15 points over GPT-5-Thinking and 27.5 points over Gemini-2.5-Pro-Thinking.
Beyond accuracy, Atlas is roughly five times cheaper than GPT-5-Thinking and
eight times cheaper than Gemini-2.5-Pro-Thinking, and can be self-hosted to
guarantee data privacy in high-stakes trade and compliance workflows. While
Atlas sets a strong baseline, the benchmark remains highly challenging, with
only 40 percent 10-digit accuracy. By releasing both dataset and model, we aim
to position HTS classification as a new community benchmark task and invite
future work in retrieval, reasoning, and alignment.