ATLAS: Avaliação e Adaptação de LLMs para o Comércio Global via Classificação de Códigos Tarifários Harmonizados
ATLAS: Benchmarking and Adapting LLMs for Global Trade via Harmonized Tariff Code Classification
September 22, 2025
Autores: Pritish Yuvraj, Siva Devarakonda
cs.AI
Resumo
A classificação precisa de produtos sob o Sistema Harmonizado de Tarifas (HTS) é um gargalo crítico no comércio global, mas tem recebido pouca atenção da comunidade de aprendizado de máquina. A má classificação pode interromper completamente as remessas, com grandes operadores postais suspendendo entregas aos EUA devido a documentação alfandegária incompleta. Apresentamos o primeiro benchmark para classificação de códigos HTS, derivado do Sistema de Busca Online de Decisões Alfandegárias dos EUA (CROSS). Avaliando os principais LLMs, descobrimos que nosso modelo Atlas ajustado (LLaMA-3.3-70B) alcança 40% de classificações corretas de 10 dígitos e 57,5% de classificações corretas de 6 dígitos, melhorias de 15 pontos em relação ao GPT-5-Thinking e 27,5 pontos em relação ao Gemini-2.5-Pro-Thinking. Além da precisão, o Atlas é aproximadamente cinco vezes mais barato que o GPT-5-Thinking e oito vezes mais barato que o Gemini-2.5-Pro-Thinking, e pode ser auto-hospedado para garantir a privacidade dos dados em fluxos de trabalho de comércio e conformidade de alto risco. Embora o Atlas estabeleça uma base sólida, o benchmark continua altamente desafiador, com apenas 40% de precisão em 10 dígitos. Ao liberar tanto o conjunto de dados quanto o modelo, nosso objetivo é posicionar a classificação HTS como uma nova tarefa de benchmark para a comunidade e convidar trabalhos futuros em recuperação, raciocínio e alinhamento.
English
Accurate classification of products under the Harmonized Tariff Schedule
(HTS) is a critical bottleneck in global trade, yet it has received little
attention from the machine learning community. Misclassification can halt
shipments entirely, with major postal operators suspending deliveries to the
U.S. due to incomplete customs documentation. We introduce the first benchmark
for HTS code classification, derived from the U.S. Customs Rulings Online
Search System (CROSS). Evaluating leading LLMs, we find that our fine-tuned
Atlas model (LLaMA-3.3-70B) achieves 40 percent fully correct 10-digit
classifications and 57.5 percent correct 6-digit classifications, improvements
of 15 points over GPT-5-Thinking and 27.5 points over Gemini-2.5-Pro-Thinking.
Beyond accuracy, Atlas is roughly five times cheaper than GPT-5-Thinking and
eight times cheaper than Gemini-2.5-Pro-Thinking, and can be self-hosted to
guarantee data privacy in high-stakes trade and compliance workflows. While
Atlas sets a strong baseline, the benchmark remains highly challenging, with
only 40 percent 10-digit accuracy. By releasing both dataset and model, we aim
to position HTS classification as a new community benchmark task and invite
future work in retrieval, reasoning, and alignment.