ATLAS: Evaluación y Adaptación de Modelos de Lenguaje de Gran Escala para el Comercio Global mediante la Clasificación de Códigos Arancelarios Armonizados

Resumen

La clasificación precisa de productos bajo el Sistema Armonizado de Designación y Codificación de Mercancías (SA) representa un cuello de botella crítico en el comercio global, aunque ha recibido poca atención por parte de la comunidad de aprendizaje automático. La clasificación errónea puede detener por completo los envíos, con operadores postales importantes suspendiendo entregas a los EE. UU. debido a documentación aduanera incompleta. Presentamos el primer punto de referencia para la clasificación de códigos SA, derivado del Sistema de Búsqueda en Línea de Resoluciones Aduaneras de EE. UU. (CROSS). Al evaluar los principales modelos de lenguaje grandes (LLM), encontramos que nuestro modelo Atlas ajustado (LLaMA-3.3-70B) logra un 40 % de clasificaciones correctas a 10 dígitos y un 57.5 % correctas a 6 dígitos, mejoras de 15 puntos sobre GPT-5-Thinking y 27.5 puntos sobre Gemini-2.5-Pro-Thinking. Más allá de la precisión, Atlas es aproximadamente cinco veces más económico que GPT-5-Thinking y ocho veces más económico que Gemini-2.5-Pro-Thinking, y puede ser autoalojado para garantizar la privacidad de los datos en flujos de trabajo críticos de comercio y cumplimiento. Aunque Atlas establece una base sólida, el punto de referencia sigue siendo altamente desafiante, con solo un 40 % de precisión a 10 dígitos. Al liberar tanto el conjunto de datos como el modelo, nuestro objetivo es posicionar la clasificación SA como una nueva tarea de referencia para la comunidad e invitar a trabajos futuros en recuperación, razonamiento y alineación.

English

Accurate classification of products under the Harmonized Tariff Schedule (HTS) is a critical bottleneck in global trade, yet it has received little attention from the machine learning community. Misclassification can halt shipments entirely, with major postal operators suspending deliveries to the U.S. due to incomplete customs documentation. We introduce the first benchmark for HTS code classification, derived from the U.S. Customs Rulings Online Search System (CROSS). Evaluating leading LLMs, we find that our fine-tuned Atlas model (LLaMA-3.3-70B) achieves 40 percent fully correct 10-digit classifications and 57.5 percent correct 6-digit classifications, improvements of 15 points over GPT-5-Thinking and 27.5 points over Gemini-2.5-Pro-Thinking. Beyond accuracy, Atlas is roughly five times cheaper than GPT-5-Thinking and eight times cheaper than Gemini-2.5-Pro-Thinking, and can be self-hosted to guarantee data privacy in high-stakes trade and compliance workflows. While Atlas sets a strong baseline, the benchmark remains highly challenging, with only 40 percent 10-digit accuracy. By releasing both dataset and model, we aim to position HTS classification as a new community benchmark task and invite future work in retrieval, reasoning, and alignment.