ChatPaper.aiChatPaper

ATLAS: Оценка и адаптация языковых моделей для глобальной торговли через классификацию гармонизированных тарифных кодов

ATLAS: Benchmarking and Adapting LLMs for Global Trade via Harmonized Tariff Code Classification

September 22, 2025
Авторы: Pritish Yuvraj, Siva Devarakonda
cs.AI

Аннотация

Точная классификация товаров в соответствии с Гармонизированной системой описания и кодирования товаров (ГС) является критически важным узким местом в международной торговле, однако она практически не привлекала внимания сообщества машинного обучения. Ошибки в классификации могут полностью остановить поставки, что приводит к приостановке доставки крупными почтовыми операторами в США из-за неполной таможенной документации. Мы представляем первый эталонный набор данных для классификации кодов ГС, созданный на основе системы онлайн-поиска таможенных решений США (CROSS). Оценивая ведущие языковые модели, мы обнаруживаем, что наша доработанная модель Atlas (LLaMA-3.3-70B) достигает 40% полностью правильных классификаций на уровне 10-значных кодов и 57,5% правильных классификаций на уровне 6-значных кодов, что на 15 пунктов лучше, чем у GPT-5-Thinking, и на 27,5 пунктов лучше, чем у Gemini-2.5-Pro-Thinking. Помимо точности, Atlas примерно в пять раз дешевле, чем GPT-5-Thinking, и в восемь раз дешевле, чем Gemini-2.5-Pro-Thinking, а также может быть развернут локально для обеспечения конфиденциальности данных в критически важных процессах торговли и соблюдения нормативных требований. Хотя Atlas задает высокую планку, эталонный набор остается крайне сложным, с точностью всего 40% на уровне 10-значных кодов. Публикуя как набор данных, так и модель, мы стремимся сделать классификацию ГС новой задачей для сообщества и приглашаем к дальнейшим исследованиям в области поиска, рассуждений и согласования.
English
Accurate classification of products under the Harmonized Tariff Schedule (HTS) is a critical bottleneck in global trade, yet it has received little attention from the machine learning community. Misclassification can halt shipments entirely, with major postal operators suspending deliveries to the U.S. due to incomplete customs documentation. We introduce the first benchmark for HTS code classification, derived from the U.S. Customs Rulings Online Search System (CROSS). Evaluating leading LLMs, we find that our fine-tuned Atlas model (LLaMA-3.3-70B) achieves 40 percent fully correct 10-digit classifications and 57.5 percent correct 6-digit classifications, improvements of 15 points over GPT-5-Thinking and 27.5 points over Gemini-2.5-Pro-Thinking. Beyond accuracy, Atlas is roughly five times cheaper than GPT-5-Thinking and eight times cheaper than Gemini-2.5-Pro-Thinking, and can be self-hosted to guarantee data privacy in high-stakes trade and compliance workflows. While Atlas sets a strong baseline, the benchmark remains highly challenging, with only 40 percent 10-digit accuracy. By releasing both dataset and model, we aim to position HTS classification as a new community benchmark task and invite future work in retrieval, reasoning, and alignment.
PDF22September 25, 2025