CoIn: Contando os Tokens de Raciocínio Invisíveis em APIs Comerciais Opacas de LLM
CoIn: Counting the Invisible Reasoning Tokens in Commercial Opaque LLM APIs
May 19, 2025
Autores: Guoheng Sun, Ziyao Wang, Bowei Tian, Meng Liu, Zheyu Shen, Shwai He, Yexiao He, Wanghao Ye, Yiting Wang, Ang Li
cs.AI
Resumo
À medida que as técnicas de pós-treinamento evoluem, os grandes modelos de linguagem (LLMs) estão sendo cada vez mais aprimorados com habilidades estruturadas de raciocínio em múltiplos passos, frequentemente otimizadas por meio de aprendizado por reforço. Esses modelos com raciocínio aprimorado superam os LLMs padrão em tarefas complexas e agora sustentam muitas APIs comerciais de LLMs. No entanto, para proteger comportamentos proprietários e reduzir a verbosidade, os provedores geralmente ocultam os rastros de raciocínio, retornando apenas a resposta final. Essa opacidade introduz uma lacuna crítica de transparência: os usuários são cobrados por tokens de raciocínio invisíveis, que frequentemente representam a maior parte do custo, mas não têm meios de verificar sua autenticidade. Isso abre caminho para a inflação na contagem de tokens, onde os provedores podem superestimar o uso de tokens ou injetar tokens sintéticos de baixo esforço para inflar os custos. Para resolver esse problema, propomos o CoIn, um framework de verificação que audita tanto a quantidade quanto a validade semântica dos tokens ocultos. O CoIn constrói uma árvore de hash verificável a partir de impressões digitais de embeddings de tokens para verificar a contagem de tokens e usa correspondência de relevância baseada em embeddings para detectar conteúdo de raciocínio fabricado. Experimentos demonstram que o CoIn, quando implantado como um auditor terceirizado confiável, pode detectar efetivamente a inflação na contagem de tokens com uma taxa de sucesso de até 94,7%, mostrando uma forte capacidade de restaurar a transparência na cobrança em serviços opacos de LLMs. O conjunto de dados e o código estão disponíveis em https://github.com/CASE-Lab-UMD/LLM-Auditing-CoIn.
English
As post-training techniques evolve, large language models (LLMs) are
increasingly augmented with structured multi-step reasoning abilities, often
optimized through reinforcement learning. These reasoning-enhanced models
outperform standard LLMs on complex tasks and now underpin many commercial LLM
APIs. However, to protect proprietary behavior and reduce verbosity, providers
typically conceal the reasoning traces while returning only the final answer.
This opacity introduces a critical transparency gap: users are billed for
invisible reasoning tokens, which often account for the majority of the cost,
yet have no means to verify their authenticity. This opens the door to token
count inflation, where providers may overreport token usage or inject
synthetic, low-effort tokens to inflate charges. To address this issue, we
propose CoIn, a verification framework that audits both the quantity and
semantic validity of hidden tokens. CoIn constructs a verifiable hash tree from
token embedding fingerprints to check token counts, and uses embedding-based
relevance matching to detect fabricated reasoning content. Experiments
demonstrate that CoIn, when deployed as a trusted third-party auditor, can
effectively detect token count inflation with a success rate reaching up to
94.7%, showing the strong ability to restore billing transparency in opaque LLM
services. The dataset and code are available at
https://github.com/CASE-Lab-UMD/LLM-Auditing-CoIn.