CoIn: Contare i Token di Ragionamento Invisibili nei Modelli Linguistici Commerciali con API Opache
CoIn: Counting the Invisible Reasoning Tokens in Commercial Opaque LLM APIs
May 19, 2025
Autori: Guoheng Sun, Ziyao Wang, Bowei Tian, Meng Liu, Zheyu Shen, Shwai He, Yexiao He, Wanghao Ye, Yiting Wang, Ang Li
cs.AI
Abstract
Man mano che le tecniche di post-addestramento evolvono, i grandi modelli linguistici (LLM) vengono sempre più potenziati con capacità di ragionamento strutturato a più passi, spesso ottimizzate attraverso l'apprendimento per rinforzo. Questi modelli arricchiti di ragionamento superano gli LLM standard in compiti complessi e ora costituiscono la base di molte API commerciali di LLM. Tuttavia, per proteggere il comportamento proprietario e ridurre la verbosità, i fornitori tipicamente nascondono le tracce di ragionamento, restituendo solo la risposta finale. Questa opacità introduce un divario critico di trasparenza: gli utenti vengono fatturati per token di ragionamento invisibili, che spesso rappresentano la maggior parte del costo, ma non hanno modo di verificarne l'autenticità. Ciò apre la porta all'inflazione del conteggio dei token, dove i fornitori potrebbero sovrastimare l'uso dei token o iniettare token sintetici a basso sforzo per gonfiare i costi. Per affrontare questo problema, proponiamo CoIn, un framework di verifica che controlla sia la quantità che la validità semantica dei token nascosti. CoIn costruisce un albero di hash verificabile dalle impronte digitali degli embedding dei token per verificare i conteggi, e utilizza il matching di rilevanza basato sugli embedding per rilevare contenuti di ragionamento fabbricati. Gli esperimenti dimostrano che CoIn, quando implementato come un auditor di terze parti fidato, può rilevare efficacemente l'inflazione del conteggio dei token con un tasso di successo che raggiunge fino al 94,7%, mostrando una forte capacità di ripristinare la trasparenza nella fatturazione nei servizi opachi di LLM. Il dataset e il codice sono disponibili all'indirizzo https://github.com/CASE-Lab-UMD/LLM-Auditing-CoIn.
English
As post-training techniques evolve, large language models (LLMs) are
increasingly augmented with structured multi-step reasoning abilities, often
optimized through reinforcement learning. These reasoning-enhanced models
outperform standard LLMs on complex tasks and now underpin many commercial LLM
APIs. However, to protect proprietary behavior and reduce verbosity, providers
typically conceal the reasoning traces while returning only the final answer.
This opacity introduces a critical transparency gap: users are billed for
invisible reasoning tokens, which often account for the majority of the cost,
yet have no means to verify their authenticity. This opens the door to token
count inflation, where providers may overreport token usage or inject
synthetic, low-effort tokens to inflate charges. To address this issue, we
propose CoIn, a verification framework that audits both the quantity and
semantic validity of hidden tokens. CoIn constructs a verifiable hash tree from
token embedding fingerprints to check token counts, and uses embedding-based
relevance matching to detect fabricated reasoning content. Experiments
demonstrate that CoIn, when deployed as a trusted third-party auditor, can
effectively detect token count inflation with a success rate reaching up to
94.7%, showing the strong ability to restore billing transparency in opaque LLM
services. The dataset and code are available at
https://github.com/CASE-Lab-UMD/LLM-Auditing-CoIn.