CoIn : Compter les jetons de raisonnement invisibles dans les API opaques de LLM commerciaux
CoIn: Counting the Invisible Reasoning Tokens in Commercial Opaque LLM APIs
May 19, 2025
Auteurs: Guoheng Sun, Ziyao Wang, Bowei Tian, Meng Liu, Zheyu Shen, Shwai He, Yexiao He, Wanghao Ye, Yiting Wang, Ang Li
cs.AI
Résumé
Alors que les techniques de post-formation évoluent, les grands modèles de langage (LLMs) sont de plus en plus enrichis de capacités de raisonnement structuré en plusieurs étapes, souvent optimisées par apprentissage par renforcement. Ces modèles améliorés par le raisonnement surpassent les LLMs standards sur des tâches complexes et constituent désormais la base de nombreuses API commerciales de LLMs. Cependant, pour protéger les comportements propriétaires et réduire la verbosité, les fournisseurs masquent généralement les traces de raisonnement tout en ne renvoyant que la réponse finale. Cette opacité introduit un manque critique de transparence : les utilisateurs sont facturés pour des tokens de raisonnement invisibles, qui représentent souvent la majorité du coût, sans avoir aucun moyen de vérifier leur authenticité. Cela ouvre la porte à une inflation du nombre de tokens, où les fournisseurs pourraient surestimer l'utilisation de tokens ou injecter des tokens synthétiques et peu coûteux pour gonfler les frais. Pour résoudre ce problème, nous proposons CoIn, un cadre de vérification qui audite à la fois la quantité et la validité sémantique des tokens cachés. CoIn construit un arbre de hachage vérifiable à partir des empreintes d'incorporation de tokens pour vérifier le nombre de tokens, et utilise une correspondance de pertinence basée sur les incorporations pour détecter le contenu de raisonnement fabriqué. Les expériences démontrent que CoIn, lorsqu'il est déployé comme auditeur tiers de confiance, peut détecter efficacement l'inflation du nombre de tokens avec un taux de réussite atteignant jusqu'à 94,7%, montrant une forte capacité à rétablir la transparence de la facturation dans les services opaques de LLMs. Le jeu de données et le code sont disponibles à l'adresse https://github.com/CASE-Lab-UMD/LLM-Auditing-CoIn.
English
As post-training techniques evolve, large language models (LLMs) are
increasingly augmented with structured multi-step reasoning abilities, often
optimized through reinforcement learning. These reasoning-enhanced models
outperform standard LLMs on complex tasks and now underpin many commercial LLM
APIs. However, to protect proprietary behavior and reduce verbosity, providers
typically conceal the reasoning traces while returning only the final answer.
This opacity introduces a critical transparency gap: users are billed for
invisible reasoning tokens, which often account for the majority of the cost,
yet have no means to verify their authenticity. This opens the door to token
count inflation, where providers may overreport token usage or inject
synthetic, low-effort tokens to inflate charges. To address this issue, we
propose CoIn, a verification framework that audits both the quantity and
semantic validity of hidden tokens. CoIn constructs a verifiable hash tree from
token embedding fingerprints to check token counts, and uses embedding-based
relevance matching to detect fabricated reasoning content. Experiments
demonstrate that CoIn, when deployed as a trusted third-party auditor, can
effectively detect token count inflation with a success rate reaching up to
94.7%, showing the strong ability to restore billing transparency in opaque LLM
services. The dataset and code are available at
https://github.com/CASE-Lab-UMD/LLM-Auditing-CoIn.Summary
AI-Generated Summary