CoIn: Het tellen van de onzichtbare redeneertokens in commerciële ondoorzichtige LLM-API's
CoIn: Counting the Invisible Reasoning Tokens in Commercial Opaque LLM APIs
May 19, 2025
Auteurs: Guoheng Sun, Ziyao Wang, Bowei Tian, Meng Liu, Zheyu Shen, Shwai He, Yexiao He, Wanghao Ye, Yiting Wang, Ang Li
cs.AI
Samenvatting
Naarmate post-trainings technieken evolueren, worden grote taalmodellen (LLM's) steeds vaker versterkt met gestructureerde meerstaps redeneervaardigheden, vaak geoptimaliseerd via reinforcement learning. Deze redeneerversterkte modellen presteren beter dan standaard LLM's bij complexe taken en vormen nu de basis van veel commerciële LLM-API's. Echter, om eigendomsrechtelijk gedrag te beschermen en uitvoerigheid te verminderen, verbergen aanbieders doorgaans de redeneersporen en retourneren ze alleen het uiteindelijke antwoord. Deze ondoorzichtigheid introduceert een kritieke transparantiekloof: gebruikers worden gefactureerd voor onzichtbare redeneertokens, die vaak het grootste deel van de kosten uitmaken, maar hebben geen mogelijkheid om hun authenticiteit te verifiëren. Dit opent de deur voor tokenaantalinflatie, waarbij aanbieders het tokengebruik kunnen overdrijven of synthetische, weinig inspannende tokens kunnen injecteren om de kosten op te blazen. Om dit probleem aan te pakken, stellen we CoIn voor, een verificatieraamwerk dat zowel de hoeveelheid als de semantische geldigheid van verborgen tokens controleert. CoIn construeert een verifieerbare hashtabel op basis van token-embedding vingerafdrukken om het aantal tokens te controleren, en gebruikt embedding-gebaseerde relevantie matching om gefabriceerde redeneerinhoud te detecteren. Experimenten tonen aan dat CoIn, wanneer het wordt ingezet als een vertrouwde derde partij auditor, effectief tokenaantalinflatie kan detecteren met een slagingspercentage van tot wel 94,7%, wat het sterke vermogen aantoont om facturatietransparantie te herstellen in ondoorzichtige LLM-diensten. De dataset en code zijn beschikbaar op https://github.com/CASE-Lab-UMD/LLM-Auditing-CoIn.
English
As post-training techniques evolve, large language models (LLMs) are
increasingly augmented with structured multi-step reasoning abilities, often
optimized through reinforcement learning. These reasoning-enhanced models
outperform standard LLMs on complex tasks and now underpin many commercial LLM
APIs. However, to protect proprietary behavior and reduce verbosity, providers
typically conceal the reasoning traces while returning only the final answer.
This opacity introduces a critical transparency gap: users are billed for
invisible reasoning tokens, which often account for the majority of the cost,
yet have no means to verify their authenticity. This opens the door to token
count inflation, where providers may overreport token usage or inject
synthetic, low-effort tokens to inflate charges. To address this issue, we
propose CoIn, a verification framework that audits both the quantity and
semantic validity of hidden tokens. CoIn constructs a verifiable hash tree from
token embedding fingerprints to check token counts, and uses embedding-based
relevance matching to detect fabricated reasoning content. Experiments
demonstrate that CoIn, when deployed as a trusted third-party auditor, can
effectively detect token count inflation with a success rate reaching up to
94.7%, showing the strong ability to restore billing transparency in opaque LLM
services. The dataset and code are available at
https://github.com/CASE-Lab-UMD/LLM-Auditing-CoIn.Summary
AI-Generated Summary