CoIn: Zählen der unsichtbaren Reasoning-Tokens in kommerziellen undurchsichtigen LLM-APIs
CoIn: Counting the Invisible Reasoning Tokens in Commercial Opaque LLM APIs
May 19, 2025
Autoren: Guoheng Sun, Ziyao Wang, Bowei Tian, Meng Liu, Zheyu Shen, Shwai He, Yexiao He, Wanghao Ye, Yiting Wang, Ang Li
cs.AI
Zusammenfassung
Mit der Weiterentwicklung von Nachschulungstechniken werden große Sprachmodelle (LLMs) zunehmend mit strukturierten Fähigkeiten zur mehrstufigen Argumentation erweitert, die oft durch bestärkendes Lernen optimiert werden. Diese argumentationsgestärkten Modelle übertreffen Standard-LLMs bei komplexen Aufgaben und bilden mittlerweile die Grundlage vieler kommerzieller LLM-APIs. Um jedoch proprietäres Verhalten zu schützen und die Ausführlichkeit zu reduzieren, verbergen Anbieter typischerweise die Argumentationsspuren und geben nur die endgültige Antwort zurück. Diese Undurchsichtigkeit führt zu einer kritischen Transparenzlücke: Nutzer werden für unsichtbare Argumentationstokens berechnet, die oft den Großteil der Kosten ausmachen, haben jedoch keine Möglichkeit, deren Authentizität zu überprüfen. Dies öffnet die Tür für Token-Zählungsinflation, bei der Anbieter die Token-Nutzung übermäßig melden oder synthetische, wenig aufwendige Tokens einfügen könnten, um die Gebühren zu erhöhen. Um dieses Problem zu lösen, schlagen wir CoIn vor, ein Verifizierungsframework, das sowohl die Menge als auch die semantische Gültigkeit versteckter Tokens überprüft. CoIn erstellt einen verifizierbaren Hash-Baum aus Token-Embedding-Fingerabdrücken, um die Token-Anzahl zu überprüfen, und verwendet Embedding-basiertes Relevanz-Matching, um fabrizierte Argumentationsinhalte zu erkennen. Experimente zeigen, dass CoIn, als vertrauenswürdiger Drittauditor eingesetzt, Token-Zählungsinflation mit einer Erfolgsrate von bis zu 94,7% effektiv erkennen kann, was die starke Fähigkeit zur Wiederherstellung der Abrechnungstransparenz in undurchsichtigen LLM-Diensten demonstriert. Der Datensatz und der Code sind unter https://github.com/CASE-Lab-UMD/LLM-Auditing-CoIn verfügbar.
English
As post-training techniques evolve, large language models (LLMs) are
increasingly augmented with structured multi-step reasoning abilities, often
optimized through reinforcement learning. These reasoning-enhanced models
outperform standard LLMs on complex tasks and now underpin many commercial LLM
APIs. However, to protect proprietary behavior and reduce verbosity, providers
typically conceal the reasoning traces while returning only the final answer.
This opacity introduces a critical transparency gap: users are billed for
invisible reasoning tokens, which often account for the majority of the cost,
yet have no means to verify their authenticity. This opens the door to token
count inflation, where providers may overreport token usage or inject
synthetic, low-effort tokens to inflate charges. To address this issue, we
propose CoIn, a verification framework that audits both the quantity and
semantic validity of hidden tokens. CoIn constructs a verifiable hash tree from
token embedding fingerprints to check token counts, and uses embedding-based
relevance matching to detect fabricated reasoning content. Experiments
demonstrate that CoIn, when deployed as a trusted third-party auditor, can
effectively detect token count inflation with a success rate reaching up to
94.7%, showing the strong ability to restore billing transparency in opaque LLM
services. The dataset and code are available at
https://github.com/CASE-Lab-UMD/LLM-Auditing-CoIn.Summary
AI-Generated Summary