ChatPaper.aiChatPaper

CoIn: 商用不透明LLM APIにおける不可視推論トークンの計測

CoIn: Counting the Invisible Reasoning Tokens in Commercial Opaque LLM APIs

May 19, 2025
著者: Guoheng Sun, Ziyao Wang, Bowei Tian, Meng Liu, Zheyu Shen, Shwai He, Yexiao He, Wanghao Ye, Yiting Wang, Ang Li
cs.AI

要旨

ポストトレーニング技術が進化するにつれ、大規模言語モデル(LLM)は構造化された多段階推論能力で強化されることが増えており、これはしばしば強化学習を通じて最適化されています。これらの推論能力を強化されたモデルは、複雑なタスクにおいて標準的なLLMを上回り、現在では多くの商用LLM APIの基盤となっています。しかし、独自の動作を保護し冗長性を減らすため、プロバイダーは通常、推論の痕跡を隠し、最終的な回答のみを返します。この不透明性は重大な透明性のギャップを生み出します:ユーザーは見えない推論トークンに対して課金されますが、これがコストの大部分を占めることが多く、その正当性を検証する手段がありません。これにより、トークンカウントのインフレーションが発生する可能性があります。プロバイダーがトークン使用量を過大報告したり、低品質の合成トークンを注入して料金を膨らませる可能性があります。この問題に対処するため、我々はCoInを提案します。これは、隠されたトークンの量と意味的な妥当性を監査する検証フレームワークです。CoInは、トークン埋め込みのフィンガープリントから検証可能なハッシュツリーを構築してトークンカウントをチェックし、埋め込みベースの関連性マッチングを使用して捏造された推論内容を検出します。実験により、CoInが信頼できる第三者監査人として展開された場合、トークンカウントのインフレーションを最大94.7%の成功率で効果的に検出できることが示され、不透明なLLMサービスにおける課金透明性を回復する強力な能力を示しています。データセットとコードはhttps://github.com/CASE-Lab-UMD/LLM-Auditing-CoInで利用可能です。
English
As post-training techniques evolve, large language models (LLMs) are increasingly augmented with structured multi-step reasoning abilities, often optimized through reinforcement learning. These reasoning-enhanced models outperform standard LLMs on complex tasks and now underpin many commercial LLM APIs. However, to protect proprietary behavior and reduce verbosity, providers typically conceal the reasoning traces while returning only the final answer. This opacity introduces a critical transparency gap: users are billed for invisible reasoning tokens, which often account for the majority of the cost, yet have no means to verify their authenticity. This opens the door to token count inflation, where providers may overreport token usage or inject synthetic, low-effort tokens to inflate charges. To address this issue, we propose CoIn, a verification framework that audits both the quantity and semantic validity of hidden tokens. CoIn constructs a verifiable hash tree from token embedding fingerprints to check token counts, and uses embedding-based relevance matching to detect fabricated reasoning content. Experiments demonstrate that CoIn, when deployed as a trusted third-party auditor, can effectively detect token count inflation with a success rate reaching up to 94.7%, showing the strong ability to restore billing transparency in opaque LLM services. The dataset and code are available at https://github.com/CASE-Lab-UMD/LLM-Auditing-CoIn.

Summary

AI-Generated Summary

PDF32May 21, 2025