CoIn: Подсчёт невидимых токенов рассуждения в коммерческих непрозрачных API языковых моделей
CoIn: Counting the Invisible Reasoning Tokens in Commercial Opaque LLM APIs
May 19, 2025
Авторы: Guoheng Sun, Ziyao Wang, Bowei Tian, Meng Liu, Zheyu Shen, Shwai He, Yexiao He, Wanghao Ye, Yiting Wang, Ang Li
cs.AI
Аннотация
По мере развития посттренировочных технологий крупные языковые модели (LLM) все чаще дополняются структурированными способностями к многошаговому рассуждению, которые обычно оптимизируются с помощью обучения с подкреплением. Такие модели с улучшенными рассуждениями превосходят стандартные LLM в выполнении сложных задач и теперь лежат в основе многих коммерческих API LLM. Однако, чтобы защитить проприетарное поведение и снизить многословность, провайдеры обычно скрывают следы рассуждений, возвращая только окончательный ответ. Эта непрозрачность создает критический пробел в прозрачности: пользователи платят за невидимые токены рассуждений, которые часто составляют большую часть стоимости, но не имеют возможности проверить их подлинность. Это открывает двери для инфляции подсчета токенов, когда провайдеры могут завышать отчетность об использовании токенов или вводить синтетические, низкозатратные токены для увеличения счетов. Чтобы решить эту проблему, мы предлагаем CoIn — фреймворк для проверки, который аудирует как количество, так и семантическую валидность скрытых токенов. CoIn строит верифицируемое дерево хэшей из отпечатков токенов для проверки их количества и использует сопоставление на основе эмбеддингов для обнаружения сфабрикованного контента рассуждений. Эксперименты показывают, что CoIn, развернутый в качестве доверенного стороннего аудитора, может эффективно обнаруживать инфляцию подсчета токенов с успешностью до 94,7%, демонстрируя высокую способность восстанавливать прозрачность биллинга в непрозрачных сервисах LLM. Набор данных и код доступны по адресу https://github.com/CASE-Lab-UMD/LLM-Auditing-CoIn.
English
As post-training techniques evolve, large language models (LLMs) are
increasingly augmented with structured multi-step reasoning abilities, often
optimized through reinforcement learning. These reasoning-enhanced models
outperform standard LLMs on complex tasks and now underpin many commercial LLM
APIs. However, to protect proprietary behavior and reduce verbosity, providers
typically conceal the reasoning traces while returning only the final answer.
This opacity introduces a critical transparency gap: users are billed for
invisible reasoning tokens, which often account for the majority of the cost,
yet have no means to verify their authenticity. This opens the door to token
count inflation, where providers may overreport token usage or inject
synthetic, low-effort tokens to inflate charges. To address this issue, we
propose CoIn, a verification framework that audits both the quantity and
semantic validity of hidden tokens. CoIn constructs a verifiable hash tree from
token embedding fingerprints to check token counts, and uses embedding-based
relevance matching to detect fabricated reasoning content. Experiments
demonstrate that CoIn, when deployed as a trusted third-party auditor, can
effectively detect token count inflation with a success rate reaching up to
94.7%, showing the strong ability to restore billing transparency in opaque LLM
services. The dataset and code are available at
https://github.com/CASE-Lab-UMD/LLM-Auditing-CoIn.Summary
AI-Generated Summary