Warten? Wir müssen nicht „warten“! Das Entfernen von Denk-Tokens verbessert die Effizienz des Schlussfolgerns
Wait, We Don't Need to "Wait"! Removing Thinking Tokens Improves Reasoning Efficiency
June 10, 2025
papers.authors: Chenlong Wang, Yuanning Feng, Dongping Chen, Zhaoyang Chu, Ranjay Krishna, Tianyi Zhou
cs.AI
papers.abstract
Jüngste Fortschritte bei großen Modellen für komplexes Denken haben schrittweises, detailliertes Schlussfolgern ermöglicht, führen jedoch häufig zu erheblichem Überdenken, was in ausführlichen und redundanten Ausgaben resultiert, die die Effizienz beeinträchtigen. In dieser Studie untersuchen wir, ob explizite Selbstreflexion, signalisiert durch Token wie „Wait“ und „Hmm“, für fortgeschrittenes Denken notwendig ist. Wir schlagen NoWait vor, einen einfachen, aber effektiven Ansatz, der explizite Selbstreflexion deaktiviert, indem diese Token während der Inferenz unterdrückt werden. Umfangreiche Experimente auf zehn Benchmarks für textuelle, visuelle und videobasierte Denkaufgaben zeigen, dass NoWait die Länge der Gedankenketten in fünf R1-Modellserien um bis zu 27 %–51 % reduziert, ohne die Nützlichkeit des Modells zu beeinträchtigen. NoWait bietet somit eine Plug-and-Play-Lösung für effizientes und nutzenerhaltendes multimodales Denken.
English
Recent advances in large reasoning models have enabled complex, step-by-step
reasoning but often introduce significant overthinking, resulting in verbose
and redundant outputs that hinder efficiency. In this study, we examine whether
explicit self-reflection, signaled by tokens such as "Wait" and "Hmm", is
necessary for advanced reasoning. We propose NoWait, a simple yet effective
approach that disables explicit self-reflection by suppressing these tokens
during inference. Extensive experiments on ten benchmarks across textual,
visual, and video reasoning tasks show that NoWait reduces chain-of-thought
trajectory length by up to 27%-51% in five R1-style model series, without
compromising model utility. NoWait thus offers a plug-and-play solution for
efficient and utility-preserving multimodal reasoning.