Manipulación del Pensamiento: El Pensamiento Externo Puede Ser Eficiente para Modelos de Razonamiento a Gran Escala
Thought Manipulation: External Thought Can Be Efficient for Large Reasoning Models
April 18, 2025
Autores: Yule Liu, Jingyi Zheng, Zhen Sun, Zifan Peng, Wenhan Dong, Zeyang Sha, Shiwen Cui, Weiqiang Wang, Xinlei He
cs.AI
Resumen
Los avances recientes en los modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés) han demostrado la efectividad de escalar el cómputo en tiempo de prueba para mejorar las capacidades de razonamiento en múltiples tareas. Sin embargo, los LRMs suelen sufrir problemas de "sobrerazonamiento", donde los modelos generan pasos de razonamiento significativamente redundantes mientras aportan ganancias limitadas en el rendimiento. Los trabajos existentes dependen del ajuste fino para mitigar el sobrerazonamiento, lo que requiere datos adicionales, configuraciones de entrenamiento no convencionales, desalineaciones de seguridad riesgosas y una pobre generalización.
A través de un análisis empírico, revelamos una característica importante del comportamiento de los LRMs: colocar CoTs (Cadenas de Pensamiento) generados externamente por modelos más pequeños entre los tokens de pensamiento (<think> y </think>) puede manipular efectivamente al modelo para generar menos pensamientos. Basándonos en estas ideas, proponemos una canalización simple pero eficiente, ThoughtMani, para permitir que los LRMs omitan pasos intermedios innecesarios y reduzcan significativamente los costos computacionales. Realizamos experimentos extensos para validar la utilidad y eficiencia de ThoughtMani. Por ejemplo, cuando se aplica a QwQ-32B en el conjunto de datos LiveBench/Code, ThoughtMani mantiene el rendimiento original y reduce el recuento de tokens de salida en aproximadamente un 30%, con un sobrecosto mínimo del generador de CoT. Además, encontramos que ThoughtMani mejora la alineación de seguridad en un promedio del 10%. Dado que los proveedores de modelos suelen ofrecer modelos de diferentes tamaños simultáneamente, ThoughtMani proporciona una forma efectiva de construir LRMs más eficientes y accesibles para aplicaciones del mundo real.
English
Recent advancements in large reasoning models (LRMs) have demonstrated the
effectiveness of scaling test-time computation to enhance reasoning
capabilities in multiple tasks. However, LRMs typically suffer from
"overthinking" problems, where models generate significantly redundant
reasoning steps while bringing limited performance gains. Existing work relies
on fine-tuning to mitigate overthinking, which requires additional data,
unconventional training setups, risky safety misalignment, and poor
generalization.
Through empirical analysis, we reveal an important characteristic of LRM
behaviors that placing external CoTs generated by smaller models between the
thinking token (<think> and </think>) can effectively
manipulate the model to generate fewer thoughts. Building on these insights, we
propose a simple yet efficient pipeline, ThoughtMani, to enable LRMs to bypass
unnecessary intermediate steps and reduce computational costs significantly. We
conduct extensive experiments to validate the utility and efficiency of
ThoughtMani. For instance, when applied to QwQ-32B on the LiveBench/Code
dataset, ThoughtMani keeps the original performance and reduces output token
counts by approximately 30%, with little overhead from the CoT generator.
Furthermore, we find that ThoughtMani enhances safety alignment by an average
of 10%. Since model vendors typically serve models of different sizes
simultaneously, ThoughtMani provides an effective way to construct more
efficient and accessible LRMs for real-world applications.