ChatPaper.aiChatPaper

Manipulación del Pensamiento: El Pensamiento Externo Puede Ser Eficiente para Modelos de Razonamiento a Gran Escala

Thought Manipulation: External Thought Can Be Efficient for Large Reasoning Models

April 18, 2025
Autores: Yule Liu, Jingyi Zheng, Zhen Sun, Zifan Peng, Wenhan Dong, Zeyang Sha, Shiwen Cui, Weiqiang Wang, Xinlei He
cs.AI

Resumen

Los avances recientes en los modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés) han demostrado la efectividad de escalar el cómputo en tiempo de prueba para mejorar las capacidades de razonamiento en múltiples tareas. Sin embargo, los LRMs suelen sufrir problemas de "sobrerazonamiento", donde los modelos generan pasos de razonamiento significativamente redundantes mientras aportan ganancias limitadas en el rendimiento. Los trabajos existentes dependen del ajuste fino para mitigar el sobrerazonamiento, lo que requiere datos adicionales, configuraciones de entrenamiento no convencionales, desalineaciones de seguridad riesgosas y una pobre generalización. A través de un análisis empírico, revelamos una característica importante del comportamiento de los LRMs: colocar CoTs (Cadenas de Pensamiento) generados externamente por modelos más pequeños entre los tokens de pensamiento (<think> y </think>) puede manipular efectivamente al modelo para generar menos pensamientos. Basándonos en estas ideas, proponemos una canalización simple pero eficiente, ThoughtMani, para permitir que los LRMs omitan pasos intermedios innecesarios y reduzcan significativamente los costos computacionales. Realizamos experimentos extensos para validar la utilidad y eficiencia de ThoughtMani. Por ejemplo, cuando se aplica a QwQ-32B en el conjunto de datos LiveBench/Code, ThoughtMani mantiene el rendimiento original y reduce el recuento de tokens de salida en aproximadamente un 30%, con un sobrecosto mínimo del generador de CoT. Además, encontramos que ThoughtMani mejora la alineación de seguridad en un promedio del 10%. Dado que los proveedores de modelos suelen ofrecer modelos de diferentes tamaños simultáneamente, ThoughtMani proporciona una forma efectiva de construir LRMs más eficientes y accesibles para aplicaciones del mundo real.
English
Recent advancements in large reasoning models (LRMs) have demonstrated the effectiveness of scaling test-time computation to enhance reasoning capabilities in multiple tasks. However, LRMs typically suffer from "overthinking" problems, where models generate significantly redundant reasoning steps while bringing limited performance gains. Existing work relies on fine-tuning to mitigate overthinking, which requires additional data, unconventional training setups, risky safety misalignment, and poor generalization. Through empirical analysis, we reveal an important characteristic of LRM behaviors that placing external CoTs generated by smaller models between the thinking token (<think> and </think>) can effectively manipulate the model to generate fewer thoughts. Building on these insights, we propose a simple yet efficient pipeline, ThoughtMani, to enable LRMs to bypass unnecessary intermediate steps and reduce computational costs significantly. We conduct extensive experiments to validate the utility and efficiency of ThoughtMani. For instance, when applied to QwQ-32B on the LiveBench/Code dataset, ThoughtMani keeps the original performance and reduces output token counts by approximately 30%, with little overhead from the CoT generator. Furthermore, we find that ThoughtMani enhances safety alignment by an average of 10%. Since model vendors typically serve models of different sizes simultaneously, ThoughtMani provides an effective way to construct more efficient and accessible LRMs for real-world applications.
PDF82April 21, 2025