ORION : Enseigner aux modèles de langage à raisonner efficacement dans la langue de la pensée
ORION: Teaching Language Models to Reason Efficiently in the Language of Thought
November 28, 2025
papers.authors: Kumar Tanmay, Kriti Aggarwal, Paul Pu Liang, Subhabrata Mukherjee
cs.AI
papers.abstract
Les Grands Modèles de Raisonnement (LRM) obtiennent des performances solides en mathématiques, en génération de code et en planification de tâches, mais leur dépendance à de longues chaînes de tokens de "réflexion" verbeux entraîne une latence élevée, de la redondance et des chemins de raisonnement incohérents. Inspirés par l'hypothèse du Langage de la Pensée, qui postule que le raisonnement humain opère via un langage mental symbolique et compositionnel appelé Mentalais, nous introduisons un cadre qui entraîne les modèles à raisonner dans un style similairement compact. Le Mentalais encode le raisonnement abstrait sous forme de tokens ultra-compressés et structurés, permettant aux modèles de résoudre des problèmes complexes avec beaucoup moins d'étapes. Pour améliorer à la fois l'efficacité et la précision, nous proposons l'OPTIMISATION PAR PRÉFÉRENCE DE LONGUEUR RÉDUITE (SLPO), une méthode d'apprentissage par renforcement qui récompense les solutions concises qui restent correctes, tout en permettant un raisonnement plus long si nécessaire. Appliquée aux modèles alignés sur le Mentalais, la SLPO permet des taux de compression significativement plus élevés en permettant un raisonnement concis qui préserve les avantages d'une réflexion détaillée sans la surcharge computationnelle. Sur des benchmarks incluant AIME 2024 et 2025, MinervaMath, OlympiadBench, Math500 et AMC, nos modèles ORION produisent des traces de raisonnement avec 4 à 16 fois moins de tokens, atteignent une latence d'inférence jusqu'à 5 fois plus faible et réduisent les coûts d'entraînement de 7 à 9 fois par rapport au modèle DeepSeek R1 Distillé, tout en maintenant 90 à 98 % de sa précision. ORION surpasse également Claude et ChatGPT-4o jusqu'à 5 % en précision tout en maintenant une compression par 2. Ces résultats montrent que le raisonnement compressé de type Mentalais représente un pas vers une efficacité cognitive semblable à celle de l'humain, permettant un raisonnement en temps réel et économique sans sacrifier la précision.
English
Large Reasoning Models (LRMs) achieve strong performance in mathematics, code generation, and task planning, but their reliance on long chains of verbose "thinking" tokens leads to high latency, redundancy, and incoherent reasoning paths. Inspired by the Language of Thought Hypothesis, which posits that human reasoning operates over a symbolic, compositional mental language called Mentalese, we introduce a framework that trains models to reason in a similarly compact style. Mentalese encodes abstract reasoning as ultra-compressed, structured tokens, enabling models to solve complex problems with far fewer steps. To improve both efficiency and accuracy, we propose SHORTER LENGTH PREFERENCE OPTIMIZATION (SLPO), a reinforcement learning method that rewards concise solutions that stay correct, while still allowing longer reasoning when needed. Applied to Mentalese-aligned models, SLPO yields significantly higher compression rates by enabling concise reasoning that preserves the benefits of detailed thinking without the computational overhead. Across benchmarks including AIME 2024 and 2025, MinervaMath, OlympiadBench, Math500, and AMC, our ORION models produce reasoning traces with 4-16x fewer tokens, achieve up to 5x lower inference latency, and reduce training costs by 7-9x relative to the DeepSeek R1 Distilled model, while maintaining 90-98% of its accuracy. ORION also surpasses Claude and ChatGPT-4o by up to 5% in accuracy while maintaining 2x compression. These results show that Mentalese-style compressed reasoning offers a step toward human-like cognitive efficiency, enabling real-time, cost-effective reasoning without sacrificing accuracy.