Терпение - ключ к рассуждениям больших языковых моделей.

Patience Is The Key to Large Language Model Reasoning

November 20, 2024
Авторы: Yijiong Yu
cs.AI

Аннотация

Недавние достижения в области крупных языковых моделей, особенно через подход Chain of Thought (CoT), продемонстрировали значительные улучшения в решении сложных задач. Однако существующие модели либо склонны жертвовать детальным рассуждениям в пользу краткости из-за предпочтений пользователей, либо требуют обширных и дорогостоящих обучающих данных для изучения сложной способности к рассуждениям, что ограничивает их потенциал в решении сложных задач. Для заполнения этого разрыва, следуя концепции масштабирования времени тестирования, мы предлагаем простой метод, поощряющий модели принять более терпеливый стиль рассуждений без необходимости внедрения новых знаний или навыков. Для применения подхода оптимизации предпочтений мы генерируем детальные процессы рассуждений как положительные примеры и простые ответы как отрицательные примеры, обучая таким образом модель отдавать предпочтение тщательности в своих ответах. Наши результаты демонстрируют увеличение производительности до 6,7% на GSM8k при обучении только на легком весе данных.
English
Recent advancements in the field of large language models, particularly through the Chain of Thought (CoT) approach, have demonstrated significant improvements in solving complex problems. However, existing models either tend to sacrifice detailed reasoning for brevity due to user preferences, or require extensive and expensive training data to learn complicated reasoning ability, limiting their potential in solving complex tasks. To bridge this gap, following the concept of scaling test-time, we propose a simple method by encouraging models to adopt a more patient reasoning style without the need of introducing new knowledge or skills. To employ a preference optimization approach, we generate detailed reasoning processes as positive examples and simple answers as negative examples, thereby training the model to favor thoroughness in its responses. Our results demonstrate a performance increase of up to 6.7% on GSM8k with training just on a lightweight dataset.

Summary

AI-Generated Summary

PDF73November 22, 2024