Обратно-спроектированное рассуждение для генерации с открытым концом

Аннотация

Хотя парадигма «глубокого рассуждения» стимулировала значительные успехи в верифицируемых областях, таких как математика, её применение к открытым, творческим задачам генерации остаётся серьёзным вызовом. Два доминирующих метода для внедрения рассуждений — обучение с подкреплением (RL) и дистилляция инструкций — сталкиваются с трудностями в этой области: RL борется с отсутствием чётких сигналов вознаграждения и качественных моделей вознаграждения, а дистилляция оказывается чрезмерно затратной и ограниченной возможностями модели-учителя. Чтобы преодолеть эти ограничения, мы представляем REER (REverse-Engineered Reasoning) — новую парадигму, которая принципиально меняет подход. Вместо построения процесса рассуждения «вперёд» через метод проб и ошибок или имитацию, REER работает «назад», начиная с известных хороших решений, чтобы вычислительно обнаружить скрытый, пошаговый процесс глубокого рассуждения, который мог бы их породить. Используя этот масштабируемый, градиентно-независимый подход, мы создаём и открываем DeepWriting-20K — крупномасштабный набор данных, содержащий 20 000 траекторий глубокого рассуждения для открытых задач. Наша модель DeepWriter-8B, обученная на этих данных, не только превосходит сильные открытые базовые модели, но и демонстрирует результаты, конкурентоспособные, а иногда и превосходящие ведущие проприетарные модели, такие как GPT-4o и Claude 3.5.

English

While the ``deep reasoning'' paradigm has spurred significant advances in verifiable domains like mathematics, its application to open-ended, creative generation remains a critical challenge. The two dominant methods for instilling reasoning -- reinforcement learning (RL) and instruction distillation -- falter in this area; RL struggles with the absence of clear reward signals and high-quality reward models, while distillation is prohibitively expensive and capped by the teacher model's capabilities. To overcome these limitations, we introduce REverse-Engineered Reasoning (REER), a new paradigm that fundamentally shifts the approach. Instead of building a reasoning process ``forwards'' through trial-and-error or imitation, REER works ``backwards'' from known-good solutions to computationally discover the latent, step-by-step deep reasoning process that could have produced them. Using this scalable, gradient-free approach, we curate and open-source DeepWriting-20K, a large-scale dataset of 20,000 deep reasoning trajectories for open-ended tasks. Our model, DeepWriter-8B, trained on this data, not only surpasses strong open-source baselines but also achieves performance competitive with, and at times superior to, leading proprietary models like GPT-4o and Claude 3.5.

Обратно-спроектированное рассуждение для генерации с открытым концом

Reverse-Engineered Reasoning for Open-Ended Generation

Аннотация

Support