Масштабные свойства имплицитного дедуктивного мышления в трансформерах

Аннотация

Мы исследуем свойства масштабирования неявного дедуктивного вывода над хорновскими дизъюнктами в трансформерах с ограниченной глубиной. Систематически устраняя корреляцию между доказуемостью и спуриальными признаками и обеспечивая алгоритмическое выравнивание, мы обнаруживаем, что в достаточно глубоких моделях с двунаправленной префиксной маской неявный вывод приближается к производительности явной цепочки рассуждений (CoT) для различных топологий графов и ширин задач, хотя CoT остается необходимой для экстраполяции по глубине.

English

We investigate the scaling properties of implicit deductive reasoning over Horn clauses in depth-bounded Transformers. By systematically decorrelating provability from spurious features and enforcing algorithmic alignment, we find that in sufficiently deep models with a bidirectional prefix mask, implicit reasoning approaches explicit CoT performance across graph topologies and problem widths, though CoT remains necessary for depth extrapolation.

Масштабные свойства имплицитного дедуктивного мышления в трансформерах

The Scaling Properties of Implicit Deductive Reasoning in Transformers

Аннотация

Support