Die Skalierungseigenschaften impliziten deduktiven Schließens in Transformer-Modellen

Zusammenfassung

Wir untersuchen die Skalierungseigenschaften von implizitem deduktivem Schließen über Horn-Klauseln in Tiefen-beschränkten Transformatoren. Durch systematische Dekorrelation von Beweisbarkeit von Störmerkmalen und Erzwingung von algorithmischer Ausrichtung finden wir, dass in hinreichend tiefen Modellen mit einer bidirektionalen Präfixmaske implizites Schließen die Leistung von explizitem Chain-of-Thought (CoT) über verschiedene Graphentopologien und Problembreiten hinweg annähert, obwohl CoT für Tiefenextrapolation weiterhin notwendig bleibt.

English

We investigate the scaling properties of implicit deductive reasoning over Horn clauses in depth-bounded Transformers. By systematically decorrelating provability from spurious features and enforcing algorithmic alignment, we find that in sufficiently deep models with a bidirectional prefix mask, implicit reasoning approaches explicit CoT performance across graph topologies and problem widths, though CoT remains necessary for depth extrapolation.

Die Skalierungseigenschaften impliziten deduktiven Schließens in Transformer-Modellen

The Scaling Properties of Implicit Deductive Reasoning in Transformers

Zusammenfassung

Support