Glaube und Schicksal: Grenzen von Transformern bei Kompositionalität
Faith and Fate: Limits of Transformers on Compositionality
May 29, 2023
Autoren: Nouha Dziri, Ximing Lu, Melanie Sclar, Xiang Lorraine Li, Liwei Jian, Bill Yuchen Lin, Peter West, Chandra Bhagavatula, Ronan Le Bras, Jena D. Hwang, Soumya Sanyal, Sean Welleck, Xiang Ren, Allyson Ettinger, Zaid Harchaoui, Yejin Choi
cs.AI
Zusammenfassung
Transformer-basierte große Sprachmodelle (LLMs) haben Bewunderung für ihre außergewöhnliche Leistung bei Aufgaben geweckt, die komplexe, mehrstufige Denkprozesse erfordern. Gleichzeitig zeigen diese Modelle jedoch Versagen bei überraschend trivialen Problemen. Dies wirft die Frage auf: Sind diese Fehler zufällig, oder deuten sie auf grundlegendere Einschränkungen hin? In dem Versuch, die Funktionsweise von Transformern zu entschlüsseln, untersuchen wir die Grenzen dieser Modelle anhand von drei repräsentativen kompositionellen Aufgaben – der Multiplikation mehrstelliger Zahlen, Logik-Rätseln und einem klassischen dynamischen Programmierproblem. Diese Aufgaben erfordern es, Probleme in Teilschritte zu zerlegen und diese Schritte zu einer präzisen Lösung zu synthetisieren. Wir formulieren kompositionelle Aufgaben als Berechnungsgraphen, um das Komplexitätsniveau systematisch zu quantifizieren, und zerlegen Denkschritte in Zwischenverfahren. Unsere empirischen Ergebnisse deuten darauf hin, dass Transformer kompositionelle Aufgaben lösen, indem sie mehrstufiges, kompositionelles Denken in eine linearisierte Teilgraphenzuordnung reduzieren, ohne dabei notwendigerweise systematische Problemlösungsfähigkeiten zu entwickeln. Um unsere empirische Studie abzurunden, liefern wir theoretische Argumente zu abstrakten, mehrstufigen Denkproblemen, die verdeutlichen, wie die Leistung von Transformern mit zunehmender Aufgabenkomplexität rapide abnimmt.
English
Transformer large language models (LLMs) have sparked admiration for their
exceptional performance on tasks that demand intricate multi-step reasoning.
Yet, these models simultaneously show failures on surprisingly trivial
problems. This begs the question: Are these errors incidental, or do they
signal more substantial limitations? In an attempt to demystify Transformers,
we investigate the limits of these models across three representative
compositional tasks -- multi-digit multiplication, logic grid puzzles, and a
classic dynamic programming problem. These tasks require breaking problems down
into sub-steps and synthesizing these steps into a precise answer. We formulate
compositional tasks as computation graphs to systematically quantify the level
of complexity, and break down reasoning steps into intermediate sub-procedures.
Our empirical findings suggest that Transformers solve compositional tasks by
reducing multi-step compositional reasoning into linearized subgraph matching,
without necessarily developing systematic problem-solving skills. To round off
our empirical study, we provide theoretical arguments on abstract multi-step
reasoning problems that highlight how Transformers' performance will rapidly
decay with increased task complexity.