Грокинг в реальных условиях: аугментация данных для многошагового рассуждения в реальном мире с использованием трансформеровGrokking in the Wild: Data Augmentation for Real-World Multi-Hop
Reasoning with Transformers
Трансформеры достигли значительных успехов в многочисленных задачах обработки естественного языка (NLP), но продолжают демонстрировать заметные пробелы в многошаговом фактологическом рассуждении, особенно в условиях недостатка реальных знаний. Недавние достижения в области "grokking" (интуитивного понимания) показали, что нейронные сети могут переходить от запоминания к идеальному обобщению, как только обнаруживают лежащие в основе логические закономерности, — однако эти исследования в основном использовали небольшие синтетические задачи. В данной работе мы впервые расширяем grokking на реальные фактологические данные и решаем проблему разреженности наборов данных, дополняя существующие графы знаний тщательно разработанными синтетическими данными, чтобы повысить отношение phi_r выводимых фактов к атомарным фактам выше порога, необходимого для grokking. Удивительно, но мы обнаруживаем, что даже фактологически некорректные синтетические данные могут укреплять возникающие схемы рассуждений, а не снижать точность, поскольку они заставляют модель полагаться на реляционную структуру, а не на запоминание. При оценке на бенчмарках многошагового рассуждения наш подход достигает точности до 95-100% на 2WikiMultiHopQA, значительно превосходя сильные базовые модели и соответствуя или превышая текущие результаты state-of-the-art. Мы также проводим детальный анализ того, как увеличение phi_r способствует формированию обобщающих схем внутри трансформеров. Наши результаты показывают, что дополнение данных на основе grokking может раскрыть скрытые возможности многошагового рассуждения, открывая путь к более надежному и интерпретируемому фактологическому рассуждению в крупномасштабных языковых моделях.