Цепочка обучения моделей для языковой моделиChain-of-Model Learning for Language Model
В данной статье мы предлагаем новую парадигму обучения, названную Chain-of-Model (CoM), которая интегрирует причинно-следственные связи в скрытые состояния каждого слоя в виде цепочки, что обеспечивает значительную эффективность масштабирования при обучении модели и гибкость при её развертывании. Мы вводим концепцию Chain-of-Representation (CoR), которая формулирует скрытые состояния на каждом слое как комбинацию нескольких подпредставлений (т.е. цепочек) на уровне скрытой размерности. На каждом слое каждая цепочка из выходных представлений может видеть только все предшествующие ей цепочки во входных представлениях. В результате модель, построенная на основе CoM, может постепенно увеличивать свой размер, добавляя цепочки на основе предыдущих моделей (т.е. цепочек), и предоставлять несколько подмоделей разного размера для гибкого вывода, используя разное количество цепочек. На основе этого принципа мы разработали Chain-of-Language-Model (CoLM), которая интегрирует идею CoM в каждый слой архитектуры Transformer. На основе CoLM мы также представляем CoLM-Air, вводя механизм совместного использования ключей и значений (KV), при котором все ключи и значения вычисляются в первой цепочке, а затем используются во всех остальных. Этот дизайн демонстрирует дополнительную расширяемость, такую как возможность бесшовного переключения языковых моделей, ускорение предварительного заполнения и т.д. Экспериментальные результаты показывают, что наше семейство моделей CoLM может достичь сопоставимой производительности с классическим Transformer, одновременно обеспечивая большую гибкость, такую как постепенное масштабирование для повышения эффективности обучения и предоставление нескольких моделей разного размера для гибкого вывода, открывая новые пути для создания языковых моделей. Наш код будет опубликован в будущем по адресу: https://github.com/microsoft/CoLM.