Необоснованная неэффективность более глубоких слоевThe Unreasonable Ineffectiveness of the Deeper Layers
Мы проводим эмпирическое исследование простой стратегии обрезки слоев для популярных семейств предварительно обученных LLM, обнаруживая минимальное снижение производительности на различных наборах данных для вопросно-ответных задач до тех пор, пока не будет удалена значительная часть (до половины) слоев. Для обрезки этих моделей мы определяем оптимальный блок слоев для обрезки, рассматривая их сходство; затем, для "восстановления" ущерба, мы проводим небольшое количество донастройки. В частности, мы используем методы параметрической донастройки (PEFT), в частности, квантизацию и адаптеры низкого ранга (QLoRA), таким образом, что каждый из наших экспериментов может быть выполнен на одном графическом процессоре A100. С практической точки зрения эти результаты указывают на то, что методы обрезки слоев могут дополнять другие стратегии PEFT для дальнейшего снижения вычислительных ресурсов донастройки с одной стороны, и могут улучшить память и задержку вывода с другой стороны. С научной точки зрения устойчивость этих LLM к удалению слоев подразумевает, что либо текущие методы предварительного обучения не должны должным образом использовать параметры в более глубоких слоях сети, либо поверхностные слои играют критическую роль в хранении знаний.