LPZero: Поиск прокси-модели языка нулевой стоимости с нуля
LPZero: Language Model Zero-cost Proxy Search from Zero
October 7, 2024
Авторы: Peijie Dong, Lujun Li, Xiang Liu, Zhenheng Tang, Xuebo Liu, Qiang Wang, Xiaowen Chu
cs.AI
Аннотация
Несмотря на выдающуюся производительность, поиск нейронной архитектуры (Neural Architecture Search, NAS) критикуется за огромные вычислительные затраты. Недавно появился метод Zero-shot NAS как многообещающий подход, использующий нулевую стоимость (Zero-cost, ZC) прокси, что значительно снижает вычислительные требования. Тем не менее существующие ZC прокси сильно зависят от экспертных знаний и влекут значительные затраты на проб и ошибок. В частности, в задачах обработки естественного языка (Natural Language Processing, NLP) большинство существующих ZC прокси не превосходят производительность наивного базового уровня. Для решения этих проблем мы представляем новую структуру, LPZero, которая является первой, автоматически создающей ZC прокси для различных задач, достигая более высокой согласованности ранжирования, чем прокси, разработанные людьми. В частности, мы моделируем ZC прокси как символьное уравнение и включаем объединенное пространство поиска прокси, которое охватывает существующие ZC прокси, состоящие из заранее определенного набора математических символов. Для эвристического поиска лучшего ZC прокси LPZero включает генетическое программирование для нахождения оптимальной символьной композиции. Мы предлагаем стратегию обрезки на основе правил (Rule-based Pruning Strategy, RPS), которая предварительно устраняет неперспективные прокси, тем самым смягчая риск деградации прокси. Обширные эксперименты на FlexiBERT, GPT-2 и LLaMA-7B демонстрируют превосходную способность ранжирования и производительность LPZero по сравнению с текущими подходами в задачах последующей обработки.
English
In spite of the outstanding performance, Neural Architecture Search (NAS) is
criticized for massive computation. Recently, Zero-shot NAS has emerged as a
promising approach by exploiting Zero-cost (ZC) proxies, which markedly reduce
computational demands. Despite this, existing ZC proxies heavily rely on expert
knowledge and incur significant trial-and-error costs. Particularly in NLP
tasks, most existing ZC proxies fail to surpass the performance of the naive
baseline. To address these challenges, we introduce a novel framework,
LPZero, which is the first to automatically design ZC proxies for
various tasks, achieving higher ranking consistency than human-designed
proxies. Specifically, we model the ZC proxy as a symbolic equation and
incorporate a unified proxy search space that encompasses existing ZC proxies,
which are composed of a predefined set of mathematical symbols. To
heuristically search for the best ZC proxy, LPZero incorporates genetic
programming to find the optimal symbolic composition. We propose a
Rule-based Pruning Strategy (RPS), which preemptively eliminates
unpromising proxies, thereby mitigating the risk of proxy degradation.
Extensive experiments on FlexiBERT, GPT-2, and LLaMA-7B demonstrate LPZero's
superior ranking ability and performance on downstream tasks compared to
current approaches.Summary
AI-Generated Summary