LPZero: Поиск прокси-модели языка нулевой стоимости с нуля

Аннотация

Несмотря на выдающуюся производительность, поиск нейронной архитектуры (Neural Architecture Search, NAS) критикуется за огромные вычислительные затраты. Недавно появился метод Zero-shot NAS как многообещающий подход, использующий нулевую стоимость (Zero-cost, ZC) прокси, что значительно снижает вычислительные требования. Тем не менее существующие ZC прокси сильно зависят от экспертных знаний и влекут значительные затраты на проб и ошибок. В частности, в задачах обработки естественного языка (Natural Language Processing, NLP) большинство существующих ZC прокси не превосходят производительность наивного базового уровня. Для решения этих проблем мы представляем новую структуру, LPZero, которая является первой, автоматически создающей ZC прокси для различных задач, достигая более высокой согласованности ранжирования, чем прокси, разработанные людьми. В частности, мы моделируем ZC прокси как символьное уравнение и включаем объединенное пространство поиска прокси, которое охватывает существующие ZC прокси, состоящие из заранее определенного набора математических символов. Для эвристического поиска лучшего ZC прокси LPZero включает генетическое программирование для нахождения оптимальной символьной композиции. Мы предлагаем стратегию обрезки на основе правил (Rule-based Pruning Strategy, RPS), которая предварительно устраняет неперспективные прокси, тем самым смягчая риск деградации прокси. Обширные эксперименты на FlexiBERT, GPT-2 и LLaMA-7B демонстрируют превосходную способность ранжирования и производительность LPZero по сравнению с текущими подходами в задачах последующей обработки.

English

In spite of the outstanding performance, Neural Architecture Search (NAS) is criticized for massive computation. Recently, Zero-shot NAS has emerged as a promising approach by exploiting Zero-cost (ZC) proxies, which markedly reduce computational demands. Despite this, existing ZC proxies heavily rely on expert knowledge and incur significant trial-and-error costs. Particularly in NLP tasks, most existing ZC proxies fail to surpass the performance of the naive baseline. To address these challenges, we introduce a novel framework, LPZero, which is the first to automatically design ZC proxies for various tasks, achieving higher ranking consistency than human-designed proxies. Specifically, we model the ZC proxy as a symbolic equation and incorporate a unified proxy search space that encompasses existing ZC proxies, which are composed of a predefined set of mathematical symbols. To heuristically search for the best ZC proxy, LPZero incorporates genetic programming to find the optimal symbolic composition. We propose a Rule-based Pruning Strategy (RPS), which preemptively eliminates unpromising proxies, thereby mitigating the risk of proxy degradation. Extensive experiments on FlexiBERT, GPT-2, and LLaMA-7B demonstrate LPZero's superior ranking ability and performance on downstream tasks compared to current approaches.

LPZero: Поиск прокси-модели языка нулевой стоимости с нуля

LPZero: Language Model Zero-cost Proxy Search from Zero

Аннотация

Support