LPZero: Ricerca di proxy a costo zero per modelli linguistici da zero
LPZero: Language Model Zero-cost Proxy Search from Zero
October 7, 2024
Autori: Peijie Dong, Lujun Li, Xiang Liu, Zhenheng Tang, Xuebo Liu, Qiang Wang, Xiaowen Chu
cs.AI
Abstract
Nonostante le eccezionali prestazioni, la Ricerca di Architetture Neurali (NAS) è criticata per la massiccia computazione. Di recente, la NAS a Zero-shot è emersa come un approccio promettente sfruttando i proxy a Zero-cost (ZC), che riducono notevolmente le richieste computazionali. Nonostante ciò, i proxy ZC esistenti dipendono pesantemente dalla conoscenza degli esperti e comportano significativi costi di tentativi ed errori. In particolare, nei compiti di NLP, la maggior parte dei proxy ZC esistenti non riesce a superare le prestazioni del baseline ingenuo. Per affrontare queste sfide, presentiamo un nuovo framework, LPZero, che è il primo a progettare automaticamente proxy ZC per vari compiti, ottenendo una maggiore coerenza di classificazione rispetto ai proxy progettati dall'uomo. In particolare, modelliamo il proxy ZC come un'equazione simbolica e incorporiamo uno spazio unificato di ricerca di proxy che comprende i proxy ZC esistenti, composti da un insieme predefinito di simboli matematici. Per cercare in modo euristico il miglior proxy ZC, LPZero incorpora la programmazione genetica per trovare la composizione simbolica ottimale. Proponiamo una Strategia di Potatura basata su Regole (RPS), che elimina preventivamente i proxy poco promettenti, mitigando così il rischio di degrado del proxy. Estesi esperimenti su FlexiBERT, GPT-2 e LLaMA-7B dimostrano la capacità di classificazione superiore di LPZero e le prestazioni nei compiti successivi rispetto agli approcci attuali.
English
In spite of the outstanding performance, Neural Architecture Search (NAS) is
criticized for massive computation. Recently, Zero-shot NAS has emerged as a
promising approach by exploiting Zero-cost (ZC) proxies, which markedly reduce
computational demands. Despite this, existing ZC proxies heavily rely on expert
knowledge and incur significant trial-and-error costs. Particularly in NLP
tasks, most existing ZC proxies fail to surpass the performance of the naive
baseline. To address these challenges, we introduce a novel framework,
LPZero, which is the first to automatically design ZC proxies for
various tasks, achieving higher ranking consistency than human-designed
proxies. Specifically, we model the ZC proxy as a symbolic equation and
incorporate a unified proxy search space that encompasses existing ZC proxies,
which are composed of a predefined set of mathematical symbols. To
heuristically search for the best ZC proxy, LPZero incorporates genetic
programming to find the optimal symbolic composition. We propose a
Rule-based Pruning Strategy (RPS), which preemptively eliminates
unpromising proxies, thereby mitigating the risk of proxy degradation.
Extensive experiments on FlexiBERT, GPT-2, and LLaMA-7B demonstrate LPZero's
superior ranking ability and performance on downstream tasks compared to
current approaches.