Campionamento Prioritario di Modelli Linguistici di Grandi Dimensioni per Compilatori
Priority Sampling of Large Language Models for Compilers
February 28, 2024
Autori: Dejan Grubisic, Chris Cummins, Volker Seeker, Hugh Leather
cs.AI
Abstract
I modelli linguistici di grandi dimensioni mostrano un grande potenziale nella generazione e ottimizzazione del codice.
I metodi di campionamento ampiamente utilizzati, come il Nucleus Sampling, aumentano la diversità della generazione, ma spesso producono campioni ripetuti per temperature basse e campioni incoerenti per temperature elevate. Inoltre, il coefficiente di temperatura deve essere regolato per ogni task, limitandone l'usabilità. Presentiamo il Priority Sampling, una tecnica di campionamento semplice e deterministica che produce campioni unici ordinati in base alla confidenza del modello. Ogni nuovo campione espande il token non espanso con la probabilità più alta nell'albero di ricerca ampliato. Inoltre, il Priority Sampling supporta la generazione basata su espressioni regolari, fornendo un processo di esplorazione controllato e strutturato. Il Priority Sampling supera il Nucleus Sampling per qualsiasi numero di campioni, migliorando le prestazioni del modello originale dal 2,87% al 5% rispetto a -Oz. Inoltre, supera l'autotuner utilizzato per la generazione delle etichette per l'addestramento del modello originale in soli 30 campioni.
English
Large language models show great potential in generating and optimizing code.
Widely used sampling methods such as Nucleus Sampling increase the diversity of
generation but often produce repeated samples for low temperatures and
incoherent samples for high temperatures. Furthermore, the temperature
coefficient has to be tuned for each task, limiting its usability. We present
Priority Sampling, a simple and deterministic sampling technique that produces
unique samples ordered by the model's confidence. Each new sample expands the
unexpanded token with the highest probability in the augmented search tree.
Additionally, Priority Sampling supports generation based on regular expression
that provides a controllable and structured exploration process. Priority
Sampling outperforms Nucleus Sampling for any number of samples, boosting the
performance of the original model from 2.87% to 5% improvement over -Oz.
Moreover, it outperforms the autotuner used for the generation of labels for
the training of the original model in just 30 samples.