Scalabilità delle Revisioni LLM per la Moderazione dei Contenuti di Google Ads

Abstract

I modelli linguistici di grandi dimensioni (LLM) sono strumenti potenti per la moderazione dei contenuti, ma i costi di inferenza e la latenza li rendono proibitivi per un uso casuale su grandi dataset, come il repository di Google Ads. Questo studio propone un metodo per scalare le revisioni tramite LLM per la moderazione dei contenuti in Google Ads. Innanzitutto, utilizziamo euristiche per selezionare i candidati tramite filtraggio e rimozione dei duplicati, e creiamo cluster di annunci per i quali selezioniamo un annuncio rappresentativo per cluster. Successivamente, utilizziamo gli LLM per revisionare solo gli annunci rappresentativi. Infine, propaghiamo le decisioni degli LLM per gli annunci rappresentativi ai rispettivi cluster. Questo metodo riduce il numero di revisioni di oltre 3 ordini di grandezza, ottenendo un richiamo 2 volte superiore rispetto a un modello di base non LLM. Il successo di questo approccio dipende fortemente dalle rappresentazioni utilizzate nel clustering e nella propagazione delle etichette; abbiamo riscontrato che le rappresentazioni di similarità cross-modale producono risultati migliori rispetto alle rappresentazioni uni-modali.

English

Large language models (LLMs) are powerful tools for content moderation, but their inference costs and latency make them prohibitive for casual use on large datasets, such as the Google Ads repository. This study proposes a method for scaling up LLM reviews for content moderation in Google Ads. First, we use heuristics to select candidates via filtering and duplicate removal, and create clusters of ads for which we select one representative ad per cluster. We then use LLMs to review only the representative ads. Finally, we propagate the LLM decisions for the representative ads back to their clusters. This method reduces the number of reviews by more than 3 orders of magnitude while achieving a 2x recall compared to a baseline non-LLM model. The success of this approach is a strong function of the representations used in clustering and label propagation; we found that cross-modal similarity representations yield better results than uni-modal representations.

Scalabilità delle Revisioni LLM per la Moderazione dei Contenuti di Google Ads

Scaling Up LLM Reviews for Google Ads Content Moderation

Abstract

Support