Mise à l'échelle des évaluations par LLM pour la modération de contenu des Google Ads
Scaling Up LLM Reviews for Google Ads Content Moderation
February 7, 2024
Auteurs: Wei Qiao, Tushar Dogra, Otilia Stretcu, Yu-Han Lyu, Tiantian Fang, Dongjin Kwon, Chun-Ta Lu, Enming Luo, Yuan Wang, Chih-Chun Chia, Ariel Fuxman, Fangzhou Wang, Ranjay Krishna, Mehmet Tek
cs.AI
Résumé
Les grands modèles de langage (LLM) sont des outils puissants pour la modération de contenu, mais leurs coûts d'inférence et leur latence les rendent prohibitifs pour une utilisation occasionnelle sur de grands ensembles de données, tels que le référentiel Google Ads. Cette étude propose une méthode pour intensifier les évaluations par LLM pour la modération de contenu dans Google Ads. Tout d'abord, nous utilisons des heuristiques pour sélectionner des candidats via filtrage et suppression des doublons, et créons des clusters de publicités pour lesquels nous sélectionnons une publicité représentative par cluster. Nous utilisons ensuite les LLM pour examiner uniquement les publicités représentatives. Enfin, nous propageons les décisions des LLM pour les publicités représentatives à leurs clusters respectifs. Cette méthode réduit le nombre d'évaluations de plus de 3 ordres de grandeur tout en obtenant un rappel 2 fois supérieur par rapport à un modèle de référence non-LLM. Le succès de cette approche dépend fortement des représentations utilisées dans le clustering et la propagation des labels ; nous avons constaté que les représentations de similarité intermodales donnent de meilleurs résultats que les représentations unimodales.
English
Large language models (LLMs) are powerful tools for content moderation, but
their inference costs and latency make them prohibitive for casual use on large
datasets, such as the Google Ads repository. This study proposes a method for
scaling up LLM reviews for content moderation in Google Ads. First, we use
heuristics to select candidates via filtering and duplicate removal, and create
clusters of ads for which we select one representative ad per cluster. We then
use LLMs to review only the representative ads. Finally, we propagate the LLM
decisions for the representative ads back to their clusters. This method
reduces the number of reviews by more than 3 orders of magnitude while
achieving a 2x recall compared to a baseline non-LLM model. The success of this
approach is a strong function of the representations used in clustering and
label propagation; we found that cross-modal similarity representations yield
better results than uni-modal representations.