Масштабирование проверок с использованием больших языковых моделей для модерации контента в Google Ads
Scaling Up LLM Reviews for Google Ads Content Moderation
February 7, 2024
Авторы: Wei Qiao, Tushar Dogra, Otilia Stretcu, Yu-Han Lyu, Tiantian Fang, Dongjin Kwon, Chun-Ta Lu, Enming Luo, Yuan Wang, Chih-Chun Chia, Ariel Fuxman, Fangzhou Wang, Ranjay Krishna, Mehmet Tek
cs.AI
Аннотация
Крупные языковые модели (LLM) являются мощным инструментом для модерации контента, однако их затраты на выполнение выводов и задержки делают их непрактичными для повседневного использования на больших наборах данных, таких как репозиторий Google Ads. В данном исследовании предлагается метод масштабирования проверок с использованием LLM для модерации контента в Google Ads. Сначала мы используем эвристики для отбора кандидатов путем фильтрации и удаления дубликатов, а также создаем кластеры объявлений, для каждого из которых выбираем одно репрезентативное объявление. Затем мы используем LLM для проверки только репрезентативных объявлений. Наконец, мы распространяем решения LLM для репрезентативных объявлений на их кластеры. Этот метод сокращает количество проверок более чем на 3 порядка величины, при этом достигая двукратного улучшения полноты по сравнению с базовой моделью без использования LLM. Успех данного подхода в значительной степени зависит от представлений, используемых при кластеризации и распространении меток; мы обнаружили, что кросс-модальные представления сходства дают лучшие результаты, чем уни-модальные представления.
English
Large language models (LLMs) are powerful tools for content moderation, but
their inference costs and latency make them prohibitive for casual use on large
datasets, such as the Google Ads repository. This study proposes a method for
scaling up LLM reviews for content moderation in Google Ads. First, we use
heuristics to select candidates via filtering and duplicate removal, and create
clusters of ads for which we select one representative ad per cluster. We then
use LLMs to review only the representative ads. Finally, we propagate the LLM
decisions for the representative ads back to their clusters. This method
reduces the number of reviews by more than 3 orders of magnitude while
achieving a 2x recall compared to a baseline non-LLM model. The success of this
approach is a strong function of the representations used in clustering and
label propagation; we found that cross-modal similarity representations yield
better results than uni-modal representations.