Skalierung von LLM-Überprüfungen für die Inhaltsmoderation von Google Ads
Scaling Up LLM Reviews for Google Ads Content Moderation
February 7, 2024
papers.authors: Wei Qiao, Tushar Dogra, Otilia Stretcu, Yu-Han Lyu, Tiantian Fang, Dongjin Kwon, Chun-Ta Lu, Enming Luo, Yuan Wang, Chih-Chun Chia, Ariel Fuxman, Fangzhou Wang, Ranjay Krishna, Mehmet Tek
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) sind leistungsstarke Werkzeuge für die Inhaltsmoderation, doch ihre Inferenzkosten und Latenzzeiten machen sie für den gelegentlichen Einsatz auf großen Datensätzen, wie dem Google Ads-Repository, ungeeignet. Diese Studie schlägt eine Methode vor, um LLM-Überprüfungen für die Inhaltsmoderation in Google Ads zu skalieren. Zunächst verwenden wir Heuristiken, um Kandidaten durch Filterung und Duplikatentfernung auszuwählen und erstellen Cluster von Anzeigen, für die wir jeweils eine repräsentative Anzeige pro Cluster auswählen. Anschließend nutzen wir LLMs, um nur die repräsentativen Anzeigen zu überprüfen. Schließlich übertragen wir die LLM-Entscheidungen für die repräsentativen Anzeigen zurück auf ihre Cluster. Diese Methode reduziert die Anzahl der Überprüfungen um mehr als drei Größenordnungen und erreicht dabei eine doppelt so hohe Trefferquote im Vergleich zu einem Baseline-Modell ohne LLM. Der Erfolg dieses Ansatzes hängt stark von den verwendeten Repräsentationen für das Clustering und die Label-Propagation ab; wir fanden heraus, dass cross-modale Ähnlichkeitsrepräsentationen bessere Ergebnisse liefern als uni-modale Repräsentationen.
English
Large language models (LLMs) are powerful tools for content moderation, but
their inference costs and latency make them prohibitive for casual use on large
datasets, such as the Google Ads repository. This study proposes a method for
scaling up LLM reviews for content moderation in Google Ads. First, we use
heuristics to select candidates via filtering and duplicate removal, and create
clusters of ads for which we select one representative ad per cluster. We then
use LLMs to review only the representative ads. Finally, we propagate the LLM
decisions for the representative ads back to their clusters. This method
reduces the number of reviews by more than 3 orders of magnitude while
achieving a 2x recall compared to a baseline non-LLM model. The success of this
approach is a strong function of the representations used in clustering and
label propagation; we found that cross-modal similarity representations yield
better results than uni-modal representations.