PreScam: Un benchmark para predecir la progresión de estafas a partir de conversaciones tempranas

Resumen

Las estafas conversacionales, como las estafas románticas y de inversión, están emergiendo como una forma importante de fraude en línea. A diferencia de los señuelos únicos, como los mensajes de lotería falsa o de peajes impagados, estas estafas se desarrollan a través de conversaciones de múltiples turnos en las que los estafadores manipulan gradualmente a las víctimas mediante técnicas psicológicas en evolución. Sin embargo, la investigación existente se centra principalmente en la detección estática de estafas o en estafas sintéticas, dejando abierta la cuestión de si los modelos de lenguaje pueden comprender cómo progresan las estafas reales a lo largo del tiempo. Presentamos PreScam, un punto de referencia para modelar la progresión de estafas a partir de conversaciones tempranas. Construido a partir de informes de estafas enviados por usuarios, PreScam filtra y estructura 177.989 informes en bruto en 11.573 casos de estafas conversacionales que abarcan 20 categorías de estafas. Cada caso está estructurado jerárquicamente según el ciclo de vida de la estafa definido por la cadena de eliminación de estafas propuesta, y además anotado a nivel de turno con las acciones psicológicas del estafador y las respuestas de la víctima. Evaluamos los modelos en dos tareas: predicción de terminación en tiempo real, que estima si una conversación se acerca a la etapa de terminación, y predicción de acciones del estafador, que pronostica las acciones subsiguientes del estafador. Los resultados muestran una brecha clara entre la fluidez superficial y el modelado de la progresión: los codificadores supervisados superan sustancialmente a los LLMs de cero disparos en la predicción de terminación en tiempo real, mientras que la predicción de la siguiente acción sigue siendo solo moderadamente exitosa incluso para LLMs potentes. En conjunto, estos resultados muestran que los modelos actuales pueden capturar algunas señales relacionadas con estafas, pero aún tienen dificultades para rastrear cómo se intensifica el riesgo y cómo se desarrolla la manipulación a lo largo de los turnos.

English

Conversational scams, such as romance and investment scams, are emerging as a major form of online fraud. Unlike one-shot scam lures such as fake lottery or unpaid toll messages, they unfold through multi-turn conversations in which scammers gradually manipulate victims using evolving psychological techniques. However, existing research mainly focuses on static scam detection or synthetic scams, leaving open whether language models can understand how real-world scams progress over time. We introduce PreScam, a benchmark for modeling scam progression from early conversations. Built from user-submitted scam reports, PreScam filters and structures 177,989 raw reports into 11,573 conversational scam instances spanning 20 scam categories. Each instance is hierarchically structured according to the scam lifecycle defined by the proposed scam kill chain, and further annotated at the turn level with scammer psychological actions and victim responses. We benchmark models on two tasks: real-time termination prediction, which estimates whether a conversation is approaching the termination stage, and scammer action prediction, which forecasts the scammer's subsequent actions. Results show a clear gap between surface-level fluency and progression modeling: supervised encoders substantially outperform zero-shot LLMs on real-time termination prediction, while next-action prediction remains only moderately successful even for strong LLMs. Taken together, these results show that current models can capture some scam-related cues, yet still struggle to track how risk escalates and how manipulation unfolds across turns.