Destilar ejemplos en instrucciones de tarea: aprendizaje en contexto mejorado para conversaciones B2B del mundo real

Resumen

El aprendizaje en contexto (ICL) es el método estándar para la clasificación con recursos limitados, aunque su eficacia en dominios especializados sigue sin explorarse en gran medida. Abordamos el desafío de clasificar conversaciones B2B multipartitas semánticamente complejas, donde el ICL tradicional encuentra limitaciones significativas, especialmente a medida que la longitud del contexto aumenta debido a la concatenación de múltiples ejemplos de pocas muestras. Presentamos el conjunto de datos Call Playbook, que incluye cinco tareas de clasificación derivadas de conversaciones B2B reales centradas en conceptos clave de ventas. Para cerrar la brecha entre el rendimiento y la utilidad práctica, proponemos métodos novedosos de extracción de conocimiento que destilan ejemplos extensos en representaciones compactas e interpretables de criterios de clasificación estructurados y descripciones de tareas precisas. Nuestro enfoque logra una reducción del 99% en el uso de tokens y mejora el AUC macro-promedio hasta en un 7% en comparación con el ICL tradicional. Notablemente, se mantiene robusto a medida que el contexto crece, a diferencia de las líneas base avanzadas de compresión de tokens que se degradan en más de 9 puntos de F1. Es importante destacar que nuestro marco permite el refinamiento directo de la lógica de clasificación, abordando necesidades críticas de transparencia, eficiencia e interacción del usuario en aplicaciones reales de PLN.

English

In-context learning (ICL) is the standard method for low-resource classification, yet its efficacy in specialized domains remains largely unexplored. We address the challenge of classifying semantically complex, multi-party B2B conversations, where traditional ICL encounters significant limitations, especially as context length increases due to the concatenation of multiple few-shot examples. We introduce the Call Playbook dataset, featuring five classification tasks derived from real-world B2B conversations targeting core sales concepts. To bridge the gap between performance and practical utility, we propose novel knowledge extraction methods that distill verbose examples into compact, interpretable representations of structured classification criteria and precise task descriptions. Our approach achieves a 99\% reduction in token usage and improves macro-averaged AUC by up to 7\% over traditional ICL. Notably, it remains robust as context grows, unlike advanced token compression baselines which degrade by over 9 F1 points. Importantly, our framework enables direct refinement of classification logic, addressing critical needs for transparency, efficiency, and user interaction in real-world NLP applications.