ChatPaper.aiChatPaper

La Forma de las Palabras Importa: Reconstrucción Semántica de los LLM bajo la Tipoglicemia

Word Form Matters: LLMs' Semantic Reconstruction under Typoglycemia

March 3, 2025
Autores: Chenxi Wang, Tianle Gu, Zhongyu Wei, Lang Gao, Zirui Song, Xiuying Chen
cs.AI

Resumen

Los lectores humanos pueden comprender eficientemente palabras desordenadas, un fenómeno conocido como tipoglicemia, principalmente al basarse en la forma de las palabras; si la forma de la palabra por sí sola es insuficiente, utilizan además pistas contextuales para su interpretación. Si bien los modelos avanzados de lenguaje de gran escala (LLMs, por sus siglas en inglés) exhiben habilidades similares, los mecanismos subyacentes siguen sin estar claros. Para investigar esto, realizamos experimentos controlados para analizar los roles de la forma de las palabras y la información contextual en la reconstrucción semántica y examinar los patrones de atención de los LLMs. Específicamente, primero proponemos SemRecScore, una métrica confiable para cuantificar el grado de reconstrucción semántica, y validamos su efectividad. Utilizando esta métrica, estudiamos cómo la forma de las palabras y la información contextual influyen en la capacidad de reconstrucción semántica de los LLMs, identificando la forma de las palabras como el factor central en este proceso. Además, analizamos cómo los LLMs utilizan la forma de las palabras y encontramos que dependen de cabezas de atención especializadas para extraer y procesar la información de la forma de las palabras, manteniéndose este mecanismo estable en diferentes niveles de desorden de las palabras. Esta distinción entre los patrones de atención fijos de los LLMs, principalmente enfocados en la forma de las palabras, y la estrategia adaptativa de los lectores humanos para equilibrar la forma de las palabras y la información contextual, proporciona ideas para mejorar el rendimiento de los LLMs mediante la incorporación de mecanismos conscientes del contexto, similares a los humanos.
English
Human readers can efficiently comprehend scrambled words, a phenomenon known as Typoglycemia, primarily by relying on word form; if word form alone is insufficient, they further utilize contextual cues for interpretation. While advanced large language models (LLMs) exhibit similar abilities, the underlying mechanisms remain unclear. To investigate this, we conduct controlled experiments to analyze the roles of word form and contextual information in semantic reconstruction and examine LLM attention patterns. Specifically, we first propose SemRecScore, a reliable metric to quantify the degree of semantic reconstruction, and validate its effectiveness. Using this metric, we study how word form and contextual information influence LLMs' semantic reconstruction ability, identifying word form as the core factor in this process. Furthermore, we analyze how LLMs utilize word form and find that they rely on specialized attention heads to extract and process word form information, with this mechanism remaining stable across varying levels of word scrambling. This distinction between LLMs' fixed attention patterns primarily focused on word form and human readers' adaptive strategy in balancing word form and contextual information provides insights into enhancing LLM performance by incorporating human-like, context-aware mechanisms.

Summary

AI-Generated Summary

PDF52March 4, 2025