Más allá del recuerdo: La especificación del comportamiento como capa interpretativa para la personalización de la IA

Resumen

Si un agente de IA toma decisiones en nombre de una persona, dichas decisiones deben alinearse con su usuario. Introducimos la precisión representacional para medir con qué fidelidad un sistema captura la interpretación de una persona. Una capa interpretativa se operacionaliza como una Especificación de Comportamiento. Nuestra implementación de referencia comprime agresivamente los datos de una persona en patrones interpretativos, que se utilizan como contexto para un modelo de lenguaje. Evaluamos la Especificación en un prototipo de referencia de predicciones conductuales fuera de muestra, puntuadas por un panel calibrado de 5 jueces LLM. La probamos de forma independiente y en composición con un conjunto de condiciones de contexto: corpus crudo completo, hechos extraídos completos y cuatro sistemas de memoria comerciales (Mem0, Letta, Supermemory, Zep). En 14 corpus autobiográficos de dominio público, la Especificación mejora la precisión representacional en conjunto y elimina casi por completo la evasión del modelo. Recupera la mayor parte de lo que ofrece el corpus crudo, con un costo de contexto aproximadamente 25 veces menor. La Especificación eleva a los sujetos hacia un nivel predictivo común independientemente de la línea base de preentrenamiento; por lo tanto, la mejora en puntos absolutos es mayor donde la línea base es más baja, lo que sugiere que la población relevante son aquellos no representados adecuadamente en el preentrenamiento. La mejora es mayor en preguntas que requieren interpretación, donde proporcionar una capa interpretativa permite un comportamiento del modelo que los hechos extraídos o el corpus crudo no logran. Por el contrario, en preguntas que requieren recuerdo, esta capa puede interferir en lugar de ayudar. Concluimos que la precisión representacional es distinta del recuerdo y que la alineación humano-IA depende de cuán precisamente esté representado el usuario. La precisión representacional hace que dicha alineación sea comprobable.

English

If an AI agent makes decisions on a person's behalf, those decisions must align with its user. We introduce representational accuracy to measure how faithfully a system captures a person's interpretation. An interpretive layer is operationalized as a Behavioral Specification. Our reference implementation aggressively compresses a person's data into interpretive patterns, served as context to a language model. We evaluate the Specification on a prototype benchmark of held-out behavioral predictions scored by a calibrated 5-judge LLM panel. We test it independently and in composition with a range of context conditions: full raw corpus, full extracted facts, and four commercial memory systems (Mem0, Letta, Supermemory, Zep). Across 14 public-domain autobiographical corpora, the Specification lifts representational accuracy in aggregate and nearly eliminates model hedging. It recovers most of what the raw corpus delivers, at ~25x less context cost. The Specification lifts subjects toward a common predictive level regardless of pretraining baseline; the lift in absolute points is therefore largest where the baseline is lowest, suggesting the population of relevance is anyone not adequately represented in pretraining. Lift is greatest on interpretation-required questions, where providing an interpretive layer enables model behavior that extracted facts or raw corpus do not. Conversely, on recall-required questions, this layer can interfere rather than help. We conclude that representational accuracy is distinct from recall and that human-AI alignment is dependent on how accurately the user is represented. Representational accuracy makes that alignment testable.