Jenseits des Abrufs: Verhaltensspezifikation als interpretierende Schicht für KI-Personalisierung

Zusammenfassung

Falls ein KI-Agent Entscheidungen im Namen einer Person trifft, müssen diese Entscheidungen mit dem Benutzer übereinstimmen. Wir führen die Repräsentationsgenauigkeit ein, um zu messen, wie getreu ein System die Interpretation einer Person erfasst. Eine Interpretationsebene wird als Verhaltensspezifikation operationalisiert. Unsere Referenzimplementierung komprimiert die Daten einer Person aggressiv zu Interpretationsmustern, die einem Sprachmodell als Kontext dienen. Wir evaluieren die Spezifikation anhand eines Prototyp-Benchmarks von zurückgehaltenen Verhaltensvorhersagen, die von einem kalibrierten 5-Richter-LLM-Gremium bewertet werden. Wir testen sie unabhängig und in Kombination mit einer Reihe von Kontextbedingungen: vollständiger Rohkorpus, vollständig extrahierte Fakten und vier kommerzielle Gedächtnissysteme (Mem0, Letta, Supermemory, Zep). Über 14 gemeinfreie autobiografische Korpora hinweg erhöht die Spezifikation die Repräsentationsgenauigkeit im Aggregat und eliminiert nahezu das Modell-Hedging. Sie gewinnt den Großteil dessen zurück, was der Rohkorpus liefert, bei etwa 25-fach geringeren Kontextkosten. Die Spezifikation hebt die Subjekte auf ein gemeinsames Vorhersageniveau an, unabhängig von der Vortrainingsbasislinie; der Anstieg in absoluten Punkten ist daher dort am größten, wo die Basislinie am niedrigsten ist, was darauf hindeutet, dass die relevante Population alle Personen umfasst, die im Vortraining nicht ausreichend repräsentiert sind. Der Anstieg ist bei Fragen, die Interpretation erfordern, am größten, wo die Bereitstellung einer Interpretationsebene ein Modellverhalten ermöglicht, das extrahierte Fakten oder der Rohkorpus nicht ermöglichen. Umgekehrt kann diese Ebene bei Fragen, die Erinnerung erfordern, eher stören als helfen. Wir schlussfolgern, dass sich Repräsentationsgenauigkeit von Erinnerung unterscheidet und dass die Mensch-KI-Ausrichtung davon abhängt, wie genau der Benutzer repräsentiert wird. Repräsentationsgenauigkeit macht diese Ausrichtung testbar.

English

If an AI agent makes decisions on a person's behalf, those decisions must align with its user. We introduce representational accuracy to measure how faithfully a system captures a person's interpretation. An interpretive layer is operationalized as a Behavioral Specification. Our reference implementation aggressively compresses a person's data into interpretive patterns, served as context to a language model. We evaluate the Specification on a prototype benchmark of held-out behavioral predictions scored by a calibrated 5-judge LLM panel. We test it independently and in composition with a range of context conditions: full raw corpus, full extracted facts, and four commercial memory systems (Mem0, Letta, Supermemory, Zep). Across 14 public-domain autobiographical corpora, the Specification lifts representational accuracy in aggregate and nearly eliminates model hedging. It recovers most of what the raw corpus delivers, at ~25x less context cost. The Specification lifts subjects toward a common predictive level regardless of pretraining baseline; the lift in absolute points is therefore largest where the baseline is lowest, suggesting the population of relevance is anyone not adequately represented in pretraining. Lift is greatest on interpretation-required questions, where providing an interpretive layer enables model behavior that extracted facts or raw corpus do not. Conversely, on recall-required questions, this layer can interfere rather than help. We conclude that representational accuracy is distinct from recall and that human-AI alignment is dependent on how accurately the user is represented. Representational accuracy makes that alignment testable.