Komplexität absorbieren: Ein interaktionsnativer Wissensrahmen für Finanz-LLM-Agenten

Zusammenfassung

Finanz-KI-Agenten scheitern oft aus einem einfachen Grund: Sie überlassen den Nutzern die Komplexität. Ein Nutzer muss wiederholt Ziele, Risikopräferenzen, Portfoliokontext, frühere Urteile und sich ändernde Marktannahmen neu formulieren, während der Agent antwortet, abruft, handelt und vergisst. Im Finanzwesen ist dies nicht nur unpraktisch. Bei Aufgaben wie Marktanalyse, Kopierhandelsprüfung und Handelsvorbereitung können vergessener Kontext und veraltete Speicher Latenzen, wiederholte Fehler, schwache Nachvollziehbarkeit und unsichere Entscheidungen verursachen. Wir schlagen die interaktionsnative Wissensverkettung (InKH) vor, eine Architektur für auf großen Sprachmodellen basierende Finanz-Agenten, die die Komplexität in das System absorbiert. InKH wandelt Ereignisse von Nutzern, Märkten, Portfolios und Werkzeugen in strukturiertes operatives Wissen um. Es nutzt passive Wissensinjektion, um vor dem Hauptmodellschritt einen begrenzten Arbeitskontext-Puffer zusammenzustellen, einen temporalen Graphspeicher für latenzarmen Abruf, eine Wiki-Audit-Oberfläche für menschenlesbare Governance sowie Hintergrundextraktion mit Reifegrad, Verfall und Schreibzeit-Invalidierung. Wir evaluieren InKH auf einem reproduzierbaren kontrollierten synthetischen Benchmark mit 24 zufälligen Seeds, 4 Runden, 80 Episoden pro Runde und 6 Basislinien, was 46.080 basislinien-konditionierte Evaluierungen ergibt. InKH erreicht eine mittlere Aufgabenqualität von 0,815 bei einer Latenz von 900 ms. Im Vergleich zu agentengetriebenem Wiki-Walk-Speicher reduziert es die Latenz um 82,95 %, die Tokenkosten um 82,29 % und die Nutzung von veraltetem Wissen um 96,58 %, während die Qualität um 0,108 und die Rückverfolgbarkeit um 0,461 verbessert werden. Im Vergleich zu einem temporalen Graphsystem ohne Invalidierung verbessert es die Qualität um 0,050 und reduziert die Nutzung von veraltetem Speicher um 96,58 %, bei vergleichbaren Betriebskosten. Die Ergebnisse unterstützen eine Designthese für Finanz-KI: Akzeptanz entsteht, wenn die Komplexität vom System absorbiert wird, anstatt auf den Nutzer übertragen zu werden. Der Benchmark validiert das Verhalten auf Architekturebene, nicht die Live-Handelsleistung.

English

Financial AI agents often fail for a simple reason: they make users carry the complexity. A user must repeatedly restate goals, risk preferences, portfolio context, past judgments, and shifting market assumptions, while the agent answers, retrieves, acts, and forgets. In finance, this is not just inconvenient. In tasks such as market analysis, copy-trading review, and trade preparation, forgotten context and stale memory can create latency, repeated errors, weak auditability, and unsafe decisions. We propose the interaction-native knowledge harness (InKH), an architecture for financial LLM agents that absorbs complexity into the system. InKH converts user, market, portfolio, and tool events into structured operational knowledge. It uses passive knowledge injection to assemble a bounded working context buffer before the main model step, temporal graph memory for low-latency retrieval, a wiki audit surface for human-readable governance, and background extraction with maturity, decay, and write-time invalidation. We evaluate InKH on a reproducible controlled synthetic benchmark with 24 random seeds, 4 rounds, 80 episodes per round, and 6 baselines, producing 46,080 baseline-conditioned evaluations. InKH achieves mean task quality of 0.815 at 900 ms latency. Compared with agent-driven wiki-walk memory, it reduces latency by 82.95 percent, token cost by 82.29 percent, and stale-knowledge usage by 96.58 percent, while improving quality by 0.108 and traceability by 0.461. Compared with a temporal-graph system without invalidation, it improves quality by 0.050 and reduces stale-memory usage by 96.58 percent with comparable serving cost. The results support a design thesis for financial AI: adoption happens when complexity is absorbed by the system rather than transferred to the user. The benchmark validates architecture-level behavior, not live trading performance.