KI, übernehmen Sie das Steuer: Was treibt Delegation und Vertrauen in der kooperativen Mensch-Computer-Fragebeantwortung?

Zusammenfassung

KI-Systeme sind fehlbar, und Menschen können Fehler machen, wenn sie entscheiden, ob sie der KI mehr vertrauen als ihrem eigenen Urteil. Daher erfordert die Verbesserung der Mensch-KI-Zusammenarbeit ein Verständnis dafür, wann, warum und wie Menschen entscheiden, sich auf KI zu verlassen. Wir untersuchen zwei unterschiedliche Entscheidungen zur Abhängigkeit: die Delegationsentscheidung – die Entscheidung, wann die KI autonom handeln soll, ohne ihr Ergebnis zu kennen, und die Übernahmeentscheidung – die Bewertung von KI-Vorschlägen und die Entscheidung, wie diese genutzt werden. Beide dieser entkoppelten Abhängigkeitsmuster prägen die Zusammenarbeit, aber frühere Arbeiten untersuchen sie selten gemeinsam in realistischen Umgebungen mit denselben Nutzern. Wir schließen diese Lücke, indem wir kollaborative Mensch-KI-Teams untersuchen, die in einem Frage-Antwort-Spiel gegeneinander antreten, bei dem Menschen wählen können, wann und wie sie mit KI-Agenten zusammenarbeiten, um zu gewinnen. Unsere 24 Spiele bringen 23 menschliche Experten mit 16 KI-Agenten zusammen und erfassen 387 Delegations- und 1440 Übernahmeentscheidungen. Während die Mensch-KI-Zusammenarbeit besser abschneidet als KI oder Menschen allein, treffen Menschen suboptimale Kooperationsentscheidungen, sowohl durch zu geringes Vertrauen in korrekte KI-Vorschläge (3,9 % der verpassten Gelegenheiten) als auch durch übermäßiges Vertrauen, wenn die KI sie in die Irre führt (1,7 %). Beide Seiten tragen zu falschen Antworten bei: Die berichtete Modellkonfidenz liegt nahe am Zufallsniveau, wenn Menschen und KI uneins sind, während Bestätigungsfehler eine höhere Unterabhängigkeit (64,5 %) verursacht, wenn ein KI-Vorschlag mit der anfänglich falschen Antwort des Menschen übereinstimmt. Um diese Lücke zu schließen, empfehlen wir kalibrierte Konfidenz, evidenzbasierte Erklärungen und Mechanismen, die Nutzern helfen, ihr Vertrauen zu verfeinern.

English

AI systems are fallible, and humans can make mistakes in deciding whether to trust AI over their own judgment. Thus, improving human-AI collaboration requires understanding when, why, and how humans decide to rely on AI. We study two distinct reliance decisions: the delegation choice -- deciding when to let AI act autonomously without knowing its output, and the adoption choice -- evaluating AI suggestions and deciding how to use them. Both of these decoupled reliance patterns shape collaboration, but prior work rarely studies them together in realistic settings with the same users. We address this gap by studying collaborative human--AI teams competing in a question-answering game in which humans can choose when and how to work with AI agents to win. Our 24 matches pair 23 expert humans with 16 AI agents, capturing 387 delegation and 1440 adoption decisions. While human--AI collaboration performs better than either AI or humans alone, humans make suboptimal collaboration decisions, both under-relying on correct AI suggestions (3.9% of opportunities missed) and over-relying when AI misleads them (1.7%). Both parties contribute wrong answers: reported model confidence is near chance when humans and AI disagree, while confirmation bias drives higher under-reliance (64.5%) when an AI suggestion agrees with humans' initial incorrect answer. To close this gap, we recommend calibrated confidence, evidence-grounded explanations, and mechanisms that help users refine trust.