AI, neem het stuur: Wat drijft delegatie en vertrouwen in coöperatieve mens-computer vraagbeantwoording?

Samenvatting

AI-systemen zijn feilbaar, en mensen kunnen fouten maken bij het beslissen of ze meer op AI dan op hun eigen oordeel vertrouwen. Het verbeteren van mens-AI-samenwerking vereist daarom inzicht in wanneer, waarom en hoe mensen besluiten om op AI te vertrouwen. We bestuderen twee afzonderlijke vertrouwensbeslissingen: de delegatiekeuze – beslissen wanneer AI autonoom mag handelen zonder de uitkomst te kennen – en de adoptiekeuze – het evalueren van AI-suggesties en beslissen hoe deze te gebruiken. Beide ontkoppelde vertrouwenspatronen bepalen de samenwerking, maar eerder onderzoek bestudeert ze zelden samen in realistische settings met dezelfde gebruikers. We vullen deze leemte door samenwerkende mens-AI-teams te bestuderen die concurreren in een vraag-en-antwoordspel waarin mensen kunnen kiezen wanneer en hoe ze met AI-agenten samenwerken om te winnen. Onze 24 wedstrijden koppelen 23 expert-mensen aan 16 AI-agenten, waarbij 387 delegatie- en 1440 adoptiebeslissingen worden vastgelegd. Hoewel mens-AI-samenwerking beter presteert dan AI of mensen alleen, nemen mensen suboptimale samenwerkingsbeslissingen: zowel ondervertrouwen in correcte AI-suggesties (3,9% van gemiste kansen) als oververtrouwen wanneer AI hen misleidt (1,7%). Beide partijen leveren foute antwoorden: de gerapporteerde modelzekerheid is bijna kansniveau wanneer mens en AI het oneens zijn, terwijl bevestigingsbias leidt tot hoger ondervertrouwen (64,5%) wanneer een AI-suggestie overeenkomt met het initiële foute antwoord van de mens. Om deze kloof te dichten, bevelen we gekalibreerd vertrouwen, op bewijs gebaseerde uitleg en mechanismen aan die gebruikers helpen hun vertrouwen te verfijnen.

English

AI systems are fallible, and humans can make mistakes in deciding whether to trust AI over their own judgment. Thus, improving human-AI collaboration requires understanding when, why, and how humans decide to rely on AI. We study two distinct reliance decisions: the delegation choice -- deciding when to let AI act autonomously without knowing its output, and the adoption choice -- evaluating AI suggestions and deciding how to use them. Both of these decoupled reliance patterns shape collaboration, but prior work rarely studies them together in realistic settings with the same users. We address this gap by studying collaborative human--AI teams competing in a question-answering game in which humans can choose when and how to work with AI agents to win. Our 24 matches pair 23 expert humans with 16 AI agents, capturing 387 delegation and 1440 adoption decisions. While human--AI collaboration performs better than either AI or humans alone, humans make suboptimal collaboration decisions, both under-relying on correct AI suggestions (3.9% of opportunities missed) and over-relying when AI misleads them (1.7%). Both parties contribute wrong answers: reported model confidence is near chance when humans and AI disagree, while confirmation bias drives higher under-reliance (64.5%) when an AI suggestion agrees with humans' initial incorrect answer. To close this gap, we recommend calibrated confidence, evidence-grounded explanations, and mechanisms that help users refine trust.