IA, Toma el Volante: ¿Qué Impulsa la Delegación y la Confianza en la Respuesta Cooperativa a Preguntas entre Humanos y Computadoras?

Resumen

Los sistemas de inteligencia artificial son falibles, y los humanos pueden cometer errores al decidir si confiar en la IA o en su propio juicio. Por lo tanto, mejorar la colaboración humano-IA requiere comprender cuándo, por qué y cómo los humanos deciden confiar en la IA. Estudiamos dos decisiones de confianza distintas: la elección de delegación —decidir cuándo dejar que la IA actúe de forma autónoma sin conocer su resultado— y la elección de adopción —evaluar las sugerencias de la IA y decidir cómo utilizarlas—. Ambos patrones de confianza desacoplados moldean la colaboración, pero los trabajos previos rara vez los estudian juntos en entornos realistas con los mismos usuarios. Abordamos esta brecha estudiando equipos colaborativos humano-IA que compiten en un juego de preguntas y respuestas donde los humanos pueden elegir cuándo y cómo trabajar con agentes de IA para ganar. Nuestros 24 enfrentamientos emparejan a 23 expertos humanos con 16 agentes de IA, capturando 387 decisiones de delegación y 1440 decisiones de adopción. Si bien la colaboración humano-IA obtiene mejores resultados que la IA o los humanos por separado, los humanos toman decisiones de colaboración subóptimas, tanto confiando por debajo de lo debido en sugerencias correctas de la IA (3.9% de oportunidades perdidas) como confiando en exceso cuando la IA los engaña (1.7%). Ambas partes contribuyen con respuestas incorrectas: la confianza reportada del modelo es cercana al azar cuando humanos e IA discrepan, mientras que el sesgo de confirmación impulsa una mayor subconfianza (64.5%) cuando una sugerencia de la IA coincide con la respuesta inicial incorrecta de los humanos. Para cerrar esta brecha, recomendamos una confianza calibrada, explicaciones basadas en evidencia y mecanismos que ayuden a los usuarios a refinar su confianza.

English

AI systems are fallible, and humans can make mistakes in deciding whether to trust AI over their own judgment. Thus, improving human-AI collaboration requires understanding when, why, and how humans decide to rely on AI. We study two distinct reliance decisions: the delegation choice -- deciding when to let AI act autonomously without knowing its output, and the adoption choice -- evaluating AI suggestions and deciding how to use them. Both of these decoupled reliance patterns shape collaboration, but prior work rarely studies them together in realistic settings with the same users. We address this gap by studying collaborative human--AI teams competing in a question-answering game in which humans can choose when and how to work with AI agents to win. Our 24 matches pair 23 expert humans with 16 AI agents, capturing 387 delegation and 1440 adoption decisions. While human--AI collaboration performs better than either AI or humans alone, humans make suboptimal collaboration decisions, both under-relying on correct AI suggestions (3.9% of opportunities missed) and over-relying when AI misleads them (1.7%). Both parties contribute wrong answers: reported model confidence is near chance when humans and AI disagree, while confirmation bias drives higher under-reliance (64.5%) when an AI suggestion agrees with humans' initial incorrect answer. To close this gap, we recommend calibrated confidence, evidence-grounded explanations, and mechanisms that help users refine trust.