Les LLM comme travailleurs dans les algorithmes de calcul humain ? Réplication des pipelines de crowdsourcing avec les LLM

Résumé

Les LLM ont montré des promesses dans la reproduction de comportements humains pour des tâches de crowdsourcing qui étaient auparavant considérées comme exclusivement humaines. Cependant, les efforts actuels se concentrent principalement sur des tâches atomiques simples. Nous explorons si les LLM peuvent reproduire des pipelines de crowdsourcing plus complexes. Nous constatons que les LLM modernes peuvent simuler certaines des capacités des travailleurs humains dans ces "algorithmes de calcul humain", mais le niveau de succès est variable et influencé par la compréhension des demandeurs des capacités des LLM, les compétences spécifiques requises pour les sous-tâches, et la modalité d'interaction optimale pour exécuter ces sous-tâches. Nous réfléchissons aux différentes sensibilités des humains et des LLM aux instructions, soulignons l'importance de mettre en place des dispositifs de sécurité orientés vers les humains pour les LLM, et discutons du potentiel de formation des humains et des LLM avec des ensembles de compétences complémentaires. De manière cruciale, nous montrons que la reproduction des pipelines de crowdsourcing offre une plateforme précieuse pour étudier (1) les forces relatives des LLM sur différentes tâches (en comparant leurs performances sur les sous-tâches) et (2) le potentiel des LLM dans des tâches complexes, où ils peuvent accomplir une partie des tâches tout en laissant les autres aux humains.

English

LLMs have shown promise in replicating human-like behavior in crowdsourcing tasks that were previously thought to be exclusive to human abilities. However, current efforts focus mainly on simple atomic tasks. We explore whether LLMs can replicate more complex crowdsourcing pipelines. We find that modern LLMs can simulate some of crowdworkers' abilities in these "human computation algorithms," but the level of success is variable and influenced by requesters' understanding of LLM capabilities, the specific skills required for sub-tasks, and the optimal interaction modality for performing these sub-tasks. We reflect on human and LLMs' different sensitivities to instructions, stress the importance of enabling human-facing safeguards for LLMs, and discuss the potential of training humans and LLMs with complementary skill sets. Crucially, we show that replicating crowdsourcing pipelines offers a valuable platform to investigate (1) the relative strengths of LLMs on different tasks (by cross-comparing their performances on sub-tasks) and (2) LLMs' potential in complex tasks, where they can complete part of the tasks while leaving others to humans.

Les LLM comme travailleurs dans les algorithmes de calcul humain ? Réplication des pipelines de crowdsourcing avec les LLM

LLMs as Workers in Human-Computational Algorithms? Replicating Crowdsourcing Pipelines with LLMs

Résumé

Support