¿Los LLM como trabajadores en algoritmos de computación humana? Replicación de flujos de trabajo de crowdsourcing con LLM

Resumen

Los LLM han demostrado ser prometedores al replicar comportamientos similares a los humanos en tareas de crowdsourcing que anteriormente se consideraban exclusivas de las capacidades humanas. Sin embargo, los esfuerzos actuales se centran principalmente en tareas atómicas simples. Exploramos si los LLM pueden replicar pipelines de crowdsourcing más complejos. Descubrimos que los LLM modernos pueden simular algunas de las habilidades de los trabajadores de la multitud en estos "algoritmos de computación humana", pero el nivel de éxito es variable y está influenciado por la comprensión que tienen los solicitantes de las capacidades de los LLM, las habilidades específicas requeridas para las subtareas y la modalidad de interacción óptima para realizar estas subtareas. Reflexionamos sobre las diferentes sensibilidades de los humanos y los LLM ante las instrucciones, enfatizamos la importancia de habilitar salvaguardas orientadas a humanos para los LLM y discutimos el potencial de entrenar a humanos y LLM con conjuntos de habilidades complementarios. De manera crucial, demostramos que replicar pipelines de crowdsourcing ofrece una plataforma valiosa para investigar (1) las fortalezas relativas de los LLM en diferentes tareas (al comparar su rendimiento en subtareas) y (2) el potencial de los LLM en tareas complejas, donde pueden completar parte de las tareas mientras dejan otras a los humanos.

English

LLMs have shown promise in replicating human-like behavior in crowdsourcing tasks that were previously thought to be exclusive to human abilities. However, current efforts focus mainly on simple atomic tasks. We explore whether LLMs can replicate more complex crowdsourcing pipelines. We find that modern LLMs can simulate some of crowdworkers' abilities in these "human computation algorithms," but the level of success is variable and influenced by requesters' understanding of LLM capabilities, the specific skills required for sub-tasks, and the optimal interaction modality for performing these sub-tasks. We reflect on human and LLMs' different sensitivities to instructions, stress the importance of enabling human-facing safeguards for LLMs, and discuss the potential of training humans and LLMs with complementary skill sets. Crucially, we show that replicating crowdsourcing pipelines offers a valuable platform to investigate (1) the relative strengths of LLMs on different tasks (by cross-comparing their performances on sub-tasks) and (2) LLMs' potential in complex tasks, where they can complete part of the tasks while leaving others to humans.

¿Los LLM como trabajadores en algoritmos de computación humana? Replicación de flujos de trabajo de crowdsourcing con LLM

LLMs as Workers in Human-Computational Algorithms? Replicating Crowdsourcing Pipelines with LLMs

Resumen

Support