LLMs como Trabalhadores em Algoritmos de Computação Humana? Replicando Pipelines de Crowdsourcing com LLMs
LLMs as Workers in Human-Computational Algorithms? Replicating Crowdsourcing Pipelines with LLMs
July 19, 2023
Autores: Tongshuang Wu, Haiyi Zhu, Maya Albayrak, Alexis Axon, Amanda Bertsch, Wenxing Deng, Ziqi Ding, Bill Guo, Sireesh Gururaja, Tzu-Sheng Kuo, Jenny T. Liang, Ryan Liu, Ihita Mandal, Jeremiah Milbauer, Xiaolin Ni, Namrata Padmanabhan, Subhashini Ramkumar, Alexis Sudjianto, Jordan Taylor, Ying-Jui Tseng, Patricia Vaidos, Zhijin Wu, Wei Wu, Chenyang Yang
cs.AI
Resumo
Os LLMs (Modelos de Linguagem de Grande Escala) têm demonstrado potencial em replicar comportamentos semelhantes aos humanos em tarefas de crowdsourcing que antes eram consideradas exclusivas das habilidades humanas. No entanto, os esforços atuais concentram-se principalmente em tarefas atômicas simples. Exploramos se os LLMs podem replicar pipelines de crowdsourcing mais complexos. Descobrimos que os LLMs modernos podem simular algumas das habilidades dos trabalhadores humanos nesses "algoritmos de computação humana", mas o nível de sucesso é variável e influenciado pelo entendimento dos solicitantes sobre as capacidades dos LLMs, pelas habilidades específicas necessárias para as sub-tarefas e pela modalidade de interação ideal para a execução dessas sub-tarefas. Refletimos sobre as diferentes sensibilidades de humanos e LLMs em relação às instruções, enfatizamos a importância de implementar salvaguardas voltadas para humanos nos LLMs e discutimos o potencial de treinar humanos e LLMs com conjuntos de habilidades complementares. Crucialmente, mostramos que a replicação de pipelines de crowdsourcing oferece uma plataforma valiosa para investigar (1) os pontos fortes relativos dos LLMs em diferentes tarefas (por meio da comparação cruzada de seus desempenhos em sub-tarefas) e (2) o potencial dos LLMs em tarefas complexas, onde eles podem completar parte das tarefas enquanto deixam outras para os humanos.
English
LLMs have shown promise in replicating human-like behavior in crowdsourcing
tasks that were previously thought to be exclusive to human abilities. However,
current efforts focus mainly on simple atomic tasks. We explore whether LLMs
can replicate more complex crowdsourcing pipelines. We find that modern LLMs
can simulate some of crowdworkers' abilities in these "human computation
algorithms," but the level of success is variable and influenced by requesters'
understanding of LLM capabilities, the specific skills required for sub-tasks,
and the optimal interaction modality for performing these sub-tasks. We reflect
on human and LLMs' different sensitivities to instructions, stress the
importance of enabling human-facing safeguards for LLMs, and discuss the
potential of training humans and LLMs with complementary skill sets. Crucially,
we show that replicating crowdsourcing pipelines offers a valuable platform to
investigate (1) the relative strengths of LLMs on different tasks (by
cross-comparing their performances on sub-tasks) and (2) LLMs' potential in
complex tasks, where they can complete part of the tasks while leaving others
to humans.