인간-컴퓨팅 알고리즘에서의 LLM 작업자로서의 역할? LLM을 활용한 크라우드소싱 파이프라인 복제
LLMs as Workers in Human-Computational Algorithms? Replicating Crowdsourcing Pipelines with LLMs
July 19, 2023
저자: Tongshuang Wu, Haiyi Zhu, Maya Albayrak, Alexis Axon, Amanda Bertsch, Wenxing Deng, Ziqi Ding, Bill Guo, Sireesh Gururaja, Tzu-Sheng Kuo, Jenny T. Liang, Ryan Liu, Ihita Mandal, Jeremiah Milbauer, Xiaolin Ni, Namrata Padmanabhan, Subhashini Ramkumar, Alexis Sudjianto, Jordan Taylor, Ying-Jui Tseng, Patricia Vaidos, Zhijin Wu, Wei Wu, Chenyang Yang
cs.AI
초록
LLM(대형 언어 모델)은 이전까지 인간의 고유 능력으로 여겨졌던 크라우드소싱 작업에서 인간과 유사한 행동을 모방하는 데 유망한 가능성을 보여주었다. 그러나 현재의 연구는 주로 단순한 원자적 작업에 초점을 맞추고 있다. 본 연구에서는 LLM이 더 복잡한 크라우드소싱 파이프라인을 모방할 수 있는지 탐구한다. 우리는 현대의 LLM이 이러한 "인간 계산 알고리즘"에서 크라우드워커의 일부 능력을 시뮬레이션할 수 있음을 발견했지만, 성공 수준은 요청자가 LLM의 능력을 이해하는 정도, 하위 작업에 필요한 특정 기술, 그리고 이러한 하위 작업을 수행하기 위한 최적의 상호작용 방식에 따라 다양하게 나타난다. 우리는 인간과 LLM이 지시에 대해 서로 다른 민감성을 보인다는 점을 반영하고, LLM에 대한 인간 중심의 안전장치를 마련하는 것의 중요성을 강조하며, 상호 보완적인 기술 세트를 갖춘 인간과 LLM을 훈련시킬 가능성에 대해 논의한다. 특히, 크라우드소싱 파이프라인을 모방하는 것이 (1) 다양한 작업에 대한 LLM의 상대적 강점(하위 작업 간 성능을 교차 비교함으로써)과 (2) 복잡한 작업에서 LLM의 잠재력을 조사하는 데 유용한 플랫폼을 제공한다는 점을 보여준다. 여기서 LLM은 작업의 일부를 완료하고 나머지는 인간에게 맡길 수 있다.
English
LLMs have shown promise in replicating human-like behavior in crowdsourcing
tasks that were previously thought to be exclusive to human abilities. However,
current efforts focus mainly on simple atomic tasks. We explore whether LLMs
can replicate more complex crowdsourcing pipelines. We find that modern LLMs
can simulate some of crowdworkers' abilities in these "human computation
algorithms," but the level of success is variable and influenced by requesters'
understanding of LLM capabilities, the specific skills required for sub-tasks,
and the optimal interaction modality for performing these sub-tasks. We reflect
on human and LLMs' different sensitivities to instructions, stress the
importance of enabling human-facing safeguards for LLMs, and discuss the
potential of training humans and LLMs with complementary skill sets. Crucially,
we show that replicating crowdsourcing pipelines offers a valuable platform to
investigate (1) the relative strengths of LLMs on different tasks (by
cross-comparing their performances on sub-tasks) and (2) LLMs' potential in
complex tasks, where they can complete part of the tasks while leaving others
to humans.