SIMA Team, Maria Abi Raad, Arun Ahuja, Catarina Barros, Frederic Besse, Andrew Bolt, Adrian Bolton, Bethanie Brownfield, Gavin Buttimore, Max Cant, Sarah Chakera, Stephanie C. Y. Chan, Jeff Clune, Adrian Collister, Vikki Copeman, Alex Cullum, Ishita Dasgupta, Dario de Cesare, Julia Di Trapani, Yani Donchev, Emma Dunleavy, Martin Engelcke, Ryan Faulkner, Frankie Garcia, Charles Gbadamosi, Zhitao Gong, Lucy Gonzales, Karol Gregor, Arne Olav Hallingstad, Tim Harley, Sam Haves, Felix Hill, Ed Hirst, Drew A. Hudson, Steph Hughes-Fitt, Danilo J. Rezende, Mimi Jasarevic, Laura Kampis, Rosemary Ke, Thomas Keck, Junkyung Kim, Oscar Knagg, Kavya Kopparapu, Andrew Lampinen, Shane Legg, Alexander Lerchner, Marjorie Limont, Yulan Liu, Maria Loks-Thompson, Joseph Marino, Kathryn Martin Cussons, Loic Matthey, Siobhan Mcloughlin, Piermaria Mendolicchio, Hamza Merzic, Anna Mitenkova, Alexandre Moufarek, Valeria Oliveira, Yanko Oliveira, Hannah Openshaw, Renke Pan, Aneesh Pappu, Alex Platonov, Ollie Purkiss, David Reichert, John Reid, Pierre Harvey Richemond, Tyson Roberts, Giles Ruscoe, Jaume Sanchez Elias, Tasha Sandars, Daniel P. Sawyer, Tim Scholtes, Guy Simmons, Daniel Slater, Hubert Soyer, Heiko Strathmann, Peter Stys, Allison C. Tam, Denis Teplyashin, Tayfun Terzi, Davide Vercelli, Bojan Vujatovic, Marcus Wainwright, Jane X. Wang, Zhengdong Wang, Daan Wierstra, Duncan Williams, Nathaniel Wong, Sarah York, Nick Young
291
임의의 언어 지시를 어떤 3D 환경에서든 따를 수 있는 구체화된 AI 시스템을 구축하는 것은 일반 AI를 창조하기 위한 핵심 과제입니다. 이 목표를 달성하기 위해서는 복잡한 작업을 수행하기 위해 언어를 지각과 구체화된 행동에 기반을 두는 방법을 학습해야 합니다. 확장 가능하고 지시 가능하며 다중 세계 에이전트(Scalable, Instructable, Multiworld Agent, SIMA) 프로젝트는 다양한 가상 3D 환경에서 자유 형식의 지시를 따르도록 에이전트를 훈련함으로써 이 문제를 해결합니다. 여기에는 선별된 연구 환경과 개방형 상용 비디오 게임이 포함됩니다. 우리의 목표는 시뮬레이션된 3D 환경에서 인간이 할 수 있는 모든 작업을 수행할 수 있는 지시 가능한 에이전트를 개발하는 것입니다. 우리의 접근 방식은 언어 주도의 일반성에 초점을 맞추면서 최소한의 가정만을 전제로 합니다. 우리의 에이전트는 일반적인 인간과 유사한 인터페이스를 사용하여 실시간으로 환경과 상호작용합니다: 입력은 이미지 관찰과 언어 지시이며, 출력은 키보드와 마우스 동작입니다. 이 일반적인 접근 방식은 도전적이지만, 에이전트가 시각적으로 복잡하고 의미론적으로 풍부한 다양한 환경에서 언어를 기반으로 할 수 있게 하며, 새로운 환경에서도 쉽게 에이전트를 실행할 수 있게 합니다. 이 논문에서 우리는 동기와 목표, 초기 진행 상황, 그리고 여러 다양한 연구 환경과 다양한 상용 비디오 게임에서의 유망한 예비 결과를 설명합니다.
Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons
281
오디오 기반 음악 생성 모델은 최근 큰 발전을 이루었지만, 여전히 일관된 음악적 구조를 가진 전체 길이의 음악 트랙을 생성하는 데는 성공하지 못했습니다. 우리는 긴 시간적 맥락을 학습한 생성 모델을 통해 최대 4분 45초의 장편 음악을 생성할 수 있음을 보여줍니다. 우리의 모델은 고도로 다운샘플링된 연속 잠재 표현(21.5Hz의 잠재율)에서 작동하는 디퓨전-트랜스포머로 구성됩니다. 이 모델은 오디오 품질과 프롬프트 정렬에 대한 메트릭에서 최첨단 생성 결과를 얻으며, 주관적 테스트를 통해 일관된 구조를 가진 전체 길이의 음악을 생성함을 확인했습니다.