번역이 포함된 일일 선별된 AI 연구 논문
언어 에이전트는 정의된 환경과 짧은 시간 내에서 인상적인 문제 해결 능력을 보여주었다. 그러나 끊임없이 진화하는 오픈월드 시뮬레이션의 복잡성으로 인해, 복잡한 환경에 유연하게 적응하고 일관된 행동을 보장하기 위해 장기 기억을 지속적으로 유지할 수 있는 에이전트가 절실히 필요하다. 언어 에이전트와 오픈월드 게임 간의 격차를 해소하기 위해, 우리는 롤플레잉을 위한 언어 에이전트(Language Agent for Role-Playing, LARP)를 소개한다. 이는 메모리 처리와 의사결정 보조를 포함하는 인지 아키텍처, 피드백 기반 학습 가능한 액션 공간을 갖춘 환경 상호작용 모듈, 그리고 다양한 성격의 정렬을 촉진하는 후처리 방법으로 구성된다. LARP 프레임워크는 고유한 배경과 성격으로 사전 정의된 사용자와 에이전트 간의 상호작용을 개선하여 궁극적으로 오픈월드 환경에서의 게임 경험을 향상시킨다. 또한, 이는 엔터테인먼트, 교육, 다양한 시뮬레이션 시나리오와 같은 다양한 분야에서 언어 모델의 활용 가능성을 강조한다. 프로젝트 페이지는 https://miao-ai-lab.github.io/LARP/에서 공개되었다.
디퓨전 모델은 이미지 간 합성(image-to-image, I2I) 분야를 혁신적으로 변화시켰으며, 이제는 비디오 분야로도 확장되고 있습니다. 그러나 비디오 간 합성(video-to-video, V2V)의 발전은 비디오 프레임 간의 시간적 일관성을 유지하는 문제로 인해 지연되어 왔습니다. 본 논문은 소스 비디오 내의 공간적 조건과 시간적 광학 흐름(optical flow) 단서를 함께 활용하여 일관된 V2V 합성 프레임워크를 제안합니다. 기존 방법들이 광학 흐름을 엄격히 따르는 것과 달리, 우리의 접근 방식은 광학 흐름 추정의 불완전성을 처리하면서도 그 장점을 활용합니다. 우리는 첫 번째 프레임으로부터 워핑(warping)을 통해 광학 흐름을 인코딩하고, 이를 디퓨전 모델의 보조 참조로 사용합니다. 이를 통해 우리의 모델은 기존의 I2I 모델을 사용해 첫 번째 프레임을 편집한 후, 이를 연속적인 프레임으로 전파하여 비디오 합성을 가능하게 합니다. 우리의 V2V 모델인 FlowVid는 다음과 같은 뛰어난 특성을 보여줍니다: (1) 유연성: FlowVid는 기존의 I2I 모델과 원활하게 작동하며, 스타일화, 객체 교체, 지역 편집 등 다양한 수정을 용이하게 합니다. (2) 효율성: 30 FPS 및 512x512 해상도의 4초 길이 비디오 생성에 소요되는 시간은 단 1.5분으로, 이는 CoDeF, Rerender, TokenFlow에 비해 각각 3.1배, 7.2배, 10.5배 빠른 속도입니다. (3) 고품질: 사용자 연구에서 우리의 FlowVid는 45.7%의 선호도를 기록하며, CoDeF(3.5%), Rerender(10.2%), TokenFlow(40.4%)를 능가했습니다.
우리는 실제 데이터 없이도 합성 이미지와 합성 캡션만을 사용하여 시각적 표현을 학습하는 새로운 접근 방식인 SynCLR을 소개합니다. 대규모 언어 모델(LLM)을 사용하여 대량의 이미지 캡션 데이터셋을 합성한 후, 오프더셰프 텍스트-이미지 모델을 활용해 각 합성 캡션에 해당하는 여러 이미지를 생성합니다. 이 합성 이미지들에 대해 동일한 캡션을 공유하는 이미지들을 양성 쌍으로 간주하여 대조 학습(contrastive learning)을 수행함으로써 시각적 표현 학습을 진행합니다. 이렇게 학습된 표현은 다양한 다운스트림 작업에서 우수한 전이 성능을 보이며, CLIP이나 DINO v2와 같은 일반 목적의 시각적 표현 학습 모델과 비교해도 경쟁력 있는 성능을 보입니다. 특히, 시맨틱 세그멘테이션과 같은 밀집 예측(dense prediction) 작업에서는 SynCLR이 이전의 자기 지도 학습 방법들을 상당한 차이로 능가하며, ViT-B/16 모델을 기준으로 ADE20k 데이터셋에서 MAE와 iBOT에 비해 각각 6.2와 4.3 mIoU를 향상시킵니다.
최근 대규모 언어 모델(LLM)의 트렌드는 더 나은 생성 능력을 달성하기 위해 모델 크기(즉, 매개변수 수)와 데이터셋의 규모를 증가시키는 방향으로 진행되고 있으며, 이는 GPT와 Llama와 같은 유명한 연구를 통해 확실히 입증되었습니다. 그러나 대규모 모델은 종종 막대한 계산 비용을 수반하며, 실제 응용 프로그램에서는 이러한 높은 비용을 감당하기 어렵습니다. 그럼에도 불구하고, LLM을 위한 강력한 모델 아키텍처를 구축하는 방법에 대한 논의는 드물게 이루어지고 있습니다. 우리는 먼저 최신 언어 모델 아키텍처를 분석하고 특징 붕괴 문제를 관찰했습니다. 이론적 분석을 바탕으로, 비선형성이 언어 모델에서도 매우 중요하다는 점을 제안하며, 이는 일반적으로 컴퓨터 비전 작업을 위한 합성곱 신경망(CNN)에서 연구되는 주제입니다. 이를 위해 계산 비용이 무시할 수 있을 정도로 작은 시리즈 인포먼드 활성화 함수를 도입하고, 모델의 비선형성을 더욱 강화하기 위해 증강된 숏컷을 추가로 사용했습니다. 그런 다음, 신중하게 설계된 제거 실험을 통해 제안된 접근 방식이 모델의 비선형성을 크게 향상시키는 데 매우 효과적임을 입증했으며, 이를 통해 현대적인 모델 아키텍처인 PanGu-pi를 제시합니다. 이후 동일한 데이터셋과 학습 전략을 사용하여 PanGu-pi와 최신 LLM을 비교하는 실험을 수행했습니다. 실험 결과, PanGu-pi-7B는 벤치마크와 비슷한 성능을 달성하면서 약 10%의 추론 속도 향상을 보였으며, PanGu-pi-1B는 정확도와 효율성 측면에서 최신 기술 수준의 성능을 달성했습니다. 또한, 우리는 PanGu-pi-7B를 금융 및 법률과 같은 고부가가치 분야에 배포하여 실용적인 응용을 위한 LLM인 YunShan을 개발했습니다. 실험 결과, YunShan은 유사한 규모의 다른 모델들을 벤치마크에서 능가할 수 있음을 보여주었습니다.
OpenAI의 GPT-4V(ision)와 같은 다중모달 대형 언어 모델(MLLM)에 대한 폭발적인 관심은 학계와 산업계 모두에 상당한 영향을 미쳤습니다. 이러한 모델은 대형 언어 모델(LLM)에 고급 시각 이해 능력을 추가하여 다양한 다중모달 작업에의 적용을 용이하게 합니다. 최근 Google은 다중모달 통합을 위해 특별히 설계된 최첨단 MLLM인 Gemini를 발표했습니다. 그럼에도 불구하고, 초기 벤치마크 결과에 따르면 Gemini는 상식 추론 작업에서 GPT 모델들에 비해 뒤처지는 것으로 나타났습니다. 그러나 이 평가는 제한된 데이터셋(예: HellaSWAG)을 기반으로 한 것으로, Gemini의 진정한 상식 추론 잠재력을 완전히 반영하지 못합니다. 이러한 격차를 해결하기 위해, 본 연구는 다양한 모달리티 간의 상식 지식 통합이 필요한 복잡한 추론 작업에서 Gemini의 성능을 철저히 평가합니다. 우리는 일반적인 작업부터 도메인 특화 작업까지 12개의 상식 추론 데이터셋에 대한 포괄적인 분석을 수행합니다. 이 중 11개는 언어에만 초점을 맞춘 데이터셋이며, 하나는 다중모달 요소를 포함합니다. 네 개의 LLM과 두 개의 MLLM에 걸친 실험을 통해 Gemini의 경쟁력 있는 상식 추론 능력을 입증합니다. 또한, 현재의 LLM과 MLLM이 상식 문제를 해결하는 데 직면한 공통적인 과제를 식별함으로써, 이러한 모델들의 상식 추론 능력을 향상시키기 위한 추가적인 발전의 필요성을 강조합니다.