번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 및 컴퓨터 비전 모델에서의 인-컨텍스트 학습 패러다임의 성공에 이어, 최근 등장한 인-컨텍스트 강화 학습 분야는 빠르게 성장하고 있습니다. 그러나 이 분야의 발전은 도전적인 벤치마크의 부재로 인해 지연되어 왔는데, 이는 모든 실험이 단순한 환경과 소규모 데이터셋에서 수행되었기 때문입니다. 이러한 문제를 완화하기 위한 첫 번째 단계로, 우리는 XLand-MiniGrid 환경을 기반으로 한 대규모 인-컨텍스트 강화 학습 데이터셋인 XLand-100B를 제시합니다. 이 데이터셋은 거의 30,000개의 서로 다른 작업에 대한 완전한 학습 기록을 포함하며, 100B개의 전이와 2.5B개의 에피소드를 다룹니다. 이 데이터셋을 수집하는 데는 50,000 GPU 시간이 소요되었으며, 이는 대부분의 학술 연구실이 감당하기 어려운 규모입니다. 데이터셋과 함께, 이를 재현하거나 더 확장할 수 있는 유틸리티도 제공합니다. 이러한 상당한 노력을 통해, 우리는 빠르게 성장하는 인-컨텍스트 강화 학습 분야의 연구를 민주화하고, 추가적인 확장을 위한 견고한 기반을 제공하고자 합니다. 코드는 오픈소스이며, Apache 2.0 라이선스 하에 https://github.com/dunno-lab/xland-minigrid-datasets에서 이용 가능합니다.
텍스트-이미지 확산 모델의 전례 없는 성공에도 불구하고, 텍스트를 사용하여 묘사된 객체의 수를 제어하는 것은 놀라울 정도로 어려운 문제입니다. 이는 기술 문서부터 어린이 책, 요리 레시피 일러스트레이션에 이르기까지 다양한 응용 분야에서 중요합니다. 객체의 정확한 수를 생성하는 것은 근본적으로 도전적인 과제인데, 이는 생성 모델이 여러 객체가 동일하게 보이거나 겹치더라도 각 객체 인스턴스에 대한 개별적인 정체성을 유지하고, 생성 과정에서 암묵적으로 전역 계산을 수행해야 하기 때문입니다. 이러한 표현이 존재하는지 여부는 아직 알려져 있지 않습니다. 수량이 정확한 생성을 해결하기 위해, 우리는 먼저 확산 모델 내에서 객체 정체성 정보를 전달할 수 있는 특징을 식별합니다. 그런 다음 이를 사용하여 노이즈 제거 과정에서 객체 인스턴스를 분리하고 계산하며, 과도 생성 및 미달 생성을 감지합니다. 후자의 경우, 기존 객체의 레이아웃을 기반으로 누락된 객체의 모양과 위치를 모두 예측하는 모델을 훈련하여 이를 수정하고, 이를 통해 정확한 객체 수로 노이즈 제거를 안내하는 방법을 보여줍니다. 우리의 접근 방식인 CountGen은 객체 레이아웃을 결정하기 위해 외부 소스에 의존하지 않고, 확산 모델 자체의 사전 지식을 사용하여 프롬프트 및 시드에 종속적인 레이아웃을 생성합니다. 두 벤치마크 데이터셋에서 평가한 결과, CountGen은 기존 베이스라인의 수량 정확도를 크게 능가하는 것으로 나타났습니다.
우리는 대규모 멀티모달 모델(LMM)의 시각적 기반 코드 생성 능력을 평가하기 위한 새로운 벤치마크인 ChartMimic을 소개한다. ChartMimic은 정보 집약적인 시각적 차트와 텍스트 지침을 입력으로 활용하여, LMM이 차트 렌더링을 위한 해당 코드를 생성하도록 요구한다. ChartMimic은 물리학, 컴퓨터 과학, 경제학 등 다양한 분야의 과학 논문에서 발견되는 실제 차트 사용 사례를 대표하는 1,000개의 인간이 선별한 (그림, 지침, 코드) 삼중항을 포함한다. 이러한 차트는 18개의 일반 유형과 4개의 고급 유형으로 구성되며, 191개의 하위 범주로 다양화된다. 또한, 출력 코드와 렌더링된 차트를 자동적이고 철저하게 평가하기 위해 다단계 평가 지표를 제안한다. 기존의 코드 생성 벤치마크와 달리, ChartMimic은 시각적 이해, 코드 생성, 그리고 크로스모달 추론을 포함한 인지 능력의 조화를 평가하는 데 중점을 둔다. 3개의 독점 모델과 11개의 오픈 웨이트 모델에 대한 평가는 ChartMimic이 제기하는 상당한 도전을 강조한다. 고급 모델인 GPT-4V와 Claude-3-opus조차도 각각 평균 점수 73.2와 53.7을 달성하여, 개선의 여지가 크다는 것을 보여준다. 우리는 ChartMimic이 LMM의 개발을 촉진하고, 인공 일반 지능의 추구를 진전시킬 것으로 기대한다.
다중모달 대형 언어 모델(MLLMs)의 급속한 발전과 함께, 이들의 평가는 점점 더 포괄적으로 이루어지고 있습니다. 그러나 실제 응용 프로그램을 위한 기초 능력으로서의 긴 다중모달 콘텐츠 이해는 여전히 충분히 탐구되지 않고 있습니다. 본 연구에서는 기존 MLLMs의 긴 다중모달 문서 이해 능력을 체계적으로 평가하기 위해 특별히 설계된 첫 번째 벤치마크인 Needle In A Multimodal Haystack(MM-NIAH)를 소개합니다. 우리의 벤치마크는 다중모달 검색, 카운팅, 추론의 세 가지 유형의 평가 작업을 포함합니다. 각 작업에서 모델은 주어진 다중모달 문서 전반에 걸쳐 흩어져 있는 다양한 핵심 정보에 따라 질문에 답해야 합니다. MM-NIAH에서 선도적인 MLLMs를 평가한 결과, 기존 모델들은 특히 시각 중심 평가에서 이러한 작업에 대해 상당한 개선의 여지가 있음을 관찰했습니다. 이 작업이 긴 다중모달 문서 이해에 대한 추가 연구를 위한 플랫폼을 제공하고 MLLMs의 발전에 기여하기를 바랍니다. 코드와 벤치마크는 https://github.com/OpenGVLab/MM-NIAH에서 공개되었습니다.
최근 몇 년 동안 대규모 언어 모델(LLM)의 입력 컨텍스트 크기가 급격히 증가했습니다. 그러나 기존의 평가 방법들은 이러한 발전을 따라가지 못했으며, 긴 컨텍스트를 처리하는 모델의 효율성을 포괄적으로 평가하지 못했습니다. 이러한 격차를 해소하기 위해, 우리는 극도로 긴 문서에 분포된 사실들을 통해 언어 모델의 추론 능력을 테스트하기 위해 설계된 BABILong 벤치마크를 소개합니다. BABILong은 사실 연결, 단순 귀납, 연역, 계수, 리스트/집합 처리 등 20가지 다양한 추론 작업을 포함합니다. 이러한 작업들은 그 자체로도 도전적이며, 필요한 사실들이 긴 자연어 텍스트에 흩어져 있을 때는 더욱 어려워집니다. 우리의 평가 결과에 따르면, 인기 있는 LLM들은 컨텍스트의 10-20%만 효과적으로 활용하며, 추론 복잡성이 증가함에 따라 성능이 급격히 저하됩니다. 컨텍스트 내 추론의 대안 중에서, 검색 강화 생성(Retrieval-Augmented Generation) 방법들은 단일 사실 질문 응답에서 컨텍스트 길이와 무관하게 약 60%의 정확도를 달성합니다. 컨텍스트 확장 방법 중에서는 순환 메모리 트랜스포머(Recurrent Memory Transformer)가 최고 성능을 보이며, 최대 1,100만 토큰 길이까지 처리할 수 있습니다. BABILong 벤치마크는 향후 증가된 능력을 가진 새로운 모델들의 평가를 지원하기 위해 어떤 길이로도 확장 가능하며, 우리는 최대 100만 토큰 길이까지의 분할을 제공합니다.
동남아시아(SEA)는 언어적 다양성과 문화적 다양성이 풍부한 지역으로, 1,300개 이상의 토착 언어와 6억 7,100만 명의 인구를 보유하고 있습니다. 그러나 현재의 AI 모델들은 동남아시아의 텍스트, 이미지, 오디오 데이터셋의 상당한 부재로 인해 동남아시아 언어에 대한 AI 모델의 품질이 저하되고 있습니다. 동남아시아 언어에 대한 모델 평가는 고품질 데이터셋의 부족과 영어 학습 데이터의 지배적 영향으로 인해 어려움을 겪고 있으며, 이는 문화적 오표현의 가능성을 우려하게 합니다. 이러한 문제를 해결하기 위해, 우리는 SEACrowd를 소개합니다. SEACrowd는 협력적 이니셔티브로, 3가지 양식에 걸쳐 거의 1,000개의 동남아시아 언어에 대한 표준화된 코퍼스를 제공함으로써 자원 격차를 메우는 포괄적인 리소스 허브를 통합합니다. SEACrowd 벤치마크를 통해, 우리는 13개 작업에 걸쳐 36개의 토착 언어에 대한 AI 모델의 품질을 평가하며, 동남아시아의 현재 AI 환경에 대한 유용한 통찰을 제공합니다. 더 나아가, 우리는 동남아시아의 AI 미래를 위해 잠재적 유용성과 자원 공평성을 극대화할 수 있는 더 큰 AI 발전을 촉진하기 위한 전략을 제안합니다.
이미지와 텍스트가 자연스러운 문서 형식으로 배열된 이미지-텍스트 인터리브 데이터는 인터넷 데이터의 표현 패러다임과 일치하며 인간의 읽기 습관과 매우 유사합니다. 최근 연구에 따르면, 이러한 데이터는 멀티모달 인컨텍스트 학습을 돕고 멀티모달 미세 조정 중에 대형 언어 모델의 능력을 유지하는 데 도움이 됩니다. 그러나 현재의 이미지-텍스트 인터리브 데이터의 제한된 규모와 다양성은 멀티모달 대형 언어 모델의 발전을 제한하고 있습니다. 본 논문에서는 100억 규모의 이미지-텍스트 인터리브 데이터셋인 OmniCorpus를 소개합니다. 효율적인 데이터 엔진을 사용하여 대규모 고품질 문서를 필터링하고 추출하였으며, 이는 86억 개의 이미지와 1,6960억 개의 텍스트 토큰을 포함합니다. 기존 데이터셋(예: MMC4, OBELICS)과 비교하여, 우리의 데이터셋은 1) 좋은 데이터 품질을 유지하면서 15배 더 큰 규모를 가지고 있으며, 2) 영어 및 비영어 웹사이트와 비디오 중심 웹사이트를 포함한 더 다양한 소스를 특징으로 하며, 3) 더 유연하여 이미지-텍스트 인터리브 형식에서 순수 텍스트 코퍼스와 이미지-텍스트 쌍으로 쉽게 저하될 수 있습니다. 포괄적인 분석과 실험을 통해 제안된 데이터셋의 품질, 사용성 및 효과성을 검증하였습니다. 이 연구가 향후 멀티모달 모델 연구를 위한 견고한 데이터 기반을 제공할 수 있기를 바랍니다. 코드와 데이터는 https://github.com/OpenGVLab/OmniCorpus에서 공개되었습니다.
스마트폰 사용자들은 종종 소셜 미디어 플랫폼 간 콘텐츠 공유와 같은 작업을 완료하기 위해 여러 애플리케이션(앱)을 넘나들며 이동합니다. 자율 그래픽 사용자 인터페이스(GUI) 탐색 에이전트는 워크플로우를 간소화하고 수동 개입을 줄여 커뮤니케이션, 엔터테인먼트, 생산성 분야에서 사용자 경험을 향상시킬 수 있습니다. 그러나 기존 GUI 에이전트는 주로 단일 앱 내에서 완료할 수 있는 간단한 작업으로 구성된 데이터셋으로 학습되어, 앱 간 탐색에서 낮은 성능을 보이는 경우가 많았습니다. 이 문제를 해결하기 위해, 우리는 앱 간 탐색 에이전트를 훈련하고 평가하기 위한 포괄적인 데이터셋인 GUI Odyssey를 소개합니다. GUI Odyssey는 6개의 모바일 기기에서 수집된 7,735개의 에피소드로 구성되며, 6가지 유형의 앱 간 작업, 201개의 앱, 그리고 1.4K개의 앱 조합을 포함합니다. GUI Odyssey를 활용하여, 우리는 Qwen-VL 모델을 히스토리 리샘플링 모듈로 미세 조정한 다중 모달 앱 간 탐색 에이전트인 OdysseyAgent를 개발했습니다. 광범위한 실험을 통해 OdysseyAgent가 기존 모델들에 비해 우수한 정확도를 보임을 입증했습니다. 예를 들어, OdysseyAgent는 미세 조정된 Qwen-VL과 제로샷 GPT-4V보다 각각 1.44%와 55.49%의 도메인 내 정확도, 그리고 2.29%와 48.14%의 도메인 외 정확도를 평균적으로 앞섰습니다. 데이터셋과 코드는 https://github.com/OpenGVLab/GUI-Odyssey에서 공개될 예정입니다.
최근 Glyph-ByT5는 그래픽 디자인 이미지에서 매우 정확한 시각적 텍스트 렌더링 성능을 달성했습니다. 그러나 여전히 영어에만 초점을 맞추고 있으며 시각적 매력 측면에서는 상대적으로 낮은 성능을 보입니다. 본 연구에서는 Glyph-ByT5-v2와 Glyph-SDXL-v2를 제시하여 이러한 두 가지 근본적인 한계를 해결하고자 합니다. 이 모델들은 10가지 다른 언어에 대해 정확한 시각적 텍스트 렌더링을 지원할 뿐만 아니라 훨씬 더 나은 미적 품질을 달성합니다. 이를 위해 다음과 같은 기여를 합니다: (i) 100만 개 이상의 글리프-텍스트 쌍과 9개 다른 언어를 포함하는 1,000만 개의 그래픽 디자인 이미지-텍스트 쌍으로 구성된 고품질 다국어 글리프-텍스트 및 그래픽 디자인 데이터셋을 생성, (ii) 각 언어별로 100개씩 총 1,000개의 프롬프트로 구성된 다국어 시각적 문단 벤치마크를 구축하여 다국어 시각적 철자 정확도를 평가, (iii) 최신 단계 인식 선호 학습 접근법을 활용하여 시각적 미적 품질을 향상. 이러한 기술들을 결합하여, 우리는 강력한 맞춤형 다국어 텍스트 인코더인 Glyph-ByT5-v2와 10가지 다른 언어에서 정확한 철자를 지원할 수 있는 강력한 미적 그래픽 생성 모델인 Glyph-SDXL-v2를 제공합니다. 최신 DALL-E3와 Ideogram 1.0이 여전히 다국어 시각적 텍스트 렌더링 작업에 어려움을 겪고 있는 점을 고려할 때, 본 연구는 중요한 진전으로 간주됩니다.
최근 ChatGPT, Claude, Llama와 같은 대형 언어 모델(LLM)이 인상적인 능력을 보여주며 여러 작업에서 인간 수준의 성능을 뛰어넘기도 했습니다. 그러나 이러한 모델들의 성공에도 불구하고, 학습과 추론 모두에서 상당한 컴퓨팅 파워를 요구하는 자원 집약적인 특성으로 인해 고성능 서버에만 배포가 제한되고 있습니다. 또한, 모델의 광범위한 계산 요구 사항은 응답 시간의 지연을 초래하는 경우가 많습니다. CPU에서 효율적으로 작동할 수 있는 LLM에 대한 필요성이 증가함에 따라, CPU 추론에 최적화된 경량 모델에 대한 연구가 등장했습니다. 본 연구에서는 중국어와 영어로 구성된 5500억 토큰으로 학습된 경량 LLM인 GEB-1.3B를 소개합니다. 우리는 ROPE, Group-Query-Attention, FlashAttention-2와 같은 새로운 학습 기법을 활용하여 모델 성능을 유지하면서 학습 속도를 가속화했습니다. 또한, 1000만 개의 명령어 데이터 샘플을 사용하여 모델을 미세 조정하여 정렬을 강화했습니다. GEB-1.3B는 MMLU, C-Eval, CMMLU와 같은 일반 벤치마크에서 MindLLM-1.3B 및 TinyLLaMA-1.1B와 같은 비교 모델을 능가하는 우수한 성능을 보여줍니다. 특히, GEB-1.3B의 FP32 버전은 CPU에서도 인상적인 추론 시간을 달성하며, 고급 양자화 기술을 통해 속도를 더욱 개선하기 위한 노력이 진행 중입니다. GEB-1.3B를 오픈소스 모델로 공개함으로써 경량 LLM 개발에 중요한 기여를 하며, 해당 분야의 연구와 혁신을 촉진할 것으로 기대됩니다.
카메라 움직임 제어를 위한 기존 비디오 확산 모델에 적용 가능한 학습이 필요 없고 강력한 솔루션을 제안합니다. 기존 연구와 달리, 우리의 방법은 카메라 주석이 달린 데이터셋에 대한 지도 미세 조정이나 데이터 증강을 통한 자기 지도 학습을 필요로 하지 않습니다. 대신, 대부분의 사전 학습된 비디오 확산 모델에 바로 적용할 수 있으며, 단일 이미지나 텍스트 프롬프트를 입력으로 하여 카메라 제어가 가능한 비디오를 생성할 수 있습니다. 우리 연구의 영감은 중간 잠재 공간이 생성 결과에 대해 가지는 레이아웃 사전 정보에서 비롯되었습니다. 따라서 이 잠재 공간 내의 노이즈 픽셀을 재배열하면 출력 내용도 재배치될 수 있습니다. 카메라 움직임 또한 시점 변화에 의해 발생하는 픽셀 재배열의 일종으로 볼 수 있으므로, 노이즈 잠재 공간이 이에 따라 변화하면 특정 카메라 모션에 따라 비디오를 재구성할 수 있습니다. 이를 바탕으로, 우리는 비디오 확산 모델에 강력한 카메라 제어를 가능하게 하는 CamTrol 방법을 제안합니다. 이는 두 단계의 과정을 통해 이루어집니다. 먼저, 3D 포인트 클라우드 공간에서 명시적인 카메라 움직임을 통해 이미지 레이아웃 재배열을 모델링합니다. 둘째, 일련의 재배열된 이미지로 형성된 노이즈 잠재 공간의 레이아웃 사전 정보를 사용하여 카메라 모션이 적용된 비디오를 생성합니다. 광범위한 실험을 통해 우리 방법이 생성된 비디오의 카메라 모션을 제어하는 데 있어 강력함을 입증했습니다. 또한, 우리의 방법이 동적 콘텐츠를 포함한 3D 회전 비디오 생성에서도 인상적인 결과를 만들어낼 수 있음을 보여줍니다. 프로젝트 페이지는 https://lifedecoder.github.io/CamTrol/에서 확인할 수 있습니다.
대화형 LLM은 블랙박스 시스템으로 작동하여 사용자들은 왜 특정 출력을 보게 되는지 추측해야 합니다. 이러한 투명성의 부재는 편향성과 진실성에 대한 우려를 고려할 때 특히 문제가 될 수 있습니다. 이 문제를 해결하기 위해, 우리는 해석 가능성 기법과 사용자 경험 디자인을 연결한 종단 간 프로토타입을 제시하여 챗봇을 더 투명하게 만드는 것을 목표로 합니다. 먼저, 우리는 주요 오픈소스 LLM이 "사용자 모델"을 가지고 있다는 증거를 보여줍니다: 시스템의 내부 상태를 조사함으로써 사용자의 나이, 성별, 교육 수준, 사회경제적 지위와 관련된 데이터를 추출할 수 있습니다. 다음으로, 챗봇 인터페이스와 함께 제공되는 대시보드의 설계를 설명합니다. 이 대시보드는 실시간으로 이 사용자 모델을 표시하며, 사용자 모델과 시스템의 행동을 제어하는 데에도 사용될 수 있습니다. 마지막으로, 사용자들이 계측된 시스템과 대화한 연구에 대해 논의합니다. 우리의 결과는 사용자들이 내부 상태를 보는 것을 높이 평가하며, 이는 편향된 행동을 드러내고 통제감을 높이는 데 도움이 되었다는 것을 시사합니다. 참가자들은 또한 디자인과 머신 러닝 연구의 미래 방향을 제시하는 유용한 제안을 했습니다. 우리의 TalkTuner 시스템의 프로젝트 페이지와 데모 비디오는 https://bit.ly/talktuner-project-page에서 확인할 수 있습니다.
그래픽 사용자 인터페이스(GUI) 자동화는 컴퓨터 작업을 지원함으로써 인간의 생산성을 향상시킬 수 있는 상당한 잠재력을 가지고 있습니다. 기존의 작업 정의는 주로 "새 슬라이드 삽입"과 같이 단일 언어 지시로 명시할 수 있는 간단한 작업에 초점을 맞추고 있습니다. 본 연구에서는 시각 중심의 GUI 작업을 평가하기 위해 새로운 다중 모달 벤치마크인 VideoGUI를 소개합니다. 고품질 웹 교육 비디오에서 수집된 이 벤치마크는 Adobe Photoshop이나 Stable Diffusion WebUI와 같은 전문적이고 새로운 소프트웨어 및 비디오 편집과 같은 복잡한 활동을 포함하는 작업에 중점을 둡니다. VideoGUI는 GUI 어시스턴트를 계층적 프로세스를 통해 평가하여, 실패할 수 있는 특정 수준을 식별할 수 있도록 합니다: (i) 상위 수준 계획: 언어 설명 없이 시각적 조건에서 절차적 하위 작업을 재구성; (ii) 중간 수준 계획: 시각적 상태(예: 스크린샷)와 목표를 기반으로 정확한 액션 설명 시퀀스 생성; (iii) 원자적 액션 실행: 지정된 요소를 정확히 클릭하는 것과 같은 특정 액션 수행. 각 수준에 대해, 우리는 클릭, 드래그, 타이핑, 스크롤과 같은 원자적 액션 실행에서의 개별 성능과 같은 명확한 신호를 제공하기 위해 개별 차원에 걸쳐 평가 지표를 설계했습니다. VideoGUI에 대한 평가 결과, 최신 대형 다중 모달 모델인 GPT4o조차도 시각 중심의 GUI 작업, 특히 상위 수준 계획에서 낮은 성능을 보이는 것으로 나타났습니다.
최근 Gen2, Pika, Sora와 같은 모델로 입증된 텍스트-투-비디오(T2V) 기술의 발전은 그 적용 범위와 인기를 크게 확장시켰습니다. 이러한 진전에도 불구하고, 이러한 모델을 평가하는 것은 상당한 도전 과제로 남아 있습니다. 주로 자동 평가 지표의 한계로 인해, T2V 생성 평가에는 수동 평가가 더 우수한 방법으로 간주됩니다. 그러나 기존의 수동 평가 프로토콜은 재현성, 신뢰성, 실용성 문제에 직면해 있습니다. 이러한 문제를 해결하기 위해, 본 논문은 T2V 모델을 위한 포괄적이고 표준화된 프로토콜인 텍스트-투-비디오 인간 평가(T2VHE) 프로토콜을 소개합니다. T2VHE 프로토콜은 명확하게 정의된 지표, 철저한 평가자 교육, 효과적인 동적 평가 모듈을 포함합니다. 실험 결과는 이 프로토콜이 고품질의 주석을 보장할 뿐만 아니라 평가 비용을 거의 50%까지 줄일 수 있음을 보여줍니다. 우리는 T2VHE 프로토콜의 전체 설정, 완전한 프로토콜 워크플로우, 동적 평가 구성 요소 세부 사항, 주석 인터페이스 코드를 오픈소스로 공개할 예정입니다. 이를 통해 커뮤니티가 더 정교한 인간 평가 프로토콜을 구축하는 데 도움이 될 것입니다.
대규모 언어 모델은 학습 데이터를 암기하고 반복할 수 있어 개인정보 보호 및 저작권 위험을 초래합니다. 이러한 암기 현상을 완화하기 위해, 우리는 '골드피시 손실(goldfish loss)'이라고 명명한 다음 토큰 학습 목표에 대한 미세한 수정을 제안합니다. 학습 과정에서 무작위로 샘플링된 토큰 하위 집합을 손실 계산에서 제외합니다. 이렇게 제외된 토큰은 모델에 의해 암기되지 않으며, 이는 학습 데이터셋의 완전한 토큰 체인을 그대로 재현하는 것을 방지합니다. 우리는 10억 규모의 Llama-2 모델을 사전 학습 및 처음부터 학습시키는 광범위한 실험을 수행했으며, 다운스트림 벤치마크에 거의 영향을 미치지 않으면서 추출 가능한 암기 현상을 크게 감소시켰음을 입증했습니다.
확산 모델이 2D 이미지/비디오 생성에서 인상적인 성능을 보여왔음에도 불구하고, 텍스트-투-다중뷰-비디오(T2MVid) 생성에 대한 확산 기반 연구는 아직 미흡한 상태입니다. T2MVid 생성이 제기하는 새로운 도전 과제는 대규모 캡션이 달린 다중뷰 비디오 데이터의 부족과 이러한 다차원 분포를 모델링하는 복잡성에 있습니다. 이를 해결하기 위해, 우리는 텍스트로부터 동적 3D 객체를 중심으로 고품질 다중뷰 비디오를 생성하는 새로운 확산 기반 파이프라인을 제안합니다. 구체적으로, 우리는 T2MVid 문제를 뷰포인트 공간과 시간 구성 요소로 분해합니다. 이러한 분해를 통해 사전 훈련된 고급 다중뷰 이미지와 2D 비디오 확산 모델의 레이어를 결합하고 재사용함으로써 생성된 다중뷰 비디오의 다중뷰 일관성과 시간적 일관성을 보장하며, 이는 학습 비용을 크게 절감합니다. 또한, 우리는 사전 훈련된 다중뷰와 2D 비디오 확산 모델의 레이어 간 잠재 공간을 정렬하기 위해 정렬 모듈을 도입하여 2D와 다중뷰 데이터 간의 도메인 격차로 인해 발생하는 재사용 레이어의 비호환성을 해결합니다. 이 연구 및 향후 연구를 지원하기 위해, 우리는 캡션이 달린 다중뷰 비디오 데이터셋을 추가로 공개합니다. 실험 결과는 우리의 방법이 다양한 텍스트 프롬프트에 대해 생동감 있는 움직임, 시간적 일관성, 그리고 다중뷰 일관성을 보여주는 고품질 다중뷰 비디오를 생성함을 입증합니다.
새로운 시점 음향 합성(NVAS)은 3D 장면 내 음원에서 방출된 모노 오디오를 기반으로 특정 시점에서의 바이노럴 오디오를 렌더링하는 것을 목표로 합니다. 기존 방법들은 시각적 단서를 바이노럴 오디오 합성을 위한 조건으로 활용하기 위해 NeRF 기반의 암묵적 모델을 제안했습니다. 그러나 이러한 방법들은 NeRF 렌더링의 높은 계산 부하로 인한 비효율성뿐만 아니라, 방의 기하학적 구조, 재질 특성, 청취자와 음원 간의 공간적 관계와 같은 전체 장면 환경을 충분히 표현하는 데 한계가 있습니다. 이러한 문제를 해결하기 위해, 우리는 새로운 오디오-비주얼 가우시안 스플래팅(AV-GS) 모델을 제안합니다. 오디오 합성을 위한 재질 및 기하학적 인식 조건을 얻기 위해, 우리는 청취자와 음원 간의 공간적 관계를 고려하여 로컬로 초기화된 가우시안 포인트에 오디오 가이던스 파라미터를 적용한 명시적 포인트 기반 장면 표현을 학습합니다. 또한, 시각적 장면 모델이 오디오에 적응할 수 있도록, 우리는 가우시안 포인트의 최적 분포를 위한 포인트 밀도화 및 가지치기 전략을 제안합니다. 이는 소리 전파에서 각 포인트의 기여도를 고려하여(예: 텍스처가 없는 벽 표면은 소리 경로 편향에 영향을 미치므로 더 많은 포인트가 필요함) 수행됩니다. 광범위한 실험을 통해 우리의 AV-GS 모델이 실제 세계의 RWAS 데이터셋과 시뮬레이션 기반의 SoundSpaces 데이터셋에서 기존 대안들보다 우수함을 검증했습니다.
본 연구에서는 언어 지시를 통해 다수의 3D 조작 작업을 해결할 수 있는 로봇 시스템을 구축하는 방법을 탐구합니다. 산업 및 가정 환경에서 유용하게 사용되기 위해서는, 이러한 시스템이 적은 수의 시범만으로도 새로운 작업을 학습하고 정밀하게 해결할 수 있어야 합니다. PerAct와 RVT와 같은 기존 연구들이 이 문제를 다루었지만, 높은 정밀도를 요구하는 작업에서는 어려움을 겪는 경우가 많았습니다. 우리는 이러한 시스템을 더 효과적이고 정밀하며 빠르게 만드는 방법을 연구합니다. 아키텍처 및 시스템 수준의 개선을 결합하여, 우리는 RVT-2를 제안합니다. RVT-2는 다중 작업 3D 조작 모델로, 학습 속도가 이전 버전인 RVT보다 6배 빠르고 추론 속도는 2배 빠릅니다. RVT-2는 RLBench에서 새로운 최첨단 성능을 달성하며, 성공률을 65%에서 82%로 향상시켰습니다. RVT-2는 실제 환경에서도 효과적이며, 플러그를 집어서 끼우는 것과 같은 높은 정밀도를 요구하는 작업을 단 10번의 시범만으로 학습할 수 있습니다. 시각적 결과, 코드, 그리고 훈련된 모델은 다음 링크에서 제공됩니다: https://robotic-view-transformer-2.github.io/.
저해상도 입력 뷰에서 고해상도 새로운 뷰 합성(HRNVS)을 달성하는 것은 고해상도 데이터의 부족으로 인해 어려운 과제입니다. 기존 방법들은 저해상도 입력 뷰에서 고해상도 Neural Radiance Field(NeRF)를 최적화하지만 느린 렌더링 속도로 인해 어려움을 겪었습니다. 본 연구에서는 더 빠른 렌더링 속도로 고품질 이미지를 생성할 수 있는 3D Gaussian Splatting(3DGS)을 기반으로 방법을 제안합니다. 고해상도 합성을 위한 데이터 부족 문제를 완화하기 위해, 기존의 2D diffusion prior를 활용하여 Score Distillation Sampling(SDS)을 통해 2D 지식을 3D로 전이하는 방법을 제안합니다. 그러나 생성적 prior가 가져오는 무작위성으로 인해 Gaussian 기반 3D 초해상도에 SDS를 직접 적용하면 바람직하지 않고 중복된 3D Gaussian primitive가 생성됩니다. 이 문제를 완화하기 위해, 우리는 SDS가 도입하는 확률적 방해를 줄이기 위한 두 가지 간단하지만 효과적인 기법을 소개합니다. 구체적으로, 1) SDS의 diffusion timestep 범위를 annealing 전략으로 축소하고, 2) densification 과정에서 중복된 Gaussian primitive를 무작위로 제거합니다. 광범위한 실험을 통해 제안된 GaussainSR이 합성 및 실제 데이터셋에서 저해상도 입력만으로도 HRNVS를 위한 고품질 결과를 달성할 수 있음을 입증했습니다. 프로젝트 페이지: https://chchnii.github.io/GaussianSR/
이 리뷰 논문은 인도계 언어(Indic languages) 내에서의 대규모 언어 모델(LLM) 연구 방향에 대한 포괄적인 개요를 제공합니다. 인도계 언어는 인도, 파키스탄, 방글라데시, 스리랑카, 네팔, 부탄 등을 포함한 인도 아대륙에서 사용되는 언어들로, 풍부한 문화적 및 언어적 유산을 지니며 전 세계적으로 15억 명 이상의 사람들이 사용하고 있습니다. 다양한 언어에 대한 자연어 처리(NLP) 기반 애플리케이션의 엄청난 시장 잠재력과 증가하는 수요로 인해, 인도계 언어를 위한 생성형 애플리케이션은 연구에 있어 독특한 도전과 기회를 제공합니다. 본 논문은 최근의 인도계 생성 모델링 발전을 심층적으로 탐구하며, 84편의 최신 논문을 표로 정리한 연구 방향의 분류체계를 제시합니다. 이 논문에서 조사된 연구 방향에는 LLM 개발, 기존 LLM의 미세 조정, 코퍼스 개발, 벤치마킹 및 평가, 그리고 특정 기술, 도구 및 애플리케이션에 관한 논문들이 포함됩니다. 우리는 논문들 전반에 걸쳐 연구자들이 제한된 데이터 가용성, 표준화의 부재, 그리고 인도계 언어의 독특한 언어적 복잡성과 관련된 도전을 강조하고 있음을 발견했습니다. 이 작업은 NLP 분야, 특히 인도계 언어에 초점을 맞춘 연구자 및 실무자들에게 유용한 자료로 활용되며, 이러한 언어들을 위한 더 정확하고 효율적인 LLM 애플리케이션 개발에 기여할 것을 목표로 합니다.
우리는 간단하면서도 효과적인 코드 전환(CS) 언어 식별(LID) 방법인 MaskLID를 소개합니다. MaskLID는 별도의 학습이 필요하지 않으며, 현재 고성능 문장 수준 LID를 보완하도록 설계되었습니다. 문장 수준 LID는 단일 언어 텍스트를 기반으로 학습된 분류기로, 일반적으로 소프트맥스 계층을 사용하여 점수를 확률로 변환하고 단일 레이블을 제공합니다. 그러나 L1과 L2 언어로 구성된 문장의 경우, LID 분류기는 종종 지배적인 레이블 L1만 반환합니다. 이러한 한계를 해결하기 위해 MaskLID는 L1과 관련된 텍스트 특징을 마스킹하는 전략을 사용하여 LID가 다음 단계에서 텍스트를 L2로 분류할 수 있도록 합니다. 이 방법은 마스킹이 필요한 특징을 식별하기 위해 LID 자체를 사용하며, 외부 자원에 의존하지 않습니다. 본 연구에서는 FastText 아키텍처를 기반으로 한 두 가지 오픈소스 LID(GlotLID와 OpenLID)에 MaskLID를 적용하는 방법을 탐구합니다. 코드와 데모는 https://github.com/cisnlp/MaskLID에서 확인할 수 있습니다.