번역이 포함된 일일 선별된 AI 연구 논문
본 논문에서는 "네트워크 내 계획 수립을 위한 자기회귀 학습(Autoregressive Learning for Planning In NEtworks)"을 의미하는 프로젝트 ALPINE의 연구 결과를 제시한다. 프로젝트 ALPINE은 Transformer 기반 언어 모델의 자기회귀 학습 메커니즘을 통해 계획 수립 능력의 발전에 대한 이론적 탐구를 시작하며, 이들의 계획 능력에 잠재적인 한계를 식별하는 것을 목표로 한다. 우리는 계획을 네트워크 경로 탐색 작업으로 추상화하며, 여기서 목표는 지정된 출발 노드에서 목표 노드까지 유효한 경로를 생성하는 것이다. 표현력 측면에서, Transformer는 인접 행렬과 도달 가능성 행렬을 가중치 내에 임베딩함으로써 경로 탐색을 실행할 수 있음을 보인다. Transformer의 경사 기반 학습 동역학에 대한 이론적 분석을 통해, Transformer가 인접 행렬과 제한된 형태의 도달 가능성 행렬을 학습할 수 있음을 밝혔다. 이러한 이론적 통찰은 실험을 통해 검증되었으며, Transformer가 실제로 인접 행렬과 불완전한 도달 가능성 행렬을 학습한다는 것을 보여주어 우리의 이론적 분석에서 예측한 내용과 일치함을 입증했다. 또한, 실제 계획 벤치마크인 Blocksworld에 우리의 방법론을 적용했을 때도 관찰 결과는 일관되게 유지되었다. 우리의 이론적 및 실증적 분석은 더 나아가 Transformer의 경로 탐색에서 잠재적인 한계를 드러냈다: 이는 전이성을 통해 도달 가능성 관계를 식별할 수 없으며, 따라서 경로 연결이 필요한 경우 실패할 수 있다. 요약하자면, 본 연구는 네트워크 내 계획 수립을 가능하게 하는 자기회귀 학습의 내부 메커니즘에 대한 새로운 통찰을 제공한다. 이 연구는 다른 관련 분야에서의 일반적인 계획 능력에 대한 이해에 기여할 수 있을 것이다.
Xmodel-VLM을 소개합니다. 이는 최첨단 멀티모달 비전 언어 모델로, 소비자용 GPU 서버에서 효율적으로 배포될 수 있도록 설계되었습니다. 우리의 연구는 대규모 멀티모달 시스템의 광범위한 채택을 방해하는 과도한 서비스 비용이라는 핵심적인 산업 문제에 직접적으로 대응합니다. 엄격한 훈련을 통해 LLaVA 패러다임을 사용하여 모달 정렬을 수행한 1B 규모의 언어 모델을 처음부터 개발했습니다. 그 결과물인 Xmodel-VLM은 경량이면서도 강력한 멀티모달 비전 언어 모델입니다. 수많은 고전적인 멀티모달 벤치마크에서의 광범위한 테스트를 통해, Xmodel-VLM이 더 작은 크기와 더 빠른 실행 속도에도 불구하고 더 큰 모델과 비슷한 성능을 제공한다는 사실이 밝혀졌습니다. 우리의 모델 체크포인트와 코드는 GitHub(https://github.com/XiaoduoAILab/XmodelVLM)에서 공개적으로 이용 가능합니다.
본 논문에서는 강력한 생성 모델 계열인 잠재 확산 모델(latent diffusion models)을 활용하여 뇌파(EEG) 기록으로부터 자연스러운 음악을 재구성하는 가능성을 탐구합니다. MIDI로 생성된 곡이나 단선율 음악과 같이 음색이 제한된 단순한 음악과 달리, 본 연구는 다양한 악기, 보컬, 효과가 포함된 복잡한 음악에 초점을 맞추며, 이는 풍부한 하모니와 음색을 특징으로 합니다. 이 연구는 비침습적 EEG 데이터를 사용하여 고품질의 일반 음악 재구성을 달성하기 위한 초기 시도로서, 수동 전처리 및 채널 선택 없이 원시 데이터에 직접 종단간(end-to-end) 학습 접근법을 적용합니다. 우리는 공개된 NMED-T 데이터셋에 모델을 학습시키고, 신경망 임베딩 기반 메트릭을 제안하여 정량적 평가를 수행합니다. 또한 생성된 트랙을 기반으로 곡 분류를 수행합니다. 본 연구는 신경 디코딩 및 뇌-컴퓨터 인터페이스 분야의 지속적인 연구에 기여하며, 복잡한 청각 정보 재구성을 위해 EEG 데이터를 사용하는 가능성에 대한 통찰을 제공합니다.
다양한 조건 하에서 컴퓨터 비전 모델을 체계적으로 평가하고 이해하기 위해서는 포괄적이고 맞춤화된 레이블이 포함된 대량의 데이터가 필요하지만, 실제 세계의 비전 데이터셋은 이를 거의 충족시키지 못합니다. 현재의 합성 데이터 생성기는 특히 체화된 AI 작업에 있어 유망한 대안을 제공하지만, 낮은 자산 및 렌더링 품질, 제한된 다양성, 비현실적인 물리적 특성으로 인해 컴퓨터 비전 작업에는 부족한 경우가 많습니다. 우리는 새로 개발된 체화된 AI 벤치마크인 BEHAVIOR-1K를 기반으로 컴퓨터 비전 모델의 체계적인 평가를 위해 완전히 맞춤화된 합성 데이터를 생성하는 도구와 자산 세트인 BEHAVIOR Vision Suite(BVS)를 소개합니다. BVS는 장면 수준(예: 조명, 객체 배치), 객체 수준(예: 관절 구성, "채워짐" 및 "접힘"과 같은 속성), 카메라 수준(예: 시야각, 초점 거리)에서 조정 가능한 많은 매개변수를 지원합니다. 연구자들은 데이터 생성 중에 이러한 매개변수를 임의로 변경하여 통제된 실험을 수행할 수 있습니다. 우리는 세 가지 예시 응용 시나리오를 보여줍니다: 도메인 변화의 다양한 연속 축에 걸쳐 모델의 견고성을 체계적으로 평가, 동일한 이미지 세트에서 장면 이해 모델을 평가, 그리고 새로운 비전 작업인 단항 및 이항 상태 예측을 위한 시뮬레이션-대-실제 전이를 훈련하고 평가합니다. 프로젝트 웹사이트: https://behavior-vision-suite.github.io/