번역이 포함된 일일 선별된 AI 연구 논문
최근 몇 년간 Transformer 기반 대형 언어 모델(LLM)의 성능은 다양한 분야에서 눈부신 발전을 이루어 왔다. 이러한 LLM들이 점점 더 복잡한 작업에 배포되면서, 더 긴 추론 과정을 수행하거나 더 큰 맥락을 이해해야 할 필요성이 자주 발생한다. 이러한 상황에서, LLM의 긴 시퀀스에 대한 길이 일반화 실패가 더욱 두드러지게 나타난다. 대부분의 사전 학습 방식은 학습 시퀀스를 고정된 길이(예: LLaMa의 경우 2048)로 잘라내며, LLM은 상대적 위치 인코딩과 같은 문제를 해결하기 위해 설계된 방법을 사용하더라도 더 긴 맥락 이후에 유창한 텍스트를 생성하는 데 어려움을 겪는다. 더 긴 코퍼스에 대한 미세 조정과 같은 일반적인 해결책은 막대한 하드웨어 및 시간 비용을 수반하며, 신중한 학습 과정 설계가 필요하다. 기존 LLM의 생성 능력을 더 효율적으로 활용하기 위해, 우리는 이 문제에 기여하는 주요 분포 외(OOD) 요인을 이론적 및 실증적으로 조사한다. 이러한 진단에서 영감을 받아, 우리는 실시간 길이 일반화를 위한 간단하지만 효과적인 해결책인 LM-Infinite를 제안한다. 이 방법은 Lambda 형태의 주의 마스크와 거리 제한만을 포함하며, 매개변수 업데이트나 학습이 필요하지 않다. 우리는 이 방법이 상대적 위치 인코딩 방법을 사용하는 다양한 LLM에 적용 가능함을 발견했다. LM-Infinite는 O(n) 시간 및 공간 복잡도로 계산 효율적이며, ArXiv 및 OpenWebText2 데이터셋에서 최대 32k 토큰까지 일관된 유창성과 생성 품질을 보여주며, 2.72배의 디코딩 속도 향상을 달성했다. 패스키 검색과 같은 하위 작업에서도, 이 방법은 학습 길이보다 훨씬 긴 입력에서도 계속 작동하며, 일반 모델이 즉시 실패하는 상황에서도 효과적으로 작동한다.
최근 멀티모달 대형 언어 모델이 상당한 관심을 받고 있습니다. 그러나 대부분의 연구는 시각-언어 멀티모달 모델에 초점을 맞추어 시각 및 언어 지시를 따르는 강력한 능력을 제공하는 데 집중하고 있습니다. 하지만 우리는 음성이 인간이 세계와 상호작용하는 중요한 양식 중 하나라고 주장합니다. 따라서 일반적인 목적의 어시스턴트가 멀티모달 음성-언어 지시를 따를 수 있는 능력을 갖추는 것이 중요합니다. 본 연구에서는 대형 언어 및 음성 모델(Large Language and Speech Model, LLaSM)을 제안합니다. LLaSM은 크로스모달 대화 능력을 갖춘 엔드투엔드 학습된 대형 멀티모달 음성-언어 모델로, 음성 및 언어 지시를 따를 수 있습니다. 초기 실험 결과, LLaSM은 인간이 인공지능과 상호작용하는 더 편리하고 자연스러운 방식을 보여줍니다. 특히, 우리는 대규모 음성 지시 데이터셋인 LLaSM-Audio-Instructions도 공개합니다. 코드와 데모는 https://github.com/LinkSoul-AI/LLaSM과 https://huggingface.co/spaces/LinkSoul/LLaSM에서 확인할 수 있습니다. LLaSM-Audio-Instructions 데이터셋은 https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions에서 이용 가능합니다.
우리는 새로운 최첨단 아랍어 중심의 기반 및 지시 튜닝된 오픈 생성형 대규모 언어 모델(LLM)인 Jais와 Jais-chat을 소개한다. 이 모델들은 GPT-3 디코더 전용 아키텍처를 기반으로 하며, 다양한 프로그래밍 언어의 소스 코드를 포함한 아랍어와 영어 텍스트의 혼합 데이터로 사전 학습되었다. 130억 개의 파라미터를 가진 이 모델들은 광범위한 평가를 통해 기존의 오픈 아랍어 및 다국어 모델들보다 상당한 차이로 더 나은 아랍어 지식과 추론 능력을 보여준다. 또한, 이 모델들은 훨씬 적은 영어 데이터로 학습되었음에도 불구하고, 비슷한 크기의 영어 중심 오픈 모델들과 비교하여 영어에서도 경쟁력을 보인다. 우리는 모델의 학습, 튜닝, 안전성 정렬 및 평가에 대한 상세한 설명을 제공한다. 아랍어 LLM 연구를 촉진하기 위해 기반 Jais 모델과 지시 튜닝된 Jais-chat 변형 모델의 두 가지 오픈 버전을 공개한다. 이 모델들은 https://huggingface.co/inception-mbzuai/jais-13b-chat에서 이용 가능하다.
로봇이 실험실과 특수화된 공장 외부에서 유용하게 사용되기 위해서는 새로운 유용한 행동을 빠르게 가르칠 수 있는 방법이 필요합니다. 현재의 접근 방식들은 작업별 엔지니어링 없이 새로운 작업을 도입할 수 있는 일반성을 갖추지 못하거나, 실용적인 사용이 가능한 시간 내에 이를 수행할 수 있는 데이터 효율성이 부족합니다. 본 연구에서는 데모를 통해 더 빠르고 일반적인 학습을 가능하게 하는 표현적 수단으로서 밀집 추적(dense tracking)을 탐구합니다. 우리의 접근 방식은 Track-Any-Point (TAP) 모델을 활용하여 데모에서 관련된 움직임을 분리하고, 장면 구성의 변화에 걸쳐 이 움직임을 재현할 수 있는 저수준 제어기를 매개변수화합니다. 이를 통해 형상 맞추기, 쌓기, 심지어 접착제를 바르고 물체를 붙이는 것과 같은 전체 경로 추적 작업과 같은 복잡한 물체 배열 작업을 해결할 수 있는 강력한 로봇 정책을 얻을 수 있음을 보여줍니다. 이 모든 데모는 단 몇 분 내에 수집될 수 있습니다.
WeatherBench 2는 Rasp 등(2020)이 제안한 전 세계적 중기(1-14일) 날씨 예측 벤치마크의 업데이트 버전으로, 데이터 기반 날씨 모델링의 발전을 가속화하기 위해 설계되었습니다. WeatherBench 2는 오픈소스 평가 프레임워크, 공개적으로 이용 가능한 훈련 데이터, 실측 데이터 및 기준 데이터, 그리고 최신 지표와 최첨단 모델을 제공하는 지속적으로 업데이트되는 웹사이트(https://sites.research.google/weatherbench)로 구성되어 있습니다. 본 논문은 평가 프레임워크의 설계 원칙을 설명하고, 현재 최첨단 물리 기반 및 데이터 기반 날씨 모델의 결과를 제시합니다. 이 지표들은 주요 운영 기상 센터에서 날씨 예측을 평가하기 위해 확립된 관행을 기반으로 합니다. 모델 성능을 개괄적으로 제공하기 위해 일련의 핵심 점수를 정의합니다. 또한, 현재 평가 설정의 주의 사항과 데이터 기반 날씨 예측의 미래를 위한 과제에 대해서도 논의합니다.
실제 환경에서의 제약 조건 하에서 추적-회피 상호작용과 같은 전략적 로봇 행동을 학습하는 것은 매우 어려운 과제입니다. 이는 상호작용의 역학을 활용하고, 물리적 상태와 잠재적 의도의 불확실성을 모두 고려한 계획을 필요로 합니다. 본 논문에서는 이 해결하기 어려운 문제를 지도 학습 문제로 변환하여, 완전 관측 가능한 로봇 정책이 부분 관측 가능한 정책을 위한 지도 신호를 생성하도록 합니다. 우리는 부분 관측 가능한 추적자 정책에 대한 지도 신호의 품질이 두 가지 핵심 요소에 의존한다는 것을 발견했습니다: 회피자의 행동 다양성과 최적성의 균형, 그리고 완전 관측 가능한 정책에서의 모델링 가정의 강도입니다. 우리는 이 정책을 RGB-D 카메라가 장착된 물리적 4족 보행 로봇에 배포하여 실제 환경에서의 추적-회피 상호작용을 실험했습니다. 모든 어려움에도 불구하고, 센싱 제약은 창의성을 불러일으켰습니다: 로봇은 불확실할 때 정보를 수집하고, 노이즈가 있는 측정값에서 의도를 예측하며, 가로채기 위해 미리 예측하도록 유도되었습니다. 프로젝트 웹페이지: https://abajcsy.github.io/vision-based-pursuit/