번역이 포함된 일일 선별된 AI 연구 논문
검색 강화 언어 모델은 세계 상태의 변화에 더 잘 적응하고 희소 지식을 통합할 수 있습니다. 그러나 대부분의 기존 방법은 검색 코퍼스에서 짧은 연속 청크만을 검색하므로 문서 전체 문맥에 대한 종합적 이해가 제한됩니다. 우리는 텍스트 청크를 재귀적으로 임베딩하고 클러스터링하며 요약하는 새로운 접근 방식을 소개하며, 하향식으로 다양한 수준의 요약을 포함하는 트리를 구축합니다. 추론 시, 우리의 RAPTOR 모델은 이 트리에서 검색하여 긴 문서에 걸쳐 다양한 추상화 수준에서 정보를 통합합니다. 통제된 실험 결과, 재귀적 요약을 통한 검색은 여러 작업에서 기존의 검색 강화 언어 모델에 비해 상당한 개선을 보여줍니다. 복잡한 다단계 추론이 필요한 질의응답 작업에서 우리는 최첨단 결과를 보여주며, 예를 들어 RAPTOR 검색을 GPT-4와 결합하여 QuALITY 벤치마크에서 최고 성능을 절대 정확도 기준 20% 향상시킬 수 있습니다.
n-gram 언어 모델은 신경망 기반 대형 언어 모델(LLM) 시대에도 여전히 유효한가? 우리의 대답은 '그렇다'이며, 본 논문에서는 텍스트 분석과 신경망 LLM 개선이라는 두 가지 측면에서 n-gram 모델의 가치를 입증한다. 그러나 이를 위해서는 n-gram 모델을 두 가지 측면에서 현대화할 필요가 있다. 첫째, 신경망 LLM과 동일한 데이터 규모인 1.4조 토큰으로 n-gram 모델을 학습시킨다. 이는 지금까지 구축된 가장 큰 n-gram 모델이다. 둘째, 기존 n-gram 모델은 작은 n 값을 사용하여 성능이 제한되는데, 우리는 새로운 infty-gram LM과 백오프를 도입하여 n을 임의로 크게 설정할 수 있도록 한다. n-gram 카운트 테이블을 사전 계산하는 방식(이는 매우 비용이 많이 드는 작업임) 대신, 접미사 배열(suffix array)로 구동되는 infini-gram 엔진을 개발하여 밀리초 수준의 지연 시간으로 infty-gram(뿐만 아니라 임의의 n에 대한 n-gram) 확률을 계산할 수 있도록 했다. infty-gram 프레임워크와 infini-gram 엔진은 인간이 작성한 텍스트와 기계 생성 텍스트에 대한 다양한 새롭고 흥미로운 분석을 가능하게 한다: 우리는 infty-gram LM이 다음 토큰 예측에서 상당히 높은 정확도(47%)를 보이며, 신경망 LLM을 보완하여 언어 모델링 복잡도를 크게 줄일 수 있음을 발견했다. 또한 기계 생성 텍스트를 분석할 때, 접미사 길이에 따른 기계와 infty-gram 간의 일치 수준에서 불규칙성을 관찰했는데, 이는 신경망 LLM 사전 학습과 Transformer의 위치 임베딩에 결함이 있음을 시사한다. 우리는 infini-gram 엔진을 오픈소스로 공개하여 대규모 텍스트 코퍼스에서 검색된 정확한 정보를 최적으로 활용하는 방법에 대한 더 많은 연구가 이루어지기를 기대한다.
복잡한 환경을 탐색하는 다족 보행 로봇은 효율적인 작업 수행을 위해 민첩해야 하며, 장애물이나 인간과의 충돌을 피하기 위해 안전해야 합니다. 기존 연구들은 안전을 보장하기 위해 보수적인 컨트롤러(< 1.0 m/s)를 개발하거나, 치명적인 충돌을 고려하지 않고 민첩성에만 초점을 맞추는 경향이 있었습니다. 본 논문은 사족 보행 로봇을 위한 민첩하고 충돌 없는 이동을 가능하게 하는 학습 기반 제어 프레임워크인 Agile But Safe(ABS)를 소개합니다. ABS는 장애물 사이에서 민첩한 모터 스킬을 실행하는 민첩 정책과 실패를 방지하기 위한 복구 정책을 포함하여, 고속 및 충돌 없는 탐색을 협력적으로 달성합니다. ABS의 정책 전환은 학습된 제어 이론적 도달-회피 값 네트워크에 의해 제어되며, 이 네트워크는 또한 복구 정책을 목적 함수로 안내하여 폐루프에서 로봇을 보호합니다. 학습 과정은 민첩 정책, 도달-회피 값 네트워크, 복구 정책, 그리고 외부 감지 표현 네트워크의 학습을 시뮬레이션 환경에서 모두 포함합니다. 이러한 학습된 모듈은 온보드 센싱과 컴퓨팅을 통해 실제 환경에 직접 배포될 수 있으며, 정적 및 동적 장애물이 있는 제한된 실내 및 야외 공간에서 고속 및 충돌 없는 탐색을 가능하게 합니다.
비디오 확산 모델(Video Diffusion Models)은 일관성 있고 고화질의 비디오를 생성할 수 있는 능력으로 인해 점점 더 많은 관심을 받고 있습니다. 그러나 반복적인 노이즈 제거 과정으로 인해 계산 집약적이고 시간이 많이 소요되어 그 응용이 제한되고 있습니다. 사전 학습된 이미지 확산 모델을 최소한의 단계로 샘플링을 가속화하는 일관성 모델(Consistency Model, CM)과 조건부 이미지 생성에서 성공적으로 확장된 잠재 일관성 모델(Latent Consistency Model, LCM)에서 영감을 받아, 우리는 최소한의 단계로 고화질 비디오 생성을 가능하게 하는 AnimateLCM을 제안합니다. 원시 비디오 데이터셋에 직접 일관성 학습을 수행하는 대신, 이미지 생성 사전 지식과 모션 생성 사전 지식을 분리하여 학습 효율성을 향상시키고 생성 시각적 품질을 개선하는 분리된 일관성 학습 전략을 제안합니다. 또한, Stable Diffusion 커뮤니티에서 플러그 앤 플레이 어댑터를 결합하여 다양한 기능(예: ControlNet을 통한 제어 가능한 생성)을 달성할 수 있도록, 기존 어댑터를 우리의 증류된 텍스트 조건 비디오 일관성 모델에 적응시키거나 샘플링 속도를 저해하지 않고 어댑터를 처음부터 학습할 수 있는 효율적인 전략을 제안합니다. 우리는 이미지 조건 비디오 생성과 레이아웃 조건 비디오 생성에서 제안된 전략을 검증하며, 모두 최고 수준의 결과를 달성했습니다. 실험 결과는 우리가 제안한 방법의 효과를 입증합니다. 코드와 가중치는 공개될 예정이며, 더 자세한 내용은 https://github.com/G-U-N/AnimateLCM에서 확인할 수 있습니다.
대규모 언어 모델을 확장하여 긴 문맥을 효과적으로 처리하려면 유사한 길이의 입력 시퀀스에 대한 지시 미세 조정이 필요합니다. 이를 해결하기 위해, 우리는 긴 문맥 정렬을 위한 지시 데이터, 훈련, 평가 레시피인 LongAlign을 제안합니다. 먼저, Self-Instruct를 사용하여 긴 지시-따르기 데이터셋을 구축합니다. 데이터 다양성을 보장하기 위해, 다양한 긴 문맥 소스에서 광범위한 작업을 포함합니다. 둘째, 다양한 길이 분포를 가진 데이터에 대한 지도 미세 조정을 가속화하기 위해 패킹 및 정렬 배치 전략을 채택합니다. 또한, 패킹 훈련 중 다른 시퀀스 간의 손실 기여도를 균형 있게 조정하기 위한 손실 가중치 방법을 개발합니다. 셋째, 10k-100k 길이의 쿼리에 대한 지시-따르기 능력을 평가하기 위한 LongBench-Chat 벤치마크를 소개합니다. 실험 결과, LongAlign은 기존의 대규모 언어 모델 레시피보다 긴 문맥 작업에서 최대 30% 더 우수한 성능을 보이며, 짧고 일반적인 작업 처리 능력도 유지합니다. 코드, 데이터, 그리고 긴 문맥 정렬 모델은 https://github.com/THUDM/LongAlign에서 오픈소스로 제공됩니다.
인간의 기대에 부합하는 충실한 추론을 달성하기 위해서는 대규모 언어 모델(LLM)이 실제 세계의 지식(예: 웹 사실, 수학 및 물리적 규칙)에 기반하여 추론을 해야 합니다. 도구는 LLM이 이러한 외부 지식에 접근할 수 있도록 돕지만, 다단계 추론 문제에서 도구를 호출하도록 LLM 에이전트(예: Toolformer)를 미세 조정하는 데는 여전히 과제가 남아 있습니다. 특히 상호 연결된 도구 호출은 전체적이고 효율적인 도구 사용 계획을 요구합니다. 이 연구에서 우리는 다단계 추론에서 도구를 더 잘 활용하기 위한 새로운 방법을 제안합니다. 우리의 방법인 추상화의 연쇄(Chain-of-Abstraction, CoA)는 LLM이 먼저 추상적인 자리 표시자(placeholder)를 포함한 추론 연쇄를 디코딩하도록 훈련시킨 후, 도메인 도구를 호출하여 각 추론 연쇄를 구체적인 지식으로 채우도록 합니다. 이 추상적 연쇄를 통한 계획은 LLM이 더 일반적인 추론 전략을 학습하도록 하며, 이는 다양한 추론 질문과 관련된 도메인 지식(예: 수학 결과)의 변화에 강건합니다. 또한, LLM이 외부 도구의 디코딩과 호출을 병렬로 수행할 수 있게 하여 도구 응답을 기다리는 데 따른 추론 지연을 방지합니다. 수학적 추론 및 위키 QA 도메인에서 우리의 방법은 이전의 사고의 연쇄(chain-of-thought) 및 도구 보강 기반선(baseline)을 모두 내부 분포(in-distribution) 및 외부 분포(out-of-distribution) 테스트 세트에서 일관되게 능가하며, 평균 약 6%의 절대 QA 정확도 향상을 보였습니다. 우리의 방법으로 훈련된 LLM 에이전트는 또한 더 효율적인 도구 사용을 보여주며, 추론 속도가 평균적으로 도구 보강 LLM 기반선보다 약 1.4배 빠릅니다.
3D 모델 생성은 컴퓨터 그래픽스의 핵심을 이루며 수십 년간 연구의 초점이 되어 왔다. 최근 고급 신경망 표현과 생성 모델의 등장으로 3D 콘텐츠 생성 분야는 급속도로 발전하고 있으며, 점점 더 고품질이고 다양한 3D 모델의 생성이 가능해지고 있다. 이 분야의 급속한 성장으로 인해 최신 개발 동향을 모두 파악하기가 어려워졌다. 본 논문에서는 3D 생성 방법의 기본적인 방법론을 소개하고, 3D 표현, 생성 방법, 데이터셋, 그리고 해당 응용 분야를 포괄하는 구조화된 로드맵을 제시하고자 한다. 구체적으로, 3D 생성을 위한 기반이 되는 3D 표현을 소개한다. 또한, 순방향 생성, 최적화 기반 생성, 절차적 생성, 생성적 새로운 시점 합성 등 알고리즘 패러다임 유형에 따라 분류된 생성 방법에 대한 문헌을 포괄적으로 검토한다. 마지막으로, 사용 가능한 데이터셋, 응용 분야, 그리고 남아 있는 과제들에 대해 논의한다. 본 논문이 독자들이 이 흥미로운 주제를 탐구하고 3D 콘텐츠 생성 분야의 추가 발전을 촉진하는 데 도움이 되기를 바란다.
GPT-4와 같은 아키텍처로 대표되는 대형 언어 모델(LLM)의 급속한 발전은 자연어 처리의 지형을 재편하고 있습니다. 본 논문은 LLM 사전 학습과 관련된 효율성 문제를 해결하기 위한 선구적인 접근 방식을 소개하며, 아키텍처 간 지식 증류(knowledge distillation)를 활용하는 방법을 제안합니다. 효율적인 하이에나(Hyena) 메커니즘에서 얻은 통찰을 바탕으로, 우리의 방법은 트랜스포머 모델의 어텐션 헤드를 하이에나로 대체함으로써, 전통적인 사전 학습에 대한 비용 효율적인 대안을 제공하면서도, 이차 어텐션 메커니즘에 내재된 긴 문맥 정보 처리의 문제에 직면합니다. 압축 중심의 기존 방법과 달리, 우리의 기술은 추론 속도를 향상시킬 뿐만 아니라 정확도와 효율성 측면에서 사전 학습을 능가합니다. 진화하는 LLM 시대에, 우리의 연구는 컴퓨팅 파워와 환경 영향 사이의 균형을 맞추며 지속 가능한 AI 솔루션을 추구하는 데 기여합니다.
현실적인 비디오 시뮬레이션은 가상 현실부터 영화 제작에 이르기까지 다양한 분야에서 상당한 잠재력을 보여주고 있다. 이는 특히 실제 환경에서 비디오를 촬영하기가 비현실적이거나 비용이 많이 드는 시나리오에서 더욱 두드러진다. 기존의 비디오 시뮬레이션 접근법은 종종 조명 환경을 정확히 모델링하거나 물체의 기하학적 구조를 표현하거나 높은 수준의 사진 같은 현실감을 달성하는 데 실패한다. 본 논문에서는 'Anything in Any Scene'이라는 새로운 범용 프레임워크를 제안한다. 이 프레임워크는 물리적 현실감을 강조하며 기존의 동적 비디오에 어떠한 물체도 자연스럽게 삽입할 수 있다. 제안된 일반 프레임워크는 세 가지 주요 프로세스로 구성된다: 1) 기하학적 현실감을 보장하기 위해 주어진 장면 비디오에 현실적인 물체를 적절히 배치하여 통합하는 과정; 2) 하늘 및 환경 조명 분포를 추정하고 현실적인 그림자를 시뮬레이션하여 조명 현실감을 강화하는 과정; 3) 최종 비디오 출력을 개선하여 사진 같은 현실감을 극대화하기 위한 스타일 전이 네트워크를 사용하는 과정. 실험을 통해 'Anything in Any Scene' 프레임워크가 높은 수준의 기하학적 현실감, 조명 현실감, 사진 같은 현실감을 가진 시뮬레이션 비디오를 생성함을 입증한다. 비디오 데이터 생성과 관련된 어려움을 크게 완화함으로써, 본 프레임워크는 고품질 비디오를 획득하기 위한 효율적이고 비용 효과적인 솔루션을 제공한다. 또한, 이 프레임워크의 응용 범위는 비디오 데이터 증강을 넘어 가상 현실, 비디오 편집 및 다양한 비디오 중심 응용 분야에서도 유망한 잠재력을 보여준다. 프로젝트 코드 및 고해상도 비디오 결과를 확인하려면 프로젝트 웹사이트(https://anythinginanyscene.github.io)를 방문하시기 바란다.
ReplaceAnything3D 모델(RAM3D)은 특정 객체를 장면 내에서 교체할 수 있는 새로운 텍스트 기반 3D 장면 편집 방법을 소개합니다. 다중 뷰 이미지, 교체할 객체를 설명하는 텍스트 프롬프트, 그리고 새로운 객체를 설명하는 텍스트 프롬프트가 주어졌을 때, 우리의 Erase-and-Replace 접근법은 새로 생성된 콘텐츠로 장면 내 객체를 효과적으로 교체하면서도 다중 시점에서의 3D 일관성을 유지합니다. ReplaceAnything3D의 다양성을 입증하기 위해 다양한 현실적인 3D 장면에 적용하여, 수정된 전경 객체가 장면의 전반적인 무결성에 영향을 주지 않으면서도 나머지 장면과 잘 통합된 결과를 보여줍니다.
우리는 3D 장면 예측을 위한 조건부 자동 인코딩 방사 필드(CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting)를 제안한다. 이 방법은 2D 자체 중심 이미지와 같은 과거 관측을 기반으로 미래의 3D 장면을 예측한다. 우리의 방법은 확률적 인코더를 사용하여 이미지를 가능성 있는 3D 잠재 장면 구성의 분포로 매핑하고, 가정된 장면의 시간적 진화를 예측한다. 우리의 잠재 장면 표현은 전역 신경 방사 필드(NeRF)를 조건화하여 3D 장면 모델을 표현하며, 이는 설명 가능한 예측과 직관적인 다운스트림 응용을 가능하게 한다. 이 접근법은 환경 상태와 역학의 불확실성을 고려함으로써 기존의 신경 렌더링 연구를 확장한다. 우리는 3D 표현을 학습하기 위해 포즈 조건부 VAE(Pose-Conditional-VAE)와 NeRF의 두 단계 훈련을 사용한다. 또한, 혼합 밀도 네트워크를 활용하여 부분적으로 관측 가능한 마르코프 결정 과정으로 잠재 장면 표현을 자동 회귀적으로 예측한다. 우리는 CARLA 운전 시뮬레이터를 사용한 현실적인 시나리오에서 우리의 방법의 유용성을 입증하며, CARFF가 시각적 폐색이 포함된 복잡한 다중 에이전트 자율 주행 시나리오에서 효율적인 궤적 및 비상 계획을 가능하게 하는 데 사용될 수 있음을 보여준다.