번역이 포함된 일일 선별된 AI 연구 논문
언어 모델(LM)을 위한 서브쿼드라틱 아키텍처의 경계를 확장하는 것은 빠르게 진화하는 자연어 처리 분야에서 매우 중요합니다. 최근의 혁신 중 하나인 상태 공간 모델(State Space Model)은 초기에 언어 모델링 작업에서 트랜스포머의 성능을 능가하는 것으로 주목받았습니다. 그러나 이러한 모델들은 트랜스포머가 전통적으로 뛰어난 영역인 인-컨텍스트 학습(In-Context Learning) 능력에서 결함을 드러냈습니다. 이에 따라 Based 모델이 등장하여, 선형 트랜스포머(Linear Transformer)와 지수 함수의 테일러 급수에서 영감을 받은 커널을 결합하고, 여기에 컨볼루션 네트워크를 추가한 하이브리드 솔루션을 제시했습니다. 이 모델은 트랜스포머의 인-컨텍스트 학습 능력을 닮아 해당 분야에서 강력한 경쟁자로 자리 잡았습니다. 본 연구에서는 Based 모델의 커널에 단순하면서도 우아한 수정을 가해, Multi-Query Associative Recall 작업과 Pile 데이터셋에서의 전반적인 언어 모델링 프로세스를 통해 평가된 인-컨텍스트 학습 능력을 향상시킨 결과를 제시합니다.
본 논문은 생성형 트랜스포머 모델을 사용하여 긴 문서를 처리하는 과제를 다룹니다. 다양한 접근 방식을 평가하기 위해, 우리는 BABILong이라는 새로운 벤치마크를 도입했습니다. 이 벤치마크는 광범위한 텍스트 내에서 분산된 사실을 추출하고 처리하는 모델의 능력을 평가하도록 설계되었습니다. GPT-4와 RAG를 포함한 벤치마크 평가 결과, 일반적인 방법들은 최대 10^4개의 요소를 가진 시퀀스에만 효과적인 것으로 나타났습니다. 반면, 반복적 메모리 증강을 통해 GPT-2를 미세 조정하면 최대 10^7개의 요소를 포함하는 작업을 처리할 수 있게 됩니다. 이는 지금까지 공개된 신경망 모델 중 가장 긴 입력을 처리한 것으로, 긴 시퀀스 처리 능력에서 상당한 도약을 이루었음을 보여줍니다.
개인화된 콘텐츠 추천을 위해서는 사용자의 장기적인 참여 기록을 활용하는 것이 필수적입니다. 자연어 처리(NLP) 분야에서 사전 학습된 언어 모델(PLM)의 성공은 이러한 모델들이 사용자 기록과 후보 항목을 인코딩하는 데 사용되게 하였으며, 이는 콘텐츠 추천을 텍스트 의미 매칭 작업으로 프레임화하는 방식으로 이어졌습니다. 그러나 기존 연구들은 매우 긴 사용자 기록 텍스트를 처리하고 사용자-항목 상호작용이 부족한 문제를 해결하는 데 여전히 어려움을 겪고 있습니다. 본 논문에서는 SPAR라는 콘텐츠 기반 추천 프레임워크를 소개하며, 이는 장기적인 사용자 참여 기록에서 전반적인 사용자 관심사를 효과적으로 추출하는 문제를 해결합니다. SPAR는 PLM, 다중 주의 계층(poly-attention layers), 그리고 주의 희소성 메커니즘(attention sparsity mechanisms)을 활용하여 사용자 기록을 세션 기반으로 인코딩합니다. 사용자와 항목 측면의 특징은 참여 예측을 위해 충분히 융합되면서도 양쪽의 독립적인 표현을 유지하여, 실제 모델 배포에 효율적입니다. 또한, 대규모 언어 모델(LLM)을 활용하여 사용자 참여 기록에서 전역 관심사를 추출함으로써 사용자 프로파일링을 강화합니다. 두 벤치마크 데이터셋에서의 광범위한 실험을 통해 우리의 프레임워크가 기존의 최첨단(SoTA) 방법들을 능가함을 입증하였습니다.
대규모 언어 모델(LLM)은 다양한 NLP 작업에서 연구자들에게 주요하고 중요한 도구로 자리 잡았습니다. 현재 많은 연구자들이 합성 데이터 생성, 작업 평가, 미세 조정, 증류 및 기타 모델-인-더-루프 연구 워크플로우에서 LLM을 사용하고 있습니다. 그러나 이러한 모델을 사용함에 있어서 그 규모, 폐쇄적 소스 특성, 그리고 이러한 새로운 워크플로우를 위한 표준화된 도구의 부재로 인해 여러 도전 과제가 발생합니다. 이러한 모델의 급속한 부상과 독특한 도전 과제들은 개방형 과학과 이를 사용한 연구의 재현성에 즉각적인 부정적인 영향을 미쳤습니다. 본 논문에서는 연구자들이 간단한 코드를 작성하여 강력한 LLM 워크플로우를 구현할 수 있도록 하는 오픈 소스 Python 라이브러리인 DataDreamer를 소개합니다. DataDreamer는 또한 연구자들이 개방형 과학과 재현성을 장려하기 위해 제안한 모범 사례를 준수할 수 있도록 돕습니다. 라이브러리와 문서는 https://github.com/datadreamer-dev/DataDreamer에서 확인할 수 있습니다.
비디오 제작이 점점 더 대중화되고 있지만, 편집에 필요한 전문 지식과 노력은 초보자들에게 장벽으로 작용하는 경우가 많습니다. 본 논문에서는 이러한 장벽을 낮추기 위해 대규모 언어 모델(LLM)을 비디오 편집 워크플로우에 통합하는 방법을 탐구합니다. 우리의 디자인 비전은 LAVE라는 새로운 시스템에 구현되었으며, 이 시스템은 LLM 기반 에이전트 지원과 언어 기반 편집 기능을 제공합니다. LAVE는 사용자의 영상에 대한 언어 설명을 자동으로 생성하여, LLM이 비디오를 처리하고 편집 작업을 지원할 수 있는 기반을 마련합니다. 사용자가 편집 목표를 제시하면, 에이전트는 이를 달성하기 위한 관련 작업을 계획하고 실행합니다. 또한 LAVE는 사용자가 에이전트를 통해 또는 직접 UI를 조작하여 비디오를 편집할 수 있도록 하여 유연성을 제공하고, 에이전트 작업을 수동으로 세부 조정할 수 있게 합니다. 초보자부터 숙련된 편집자까지 8명의 참가자를 대상으로 진행한 사용자 연구는 LAVE의 효과성을 입증했습니다. 또한 이 연구 결과는 제안된 LLM 지원 편집 패러다임에 대한 사용자 인식과, 사용자의 창의성 및 공동 창작 감각에 미치는 영향을 밝혀냈습니다. 이러한 발견을 바탕으로, 우리는 에이전트 지원 콘텐츠 편집의 미래 개발을 위한 디자인 시사점을 제안합니다.
자동 병렬 평가는 대규모 언어 모델(LLM)의 응답 품질을 평가하는 유망한 접근 방식으로 부상하고 있다. 그러나 이러한 평가 방식의 결과를 분석하는 것은 확장성과 해석 가능성 측면에서 도전 과제를 제기한다. 본 논문에서는 자동 병렬 평가 결과를 인터랙티브하게 분석하기 위한 새로운 시각적 분석 도구인 LLM Comparator를 소개한다. 이 도구는 사용자가 특정 모델이 기준 모델보다 언제, 왜 더 나은 성능을 보이는지, 그리고 두 모델의 응답이 질적으로 어떻게 다른지 이해할 수 있도록 인터랙티브 워크플로를 지원한다. 우리는 대형 기술 기업의 연구자 및 엔지니어들과 긴밀히 협력하여 이 도구를 반복적으로 설계 및 개발하였다. 본 논문에서는 우리가 식별한 사용자 도전 과제, 도구의 설계 및 개발 과정, 그리고 모델 평가를 정기적으로 수행하는 참가자들과의 관찰 연구를 상세히 설명한다.
대규모 언어 모델(LLMs)은 일반적인 맥락에서의 고급 이해 및 생성 능력으로 인해 대화 시스템에서 점점 더 널리 사용되고 있다. 그러나 특정 작업과 도메인 내에서 응답 생성뿐만 아니라 효과적인 대화 상태 추적(DST)을 요구하는 작업 지향 대화(TOD)에서의 효과성은 여전히 만족스럽지 못하다. 본 연구에서는 함수 호출을 통해 LLMs로 DST를 해결하기 위한 새로운 접근 방식인 FnCTOD를 제안한다. 이 방법은 제로샷 DST를 개선하여 광범위한 데이터 수집이나 모델 튜닝 없이 다양한 도메인에 적응할 수 있도록 한다. 우리의 실험 결과는 이 접근 방식이 적당한 크기의 오픈소스 및 독점 LLMs 모두에서 탁월한 성능을 달성함을 보여준다: 컨텍스트 내 프롬프팅을 통해 다양한 7B 또는 13B 파라미터 모델이 ChatGPT에 의해 달성된 이전의 최첨단(SOTA)을 능가하게 하며, ChatGPT의 성능을 5.6% Avg. JGA로 향상시켜 SOTA를 능가한다. GPT-3.5와 GPT-4의 개별 모델 결과는 각각 4.8%와 14% 향상된다. 또한 다양한 작업 지향 대화의 소규모 데이터셋에 대한 미세 조정을 통해, 특히 13B 파라미터 LLaMA2-Chat 모델에 함수 호출 기능과 ChatGPT에 필적하는 DST 성능을 부여하면서도 채팅 기능을 유지할 수 있음을 보여준다. 우리는 실험 코드와 모델을 오픈소스로 공개할 계획이다.
확산 모델(Diffusion Model)은 이미지 및 비디오 생성 분야에서 매우 효과적인 것으로 입증되었으나, 단일 스케일 학습 데이터로 인해 다양한 크기의 이미지를 생성할 때 여전히 구성(composition) 문제에 직면하고 있습니다. 고해상도 생성을 위해 대규모 사전 학습된 확산 모델을 적용하려면 상당한 계산 및 최적화 자원이 필요하지만, 저해상도 모델과 비슷한 수준의 생성 능력을 달성하는 것은 여전히 어려운 과제입니다. 본 논문은 잘 학습된 저해상도 모델에서 얻은 풍부한 지식을 활용하여 고해상도 이미지 및 비디오 생성에 빠르게 적응할 수 있는 새로운 자기-캐스케이드(self-cascade) 확산 모델을 제안합니다. 이 모델은 튜닝이 필요 없거나 저렴한 업샘플러 튜닝 패러다임을 사용하며, 다중 스케일 업샘플러 모듈 시퀀스를 통합함으로써 원래의 구성 및 생성 능력을 유지하면서 고해상도에 효율적으로 적응할 수 있습니다. 또한, 추론 과정을 가속화하고 지역적 구조적 세부 사항을 개선하기 위해 피벗 가이드 노이즈 재스케줄링 전략을 제안합니다. 전체 미세 조정(full fine-tuning)과 비교했을 때, 우리의 접근 방식은 학습 속도를 5배 향상시키며 추가로 0.002M의 튜닝 파라미터만 필요로 합니다. 광범위한 실험을 통해 우리의 접근 방식이 단 10,000단계의 미세 조정만으로도 고해상도 이미지 및 비디오 합성에 빠르게 적응할 수 있으며, 추가 추론 시간이 거의 없음을 입증했습니다.
본 논문은 점진적으로 정렬된 언어 모델이 고정된 비전 인코더와 대형 언어 모델(LLMs) 간의 효과적인 연결을 가능하게 함을 입증한다. 비전 인코더와 LLMs의 기본 아키텍처와 사전 학습 방법은 광범위하게 연구되어 왔지만, 비전-언어 어댑터의 아키텍처와 학습 전략은 최근 연구들 간에 상당히 다양하게 나타난다. 본 연구는 최신 퍼시버 리샘플러(perceiver resampler) 아키텍처를 철저히 탐구하고 강력한 베이스라인을 구축한다. 그러나 퍼시버 리샘플러를 사용한 비전-언어 정렬은 직접적인 지도가 부족하여 느린 수렴 속도와 제한된 확장성을 보이는 것으로 관찰되었다. 이 문제를 해결하기 위해, 우리는 점진적으로 정렬된 언어 모델을 비전-언어 어댑터로 사용하는 PaLM2-VAdapter를 제안한다. 퍼시버 리샘플러를 사용한 강력한 베이스라인과 비교하여, 우리의 방법은 실험적으로 더 빠른 수렴 속도, 더 높은 성능, 그리고 더 강력한 확장성을 보여준다. 이미지와 비디오에 대한 다양한 시각적 질의응답(VQA) 및 캡셔닝 작업에서의 광범위한 실험을 통해, 우리의 모델이 최신 수준의 시각적 이해와 다중 모달 추론 능력을 보여줌을 입증한다. 특히, 우리의 방법은 최신 대형 비전-언어 모델보다 30~70% 적은 매개변수로 이러한 성과를 달성하여, 상당한 효율성 개선을 이루었다.
극도로 희소한 시점에서 3D 객체를 재구성하고 렌더링하는 것은 3D 비전 기술의 응용을 촉진하고 사용자 경험을 개선하는 데 있어 매우 중요합니다. 그러나 희소한 시점에서 얻은 이미지는 매우 제한된 3D 정보만을 포함하고 있어 두 가지 주요 문제를 야기합니다: 1) 매칭을 위한 이미지가 너무 적어 다중 시점 일관성을 구축하기 어려움; 2) 시점 커버리지가 불충분하여 객체 정보가 부분적으로 누락되거나 과도하게 압축됨. 이러한 문제를 해결하기 위해, 우리는 Gaussian splatting을 사용하여 3D 객체를 표현하고 렌더링하는 GaussianObject 프레임워크를 제안하며, 단 4장의 입력 이미지로도 높은 렌더링 품질을 달성합니다. 먼저, 초기 최적화 과정에 구조적 사전 지식을 명시적으로 주입하여 다중 시점 일관성을 구축하는 데 도움을 주는 시각적 외피(visual hull)와 플로터 제거(floater elimination) 기법을 도입하여 대략적인 3D 가우시안 표현을 생성합니다. 그런 다음, 누락된 객체 정보를 보완하기 위해 확산 모델(diffusion model) 기반의 가우시안 수리 모델을 구축하여 가우시안을 더욱 정제합니다. 우리는 수리 모델을 훈련하기 위한 이미지 쌍을 얻기 위해 자체 생성 전략을 설계합니다. 우리의 GaussianObject는 MipNeRF360, OmniObject3D, OpenIllumination 등 여러 도전적인 데이터셋에서 평가되었으며, 단 4개의 시점에서도 강력한 재구성 결과를 달성하고 기존의 최신 방법들을 크게 능가하는 성능을 보여줍니다.
우리는 Universal Manipulation Interface(UMI)를 소개한다. UMI는 실제 환경에서의 인간 시연 데이터로부터 직접적으로 로봇 정책으로 전이할 수 있는 데이터 수집 및 정책 학습 프레임워크이다. UMI는 휴대 가능하고 저비용이며 정보가 풍부한 데이터 수집을 위해 손에 들고 사용할 수 있는 그리퍼와 신중하게 설계된 인터페이스를 활용하여, 도전적인 양손 및 동적 조작 시연을 가능하게 한다. 배포 가능한 정책 학습을 용이하게 하기 위해, UMI는 추론 시 지연 시간을 일치시키고 상대 궤적 액션 표현을 포함한 신중하게 설계된 정책 인터페이스를 통합한다. 이를 통해 학습된 정책은 하드웨어에 구애받지 않으며 여러 로봇 플랫폼에 걸쳐 배포 가능하다. 이러한 기능을 갖춘 UMI 프레임워크는 각 작업에 대한 훈련 데이터만 변경함으로써, 제로샷 일반화 가능한 동적, 양손, 정밀 및 장기적 행동을 포함한 새로운 로봇 조작 능력을 제공한다. 우리는 UMI의 다재다능성과 효능을 포괄적인 실제 실험을 통해 입증하며, UMI를 통해 학습된 정책이 다양한 인간 시연 데이터에 대해 훈련된 경우 새로운 환경과 물체에 대해 제로샷 일반화를 달성함을 보여준다. UMI의 하드웨어 및 소프트웨어 시스템은 https://umi-gripper.github.io에서 오픈소스로 제공된다.
대규모 언어 모델(LLM)이 배포되는 다양한 상황에서는 모델의 기본 동작을 수정하거나 사용자 정의하여 세부적인 요구사항과 선호도를 반영할 수 있는 능력이 필요합니다. 이러한 모델 조정을 지정하기 위한 편리한 인터페이스는 "상사에게 이메일을 작성할 때 이모티콘을 사용하지 마세요"와 같은 고차원적인 언어적 피드백입니다. 그러나 고차원적인 피드백을 작성하는 것이 인간 피드백 강화 학습(RLHF)을 위한 주석을 수집하는 것보다 훨씬 간단하지만, 단순히 모델에 이러한 피드백을 프롬프트로 제공하면 피드백이 관련 없는 상황까지 과도하게 일반화되는 문제가 발생합니다. 우리는 이러한 과도한 일반화 없이 언어적 피드백을 통합하는 문제를 연구하며, 이를 통해 Contextualized Critiques with Constrained Preference Optimization(C3PO)이라는 새로운 방법을 제안합니다. C3PO는 고차원적인 피드백을 사용하여 피드백이 어떻게 적용되어야 하고 적용되지 않아야 하는지를 명시하는 소규모의 합성 선호도 데이터셋을 생성합니다. 그런 다음 합성 선호도 데이터에 따라 모델을 미세 조정하면서 피드백이 적용되지 않는 프롬프트에 대해서는 원래 모델과의 차이를 최소화합니다. 실험 결과는 우리의 접근 방식이 관련 시나리오에 언어적 피드백을 효과적으로 적용하면서 다른 상황에서는 기존의 동작을 보존함을 보여줍니다. 인간과 GPT-4가 생성한 고차원적인 피드백 모두에 대해 C3PO는 컨텍스트 내 베이스라인과 비슷한 수준으로 주어진 피드백을 준수하면서 과도한 일반화를 30% 줄였습니다.