번역이 포함된 일일 선별된 AI 연구 논문
현대의 추천 시스템은 일반적으로 두 단계로 구성된 대규모 검색 모델을 활용합니다. 첫 번째 단계에서는 쿼리와 후보 항목을 동일한 공간에 임베딩하기 위해 듀얼 인코더 모델을 학습시키고, 두 번째 단계에서는 주어진 쿼리 임베딩에 대해 근사 최근접 이웃(Approximate Nearest Neighbor, ANN) 검색을 수행하여 상위 후보 항목을 선택합니다. 본 논문에서는 이러한 두 단계 방식을 대체할 새로운 단일 단계 패러다임을 제안합니다. 이는 생성적 검색 모델로, 한 단계에서 목표 후보 항목의 식별자를 자동 회귀적으로 디코딩합니다. 이를 위해 각 항목에 무작위로 생성된 원자적 ID를 할당하는 대신, 각 항목의 고유 식별자 역할을 하는 의미론적으로 의미 있는 코드워드 튜플인 Semantic ID를 생성합니다. 이러한 코드워드를 생성하기 위해 RQ-VAE라는 계층적 방법을 사용합니다. 모든 항목에 대한 Semantic ID를 생성한 후, Transformer 기반의 시퀀스-투-시퀀스 모델을 학습시켜 다음 항목의 Semantic ID를 예측합니다. 이 모델은 코드워드 튜플을 자동 회귀 방식으로 직접 예측하므로 생성적 검색 모델로 간주될 수 있습니다. 우리는 이러한 새로운 패러다임으로 학습된 추천 시스템이 Amazon 데이터셋에서 현재 최첨단(SOTA) 모델들이 달성한 결과를 개선함을 보여줍니다. 또한, 계층적 Semantic ID와 결합된 시퀀스-투-시퀀스 모델이 더 나은 일반화를 제공함으로써, 추천을 위한 콜드 스타트 항목의 검색 성능을 향상시킴을 입증합니다.
심층 신경망은 지도 학습 작업에서 뛰어난 성능을 보여왔지만, 대량의 레이블이 지정된 데이터를 필요로 합니다. 자기 지도 학습은 이러한 문제에 대한 대안적 패러다임을 제공하며, 모델이 명시적인 레이블 없이 데이터로부터 학습할 수 있게 합니다. 정보 이론은 심층 신경망을 이해하고 최적화하는 데 중요한 역할을 해왔습니다. 특히, 정보 병목 원리는 지도 학습 환경에서 압축과 관련 정보 보존 간의 균형을 최적화하는 데 적용되어 왔습니다. 그러나 자기 지도 학습에서의 최적 정보 목표는 여전히 명확하지 않습니다. 본 논문에서는 정보 이론적 관점에서 다양한 자기 지도 학습 접근법을 검토하고, 자기 지도 정보 이론적 학습 문제를 공식화하는 통합 프레임워크를 제시합니다. 우리는 기존 연구를 일관된 프레임워크로 통합하고, 최근의 자기 지도 학습 방법을 검토하며, 연구 기회와 과제를 식별합니다. 또한, 정보 이론적 양과 그 추정치의 경험적 측정에 대해 논의합니다. 이 논문은 정보 이론, 자기 지도 학습, 그리고 심층 신경망의 교차점에 대한 포괄적인 리뷰를 제공합니다.
최근 ChatGPT와 GPT-4와 같은 대규모 언어 모델은 인간의 입력에 대해 고품질의 응답을 생성할 수 있는 능력으로 인해 상당한 주목을 받고 있습니다. ChatGPT와 GPT-4가 일반 텍스트 코퍼스에서 인상적인 성능을 보여주는 광범위한 테스트가 이루어졌음에도 불구하고, 금융 코퍼스에 초점을 맞춘 연구는 아직 진행되지 않았습니다. 본 연구에서는 이러한 격차를 메우기 위해 ChatGPT와 GPT-4가 제로샷 또는 퓨샷 설정에서 전형적인 금융 텍스트 분석 문제를 해결하는 잠재력을 조사하고자 합니다. 구체적으로, 우리는 5개의 서로 다른 금융 텍스트 데이터셋에 대해 4가지 대표적인 작업에서 이들의 능력을 평가합니다. 예비 연구 결과, ChatGPT와 GPT-4는 도메인 특화 지식이 필요한 금융 개체명 인식(NER) 및 감정 분석과 같은 작업에서는 어려움을 겪는 반면, 수치 추론 작업에서는 뛰어난 성능을 보여줍니다. 우리는 현재 버전의 ChatGPT와 GPT-4의 강점과 한계를 보고하며, 이를 최신의 파인튜닝 모델 및 사전 학습된 도메인 특화 생성 모델과 비교합니다. 본 실험은 정성적 연구를 통해 기존 모델의 능력을 이해하고, 더 나은 개선을 촉진하는 데 도움이 되기를 바랍니다.
최근 여러 연구에서 객체 중심 아키텍처가 비전 도메인에서의 비지도 장면 분해에 적합함이 입증되었습니다. 이러한 방법들에서 영감을 받아, 우리는 오디오 도메인에서의 블라인드 소스 분리를 위한 슬롯 중심 생성 모델인 AudioSlots를 제안합니다. AudioSlots는 순열 등변(permutation-equivariant) 인코더 및 디코더 네트워크를 사용하여 구축되었습니다. Transformer 아키텍처를 기반으로 한 인코더 네트워크는 혼합된 오디오 스펙트로그램을 순서 없는 독립적인 소스 임베딩 집합으로 매핑하는 방법을 학습합니다. 공간 방송 디코더 네트워크는 소스 임베딩에서 소스 스펙트로그램을 생성하는 방법을 학습합니다. 우리는 순열 불변 손실 함수를 사용하여 이 모델을 종단 간(end-to-end) 방식으로 학습시켰습니다. Libri2Mix 음성 분리 실험 결과는 이 접근 방식이 유망함을 보여주는 개념 증명입니다. 우리는 이 접근 방식의 결과와 한계를 상세히 논의하고, 이러한 한계를 극복할 수 있는 잠재적인 방법과 향후 연구 방향을 제시합니다.
이미지 생성 분야에서 확산 모델(diffusion model)의 놀라운 성공에 이어, 최근 연구들은 조건 입력(conditioning input)을 기반으로 샘플링 과정을 적절히 제약함으로써 다양한 역문제(逆問題)를 비지도 방식으로 해결하는 인상적인 능력 또한 입증했습니다. 이러한 동기에 따라, 본 논문에서는 단일 이미지로부터 고정밀 3D 얼굴 BRDF(Bidirectional Reflectance Distribution Function) 복구를 위한 사전(prior)으로 확산 모델을 사용하는 첫 번째 접근법을 제시합니다. 먼저, 고품질의 얼굴 반사율(확산 및 정반사 알베도와 노멀) UV 데이터셋을 활용하여 다양한 조명 설정 하에서 렌더링하여 자연스러운 RGB 텍스처를 시뮬레이션하고, 이를 기반으로 렌더링된 텍스처와 반사율 요소를 연결한 쌍에 대해 무조건(unconditional) 확산 모델을 학습합니다. 테스트 시에는 주어진 이미지에 3D 형태 모델(3D morphable model)을 맞추고 부분 UV 텍스처로 얼굴을 펼칩니다. 확산 모델로부터 샘플링하면서 관측된 텍스처 부분을 그대로 유지함으로써, 모델은 단일 디노이징(denoising) 단계 시퀀스 내에서 자기 폐색(self-occluded) 영역뿐만 아니라 알려지지 않은 반사율 요소도 채웁니다. 기존 방법들과 달리, 우리는 입력 이미지로부터 관측된 텍스처를 직접 획득함으로써 더 정확하고 일관된 반사율 추정을 가능하게 합니다. 일련의 정성적 및 정량적 비교를 통해, 텍스처 완성과 반사율 복구 작업 모두에서 우수한 성능을 입증합니다.
비디오 콘텐츠의 확산은 새로운 비디오 콘텐츠를 생성하기 위해 효율적이고 유연한 신경망 기반 접근법을 요구하고 있다. 본 논문에서는 제로샷 텍스트-투-비디오 생성과 ControlNet을 결합하여 이러한 모델의 출력을 개선하는 새로운 접근법을 제안한다. 우리의 방법은 여러 스케치 프레임을 입력으로 받아 이 프레임들의 흐름과 일치하는 비디오 출력을 생성하며, Text-to-Video Zero 아키텍처를 기반으로 하여 ControlNet을 통한 추가 입력 조건을 가능하게 한다. 입력된 스케치들 사이의 프레임을 먼저 보간한 다음, 새로운 보간된 프레임 비디오를 제어 기법으로 사용하여 Text-to-Video Zero를 실행함으로써, 제로샷 텍스트-투-비디오 생성의 이점과 ControlNet이 제공하는 강력한 제어 기능을 모두 활용한다. 실험 결과, 우리의 방법은 사용자가 의도한 비디오 내 주제의 움직임을 더 정확하게 반영하는 고품질이고 매우 일관된 비디오 콘텐츠를 생성하는 데 탁월한 성능을 보인다. 우리는 제안된 방법의 추가 연구와 응용을 촉진하기 위해 데모 비디오, 프로젝트 웹사이트, 오픈소스 GitHub 저장소, 그리고 Colab 플레이그라운드를 포함한 포괄적인 리소스 패키지를 제공한다.
로봇이 물리적 지원을 효과적으로 개인화하려면, 미래 시나리오에 일반적으로 재적용 가능한 사용자 선호도를 학습해야 합니다. 본 연구에서는 물건을 집어서 정리하는 방식으로 방을 치우는 로봇을 활용한 가정 내 청소 개인화를 탐구합니다. 주요 과제는 각 물건을 놓을 적절한 장소를 결정하는 것인데, 이는 개인의 취향이나 문화적 배경에 따라 크게 달라질 수 있습니다. 예를 들어, 한 사람은 셔츠를 서랍에 보관하는 것을 선호할 수 있는 반면, 다른 사람은 선반에 두는 것을 선호할 수 있습니다. 우리는 특정 개인과의 사전 상호작용을 통해 단 몇 가지 예시만으로도 이러한 선호도를 학습할 수 있는 시스템을 구축하는 것을 목표로 합니다. 우리는 로봇이 언어 기반 계획 및 인지 능력을 대규모 언어 모델(LLM)의 소수 샷 요약 기능과 결합하여 미래 상호작용에 광범위하게 적용 가능한 일반화된 사용자 선호도를 추론할 수 있음을 보여줍니다. 이 접근 방식은 빠른 적응을 가능하게 하며, 벤치마크 데이터셋에서 보지 못한 물건에 대해 91.2%의 정확도를 달성합니다. 또한, 우리는 TidyBot이라는 실제 모바일 매니퓰레이터에서 이 접근 방식을 시연하여, 실제 테스트 시나리오에서 85.0%의 물건을 성공적으로 정리하는 것을 보여줍니다.
최근 대규모 사전 학습 언어 모델(LLM)은 몇 가지 예시만으로도 지시를 따르고 새로운 작업을 수행할 수 있는 능력을 보여주었다. 이러한 맥락 내 예시를 통해 LLM을 매개변수화할 수 있는 가능성은 파인튜닝보다 훨씬 낮은 비용으로 그 능력을 확장한다. 우리는 이러한 논리를 확장하여 LLM을 알고리즘이나 프로그램 내에 내장함으로써 그 능력을 더욱 확장하는 방법을 제시한다. 이 접근법의 이점을 입증하기 위해, 증거 기반 질문-응답의 예시를 제시한다. 우리는 알고리즘적 접근을 통해 파인튜닝 없이도 사고의 연쇄(chain of thought) 기준선 대비 6.4%의 개선을 달성했다. 또한, 이 관점에서 최근 연구를 강조하고 표준 접근법과 비교하여 장단점을 논의한다.
Neural Radiance Fields(NeRF)의 최적화 및 렌더링은 볼륨 렌더링에 필요한 방대한 샘플 수로 인해 계산 비용이 많이 듭니다. 최근 연구에서는 이러한 방법을 가속화하기 위해 대체 샘플링 접근법을 포함시켰지만, 이는 종종 연구의 주요 초점이 되지 않았습니다. 본 논문에서는 여러 샘플링 접근법을 조사하고 비교하며, 개선된 샘플링이 전달율 추정기라는 통합된 개념 하에서 다양한 NeRF 변형에 일반적으로 적용 가능함을 입증합니다. 향후 실험을 용이하게 하기 위해, 우리는 고급 샘플링 방법을 NeRF 관련 방법에 통합할 수 있는 유연한 API를 제공하는 Python 도구인 NerfAcc를 개발했습니다. 우리는 기존 코드베이스에 최소한의 수정만으로도 최근의 여러 NeRF 방법의 학습 시간을 1.5배에서 20배까지 단축할 수 있음을 보여줌으로써 그 유연성을 입증합니다. 또한, Instant-NGP와 같은 고도로 맞춤화된 NeRF도 NerfAcc를 사용하여 네이티브 PyTorch로 구현할 수 있습니다.
코드 실행은 프로그래밍 언어의 의미론에서 코드의 정확한 동작을 반영하는 근본적인 측면입니다. 그러나 대부분의 코드 인텔리전스를 위한 사전 학습된 모델들은 실행 흔적을 무시하고 소스 코드와 구문 구조에만 의존합니다. 본 논문에서는 사전 학습된 모델들이 코드 실행을 얼마나 잘 이해하고 수행할 수 있는지 조사합니다. 우리는 대규모이고 현실적인 파이썬 데이터셋과 코드 실행 과제를 생성하기 위해 변이 기반 데이터 증강 기술을 개발하였으며, 이는 Codex와 같은 기존 모델들에 도전적인 과제를 제시합니다. 그런 다음, 우리는 코드 실행 사전 학습과 커리큘럼 학습을 활용하여 의미론적 이해를 강화한 Transformer 모델인 CodeExecutor를 소개합니다. 우리는 CodeExecutor를 코드 실행에 대해 평가하고, 그 유망한 성능과 한계를 보여줍니다. 또한, 제로샷 코드-코드 검색 및 텍스트-코드 생성과 같은 코드 인텔리전스 작업에 대한 잠재적 이점을 입증합니다. 우리의 분석은 코드 실행을 위한 사전 학습된 모델들의 학습 및 일반화 능력에 대한 통찰을 제공합니다.
웹페이지는 언어 및 시각-언어 작업을 위한 풍부한 자원이 되어 왔습니다. 그러나 웹페이지의 일부만이 보존되어 왔습니다: 이미지-캡션 쌍, 긴 텍스트 기사, 또는 원시 HTML 등이 각각 따로 저장되어, 한곳에 모두 모아진 적은 없었습니다. 이로 인해 웹페이지 작업은 상대적으로 적은 관심을 받았고, 구조화된 이미지-텍스트 데이터는 충분히 활용되지 못했습니다. 다중 모드 웹페이지 이해를 연구하기 위해, 우리는 Wikipedia 웹페이지 2M(WikiWeb2M) 제품군을 소개합니다. 이는 페이지 내에서 사용 가능한 모든 이미지, 텍스트, 구조 데이터를 보존하는 최초의 데이터셋입니다. WikiWeb2M은 페이지 설명 생성, 섹션 요약, 문맥 기반 이미지 캡션 생성과 같은 작업에 사용될 수 있습니다.