번역이 포함된 일일 선별된 AI 연구 논문
세상에서 인간과 상호작용하기 위해, 에이전트는 사람들이 사용하는 다양한 유형의 언어를 이해하고 이를 시각적 세계와 연결하며 이를 바탕으로 행동할 수 있어야 합니다. 현재의 에이전트들은 작업 보상으로부터 간단한 언어 명령을 실행하는 방법을 배우지만, 우리는 일반 지식을 전달하고, 세계의 상태를 설명하며, 상호작용 피드백을 제공하는 등 다양한 언어를 활용할 수 있는 에이전트를 구축하는 것을 목표로 합니다. 우리의 핵심 아이디어는 언어가 에이전트가 미래를 예측하는 데 도움을 준다는 것입니다: 무엇이 관찰될지, 세계가 어떻게 행동할지, 어떤 상황이 보상을 받을지 등. 이러한 관점은 언어 이해와 미래 예측을 강력한 자기 지도 학습 목표로 통합합니다. 우리는 다이내랭(Dynalang)을 제시합니다. 다이내랭은 미래의 텍스트와 이미지 표현을 예측하고, 상상된 모델 롤아웃에서 행동을 학습하는 다중 모달 세계 모델을 학습하는 에이전트입니다. 전통적인 에이전트들이 언어를 단순히 행동 예측에만 사용하는 것과 달리, 다이내랭은 과거의 언어를 사용하여 미래의 언어, 비디오, 보상을 예측함으로써 풍부한 언어 이해를 획득합니다. 환경 내에서의 온라인 상호작용으로부터 학습하는 것 외에도, 다이내랭은 행동이나 보상 없이 텍스트, 비디오 또는 둘 모두의 데이터셋에서 사전 학습될 수 있습니다. 그리드 세계에서의 언어 힌트 사용부터 실제 사진처럼 스캔된 가정 환경을 탐색하는 데 이르기까지, 다이내랭은 환경 설명, 게임 규칙, 지침 등 다양한 유형의 언어를 활용하여 작업 성능을 향상시킵니다.
우리는 3B에서 9B 파라미터 규모의 자동회귀적 시각-언어 모델군인 OpenFlamingo를 소개합니다. OpenFlamingo는 DeepMind의 Flamingo 모델을 오픈소스로 재현하기 위한 지속적인 노력의 결과물입니다. 7개의 시각-언어 데이터셋에서 OpenFlamingo 모델들은 해당 Flamingo 모델 성능의 평균 80~89% 수준을 보여줍니다. 본 기술 보고서에서는 우리의 모델, 학습 데이터, 하이퍼파라미터, 그리고 평가 도구에 대해 설명합니다. 모델과 코드는 https://github.com/mlfoundations/open_flamingo에서 공유하고 있습니다.
수학적 추론은 대형 언어 모델(LLM)에게 어려운 과제이며, LLM의 능력에 따른 스케일링 관계는 아직 충분히 탐구되지 않았다. 본 논문에서는 사전 학습 손실, 지도 학습 데이터 양, 증강 데이터 양이 지도 학습된 LLM의 추론 성능에 미치는 영향을 조사한다. 우리는 모델의 파라미터 수보다 사전 학습 손실이 모델 성능을 더 잘 나타내는 지표임을 발견했다. 다양한 양의 지도 학습 데이터를 사용하여 지도 미세 조정(SFT)을 적용한 결과, 데이터 양과 모델 성능 사이에 로그-선형 관계가 있음을 실증적으로 확인했으며, 더 좋은 모델은 지도 학습 데이터가 증가해도 성능 향상이 적다는 사실을 발견했다. 인간의 노력 없이 더 많은 데이터 샘플을 증강하여 모델 성능을 개선하기 위해, 우리는 거부 샘플링 미세 조정(Rejection sampling Fine-Tuning, RFT)을 제안한다. RFT는 지도 학습 모델을 사용하여 올바른 추론 경로를 생성하고 수집하여 증강 미세 조정 데이터셋으로 활용한다. 우리는 더 다양한 추론 경로를 포함하는 증강 샘플을 사용할 때 RFT가 LLM의 수학적 추론 성능을 더 크게 향상시킨다는 사실을 발견했다. 또한 RFT는 성능이 낮은 LLM에 더 큰 개선을 가져오는 것으로 나타났다. 더 나아가, 여러 모델의 거부 샘플을 결합하여 LLaMA-7B의 정확도를 49.3%로 끌어올렸으며, 이는 지도 미세 조정(SFT)의 정확도인 35.9%를 크게 능가하는 결과이다.
디퓨전 모델은 텍스트-이미지 및 텍스트-오디오 생성과 같은 크로스 모달 생성 작업에서 유망한 결과를 보여왔습니다. 그러나 음악이라는 특수한 형태의 오디오를 생성하는 것은 음악 데이터의 제한된 가용성과 저작권 및 표절과 관련된 민감한 문제로 인해 독특한 도전 과제를 제시합니다. 본 논문에서는 이러한 도전 과제를 해결하기 위해, 먼저 Stable Diffusion과 AudioLDM 아키텍처를 음악 도메인에 적용한 최첨단 텍스트-음악 모델인 MusicLDM을 구축합니다. 이를 위해 MusicLDM의 구성 요소인 대조적 언어-오디오 사전 학습 모델(CLAP)과 Hifi-GAN 보코더를 음악 데이터 샘플 컬렉션에서 재학습시킵니다. 그런 다음, 학습 데이터의 한계를 해결하고 표절을 방지하기 위해 비트 추적 모델을 활용하고 두 가지 다른 데이터 증강을 위한 믹스업 전략을 제안합니다: 비트 동기 오디오 믹스업과 비트 동기 잠재 공간 믹스업으로, 각각 학습 오디오를 직접 재조합하거나 잠재 임베딩 공간을 통해 재조합합니다. 이러한 믹스업 전략은 모델이 음악 학습 샘플 간을 보간하고 학습 데이터의 볼록 껍질 내에서 새로운 음악을 생성하도록 장려하여, 생성된 음악이 더 다양하면서도 해당 스타일에 충실하도록 만듭니다. 또한 널리 사용되는 평가 지표 외에도, CLAP 점수를 기반으로 한 여러 새로운 평가 지표를 설계하여, 제안된 MusicLDM과 비트 동기 믹스업 전략이 생성된 음악의 품질과 독창성, 그리고 입력 텍스트와 생성된 음악 간의 일관성을 모두 개선함을 입증합니다.
언어 모델은 한 가지 양식에서 학습한 표현을 다른 양식의 하위 작업으로 일반화하는 놀라운 능력을 보여줍니다. 이러한 능력을 개별 뉴런으로 추적할 수 있을까요? 우리는 고정된 텍스트 트랜스포머가 자기 지도 학습된 시각 인코더와 이미지-텍스트 작업에서 학습된 단일 선형 투영을 통해 시각 정보를 보강한 경우를 연구합니다. 투영 계층의 출력은 이미지 내용을 설명하는 언어로 즉시 디코딩되지 않으며, 대신 양식 간 변환이 트랜스포머 내부 깊은 곳에서 발생함을 발견했습니다. 우리는 시각적 표현을 해당 텍스트로 변환하는 "다중 양식 뉴런"을 식별하고, 이들이 모델의 잔차 스트림에 주입하는 개념을 디코딩하는 절차를 소개합니다. 일련의 실험을 통해, 다중 양식 뉴런이 입력에 걸쳐 특정 시각적 개념에 대해 작동하며, 이미지 캡션 생성에 체계적인 인과적 영향을 미친다는 것을 보여줍니다.
우리는 열린 세계(open world)에서 모든 것을 인식하고 이해하기 위한 대규모 데이터와 모델인 All-Seeing(AS) 프로젝트를 소개합니다. 인간 피드백과 효율적인 모델을 통합한 확장 가능한 데이터 엔진을 사용하여, 우리는 10억 개 이상의 영역에 의미론적 태그(semantic tags), 질문-응답 쌍(question-answering pairs), 그리고 상세한 캡션(detailed captions)이 주석 처리된 새로운 데이터셋(AS-1B)을 생성했습니다. 이 데이터셋은 현실 세계의 350만 개의 일반적이고 희귀한 개념을 광범위하게 다루며, 이러한 개념과 그 속성을 설명하는 1,322억 개의 토큰을 포함합니다. 이 새로운 데이터셋을 활용하여, 우리는 범용 시각 인식 및 이해를 위한 통합 프레임워크인 All-Seeing 모델(ASM)을 개발했습니다. 이 모델은 개방형 언어 프롬프트(open-ended language prompts)와 위치 정보를 사용하여 훈련되었으며, 이를 통해 영역-텍스트 검색(region-text retrieval), 영역 인식(region recognition), 캡셔닝(captioning), 질문-응답(question-answering) 등 다양한 시각 및 언어 작업에서 뛰어난 제로샷(zero-shot) 성능을 발휘할 수 있습니다. 우리는 이 프로젝트가 시각-언어 인공 일반 지능(vision-language artificial general intelligence) 연구의 기반이 되기를 바랍니다. 모델과 데이터셋은 https://github.com/OpenGVLab/All-Seeing에서 공개될 예정이며, 데모는 https://huggingface.co/spaces/OpenGVLab/all-seeing에서 확인할 수 있습니다.
카테고리 수준의 물체 포즈 추정 및 어포던스 예측을 위한 HANDAL 데이터셋을 소개한다. 기존 데이터셋과 달리, 본 데이터셋은 로봇 매니퓰레이터가 기능적으로 파지하기에 적합한 크기와 형태를 가진 로봇 조작 가능 물체, 예를 들어 플라이어, 식기류, 드라이버 등에 초점을 맞추고 있다. 우리의 주석 프로세스는 단일 상용 카메라와 반자동화된 처리만으로도 고품질 3D 주석을 생성할 수 있도록 간소화되어 있어 크라우드소싱이 필요하지 않다. 이 데이터셋은 17개 카테고리의 212개 실제 물체에 대한 2.2k개의 비디오에서 추출한 308k개의 주석이 달린 이미지 프레임으로 구성된다. 우리는 하드웨어 및 주방 도구 물체에 초점을 맞춰 로봇 매니퓰레이터가 단순한 밀기나 무분별한 파지 이상으로 환경과 상호작용해야 하는 실제 시나리오 연구를 촉진한다. 6-DoF 카테고리 수준 포즈+스케일 추정 및 관련 작업에 대한 본 데이터셋의 유용성을 설명한다. 또한 모든 물체의 3D 재구성 메쉬를 제공하고, 이러한 데이터셋 수집의 대중화를 위해 해결해야 할 몇 가지 병목 현상을 제시한다.
본 논문은 "단순한" 특성을 유지한 개선된 DETR 탐지기를 제안한다: 단일 스케일 특징 맵과 특정 지역성 제약 없이 전역 교차 주의 계산을 사용하며, 이는 다중 스케일 및 지역성이라는 아키텍처적 귀납 편향을 디코더에 재도입한 기존의 선도적인 DETR 기반 탐지기와 대조된다. 우리는 다중 스케일 특징 맵과 지역성 제약의 부재를 보완하기 위해 단순한 설계 내에서 두 가지 간단한 기술이 놀랍도록 효과적임을 보여준다. 첫 번째는 교차 주의 공식에 추가된 박스-픽셀 상대 위치 편향(BoxRPB) 항으로, 각 쿼리가 해당 객체 영역에 주의를 기울이도록 잘 안내하면서도 인코딩 유연성을 제공한다. 두 번째는 마스크된 이미지 모델링(MIM) 기반 백본 사전 학습으로, 미세한 위치 파악 능력을 갖춘 표현 학습을 돕고 다중 스케일 특징 맵에 대한 의존성을 해결하는 데 결정적으로 중요함이 입증되었다. 이러한 기술과 최근의 훈련 및 문제 구성의 발전을 통합함으로써, 개선된 "단순한" DETR은 원본 DETR 탐지기 대비 뛰어난 성능 향상을 보였다. Object365 데이터셋을 활용한 사전 학습을 통해 Swin-L 백본을 사용하여 63.9 mAP 정확도를 달성했으며, 이는 다중 스케일 특징 맵과 영역 기반 특징 추출에 크게 의존하는 최첨단 탐지기들과도 매우 경쟁력 있는 수준이다. 코드는 https://github.com/impiga/Plain-DETR에서 확인할 수 있다.
상상적 놀이는 로봇이 주변 세계를 훨씬 더 의인화된 방식으로 상호작용할 수 있게 해주는 창의성의 한 영역이다. 상상적 놀이는 실제 물체와 장소를 가상의 시나리오에서 상상의 물체와 장소로 사용하는 것으로 볼 수 있다. 우리는 인간이 작성한 프롬프트를 통해 상상적 놀이에 사용될 이야기를 얻기 위해 대형 언어 모델(LLMs)의 스토리 생성 능력을 채택했다. 생성된 이야기는 단순화되고, 상상적 놀이에서 에이전트를 안내할 수 있는 행동 시퀀스로 매핑될 것이다. 에이전트가 상상적 놀이를 성공적으로 마칠 수 있는지 평가하기 위해, 우리는 에이전트가 상호작용할 놀이터로 집을 시뮬레이션하는 텍스트 어드벤처 게임도 설계했다.
장노출 사진은 움직이는 요소를 모션 블러로 표현하여 놀라운 이미지를 만들어냅니다. 일반적으로 이 기법은 전경 블러 효과와 배경 블러 효과라는 두 가지 방식으로 사용됩니다. 전경 블러 이미지는 전통적으로 삼각대에 고정된 카메라로 촬영되며, 매끄러운 물결이나 빛의 흔적과 같은 움직이는 전경 요소를 완벽하게 선명한 배경 풍경 위에 표현합니다. 배경 블러 이미지는 팬 포토그래피라고도 불리며, 카메라가 움직이는 피사체를 추적하면서 촬영하여 상대적인 움직임으로 흐려진 배경 위에 선명한 피사체를 담아냅니다. 두 기법 모두 매우 까다로우며 추가 장비와 고급 기술이 필요합니다. 본 논문에서는 스마트폰 카메라 앱에서 작동하는 계산적 버스트 포토그래피 시스템을 소개하며, 이 시스템은 셔터 버튼을 한 번 누르는 것만으로 이러한 효과를 완전히 자동으로 구현합니다. 우리의 접근 방식은 먼저 주요 피사체를 감지하고 분할합니다. 여러 프레임에 걸쳐 장면의 움직임을 추적하고 이미지를 정렬하여 원하는 선명도를 유지하고 미적으로 만족스러운 모션 스트릭을 생성합니다. 저노출 버스트를 촬영하고, 장면이나 카메라의 움직임 속도에 관계없이 제어된 길이의 블러 흔적을 생성할 수 있는 입력 프레임의 하위 집합을 선택합니다. 프레임 간의 움직임을 예측하고 입력 프레임 사이의 시간적 간극을 메우기 위해 모션 블러를 합성합니다. 마지막으로, 흐려진 이미지를 선명한 일반 노출과 합성하여 거의 움직이지 않는 얼굴이나 장면의 영역의 선명도를 보호하고, 최종적으로 고해상도 및 고다이내믹 레인지(HDR) 사진을 생성합니다. 우리의 시스템은 이전에는 전문가들만이 사용할 수 있었던 기능을 대중화하여, 대부분의 일반 사진작가들이 이 창의적인 스타일을 쉽게 접할 수 있게 합니다. 더 많은 정보와 보충 자료는 프로젝트 웹페이지에서 확인할 수 있습니다: https://motion-mode.github.io/
동적 색상 메쉬(Dynamic Colored Mesh, DCM)는 다양한 응용 분야에서 널리 사용되고 있지만, 이러한 메쉬는 압축이나 전송과 같은 다양한 과정을 거치면서 왜곡되거나 품질이 저하될 수 있습니다. DCM에 대한 객관적인 평가 지표 개발을 촉진하고 전형적인 왜곡이 인간의 인식에 미치는 영향을 연구하기 위해, 우리는 8개의 참조 DCM 객체와 6가지 전형적인 왜곡을 포함한 Tencent 동적 색상 메쉬 데이터베이스(TDMD)를 구축했습니다. DCM에서 파생된 처리된 비디오 시퀀스(Processed Video Sequences, PVS)를 사용하여 대규모 주관적 실험을 수행했으며, 이를 통해 303개의 왜곡된 DCM 샘플과 평균 의견 점수(Mean Opinion Scores)를 얻었습니다. 이로써 TDMD는 우리가 아는 한 가장 큰 DCM 데이터베이스가 되었습니다. 이 데이터베이스를 통해 다양한 유형의 왜곡이 인간의 인식에 미치는 영향을 연구하고, DCM 압축 및 관련 작업에 대한 권장 사항을 제시할 수 있었습니다. 또한, 우리는 TDMD에서 이미지 기반, 포인트 기반, 비디오 기반의 세 가지 최신 객관적 평가 지표를 평가했습니다. 실험 결과는 각 지표의 강점과 약점을 명확히 보여주며, 실제 DCM 응용에서 지표 선택에 대한 제안을 제공합니다. TDMD는 다음 위치에서 공개될 예정입니다: https://multimedia.tencent.com/resources/tdmd.