번역이 포함된 일일 선별된 AI 연구 논문
트랜스포머(Transformers)는 최근 시각 표현 학습을 위한 강력한 도구로 부상했습니다. 본 논문에서는 지도 학습 및 자기 지도 학습 ViT 네트워크의 특징 맵에서 나타나는 아티팩트를 식별하고 그 특성을 분석합니다. 이러한 아티팩트는 주로 이미지의 정보가 적은 배경 영역에서 추론 과정 중에 나타나는 높은 노름(norm) 값을 가진 토큰에 해당하며, 이는 내부 계산을 위해 재사용됩니다. 우리는 이러한 역할을 대체하기 위해 Vision Transformer의 입력 시퀀스에 추가 토큰을 제공하는 간단하면서도 효과적인 해결책을 제안합니다. 이 해결책은 지도 학습 및 자기 지도 학습 모델 모두에서 해당 문제를 완전히 해결하며, 밀집 시각 예측 작업에서 자기 지도 학습 시각 모델의 최신 기술 수준을 달성하고, 더 큰 모델을 사용한 객체 발견 방법을 가능하게 하며, 무엇보다도 다운스트림 시각 처리를 위한 더 부드러운 특징 맵과 어텐션 맵을 제공합니다.
우리는 다양한 입력 모달리티 신호(즉, 텍스트, 이미지, 비디오, 오디오, IMU 모션 센서)를 처리하고 텍스트 응답을 생성하는 통합 모델인 Any-Modality Augmented Language Model(AnyMAL)을 제안합니다. AnyMAL은 LLaMA-2(70B)를 포함한 최신 대형 언어 모델(LLM)의 강력한 텍스트 기반 추론 능력을 계승하며, 사전 훈련된 정렬 모듈을 통해 모달리티별 신호를 공통 텍스트 공간으로 변환합니다. 다중모달 LLM의 능력을 더욱 강화하기 위해, 단순한 질의응답을 넘어 다양한 주제와 작업을 다루는 수동으로 수집된 다중모달 명령어 세트로 모델을 미세 조정합니다. 인간 평가와 자동 평가를 포함한 포괄적인 실증적 분석을 수행하며, 다양한 다중모달 작업에서 최첨단 성능을 입증합니다.
최근 3D 콘텐츠 생성 분야의 발전은 주로 점수 증류 샘플링(SDS)을 통한 최적화 기반 3D 생성에 의존해 왔습니다. 이러한 방법들이 유망한 결과를 보여주고 있지만, 샘플당 최적화 속도가 느려 실제 사용에 제약이 따르는 경우가 많습니다. 본 논문에서는 효율성과 품질을 동시에 달성하는 새로운 3D 콘텐츠 생성 프레임워크인 DreamGaussian을 제안합니다. 우리의 핵심 통찰은 생성적 3D 가우시안 스플래팅 모델을 설계하고, 이를 UV 공간에서 메시 추출 및 텍스처 정제와 결합하는 것입니다. 신경 방사 필드(NeRF)에서 사용되는 점유율 가지치기와 달리, 3D 가우시안의 점진적 밀도화가 3D 생성 작업에서 훨씬 빠르게 수렴함을 입증했습니다. 텍스처 품질을 더욱 향상시키고 다운스트림 애플리케이션을 용이하게 하기 위해, 우리는 3D 가우시안을 텍스처 메시로 변환하는 효율적인 알고리즘을 도입하고 세부 사항을 정제하는 미세 조정 단계를 적용했습니다. 광범위한 실험을 통해 제안된 접근 방식의 뛰어난 효율성과 경쟁력 있는 생성 품질을 입증했습니다. 특히, DreamGaussian은 단일 뷰 이미지에서 고품질의 텍스처 메시를 단 2분 만에 생성하며, 기존 방법 대비 약 10배의 가속을 달성했습니다.
대형 언어 모델(LLMs)은 인공지능 분야에 혁신을 가져왔으며, 이전에는 인간에게만 가능하다고 여겨졌던 자연어 처리 작업을 가능하게 했습니다. 본 연구에서는 우리의 대형 언어 모델 시리즈의 첫 번째 작품인 Qwen을 소개합니다. Qwen은 다양한 파라미터 수를 가진 독자적인 모델들을 포함하는 포괄적인 언어 모델 시리즈입니다. 이 시리즈에는 기본 사전 학습 언어 모델인 Qwen과 인간 정렬 기술로 미세 조정된 채팅 모델인 Qwen-Chat이 포함됩니다. 기본 언어 모델은 다양한 다운스트림 작업에서 일관되게 우수한 성능을 보여주며, 특히 인간 피드백을 통한 강화 학습(RLHF)을 사용해 훈련된 채팅 모델은 매우 경쟁력이 있습니다. 이 채팅 모델은 에이전트 애플리케이션을 생성하기 위한 고급 도구 사용 및 계획 능력을 갖추고 있으며, 코드 인터프리터 활용과 같은 복잡한 작업에서 더 큰 모델과 비교해도 인상적인 성능을 보여줍니다. 또한, 기본 언어 모델을 기반으로 코딩 특화 모델인 Code-Qwen과 Code-Qwen-Chat, 그리고 수학에 초점을 맞춘 Math-Qwen-Chat을 개발했습니다. 이러한 모델들은 오픈소스 모델과 비교해 크게 향상된 성능을 보여주며, 독점 모델에 약간 뒤처지는 수준입니다.
본 논문에서는 가우시안 스플래팅(Gaussian Splatting) 기반의 텍스트-3D 생성(GSGEN)이라는 새로운 접근 방식을 소개하며, 이를 통해 고품질의 3D 객체를 생성할 수 있다. 기존 방법들은 3D 사전 정보와 적절한 표현의 부재로 인해 부정확한 기하학적 구조와 제한된 충실도 문제를 겪어왔다. 우리는 최신 최첨단 표현 기법인 3D 가우시안 스플래팅을 활용하여 이러한 기존의 한계를 극복하고, 3D 사전 정보를 통합할 수 있는 명시적 특성을 활용한다. 구체적으로, 우리의 방법은 점진적 최적화 전략을 채택하며, 이는 기하학적 최적화 단계와 외관 정제 단계로 구성된다. 기하학적 최적화 단계에서는 일반적인 2D SDS 손실과 함께 3D 기하학적 사전 정보를 기반으로 한 대략적인 표현을 구축하여 합리적이고 3D 일관성을 갖춘 거친 형태를 확보한다. 이후, 획득한 가우시안들은 반복적인 정제 과정을 거쳐 세부 사항을 풍부하게 한다. 이 단계에서는 연속성을 강화하고 충실도를 개선하기 위해 밀도 기반의 조밀화를 통해 가우시안의 수를 증가시킨다. 이러한 설계를 통해 우리의 접근 방식은 섬세한 세부 사항과 더 정확한 기하학적 구조를 갖춘 3D 콘텐츠를 생성할 수 있다. 광범위한 평가를 통해 우리의 방법이 특히 고주파수 요소를 포착하는 데 효과적임을 입증하였다. 비디오 결과는 https://gsgen3d.github.io에서 확인할 수 있으며, 코드는 https://github.com/gsgen3d/gsgen에서 이용 가능하다.
최대 32,768 토큰의 효과적인 컨텍스트 윈도우를 지원하는 일련의 장문 컨텍스트 LLM(Large Language Model) 시리즈를 제시합니다. 우리의 모델 시리즈는 Llama 2를 기반으로 더 긴 학습 시퀀스와 장문 텍스트가 업샘플링된 데이터셋을 통해 지속적인 사전 학습을 거쳐 구축되었습니다. 언어 모델링, 합성 컨텍스트 탐색 작업, 그리고 다양한 연구 벤치마크에 대한 광범위한 평가를 수행했습니다. 연구 벤치마크에서 우리의 모델은 Llama 2 대비 대부분의 일반 작업에서 일관된 개선을 보였으며, 특히 장문 컨텍스트 작업에서는 상당한 성능 향상을 달성했습니다. 주목할 만한 점은, 인간이 주석을 단 장문 명령어 데이터가 필요 없는 비용 효율적인 명령어 튜닝 절차를 통해 70B 변형 모델이 이미 gpt-3.5-turbo-16k의 전반적인 성능을 장문 컨텍스트 작업에서 능가할 수 있다는 것입니다. 이러한 결과와 함께, 우리는 방법론의 개별 구성 요소에 대한 심층 분석을 제공합니다. Llama의 위치 인코딩을 탐구하고 장기 의존성을 모델링하는 데 있어서의 한계를 논의합니다. 또한, 데이터 혼합 및 시퀀스 길이의 학습 커리큘럼을 포함한 사전 학습 과정에서의 다양한 설계 선택의 영향을 검토합니다. 우리의 제거 실험은 사전 학습 데이터셋에 풍부한 장문 텍스트가 강력한 성능을 달성하는 데 핵심이 아니라는 것을 시사하며, 장문 컨텍스트 지속적 사전 학습이 장문 시퀀스로 처음부터 사전 학습하는 것보다 더 효율적이고 유사하게 효과적임을 실증적으로 검증했습니다.
우리는 애니메이션 산업에서 중요하지만 충분히 연구되지 않은 문제, 즉 카툰 라인 드로잉의 인비트위닝(inbetweening)을 해결하고자 합니다. 인비트위닝은 두 개의 흑백 라인 드로잉 사이의 중간 프레임을 생성하는 과정으로, 시간이 많이 소요되고 비용이 많이 드는 작업이기 때문에 자동화를 통해 이점을 얻을 수 있습니다. 그러나 기존의 전체 래스터 이미지를 매칭하고 왜곡하는 방식의 프레임 보간 방법은 라인 인비트위닝에 적합하지 않으며, 종종 복잡한 라인 구조를 손상시키는 흐림 현상을 발생시킵니다. 라인 드로잉의 정밀함과 세부 사항을 보존하기 위해, 우리는 새로운 접근 방식인 AnimeInbet를 제안합니다. 이 방법은 래스터 라인 드로잉을 엔드포인트 그래프로 기하학화하고, 인비트위닝 작업을 정점 재배치를 포함한 그래프 융합 문제로 재구성합니다. 우리의 방법은 라인 드로잉의 희소성과 독특한 구조를 효과적으로 포착하면서도 인비트위닝 과정에서 세부 사항을 보존할 수 있습니다. 이는 우리의 새로운 모듈들, 즉 정점 기하학적 임베딩, 정점 대응 트랜스포머, 효과적인 정점 재배치 메커니즘, 그리고 가시성 예측기를 통해 가능해졌습니다. 우리의 방법을 학습시키기 위해, 우리는 MixamoLine240이라는 새로운 라인 드로잉 데이터셋을 소개합니다. 이 데이터셋은 정확한 벡터화와 매칭 레이블을 포함하고 있습니다. 우리의 실험 결과, AnimeInbet는 고품질의 깔끔하고 완전한 중간 라인 드로잉을 합성하며, 특히 큰 움직임이 있는 경우에 기존 방법들을 정량적 및 정성적으로 능가하는 성능을 보여줍니다. 데이터와 코드는 https://github.com/lisiyao21/AnimeInbet에서 확인할 수 있습니다.
대조적 언어-이미지 사전학습(Contrastive Language-Image Pre-training, CLIP)은 컴퓨터 비전 분야의 연구와 응용을 발전시켜 현대의 인식 시스템과 생성 모델에 기여한 접근법입니다. 우리는 CLIP의 성공 요인이 모델 아키텍처나 사전학습 목표가 아니라 데이터에 있다고 믿습니다. 그러나 CLIP은 데이터와 수집 방식에 대해 매우 제한된 정보만을 제공하며, 이로 인해 CLIP의 모델 파라미터를 활용해 데이터를 재현하려는 연구들이 등장했습니다. 본 연구에서는 CLIP의 데이터 큐레이션 방식을 밝히고 이를 커뮤니티에 공개하기 위해 메타데이터 기반 언어-이미지 사전학습(Metadata-Curated Language-Image Pre-training, MetaCLIP)을 소개합니다. MetaCLIP은 원시 데이터 풀과 CLIP의 개념에서 도출된 메타데이터를 사용하여 메타데이터 분포에 따른 균형 잡힌 부분집합을 생성합니다. 우리의 실험 연구는 모델과 학습 설정을 엄격히 분리하여 데이터에만 집중합니다. 4억 개의 이미지-텍스트 데이터 쌍으로 구성된 CommonCrawl에 MetaCLIP을 적용한 결과, 여러 표준 벤치마크에서 CLIP의 데이터를 능가했습니다. 제로샷 ImageNet 분류에서 MetaCLIP은 ViT-B 모델 기준 70.8%의 정확도를 달성하며, CLIP의 68.3%를 넘어섰습니다. 동일한 학습 예산을 유지하면서 데이터를 10억 개로 확장했을 때는 72.4%의 정확도를 달성했습니다. 이러한 관찰 결과는 다양한 모델 크기에 걸쳐 일관되게 나타났으며, ViT-H 모델에서는 별도의 추가 기법 없이 80.5%의 정확도를 기록했습니다. 큐레이션 코드와 메타데이터에 따른 학습 데이터 분포는 https://github.com/facebookresearch/MetaCLIP에서 확인할 수 있습니다.
CLIP과 같은 시각-언어 모델을 기반으로 구축된 분류기들은 다양한 이미지 분류 작업에서 놀라운 제로샷 성능을 보여왔습니다. 선행 연구들은 프롬프트 템플릿을 기반으로 각 클래스에 대한 설명자 세트를 자동으로 생성하는 다양한 방법을 탐구해왔는데, 이는 수작업으로 설계된 템플릿부터 대규모 언어 모델에서 얻은 템플릿, 그리고 무작위 단어와 문자로 구성된 템플릿에 이르기까지 다양합니다. 반면, 인코딩된 클래스 설명자로부터 제로샷 분류기를 도출하는 방법은 거의 변하지 않았는데, 즉: 인코딩된 이미지와 각 클래스의 평균 인코딩된 설명자 간의 코사인 유사도를 최대화하는 클래스로 분류하는 방식이었습니다. 그러나 모든 클래스 설명자에 동일한 가중치를 부여하는 것은 특정 설명자가 주어진 이미지의 시각적 단서와 더 잘 맞을 때 최적이 아닐 수 있습니다. 본 연구에서는 제로샷 분류기를 자동 튜닝하는 방법인 AutoCLIP을 제안합니다. AutoCLIP은 추론 시점에서 클래스 설명자-이미지 유사도 통계를 기반으로 각 프롬프트 템플릿에 대해 이미지별 가중치를 할당합니다. AutoCLIP은 완전히 비지도 학습 방식이며, 매우 낮은 오버헤드를 가지며, 몇 줄의 코드로 쉽게 구현할 수 있습니다. 우리는 다양한 시각-언어 모델, 데이터셋, 그리고 프롬프트 템플릿에 대해 AutoCLIP이 기준선을 일관되게 능가하며 최대 3% 포인트의 정확도 향상을 보임을 입증합니다.
도로 상의 행위자(agent)들의 미래 행동을 신뢰성 있게 예측하는 것은 자율주행 차량의 안전한 경로 계획을 위한 핵심 요소입니다. 본 연구에서는 연속적인 궤적을 이산적인 모션 토큰(motion token)의 시퀀스로 표현하고, 다중 행위자 모션 예측을 이 도메인에서의 언어 모델링(language modeling) 작업으로 재구성합니다. 우리가 제안한 모델인 MotionLM은 다음과 같은 장점을 제공합니다: 첫째, 다중 모드 분포(multimodal distribution)를 학습하기 위해 앵커(anchor)나 명시적인 잠재 변수 최적화가 필요하지 않습니다. 대신, 시퀀스 토큰에 대한 평균 로그 확률을 최대화하는 단일 표준 언어 모델링 목표를 활용합니다. 둘째, 기존의 접근법과 달리 개별 행위자의 궤적을 먼저 생성한 후 상호작용 점수를 계산하는 사후 처리 휴리스틱(post-hoc interaction heuristic)을 우회합니다. MotionLM은 단일 자기회귀 디코딩(autoregressive decoding) 과정에서 상호작용하는 행위자들의 미래에 대한 결합 분포(joint distribution)를 직접 생성합니다. 또한, 모델의 순차적 인수분해(sequential factorization)는 시간적으로 인과적인 조건부 롤아웃(conditional rollout)을 가능하게 합니다. 제안된 접근법은 Waymo Open Motion Dataset에서 다중 행위자 모션 예측 분야의 최신 기술 수준(state-of-the-art)을 달성하며, 상호작용 챌린지 리더보드에서 1위를 기록했습니다.
최근 생성형 이미지 기술의 발전으로 알려지지 않은 영역에 고품질의 그럴듯한 이미지 콘텐츠를 생성할 수 있는 아웃페인팅 및 인페인팅 모델이 등장했습니다. 그러나 이러한 모델들이 생성하는 콘텐츠는 본질적으로 진실성이 결여되어 있습니다. 이는 모델이 실제 장면에 대한 충분한 맥락을 가지고 있지 않기 때문입니다. 본 연구에서는 이미지의 누락된 영역을 원래 있어야 할 콘텐츠로 채우는 새로운 생성적 접근 방식인 RealFill을 제안합니다. RealFill은 단 몇 장의 참조 이미지만을 사용하여 개인화된 생성형 인페인팅 모델입니다. 이러한 참조 이미지는 대상 이미지와 정렬될 필요가 없으며, 시점, 조명 조건, 카메라 조리개 또는 이미지 스타일이 크게 달라도 상관없습니다. 개인화된 후, RealFill은 원본 장면에 충실하면서도 시각적으로 매력적인 콘텐츠로 대상 이미지를 완성할 수 있습니다. 우리는 RealFill을 다양한 도전적인 시나리오를 포함한 새로운 이미지 완성 벤치마크에서 평가했으며, 기존 접근 방식을 크게 능가하는 성능을 보임을 확인했습니다. 더 많은 결과는 프로젝트 페이지(https://realfill.github.io)에서 확인할 수 있습니다.
대규모 언어 모델(LLM)의 급속한 발전과 함께, 이들의 능력과 한계를 평가하기 위한 포괄적인 평가 도구의 필요성이 절실해졌습니다. 기존의 LLM 리더보드는 종종 다른 논문에서 보고된 점수를 일관되지 않은 설정과 프롬프트로 참조하며, 이는 더 나은 결과를 위해 선호하는 설정과 프롬프트를 선별적으로 사용하도록 부추길 수 있습니다. 본 연구에서는 OpenAI Evals를 기반으로 한 오픈소스이자 재현 가능한 LLM 평가 도구인 GPT-Fathom을 소개합니다. 우리는 7가지 능력 범주에 걸쳐 20개 이상의 선별된 벤치마크에서 10개 이상의 주요 LLM과 OpenAI의 레거시 모델을 일관된 설정 하에 체계적으로 평가했습니다. OpenAI의 초기 모델에 대한 우리의 회고적 연구는 GPT-3에서 GPT-4로의 진화 경로에 대한 귀중한 통찰을 제공합니다. 현재 커뮤니티는 GPT-3가 어떻게 점진적으로 GPT-4로 개선되었는지, 코드 데이터 추가가 LLM의 추론 능력을 향상시키는지 여부와 같은 기술적 세부 사항, SFT와 RLHF가 LLM의 어떤 능력을 향상시킬 수 있는지, 얼마나 많은 정렬 비용이 발생하는지 등에 대해 알고 싶어 합니다. 우리의 분석은 이러한 많은 질문에 빛을 비추며, 고급 LLM의 투명성을 향상시키는 것을 목표로 합니다.
우리는 다양한 의미론적 클래스에서 추출한 자연스러운 오디오 샘플에 기반하여 다양하고 사실적인 비디오를 생성하는 작업을 고려한다. 이 작업에서 생성된 비디오는 입력 오디오와 전역적 및 시간적으로 정렬되어야 한다: 전역적으로는 입력 오디오가 전체 출력 비디오와 의미론적으로 연관되어야 하며, 시간적으로는 입력 오디오의 각 세그먼트가 해당 비디오의 세그먼트와 연관되어야 한다. 우리는 기존의 텍스트 조건 비디오 생성 모델과 사전 훈련된 오디오 인코더 모델을 활용한다. 제안된 방법은 경량 어댑터 네트워크를 기반으로 하며, 이 네트워크는 오디오 기반 표현을 텍스트-비디오 생성 모델이 기대하는 입력 표현으로 매핑하는 방법을 학습한다. 이를 통해 텍스트, 오디오, 그리고 우리가 확인한 바에 따르면 처음으로 텍스트와 오디오 모두를 조건으로 하는 비디오 생성이 가능해진다. 우리는 세 가지 데이터셋에서 제안 방법을 광범위하게 검증하며, 오디오-비디오 샘플의 상당한 의미론적 다양성을 입증하고, 생성된 비디오와 입력 오디오 샘플 간의 정렬을 평가하기 위한 새로운 평가 지표(AV-Align)를 제안한다. AV-Align은 두 모달리티에서 에너지 피크의 탐지와 비교를 기반으로 한다. 최신 최첨단 접근법과 비교하여, 우리의 방법은 내용과 시간 축 모두에서 입력 사운드와 더 잘 정렬된 비디오를 생성한다. 또한, 우리의 방법으로 생성된 비디오가 더 높은 시각적 품질과 더 큰 다양성을 보여준다는 것을 입증한다.
로봇이 다양한 작업을 수행하기 위해서는 의미적으로 풍부하면서도 간결하고 작업 중심의 인지 및 계획에 효율적인 3D 세계 표현이 필요합니다. 최근 접근법들은 대형 시각-언어 모델의 특징을 활용하여 3D 표현에 의미를 부여하려고 시도해 왔습니다. 그러나 이러한 접근법들은 점 단위의 특징 벡터를 가진 지도를 생성하는 경향이 있어, 더 큰 환경에서는 확장성이 떨어지며, 환경 내 개체 간의 의미적 공간 관계를 포함하지 않아 하류 계획에 유용하지 않습니다. 본 연구에서는 3D 장면을 위한 개방형 어휘 그래프 구조 표현인 ConceptGraphs를 제안합니다. ConceptGraphs는 2D 기반 모델을 활용하고 다중 뷰 연관을 통해 그 출력을 3D로 융합하여 구축됩니다. 결과적으로 생성된 표현은 대규모 3D 데이터셋을 수집하거나 모델을 미세 조정할 필요 없이 새로운 의미적 클래스로 일반화됩니다. 우리는 이 표현의 유용성을 공간적 및 의미적 개념에 대한 복잡한 추론이 필요한 추상적(언어) 프롬프트를 통해 지정된 여러 하류 계획 작업을 통해 입증합니다. (프로젝트 페이지: https://concept-graphs.github.io/ 설명 비디오: https://youtu.be/mRhNkQwRYnc)
언어 모델, 특히 트랜스포머 기반 아키텍처의 성공은 다른 분야로 확장되어 소분자, 단백질 또는 고분자를 다루는 "과학적 언어 모델"의 등장을 촉진했습니다. 화학 분야에서 언어 모델은 초기 단계의 신약 발견에서의 유망한 최근 연구 결과들로 증명되듯, 분자 발견 사이클을 가속화하는 데 기여하고 있습니다. 본 논문에서는 분자 발견에서의 언어 모델의 역할을 검토하며, 이들이 신약 설계, 물성 예측 및 반응 화학에서 보이는 강점을 강조합니다. 또한, 과학적 언어 모델링 분야에의 진입 장벽을 낮추는 데 기여한 가치 있는 오픈소스 소프트웨어 자산들을 소개합니다. 마지막으로, 챗봇 인터페이스와 계산 화학 도구에의 접근을 결합한 미래의 분자 설계에 대한 비전을 제시합니다. 본 논문은 언어 모델이 어떻게 화학적 발견을 가속화하는 데 사용될 수 있고, 앞으로 사용될 것인지 이해하고자 하는 연구자, 화학자, 그리고 AI 애호가들에게 유용한 자료로 활용될 것입니다.
본 연구에서는 창의적이고 제어 가능한 비디오 편집의 도전 과제를 해결하기 위해 설계된 다목적 프레임워크인 CCEdit을 소개합니다. CCEdit은 다양한 사용자 편집 요구를 수용하며, 비디오 구조와 외관을 분리하는 혁신적인 접근 방식을 통해 향상된 창의적 제어를 가능하게 합니다. 우리는 구조적 무결성을 보존하기 위해 ControlNet 아키텍처를 활용하고, DreamBooth 및 LoRA와 같은 최신 텍스트-이미지 생성 개인화 기술과 호환되는 적응형 시간적 모듈을 원활하게 통합합니다. 또한, 참조 기반 비디오 편집을 도입하여 사용자가 키 프레임 편집이라는 더 관리하기 쉬운 프로세스를 통해 비디오 편집에 대한 정밀한 창의적 제어를 행사할 수 있도록 합니다. 광범위한 실험적 평가를 통해 제안된 CCEdit 프레임워크의 탁월한 기능성과 편집 능력을 확인하였습니다. 데모 비디오는 https://www.youtube.com/watch?v=UQw4jq-igN4에서 확인할 수 있습니다.