번역이 포함된 일일 선별된 AI 연구 논문
우리는 주어진 텍스트 프롬프트로부터 기하학적으로 일관된 다중 뷰 이미지를 생성할 수 있는 MVDream이라는 다중 뷰 확산 모델을 제안한다. 대규모 웹 데이터셋으로 사전 학습된 이미지 확산 모델과 3D 자산에서 렌더링된 다중 뷰 데이터셋을 활용함으로써, 결과적으로 얻은 다중 뷰 확산 모델은 2D 확산의 일반화 능력과 3D 데이터의 일관성을 모두 달성할 수 있다. 이러한 모델은 Score Distillation Sampling을 통한 3D 생성에서 다중 뷰 사전 지식으로 적용될 수 있으며, 3D 일관성 문제를 해결함으로써 기존 2D 리프팅 방법의 안정성을 크게 향상시킨다. 마지막으로, 다중 뷰 확산 모델이 소수 샷 설정 하에서도 개인화된 3D 생성, 즉 DreamBooth3D 애플리케이션을 위해 미세 조정될 수 있음을 보여준다. 이 경우, 주체의 정체성을 학습한 후에도 일관성을 유지할 수 있다.
비전 작업을 위한 Transformer 유사 모델들은 최근 세그멘테이션 및 탐지와 같은 다양한 다운스트림 애플리케이션에서 효과적인 것으로 입증되었습니다. 이전 연구들은 DINO와 같은 자기 지도 학습 방법으로 훈련된 비전 트랜스포머(ViTs)에서 세그멘테이션 특성이 나타나지만, 지도 분류 작업으로 훈련된 모델에서는 그렇지 않음을 보여주었습니다. 본 연구에서는 세그멘테이션이 복잡한 자기 지도 학습 메커니즘의 결과로만 트랜스포머 기반 모델에서 나타나는지, 아니면 모델 아키텍처의 적절한 설계를 통해 더 넓은 조건 하에서도 동일한 특성이 나타날 수 있는지를 탐구합니다. 광범위한 실험 결과를 통해, 데이터 분포의 저차원 구조를 명시적으로 모델링하고 추구하는 화이트박스 트랜스포머 유사 아키텍처인 CRATE를 사용할 경우, 최소한의 지도 학습 레시피로도 전체 및 부분 수준에서 세그멘테이션 특성이 이미 나타남을 입증합니다. 계층별 세부 분석은 이러한 특성이 화이트박스 네트워크의 설계된 수학적 함수와 강력하게 일치함을 보여줍니다. 우리의 결과는 동시에 높은 성능과 수학적으로 완전히 해석 가능한 화이트박스 기반 모델을 설계하는 길을 제시합니다. 코드는 https://github.com/Ma-Lab-Berkeley/CRATE에서 확인할 수 있습니다.
텍스트-이미지 합성에 사용되는 생성 모델인 스테이블 디퓨전(Stable Diffusion)은 다양한 크기의 이미지를 생성할 때 해상도로 인한 구성 문제를 자주 마주칩니다. 이 문제는 주로 단일 스케일의 이미지와 해당 텍스트 설명 쌍으로 학습된 모델에서 비롯됩니다. 또한, 무제한 크기의 이미지에 대한 직접적인 학습은 엄청난 수의 텍스트-이미지 쌍과 상당한 계산 비용을 필요로 하기 때문에 실현 불가능합니다. 이러한 문제를 극복하기 위해, 우리는 Any-Size-Diffusion(ASD)이라는 두 단계의 파이프라인을 제안합니다. 이 파이프라인은 고메모리 GPU 자원의 필요성을 최소화하면서도 모든 크기의 잘 구성된 이미지를 효율적으로 생성하도록 설계되었습니다. 구체적으로, 첫 번째 단계인 Any Ratio Adaptability Diffusion(ARAD)은 제한된 비율 범위의 이미지 세트를 활용하여 텍스트 조건부 디퓨전 모델을 최적화함으로써 다양한 이미지 크기에 맞춰 구성을 조정하는 능력을 향상시킵니다. 원하는 크기의 이미지 생성을 지원하기 위해, 우리는 두 번째 단계에서 Fast Seamless Tiled Diffusion(FSTD)이라는 기술을 추가로 도입합니다. 이 방법은 ASD 출력을 빠르게 고해상도 크기로 확대할 수 있게 하며, 이음새 아티팩트나 메모리 과부하를 방지합니다. LAION-COCO 및 MM-CelebA-HQ 벤치마크에서의 실험 결과는 ASD가 임의의 크기로 잘 구조화된 이미지를 생성할 수 있으며, 기존의 타일 알고리즘에 비해 추론 시간을 2배 단축할 수 있음을 보여줍니다.
ChatGPT와 같은 사전 학습된 언어 모델은 코드 생성 능력을 크게 향상시켰습니다. 이러한 모델의 규모가 커짐에 따라, 더 복잡한 작업을 처리할 수 있는 출력이 점점 더 필요해지고 있습니다. 또한, 생물정보학 분야에서는 도메인 지식의 양, 복잡한 데이터 조작의 필요성, 그리고 작업 간의 복잡한 기능적 의존성으로 인해 기능적인 프로그램을 생성하는 데 추가적인 어려움이 있습니다. 여기서 우리는 생물정보학 코드 생성을 평가하기 위해 개발된 벤치마크인 BioCoder를 소개합니다. 함수-코드 생성과 관련하여, BioCoder는 잠재적인 패키지 의존성, 클래스 선언, 그리고 전역 변수를 다룹니다. 이는 GitHub에서 가져온 Python과 Java의 1026개 함수와 1243개 메소드, 그리고 Rosalind 프로젝트의 253개 예제를 포함합니다. BioCoder는 평가를 위한 퍼즈 테스팅 프레임워크를 통합하였으며, 이를 통해 InCoder, CodeGen, CodeGen2, SantaCoder, StarCoder, StarCoder+, InstructCodeT5+, 그리고 ChatGPT를 포함한 여러 모델을 평가했습니다. 이러한 모델에 대한 우리의 상세한 분석은 도메인 지식, 실용적인 코드 생성, 그리고 문맥 이해의 중요성을 강조합니다. 우리의 데이터셋, 벤치마크, Docker 이미지, 그리고 테스트에 필요한 스크립트는 모두 https://github.com/gersteinlab/biocoder에서 이용 가능합니다.
인간 프로그래머가 한 프로그래밍 언어를 숙달하면, 새로운 프로그래밍 언어를 배우는 것이 더 쉬워집니다. 본 보고서에서는 코드 대형 언어 모델의 지시 미세 조정 단계에서 프로그래밍 언어들이 서로를 촉진할 수 있는지 탐구하는 데 초점을 맞춥니다. 우리는 StarCoder에서 8개의 인기 있는 프로그래밍 언어(Python, JavaScript, TypeScript, C, C++, Java, Go, HTML)에 대한 광범위한 실험을 수행했습니다. 결과는 프로그래밍 언어들이 서로를 상당히 개선할 수 있음을 보여줍니다. 예를 들어, Python으로 훈련된 CodeM-Python 15B는 HumanEval-X에서 Java의 pass@1을 절대적으로 17.95% 증가시킬 수 있었습니다. 더 놀라운 점은 HTML 코퍼스로 훈련된 CodeM-HTML 7B가 Java의 pass@1을 절대적으로 15.24% 개선할 수 있다는 사실을 발견했다는 것입니다. 우리의 훈련 데이터는 https://github.com/NL2Code/CodeM에서 공개되었습니다.
지속적으로 학습되는 신경망 기반 장면 표현, 즉 Active Neural Mapping을 활용한 능동적 매핑 문제를 다룬다. 핵심은 이전에 보지 못한 환경 내에서 에이전트의 효율적인 이동을 통해 탐색할 대상 공간을 능동적으로 찾아내어, 실시간으로 지도 불확실성을 최소화하는 데 있다. 본 논문에서는 지속적으로 학습되는 신경망 필드의 가중치 공간을 분석하고, 신경망 변동성(가중치에 대한 무작위 섭동에 대한 예측 강건성)이 신경망 지도의 순간 불확실성을 직접 측정하는 데 활용될 수 있음을 실증적으로 보인다. 신경망 지도에 내재된 연속적인 기하학적 정보와 함께, 이 접근법은 에이전트가 환경에 대한 지식을 점진적으로 습득할 수 있는 이동 가능 경로를 찾도록 안내한다. 본 연구는 온라인 장면 재구성을 위한 좌표 기반 암묵적 신경망 표현을 활용한 능동적 매핑 시스템을 최초로 제안한다. 시각적으로 현실적인 Gibson 및 Matterport3D 환경에서의 실험을 통해 제안 방법의 효용성을 입증한다.
구조화되지 않은 실제 환경에서 시각적 관찰을 통해 다양한 조작 작업을 수행할 수 있는 에이전트를 개발하는 것은 로보틱스 분야의 오랜 과제입니다. 이를 달성하기 위해서는 로봇이 장면의 3D 구조와 의미론을 포괄적으로 이해해야 합니다. 본 연구에서는 일반화 가능한 신경 특징 필드(Generalizable Neural Feature Fields)를 활용한 다중 작업 로봇 조작을 위한 시각적 행동 복제 에이전트인 GNFactor를 제안합니다. GNFactor는 재구성 모듈로 일반화 가능한 신경 필드(GNF)를, 의사결정 모듈로 Perceiver Transformer를 공유된 심층 3D 복셀 표현을 통해 공동으로 최적화합니다. 3D에서 의미론을 통합하기 위해 재구성 모듈은 시각-언어 기반 모델(예: Stable Diffusion)을 사용하여 풍부한 의미론적 정보를 심층 3D 복셀에 증류합니다. GNFactor를 3가지 실제 로봇 작업에서 평가하고, 제한된 수의 데모를 통해 10가지 RLBench 작업에 대한 상세한 절제 연구를 수행합니다. GNFactor는 기존의 최첨단 방법들에 비해 학습된 작업과 새로운 작업 모두에서 상당한 성능 향상을 보여주며, GNFactor의 강력한 일반화 능력을 입증합니다. 프로젝트 웹사이트는 https://yanjieze.com/GNFactor/ 에서 확인할 수 있습니다.
우리는 122개 언어 변형을 아우르는 객관식 기계 독해(MRC) 데이터셋인 Belebele를 소개한다. 이 데이터셋은 자연어 이해(NLU) 벤치마크의 언어 범위를 크게 확장하여 고자원, 중자원, 저자원 언어에서 텍스트 모델의 평가를 가능하게 한다. 각 질문은 Flores-200 데이터셋의 짧은 문단을 기반으로 하며, 네 가지 객관식 답변을 포함한다. 질문들은 다양한 수준의 일반 언어 이해 능력을 가진 모델들을 구별할 수 있도록 신중하게 선별되었다. 영어 데이터셋만으로도 최첨단 언어 모델에 도전할 만큼 충분히 어려운 수준임이 입증되었다. 완전히 병렬적인 이 데이터셋은 모든 언어에 걸쳐 모델 성능을 직접 비교할 수 있게 한다. 우리는 이 데이터셋을 사용하여 다국어 마스크 언어 모델(MLM)과 대형 언어 모델(LLM)의 능력을 평가한다. 광범위한 결과를 제시하며, 영어 중심의 LLM에서 상당한 교차 언어 전이가 이루어지더라도 균형 잡힌 다국어 데이터로 사전 학습된 훨씬 작은 MLM이 여전히 훨씬 더 많은 언어를 이해한다는 사실을 발견했다. 또한 더 큰 어휘 크기와 의식적인 어휘 구성이 저자원 언어에서 더 나은 성능과 상관관계가 있음을 관찰했다. 전반적으로, Belebele는 NLP 시스템의 다국어 능력을 평가하고 분석할 수 있는 새로운 길을 열어준다.
인간 중심의 비디오 프레임 보간 기술은 사람들의 엔터테인먼트 경험을 향상시키고 스포츠 분석 산업에서의 상업적 응용 가능성, 예를 들어 슬로우 모션 비디오 합성 등에 큰 잠재력을 가지고 있습니다. 커뮤니티에는 여러 벤치마크 데이터셋이 존재하지만, 인간 중심 시나리오에 특화된 데이터셋은 없습니다. 이러한 격차를 해소하기 위해, 우리는 YouTube에서 크롤링한 고해상도(geq720p) 슬로우 모션 스포츠 비디오 클립 130,000개 이상과 비디오 프레임 100만 개로 구성된 벤치마크인 SportsSloMo를 소개합니다. 우리는 이 벤치마크에서 여러 최신 방법들을 재학습시켰으며, 그 결과 다른 데이터셋에 비해 정확도가 감소함을 확인했습니다. 이는 우리 벤치마크의 난이도를 강조하며, 인간 신체가 매우 변형 가능하고 스포츠 비디오에서 가림 현상이 빈번하게 발생하기 때문에 최고 성능의 방법들조차도 상당한 도전에 직면함을 시사합니다. 정확도를 향상시키기 위해, 우리는 인간 인식 사전 지식을 고려한 두 가지 손실 항목을 도입했습니다. 여기서는 팬옵틱 분할과 인간 키포인트 검출에 각각 보조 감독을 추가했습니다. 이 손실 항목들은 모델에 독립적이며, 어떤 비디오 프레임 보간 접근법에도 쉽게 적용할 수 있습니다. 실험 결과는 우리가 제안한 손실 항목의 효과를 검증하며, 5개의 기존 모델에 걸쳐 일관된 성능 향상을 이끌어냈습니다. 이를 통해 우리 벤치마크에 대한 강력한 베이스라인 모델을 확립했습니다. 데이터셋과 코드는 https://neu-vi.github.io/SportsSlomo/에서 확인할 수 있습니다.