번역이 포함된 일일 선별된 AI 연구 논문
본 논문은 Vision Transformers(ViTs)가 직면한 중요한 과제, 즉 다양한 이미지 해상도에서의 확장성 제약을 다룹니다. 일반적으로 ViTs는 훈련 시 사용된 해상도와 다른 해상도를 처리할 때 성능 저하를 경험합니다. 본 연구는 이 문제를 해결하기 위해 두 가지 주요 혁신을 제안합니다. 첫째, 단일 Transformer 블록으로 설계된 동적 해상도 조정 모듈을 제안하여 고효율의 점진적 토큰 통합을 달성합니다. 둘째, Vision Transformer에 퍼지 위치 인코딩을 도입하여 여러 해상도에서 일관된 위치 인식을 제공함으로써 단일 훈련 해상도에 대한 과적합을 방지합니다. 이를 통해 개발된 모델인 ViTAR(Vision Transformer with Any Resolution)은 1120x1120 해상도에서 83.3%의 Top-1 정확도를, 4032x4032 해상도에서 80.4%의 정확도를 달성하며 계산 비용을 줄이는 인상적인 적응력을 보여줍니다. 또한 ViTAR은 인스턴스 및 의미론적 분할과 같은 다운스트림 작업에서도 강력한 성능을 보이며, Masked AutoEncoder와 같은 자기 지도 학습 기술과 쉽게 결합할 수 있습니다. 본 연구는 ViTs의 해상도 확장성을 향상시키는 비용 효율적인 솔루션을 제공함으로써 더 다양하고 효율적인 고해상도 이미지 처리를 위한 길을 열어줍니다.
본 연구에서는 다중 모달리티 비전 언어 모델(VLMs)의 성능을 향상시키는 간단하면서도 효과적인 프레임워크인 Mini-Gemini를 소개합니다. VLMs의 발전으로 기본적인 시각적 대화와 추론이 가능해졌음에도 불구하고, GPT-4 및 Gemini와 같은 고급 모델과의 성능 격차는 여전히 존재합니다. 우리는 VLMs의 잠재력을 발굴하여 성능과 any-to-any 워크플로우를 개선하기 위해 세 가지 측면, 즉 고해상도 시각 토큰, 고품질 데이터, 그리고 VLM 기반 생성을 통해 이 격차를 좁히고자 합니다. 시각 토큰을 강화하기 위해, 우리는 시각 토큰 수를 증가시키지 않으면서 고해상도 정제를 위한 추가적인 시각 인코더를 활용할 것을 제안합니다. 또한, 정확한 이미지 이해와 추론 기반 생성을 촉진하는 고품질 데이터셋을 구축하여 현재 VLMs의 운영 범위를 확장합니다. 전반적으로, Mini-Gemini는 VLMs의 잠재력을 더욱 발굴하고, 현재 프레임워크에 이미지 이해, 추론, 생성을 동시에 가능하게 합니다. Mini-Gemini는 2B에서 34B에 이르는 다양한 밀집 및 MoE 대형 언어 모델(LLMs)을 지원하며, 여러 제로샷 벤치마크에서 선도적인 성능을 달성하고 심지어 개발된 사설 모델을 능가하는 것으로 입증되었습니다. 코드와 모델은 https://github.com/dvlab-research/MiniGemini에서 확인할 수 있습니다.
디퓨전 모델은 이미지 편집 분야에 혁신을 가져왔지만, 종종 물리 법칙을 위반하는 이미지를 생성합니다. 특히 장면 내 객체의 영향, 예를 들어 가림, 그림자, 반사 등이 잘못 표현되는 문제가 있습니다. 우리는 자기 지도 학습 접근법의 한계를 분석하고, 이를 해결하기 위해 반사실적 데이터셋을 중심으로 한 실용적인 솔루션을 제안합니다. 우리의 방법은 단일 객체를 제거하기 전과 후의 장면을 캡처하면서 다른 변화를 최소화하는 것입니다. 이 데이터셋으로 디퓨전 모델을 미세 조정함으로써, 우리는 객체뿐만 아니라 장면에 미치는 그 효과까지 제거할 수 있습니다. 그러나 사실적인 객체 삽입을 위해 이 접근법을 적용하려면 비현실적으로 큰 데이터셋이 필요하다는 점을 발견했습니다. 이 문제를 해결하기 위해, 우리는 부트스트랩 지도 학습을 제안합니다. 작은 반사실적 데이터셋으로 훈련된 객체 제거 모델을 활용하여, 이 데이터셋을 크게 확장합니다. 우리의 접근법은 특히 장면에 미치는 객체의 효과를 모델링하는 데 있어서, 기존 방법들을 크게 능가하는 사실적인 객체 제거 및 삽입 성능을 보여줍니다.
대규모 언어 모델(LLM)은 개방형 주제에 대한 사실 탐색 프롬프트에 응답할 때 종종 사실 오류가 포함된 콘텐츠를 생성합니다. 개방 도메인에서 모델의 장문 사실성(factuality)을 벤치마킹하기 위해, 우리는 먼저 GPT-4를 사용하여 38개 주제에 걸친 수천 개의 질문으로 구성된 프롬프트 세트인 LongFact를 생성했습니다. 그런 다음, LLM 에이전트를 자동화된 평가자로 활용하여 장문 사실성을 평가하는 방법인 Search-Augmented Factuality Evaluator(SAFE)를 제안합니다. SAFE는 LLM을 사용하여 장문 응답을 개별 사실로 분해하고, Google 검색에 쿼리를 보내고 검색 결과를 통해 각 사실의 정확성을 판단하는 다단계 추론 프로세스를 통해 각 사실의 정확성을 평가합니다. 또한, 장문 사실성을 종합적으로 측정하기 위해 F1 점수를 확장하는 방안을 제안합니다. 이를 위해, 응답에서 지원된 사실의 비율(정밀도)과 사용자가 선호하는 응답 길이를 나타내는 하이퍼파라미터에 대한 제공된 사실의 비율(재현율)을 균형 있게 고려합니다. 실험적으로, 우리는 LLM 에이전트가 인간 평가자를 능가하는 성능을 달성할 수 있음을 입증했습니다. 약 16,000개의 개별 사실에 대해 SAFE는 크라우드소싱된 인간 평가자와 72%의 일치율을 보였으며, 100개의 불일치 사례 중 무작위로 선택된 하위 집합에서 SAFE는 76%의 경우에서 더 나은 평가를 제공했습니다. 동시에, SAFE는 인간 평가자보다 20배 이상 저렴합니다. 또한, 우리는 Gemini, GPT, Claude, PaLM-2 네 가지 모델 패밀리에 속한 13개의 언어 모델을 LongFact에서 벤치마킹했으며, 더 큰 언어 모델이 일반적으로 더 나은 장문 사실성을 달성한다는 사실을 발견했습니다. LongFact, SAFE 및 모든 실험 코드는 https://github.com/google-deepmind/long-form-factuality에서 확인할 수 있습니다.
우리는 단일 입력 이미지를 가이드로 사용하여 기본 메시에서 3D 의류 자산을 합성하는 새로운 방법인 Garment3DGen을 소개합니다. 우리가 제안한 접근 방식은 사용자가 실제 이미지와 텍스트 프롬프트로 생성된 합성 이미지를 기반으로 텍스처가 적용된 3D 의류를 생성할 수 있게 합니다. 생성된 자산은 인간의 몸에 직접 드레이핑(draping) 및 시뮬레이션될 수 있습니다. 먼저, 우리는 최근의 이미지에서 3D로의 확산(diffusion) 방법의 발전을 활용하여 3D 의류 형상을 생성합니다. 그러나 이러한 형상은 다운스트림 작업에 직접 사용될 수 없기 때문에, 이를 가짜 그라운드 트루(pseudo ground-truth)로 사용하고 생성된 3D 타겟과 일치하도록 기본 템플릿 메시를 변형하는 메시 변형 최적화 절차를 설정합니다. 둘째, 우리는 입력 기본 메시가 원하는 타겟으로 자유롭게 변형될 수 있으면서도 메시 품질과 토폴로지를 보존하여 시뮬레이션이 가능하도록 신중하게 설계된 손실 함수를 도입합니다. 마지막으로, 텍스처 추정 모듈은 전역적 및 지역적으로 일관되고 입력 가이드를 충실히 반영하는 고품질 텍스처 맵을 생성하여 생성된 3D 자산을 렌더링할 수 있게 합니다. Garment3DGen을 통해 사용자는 아티스트의 개입 없이 원하는 텍스처가 적용된 3D 의류를 생성할 수 있습니다. 사용자는 원하는 의류를 설명하는 텍스트 프롬프트를 제공하여 시뮬레이션 준비가 된 3D 자산을 생성할 수 있습니다. 우리는 다양한 실제 및 생성된 자산에 대한 수많은 정량적 및 정성적 비교를 제시하고 시뮬레이션 준비가 된 3D 의류를 생성할 수 있는 사용 사례를 제공합니다.
GPT-4와 Med-PaLM 2와 같은 모델들은 다양한 생물의학 NLP 작업에서 인상적인 성능을 보여주었습니다. 그러나 이러한 모델들은 수천억 개의 파라미터를 가지고 있어 실행 시 계산 비용이 많이 들며, 사용자들이 인터넷을 통해 입력 데이터를 전송해야 하고, 알려지지 않은 데이터 소스로 학습되었다는 단점이 있습니다. 더 작고 특화된 모델들이 경쟁할 수 있을까요? 이 질문에 답하기 위해, 우리는 PubMed 초록과 전체 논문으로만 학습된 27억 개의 파라미터를 가진 GPT 스타일의 자동회귀 모델인 BioMedLM을 구축하고 공개했습니다. 미세 조정을 거친 BioMedLM은 훨씬 더 큰 모델들과 경쟁력 있는 다중 선택형 생물의학 질문-응답 결과를 생성할 수 있으며, MedMCQA(dev)에서 57.3%, MMLU Medical Genetics 시험에서 69.0%의 점수를 달성했습니다. 또한 BioMedLM은 의학 주제에 대한 환자 질문에 유용한 답변을 생성하도록 미세 조정될 수 있습니다. 이는 더 작은 모델들이 생물의학과 같은 특정 NLP 애플리케이션을 위한 투명하고, 개인정보를 보호하며, 경제적이고 환경 친화적인 기반으로 잠재적으로 사용될 수 있음을 보여줍니다. 이 모델은 Hugging Face Hub에서 이용 가능합니다: https://huggingface.co/stanford-crfm/BioMedLM.
우리는 자동화된 3D 콘텐츠 생성 파이프라인에 대한 수요가 증가함에 따라 단일 이미지로부터 3D 자산을 효율적으로 재구성하는 과제를 해결합니다. 기존 방법들은 주로 Score Distillation Sampling(SDS)과 Neural Radiance Fields(NeRF)에 의존해 왔습니다. 이러한 접근법들은 상당한 성공을 거두었지만, 긴 최적화 시간과 상당한 메모리 사용량으로 인해 실용적인 한계에 직면해 있습니다. 본 보고서에서는 단일 뷰 이미지로부터 3D를 재구성하는 종단 간(End-to-End) 분산 모델인 Gamba를 소개하며, 두 가지 주요 통찰을 강조합니다: (1) 3D 표현: 효율적인 3D Gaussian splatting 프로세스를 위해 다수의 3D 가우시안을 활용; (2) 백본 설계: 컨텍스트 의존적 추론과 시퀀스(토큰) 길이에 따른 선형 확장성을 가능하게 하는 Mamba 기반 순차 네트워크를 도입하여 다수의 가우시안을 수용. Gamba는 데이터 전처리, 정규화 설계 및 훈련 방법론에서 상당한 발전을 통합했습니다. 우리는 Gamba를 실제 스캔된 OmniObject3D 데이터셋을 사용하여 기존의 최적화 기반 및 피드포워드 3D 생성 접근법과 비교 평가했습니다. 여기서 Gamba는 질적 및 양적으로 경쟁력 있는 생성 능력을 보여주면서 단일 NVIDIA A100 GPU에서 약 0.6초의 놀라운 속도를 달성했습니다.
본 논문에서는 에고센티릭 센서로 캡처된 장면을 개별 3D 객체의 완전한 분해로 자동 분할할 수 있는 새로운 시스템인 EgoLifter를 소개한다. 이 시스템은 자연스러운(스캔하지 않은) 움직임으로 캡처된 수백 개의 객체가 포함된 장면을 다루는 에고센티릭 데이터를 위해 특별히 설계되었다. EgoLifter는 3D 장면과 객체의 기본 표현으로 3D 가우시안을 채택하고, Segment Anything Model(SAM)의 분할 마스크를 약한 감독으로 사용하여 특정 객체 분류 체계에 구애받지 않는 유연하고 프롬프트 가능한 객체 인스턴스 정의를 학습한다. 에고센티릭 비디오에서 동적 객체를 처리하기 위해, 우리는 3D 재구성에서 동적 객체를 필터링하는 방법을 학습하는 일시적 예측 모듈을 설계했다. 그 결과, 전체 장면을 구성하는 3D 가우시안 집합으로 3D 객체 인스턴스를 재구성할 수 있는 완전 자동화된 파이프라인이 구현되었다. 우리는 Aria Digital Twin 데이터셋에 새로운 벤치마크를 구축하여 자연스러운 에고센티릭 입력에서의 오픈 월드 3D 분할에서의 최첨단 성능을 정량적으로 입증했다. 다양한 에고센티릭 활동 데이터셋에 EgoLifter를 실행한 결과, 이 방법이 대규모 3D 에고센티릭 인식에 유망함을 보여주었다.
우리의 연구는 객체 중심 편집 문제에서 기존 접근법들이 보여준 한계점, 예를 들어 형태 불일치로 인한 비현실적인 결과와 객체 교체 또는 삽입에서의 제한된 제어력을 해결합니다. 이를 위해 우리는 FlexEdit을 소개합니다. FlexEdit은 객체에 대한 유연하고 제어 가능한 편집 프레임워크로, 각 디노이징 단계에서 FlexEdit 블록을 사용하여 잠재 변수를 반복적으로 조정합니다. 먼저, 테스트 시점에 지정된 객체 제약 조건과 일치하도록 잠재 변수를 최적화합니다. 그런 다음, 우리의 프레임워크는 디노이징 과정에서 자동으로 추출된 적응형 마스크를 사용하여 배경을 보호하면서 새로운 콘텐츠를 대상 이미지에 자연스럽게 혼합합니다. 우리는 다양한 객체 편집 작업에서 FlexEdit의 다용성을 입증하고, 실제 및 합성 이미지 샘플로 구성된 평가 테스트 스위트와 객체 중심 편집을 위해 설계된 새로운 평가 지표를 제시합니다. 다양한 편집 시나리오에 대한 광범위한 실험을 수행하여, 우리의 편집 프레임워크가 최근의 고급 텍스트 기반 이미지 편집 방법들을 능가함을 보여줍니다. 우리의 프로젝트 페이지는 https://flex-edit.github.io/에서 확인할 수 있습니다.
가상 비서(Virtual Assistants, VAs)를 위한 신경망 언어 모델(Neural Network Language Models, NNLMs)은 일반적으로 언어, 지역, 그리고 경우에 따라 기기에 종속적이기 때문에 확장 및 유지 관리에 더 많은 노력이 필요합니다. 이러한 범주 중 하나 이상을 결합하는 것은 확장성을 개선하는 한 가지 방법입니다. 본 연구에서는 지역별 영어 변형을 결합하여 온디바이스 VAs를 위한 "월드 잉글리시(World English)" NNLM을 구축합니다. 특히, 우리는 기존 생산 환경의 NNLMs에서 방언별 특성을 모델링하기 위해 어댑터 병목(adapter bottlenecks)의 적용을 조사하고 다중 방언 기준선을 강화합니다. 우리는 어댑터 모듈이 전체 하위 네트워크를 특수화하는 것보다 방언을 모델링하는 데 더 효과적이라는 것을 발견했습니다. 이러한 통찰과 생산 모델의 설계를 바탕으로, 우리는 단일 방언 모델의 정확도, 지연 시간, 메모리 제약을 충족하는 새로운 월드 잉글리시 NNLM 아키텍처를 소개합니다.