번역이 포함된 일일 선별된 AI 연구 논문
우리는 이미지와 텍스트를 임의의 순서로 이해하고 생성할 수 있는 초기 융합 토큰 기반 혼합 모달 모델인 Chameleon 제품군을 소개한다. 초기 융합, 토큰 기반, 혼합 모달 설정에 맞춰 안정적인 학습 접근법, 정렬 방법, 그리고 아키텍처 파라미터화를 제시한다. 이 모델들은 시각적 질문 응답, 이미지 캡셔닝, 텍스트 생성, 이미지 생성, 그리고 장문 혼합 모달 생성 등 다양한 작업에서 평가되었다. Chameleon은 이미지 캡셔닝 작업에서 최첨단 성능을 보이며, 텍스트 전용 작업에서는 Llama-2를 능가하고 Mixtral 8x7B 및 Gemini-Pro와 경쟁력을 보이며, 단일 모델에서 비사소한 이미지 생성도 수행한다. 또한, 새로운 장문 혼합 모달 생성 평가에서 인간 판단에 따라 Gemini Pro와 GPT-4V와 같은 훨씬 더 큰 모델의 성능을 맞추거나 능가한다. 이 평가에서는 프롬프트나 출력이 이미지와 텍스트의 혼합 시퀀스를 포함한다. Chameleon은 완전한 다중 모달 문서의 통합 모델링에서 중요한 진전을 이루었다.
Low-Rank Adaptation (LoRA)은 대규모 언어 모델을 위한 널리 사용되는 파라미터 효율적 미세 조정 방법입니다. LoRA는 선택된 가중치 행렬에 대해 낮은 순위의 변동만을 학습함으로써 메모리를 절약합니다. 본 연구에서는 프로그래밍과 수학이라는 두 가지 대상 도메인에서 LoRA와 전체 미세 조정의 성능을 비교합니다. 우리는 명령어 미세 조정(약 100K개의 프롬프트-응답 쌍)과 지속적 사전 학습(약 10B개의 비정형 토큰) 데이터 체계를 모두 고려합니다. 우리의 결과는 대부분의 설정에서 LoRA가 전체 미세 조정에 비해 상당히 낮은 성능을 보인다는 것을 나타냅니다. 그럼에도 불구하고, LoRA는 바람직한 형태의 정규화를 보여줍니다: 대상 도메인 외의 작업에서 기본 모델의 성능을 더 잘 유지합니다. 우리는 LoRA가 가중치 감쇠와 드롭아웃과 같은 일반적인 기술에 비해 더 강력한 정규화를 제공하며, 더 다양한 생성물을 유지하는 데 도움이 된다는 것을 보여줍니다. 전체 미세 조정은 일반적인 LoRA 구성보다 10-100배 더 큰 순위의 변동을 학습하는 것으로 나타나, 보고된 격차의 일부를 설명할 수 있습니다. 우리는 LoRA를 사용한 미세 조정을 위한 최선의 실천 방법을 제안하며 결론을 맺습니다.
3D 재구성 기술의 발전으로 고품질 3D 캡처가 가능해졌지만, 3D 장면을 생성하기 위해서는 사용자가 수백에서 수천 장의 이미지를 수집해야 합니다. 우리는 이러한 실제 캡처 과정을 다중 뷰 확산 모델로 시뮬레이션하여 3D로 무엇이든 생성할 수 있는 CAT3D 방법을 제안합니다. 임의의 수의 입력 이미지와 일련의 새로운 시점이 주어지면, 우리의 모델은 장면의 높은 일관성을 가진 새로운 뷰를 생성합니다. 이러한 생성된 뷰는 강력한 3D 재구성 기술의 입력으로 사용되어 실시간으로 어떤 시점에서든 렌더링할 수 있는 3D 표현을 생성할 수 있습니다. CAT3D는 단 1분 만에 전체 3D 장면을 생성할 수 있으며, 단일 이미지 및 소수의 뷰를 기반으로 한 3D 장면 생성 기존 방법들을 능가합니다. 결과 및 인터랙티브 데모는 프로젝트 페이지(https://cat3d.github.io)에서 확인할 수 있습니다.
대규모 언어 모델(Large Language Models)은 소수 샷(few-shot) 인컨텍스트 학습(ICL)에서 효과적인 것으로 잘 알려져 있습니다. 최근 멀티모달 기반 모델(Multimodal Foundation Models)의 발전으로 전례 없이 긴 컨텍스트 윈도우가 가능해졌으며, 이는 더 많은 데모 예제를 활용한 ICL 능력을 탐구할 수 있는 기회를 제공합니다. 본 연구에서는 멀티모달 기반 모델의 성능을 소수 샷에서 다수 샷(many-shot) ICL로 확장하여 평가합니다. 우리는 GPT-4o와 Gemini 1.5 Pro를 10개의 데이터셋(자연 이미지, 의료 이미지, 원격 감지, 분자 이미지 등 다양한 도메인)과 작업(다중 클래스, 다중 레이블, 세분화된 분류)에 걸쳐 벤치마킹했습니다. 실험 결과, 거의 2,000개의 멀티모달 데모 예제를 포함한 다수 샷 ICL은 소수 샷(<100 예제) ICL에 비해 모든 데이터셋에서 상당한 성능 향상을 보였습니다. 또한, Gemini 1.5 Pro는 많은 데이터셋에서 테스트한 최대 예제 수까지 로그 선형적으로 성능이 계속 향상되었습니다. 다수 샷 ICL에 필요한 긴 프롬프트와 관련된 높은 추론 비용을 고려하여, 우리는 단일 API 호출에서 여러 쿼리를 배치 처리하는 영향도 탐구했습니다. 최대 50개의 쿼리를 배치 처리하면 제로 샷(zero-shot) 및 다수 샷 ICL에서 성능 향상을 이끌 수 있으며, 특히 제로 샷 설정에서는 여러 데이터셋에서 상당한 이점을 보이면서도 쿼리당 비용과 지연 시간을 크게 줄일 수 있음을 확인했습니다. 마지막으로, 모델의 ICL 데이터 효율성, 즉 더 많은 데모 예제로부터 학습하는 속도를 측정했습니다. GPT-4o와 Gemini 1.5 Pro는 데이터셋 전반에서 유사한 제로 샷 성능을 보였지만, Gemini 1.5 Pro는 대부분의 데이터셋에서 GPT-4o보다 높은 ICL 데이터 효율성을 나타냈습니다. 우리의 결과는 다수 샷 ICL이 멀티모달 기반 모델을 새로운 애플리케이션과 도메인에 효율적으로 적응시키는 데 유용할 수 있음을 시사합니다. 본 연구의 코드베이스는 https://github.com/stanfordmlgroup/ManyICL에서 공개되어 있습니다.
본 논문은 IDEA Research에서 개발한 고급 오픈셋 객체 탐지 모델군인 Grounding DINO 1.5를 소개하며, 이는 오픈셋 객체 탐지의 "에지"를 발전시키는 것을 목표로 합니다. 이 모델군은 두 가지 모델로 구성됩니다: Grounding DINO 1.5 Pro는 다양한 시나리오에서 더 강력한 일반화 능력을 위해 설계된 고성능 모델이며, Grounding DINO 1.5 Edge는 에지 배포가 필요한 많은 애플리케이션에서 요구되는 빠른 속도를 위해 최적화된 효율적인 모델입니다. Grounding DINO 1.5 Pro 모델은 모델 아키텍처를 확장하고, 향상된 비전 백본을 통합하며, 2천만 장 이상의 그라운딩 주석이 포함된 학습 데이터셋을 확장함으로써 선행 모델을 발전시켜 더 풍부한 의미론적 이해를 달성했습니다. Grounding DINO 1.5 Edge 모델은 효율성을 위해 특징 스케일을 줄였지만, 동일한 포괄적인 데이터셋으로 학습함으로써 견고한 탐지 능력을 유지합니다. 실험 결과는 Grounding DINO 1.5의 효과를 입증하며, Grounding DINO 1.5 Pro 모델은 COCO 탐지 벤치마크에서 54.3 AP, LVIS-minival 제로샷 전이 벤치마크에서 55.7 AP를 달성하여 오픈셋 객체 탐지의 새로운 기록을 세웠습니다. 또한, Grounding DINO 1.5 Edge 모델은 TensorRT로 최적화했을 때 LVIS-minival 벤치마크에서 36.2 AP의 제로샷 성능을 유지하면서 75.2 FPS의 속도를 달성하여 에지 컴퓨팅 시나리오에 더 적합함을 보여줍니다. 모델 예제와 API 데모는 https://github.com/IDEA-Research/Grounding-DINO-1.5-API에서 공개될 예정입니다.
본 연구에서는 기하학적으로 일관되지 않은 장면의 기본 3D 구조를 복원합니다. 우리는 만화와 애니메이션에서 손으로 그린 이미지에 분석을 집중합니다. 많은 만화는 3D 렌더링 엔진 없이 아티스트에 의해 제작되며, 이는 장면의 새로운 이미지가 모두 손으로 그려진다는 것을 의미합니다. 손으로 그린 이미지는 일반적으로 세상을 충실히 표현하지만, 인간이 물체나 장면의 여러 관점을 3D로 일관되게 그리기는 어렵기 때문에 정성적인 의미에서만 그러합니다. 그럼에도 불구하고 사람들은 일관되지 않은 입력에서도 쉽게 3D 장면을 인지할 수 있습니다! 본 연구에서는 2D 드로잇의 불일치를 수정하여 새롭게 왜곡된 그림들이 서로 일관되도록 그럴듯한 3D 구조를 복원합니다. 우리의 파이프라인은 사용자 친화적인 주석 도구, 카메라 포즈 추정, 그리고 밀집 구조를 복원하기 위한 이미지 변형으로 구성됩니다. 우리의 방법은 이미지를 원근 카메라 모델에 따르도록 왜곡하여, 정렬된 결과를 새로운 시점 합성 재구성 방법에 적용하여 이전에 그려진 적 없는 시점에서 만화를 경험할 수 있게 합니다. 우리의 프로젝트 페이지는 https://toon3d.studio/입니다.
우리는 텍스트에서 고품질 3D 자산을 단 1분 만에 생성하는 새로운 텍스트-3D 생성 프레임워크인 Dual3D를 소개합니다. 핵심 구성 요소는 이중 모드 다중 뷰 잠재 확산 모델입니다. 노이즈가 있는 다중 뷰 잠재 변수가 주어지면, 2D 모드는 단일 잠재 노이즈 제거 네트워크를 통해 이를 효율적으로 제거할 수 있으며, 3D 모드는 일관된 렌더링 기반 노이즈 제거를 위한 삼중 평면 신경 표면을 생성할 수 있습니다. 두 모드의 대부분의 모듈은 사전 훈련된 텍스트-이미지 잠재 확산 모델에서 조정되어 처음부터 훈련하는 데 드는 비용을 절약합니다. 추론 중 높은 렌더링 비용을 극복하기 위해, 우리는 3D 모드에서 단 1/10의 노이즈 제거 단계만 사용하는 이중 모드 전환 추론 전략을 제안하여 품질을 희생하지 않고 단 10초 만에 3D 자산을 성공적으로 생성합니다. 3D 자산의 텍스처는 짧은 시간 내에 우리의 효율적인 텍스처 정제 과정을 통해 더욱 향상될 수 있습니다. 광범위한 실험을 통해 우리의 방법이 최신의 성능을 제공하면서도 생성 시간을 크게 단축한다는 것을 입증했습니다. 우리의 프로젝트 페이지는 https://dual3d.github.io에서 확인할 수 있습니다.
시뮬레이션에서 학습한 정책을 실제 세계로 전이하는 것은 범용 로봇을 가능하게 할 잠재력을 가지고 있습니다. 이 접근법의 주요 과제는 시뮬레이션-현실 간 격차(sim-to-real gap)를 해결하는 것입니다. 기존 방법들은 종종 사전에 도메인 특화 지식을 요구했습니다. 우리는 이러한 지식을 얻기 위한 직관적인 방법으로 인간이 실제 세계에서 로봇 정책 실행을 관찰하고 지원하도록 요청하는 것을 제안합니다. 로봇은 인간으로부터 학습하여 다양한 sim-to-real 격차를 해결할 수 있습니다. 우리는 인간-참여 프레임워크를 기반으로 성공적인 sim-to-real 전이를 가능하게 하는 데이터 기반 접근법인 TRANSIC을 제안합니다. TRANSIC은 인간이 개입과 온라인 수정을 통해 다양한 모델링되지 않은 sim-to-real 격차를 종합적으로 극복할 수 있도록 시뮬레이션 정책을 보강할 수 있게 합니다. 인간의 수정으로부터 잔여 정책을 학습하고 이를 시뮬레이션 정책과 통합하여 자율 실행을 가능하게 할 수 있습니다. 우리의 접근법이 가구 조립과 같은 복잡하고 접촉이 많은 조작 작업에서 성공적인 sim-to-real 전이를 달성할 수 있음을 보여줍니다. 시뮬레이션과 인간으로부터 학습한 정책의 시너지 통합을 통해 TRANSIC은 다양한, 종종 공존하는 sim-to-real 격차를 해결하는 종합적인 접근법으로 효과적입니다. 이는 인간의 노력에 따라 확장 가능한 매력적인 특성을 보여줍니다. 비디오와 코드는 https://transic-robot.github.io/에서 확인할 수 있습니다.