번역이 포함된 일일 선별된 AI 연구 논문
우리는 단일 비정렬 야외 이미지로부터 고품질의 텍스처가 적용된 3D 메시를 생성하기 위해 2D와 3D 사전 지식을 모두 활용하는 두 단계의 coarse-to-fine 접근법인 Magic123을 제안합니다. 첫 번째 단계에서는 신경 방사 필드(Neural Radiance Field)를 최적화하여 대략적인 형상을 생성합니다. 두 번째 단계에서는 메모리 효율적인 미분 가능 메시 표현을 채택하여 시각적으로 매력적인 텍스처를 가진 고해상도 메시를 생성합니다. 두 단계 모두에서 3D 콘텐츠는 참조 뷰 감독과 2D 및 3D 확산 사전 지식의 조합에 의해 안내되는 새로운 뷰를 통해 학습됩니다. 우리는 생성된 형상의 탐색(더 상상력 풍부)과 활용(더 정확)을 제어하기 위해 2D와 3D 사전 지식 간의 단일 트레이드오프 파라미터를 도입했습니다. 또한, 텍스트 반전(Textual Inversion)과 단안 깊이 정규화를 사용하여 뷰 간 일관된 외관을 유도하고 퇴화된 해결책을 방지합니다. Magic123은 합성 벤치마크와 다양한 실제 이미지에 대한 광범위한 실험을 통해 검증된 바와 같이, 기존의 이미지-투-3D 기술에 비해 상당한 개선을 보여줍니다. 우리의 코드, 모델 및 생성된 3D 자산은 https://github.com/guochengqian/Magic123에서 확인할 수 있습니다.
대형 언어 모델(LLMs)은 로봇이 복잡한 추론 작업을 수행할 수 있도록 하는 유망한 도구를 제공합니다. 그러나 현대 LLM의 제한된 컨텍스트 윈도우는 장기간에 걸친 추론을 어렵게 만듭니다. 가정용 로봇이 수행할 것으로 예상되는 작업과 같은 구체적 작업은 일반적으로 플래너가 오래 전에 획득한 정보(예: 로봇이 이전에 환경에서 마주한 다양한 객체의 속성)를 고려해야 합니다. LLM의 암묵적 내부 표현을 사용하여 세계 상태를 포착하려는 시도는 로봇의 행동 기록에 포함된 작업 및 환경 관련 정보의 부족으로 인해 복잡해지며, 프롬프트를 통해 LLM에 정보를 전달하는 방법은 제한된 컨텍스트 윈도우의 영향을 받습니다. 본 논문에서는 LLM에 시간이 지남에 따라 유지되는 "메모리" 형태의 명시적 세계 상태 표현을 부여하는 Statler 프레임워크를 제안합니다. Statler의 핵심은 세계 상태와 상호작용하며 이를 유지하는 두 개의 일반 LLM 인스턴스(세계 모델 리더와 세계 모델 라이터)를 사용하는 것입니다. 이 세계 상태 "메모리"에 대한 접근을 제공함으로써, Statler는 기존 LLM의 컨텍스트 길이 제약 없이 장기간에 걸친 추론 능력을 향상시킵니다. 우리는 시뮬레이션된 테이블탑 조작 도메인 세 가지와 실제 로봇 도메인에서 우리의 접근 방식의 효과를 평가하고, LLM 기반 로봇 추론 분야에서 최신 기술을 개선함을 보여줍니다. 프로젝트 웹사이트: https://statler-lm.github.io/
비전 트랜스포머(ViTs)는 컴퓨터 비전 분야에 큰 변화를 가져왔으며, 주기적으로 컨볼루션 신경망(CNNs)에 비해 비전 작업에서 우수한 성능을 보여주고 있습니다. 아직 어떤 모델 유형이 더 우수한지에 대한 결론은 나지 않았지만, 각각은 학습과 일반화 성능을 형성하는 고유한 귀납적 편향을 가지고 있습니다. 예를 들어, ViTs는 초기 계층에서의 비-지역적 특징 의존성과 학습 유연성을 향상시키는 자기 주의 메커니즘을 통해 컨텍스트 외부의 이미지 정보를 더 효과적으로 무시할 수 있는 흥미로운 특성을 가지고 있습니다. 우리는 이러한 컨텍스트 외부 정보를 무시하는 능력(우리는 이를 패치 선택성이라고 명명함)과 초기 계층에서 비-지역적 방식으로 컨텍스트 내부 정보를 통합하는 능력이 ViTs가 가림 현상을 더 쉽게 처리할 수 있게 한다고 가정합니다. 본 연구에서는 패치 믹싱 데이터 증강을 통해 이러한 패치 선택성 능력을 CNNs에 효과적으로 하드와이어링하여 시뮬레이션할 수 있는지 확인하는 것을 목표로 합니다. 패치 믹싱은 다른 이미지의 패치를 훈련 이미지에 삽입하고 두 이미지 클래스 간의 레이블을 보간하는 방식으로 구성됩니다. 구체적으로, 우리는 최신 ViTs와 CNNs를 패치 믹싱으로 훈련시켜 컨텍스트 외부 패치를 무시하고 자연스러운 가림 현상을 처리하는 능력에 미치는 영향을 평가합니다. 우리는 패치 믹싱으로 훈련된 ViTs가 성능이 향상되거나 저하되지 않지만, CNNs는 컨텍스트 외부 정보를 무시하는 새로운 능력을 획득하고 가림 벤치마크에서 성능이 향상된다는 것을 발견했습니다. 이를 통해 이 훈련 방법이 CNNs에서 ViTs가 이미 가지고 있는 능력을 시뮬레이션하는 방법이라는 결론을 내렸습니다. 우리는 패치 믹싱 구현과 제안된 데이터셋을 공개하여 누구나 사용할 수 있도록 할 것입니다. 프로젝트 페이지: https://arielnlee.github.io/PatchMixing/
딥러닝 이론에서 표현의 공분산 행렬은 네트워크의 학습 가능성을 검토하기 위한 대리 지표로 사용됩니다. 트랜스포머의 성공에 영감을 받아, 우리는 무한 깊이와 무한 폭의 비례적 극한에서 스킵 연결이 적용된 수정된 소프트맥스 기반 어텐션 모델의 공분산 행렬을 연구합니다. 초기화 시점에서 극한 분포는 깊이 대 폭 비율로 인덱싱된 확률 미분 방정식(SDE)으로 설명될 수 있음을 보입니다. 잘 정의된 확률적 극한을 달성하기 위해, 트랜스포머의 어텐션 메커니즘은 소프트맥스 출력을 항등 행렬로 중심화하고, 소프트맥스 로짓을 폭에 의존하는 온도 매개변수로 스케일링하여 수정됩니다. 우리는 해당 SDE를 통해 네트워크의 안정성을 검토하며, 드리프트와 확산의 스케일이 잔차 연결의 도움으로 우아하게 제어될 수 있음을 보입니다. 안정적인 SDE의 존재는 매우 큰 깊이와 폭에서도 공분산 구조가 잘 동작함을 의미하며, 이는 딥 어텐션 모델에서 흔히 발생하는 랭크 퇴화 문제를 방지합니다. 마지막으로, 우리는 시뮬레이션을 통해 SDE가 해당 유한 크기 모델을 놀라울 정도로 잘 설명함을 보입니다. 이러한 구조적 수정을 '셰이프드 트랜스포머(Shaped Transformer)'라고 명명합니다.
본 논문은 효율적인 팬옵틱 분할을 위한 마스크 트랜스포머의 학습을 용이하게 하는 새로운 메커니즘을 제시하며, 이를 통해 팬옵틱 분할의 배포를 대중화합니다. 우리는 팬옵틱 분할의 학습 목표가 높은 복잡성으로 인해 필연적으로 더 높은 거짓 양성 패널티를 초래한다는 것을 관찰했습니다. 이러한 불균형 손실은 종단간(end-to-end) 마스크 트랜스포머 기반 아키텍처의 학습 과정을 어렵게 만들며, 특히 효율적인 모델에서 더욱 그러합니다. 본 논문에서는 팬옵틱 분할 학습 중에 마스크 예측과 클래스 예측에 완화를 추가하는 ReMaX를 제안합니다. 우리는 이러한 간단한 완화 기법을 통해 모델이 추론 시 추가적인 계산 비용 없이도 명확한 차이로 일관되게 개선될 수 있음을 입증합니다. MobileNetV3-Small과 같은 효율적인 백본과 우리의 방법을 결합함으로써, COCO, ADE20K 및 Cityscapes 데이터셋에서 효율적인 팬옵틱 분할을 위한 새로운 최첨단 결과를 달성합니다. 코드와 사전 학습된 체크포인트는 https://github.com/google-research/deeplab2에서 제공될 예정입니다.