번역이 포함된 일일 선별된 AI 연구 논문
우리는 실시간 상호작용 이미지 생성을 위해 설계된 StreamDiffusion을 소개한다. 기존의 확산 모델들은 텍스트나 이미지 프롬프트로부터 이미지를 생성하는 데 능숙하지만, 실시간 상호작용에서는 종종 한계를 보인다. 이러한 한계는 메타버스, 라이브 비디오 스트리밍, 방송과 같이 연속적인 입력이 필요한 시나리오에서 특히 두드러지며, 이러한 상황에서는 높은 처리량이 필수적이다. 이를 해결하기 위해, 우리는 기존의 순차적 노이즈 제거 과정을 배치 노이즈 제거 프로세스로 변환하는 새로운 접근 방식을 제시한다. Stream Batch는 기존의 대기 후 상호작용 방식을 제거하고, 유연하고 높은 처리량의 스트림을 가능하게 한다. 데이터 입력과 모델 처리량 간의 주파수 차이를 처리하기 위해, 우리는 스트리밍 프로세스를 병렬화하기 위한 새로운 입력-출력 큐를 설계했다. 또한, 기존의 확산 파이프라인은 추가적인 U-Net 계산이 필요한 classifier-free guidance(CFG)를 사용한다. 이러한 중복 계산을 완화하기 위해, 우리는 부정 조건부 노이즈 제거 단계를 단 한 번 또는 심지어 제로로 줄이는 새로운 잔류 classifier-free guidance(RCFG) 알고리즘을 제안한다. 더불어, 전력 소비를 최적화하기 위해 확률적 유사성 필터(SSF)를 도입했다. 우리의 Stream Batch는 다양한 노이즈 제거 수준에서 순차적 노이즈 제거 방법 대비 약 1.5배의 속도 향상을 달성했다. 제안된 RCFG는 기존 CFG 대비 최대 2.05배 빠른 속도를 보였다. 제안된 전략과 기존의 성숙한 가속 도구를 결합하여, 하나의 RTX4090에서 이미지-이미지 생성이 최대 91.07fps를 달성하며, Diffusers에서 개발한 AutoPipeline의 처리량을 59.56배 이상 향상시켰다. 또한, 우리가 제안한 StreamDiffusion은 하나의 RTX3060에서 2.39배, 하나의 RTX4090에서 1.99배의 에너지 소비를 크게 줄였다.
우리는 다양한 조건 신호로부터 고품질의 비디오와 이를 매칭하는 오디오를 합성할 수 있는 언어 모델인 VideoPoet를 소개합니다. VideoPoet는 이미지, 비디오, 텍스트, 오디오를 포함한 다중 모달 입력을 처리하는 디코더 전용 트랜스포머 아키텍처를 사용합니다. 학습 프로토콜은 대형 언어 모델(LLM)과 유사하게 사전 학습과 작업별 적응의 두 단계로 구성됩니다. 사전 학습 단계에서 VideoPoet는 자기회귀적 트랜스포머 프레임워크 내에서 다중 모달 생성 목표를 혼합하여 통합합니다. 사전 학습된 LLM은 다양한 비디오 생성 작업에 적응할 수 있는 기반으로 사용됩니다. 우리는 제로샷 비디오 생성에서 모델의 최첨단 능력을 입증하는 실험 결과를 제시하며, 특히 VideoPoet가 고충실도 모션을 생성할 수 있는 능력을 강조합니다. 프로젝트 페이지: http://sites.research.google/videopoet/
본 논문은 단일 소비자용 GPU가 장착된 개인용 컴퓨터(PC)에서 고속으로 동작하는 대규모 언어 모델(LLM) 추론 엔진인 PowerInfer를 소개한다. PowerInfer 설계의 핵심은 LLM 추론에 내재된 높은 지역성을 활용하는 것으로, 이는 뉴런 활성화에서의 멱법칙 분포로 특징지어진다. 이러한 분포는 소수의 뉴런, 즉 핫 뉴런(hot neurons)이 입력에 관계없이 지속적으로 활성화되는 반면, 대다수의 뉴런, 즉 콜드 뉴런(cold neurons)은 특정 입력에 따라 변한다는 것을 나타낸다. PowerInfer는 이러한 통찰을 바탕으로 GPU-CPU 하이브리드 추론 엔진을 설계한다: 핫 뉴런은 빠른 접근을 위해 GPU에 미리 로드되고, 콜드 뉴런은 CPU에서 계산되어 GPU 메모리 요구량과 CPU-GPU 간 데이터 전송을 크게 줄인다. 또한 PowerInfer는 적응형 예측기와 뉴런 인지 희소 연산자를 통합하여 뉴런 활성화와 계산적 희소성의 효율성을 최적화한다. 평가 결과, PowerInfer는 단일 NVIDIA RTX 4090 GPU에서 다양한 LLM(OPT-175B 포함)에 대해 평균 13.20 토큰/s, 최대 29.08 토큰/s의 토큰 생성 속도를 달성하며, 이는 최고급 서버용 A100 GPU의 성능과 비교해 18% 낮은 수준이다. 이는 모델 정확도를 유지하면서 llama.cpp를 최대 11.69배까지 크게 능가하는 성능을 보인다.
컨텍스트 내에서(즉, 몇 가지 데모나 간단한 지시만으로) 다중 모달 작업을 쉽게 해결하는 인간의 능력은 현재의 다중 모달 시스템이 크게 모방하지 못하는 부분입니다. 본 연구에서는 대규모 다중 모달 모델의 작업에 구애받지 않는 컨텍스트 내 학습 능력이 효과적인 스케일 업을 통해 크게 향상될 수 있음을 보여줍니다. 우리는 통합된 자기회귀 목표로 대규모 다중 모달 시퀀스에 대해 훈련된 370억 개의 파라미터를 가진 생성형 다중 모달 모델인 Emu2를 소개합니다. Emu2는 시각적 프롬프팅 및 객체 기반 생성과 같이 즉석에서 추론이 필요한 작업을 해결하는 데까지 이르는 강력한 다중 모달 컨텍스트 내 학습 능력을 보여줍니다. 이 모델은 퓨샷 설정에서 여러 다중 모달 이해 작업에서 새로운 기록을 세웁니다. 특정 지시를 따르도록 지시 튜닝을 받은 Emu2는 대규모 다중 모달 모델을 위한 질문 응답 벤치마크 및 개방형 주제 기반 생성과 같은 도전적인 작업에서 새로운 최첨단 성과를 달성합니다. 이러한 성과는 Emu2가 다양한 다중 모달 작업을 위한 기본 모델 및 범용 인터페이스로 사용될 수 있음을 보여줍니다. 향후 연구를 촉진하기 위해 코드와 모델을 공개적으로 제공합니다.
단일 초상화 이미지로부터 감정이 담긴 말하는 얼굴을 생성하는 것은 여전히 큰 도전 과제로 남아 있습니다. 특히, 표현력 있는 감정적 말하기와 정확한 립싱크를 동시에 달성하는 것은 매우 어려운데, 이는 립싱크의 정확성을 위해 표현력이 희생되는 경우가 많기 때문입니다. 많은 기존 연구에서 널리 채택된 LSTM 네트워크는 감정 표현의 미묘한 차이와 변화를 포착하는 데 종종 실패합니다. 이러한 문제를 해결하기 위해, 우리는 다양한 표현과 정확한 립싱크를 동시에 생성하도록 설계된 2단계 확산 기반 오디오 주도 프레임워크인 DREAM-Talk를 소개합니다. 첫 번째 단계에서는, 오디오와 참조된 감정 스타일에 따라 다양하고 역동적인 감정 표현과 머리 자세를 생성하는 새로운 확산 모듈인 EmoDiff를 제안합니다. 립 모션과 오디오 간의 강한 상관관계를 고려하여, 오디오 특징과 감정 스타일을 사용하여 립싱크 정확도를 향상시킨 동적 요소를 개선합니다. 이를 위해, 우리는 프록시 3D 아바타에서 임의의 초상화로 표현과 립 모션을 전달하는 비디오-투-비디오 렌더링 모듈을 배치합니다. 양적 및 질적으로, DREAM-Talk는 표현력, 립싱크 정확도 및 지각적 품질 측면에서 최첨단 방법들을 능가하는 성능을 보여줍니다.
디퓨전 기반 모델들은 텍스트-이미지 생성에서 인상적인 능력을 보여주었으며, 하나 또는 소수의 참조 이미지를 통해 맞춤형 개념을 생성해야 하는 주체 기반 생성의 개인화된 응용 분야에서 기대를 모으고 있습니다. 그러나 기존의 미세 조정 기반 방법들은 주체 학습과 사전 학습된 모델의 생성 능력 유지 사이의 균형을 맞추는 데 실패하고 있습니다. 또한, 추가적인 이미지 인코더를 활용하는 다른 방법들은 인코딩 압축으로 인해 주체의 중요한 세부 사항을 잃어버리는 경향이 있습니다. 이러한 문제를 해결하기 위해, 우리는 참조 정보를 거친 단계에서 세밀한 단계로 주입하여 주체 기반 이미지 생성을 더 효과적으로 달성하는 새로운 방법인 DreamTurner를 제안합니다. DreamTurner는 거친 주체 정체성 보존을 위한 주체 인코더를 도입하며, 압축된 일반 주체 특징들은 시각-텍스트 교차 주의 레이어 이전에 주의 레이어를 통해 도입됩니다. 그런 다음, 사전 학습된 텍스트-이미지 모델 내의 자기 주의 레이어를 자기-주체-주의 레이어로 수정하여 목표 주체의 세부 사항을 정제합니다. 생성된 이미지는 자기-주체-주의에서 참조 이미지와 자신으로부터 세부 특징을 쿼리합니다. 자기-주체-주의는 맞춤형 주체의 세부 특징을 유지하는 효과적이고 우아하며 학습이 필요 없는 방법으로, 추론 중에 플러그 앤 플레이 솔루션으로 사용될 수 있다는 점을 강조할 가치가 있습니다. 마지막으로, 추가적인 주체 기반 미세 조정을 통해 DreamTurner는 텍스트나 포즈와 같은 다른 조건으로 제어될 수 있는 주체 기반 이미지 생성에서 뛰어난 성능을 달성합니다. 더 자세한 내용은 프로젝트 페이지(https://dreamtuner-diffusion.github.io/)를 방문해 주세요.
단안 깊이 추정 방법론은 표준 벤치마크에서 상당한 진전을 이루었지만, 제로샷 메트릭 깊이 추정은 여전히 해결되지 않은 문제로 남아 있습니다. 주요 과제로는 실내와 실외 장면의 공동 모델링이 있는데, 이는 종종 RGB와 깊이의 분포가 크게 다르며, 알려지지 않은 카메라 내부 파라미터로 인한 깊이 스케일 모호성이 포함됩니다. 최근 연구에서는 실내와 실외 장면을 공동으로 모델링하기 위한 특수화된 멀티헤드 아키텍처를 제안했습니다. 이와 대조적으로, 우리는 일반적이고 작업에 구애받지 않는 디퓨전 모델을 주장하며, 실내와 실외 장면의 공동 모델링을 가능하게 하는 로그 스케일 깊이 파라미터화, 스케일 모호성을 처리하기 위한 시야각(FOV) 조건화, 그리고 훈련 데이터셋의 제한된 카메라 내부 파라미터를 넘어서기 위해 훈련 중에 FOV를 합성적으로 증강하는 등의 여러 발전을 이루었습니다. 더욱이, 일반적인 것보다 더 다양한 훈련 혼합물과 효율적인 디퓨전 파라미터화를 사용함으로써, 우리의 방법인 DMD(Diffusion for Metric Depth)는 적은 수의 노이즈 제거 단계만을 사용하여 제로샷 실내 데이터셋에서 상대 오차(REL)를 25% 감소시키고, 제로샷 실외 데이터셋에서는 현재 SOTA 대비 33% 감소를 달성했습니다. 개요는 https://diffusion-vision.github.io/dmd에서 확인할 수 있습니다.
본 논문에서는 이미지 편집용 확산 모델을 비디오 편집 애플리케이션에 적합하도록 개선한, 미니멀리스트적이면서도 강력한 Fairy를 소개합니다. 우리의 접근 방식은 앵커 기반 프레임 간 주의 메커니즘을 중심으로, 확산 특징을 프레임 간에 암묵적으로 전파하여 우수한 시간적 일관성과 높은 충실도의 합성을 보장합니다. Fairy는 이전 모델들의 메모리 및 처리 속도 한계를 해결할 뿐만 아니라, 고유한 데이터 증강 전략을 통해 시간적 일관성을 개선합니다. 이 전략은 모델이 소스 및 대상 이미지 모두에서 아핀 변환에 대해 등변성을 갖도록 합니다. Fairy는 놀라울 정도로 효율적이며, 120프레임의 512x384 비디오(30 FPS 기준 4초 길이)를 단 14초 만에 생성하여 기존 방법들보다 최소 44배 빠른 성능을 보입니다. 1000개의 생성 샘플을 포함한 포괄적인 사용자 연구를 통해, 우리의 접근 방식이 우수한 품질을 제공하며 기존 방법들을 결정적으로 능가한다는 사실이 확인되었습니다.
디퓨전 모델은 비디오 생성의 사실상 표준 패러다임으로 부상했습니다. 그러나 웹 규모의 다양한 품질 데이터에 의존하기 때문에 종종 시각적으로 매력적이지 않고 텍스트 프롬프트와 일치하지 않는 결과를 생성합니다. 이 문제를 해결하기 위해, 우리는 인간 피드백을 통해 텍스트-투-비디오 디퓨전 모델을 지시하는 InstructVideo를 제안합니다. InstructVideo는 두 가지 핵심 요소를 가지고 있습니다: 1) 전체 DDIM 샘플링 체인을 통한 생성으로 인한 보상 미세 조정의 비용을 완화하기 위해, 우리는 보상 미세 조정을 편집으로 재구성합니다. 디퓨전 프로세스를 활용하여 샘플링된 비디오를 손상시킴으로써, InstructVideo는 DDIM 샘플링 체인의 부분적 추론만을 요구하여 미세 조정 비용을 줄이고 효율성을 향상시킵니다. 2) 인간 선호도를 위한 전용 비디오 보상 모델의 부재를 완화하기 위해, 우리는 HPSv2와 같은 기존의 이미지 보상 모델을 재활용합니다. 이를 위해, 우리는 세그먼트 기반 희소 샘플링을 통해 보상 신호를 제공하는 세그먼트 비디오 보상(Segmental Video Reward)과 미세 조정 중 시간적 모델링 저하를 완화하는 시간적 감쇠 보상(Temporally Attenuated Reward) 메커니즘을 제안합니다. 정성적 및 정량적 실험을 통해, InstructVideo에서 이미지 보상 모델을 사용하는 것이 생성된 비디오의 시각적 품질을 크게 향상시키면서도 일반화 능력을 저해하지 않음을 검증했습니다. 코드와 모델은 공개될 예정입니다.
우리는 단일 영상 3D 객체 복원을 38 FPS로 수행할 수 있는 초고속 접근법인 Splatter Image를 소개한다. Splatter Image는 최근 다중 뷰 복원에서 실시간 렌더링, 빠른 학습, 우수한 확장성을 제공한 Gaussian Splatting을 기반으로 한다. 우리는 Gaussian Splatting을 단일 영상 복원 설정에 처음으로 적용했다. 우리의 접근법은 학습 기반이며, 테스트 시 복원은 신경망의 순전파 평가만을 필요로 한다. Splatter Image의 주요 혁신은 놀라울 정도로 직관적인 설계에 있다: 이 방법은 2D 이미지-투-이미지 네트워크를 사용하여 입력 이미지를 픽셀당 하나의 3D 가우시안으로 매핑한다. 결과적으로 생성된 가우시안들은 이미지 형태, 즉 Splatter Image를 갖게 된다. 우리는 이 방법을 더 많은 이미지를 입력으로 통합할 수 있도록 확장했으며, 이를 위해 교차 뷰 어텐션을 추가했다. 렌더러의 속도(588 FPS) 덕분에, 우리는 단일 GPU를 사용하여 학습을 진행하면서 각 반복마다 전체 이미지를 생성하여 LPIPS와 같은 지각 메트릭을 최적화할 수 있다. 표준 벤치마크에서 우리는 빠른 복원 속도뿐만 아니라 PSNR, LPIPS 및 기타 메트릭 측면에서 최근의 훨씬 더 비용이 많이 드는 베이스라인보다 더 나은 결과를 보여준다.
최근 Segment Anything Model(SAM)은 강력한 세분화 능력을 보여주며 컴퓨터 비전 분야에서 큰 주목을 받고 있습니다. SAM을 기반으로 한 다양한 후속 연구들이 프리트레인된 SAM을 활용하여 다양한 애플리케이션을 개발하고 다운스트림 비전 작업에서 인상적인 성능을 달성했습니다. 그러나 SAM은 무거운 아키텍처로 구성되어 있으며 대규모 계산 능력을 필요로 하기 때문에, 계산 자원이 제한된 에지 디바이스에서의 추가적인 적용이 어렵습니다. 이를 위해 본 논문에서는 강력한 제로샷 성능을 유지하면서도 작은 Segment Anything Model(TinySAM)을 얻기 위한 프레임워크를 제안합니다. 먼저, 온라인 하드 프롬프트 샘플링 전략을 사용한 전체 단계 지식 증류 방법을 제안하여 경량화된 학생 모델을 증류합니다. 또한, 프롬프트 가능한 세분화 작업에 사후 훈련 양자화를 적용하여 계산 비용을 더욱 줄였습니다. 더 나아가, 계층적인 모든 것 세분화 전략을 제안하여 모든 것 추론 속도를 2배 가속화하면서도 성능 저하가 거의 없도록 했습니다. 이러한 제안된 방법들을 통해 우리의 TinySAM은 계산량을 크게 줄이고 효율적인 Segment Anything 작업의 한계를 넓혔습니다. 다양한 제로샷 전이 작업에 대한 광범위한 실험을 통해 우리의 TinySAM이 비교 대상 방법들에 비해 현저히 우수한 성능을 보임을 입증했습니다. 사전 훈련된 모델과 코드는 https://github.com/xinghaochen/TinySAM과 https://gitee.com/mindspore/models/tree/master/research/cv/TinySAM에서 제공될 예정입니다.
본 연구는 Gated Recurrent Cached (GRC) attention을 사용하여 자기 주의(self-attention) 메커니즘을 토큰의 미분 가능한 메모리 캐시로 확장한 새로운 Transformer 모델인 Cached Transformer를 소개합니다. GRC attention은 과거와 현재 토큰 모두에 주의를 기울일 수 있게 하여 주의의 수용 영역을 증가시키고 장거리 의존성을 탐구할 수 있도록 합니다. 반복적인 게이팅 유닛을 사용하여 캐시를 지속적으로 업데이트함으로써, 우리의 모델은 언어 모델링, 기계 번역, ListOPs, 이미지 분류, 객체 탐지, 인스턴스 세그멘테이션을 포함한 여섯 가지 언어 및 비전 작업에서 상당한 발전을 이루었습니다. 더 나아가, 우리의 접근 방식은 언어 모델링과 같은 작업에서 이전의 메모리 기반 기술을 능가하며 더 넓은 범위의 상황에 적용될 수 있는 능력을 보여줍니다.
인간 수준의 민첩성을 달성하기 위해서는 로봇이 다중 감각 정보를 통해 공간 인식을 추론하고 접촉 상호작용을 이해할 수 있어야 합니다. 새로운 물체를 손 안에서 조작하는 동안, 이러한 공간 인식은 물체의 자세와 형태를 추정하는 것을 포함합니다. 현재 손 안에서의 인식 기술은 주로 시각에 의존하며, 사전에 알려진 물체의 추적에 제한되어 있습니다. 더욱이, 조작 중에는 물체가 시각적으로 가려지는 경우가 빈번히 발생하여, 현재 시스템은 가려지지 않은 작업을 넘어서는 데 한계가 있습니다. 우리는 다중 손가락 로봇 손에 시각과 촉각 감지를 결합하여 손 안에서 물체의 자세와 형태를 추정합니다. 우리의 방법인 NeuralFeels는 신경 필드를 온라인으로 학습하여 물체의 기하학적 구조를 인코딩하고, 자세 그래프 문제를 최적화하여 이를 공동으로 추적합니다. 우리는 시뮬레이션과 실제 환경에서 다중 감각 손 안 인식을 연구하며, 자세 감지 기반 정책을 통해 다양한 물체와 상호작용합니다. 실험 결과, 최종 재구성 F-점수는 81%이며, 평균 자세 오차는 4.7mm로, CAD 모델이 알려진 경우 2.3mm로 감소합니다. 또한, 심각한 시각적 가림 상황에서 시각만 사용한 방법 대비 최대 94%의 추적 성능 향상을 관찰했습니다. 우리의 결과는 촉각이 최소한 시각적 추정을 개선하고, 최대한 시각적 추정의 모호성을 해소할 수 있음을 보여줍니다. 우리는 이 분야의 벤치마킹을 위한 한 걸음으로 70개의 실험 데이터셋인 FeelSight를 공개합니다. 다중 감각 정보에 기반한 우리의 신경 표현은 로봇의 민첩성을 향상시키기 위한 인식의 기반으로 활용될 수 있습니다. 비디오는 프로젝트 웹사이트 https://suddhu.github.io/neural-feels/에서 확인할 수 있습니다.
텍스트 기반 확산 모델은 이미지 및 비디오 생성 분야에 혁신을 가져왔으며, 최적화 기반 3D 객체 합성에도 성공적으로 적용되어 왔습니다. 본 연구에서는 이와 달리 상대적으로 덜 탐구된 텍스트-투-4D 설정에 초점을 맞추어, 시간 차원을 추가한 점수 증류 방법을 통해 동적이고 애니메이션된 3D 객체를 합성합니다. 기존 연구와 비교하여, 우리는 새로운 조합적 생성 기반 접근법을 추구하며, 텍스트-투-이미지, 텍스트-투-비디오, 그리고 3D 인식 다중 뷰 확산 모델을 결합하여 4D 객체 최적화 과정 중 피드백을 제공함으로써 시간적 일관성, 고품질 시각적 외관, 그리고 현실적인 기하학을 동시에 강화합니다. 우리의 방법인 Align Your Gaussians(AYG)는 변형 필드를 포함한 동적 3D 가우시안 스플래팅을 4D 표현으로 활용합니다. AYG의 핵심은 움직이는 3D 가우시안의 분포를 규제하여 최적화를 안정화하고 움직임을 유도하는 새로운 방법입니다. 또한, 우리는 모션 증폭 메커니즘과 새로운 자기회귀 합성 방식을 제안하여 더 긴 생성을 위해 여러 4D 시퀀스를 생성하고 결합합니다. 이러한 기술들은 생동감 있는 동적 장면을 합성하고, 기존 연구를 질적 및 양적으로 능가하며, 최첨단 텍스트-투-4D 성능을 달성할 수 있게 합니다. 가우시안 4D 표현 덕분에, 우리가 보여주듯이 다양한 4D 애니메이션을 원활하게 결합할 수 있습니다. AYG는 애니메이션, 시뮬레이션, 디지털 콘텐츠 제작 및 합성 데이터 생성에 유망한 가능성을 열어줍니다.
최근 생성형 AI의 발전은 특히 텍스트 프롬프트 제어와 관련하여 이미지 및 비디오 편집을 크게 향상시켰습니다. 최첨단 접근 방식은 주로 확산 모델(diffusion models)에 의존하여 이러한 작업을 수행합니다. 그러나 확산 기반 방법의 계산 요구량은 상당하며, 대규모의 짝지어진 데이터셋을 학습에 필요로 하기 때문에 실제 응용 프로그램에서의 배포가 어려운 실정입니다. 본 연구는 텍스트 기반 비디오 편집 과정을 두 개의 별도 단계로 나누어 이 문제를 해결합니다. 첫 번째 단계에서는 기존의 텍스트-이미지 확산 모델을 활용하여 추가적인 미세 조정 없이 몇 개의 키프레임을 동시에 편집합니다. 두 번째 단계에서는 비자기회귀 마스크 생성 트랜스포머(non-autoregressive masked generative transformers)를 기반으로 한 MaskINT라는 효율적인 모델을 도입합니다. 이 모델은 중간 프레임에서 제공되는 구조적 지침을 활용하여 키프레임 간의 프레임 보간에 특화되어 있습니다. 우리의 포괄적인 실험 세트는 MaskINT가 다른 확산 기반 방법론과 비교했을 때의 효율성과 효과를 입증합니다. 이 연구는 텍스트 기반 비디오 편집을 위한 실용적인 해결책을 제시하며, 이 분야에서 비자기회귀 마스크 생성 트랜스포머의 잠재력을 보여줍니다.
AI 연구 분야에서 대형 언어 모델(LLMs)의 최적화는 해당 분야의 실용적 응용과 지속 가능성을 발전시키기 위한 중요한 과제로 남아 있습니다. MIT의 송한 교수 연구실의 기초 연구를 바탕으로, 본 논문은 컨텍스트 프루닝을 통해 미니-GPT를 개발하는 새로운 접근 방식을 소개합니다. 우리의 방법론은 Phi-1.5와 같은 전통적인 LLMs의 계산 구조를 전략적으로 프루닝하여 핵심 기능을 유지하면서 모델 크기를 극적으로 줄이는 데 초점을 맞춥니다. 이 기술은 미국 법률, 의학 Q&A, 스카이림 대화, 영어-대만어 번역, 경제학 논문 등 다양한 복잡한 데이터셋에 적용되었습니다. 결과는 컨텍스트 프루닝이 단순한 이론적 개념이 아니라 도메인 특화적이고 자원 효율적인 LLMs를 개발하는 실용적인 도구로서의 효율성과 효과성을 강조합니다. 컨텍스트 프루닝은 도메인 특화적 LLMs를 구축하기 위한 유망한 방법이며, 본 연구는 향후 더 많은 하드웨어 컴퓨팅, 정교한 파인튜닝, 양자화를 통한 발전을 위한 초석입니다.
본 논문은 텍스트 조건부 확산 모델에서 Classifier-Free Guidance(CFG)의 역할을 추론 효율성 관점에서 포괄적으로 연구한 결과를 제시한다. 특히, 모든 확산 단계에 CFG를 적용하는 기본 선택을 완화하고, 대신 효율적인 가이던스 정책을 탐색한다. 이러한 정책의 발견을 미분 가능한 신경망 구조 탐색(Neural Architecture Search) 프레임워크 내에서 공식화한다. 연구 결과에 따르면, CFG가 제안하는 노이즈 제거 단계는 점점 단순한 조건부 단계와 일치하게 되어, 특히 노이즈 제거 과정의 후반부에서 CFG의 추가 신경망 평가가 불필요해진다. 이러한 통찰을 바탕으로, 노이즈 제거 과정이 수렴을 보일 때 신경망 평가를 적응적으로 생략하는 CFG의 효율적인 변형인 "Adaptive Guidance"(AG)를 제안한다. 실험 결과, AG는 CFG의 이미지 품질을 유지하면서 계산량을 25% 줄인다. 따라서 AG는 Guidance Distillation의 플러그 앤 플레이 대안으로, 후자의 속도 향상의 50%를 달성하면서도 학습이 필요 없고 부정 프롬프트를 처리할 수 있는 능력을 유지한다. 마지막으로, 확산 과정의 전반부에서 CFG의 추가적인 불필요성을 발견하고, 전체 신경망 함수 평가를 과거 점수 추정치의 단순한 아핀 변환으로 대체할 수 있음을 보인다. 이 방법은 LinearAG로 명명되었으며, 기준 모델에서 벗어나는 대신 더 저렴한 추론을 제공한다. 본 연구 결과는 조건부 노이즈 제거 과정의 효율성에 대한 통찰을 제공함으로써 텍스트 조건부 확산 모델의 보다 실용적이고 신속한 배포에 기여한다.
신경망 기반 3D 장면 표현은 2D 이미지로부터 3D 재구성을 위한 큰 잠재력을 보여주고 있습니다. 그러나 복잡한 장면의 실제 촬영 데이터를 재구성하는 것은 여전히 도전적인 과제로 남아 있습니다. 기존의 일반적인 3D 재구성 방법들은 미세한 기하학적 디테일을 표현하는 데 어려움을 겪으며, 대규모 장면의 반사 표면을 충분히 모델링하지 못하는 경우가 많습니다. 반사 표면에 명시적으로 초점을 맞춘 기법들은 더 나은 반사 매개변수화를 활용하여 복잡하고 세밀한 반사를 모델링할 수 있지만, 이러한 방법들은 반사 성분과 비반사 성분이 모두 존재하는 실제 무제한 시나리오에서 강건하지 못한 경우가 많습니다. 본 연구에서는 반사가 있는 복잡한 대규모 장면을 재구성할 수 있는 범용 3D 재구성 방법인 UniSDF를 제안합니다. 우리는 뷰 기반 및 반사 기반 색상 예측 매개변수화 기법을 모두 조사하였으며, 이러한 표현들을 3D 공간에서 명시적으로 혼합하는 것이 특히 반사 표면에 대해 기하학적으로 더 정확한 표면 재구성을 가능하게 한다는 것을 발견했습니다. 또한, 이 표현을 coarse-to-fine 방식으로 학습되는 다중 해상도 그리드 백본과 결합하여 기존 방법보다 더 빠른 재구성을 가능하게 했습니다. 객체 수준 데이터셋인 DTU, Shiny Blender와 무제한 데이터셋인 Mip-NeRF 360 및 Ref-NeRF real에 대한 광범위한 실험을 통해 우리의 방법이 미세한 디테일과 반사 표면을 가진 복잡한 대규모 장면을 강건하게 재구성할 수 있음을 입증했습니다. 자세한 내용은 프로젝트 페이지(https://fangjinhuawang.github.io/UniSDF)를 참조하십시오.
신경 방사 필드(Neural Radiance Fields)는 3D 장면의 외관을 모델링하는 데 있어 뛰어난 성능을 달성하였다. 그러나 기존 접근법들은 여전히 광택 표면의 시점 의존적 외관, 특히 복잡한 실내 환경 조명 하에서의 모델링에 어려움을 겪고 있다. 일반적으로 환경 맵과 같은 원거리 조명을 가정하는 기존 방법과 달리, 우리는 근거리 조명 조건 하에서의 시점 의존적 효과를 더 잘 모델링하기 위해 학습 가능한 가우시안 방향 인코딩을 제안한다. 특히, 우리의 새로운 방향 인코딩은 근거리 조명의 공간적으로 변화하는 특성을 포착하고, 사전 필터링된 환경 맵의 동작을 모방한다. 그 결과, 다양한 거칠기 계수를 가진 3D 위치에서의 사전 컨볼루션된 스펙큘러 색상을 효율적으로 평가할 수 있게 된다. 또한, 우리는 반사 모델링에서 형상과 방사 간의 모호성을 완화하는 데 도움이 되는 데이터 기반 형상 사전 정보를 도입한다. 우리는 가우시안 방향 인코딩과 형상 사전 정보가 신경 방사 필드에서의 도전적인 스펙큘러 반사 모델링을 크게 개선하며, 외관을 더 물리적으로 의미 있는 구성 요소로 분해하는 데 도움이 됨을 보여준다.
딥 뉴럴 네트워크(DNN)를 사용하여 관측 데이터로부터 예측 모델을 학습하는 것은 다양한 실제 계획 및 제어 문제에 대한 유망한 새로운 접근 방식입니다. 그러나 일반적인 DNN은 효과적인 계획을 위해 너무 비구조적이며, 현재의 제어 방법들은 대부분 광범위한 샘플링이나 지역적 경사 하강법에 의존합니다. 본 논문에서는 효율적인 최적화 알고리즘에 적합한 통합 모델 학습 및 예측 제어를 위한 새로운 프레임워크를 제안합니다. 구체적으로, 시스템 역학에 대한 ReLU 신경망 모델로 시작하여 예측 정확도의 최소한의 손실을 유지하면서 중복 뉴런을 제거하여 점진적으로 희소화합니다. 이 이산 희소화 과정은 연속 문제로 근사화되어 모델 아키텍처와 가중치 매개변수의 종단 간 최적화를 가능하게 합니다. 희소화된 모델은 이후 혼합 정수 예측 제어기에 의해 사용되며, 이 제어기는 뉴런 활성화를 이진 변수로 표현하고 효율적인 분기 한정 알고리즘을 사용합니다. 우리의 프레임워크는 단순한 다층 퍼셉트론부터 복잡한 그래프 신경 역학에 이르기까지 다양한 DNN에 적용 가능합니다. 이 프레임워크는 물체 밀기, 구성적 물체 분류, 변형 가능한 물체 조작과 같은 복잡한 접촉 역학을 포함하는 작업을 효율적으로 처리할 수 있습니다. 수치 및 하드웨어 실험 결과, 공격적인 희소화에도 불구하고 우리의 프레임워크가 기존의 최신 방법들보다 더 나은 폐루프 성능을 제공할 수 있음을 보여줍니다.
최근의 단일 이미지에서 3D 생성으로의 전환 방법들은 주로 Score Distillation Sampling (SDS)을 채택하고 있습니다. 인상적인 결과에도 불구하고, 다중 뷰 불일치, 과포화 및 과도하게 매끄러운 텍스처, 그리고 느린 생성 속도와 같은 여러 가지 문제점들이 존재합니다. 이러한 문제점들을 해결하기 위해, 우리는 다중 뷰 편향과 텍스처 저하를 완화하고 생성 과정을 가속화하기 위한 Repaint123을 제안합니다. 핵심 아이디어는 2D 확산 모델의 강력한 이미지 생성 능력과 리페인팅 전략의 텍스처 정렬 능력을 결합하여 일관된 고품질 다중 뷰 이미지를 생성하는 것입니다. 또한, 리페인팅 과정에서 생성된 이미지의 품질을 향상시키기 위해 중첩 영역에 대한 가시성 인식 적응형 리페인팅 강도를 제안합니다. 생성된 고품질 및 다중 뷰 일관성 이미지는 빠른 3D 콘텐츠 생성을 위해 간단한 Mean Square Error (MSE) 손실을 사용할 수 있게 합니다. 우리는 광범위한 실험을 수행하고, 우리의 방법이 2분 만에 다중 뷰 일관성과 섬세한 텍스처를 가진 고품질 3D 콘텐츠를 생성하는 우수한 능력을 보여줍니다. 코드는 https://github.com/junwuzhang19/repaint123에서 확인할 수 있습니다.
생체의학 영상 데이터셋은 종종 작고 편향되어 있어, 예측 모델의 실제 성능이 내부 테스트에서 기대한 것보다 상당히 낮을 수 있습니다. 본 연구는 생성적 이미지 편집을 사용하여 데이터셋 변화를 시뮬레이션하고 생체의학 비전 모델의 실패 모드를 진단하는 방법을 제안합니다. 이는 배포 전 준비 상태를 평가하는 데 사용될 수 있어, 비용과 환자 피해를 잠재적으로 줄일 수 있습니다. 기존 편집 방법은 원치 않는 변화를 초래할 수 있으며, 질병과 치료 개입의 동시 발생으로 인해 잘못된 상관관계가 학습되어 실제 적용 가능성이 제한됩니다. 이를 해결하기 위해, 우리는 여러 흉부 X-ray 데이터셋에 대해 텍스트-이미지 확산 모델을 학습하고, 여러 마스크를 사용하여 변경을 제한하고 편집된 이미지의 일관성을 보장하는 새로운 편집 방법인 RadEdit을 소개합니다. 우리는 데이터셋 변화의 세 가지 유형인 획득 변화, 증상 변화, 그리고 인구 변화를 고려하며, 추가 데이터 수집 없이 실패를 진단하고 모델의 견고성을 정량화할 수 있음을 보여줌으로써 설명 가능한 AI를 위한 더 질적인 도구를 보완합니다.