번역이 포함된 일일 선별된 AI 연구 논문
최근 몇 년 동안 생성형 AI는 급속한 발전을 이루며 멀티모달 이해와 코드 생성 분야에서 전례 없는 역량을 달성했습니다. 이를 통해 멀티모달 대형 언어 모델(LLM)이 시각적 디자인을 직접 코드 구현으로 변환할 수 있는 새로운 프론트엔드 개발 패러다임이 가능해질 수 있습니다. 본 연구에서는 이를 Design2Code 작업으로 공식화하고 포괄적인 벤치마킹을 수행합니다. 구체적으로, 우리는 484개의 다양한 실제 웹페이지를 테스트 케이스로 수동으로 선별하고, 스크린샷을 입력으로 주어진 참조 웹페이지를 직접 렌더링하는 코드 구현을 현재의 멀티모달 LLM이 얼마나 잘 생성할 수 있는지 평가하기 위한 자동 평가 지표 세트를 개발했습니다. 또한 자동 평가 지표를 보완하기 위해 포괄적인 인간 평가를 수행했습니다. 우리는 멀티모달 프롬프팅 방법 세트를 개발하고 GPT-4V와 Gemini Pro Vision에서의 효과를 입증했습니다. 더 나아가, 우리는 오픈소스 Design2Code-18B 모델을 미세 조정하여 Gemini Pro Vision의 성능을 성공적으로 따라잡았습니다. 인간 평가와 자동 평가 지표 모두 GPT-4V가 이 작업에서 다른 모델들에 비해 가장 우수한 성능을 보임을 나타냈습니다. 또한, 평가자들은 GPT-4V가 생성한 웹페이지가 원래의 참조 웹페이지를 시각적 외관과 내용 측면에서 49%의 경우에서 대체할 수 있다고 판단했으며, 놀랍게도 64%의 경우에서 GPT-4V가 생성한 웹페이지가 원래의 참조 웹페이지보다 더 우수하다고 평가했습니다. 우리의 세분화된 평가 지표는 오픈소스 모델들이 입력 웹페이지에서 시각적 요소를 재현하고 올바른 레이아웃 디자인을 생성하는 데 주로 뒤처지는 반면, 텍스트 내용과 색상과 같은 측면은 적절한 미세 조정을 통해 크게 개선될 수 있음을 보여줍니다.
확산 모델(Diffusion models)은 데이터를 노이즈로 변환하는 전방향 경로를 역으로 추적하여 노이즈로부터 데이터를 생성하며, 이미지와 비디오와 같은 고차원의 지각적 데이터를 위한 강력한 생성 모델링 기술로 부상했습니다. 정류 흐름(Rectified flow)은 데이터와 노이즈를 직선으로 연결하는 최근의 생성 모델 공식입니다. 더 나은 이론적 특성과 개념적 단순성에도 불구하고, 아직까지는 표준 관행으로 확고히 자리 잡지 못했습니다. 본 연구에서는 지각적으로 관련된 스케일을 선호하도록 편향된 노이즈 샘플링 기법을 통해 정류 흐름 모델의 학습을 개선합니다. 대규모 연구를 통해, 고해상도 텍스트-이미지 합성에서 이 접근법이 기존의 확산 모델 공식보다 우수한 성능을 보임을 입증합니다. 또한, 두 가지 양식에 대해 별도의 가중치를 사용하고 이미지와 텍스트 토큰 간의 양방향 정보 흐름을 가능하게 하는 새로운 트랜스포머 기반 아키텍처를 제시합니다. 이를 통해 텍스트 이해, 타이포그래피, 그리고 인간 선호도 평가가 개선됩니다. 이 아키텍처가 예측 가능한 스케일링 경향을 따르며, 다양한 메트릭과 인간 평가를 통해 측정된 텍스트-이미지 합성의 개선과 더 낮은 검증 손실 간의 상관관계를 보임을 입증합니다. 우리의 가장 큰 모델은 최첨단 모델을 능가하며, 실험 데이터, 코드, 그리고 모델 가중치를 공개할 예정입니다.
이미지 기반 가상 피팅(VTON)은 매장 내 의류를 입은 대상 인물의 착용 이미지를 생성하는 것을 목표로 하는 도전적인 이미지 합성 작업으로, 단순히 높은 충실도의 착용 인물 이미지를 요구할 뿐만 아니라 의류 디테일의 완전한 보존도 필요로 합니다. 이 문제를 해결하기 위해, 우리는 사전 학습된 잠재 확산 모델의 힘을 활용하고 현실적이며 제어 가능한 가상 피팅을 위한 새로운 네트워크 아키텍처를 설계한 Outfitting over Try-on Diffusion(OOTDiffusion)을 제안합니다. 명시적인 워핑 과정 없이, 우리는 의류 디테일 특징을 학습하기 위한 outfitting UNet을 제안하고, 이를 확산 모델의 노이즈 제거 과정에서 제안된 outfitting fusion을 통해 대상 인물의 신체와 병합합니다. 우리의 outfitting UNet의 제어 가능성을 더욱 강화하기 위해, 우리는 훈련 과정에 outfitting dropout을 도입하여, 분류기 없는 가이던스를 통해 의류 특징의 강도를 조정할 수 있게 합니다. VITON-HD와 Dress Code 데이터셋에 대한 포괄적인 실험을 통해, OOTDiffusion이 임의의 인물과 의류 이미지에 대해 고품질의 착용 이미지를 효율적으로 생성하며, 충실도와 제어 가능성 모두에서 다른 VTON 방법들을 능가함을 보여주어, 가상 피팅 분야에서 인상적인 돌파구를 마련했습니다. 우리의 소스 코드는 https://github.com/levihsu/OOTDiffusion에서 확인할 수 있습니다.
멀티모달 모델의 발전은 기계가 비디오를 이해하는 방식에 있어 중요한 진전을 이루었습니다. 이러한 모델들은 짧은 비디오 클립을 분석하는 데 유망한 성과를 보여주었습니다. 그러나 영화와 같은 긴 형식의 비디오에 대해서는 종종 한계를 보입니다. 주요 장애물은 고품질이고 다양한 비디오 데이터의 부족과 이러한 데이터를 수집하거나 주석을 달기 위해 필요한 집중적인 작업입니다. 이러한 도전 과제에 직면하여, 우리는 긴 비디오를 위한 합성적이고 고품질의 데이터를 생성하기 위해 설계된 새로운 프레임워크인 MovieLLM을 제안합니다. 이 프레임워크는 GPT-4와 텍스트-이미지 모델의 힘을 활용하여 상세한 스크립트와 해당 시각 자료를 생성합니다. 우리의 접근 방식은 유연성과 확장성으로 인해 전통적인 데이터 수집 방법보다 우수한 대안으로 두드러집니다. 우리의 광범위한 실험은 MovieLLM이 생성한 데이터가 복잡한 비디오 내러티브를 이해하는 데 있어 멀티모달 모델의 성능을 크게 향상시키며, 기존 데이터셋의 부족과 편향성이라는 한계를 극복한다는 것을 검증합니다.
최근 비디오 생성 분야는 우수한 텍스트-이미지 생성 기술을 기반으로 상당한 발전을 이루었습니다. 본 연구에서는 이미지-비디오 생성을 위한 고해상도 프레임워크인 AtomoVideo를 제안합니다. 다중 세분화 이미지 주입을 기반으로, 주어진 이미지에 대한 생성된 비디오의 충실도를 높였습니다. 또한, 고품질 데이터셋과 훈련 전략 덕분에 우수한 시간적 일관성과 안정성을 유지하면서도 더 큰 모션 강도를 달성했습니다. 우리의 아키텍처는 비디오 프레임 예측 작업으로 유연하게 확장되어 반복적 생성을 통해 긴 시퀀스 예측이 가능합니다. 더 나아가, 어댑터 훈련 설계 덕분에 기존의 개인화 모델과 제어 가능한 모듈과 잘 결합될 수 있습니다. 정량적 및 정성적 평가를 통해 AtomoVideo는 인기 있는 방법들에 비해 우수한 결과를 달성했으며, 더 많은 예제는 프로젝트 웹사이트(https://atomo-video.github.io/)에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)은 일반적으로 사용되는 Transformer 아키텍처의 과도한 계산 및 메모리 요구 사항으로 인해 큰 도전에 직면해 있습니다. 반면, 상태 공간 모델(SSM)은 더 낮은 계산 복잡도를 제공하는 새로운 유형의 기반 네트워크 아키텍처이지만, 그 성능은 아직 Transformer를 완전히 따라잡지 못하고 있습니다. 본 논문은 SSM에서 계층 간 숨겨진 정보의 흐름을 강화하기 위한 새로운 접근 방식인 DenseSSM을 소개합니다. DenseSSM은 얕은 계층의 숨겨진 상태를 깊은 계층에 선택적으로 통합함으로써 최종 출력에 중요한 세부 정보를 유지합니다. Dense 연결을 통해 강화된 DenseSSM은 여전히 훈련 병렬화 및 추론 효율성을 유지합니다. 제안된 방법은 RetNet 및 Mamba와 같은 다양한 SSM 유형에 광범위하게 적용될 수 있습니다. 유사한 모델 크기에서 DenseSSM은 상당한 개선을 달성하며, 특히 DenseRetNet은 공개 벤치마크에서 원래 RetNet보다 최대 5%의 정확도 향상을 보여줍니다.
최근 멀티모달 대형 언어 모델(MLLMs)은 상당한 발전을 이루었습니다. 그러나 고해상도 이미지 내 복잡한 세부 사항을 정확하게 인식하고 이해하는 데는 여전히 과제가 남아 있습니다. 이는 강력한 MLLMs 개발에 필수적임에도 불구하고, 이 분야는 충분히 연구되지 않고 있습니다. 이러한 문제를 해결하기 위해, 본 연구에서는 다양한 해상도의 이미지를 낮은 계산 비용으로 처리하기 위해 특별히 설계된 새로운 아키텍처인 InfiMM-HD를 소개합니다. 이 혁신은 MLLMs의 고해상도 기능 확장을 가능하게 합니다. InfiMM-HD는 교차 주의 모듈과 시각적 윈도우를 통합하여 계산 비용을 줄입니다. 이 아키텍처 설계를 4단계 학습 파이프라인과 결합함으로써, 우리의 모델은 효율적이고 비용 효율적으로 향상된 시각적 인식을 달성합니다. 실험 연구는 InfiMM-HD의 견고성과 효과성을 입증하며, 관련 분야에서 새로운 탐구의 길을 열어줍니다. 코드와 모델은 https://huggingface.co/Infi-MM/infimm-hd에서 확인할 수 있습니다.
최근 텍스트-이미지 모델(예: Stable Diffusion)과 이에 대응하는 개인화 기술(예: DreamBooth 및 LoRA)의 발전으로 개인이 고품질이고 창의적인 이미지를 생성할 수 있게 되었습니다. 그러나 이러한 모델들은 훈련된 도메인 외부의 해상도로 이미지를 생성할 때 종종 한계를 겪습니다. 이러한 한계를 극복하기 위해, 우리는 해상도 제약 없이 다양한 종횡비로 이미지를 생성할 수 있도록 설계된 도메인 일관성 어댑터인 Resolution Adapter(ResAdapter)를 제안합니다. 정적 해상도의 이미지를 복잡한 후처리 작업으로 처리하는 기타 다중 해상도 생성 방법과 달리, ResAdapter는 동적 해상도로 이미지를 직접 생성합니다. 특히, 순수 해상도 사전 지식을 깊이 이해한 후, 일반 데이터셋으로 훈련된 ResAdapter는 개인화된 확산 모델의 원래 스타일 도메인을 유지하면서 해상도 제약 없는 이미지를 생성합니다. 포괄적인 실험을 통해 ResAdapter가 단 0.5M 파라미터로 임의의 확산 모델에 대해 유연한 해상도의 이미지를 처리할 수 있음을 입증했습니다. 더 확장된 실험에서는 ResAdapter가 ControlNet, IP-Adapter, LCM-LoRA와 같은 다른 모듈과 호환되어 광범위한 해상도에서 이미지를 생성할 수 있으며, ElasticDiffusion과 같은 기타 다중 해상도 모델에 통합되어 고해상도 이미지를 효율적으로 생성할 수 있음을 보여줍니다. 프로젝트 링크는 https://res-adapter.github.io입니다.
본 기술 보고서는 트랜스포머 아키텍처를 활용하여 빠른 피드포워드 3D 생성을 가능하게 하는 TripoSR 3D 재구성 모델을 소개한다. 이 모델은 단일 이미지로부터 0.5초 이내에 3D 메시를 생성한다. LRM 네트워크 아키텍처를 기반으로 구축된 TripoSR은 데이터 처리, 모델 설계, 훈련 기법에서 상당한 개선을 통합하였다. 공개 데이터셋에 대한 평가 결과, TripoSR은 다른 오픈소스 대안들에 비해 정량적 및 정성적으로 우수한 성능을 보여준다. MIT 라이선스 하에 공개된 TripoSR은 연구자, 개발자, 창작자들이 3D 생성 AI의 최신 기술을 활용할 수 있도록 지원하기 위해 개발되었다.
언어는 복잡한 개념을 소화 가능한 조각으로 나누는 방법을 제공합니다. 최근 로봇 모방 학습 연구에서는 시각적 관측과 언어로 지정된 상위 수준 작업이 주어졌을 때 동작을 예측하는 언어 조건부 정책을 사용합니다. 이러한 방법들은 자연어의 구조를 활용하여 다중 작업 데이터셋에서 의미적으로 유사한 작업들(예: "콜라 캔 집기"와 "사과 집기") 간에 데이터를 공유합니다. 그러나 작업들이 의미적으로 더 다양해질수록(예: "콜라 캔 집기"와 "컵에 따르기"), 작업 간 데이터 공유가 더 어려워지기 때문에 상위 수준 작업을 동작으로 매핑하는 학습에는 훨씬 더 많은 시범 데이터가 필요합니다. 작업과 동작을 연결하기 위해, 우리는 로봇에게 동작의 언어를 가르치는 통찰을 제안합니다. 이는 "팔을 앞으로 움직이기"와 같은 더 세분화된 구문으로 저수준 동작을 설명하는 것입니다. 이러한 언어 동작을 작업과 동작 사이의 중간 단계로 예측하도록 함으로써, 정책이 겉보기에는 관련 없는 작업들 간의 저수준 동작 구조를 학습하도록 강제합니다. 더 나아가, 언어 동작에 조건부된 정책은 실행 중 인간이 지정한 언어 동작을 통해 쉽게 수정될 수 있습니다. 이는 언어를 통한 인간의 개입으로부터 학습할 수 있는 유연한 정책의 새로운 패러다임을 가능하게 합니다. 우리의 방법인 RT-H는 언어 동작을 사용하여 동작 계층 구조를 구축합니다: 먼저 언어 동작을 예측하는 방법을 학습하고, 이를 기반으로 상위 수준 작업에 조건부된 동작을 예측하며, 모든 단계에서 시각적 맥락을 사용합니다. 우리는 RT-H가 이 언어-동작 계층 구조를 활용하여 다중 작업 데이터셋을 효과적으로 활용하여 더 견고하고 유연한 정책을 학습함을 보여줍니다. 이러한 정책들이 언어 개입에 대응할 수 있을 뿐만 아니라, 이러한 개입으로부터 학습하여 원격 조작 개입으로부터 학습하는 방법들을 능가할 수 있음을 보여줍니다. 우리의 웹사이트와 비디오는 https://rt-hierarchy.github.io에서 확인할 수 있습니다.
3D 자산 생성은 최근 텍스트 기반 2D 콘텐츠 생성의 성공에 영감을 받아 엄청난 관심을 받고 있습니다. 기존의 텍스트-3D 방법들은 사전 학습된 텍스트-이미지 확산 모델을 최적화 문제에 사용하거나 합성 데이터에 대해 미세 조정하는데, 이는 종종 배경이 없는 비사실적인 3D 객체를 생성합니다. 본 논문에서는 사전 학습된 텍스트-이미지 모델을 사전 지식으로 활용하고, 실제 데이터로부터 단일 디노이징 과정에서 다중 뷰 이미지를 생성하는 방법을 학습하는 방법을 제시합니다. 구체적으로, 우리는 텍스트-이미지 모델의 기존 U-Net 네트워크의 각 블록에 3D 볼륨 렌더링 및 프레임 간 주의 계층을 통합할 것을 제안합니다. 또한, 우리는 어떤 시점에서도 더 일관된 3D 이미지를 렌더링하는 자기회귀 생성 방식을 설계합니다. 우리는 실제 객체 데이터셋에 대해 모델을 학습시키고, 다양한 고품질 형태와 질감을 가진 인스턴스를 실제 환경에서 생성하는 능력을 보여줍니다. 기존 방법과 비교하여, 우리의 방법으로 생성된 결과는 일관적이며 시각적 품질이 우수합니다(-30% FID, -37% KID).
이미지-투-비디오(I2V) 생성 작업은 항상 개방된 도메인에서 높은 충실도를 유지하는 데 어려움을 겪습니다. 전통적인 이미지 애니메이션 기술은 주로 얼굴이나 인간 자세와 같은 특정 도메인에 초점을 맞추기 때문에 개방된 도메인으로 일반화하기 어렵습니다. 최근 디퓨전 모델을 기반으로 한 여러 I2V 프레임워크가 개방 도메인 이미지에 대한 동적 콘텐츠를 생성할 수 있지만 충실도를 유지하지 못합니다. 우리는 낮은 충실도의 두 가지 주요 요인이 이미지 세부 사항의 손실과 노이즈 제거 과정에서의 노이즈 예측 편향임을 발견했습니다. 이를 위해, 우리는 주류 비디오 디퓨전 모델에 적용할 수 있는 효과적인 방법을 제안합니다. 이 방법은 더 정확한 이미지 정보 보충과 노이즈 보정을 기반으로 높은 충실도를 달성합니다. 구체적으로, 주어진 이미지에 대해 우리의 방법은 먼저 입력 이미지 잠재 공간에 노이즈를 추가하여 더 많은 세부 사항을 유지한 다음, 노이즈 예측 편향을 완화하기 위해 적절한 보정을 통해 노이즈가 있는 잠재 공간을 제거합니다. 우리의 방법은 튜닝이 필요 없고 플러그 앤 플레이 방식입니다. 실험 결과는 우리의 접근 방식이 생성된 비디오의 충실도를 향상시키는 데 효과적임을 보여줍니다. 더 많은 이미지-투-비디오 생성 결과는 프로젝트 웹사이트(https://noise-rectification.github.io)를 참조하십시오.
다중 손가락을 가진 두 손으로 물체를 조작하는 것은 로봇공학 분야에서 오랜 기간 동안 해결되지 않은 과제로 남아있었다. 이는 많은 조작 작업이 접촉이 빈번하게 발생하는 특성을 지니며, 고차원의 양손 시스템을 조율하는 데 내재된 복잡성 때문이다. 본 연구에서는 두 손을 사용하여 다양한 병 모양 물체의 뚜껑을 비틀어 여는 문제를 다루며, 딥 강화 학습을 통해 시뮬레이션 환경에서 훈련된 정책이 실제 세계로 효과적으로 전이될 수 있음을 입증한다. 물리적 모델링, 실시간 인지, 보상 설계에 대한 새로운 공학적 통찰력을 바탕으로, 이 정책은 다양한 미지의 물체에 대해 일반화 능력을 보여주며 동적이고 민첩한 행동을 구현한다. 본 연구 결과는 딥 강화 학습과 시뮬레이션-실제 전이의 결합이 전례 없는 복잡성을 지닌 조작 문제를 해결하기 위한 유망한 접근법임을 강력하게 입증한다.
다중 뷰 비디오로부터 동적 장면의 사실적인 자유 시점 비디오(Free-Viewpoint Videos, FVVs)를 구성하는 것은 여전히 어려운 과제로 남아 있습니다. 최신 신경 렌더링 기술이 놀라운 발전을 이루었음에도 불구하고, 이러한 방법들은 일반적으로 오프라인 학습을 위해 전체 비디오 시퀀스를 필요로 하며 실시간 렌더링이 불가능합니다. 이러한 제약을 해결하기 위해, 우리는 실제 동적 장면의 효율적인 FVV 스트리밍을 위해 설계된 3DGStream 방법을 소개합니다. 우리의 방법은 프레임당 12초 이내의 빠른 실시간 재구성과 200 FPS의 실시간 렌더링을 달성합니다. 구체적으로, 우리는 장면을 표현하기 위해 3D 가우시안(3DGs)을 활용합니다. 프레임별로 3DGs를 직접 최적화하는 단순한 접근 방식 대신, 우리는 3DGs의 이동과 회전을 모델링하기 위해 간결한 신경 변환 캐시(Neural Transformation Cache, NTC)를 사용하여 각 FVV 프레임에 필요한 학습 시간과 저장 공간을 크게 줄였습니다. 또한, 동적 장면에서 새롭게 등장하는 객체를 처리하기 위해 적응형 3DG 추가 전략을 제안합니다. 실험 결과, 3DGStream은 최신 방법들과 비교하여 렌더링 속도, 이미지 품질, 학습 시간, 모델 저장 공간 측면에서 경쟁력 있는 성능을 보여줍니다.