번역이 포함된 일일 선별된 AI 연구 논문
우리는 자유형 텍스트-이미지 구성 및 이해에서 탁월한 성능을 보이는 최첨단 비전-언어 모델인 InternLM-XComposer2를 소개한다. 이 모델은 기존의 비전-언어 이해를 넘어, 개요, 상세한 텍스트 명세, 참조 이미지 등 다양한 입력으로부터 텍스트와 이미지가 교차된 콘텐츠를 능숙하게 제작하여 고도로 맞춤화된 콘텐츠 생성을 가능하게 한다. InternLM-XComposer2는 Partial LoRA(PLoRA) 접근 방식을 제안하며, 이는 이미지 토큰에만 추가적인 LoRA 파라미터를 적용하여 사전 훈련된 언어 지식의 무결성을 유지함과 동시에 정확한 비전 이해와 문학적 재능을 갖춘 텍스트 구성 사이의 균형을 맞춘다. 실험 결과는 InternLM2-7B 기반의 InternLM-XComposer2가 고품질의 장문 멀티모달 콘텐츠 생산과 다양한 벤치마크에서의 탁월한 비전-언어 이해 성능을 보여주며, 기존의 멀티모달 모델을 크게 능가할 뿐만 아니라 특정 평가에서 GPT-4V 및 Gemini Pro와도 견줄 만하거나 이를 능가하는 성과를 보인다. 이는 멀티모달 이해 영역에서의 뛰어난 숙련도를 강조한다. 7B 파라미터를 가진 InternLM-XComposer2 모델 시리즈는 https://github.com/InternLM/InternLM-XComposer에서 공개되어 있다.
대규모 시각-언어 모델(LVLMs)의 경우, 모델 규모를 확장하는 것이 성능 향상에 효과적입니다. 그러나 모델 파라미터를 크게 늘리면 각 토큰 계산 시 모든 모델 파라미터가 활성화되기 때문에 훈련 및 추론 비용이 크게 증가합니다. 본 연구에서는 LVLMs를 위한 새로운 훈련 전략인 MoE-tuning을 제안합니다. 이 방법은 엄청난 수의 파라미터를 가지지만 일정한 계산 비용을 유지하는 희소 모델을 구성하며, 다중 모달 학습과 모델 희소성과 관련된 성능 저하 문제를 효과적으로 해결합니다. 또한, MoE 기반의 희소 LVLM 아키텍처인 MoE-LLaVA 프레임워크를 제시합니다. 이 프레임워크는 배포 시 라우터를 통해 상위 k개의 전문가만 독특하게 활성화하고 나머지 전문가는 비활성 상태로 유지합니다. 광범위한 실험을 통해 MoE-LLaVA가 시각 이해 능력에서 우수한 성능을 보이며 모델 출력에서의 환각 현상을 줄일 수 있는 잠재력을 확인했습니다. 특히, 희소하게 활성화된 30억 개의 파라미터만으로도 MoE-LLaVA는 다양한 시각 이해 데이터셋에서 LLaVA-1.5-7B와 비슷한 성능을 보였으며, 객체 환각 벤치마크에서는 LLaVA-1.5-13B를 능가했습니다. MoE-LLaVA를 통해 희소 LVLMs의 기준을 설정하고, 보다 효율적이고 효과적인 다중 모달 학습 시스템 개발을 위한 미래 연구에 유용한 통찰을 제공하고자 합니다. 코드는 https://github.com/PKU-YuanGroup/MoE-LLaVA에서 공개되었습니다.
대규모 언어 모델은 웹에서 대량으로 수집된 데이터를 기반으로 학습되며, 이러한 데이터는 종종 구조화되지 않고 노이즈가 많으며 표현이 부정확합니다. 현재의 스케일링 법칙에 따르면, 이러한 데이터로부터 학습하려면 모델의 크기에 따라 증가하는 대량의 컴퓨팅 자원과 데이터가 필요합니다. 이는 사전 학습과 관련된 높은 컴퓨팅 비용과 시간, 그리고 웹상의 고품질 데이터의 점점 더 심해지는 부족으로 인해 실현 불가능합니다. 본 연구에서는 웹 문서를 "위키피디아 스타일"이나 "질문-답변 형식"과 같은 특정 스타일로 재구성하기 위해 오프더셸프 인스트럭션 튜닝 모델을 사용하여 실제 데이터와 합성 재구성 데이터를 함께 사전 학습하는 웹 재구성 증강 사전 학습(WRAP)을 제안합니다. 먼저, 자연스럽게 노이즈가 많은 C4 데이터셋에 WRAP을 적용하면 사전 학습 속도가 약 3배 빨라짐을 보여줍니다. 동일한 사전 학습 컴퓨팅 예산에서, Pile의 다양한 하위 집합에서 평균적으로 10% 이상의 퍼플렉서티 개선을 달성하며, 13개의 작업에서 제로샷 질문-답변 정확도가 2% 이상 향상됩니다. 둘째, 재구성 스타일이 모델 성능에 미치는 영향을 조사하여, 학습 데이터의 구성이 OOD(Out-Of-Distribution) 설정에서 LLM의 성능에 어떻게 영향을 미치는지에 대한 통찰을 제공합니다. 이러한 성능 향상은 합성 재구성 데이터가 실제 데이터보다 더 높은 유용성을 가지기 때문입니다. 이는 (i) 다운스트림 평가 스타일을 밀접하게 반영하는 스타일 다양성을 포함하고, (ii) 웹 스크랩 데이터보다 더 높은 '품질'을 가지기 때문입니다.
본 논문에서는 일관적이고 제어 가능한 이미지-투-비디오 생성(I2V)을 위한 새로운 프레임워크인 Motion-I2V를 소개한다. 기존의 복잡한 이미지-투-비디오 매핑을 직접 학습하는 방법과 달리, Motion-I2V는 명시적인 모션 모델링을 통해 I2V를 두 단계로 분해한다. 첫 번째 단계에서는 참조 이미지의 픽셀 궤적을 추론하는 데 초점을 맞춘 확산 기반 모션 필드 예측기를 제안한다. 두 번째 단계에서는 비디오 잠재 확산 모델의 제한된 1차원 시간적 주의력을 강화하기 위해 모션 증강 시간적 주의 모듈을 제안한다. 이 모듈은 첫 번째 단계에서 예측된 궤적의 지도 하에 참조 이미지의 특징을 합성된 프레임에 효과적으로 전파할 수 있다. 기존 방법과 비교하여 Motion-I2V는 큰 모션과 시점 변화가 있는 경우에도 더 일관된 비디오를 생성할 수 있다. 첫 번째 단계를 위해 희소 궤적 ControlNet을 학습함으로써, Motion-I2V는 사용자가 희소 궤적 및 영역 주석을 통해 모션 궤적과 모션 영역을 정밀하게 제어할 수 있도록 지원한다. 이는 텍스트 지시에만 의존하는 것보다 I2V 과정의 제어 가능성을 더욱 높인다. 또한, Motion-I2V의 두 번째 단계는 자연스럽게 제로샷 비디오-투-비디오 변환을 지원한다. 질적 및 양적 비교를 통해 Motion-I2V가 일관적이고 제어 가능한 이미지-투-비디오 생성에서 기존 접근법보다 우수함을 입증한다.
최근 몇 년 동안 로봇 강화 학습(RL) 분야에서 상당한 진전이 이루어져, 복잡한 이미지 관측을 처리하고, 실제 세계에서 훈련하며, 시연 및 사전 경험과 같은 보조 데이터를 통합할 수 있는 방법들이 개발되었습니다. 그러나 이러한 발전에도 불구하고, 로봇 RL은 여전히 사용하기 어려운 것으로 남아 있습니다. 실무자들 사이에서는 이러한 알고리즘의 특정 구현 세부 사항이 알고리즘 선택만큼이나 성능에 중요하다는 점이 인정되고 있습니다. 우리는 로봇 RL의 광범위한 채택과 더불어 로봇 RL 방법의 추가 개발에 있어서의 주요 도전 과제가 이러한 방법들의 상대적인 접근성 부재라고 주장합니다. 이 문제를 해결하기 위해, 우리는 샘플 효율적인 오프-폴리시 딥 RL 방법과 함께 보상 계산 및 환경 재설정 방법, 널리 채택된 로봇을 위한 고품질 컨트롤러, 그리고 여러 도전적인 예제 작업을 포함하는 신중하게 구현된 라이브러리를 개발했습니다. 우리는 이 라이브러리를 커뮤니티를 위한 자원으로 제공하고, 그 설계 선택을 설명하며, 실험 결과를 제시합니다. 아마도 놀랍게도, 우리의 구현은 PCB 보드 조립, 케이블 배선, 물체 재배치와 같은 작업에 대해 정책당 평균 25~50분의 훈련 시간으로 매우 효율적인 학습을 달성할 수 있으며, 문헌에서 보고된 유사 작업에 대한 최신 기술 결과를 개선합니다. 이러한 정책은 완벽하거나 거의 완벽한 성공률, 교란 상황에서도 극도의 견고성, 그리고 발생적인 복구 및 수정 행동을 보여줍니다. 우리는 이러한 유망한 결과와 고품질의 오픈소스 구현이 로봇 공학 커뮤니티가 로봇 RL의 추가 개발을 촉진할 수 있는 도구가 되기를 바랍니다. 우리의 코드, 문서, 그리고 비디오는 https://serl-robot.github.io/에서 확인할 수 있습니다.
음성에서 3D 얼굴 애니메이션을 합성하는 기술은 상당한 관심을 받아 왔다. 고품질의 4D 얼굴 데이터와 잘 주석된 다양한 다중 모달리티 레이블의 부족으로 인해, 기존 방법들은 종종 제한된 현실감과 유연한 조건 설정의 부재로 어려움을 겪어왔다. 우리는 이러한 문제를 삼부작으로 해결한다. 먼저, 일반화된 신경망 파라미터 얼굴 자산(Generalized Neural Parametric Facial Asset, GNPFA)을 소개한다. 이는 얼굴 기하학과 이미지를 고도로 일반화된 표현 잠재 공간으로 매핑하는 효율적인 변이형 자동 인코더로, 표현과 신원을 분리한다. 다음으로, GNPFA를 활용하여 다양한 비디오에서 고품질의 표현과 정확한 머리 포즈를 추출한다. 이를 통해 M2F-D 데이터셋을 제시하는데, 이는 잘 주석된 감정 및 스타일 레이블이 포함된 대규모, 다양하며 스캔 수준의 동시 발화 3D 얼굴 애니메이션 데이터셋이다. 마지막으로, GNPFA 잠재 공간에서 동시 발화 얼굴 애니메이션 생성을 위한 확산 모델인 Media2Face를 제안한다. 이 모델은 오디오, 텍스트, 이미지로부터 풍부한 다중 모달리티 지침을 수용한다. 광범위한 실험을 통해 우리의 모델이 얼굴 애니메이션 합성에서 높은 충실도를 달성할 뿐만 아니라, 3D 얼굴 애니메이션의 표현 범위와 스타일 적응성을 확장함을 입증한다.
멀티모달 대형 언어 모델(Multimodal Large Language Models, MLLM) 기반의 모바일 디바이스 에이전트가 인기 있는 애플리케이션으로 떠오르고 있다. 본 논문에서는 자율적인 멀티모달 모바일 디바이스 에이전트인 Mobile-Agent를 소개한다. Mobile-Agent는 먼저 시각 인식 도구를 활용하여 앱 프론트엔드 인터페이스 내의 시각적 및 텍스트 요소를 정확하게 식별하고 위치를 파악한다. 인식된 시각적 맥락을 바탕으로 복잡한 작업을 자율적으로 계획하고 분해하며, 단계별로 모바일 앱을 조작하여 탐색한다. 기존의 앱 XML 파일이나 모바일 시스템 메타데이터에 의존하는 솔루션과 달리, Mobile-Agent는 시각 중심의 방식으로 다양한 모바일 운영 환경에 대한 높은 적응성을 제공함으로써 시스템별 맞춤 설정의 필요성을 없앴다. Mobile-Agent의 성능을 평가하기 위해 모바일 디바이스 작업 평가를 위한 벤치마크인 Mobile-Eval을 도입하였다. Mobile-Eval을 기반으로 Mobile-Agent에 대한 포괄적인 평가를 수행한 결과, Mobile-Agent는 뛰어난 정확도와 완료율을 달성하였다. 다중 앱 작업과 같은 도전적인 지시사항에서도 Mobile-Agent는 요구사항을 완수할 수 있었다. 코드와 모델은 https://github.com/X-PLUG/MobileAgent에서 공개될 예정이다.
대규모 사전 학습된 텍스트-이미지 모델의 최근 발전은 고품질의 인간 중심 생성에 있어 전례 없는 능력을 보여주었지만, 얼굴 아이덴티티를 맞춤화하는 것은 여전히 해결하기 어려운 문제로 남아 있습니다. 기존 방법들은 훈련 중 각 대상에 대해 여러 이미지를 사용하더라도 안정적인 아이덴티티 보존과 유연한 편집성을 보장할 수 없습니다. 본 연구에서는 단 하나의 얼굴 이미지만으로도 아이덴티티 일관성을 유지하며 재구성할 수 있는 StableIdentity를 제안합니다. 구체적으로, 우리는 입력된 얼굴을 인코딩하기 위해 아이덴티티 사전을 갖춘 얼굴 인코더를 사용하고, 셀럽 이름으로부터 구성된 편집 가능한 사전이 있는 공간에 얼굴 표현을 배치합니다. 아이덴티티 사전과 편집 가능성 사전을 통합함으로써 학습된 아이덴티티는 다양한 맥락 속에서 어디에나 주입될 수 있습니다. 또한, 입력된 얼굴의 픽셀 수준 인식을 강화하고 생성의 다양성을 유지하기 위해 마스킹된 두 단계 확산 손실을 설계했습니다. 광범위한 실험을 통해 우리의 방법이 이전의 맞춤화 방법들을 능가함을 입증했습니다. 또한, 학습된 아이덴티티는 ControlNet과 같은 기성 모듈과 유연하게 결합될 수 있습니다. 특히, 우리가 아는 한, 단일 이미지로부터 학습된 아이덴티티를 파인튜닝 없이 비디오/3D 생성에 직접 주입하는 첫 번째 사례입니다. 우리는 제안된 StableIdentity가 이미지, 비디오, 3D 맞춤화 생성 모델을 통합하는 데 중요한 단계라고 믿습니다.
대규모 텍스트-이미지 생성 모델이 텍스트-이미지 생성 분야에서 놀라운 발전을 이루면서, 다양한 미세 조정 방법들이 제안되어 왔다. 그러나 이러한 모델들은 새로운 객체, 특히 원샷 시나리오에서 어려움을 겪는 경우가 많다. 우리가 제안한 방법은 단일 입력 이미지와 객체 특정 관심 영역만을 사용하여 일반화성과 충실도의 문제를 객체 중심의 방식으로 해결하고자 한다. 일반화성을 향상시키고 과적합을 완화하기 위해, 우리의 패러다임에서는 확산 모델을 미세 조정하기 전에 객체의 외관과 클래스를 기반으로 프로토타입 임베딩을 초기화한다. 또한 미세 조정 과정에서 객체 클래스의 사전 지식을 보존하기 위해 클래스 특성화 정규화를 제안한다. 충실도를 더욱 향상시키기 위해, 우리는 객체 특정 손실을 도입하였으며, 이를 통해 여러 객체를 이식하는 데에도 사용할 수 있다. 전반적으로, 우리가 제안한 객체 중심의 새로운 객체 이식 방법은 기존 개념과도 원활하게 통합될 수 있을 뿐만 아니라 높은 충실도와 일반화성을 갖춘다. 우리의 방법은 여러 기존 연구들을 능가한다. 코드는 공개될 예정이다.
고품질 이미지 생성을 위한 텍스트-이미지 모델의 상당한 발전에도 불구하고, 이러한 방법들은 특히 복잡한 텍스트 프롬프트의 맥락에서 객체 속성과 관계를 유지하는 데 있어 텍스트 프롬프트의 이미지에 대한 제어 가능성을 보장하는 데 여전히 어려움을 겪고 있다. 본 논문에서는 대규모 언어 모델(LLM) 에이전트를 핵심으로 하는 훈련이 필요 없는 구성적 텍스트-이미지 생성 접근법인 CompAgent를 제안한다. CompAgent의 근본적인 아이디어는 분할 정복 방법론에 기초한다. 객체, 속성, 관계를 포함한 여러 개념을 담고 있는 복잡한 텍스트 프롬프트가 주어지면, LLM 에이전트는 이를 초기에 분해하여 개별 객체, 그와 관련된 속성, 그리고 일관된 장면 레이아웃의 예측을 추출한다. 이러한 개별 객체는 독립적으로 정복될 수 있다. 이후 에이전트는 텍스트를 분석하여 추론을 수행하고, 이러한 분리된 객체를 구성하기 위해 도구를 계획하고 사용한다. 검증 및 인간 피드백 메커니즘은 최종적으로 에이전트에 통합되어 잠재적인 속성 오류를 수정하고 생성된 이미지를 개선한다. LLM 에이전트의 지도 하에, 우리는 개념 구성을 위한 도구로 훈련이 필요 없는 다중 개념 맞춤화 모델과 레이아웃-이미지 생성 모델을 제안하며, 검증을 위해 에이전트와 상호작용할 수 있는 로컬 이미지 편집 방법을 도구로 제안한다. 장면 레이아웃은 이러한 도구들 간의 이미지 생성 과정을 제어하여 여러 객체 간의 혼란을 방지한다. 광범위한 실험은 구성적 텍스트-이미지 생성에 대한 우리의 접근법의 우수성을 입증한다: CompAgent는 오픈 월드 구성적 T2I 생성을 위한 포괄적인 벤치마크인 T2I-CompBench에서 10% 이상의 개선을 달성한다. 다양한 관련 작업으로의 확장은 또한 잠재적인 응용 프로그램을 위한 우리의 CompAgent의 유연성을 보여준다.
기존의 시각-언어 모델들은 다양한 시각 도메인과 작업에서 강력한 일반화 능력을 보여준다. 그러나 이러한 모델들은 주로 폐쇄 집합 방식으로 제로샷 인식을 수행하므로, 설계 상 개방 도메인 시각 개념을 처리하는 데 어려움을 겪는다. 최근에는 프롬프트 학습과 같은 미세 조정 방법들이 등장하여, 분포 내(ID)와 분포 외(OOD) 샘플 간의 차이를 연구할 뿐만 아니라 ID와 OOD 정확도 모두에서 일부 개선을 보여주고 있다. 본 논문에서는 먼저 충분히 오랜 미세 조정을 거쳤지만 적절한 정규화가 없는 시각-언어 모델들이 주어진 데이터셋의 알려진 클래스에 과적합되는 경향이 있으며, 이로 인해 알려지지 않은 클래스에 대한 성능이 저하된다는 것을 보여준다. 그런 다음, 이러한 문제를 해결하기 위해 OGEN이라는 새로운 접근 방식을 제안한다. 이 방법은 미세 조정된 모델의 OOD 일반화 성능을 개선하는 데 주안점을 둔다. 구체적으로, 클래스 조건부 특징 생성기를 도입하여 알려지지 않은 클래스의 클래스 이름만을 사용하여 OOD 특징을 합성한다. 이러한 합성된 특징은 알려지지 않은 클래스에 대한 유용한 지식을 제공하고, ID와 OOD 데이터 간의 결정 경계를 정규화하는 데 도움을 줄 것이다. 또한, 공동 최적화 과정에서 특징 생성 모델을 정규화하기 위한 적응형 자기 지식 증류 메커니즘을 도입하여, 모델 상태 간의 지식을 적응적으로 전달함으로써 과적합을 더욱 방지한다. 실험 결과, 우리의 방법은 다양한 설정에서 OOD 일반화 성능에서 설득력 있는 향상을 보여준다.