번역이 포함된 일일 선별된 AI 연구 논문
최근 대형 멀티모달 모델(LMMs), 특히 GPT-4V(ision)와 Gemini의 발전은 멀티모달 모델의 능력 범위를 이미지 캡셔닝 및 시각적 질문 응답과 같은 전통적인 작업을 넘어 빠르게 확장하고 있다. 본 연구에서는 GPT-4V와 같은 LMMs가 자연어 지시를 따라 주어진 웹사이트에서 작업을 완료할 수 있는 일반적인 웹 에이전트로서의 잠재력을 탐구한다. 우리는 SEEACT를 제안하는데, 이는 웹에서 통합된 시각적 이해와 행동을 위해 LMMs의 힘을 활용하는 일반적인 웹 에이전트이다. 우리는 최근의 MIND2WEB 벤치마크를 통해 평가를 진행한다. 캐시된 웹사이트에 대한 표준 오프라인 평가 외에도, 우리는 라이브 웹사이트에서 웹 에이전트를 실행할 수 있는 도구를 개발하여 새로운 온라인 평가 설정을 가능하게 한다. 우리는 GPT-4V가 웹 에이전트로서 큰 잠재력을 가지고 있음을 보여준다. 즉, 웹사이트에서의 행동으로 텍스트 계획을 수동으로 기반화하면 GPT-4V는 라이브 웹사이트에서 50%의 작업을 성공적으로 완료할 수 있다. 이는 GPT-4와 같은 텍스트 전용 LLMs나 웹 에이전트를 위해 특별히 미세 조정된 더 작은 모델들(FLAN-T5 및 BLIP-2)을 크게 능가한다. 그러나 기반화는 여전히 주요한 과제로 남아 있다. 세트-오브-마크 프롬프팅과 같은 기존의 LMM 기반화 전략은 웹 에이전트에게 효과적이지 않으며, 본 논문에서 개발한 최고의 기반화 전략은 HTML 텍스트와 시각적 요소를 모두 활용한다. 그럼에도 불구하고, 오라클 기반화와는 상당한 격차가 남아 있어 추가 개선을 위한 충분한 여지가 있다.
기존의 대부분의 비디오 확산 모델(VDMs)은 단순히 텍스트 조건에만 제한되어 있다. 이로 인해 생성된 비디오의 시각적 외관과 기하학적 구조에 대한 통제력이 부족한 경우가 많다. 본 연구에서는 이미지와 텍스트의 다중모달 입력을 동시에 조건으로 하는 새로운 비디오 생성 모델인 Moonshot을 제안한다. 이 모델은 비디오 특징을 표현하기 위한 기존의 시공간 레이어와 외관 조건을 위한 이미지 및 텍스트 입력을 처리하기 위한 분리된 교차 주의 레이어로 구성된 다중모달 비디오 블록(MVB)을 핵심 모듈로 구축하였다. 또한, 기하학적 시각 조건을 위해 사전 훈련된 이미지 ControlNet 모듈을 추가 훈련 오버헤드 없이 통합할 수 있도록 모델 아키텍처를 신중하게 설계하였다. 실험 결과, 다양한 다중모달 조건 메커니즘을 통해 Moonshot은 기존 모델에 비해 시각적 품질과 시간적 일관성에서 상당한 개선을 보여주었다. 또한, 이 모델은 개인화된 비디오 생성, 이미지 애니메이션, 비디오 편집 등 다양한 생성 응용 프로그램에 쉽게 재사용될 수 있어, 제어 가능한 비디오 생성을 위한 기본 아키텍처로서의 잠재력을 보여준다. 모델은 https://github.com/salesforce/LAVIS에서 공개될 예정이다.
우리는 경계 주의(boundary attention)라는 새로운 메커니즘을 사용하여 윤곽선, 모서리, 교차점을 포함한 경계를 명시적으로 모델링하는 미분 가능한 모델을 제시한다. 본 모델은 경계 신호가 매우 약하거나 노이즈에 가려진 경우에도 정확한 결과를 제공함을 보여준다. 기존의 미약한 경계를 탐지하는 고전적 방법들과 비교했을 때, 이 모델은 미분 가능하며, 더 큰 이미지로 확장 가능하고, 이미지의 각 부분에서 적절한 수준의 기하학적 세부 사항에 자동으로 적응한다는 장점을 가진다. 종단 간 학습(end-to-end training)을 통해 경계를 탐지하는 기존의 딥러닝 방법들과 비교했을 때, 이 모델은 서브픽셀 정밀도를 제공하고, 노이즈에 더 강하며, 원본 해상도와 종횡비로 모든 이미지를 처리할 수 있다는 장점을 가진다.
본 논문에서는 고품질 3D 인간 아바타를 조각하기 위한 향상된 생성 기법인 En3D를 소개한다. 기존 연구들이 희소한 3D 데이터셋이나 불균형한 시점과 부정확한 자세 사전 정보를 가진 제한된 2D 데이터셋에 의존하는 것과 달리, 우리의 접근 방식은 기존의 3D 또는 2D 자산에 의존하지 않고도 시각적으로 현실적이고 기하학적으로 정확하며 내용적으로 다양한 3D 인간을 생성할 수 있는 제로샷 3D 생성 기법을 개발하는 것을 목표로 한다. 이러한 도전 과제를 해결하기 위해, 우리는 합성 2D 데이터로부터 향상된 3D 생성 모델을 학습하기 위해 정확한 물리적 모델링을 구현하는 세심하게 설계된 워크플로를 도입한다. 추론 과정에서는 현실적인 외관과 거친 3D 형태 간의 격차를 줄이기 위해 최적화 모듈을 통합한다. 구체적으로, En3D는 세 가지 모듈로 구성된다: 합성된 균형적이고 다양하며 구조화된 인간 이미지로부터 현실적인 외관을 가진 일반화 가능한 3D 인간을 정확하게 모델링하는 3D 생성기; 복잡한 인간 해부학을 위해 다중 시점 법선 제약을 사용하여 형태 품질을 향상시키는 기하학적 조각가; 그리고 의미론적 UV 분할과 미분 가능한 래스터라이저를 활용하여 충실도와 편집 가능성을 갖춘 명시적 텍스처 맵을 분리하는 텍스처링 모듈. 실험 결과는 우리의 접근 방식이 이미지 품질, 기하학적 정확도 및 내용 다양성 측면에서 기존 연구를 크게 능가함을 보여준다. 또한, 우리가 생성한 아바타의 애니메이션 및 편집 가능성과 콘텐츠 스타일 자유 적응을 위한 우리 접근 방식의 확장성을 입증한다.
문자열 간의 관계를 모델링하는 학습이 대규모 언어 모델(LLMs)에게 시각적 세계에 대해 무엇을 가르치는가? 우리는 LLM이 점점 복잡해지는 다양한 시각적 개념을 생성하고 인식하는 능력을 체계적으로 평가한 다음, 텍스트 모델을 사용하여 초기 시각적 표현 학습 시스템을 훈련시킬 수 있는 방법을 보여준다. 언어 모델은 시각적 정보를 픽셀로 소비하거나 출력할 수 있는 능력이 없기 때문에, 우리는 연구에서 이미지를 표현하기 위해 코드를 사용한다. LLM이 생성한 이미지가 자연스러운 이미지처럼 보이지는 않지만, 이미지 생성 결과와 모델이 이러한 생성된 이미지를 수정하는 능력은 문자열의 정밀한 모델링이 언어 모델에게 시각적 세계의 다양한 측면을 가르칠 수 있음을 나타낸다. 더 나아가, 텍스트 모델로 생성된 이미지를 활용한 자기 지도 시각적 표현 학습 실험은 LLM만을 사용하여 자연 이미지에 대한 의미론적 평가를 할 수 있는 시각 모델을 훈련시킬 수 있는 잠재력을 강조한다.
명령어 튜닝된 대규모 언어 모델(LLM)이 전 세계적으로 확산됨에 따라, 다국어로 명령을 수행하는 능력은 점점 더 중요해지고 있습니다. 이와 관련해 한 가지 유망한 접근법은 교차 언어 전이(cross-lingual transfer)로, 모델이 한 언어에서 미세 조정(finetuning)을 통해 다른 언어에서 특정 기능을 획득하는 방식입니다. 본 연구에서는 다국어 LLM의 명령어 튜닝 과정에서 다국어성이 다양한 언어 간 명령 수행에 미치는 영향을 조사합니다. 먼저, 단일 언어 튜닝에서도 많은 언어가 다른 언어로 명령 수행 능력을 전이할 수 있음을 보여줍니다. 또한, 영어 튜닝 세트에 단 40개의 다국어 예제만 추가해도 튜닝 과정에서 접한 언어와 접하지 않은 언어 모두에서 다국어 명령 수행 능력이 크게 향상됨을 발견했습니다. 일반적으로, 다국어 혼합 데이터로 튜닝된 모델은 해당 언어에서 단일 언어 튜닝 모델보다 10배 적은 예제로 학습했음에도 불구하고 여러 언어에서 비슷하거나 더 나은 성능을 보였습니다. 마지막으로, 명령어 튜닝 세트의 언어 수를 1개에서 단 2개, 3개, 4개로 늘리는 것만으로도 교차 언어 일반화가 증가함을 확인했습니다. 이러한 결과는 대규모 다국어 명령어 튜닝 모델을 구축하는 데 매우 소규모의 다국어 명령어-응답 세트만으로도 충분할 수 있음을 시사합니다.
텍스트에서 3D 생성으로의 점수 증류(score distillation) 기술은 뛰어난 성능을 보이지만, 이러한 기술은 시점 불일치 문제, 즉 "야누스(Janus)" 아티팩트로 잘 알려진 문제를 겪는다. 이 문제는 생성된 객체가 각 시점에서 여러 개의 정면을 가진 것처럼 보이는 현상을 말한다. 경험적으로 효과적인 방법들이 점수 편향 제거(score debiasing)나 프롬프트 엔지니어링을 통해 이 문제에 접근했지만, 이를 설명하고 해결하기 위한 보다 엄밀한 관점은 여전히 부족하다. 본 논문에서는 기존의 점수 증류 기반 텍스트-3D 생성 프레임워크가 각 시점에서 독립적으로 최대 가능도(maximal likelihood)를 추구하도록 퇴화하며, 이로 인해 모드 붕괴(mode collapse) 문제를 겪게 되고, 이는 실제로 야누스 아티팩트로 나타난다는 것을 밝힌다. 모드 붕괴를 제어하기 위해, 우리는 렌더링된 이미지의 분포에 적용되는 해당 변분 목적 함수(variational objective)에 엔트로피 항을 재도입함으로써 점수 증류를 개선한다. 엔트로피를 최대화하면 생성된 3D 자산의 다양한 시점 간 다양성이 촉진되어 야누스 문제를 완화할 수 있다. 이 새로운 목적 함수를 기반으로, 우리는 엔트로피 점수 증류(Entropic Score Distillation, ESD)라는 새로운 3D 점수 증류 업데이트 규칙을 도출한다. 우리는 이론적으로 ESD가 변분 점수 증류(variational score distillation)에 대해 분류기 없는 지도(classifier-free guidance) 트릭을 채택함으로써 단순화되고 구현될 수 있음을 밝힌다. 비록 매우 간단하지만, 우리의 광범위한 실험은 ESD가 점수 증류에서 야누스 아티팩트를 효과적으로 해결할 수 있는 방법임을 성공적으로 입증한다.
본 논문은 ModelScope 상의 대규모 언어 모델(LLMs)을 활용한 사용자 주도적 예술적 타이포그래피 합성을 위한 새로운 프레임워크인 WordArt Designer API를 소개한다. 우리는 전통적인 경직된 템플릿 대신 동적이고 적응적이며 계산적으로 효율적인 대안을 제공함으로써 비전문가를 위한 예술적 타이포그래피의 단순화라는 과제를 해결한다. 우리의 접근 방식은 LLMs의 힘을 활용하여 사용자 입력을 이해하고 해석함으로써 보다 직관적인 디자인 프로세스를 가능하게 한다. 다양한 사례 연구를 통해 사용자가 자신의 미적 선호와 기능적 요구사항을 표현하면 시스템이 이를 독창적이고 창의적인 타이포그래피 디자인으로 변환하는 과정을 보여준다. 평가 결과, 기존 시스템에 비해 사용자 만족도, 디자인 유연성, 창의적 표현에서 상당한 개선이 있음이 확인되었다. WordArt Designer API는 타이포그래피 예술을 민주화할 뿐만 아니라 개인화된 디지털 커뮤니케이션과 디자인을 위한 새로운 가능성을 열어준다.