번역이 포함된 일일 선별된 AI 연구 논문
많은 AI 기업들이 저작권 소유자의 허락 없이 대용량 언어 모델 (LLM)을 데이터로 학습시키고 있습니다. 이러한 행위의 허용 여부는 관할 지역에 따라 다릅니다: EU나 일본과 같은 국가에서는 일부 제한 하에 허용되지만, 미국에서는 법적 상황이 더 모호합니다. 법적 지위와는 무관하게, 창작물 제작자들의 우려로 인해 여러 주목할만한 저작권 소송이 발생했으며, 소송 위협은 최근 데이터셋 훈련 정보를 제한하는 추세로 이어지고 있습니다. 기업 및 공익 당사자들 모두가 훈련 데이터셋에 대한 정보를 최소화하려는 이 추세는 투명성, 책임성 및 혁신을 방해하여 넓은 생태계에서 연구자, 감사자 및 영향을 받는 개인들이 AI 모델을 이해하기 위해 필요한 정보에 접근할 수 없도록 합니다. 이 문제는 공개 접근 및 공공 도메인 데이터로 언어 모델을 훈련시킴으로써 완화될 수 있습니다. 그러나 현재로서는, 필요한 말뭉치를 구성하는 데 상당한 기술적 및 사회학적 도전이 있어 의미 있는 규모로 훈련된 모델이 없습니다. 이러한 도전은 불완전하고 신뢰할 수 없는 메타데이터, 물리적 기록을 디지털화하는 비용과 복잡성, 그리고 빠르게 변화하는 환경에서 관련성과 책임성을 보장하기 위해 필요한 다양한 법적 및 기술적 기술 세트를 포함합니다. AI 시스템이 책임 있게 선별되고 통제되는 공개 라이선스 데이터로 훈련될 수 있는 미래를 향해 나아가기 위해서는 법적, 기술 및 정책 분야 간의 협력이 필요하며, 메타데이터 표준, 디지털화 및 개방 문화 육성에 대한 투자가 필요합니다.
다중 모달 문서 검색은 다양한 형태의 다중 모달 콘텐츠, 예를 들면 그림, 표, 차트 및 레이아웃 정보를 광범위한 문서에서 식별하고 검색하는 데 사용됩니다. 그 중요성에도 불구하고, 다중 모달 문서 검색 시스템의 성능을 효과적으로 평가하기 위한 견고한 벤치마크가 부족한 것이 두드러집니다. 이 간극을 해결하기 위해 본 연구는 MMDocIR이라는 새로운 벤치마크를 소개합니다. 이 벤치마크는 페이지 수준 및 레이아웃 수준 검색이라는 두 가지 다른 작업을 포함합니다. 전자는 긴 문서 내에서 가장 관련성 높은 페이지를 지역화하는 데 초점을 맞추고, 후자는 특정 레이아웃을 감지하여 전체 페이지 분석보다 더 세분화된 정밀도를 제공합니다. 레이아웃은 텍스트 단락, 방정식, 그림, 표 또는 차트와 같은 다양한 요소를 가리킬 수 있습니다. MMDocIR 벤치마크는 전문가가 주석을 단 1,685개 질문과 173,843개 질문에 대한 부트스트랩 레이블을 특징으로 하는 풍부한 데이터셋으로, 다중 모달 문서 검색의 교육 및 평가를 위한 중요한 자원으로 작용합니다. 엄격한 실험을 통해 우리는 (i) 시각적 검색기가 텍스트 대안보다 현저히 우수한 성과를 거두는 것을 밝혀내고, (ii) MMDocIR 훈련 세트가 다중 모달 문서 검색의 훈련 과정에 효과적으로 도움이 되며, (iii) VLM-텍스트를 활용하는 텍스트 검색기가 OCR-텍스트를 사용하는 것보다 훨씬 더 나은 성과를 보인다는 것을 보여줍니다. 이러한 결과는 시각적 요소를 통합하여 다중 모달 문서 검색의 잠재적 이점을 강조합니다.
최근 몇 년간 3D 장면 생성이 큰 주목을 받아 왔으며 상당한 진전을 이루었습니다. 4D 도시 생성은 건물과 차량과 같은 구조적으로 복잡하고 시각적으로 다양한 객체들이 존재하며 도시 환경에서 왜곡에 대한 인간의 민감도가 높아 3D 장면보다 더 어려운 과제입니다. 이러한 문제에 대처하기 위해 우리는 4D 도시를 생성하기 위해 특별히 설계된 구성적 생성 모델인 CityDreamer4D를 제안합니다. 우리의 주요 인사이트는 1) 4D 도시 생성은 동적 객체(예: 차량)를 정적 장면(예: 건물 및 도로)과 분리해야 하며, 2) 4D 장면의 모든 객체는 건물, 차량 및 배경 요소에 대한 다른 유형의 신경망 필드로 구성되어야 한다는 것입니다. 구체적으로, 우리는 동적 교통 시나리오 생성기와 무제한 레이아웃 생성기를 제안하여 고도로 간결한 BEV 표현을 사용하여 동적 교통 시나리오와 정적 도시 레이아웃을 생성합니다. 4D 도시의 객체들은 배경 요소, 건물 및 차량을 위한 stuff-oriented 및 instance-oriented 신경망 필드를 결합하여 생성됩니다. 배경 요소와 인스턴스의 특징에 맞게, 신경망 필드는 장면 매개변수화를 위해 맞춤형 생성 해시 그리드와 주기적 위치 임베딩을 사용합니다. 더 나아가, 우리는 OSM, GoogleEarth 및 CityTopia를 포함한 도시 생성을 위한 포괄적인 데이터 세트를 제공합니다. OSM 데이터 세트는 다양한 실제 도시 레이아웃을 제공하며, Google Earth 및 CityTopia 데이터 세트는 3D 인스턴스 주석이 포함된 대규모 고품질 도시 이미지를 제공합니다. 구성적 디자인을 활용하여 CityDreamer4D는 인스턴스 편집, 도시 스타일화 및 도시 시뮬레이션과 같은 하류 응용 프로그램을 지원하면서 현실적인 4D 도시를 생성하는 성능 면에서 최신 기술을 제공합니다.
동영상 생성은 확산 모델의 도입으로 현저한 진전을 이루었으며, 이는 생성된 동영상의 품질을 크게 향상시켰다. 그러나 최근 연구는 주로 모델 훈련의 확장에 초점을 맞추었으며, 동영상 생성 과정에 대한 표현의 직접적인 영향에 대한 제한된 통찰을 제공했다. 본 논문에서는 먼저 중간 레이어의 특징의 특성을 조사하고, 서로 다른 레이어 간에 주의 맵에서 상당한 변화를 발견했다. 이러한 변화는 불안정한 의미 표현으로 이어지며, 특징 간의 누적적인 차이에 기여하여 인접한 프레임 간의 유사성을 근본적으로 줄이고 시간적 일관성에 부정적인 영향을 미친다. 이를 해결하기 위해 우리는 RepVideo를 제안한다. RepVideo는 텍스트-동영상 확산 모델을 위한 향상된 표현 프레임워크로, 인접 레이어에서 특징을 축적하여 풍부한 표현을 형성함으로써 더 안정적인 의미 정보를 포착한다. 이러한 향상된 표현은 주의 메커니즘의 입력으로 사용되어 의미 표현력을 향상시키고, 인접한 프레임 간의 특징 일관성을 보장하면서 시맨틱 일관성을 개선한다. 광범위한 실험 결과는 RepVideo가 정확한 공간적 외형을 생성하는 능력을 현저히 향상시키는데 그치지 않고, 다수 객체 간의 복잡한 공간적 관계를 포착하고 동영상 생성에서 시간적 일관성을 향상시킨다는 것을 입증한다.
선입선출(FIFO) 비디오 확산은 사전 훈련된 텍스트-비디오 모델을 기반으로 구축되어 최근에 튜닝이 필요 없는 장기 비디오 생성을 위한 효과적인 방법으로 등장했습니다. 이 기술은 점진적으로 증가하는 잡음을 가진 비디오 프레임 대기열을 유지하며, 대기열의 맨 앞에서 깨끗한 프레임을 지속적으로 생성하면서 가우시안 잡음을 꼬리에 넣습니다. 그러나 FIFO-확산은 프레임 간 일치 모델링 부족으로 인해 생성된 비디오에서 장거리 시간적 일관성을 유지하는 데 어려움을 겪습니다. 본 논문에서는 임의 길이의 일관된 비디오 생성을 가능하게 하는 구조 및 콘텐츠(주제) 일관성을 향상시키기 위해 설계된 혁신적인 비디오 소음 제거 프레임워크인 우로보로스-확산을 제안합니다. 구조적 일관성을 향상시키기 위해 대기열 꼬리에 새로운 잠재 샘플링 기술을 도입하여 프레임 간 간헐적인 부드러운 전환을 보장합니다. 주제 일관성을 향상시키기 위해 단일 세그먼트 내에서 프레임 간 주제를 정렬하는 주제 인식 교차 프레임 어텐션(SACFA) 메커니즘을 고안했습니다. 더불어, 이전의 모든 더 깨끗한 프레임에서 정보를 활용하여 대기열 앞부분의 프레임을 가이드하여 끝에서 더 노이지한 프레임의 소음 제거를 지원하는 자기 반복 가이던스를 소개했습니다. VBench 벤치마크에서의 장기 비디오 생성 실험을 통해 우리의 우로보로스-확산이 주제 일관성, 움직임 부드러움 및 시간적 일관성 측면에서 우수함을 입증했습니다.
다중 모달 LLM(Multimodal LLMs)의 추론 능력이 미술 작품의 미적 가치를 평가하기 위해 어떻게 유도되어야 하는지에 대한 첫 번째 연구를 제시합니다. 이 조사를 용이하게 하기 위해 예술적 스타일화를 벤치마킹하기 위한 혁신적인 고품질 데이터셋인 MM-StyleBench를 구축합니다. 그런 다음 인간 선호 모델링을 위한 원칙에 입각한 방법론을 개발하고, 다중 모달 LLM의 응답과 인간 선호 사이의 체계적 상관 분석을 수행합니다. 실험 결과, 미술 평가에서 다중 모달 LLM의 내재적 환각 문제가 드러나며, 이는 응답 주관성과 관련이 있습니다. 미술 특화 작업 분해와 구체적 언어 사용이 다중 모달 LLM의 미적 가치 추론 능력을 향상시키는 것을 증명하기 위해 ArtCoT가 제안되었습니다. 우리의 연구 결과는 미술에 대한 다중 모달 LLM의 소중한 통찰을 제공하며, 스타일 전이와 예술적 이미지 생성과 같은 다양한 하위 응용 프로그램에 혜택을 줄 수 있습니다. 코드는 https://github.com/songrise/MLLM4Art에서 확인할 수 있습니다.
최근 몇 년간, 이미지 합성 및 텍스트 생성 분야에서는 인간이 생산한 콘텐츠와 유사한 콘텐츠를 생성하는 인공지능 생성 콘텐츠(AIGC)의 현저한 발전이 이루어졌다. 그러나, AI가 생성한 음악의 품질은 아직 이 수준에 도달하지 못했는데, 주로 음악적 감정을 효과적으로 제어하고 고품질 출력을 보장하는 것이 어려운 문제 때문이다. 본 논문은 유연한 프롬프트(즉, 이미지, 비디오, 텍스트, 태그 및 허밍)를 지원하여 감정을 제어할 수 있고 고품질의 상징적 음악을 생성하는 일반화된 상징적 음악 생성 프레임워크인 XMusic을 제시한다. XMusic은 XProjector와 XComposer 두 핵심 구성 요소로 구성된다. XProjector는 다양한 형식의 프롬프트(즉, 감정, 장르, 리듬 및 음표)를 상징적 음악 요소로 파싱하여 일치하는 음악을 생성하기 위해 투영 공간 내에서 처리한다. XComposer에는 Generator와 Selector가 포함되어 있다. Generator는 혁신적인 상징적 음악 표현을 기반으로 감정을 제어할 수 있고 멜로디가 있는 음악을 생성하며, Selector는 품질 평가, 감정 인식 및 장르 인식 작업을 포함하는 멀티태스크 학습 체계를 구축하여 고품질의 상징적 음악을 식별한다. 또한, 우리는 정확한 감정 및 장르 레이블이 부착된 108,023개의 MIDI 파일을 포함하는 대규모 상징적 음악 데이터셋인 XMIDI를 구축했다. 객관적 및 주관적 평가 결과, XMusic이 현재의 최첨단 방법들을 뛰어넘는 놀라운 음악 품질을 보여주었다. 우리의 XMusic은 WAIC 2023에서 수집품 중 9개 하이라이트 중 하나로 선정되었다. XMusic 프로젝트 홈페이지는 https://xmusic-project.github.io에 있다.
이미지 피라미드는 정확한 시각 지각과 이해를 위해 다중 스케일 특징을 얻는 데에 널리 사용되는 최고 성능 방법들에서 채택되고 있습니다. 그러나 현재의 이미지 피라미드는 동일한 대규모 모델을 사용하여 여러 해상도의 이미지를 처리하므로 상당한 계산 비용이 발생합니다. 이러한 도전에 대처하기 위해 우리는 파라미터-역전된 이미지 피라미드 네트워크(PIIP)라는 새로운 네트워크 아키텍처를 제안합니다. 구체적으로, PIIP는 사전 훈련된 모델(ViTs 또는 CNNs)을 사용하여 다중 스케일 이미지를 처리하는 데에 가지를 형성합니다. 이 때, 더 높은 해상도의 이미지는 더 작은 네트워크 가지에 의해 처리되어 계산 비용과 성능을 균형있게 유지합니다. 서로 다른 공간 스케일에서 정보를 통합하기 위해 새로운 가지 간 특징 상호 작용 메커니즘을 제안합니다. PIIP의 유효성을 검증하기 위해 우리는 다양한 지각 모델과 LLaVA라는 대표적인 다중 모달 대형 언어 모델에 적용하고, 객체 검출, 분할, 이미지 분류 및 다중 모달 이해와 같은 다양한 작업에 대한 포괄적인 실험을 수행합니다. PIIP는 낮은 계산 비용으로 단일 가지 및 기존 다중 해상도 접근 방식과 비교하여 우수한 성능을 달성합니다. 대규모 비전 기초 모델인 InternViT-6B에 적용할 때, PIIP는 원래 계산의 40%-60%로 탐지 및 분할에서 1%-2%의 성능 향상을 이룰 수 있어, MS COCO에서 60.0 박스 AP, ADE20K에서 59.7 mIoU를 달성합니다. 다중 모달 이해에서, PIIP-LLaVA는 TextVQA에서 73.0% 정확도, MMBench에서 74.5%의 정확도를 달성하는 데에 2.8M의 훈련 데이터만 사용합니다. 우리의 코드는 https://github.com/OpenGVLab/PIIP에서 공개되어 있습니다.
우리는 종종 신뢰할 수 없는 당사자들과 상호 작용합니다. 개인 정보 보호의 우선순위 설정은 특정 목표를 달성하기 위해 개인 데이터를 공유해야 하는 상호 작용의 효과를 제한할 수 있습니다. 이러한 도전 과제에 대응하기 위한 전통적인 방법은 신뢰할 수 있는 중개인을 찾거나 다중 당사자 계산이나 제로 지식 증명과 같이 데이터 노출을 제한하는 암호 프로토콜을 구축하는 것이었습니다. 암호 기법의 확장에 상당한 발전이 이루어졌지만, 사용할 수 있는 응용 프로그램의 크기와 복잡성 측면에서 제한이 남아 있습니다. 본 논문에서는 능력 있는 기계 학습 모델이 신뢰할 수 있는 제삼자의 역할을 수행하여 이전에 실현 불가능했던 응용 프로그램에 대한 안전한 계산을 가능하게 할 수 있다고 주장합니다. 특히, 우리는 Trusted Capable Model Environments (TCMEs)를 안전한 계산 확장을 위한 대안적 접근 방식으로 설명하며, 능력 있는 기계 학습 모델이 입력/출력 제약 조건 하에서 상호 작용하고 명시적 정보 흐름 제어와 명시적 상태 무상태성을 갖도록 하는 것을 목표로 합니다. 이 접근 방식은 개인 정보 보호와 계산 효율성 사이의 균형을 달성하고, 현재 실현 불가능한 곳에서 고전적인 암호 기술 솔루션을 통한 개인 추론을 가능하게 합니다. 우리는 TCME에 의해 가능해진 여러 사용 사례를 설명하고, 심지어 일부 간단한 고전적인 암호 문제조차도 이미 TCME로 해결할 수 있다는 것을 보여줍니다. 마지막으로, 현재의 한계를 개요하고 그 구현 방향에 대해 논의합니다.
교차 뷰 및 교차 모달리티에 대한 이미지 매칭은 다중 모달 인식에서 중요한 역할을 합니다. 실제로, 서로 다른 이미징 시스템/스타일에 의해 야기된 모달리티 갭은 매칭 작업에 큰 어려움을 줍니다. 기존 연구들은 특정 모달리티에 대한 불변 특징을 추출하고 제한된 데이터셋에서 훈련하여 일반화 성능이 낮다는 것을 보여줍니다. 본 논문에서는 여러 교차 모달 케이스에 대한 통합 이미지 매칭 프레임워크인 MINIMA를 제안합니다. 저희 MINIMA는 화려한 모듈을 추구하는 대신 데이터 확장 관점에서 범용 성능을 향상시키고자 합니다. 이를 위해 여러 모달리티, 다양한 시나리오 및 정확한 매칭 레이블이 포함된 대규모 데이터셋을 자유롭게 생성할 수 있는 간단하면서도 효과적인 데이터 엔진을 제안합니다. 구체적으로, 우리는 저렴하지만 풍부한 RGB만을 사용한 매칭 데이터를 생성 모델을 통해 모달리티를 확장합니다. 이 설정에서 매칭 레이블과 RGB 데이터셋의 다양성이 생성된 다중 모달 데이터에 잘 전달됩니다. 이를 통해 우리는 일반적인 다중 모달 이미지 매칭을 위한 데이터 갭을 메우는 새로운 포괄적인 MD-syn 데이터셋을 구축합니다. MD-syn을 사용하면 임의로 선택된 모달리티 쌍에 대해 곧바로 고급 매칭 파이프라인을 훈련하여 교차 모달 능력을 얻을 수 있습니다. 19가지 교차 모달 케이스를 포함한 도메인 내 및 제로샷 매칭 작업에 대한 광범위한 실험 결과는 우리 MINIMA가 기준선을 크게 능가하고 모달리티별 방법을 뛰어넘는다는 것을 보여줍니다. 데이터셋과 코드는 https://github.com/LSXI7/MINIMA 에서 제공됩니다.
세계와 상호 작용하는 것은 다중 감각 체험이다: 효과적인 일반적 상호 작용을 달성하려면 시각, 촉각 및 음향을 포함한 모든 이용 가능한 모달리티를 활용하여 부분적 관찰로부터의 갭을 메꾸어야 한다. 예를 들어, 시각이 가려진 상태에서 가방 속으로 손을 넣을 때, 로봇은 촉각과 소리 감각에 의존해야 한다. 그러나 최첨단의 일반적 로봇 정책은 일반적으로 대규모 데이터셋에서 훈련되어 로봇 행동을 시각적 및 고유 위치 관측만으로 예측한다. 본 논문에서는 대규모 데이터셋이 즉시 이용 가능하지 않은 이질적 센서 모달리티에 대해 자연어를 공통 교차 모달 그라운딩으로 활용하여 시각운동 일반적 정책을 세밀하게 조정할 수 있는 혁신적인 접근 방식인 FuSe를 제안한다. 우리는 다중 모달 대조 손실과 감각 중심 언어 생성 손실을 결합하여 고수준 의미를 인코딩한다. 로봇 조작의 맥락에서, FuSe가 시각, 촉각 및 소리와 같은 모달리티를 공동으로 추론해야 하는 어려운 작업을 수행할 수 있도록 하는 것을 보여준다. 이는 다중 모달 프롬프팅, 구성적 교차 모달 프롬프팅, 그리고 상호 작용하는 객체에 대한 설명과 같은 작업을 포함한다. 우리는 동일한 방법이 확산 기반 일반적 정책과 대규모 시각-언어-행동(VLA) 모델을 포함한 다양한 일반적 정책에 적용 가능함을 보여준다. 현실 세계에서의 광범위한 실험 결과는 FuSe가 모든 고려된 기준선 대비 성공률을 20% 이상 향상시킬 수 있다는 것을 보여준다.