번역이 포함된 일일 선별된 AI 연구 논문
시각-언어 모델(VLMs) 분야는 이미지와 텍스트를 입력으로 받아들이고 텍스트를 출력하는 모델로, 빠르게 발전하고 있으며 데이터, 아키텍처, 그리고 훈련 방법을 포함한 개발 파이프라인의 여러 중요 측면에 대한 합의에 도달하지 못한 상태입니다. 본 논문은 VLM을 구축하기 위한 안내서로 볼 수 있습니다. 우리는 현재의 최첨단 접근 방식에 대한 포괄적인 개요를 제공하고, 각각의 장단점을 강조하며, 분야에서의 주요 도전 과제를 다루고, 미개척 영역에 대한 유망한 연구 방향을 제안합니다. 그런 다음, Idefics3-8B를 구축하는 실제 단계를 안내합니다. 이 모델은 이전 모델인 Idefics2-8B보다 우수한 성능을 발휘하며, 효율적으로 훈련되었으며, 공개 데이터셋만을 사용하고 간단한 파이프라인을 사용합니다. 이러한 단계에는 문서 이해 능력을 향상시키기 위한 데이터셋인 Docmatix의 생성이 포함되어 있으며, 이는 이전에 사용 가능했던 데이터셋보다 240배 큽니다. 우리는 해당 모델과 그 훈련을 위해 생성된 데이터셋을 함께 공개합니다.
최근에는 다중 모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)의 철저한 평가가 연구 커뮤니티에서 널리 주목을 받고 있습니다. 그러나 기존의 벤치마크들은 실제 세계에서 모델이 직면하는 중요한 도전에 대한 측정을 어렵게 만드는 여러 공통적인 장벽을 보여줍니다. 이러한 문제를 해결하기 위해 우리는 MME-RealWorld를 소개합니다. 구체적으로, 우리는 공개 데이터셋과 인터넷에서 30만 개 이상의 이미지를 수집하여 13,366개의 고품질 이미지를 주석 처리했습니다. 이를 위해 전문가 25명과 MLLMs 전문가 7명이 노력하여 5가지 실제 시나리오를 포함한 43개 하위 작업을 다루는 29,429개의 질문-답변 쌍을 제공했습니다. 우리가 아는 바로는, MME-RealWorld는 오늘날 가장 큰 수동 주석 처리된 벤치마크로, 가장 높은 해상도와 실제 응용에 초점을 맞추고 있습니다. 또한 GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet 등 28개의 주요 MLLMs를 포함한 철저한 평가를 진행했습니다. 결과는 가장 고급 모델조차도 우리의 벤치마크에서 어려움을 겪는다는 것을 보여주며, 어느 모델도 60%의 정확도에 도달하지 못했습니다. 고해상도 이미지를 인식하고 복잡한 실제 시나리오를 이해하는 도전은 여전히 해결해야 할 긴급한 문제입니다. 데이터와 평가 코드는 https://mme-realworld.github.io/ 에서 공개되었습니다.
컴퓨터 비전 및 그래픽 분야에서 3D 몰입형 장면 생성은 어렵지만 중요한 작업입니다. 원하는 가상 3D 장면은 1) 전방향 뷰 일관성을 보여야 하며, 2) 복잡한 장면 계층에서 자유롭게 탐험할 수 있어야 합니다. 기존 방법은 연속적인 장면 확장을 통해 인페인팅을 사용하거나 큰 시야각 장면 환경을 표현하기 위해 파노라마 표현을 사용합니다. 그러나 생성된 장면은 확장 중 의미적 드리프트를 겪고 장면 계층 간의 가려짐을 처리할 수 없습니다. 이러한 도전 과제를 해결하기 위해 단일 텍스트 프롬프트로부터 전체 뷰, 탐험 가능한 파노라마 3D 장면 생성을 위한 새로운 LayerPano3D 프레임워크를 소개합니다. 우리의 주요 아이디어는 참조 2D 파노라마를 다양한 깊이 수준에서 여러 레이어로 분해하는 것입니다. 각 레이어는 참조 뷰로부터 보이지 않는 공간을 확산 사전을 통해 드러냅니다. LayerPano3D에는 여러 전용 설계가 포함되어 있습니다: 1) 고품질, 일관된 파노라마 생성을 위한 새로운 텍스트 안내 앵커 뷰 합성 파이프라인을 소개합니다. 2) 복잡한 장면 계층을 관리하기 위한 기본 표현으로 Layered 3D Panorama를 개척하고, 이를 3D 가우시안으로 끌어 올려 상세한 360도 전방향 장면을 자유로운 보기 경로로 표현합니다. 광범위한 실험을 통해 우리의 프레임워크가 전체 뷰 일관성과 몰입형 탐험 경험 모두에서 최신 기술의 3D 파노라마 장면을 생성한다는 것을 입증했습니다. LayerPano3D가 다양한 응용 분야에서 3D 파노라마 장면 생성을 발전시키는 데 유망하다고 믿습니다.
인기있는 트랜스포머 아키텍처의 self-attention 메커니즘에서의 이차 계산 복잡성은 훈련 및 추론에서 효율성과 메모리 요구 사항 측면에서 중요한 도전을 제기합니다. 이러한 도전에 대응하기 위해 본 논문은 멀티레이어 트랜스포머 모델에서의 기울기 계산을 위한 새로운 빠른 계산 방법을 소개합니다. 우리의 접근법은 입력 시퀀스 길이인 n에 대해 거의 선형 시간 n^{1+o(1)} 내에 전체 멀티레이어 트랜스포머 모델의 기울기를 계산할 수 있게 합니다. 이 혁신은 전통적인 이차 시간 복잡성과 관련된 계산 병목 현상을 크게 줄입니다. 우리의 이론은 모든 손실 함수에 대해 유효하며 전체 모델에서 한정된 근사 오차를 유지합니다. 게다가, 우리의 분석은 멀티레이어 트랜스포머 모델이 residual connection, casual mask, multi-head attention과 같은 다양한 실용적인 서브 모듈을 포함할 때에도 유효합니다. 대형 언어 모델에서의 기울기 계산 효율성을 향상시킴으로써, 우리의 연구가 우리의 이론적 결과를 기반으로 한 장기적인 문맥 언어 모델의 보다 효과적인 훈련과 배포를 용이하게 할 것으로 기대합니다.
최근에는 메모리를 효율적으로 활용하는 다양한 LLM 훈련 알고리즘이 상당한 인기를 얻고 있습니다. 이러한 방법들은 그래디언트의 저랭크 구조를 활용하여 최적화기 상태를 투영 행렬을 사용하여 부분 공간으로 변환하는데 SVD에 의해 찾아진 투영 행렬을 활용합니다. 그러나 이러한 알고리즘의 수렴은 그들의 투영 행렬의 업데이트 규칙에 매우 의존적입니다. 본 연구에서는 임의의 투영 행렬 업데이트 규칙에 대한 최초의 수렴 보장을 제시합니다. 이 보장은 대부분의 일반적인 최적화기에 대해 해밀토니안 하강을 통해 분석할 수 있는 옵티마이저에 일반적으로 적용됩니다. 이에는 LION, Adam과 같은 가장 흔한 것들이 포함됩니다. 우리의 이론적 이해를 바탕으로, 우리는 SVD 없이 새로운 서브스페이스 하강 옵티마이저인 온라인 서브스페이스 하강을 제안합니다. 온라인 서브스페이스 하강은 고유벡터로 투영 행렬을 업데이트하는 대신 온라인 PCA로 투영 행렬을 업데이트합니다. 온라인 서브스페이스 하강은 유연하며 훈련에 최소한의 오버헤드만 도입합니다. 우리는 C4 데이터셋에서 60M에서 7B 매개변수 범위의 LLaMA 모델 사전 훈련 작업에 대해, 온라인 서브스페이스 하강이 최첨단 저랭크 훈련 방법보다 낮은 퍼플렉서티와 더 나은 하위 작업 성능을 달성하며 다양한 설정에서 전체 랭크 기준과의 격차를 줄입니다.
음성 주도 3D 동작 합성은 인간의 음성을 기반으로 사실적인 애니메이션을 만들고 가상 현실, 게임 및 영화 제작 등 다양한 용도에 활용하려는 것을 목표로 합니다. 기존 접근 방식은 동작 생성을 위해 음성 오디오만을 사용하여 정확하지 않고 융통성이 떨어지는 합성 결과를 초래했습니다. 이 문제를 해결하기 위해 우리는 텍스트로 안내되는 3D 인간 동작 합성 방법인 T3M을 소개합니다. 전통적인 방법과 달리 T3M은 텍스트 입력을 통해 동작 합성을 정밀하게 제어할 수 있어 다양성과 사용자 맞춤화의 정도를 향상시킵니다. 실험 결과는 T3M이 양적 측정 항목과 질적 평가 모두에서 최첨단 방법을 크게 능가할 수 있다는 것을 입증합니다. 우리는 코드를 https://github.com/Gloria2tt/T3M.git에서 공개로 제공하였습니다.
사용자 지정 비디오 생성은 텍스트 프롬프트와 주제의 참조 이미지에 따라 안내되는 고품질 비디오를 생성하는 것을 목표로 합니다. 그러나 정적 이미지만을 훈련시키기 때문에 주제 학습의 세밀 조정 과정이 비디오 확산 모델(VDMs)의 개념을 결합하고 움직임을 생성하는 능력을 방해합니다. 이러한 능력을 복원하기 위해 일부 방법은 모델을 세밀 조정하거나 안내하기 위해 프롬프트와 유사한 추가 비디오를 사용합니다. 이는 사용자에게 매우 불편한 다른 움직임을 생성할 때 안내 비디오를 자주 변경하고 심지어 모델을 다시 조정해야 하는 것을 필요로 합니다. 본 논문에서는 추가 비디오나 세밀 조정 없이 모델의 움직임 생성 및 개념 결합 능력을 보존하는 새로운 프레임워크인 CustomCrafter를 제안합니다. 개념 결합 능력을 보존하기 위해 VDMs의 몇 가지 매개변수를 업데이트하는 플러그 앤 플레이 모듈을 설계하여 모델이 새로운 주제의 외관 세부 사항을 포착하고 개념 결합 능력을 향상시키도록 합니다. 움직임 생성에 대해, VDMs는 잡음 제거의 초기 단계에서 비디오의 움직임을 복원하는 경향이 있으며, 나중 단계에서 주제 세부 사항의 복원에 집중합니다. 따라서 우리는 동적 가중 비디오 샘플링 전략을 제안합니다. 주제 학습 모듈의 플러그인 기능을 활용하여 잡음 제거 초기 단계에서 이 모듈이 움직임 생성에 미치는 영향을 줄이고 VDMs의 움직임 생성 능력을 보존합니다. 잡음 제거의 나중 단계에서 이 모듈을 복원하여 지정된 주제의 외관 세부 사항을 복원함으로써 주제의 외관의 충실성을 보장합니다. 실험 결과는 우리의 방법이 이전 방법과 비교하여 상당한 개선이 있음을 보여줍니다.
고해상도 비전-언어 모델(VLMs)은 세부 이미지 정보를 보존하여 정확도를 향상시키기 위해 다중 모달 작업에서 널리 사용되었습니다. 그러나 이러한 모델은 입력 이미지의 여러 파티션을 인코딩하기 때문에 과도한 시각 토큰을 생성하는 경우가 많습니다. 이러한 과도한 시각 토큰을 처리하는 것은 자원 제약이 있는 환경에서 특히 계산적으로 어려운 과제입니다. 자원 제약을 준수하면서 고해상도 이미지를 지원하기 위해 우리는 고해상도 조기 삭제(HiRED)라는 토큰 삭제 방식을 제안합니다. 이 방식은 대형 언어 모델(LLM) 단계 이전에 고정된 토큰 예산 내에서 작동합니다. HiRED는 기존의 고해상도 VLMs와 통합할 수 있으며 추가 교육이 필요하지 않으면서도 우수한 정확도를 유지합니다. 우리는 초기 레이어에서 비전 인코더의 주의를 전략적으로 활용하여 각 이미지 파티션의 시각적 내용을 평가하고 토큰 예산을 할당합니다. 그런 다음, 최종 레이어의 주의를 사용하여 할당된 예산 내에서 각 파티션에서 가장 중요한 시각 토큰을 선택하고 나머지를 삭제합니다. 경험적으로, NVIDIA TESLA P40 GPU에서 LLaVA-Next-7B에 적용한 경우, 20%의 토큰 예산을 사용하는 HiRED는 토큰 생성 처리량을 4.7배 증가시키고, 첫 번째 토큰 생성 지연 시간을 15초 단축시키며, 단일 추론에 대해 2.3GB의 GPU 메모리를 절약합니다.
연합 학습(Federated Learning, FL)은 분산된 장치 간 협력적인 기계 학습을 위한 유망한 접근 방식을 제공합니다. 그러나 신뢰할 수 있는 통신 구조를 구축하는 복잡성과 기계 학습과 네트워크 프로그래밍에 대한 전문 지식이 필요하다는 점으로 인해 채택이 어렵습니다. 본 논문은 FL 작업의 조율을 단순화하고 의도 기반 자동화를 통합하는 포괄적인 솔루션을 제시합니다. 우리는 사용자 친화적인 웹 응용 프로그램을 개발하여 연합 평균(Federated Averaging, FedAvg) 알고리즘을 지원하며, 사용자가 직관적인 인터페이스를 통해 매개 변수를 구성할 수 있도록 합니다. 백엔드 솔루션은 매개 변수 서버와 엣지 노드 간의 효율적인 통신을 관리합니다. 또한 모델 압축 및 일정 알고리즘을 구현하여 FL 성능을 최적화합니다. 더불어 우리는 특정 데이터셋에서 훈련된 세밀하게 조정된 언어 모델(Language Model, LLM)을 활용하여 FL에서 의도 기반 자동화를 탐구하며, 사용자가 고수준 프롬프트를 사용하여 FL 작업을 수행할 수 있도록 합니다. 우리는 LLM 기반 자동화 솔루션이 표준 웹 기반 솔루션과 유사한 테스트 정확도를 달성하면서, FL 작업에서 전송된 바이트를 최대 64% 및 CPU 시간을 최대 46% 줄일 수 있다는 것을 관찰합니다. 또한, 우리는 LLM을 사용하여 신경 아키텍처 탐색(Neural Architecture Search, NAS) 및 하이퍼파라미터 최적화(Hyperparameter Optimization, HPO)를 활용하여 성능을 향상시킵니다. 이러한 방법을 사용하면 수행된 FL 작업의 테스트 정확도를 10-20% 향상시킬 수 있다는 것을 관찰합니다.
3D 가우시안 스플래팅 (3DGS)은 많은 작은 가우시안을 사용하여 빠르고 고품질의 렌더링을 달성하는데, 이는 상당한 메모리 소비를 유발합니다. 이러한 많은 가우시안에 의존하는 것은 메모리 제한으로 인해 저렴한 장치에서 3DGS 기반 모델의 적용을 제한합니다. 그러나 메모리 용량이 적은 장치에 맞추기 위해 가우시안의 수를 간단히 줄이면 고급 하드웨어에서 달성할 수 있는 품질보다 떨어지는 품질을 얻게 됩니다. 이러한 확장성 부족을 해결하기 위해, 우리는 3DGS에 유연한 세부 수준 (FLoD)을 통합하여 하드웨어 성능에 따라 다양한 세부 수준에서 장면을 렌더링할 수 있도록 제안합니다. 기존의 LoD가 포커스를 맞춘 3DGS는 상세한 재구성에 중점을 두는 반면, 우리의 방법은 줄어든 메모리 요구 사항을 위해 적은 수의 가우시안을 사용하여 재구성하고, 더 많은 수의 가우시안을 사용하여 더 많은 세부 정보를 제공합니다. 실험 결과, 렌더링 품질과 메모리 사용량 사이의 교환을 통해 다양한 렌더링 옵션을 제시하여 다양한 메모리 제약 하에서 실시간 렌더링이 가능하게 합니다. 더 나아가, 우리의 방법이 다양한 3DGS 프레임워크에 적용됨을 보여주며, 미래의 최신 기술 발전에 통합될 잠재력을 시사합니다. 프로젝트 페이지: https://3dgs-flod.github.io/flod.github.io/
대규모 언어 모델(LLM)의 발전으로 나타난 주요 사용 사례 중 하나는 일반 영어로 데이터베이스를 쿼리하는 것이며, 사용자 질문을 실행 가능한 데이터베이스 쿼리로 번역하여 크게 향상되었습니다. 그러나 실제 데이터셋은 종종 다양한 속성과 복잡한 값들을 갖추고 있어, LLM이 자연어 질의로부터 관련 있는 열 또는 값들을 정확하게 식별하는 작업을 복잡하게 만듭니다. 기존 방법은 데이터셋의 크기와 복잡성을 LLM에 완전히 전달할 수 없습니다. 이러한 도전에 대처하기 위해, 우리는 입력 테이블에서 Full-Text Search (FTS)를 활용하는 새로운 프레임워크를 제안합니다. 이 접근 방식은 특정 값과 열을 정확하게 감지할 뿐만 아니라 언어 모델의 검색 공간을 좁혀 질의 정확도를 향상시킵니다. 게다가, 이는 테이블의 데이터를 기반으로 쿼리를 제안하는 사용자 정의 자동 완성 기능을 지원합니다. 이 통합은 사용자와 복잡한 데이터셋 간 상호 작용을 크게 개선하여 현재 테이블 쿼리 능력이 직면한 제약 사항에 대한 정교한 해결책을 제공합니다. 본 연구는 Mac 및 Windows 플랫폼용 응용 프로그램과 함께 제공되며, 독자들은 자신의 데이터로 직접 시도해 볼 수 있습니다.
이미지 생성 조건부 처리는 편집을 원활하게 하고 사실적인 이미지를 만드는 데 도움이 됩니다. 그러나 소음이 많거나 분포 밖(OoD)에 있는 이미지에 대한 조건부 처리는 입력의 충실성과 출력의 현실성을 균형있게 유지하는 데 어려움을 겪습니다. 우리는 Confident Ordinary Differential Editing (CODE)이라는 이미지 합성을 위한 혁신적인 접근 방식을 소개합니다. 이 방법은 OoD 가이드 이미지를 효과적으로 처리합니다. 생성적 사전으로 확산 모델을 활용하여, CODE는 확률 흐름 상의 Ordinary Differential Equation (ODE) 경로를 따라 점수 기반 업데이트를 통해 이미지를 향상시킵니다. 이 방법은 특정 작업에 대한 훈련이 필요하지 않으며, 수작업 모듈이나 조건부 이미지에 영향을 미치는 손상에 대한 가정이 필요하지 않습니다. 우리의 방법은 모든 확산 모델과 호환됩니다. 조건부 이미지 생성과 블라인드 이미지 복원의 교차점에 위치한 CODE는 사전 훈련된 생성 모델에만 의존하여 완전히 블라인드 방식으로 작동합니다. 우리의 방법은 블라인드 복원에 대한 대안적 접근 방식을 제시합니다: 기본 손상에 대한 가정을 기반으로 특정 참 값 이미지를 대상으로 하는 대신, CODE는 충실성을 유지하면서 입력 이미지의 가능성을 높이려고 합니다. 이로써 입력 주변에서 가장 가능성이 높은 분포 내 이미지가 생성됩니다. 우리의 기여는 두 가지입니다. 첫째, CODE는 ODE를 기반으로 한 혁신적인 편집 방법을 소개하여 SDE 기반 대비 향상된 제어, 현실성 및 충실성을 제공합니다. 둘째, 우리는 CODE의 효과를 향상시키는 신뢰 구간 기반 클리핑 방법을 소개합니다. 이 방법은 특정 픽셀이나 정보를 무시하도록 허용하여 블라인드 방식으로 복원 프로세스를 향상시킵니다. 실험 결과는 CODE가 기존 방법보다 효과적임을 입증하며, 특히 심각한 저하 또는 OoD 입력이 포함된 시나리오에서 그 효과를 보여줍니다.