번역이 포함된 일일 선별된 AI 연구 논문
우리는 이미지와 비디오에서 프롬프트 기반 시각적 분할 문제를 해결하기 위한 기초 모델인 Segment Anything Model 2(SAM 2)를 소개합니다. 사용자 상호작용을 통해 모델과 데이터를 개선하는 데이터 엔진을 구축하여, 현재까지 가장 큰 규모의 비디오 분할 데이터셋을 수집했습니다. 우리의 모델은 실시간 비디오 처리를 위한 스트리밍 메모리를 갖춘 간단한 트랜스포머 아키텍처입니다. 우리의 데이터로 학습된 SAM 2는 다양한 작업에서 강력한 성능을 보여줍니다. 비디오 분할에서는 기존 접근법보다 3배 적은 상호작용으로 더 나은 정확도를 달성했으며, 이미지 분할에서는 Segment Anything Model(SAM)보다 더 정확하고 6배 빠른 성능을 보입니다. 우리의 데이터, 모델, 그리고 통찰력이 비디오 분할 및 관련 인지 작업에 있어 중요한 이정표가 될 것이라 믿습니다. 우리는 모델의 한 버전, 데이터셋, 그리고 인터랙티브 데모를 공개합니다.
본 연구에서는 20억에서 270억 개의 파라미터 규모를 가진 경량화된 최첨단 오픈 모델인 Gemma 패밀리의 새로운 구성원, Gemma 2를 소개합니다. 이 새로운 버전에서는 Transformer 아키텍처에 여러 가지 알려진 기술적 수정을 적용했는데, 이는 로컬-글로벌 어텐션 교차 적용(Beltagy et al., 2020a)과 그룹-쿼리 어텐션(Ainslie et al., 2023) 등을 포함합니다. 또한 20억 및 90억 파라미터 모델을 다음 토큰 예측 대신 지식 증류(Hinton et al., 2015)를 통해 학습시켰습니다. 그 결과, 해당 규모에서 최고의 성능을 보여주는 모델들이 탄생했으며, 심지어 2~3배 더 큰 모델들과도 경쟁력 있는 대안을 제공합니다. 우리는 모든 모델을 커뮤니티에 공개합니다.
단일 이미지에서 0.5초 만에 고품질의 텍스처가 적용된 객체 메시를 신속하게 재구성하는 새로운 방법인 SF3D를 소개한다. 대부분의 기존 접근 방식과 달리, SF3D는 메시 생성을 위해 명시적으로 학습되었으며, 정점 색상에 의존하기보다는 빠른 텍스처 생성을 가능하게 하는 신속한 UV 언래핑 기술을 통합하였다. 또한, 이 방법은 재구성된 3D 메시의 시각적 품질을 향상시키기 위해 재질 매개변수와 노멀 맵을 예측하는 방법을 학습한다. 더 나아가, SF3D는 저주파 조명 효과를 효과적으로 제거하는 디라이팅 단계를 통합하여 재구성된 메시가 새로운 조명 조건에서도 쉽게 사용될 수 있도록 보장한다. 실험 결과는 SF3D가 기존 기술들을 능가하는 우수한 성능을 보여준다. 프로젝트 페이지: https://stable-fast-3d.github.io
대규모 언어 모델(Large Language Models)은 자연어 이해 분야에서 뛰어난 성능을 보이지만, 리소스 집약적인 특성 때문에 접근성이 떨어지는 문제가 있습니다. 반면, MiniCPM과 같은 소규모 언어 모델은 더 지속 가능한 확장성을 제공하지만, 특화된 최적화 없이는 종종 성능이 떨어지는 경향이 있습니다. 본 논문에서는 소규모 언어 모델의 텍스트 임베딩 품질을 개선함으로써 이들의 성능을 향상시키는 방법을 탐구합니다. MiniCPM, Phi-2, Gemma 세 가지 언어 모델을 선택하여 NLI 데이터셋에 대해 대조적 미세 조정(contrastive fine-tuning)을 수행했습니다. 실험 결과, 이 미세 조정 방법은 다양한 벤치마크에서 세 모델 모두의 텍스트 임베딩 품질을 향상시켰으며, 특히 MiniCPM은 평균 56.33%의 성능 향상을 보였습니다. 대조적 미세 조정 코드는 https://github.com/trapoom555/Language-Model-STS-CFT에서 공개되어 있습니다.
최근 대형 시각-언어 모델의 성공은 사용자 인터페이스에서 작동하는 에이전트 시스템을 구동하는 데 있어 큰 잠재력을 보여주고 있습니다. 그러나 우리는 GPT-4V와 같은 멀티모달 모델이 다양한 운영 체제와 애플리케이션에서 범용 에이전트로서의 능력이 크게 과소평가되고 있다고 주장합니다. 이는 1) 사용자 인터페이스 내 상호작용 가능한 아이콘을 신뢰성 있게 식별하고, 2) 스크린샷 내 다양한 요소의 의미를 이해하며 해당 영역과 의도된 동작을 정확하게 연결할 수 있는 강력한 화면 파싱 기술의 부재 때문입니다. 이러한 격차를 해소하기 위해, 우리는 사용자 인터페이스 스크린샷을 구조화된 요소로 파싱하는 포괄적인 방법인 OmniParser를 소개합니다. 이는 GPT-4V가 인터페이스의 해당 영역에 정확히 기반한 동작을 생성하는 능력을 크게 향상시킵니다. 먼저, 인기 있는 웹페이지를 활용하여 상호작용 가능한 아이콘 감지 데이터셋과 아이콘 설명 데이터셋을 구축했습니다. 이 데이터셋은 화면 내 상호작용 가능한 영역을 파싱하기 위한 감지 모델과 감지된 요소의 기능적 의미를 추출하기 위한 캡션 모델을 미세 조정하는 데 사용되었습니다. OmniParser는 ScreenSpot 벤치마크에서 GPT-4V의 성능을 크게 개선했습니다. 또한 Mind2Web 및 AITW 벤치마크에서, 스크린샷만을 입력으로 사용한 OmniParser는 스크린샷 외 추가 정보를 요구하는 GPT-4V 기준선을 능가하는 성과를 보였습니다.
멀티모달 언어 모델(MLLM)은 실제 환경에서 점점 더 많이 구현되면서 3D 공간 해석과 시간적 역학 이해 능력이 요구되고 있습니다. 이러한 잠재력에도 불구하고, 현재 우리 커뮤니티 내 최상위 모델들은 여전히 공간적 및 시간적 차원을 충분히 이해하지 못하고 있습니다. 우리는 Coarse Correspondence라는 간단하고, 훈련이 필요 없으며, 효과적이며, 범용적인 시각적 프롬프팅 방법을 소개하여 멀티모달 LLM에서 3D 및 시간적 이해를 유도합니다. 우리의 방법은 경량 추적 모델을 사용하여 비디오 프레임 간 또는 이미지 뷰포인트 세트 간의 객체 대응 관계를 찾습니다. 이 방법은 가장 빈번하게 등장하는 객체 인스턴스를 선택하고 이미지에서 고유 ID를 가진 마커로 시각화합니다. 이 간단한 접근 방식을 통해, 우리는 ScanQA(+20.5%) 및 OpenEQA의 하위 집합(+9.7%)을 포함한 3D 이해 벤치마크와 EgoSchema(+6.0%)와 같은 장편 비디오 벤치마크에서 최첨단 결과를 달성했습니다. 또한, 우리는 MLLM이 카메라 뷰포인트 이외의 설명된 뷰포인트에서 공간을 추론할 수 있는지 평가하기 위해 작은 진단 데이터셋을 구성했습니다. 다시 한번, Coarse Correspondence는 공간적 관점 수용 능력을 향상시켰지만, MLLM이 이 작업에 어려움을 겪고 있음을 강조합니다. 종합적으로, 우리의 간단한 프롬프팅 방법이 3D 또는 시간적 추론이 필요한 다운스트림 작업에 상당한 도움을 줄 수 있음을 입증합니다.
최근 검색 강화 생성(Retrieval-Augmented Generation) 및 챗봇과 같은 대형 언어 모델 애플리케이션의 등장으로 더 긴 입력 컨텍스트를 처리해야 할 필요성이 증가하고 있습니다. 그러나 이러한 요구 사항은 본질적인 한계로 인해 방해를 받고 있습니다. 구조적으로, 모델은 훈련 중에 정의된 컨텍스트 윈도우에 의해 제약을 받습니다. 또한, 방대한 텍스트를 처리하려면 상당한 양의 GPU 메모리가 필요합니다. 우리는 이러한 문제를 해결하기 위해 사전 훈련된 self-attention 모델 가중치를 활용하여 입력 컨텍스트를 압축하는 새로운 접근 방식인 Finch를 제안합니다. 주어진 프롬프트와 긴 텍스트에 대해, Finch는 프롬프트를 조건으로 하여 텍스트의 청크들 중에서 가장 관련성이 높은 키(Key, K)와 값(Value, V) 쌍을 반복적으로 식별합니다. 이러한 쌍들만이 KV 캐시에 저장되며, 이는 컨텍스트 윈도우에 의해 제한된 공간 내에서 결국 긴 텍스트의 압축된 버전을 포함하게 됩니다. 우리의 제안은 모델이 파인튜닝 없이도 높은 압축률(최대 93배)로 대규모 입력을 소비할 수 있도록 하면서도 의미적 무결성을 유지할 수 있게 합니다.
확산 모델(Diffusion models)은 텍스트 기반 이미지 편집 프레임워크의 광범위한 길을 열어주었습니다. 그러나 이러한 프레임워크들은 일반적으로 확산 역과정의 다단계적 특성에 기반을 두고 있어, 이를 간소화된 고속 샘플링 방법에 적용하는 것은 놀랍도록 어려운 과제로 드러났습니다. 본 연구에서는 텍스트 기반 편집 프레임워크 중에서도 특히 인기 있는 '편집 친화적(edit-friendly)' DDPM 노이즈 역변환 접근법에 초점을 맞춥니다. 우리는 이 접근법을 고속 샘플링 방법에 적용할 때 발생하는 문제를 분석하고, 그 실패 원인을 시각적 아티팩트의 출현과 편집 강도의 부족이라는 두 가지 범주로 분류합니다. 아티팩트는 역변환된 노이즈와 기대되는 노이즈 스케줄 간의 불일치에서 비롯됨을 추적하고, 이 오프셋을 교정하기 위해 조정된 노이즈 스케줄을 제안합니다. 또한 편집 강도를 높이기 위해, 새로운 아티팩트를 도입하지 않으면서도 편집의 크기를 효율적으로 증가시키는 가이던스 기법(pseudo-guidance approach)을 제안합니다. 종합적으로, 우리의 방법은 단 세 번의 확산 단계만으로도 텍스트 기반 이미지 편집을 가능하게 하며, 널리 사용되는 텍스트 기반 편집 접근법의 메커니즘에 대한 새로운 통찰을 제공합니다.
MM-Vet은 통합 능력을 평가하기 위한 개방형 시각-언어 질문을 통해 대규모 멀티모달 모델 평가에서 가장 널리 사용되는 벤치마크 중 하나가 되었습니다. MM-Vet은 인식, 지식, 공간 인식, 언어 생성, OCR, 수학 등 여섯 가지 핵심 시각-언어(VL) 능력을 평가합니다. 그러나 이 벤치마크의 질문 형식은 단일 이미지-텍스트 쌍으로 제한되어 있어, 실제 시나리오에서 흔히 나타나는 이미지와 텍스트가 교차된 시퀀스를 다루지 못하는 한계가 있습니다. 이러한 한계를 해결하기 위해, 우리는 "이미지-텍스트 시퀀스 이해"라는 새로운 VL 능력을 포함한 MM-Vet v2를 소개합니다. 이는 모델이 VL 시퀀스를 처리하는 능력을 평가합니다. 또한, 평가 샘플의 높은 품질을 유지하면서 평가 세트의 크기를 더욱 확장했습니다. MM-Vet v2를 사용하여 대규모 멀티모달 모델을 벤치마킹한 결과, Claude 3.5 Sonnet이 71.8점으로 GPT-4o의 71.0점을 약간 앞서며 최고의 모델로 나타났습니다. 오픈 가중치 모델 중에서는 InternVL2-Llama3-76B가 68.4점으로 선두를 달렸습니다.
최근 몇 년간 비디오 생성 및 편집 기법의 품질이 크게 향상되었습니다. 여러 기법들이 외관 편집에 초점을 맞추고 있지만, 동작을 다루는 기법은 많지 않습니다. 현재 텍스트, 궤적 또는 경계 상자를 사용하는 접근 방식은 단순한 동작에 국한되어 있으므로, 우리는 단일 동작 참조 비디오를 사용하여 동작을 지정합니다. 또한, 텍스트-투-비디오 모델 대신 사전 학습된 이미지-투-비디오 모델을 사용할 것을 제안합니다. 이 접근 방식은 대상 객체나 장면의 정확한 외관과 위치를 보존하고, 외관과 동작을 분리하는 데 도움을 줍니다. 우리의 방법인 '모션-텍스트 인버전'은 이미지-투-비디오 모델이 (잠재) 이미지 입력에서 주로 외관을 추출하고, 크로스-어텐션을 통해 주입된 텍스트/이미지 임베딩이 주로 동작을 제어한다는 관찰을 활용합니다. 따라서 우리는 텍스트/이미지 임베딩 토큰을 사용하여 동작을 표현합니다. 프레임당 여러 텍스트/이미지 임베딩 토큰을 포함하는 확장된 모션-텍스트 임베딩을 통해 높은 시간적 동작 세분화를 달성합니다. 동작 참조 비디오에 대해 최적화된 이 임베딩은 다양한 대상 이미지에 적용되어 의미적으로 유사한 동작을 가진 비디오를 생성할 수 있습니다. 우리의 접근 방식은 동작 참조 비디오와 대상 이미지 간의 공간적 정렬을 요구하지 않으며, 다양한 도메인에 걸쳐 일반화되고, 전신 및 얼굴 리액트먼트, 무생물 객체 및 카메라의 동작 제어와 같은 다양한 작업에 적용할 수 있습니다. 우리는 의미적 비디오 동작 전달 작업에서 우리의 방법의 효과를 실증적으로 입증하며, 이 맥락에서 기존 방법을 크게 능가함을 보여줍니다.
오디오 기반 3D 얼굴 애니메이션은 입력된 오디오를 사실적인 얼굴 움직임으로 매핑하는 것을 목표로 합니다. 상당한 진전이 있었음에도 불구하고, 일관되지 않은 3D 주석으로 인해 이전 모델들은 특정 주석에 국한된 훈련을 해야 했고, 이는 훈련 규모를 제한하는 요인으로 작용했습니다. 본 연구에서는 다양한 주석을 가진 데이터셋을 효과적으로 활용하기 위해 다중 헤드(multi-head) 아키텍처를 특징으로 하는 통합 모델인 UniTalker를 제안합니다. 훈련 안정성을 높이고 다중 헤드 출력 간의 일관성을 보장하기 위해 PCA, 모델 워밍업(warm-up), 그리고 피벗 아이덴티티 임베딩(pivot identity embedding)이라는 세 가지 훈련 전략을 사용합니다. 훈련 규모와 다양성을 확장하기 위해, 우리는 5개의 공개 데이터셋과 3개의 새롭게 구축한 데이터셋으로 구성된 A2F-Bench를 구축했습니다. 이 데이터셋은 다국어 음성과 노래를 포함한 광범위한 오디오 도메인을 다루며, 일반적으로 1시간 미만으로 사용되던 훈련 데이터를 18.5시간으로 확장했습니다. 단일 훈련된 UniTalker 모델을 통해, BIWI 데이터셋에서 9.2%, Vocaset 데이터셋에서 13.7%의 입술 정점 오류 감소를 달성했습니다. 또한, 사전 훈련된 UniTalker는 오디오 기반 얼굴 애니메이션 작업을 위한 기반 모델로서의 잠재력을 보여줍니다. 사전 훈련된 UniTalker를 기존 데이터셋에 미세 조정(fine-tuning)하면 각 데이터셋에서의 성능이 더욱 향상되며, A2F-Bench에서 평균 6.3%의 오류 감소를 보입니다. 더 나아가, 미세 조정된 UniTalker는 전체 데이터셋으로 훈련된 기존 최첨단 모델을 데이터의 절반만 사용하여도 능가하는 성능을 보입니다. 코드와 데이터셋은 프로젝트 페이지 https://github.com/X-niper/UniTalker에서 확인할 수 있습니다.
만화의 시각적 특성으로 인해 시각 장애인들의 만화 접근성 보장은 상당한 과제로 여겨져 왔다. 본 논문은 접근성 증진을 목표로, 완전히 자동화된 방식으로 만화 한 챕터의 대화 기록을 생성하는 데 중점을 두며, 특히 내러티브 일관성 유지에 주력한다. 이를 위해 (i) 각 페이지의 텍스트를 감지하고 필수적 vs 비필수적으로 분류하는 것, 그리고 (ii) 각 대화를 발화자에게 귀속시키는 동시에 동일한 캐릭터가 챕터 전체에서 일관되게 명명되도록 하는 작업이 수행된다. 이를 위해 우리는 다음을 제안한다: (i) Magiv2 모델 - 이전 연구 대비 명명된 캐릭터와 함께 챕터 전체의 고품질 만화 대본을 생성할 수 있으며, 발화자 식별 정확도가 크게 향상된 모델; (ii) PopManga 평가 데이터셋의 확장 버전 - 말풍선 꼬리 상자, 텍스트와 해당 꼬리의 연결, 텍스트의 필수/비필수 분류, 각 캐릭터 상자의 신원 정보가 추가된 데이터셋; (iii) 새로운 캐릭터 뱅크 데이터셋 - 76개 만화 시리즈의 11,000명 이상의 캐릭터와 총 11,500개의 예시 캐릭터 이미지, 그리고 각 캐릭터가 등장하는 챕터 목록으로 구성된 데이터셋. 코드, 학습된 모델, 그리고 두 데이터셋은 https://github.com/ragavsachdeva/magi에서 확인할 수 있다.
조건부 확산 모델은 분류자 없는 지도(CFG) 덕분에 다양한 도메인에서 고품질 샘플을 생성하며 시각적 콘텐츠 생성에서 놀라운 성공을 거두었습니다. 최근 무조건적 모델로 지도를 확장하려는 시도들은 경험적 기법에 의존하여 최적이 아닌 생성 품질과 의도하지 않은 효과를 초래했습니다. 본 연구에서는 자기 주의 메커니즘의 에너지 기반 관점을 활용하여 이미지 생성을 향상시키는 새로운 훈련 및 조건 없는 접근 방식인 Smoothed Energy Guidance(SEG)를 제안합니다. 자기 주의의 에너지를 정의함으로써, 우리는 주의의 에너지 지형의 곡률을 줄이는 방법을 도입하고 그 출력을 무조건적 예측으로 사용합니다. 실질적으로, 우리는 지도 스케일 매개변수를 고정한 상태에서 가우시안 커널 매개변수를 조정하여 에너지 지형의 곡률을 제어합니다. 또한, 토큰 수에 대한 이차 복잡성을 발생시키지 않으면서 전체 주의 가중치를 흐리게 하는 것과 동등한 쿼리 블러링 방법을 제시합니다. 우리의 실험에서 SEG는 품질과 부작용 감소 모두에서 파레토 개선을 달성했습니다. 코드는 https://github.com/SusungHong/SEG-SDXL에서 확인할 수 있습니다.
리버스 퍼즐은 일련의 이미지와 문자로부터 숨겨진 구문을 찾아내기 위해 제약된 다단계 추론을 요구하는 퍼즐입니다. 본 연구에서는 이탈리아어를 대상으로 한 대규모의 언어화된 리버스 퍼즐 컬렉션을 소개하고, 이를 활용하여 최신 대형 언어 모델의 리버스 해결 능력을 평가합니다. LLaMA-3 및 GPT-4o와 같은 범용 시스템은 이 작업에서 낮은 성능을 보이지만, 특수 목적 미세 조정은 모델의 성능을 향상시키는 것으로 나타났습니다. 그러나 훈련을 통한 성능 향상은 대부분 암기에서 비롯된 것으로 확인되었습니다. 우리의 결과는 리버스 해결이 대형 언어 모델의 언어 능력과 순차적 지시 수행 능력을 평가하기 위한 여전히 도전적인 테스트베드임을 시사합니다.
분포 외(Out-of-Distribution, OOD) 샘플 탐지는 머신러닝 시스템의 안전성을 보장하는 데 있어 핵심적인 역할을 하며, 이는 OOD 탐지 분야를 형성하는 데 기여해 왔습니다. 동시에, 이상 탐지(Anomaly Detection, AD), 신규성 탐지(Novelty Detection, ND), 개방형 집합 인식(Open Set Recognition, OSR), 그리고 이상치 탐지(Outlier Detection, OD)와 같은 여러 문제들이 OOD 탐지와 밀접하게 관련되어 있습니다. 이러한 문제들을 통합하기 위해, 일반화된 OOD 탐지 프레임워크가 제안되었으며, 이는 다섯 가지 문제를 체계적으로 분류합니다. 그러나 CLIP과 같은 비전 언어 모델(Vision Language Models, VLMs)은 패러다임을 크게 변화시키고 이러한 분야 간의 경계를 흐리게 함으로써 연구자들을 다시 혼란에 빠뜨렸습니다. 본 조사에서는 먼저 VLM 시대의 AD, ND, OSR, OOD 탐지, 그리고 OD의 진화를 포괄하는 일반화된 OOD 탐지 v2를 제시합니다. 우리의 프레임워크는 일부 분야의 비활성화와 통합을 통해, 주요 도전 과제가 OOD 탐지와 AD로 축소되었음을 보여줍니다. 또한, 정의, 문제 설정, 벤치마크의 상당한 변화를 강조하며, OOD 탐지 방법론에 대한 포괄적인 리뷰를 제공하고, 이를 통해 다른 관련 작업들과의 관계를 명확히 합니다. 마지막으로, GPT-4V와 같은 대규모 비전 언어 모델(Large Vision Language Model, LVLM) 시대의 발전을 탐구합니다. 본 조사는 열린 도전 과제와 미래 방향으로 마무리됩니다.
본 논문은 음성 문서로부터 문장 단위로 텍스트 요약을 생성하는 새로운 접근 방식인 문장 단위 음성 요약(Sen-SSum)을 소개한다. Sen-SSum은 자동 음성 인식(ASR)의 실시간 처리 기능과 음성 요약의 간결성을 결합한다. 이 접근 방식을 탐구하기 위해, 우리는 Sen-SSum을 위한 두 가지 데이터셋인 Mega-SSum과 CSJ-SSum을 제시한다. 이러한 데이터셋을 사용하여, 우리의 연구는 두 가지 유형의 Transformer 기반 모델을 평가한다: 1) ASR과 강력한 텍스트 요약 모델을 결합한 캐스케이드 모델, 그리고 2) 음성을 직접 텍스트 요약으로 변환하는 종단 간(E2E) 모델. E2E 모델은 계산 효율적인 모델을 개발하는 데 매력적이지만, 캐스케이드 모델보다 성능이 떨어진다. 따라서, 우리는 캐스케이드 모델이 생성한 가짜 요약을 사용하여 E2E 모델에 대한 지식 증류를 제안한다. 우리의 실험은 제안된 지식 증류가 두 데이터셋에서 E2E 모델의 성능을 효과적으로 향상시킨다는 것을 보여준다.
본 연구는 다국어, 아랍어 전용, 영어 기반 모델을 활용하여 마트료시카 임베딩 학습(MEL)을 통해 아랍어 중첩 임베딩 모델을 훈련하는 새로운 프레임워크를 제시하며, 다양한 아랍어 NLP 하위 작업에서 중첩 임베딩 모델의 강점을 부각시킵니다. 우리의 혁신적인 기여는 다양한 문장 유사성 데이터셋을 아랍어로 번역하여 이러한 모델들을 다양한 차원에서 비교할 수 있는 포괄적인 평가 프레임워크를 가능하게 한 점입니다. 우리는 아랍어 자연어 추론(NLI) 트리플릿 데이터셋을 기반으로 여러 중첩 임베딩 모델을 훈련하고, 코사인 유사도, 맨해튼 거리, 유클리드 거리, 내적 유사도에 대한 피어슨 및 스피어만 상관관계를 포함한 다양한 평가 지표를 사용하여 성능을 평가했습니다. 결과는 마트료시카 임베딩 모델이 특히 아랍어 고유의 의미적 뉘앙스를 포착하는 데 있어 우수한 성능을 보였으며, 다양한 유사성 지표에서 기존 모델을 최대 20-25%까지 크게 능가함을 입증했습니다. 이러한 결과는 언어 특화 훈련의 효과를 강조하며, 아랍어 NLP를 위한 의미적 텍스트 유사성 작업에서 마트료시카 모델의 잠재력을 보여줍니다.