번역이 포함된 일일 선별된 AI 연구 논문
본 논문에서는 법률 분야에 특화된 두 가지 대규모 언어 모델(LLM)인 SaulLM-54B와 SaulLM-141B를 소개합니다. 각각 540억 개와 1,410억 개의 파라미터를 갖춘 이 모델들은 Mixtral 아키텍처를 기반으로 개발되었습니다. SaulLM-54B와 SaulLM-141B의 개발은 대규모 도메인 적응을 중심으로 세 가지 전략으로 나뉘어 진행되었습니다: (1) 5,400억 개 이상의 법률 토큰을 포함한 기본 코퍼스를 활용한 지속적 사전 학습, (2) 법률 특화 지시-따르기 프로토콜의 구현, (3) 법률 해석에서 모델 출력과 인간 선호도의 정렬. 두 번째와 세 번째 단계에서 합성적으로 생성된 데이터를 통합함으로써, 이 모델들은 법률 텍스트 해석 및 처리 능력을 크게 향상시켜 최신 기술 수준의 성능을 달성하고 LegalBench-Instruct에서 기존의 오픈소스 모델들을 능가했습니다. 이 연구는 이러한 규모의 도메인 특화 적응 과정에서 발생하는 트레이드오프를 탐구하며, 강력한 디코더 모델을 사용한 도메인 적응에 대한 향후 연구에 유용한 통찰을 제공합니다. SaulLM-7B를 기반으로 한 이 연구는 법률 작업에 더 적합한 LLM을 생산하기 위한 접근 방식을 개선했습니다. 우리는 SaulLM-54B와 SaulLM-141B를 기반으로 한 기본 버전, 지시 버전, 정렬 버전을 MIT 라이선스 하에 공개하여 재사용과 협력적 연구를 촉진하고자 합니다.
주요 우울 장애(MDD)는 전 세계적으로 3억 명에 달하는 사람들에게 영향을 미치는 광범위한 정신 건강 상태입니다. 본 연구는 임상 인터뷰 녹음 자료를 기반으로 우울증을 이진 분류하기 위해 BiLSTM 기반의 새로운 트라이모달 모델 수준 융합 아키텍처를 제안합니다. 제안된 아키텍처는 멜 주파수 켑스트럼 계수(Mel Frequency Cepstral Coefficients)와 얼굴 동작 단위(Facial Action Units)를 통합하며, 텍스트 데이터 처리를 위해 두 샷 학습(two-shot learning) 기반의 GPT-4 모델을 사용합니다. 이는 대규모 언어 모델을 다중 모달 아키텍처에 통합한 최초의 연구입니다. 이 모델은 DAIC-WOZ AVEC 2016 챌린지의 교차 검증 분할 및 Leave-One-Subject-Out 교차 검증 분할에서 모든 기준 모델과 여러 최첨단 모델을 능가하는 인상적인 결과를 달성했습니다. Leave-One-Subject-Out 테스트에서 정확도 91.01%, F1 점수 85.95%, 정밀도 80%, 재현율 92.86%를 기록했습니다.
대형 언어 모델(LLMs)은 다양한 작업에서 놀라운 능력을 보여주었지만, 그 개발은 주로 영어와 중국어와 같은 고자원 언어에 집중되어 저자원 언어는 충분히 지원받지 못하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 동남아시아 언어에 맞춰진 SeaLLMs 모델 패밀리의 최신 버전인 SeaLLMs 3를 소개합니다. 이 지역은 풍부한 언어적 다양성을 특징으로 하지만, 충분한 언어 기술 지원이 부족했습니다. SeaLLMs 3는 영어, 중국어, 인도네시아어, 베트남어, 태국어, 타갈로그어, 말레이어, 버마어, 크메르어, 라오어, 타밀어, 자바어 등 이 지역에서 사용되는 광범위한 언어를 포괄함으로써 이러한 격차를 해소하고자 합니다. 효율적인 언어 향상 기술과 특별히 구성된 명령어 튜닝 데이터셋을 활용하여, SeaLLMs 3는 높은 성능과 다용성을 유지하면서도 훈련 비용을 크게 절감합니다. 우리의 모델은 세계 지식, 수학적 추론, 번역, 명령어 수행과 같은 작업에서 탁월한 성능을 보이며, 비슷한 규모의 모델 중에서 최첨단 성능을 달성합니다. 또한, 일반적인 고려사항과 문화 특화적 고려사항을 모두 다루고 환각 현상을 줄이기 위한 메커니즘을 통합함으로써 안전성과 신뢰성을 우선시했습니다. 이 작업은 포용적 AI의 중요성을 강조하며, 고급 LLM 능력이 충분히 지원받지 못한 언어 및 문화 커뮤니티에도 혜택을 줄 수 있음을 보여줍니다.
비디오 확산 모델은 다양한 비디오 생성 애플리케이션에서 상당한 진전을 이루어 왔습니다. 그러나 긴 비디오 생성 작업을 위한 모델 학습은 상당한 컴퓨팅 및 데이터 자원을 필요로 하며, 이는 긴 비디오 확산 모델 개발에 있어 도전 과제로 작용합니다. 본 논문은 기존의 짧은 비디오 확산 모델(예: 16프레임 비디오로 사전 학습된 모델)을 일관된 긴 비디오 생성(예: 128프레임)으로 확장하기 위한 간단하고 학습이 필요 없는 접근 방식을 탐구합니다. 우리의 예비 관찰에 따르면, 짧은 비디오 확산 모델을 직접 적용하여 긴 비디오를 생성할 경우 심각한 비디오 품질 저하가 발생할 수 있음을 발견했습니다. 추가 조사 결과, 이러한 품질 저하는 주로 긴 비디오에서 고주파수 성분의 왜곡에 기인하며, 이는 공간적 고주파수 성분의 감소와 시간적 고주파수 성분의 증가로 특징지어집니다. 이를 바탕으로, 우리는 디노이징 과정에서 긴 비디오 특징의 주파수 분포를 균형 있게 조절하기 위해 FreeLong이라는 새로운 솔루션을 제안합니다. FreeLong은 전체 비디오 시퀀스를 포함하는 전역 비디오 특징의 저주파수 성분과 더 짧은 프레임 서브시퀀스에 초점을 맞춘 지역 비디오 특징의 고주파수 성분을 혼합합니다. 이 접근 방식은 전역적 일관성을 유지하면서 지역 비디오에서 다양한 고품질의 시공간적 세부 사항을 통합하여, 긴 비디오 생성의 일관성과 충실도를 모두 향상시킵니다. 우리는 여러 기본 비디오 확산 모델에서 FreeLong을 평가하고 상당한 개선을 관찰했습니다. 또한, 우리의 방법은 시각적 일관성과 장면 간의 원활한 전환을 보장하는 일관된 다중 프롬프트 생성을 지원합니다.
시각 입력을 동작으로 매핑하는 시각 기반 로봇 정책 학습은 분류나 분할과 같은 단일 작업 요구를 넘어 다양한 시각 작업에 대한 포괄적인 이해를 필요로 합니다. 이에 영감을 받아, 우리는 다양한 시각 작업에 대해 훈련된 여러 기성 시각 기반 모델을 정제한 로봇 학습용 시각 기반 모델인 Theia를 소개합니다. Theia의 풍부한 시각 표현은 다양한 시각 지식을 인코딩하여 하위 로봇 학습을 향상시킵니다. 광범위한 실험을 통해 Theia가 더 적은 훈련 데이터와 더 작은 모델 크기를 사용하면서도 기존 교사 모델과 이전 로봇 학습 모델을 능가함을 입증했습니다. 또한, 사전 훈련된 시각 표현의 품질을 정량화하고, 특징 노름 분포에서 더 높은 엔트로피가 로봇 학습 성능 향상으로 이어진다는 가설을 제시합니다. 코드와 모델은 https://github.com/bdaiinstitute/theia에서 확인할 수 있습니다.
정보 탐색과 통합은 엄청난 시간과 노력을 소모하는 복잡한 인지 작업입니다. 대규모 언어 모델(LLM)의 놀라운 발전에 영감을 받아, 최근 연구들은 LLM과 검색 엔진을 결합하여 이 작업을 해결하려고 시도하고 있습니다. 그러나 이러한 방법들은 여전히 세 가지 도전 과제로 인해 만족스러운 성능을 얻지 못하고 있습니다: (1) 복잡한 요청은 종종 검색 엔진에 의해 정확하고 완전하게 검색되지 않으며, (2) 통합해야 할 해당 정보는 방대한 노이즈와 함께 여러 웹 페이지에 흩어져 있고, (3) 긴 내용을 가진 많은 수의 웹 페이지는 LLM의 최대 컨텍스트 길이를 빠르게 초과할 수 있습니다. 인간이 이러한 문제를 해결할 때의 인지 과정에서 영감을 받아, 우리는 웹 정보 탐색과 통합에서 인간의 사고 방식을 모방한 MindSearch를 소개합니다. 이는 간단하지만 효과적인 LLM 기반 다중 에이전트 프레임워크로 구현될 수 있습니다. WebPlanner는 다단계 정보 탐색의 인간 사고를 동적 그래프 구성 과정으로 모델링합니다: 사용자 쿼리를 그래프의 노드로 사용할 원자적 하위 질문으로 분해하고, WebSearcher의 검색 결과를 기반으로 그래프를 점진적으로 확장합니다. 각 하위 질문을 담당하는 WebSearcher는 검색 엔진을 사용하여 계층적 정보 검색을 수행하고 WebPlanner를 위해 가치 있는 정보를 수집합니다. MindSearch의 다중 에이전트 설계는 전체 프레임워크가 더 큰 규모(예: 300개 이상)의 웹 페이지에서 3분 내에 정보를 탐색하고 통합할 수 있게 하며, 이는 인간이 3시간 동안 노력할 만한 가치가 있습니다. MindSearch는 폐쇄형 및 개방형 QA 문제 모두에서 깊이와 폭 측면에서 응답 품질의 상당한 개선을 보여줍니다. 또한, InternLM2.5-7B 기반의 MindSearch 응답은 ChatGPT-Web 및 Perplexity.ai 애플리케이션보다 인간에게 더 선호되는데, 이는 MindSearch가 이미 독점 AI 검색 엔진에 대한 경쟁력 있는 솔루션을 제공할 수 있음을 시사합니다.
대규모 언어 모델(LLMs)의 최근 발전으로 인간과 유사한 에이전트로서의 능력을 평가하기 위한 포괄적인 벤치마크에 대한 수요가 증가하고 있습니다. 기존 벤치마크는 유용하지만 특정 응용 시나리오에 초점을 맞추는 경향이 있어, 작업 완료를 강조하면서도 이러한 결과를 이끄는 근본적인 기술을 세분화하지 못합니다. 이러한 세분화의 부재는 실패의 원인을 깊이 있게 파악하기 어렵게 만듭니다. 또한, 이러한 환경을 설정하는 데 상당한 노력이 필요하며, 특히 상호작용 작업에서 신뢰성과 재현성 문제가 발생하기도 합니다. 이러한 한계를 해결하기 위해, 우리는 복잡한 환경 설정이 필요 없는 포괄적인 오프라인 작업을 특징으로 하는 Massive Multitask Agent Understanding (MMAU) 벤치마크를 소개합니다. MMAU는 teal{도구 사용}, teal{방향성 비순환 그래프(DAG) 질의응답}, teal{데이터 과학 및 머신러닝 코딩}, teal{대회 수준 프로그래밍}, teal{수학} 등 다섯 가지 도메인에 걸쳐 모델을 평가하며, orange{이해}, orange{추론}, orange{계획}, orange{문제 해결}, orange{자기 수정} 등 다섯 가지 필수 능력을 다룹니다. 총 20개의 세심하게 설계된 작업과 3,000개 이상의 독특한 프롬프트를 포함한 MMAU는 LLM 에이전트의 강점과 한계를 평가하기 위한 포괄적인 프레임워크를 제공합니다. MMAU에서 18개의 대표적인 모델을 테스트함으로써, 우리는 깊이 있고 통찰력 있는 분석을 제공합니다. 궁극적으로, MMAU는 LLM 에이전트의 능력과 한계를 밝히는 동시에 그들의 성능 해석력을 향상시킵니다. MMAU의 데이터셋과 평가 스크립트는 https://github.com/apple/axlearn/docs/research/mmau에서 공개되었습니다.
도메인과 모달리티를 넘나드는 오픈 월드 표현을 추상화하는 데 뛰어난 Contrastive Language-Image Pre-training(CLIP)은 다양한 비전 및 멀티모달 작업의 기반이 되었습니다. 그러나 최근 연구에 따르면, CLIP은 방향, 수량, 색상, 구조 등을 거의 구분하지 못하는 심각한 시각적 결함을 가지고 있습니다. 이러한 시각적 결함은 CLIP을 기반으로 구축된 멀티모달 대형 언어 모델(MLLM)의 인지 능력도 제한합니다. 주요 원인은 CLIP을 훈련하는 데 사용된 이미지-텍스트 쌍이 텍스트의 독특함과 이미지의 다양성이 부족하여 본질적으로 편향되어 있기 때문일 수 있습니다. 본 연구에서는 CLIP 모델을 위한 간단한 사후 훈련 접근 방식을 제시하며, 이를 통해 자기 지도 확산 프로세스를 통해 시각적 결함을 크게 극복합니다. 우리는 DIffusion 모델을 CLIP의 Visual Assistant로 사용하는 DIVA를 소개합니다. 구체적으로, DIVA는 텍스트-이미지 확산 모델의 생성적 피드백을 활용하여 CLIP 표현을 최적화하며, 이때 이미지만 사용하고(해당 텍스트 없이) 수행됩니다. 우리는 DIVA가 세밀한 시각적 능력을 크게 평가하는 MMVP-VLM 벤치마크에서 CLIP의 성능을 크게 향상시키고(예: 3-7%), MLLM 및 비전 모델의 멀티모달 이해 및 세분화 작업 성능도 향상시킴을 보여줍니다. 29개의 이미지 분류 및 검색 벤치마크에 대한 광범위한 평가를 통해 우리의 프레임워크가 CLIP의 강력한 제로샷 능력을 유지함을 확인했습니다. 코드는 https://github.com/baaivision/DIVA에서 제공될 예정입니다.
시각적 매체(이미지와 비디오)는 자연스럽게 많은 양의 정보 중복성을 포함하고 있어, 처리 효율성을 활용할 수 있는 큰 기회를 제공합니다. 비전 트랜스포머(ViT) 기반 모델은 대규모 데이터 영역에서 효과적으로 확장되지만, 이러한 내재된 중복성을 활용하지 못해 더 높은 계산 비용을 초래합니다. 전문가 혼합(MoE) 네트워크는 동일한 추론 시간 비용을 유지하면서 확장성을 보여주지만, 더 큰 파라미터 공간을 차지합니다. 우리는 중첩된 구조의 전문가를 활용하는 중첩 전문가 혼합(MoNE)을 제안합니다. 여기서 개별 전문가는 점점 증가하는 계산-정확도 곡선 상에 위치합니다. 주어진 계산 예산 내에서 MoNE는 토큰을 우선순위에 따라 동적으로 선택하도록 학습하며, 따라서 중복된 토큰은 더 저렴한 중첩 전문가를 통해 처리됩니다. 이 프레임워크를 사용하여 우리는 기준 모델과 동등한 성능을 달성하면서 추론 시간 계산을 두 배 이상 줄였습니다. 우리는 이 접근 방식을 표준 이미지 및 비디오 데이터셋인 ImageNet-21K, Kinetics400, Something-Something-v2에서 검증했습니다. 또한, MoNE의 적응성을 강조하기 위해 단일 훈련된 모델을 사용하여 비디오에서 다양한 추론 시간 계산 예산에 걸쳐 강력한 성능을 유지할 수 있는 능력을 보여줍니다.
수학적 추론 작업을 위한 언어 모델(LM)의 효과적인 학습은 고품질의 지도 미세 조정 데이터를 요구합니다. 인간 전문가로부터 주석을 얻는 것 외에, 더 크고 강력한 LM에서 샘플링하는 것이 일반적인 대안입니다. 그러나 이러한 지식 증류 방식은 비용이 많이 들고 불안정할 수 있으며, 특히 GPT-4와 같은 폐쇄형 독점 LM에 의존할 때 그 행동이 종종 예측 불가능합니다. 본 연구에서는 소규모 LM의 추론 능력이 자기 학습을 통해 향상될 수 있음을 보여줍니다. 자기 학습은 모델이 자신의 출력에서 학습하는 과정입니다. 또한, 기존의 자기 학습이 Direct Preference Optimization(DPO)라는 선호 학습 알고리즘을 통해 더욱 강화될 수 있음을 보여줍니다. DPO를 자기 학습에 통합함으로써, 선호 데이터를 활용하여 LM이 더 정확하고 다양한 사고 연쇄 추론을 하도록 유도합니다. 다양한 기본 모델을 사용하여 여러 수학적 추론 작업에서 이 방법을 평가합니다. 실험 결과, 이 접근법은 LM의 추론 성능을 향상시킬 뿐만 아니라, 대형 독점 LM에 의존하는 것보다 더 비용 효율적이고 확장 가능한 솔루션을 제공합니다.
최근의 3D 대규모 재구성 모델들은 일반적으로 두 단계의 프로세스를 사용합니다. 첫 번째 단계에서는 멀티뷰 확산 모델을 통해 멀티뷰 이미지를 생성하고, 두 번째 단계에서는 피드포워드 모델을 사용하여 이미지를 3D 콘텐츠로 재구성합니다. 그러나 멀티뷰 확산 모델은 종종 저품질이고 일관성이 없는 이미지를 생성하여 최종 3D 재구성의 품질에 부정적인 영향을 미칩니다. 이 문제를 해결하기 위해, 우리는 Cycle3D라는 통합 3D 생성 프레임워크를 제안합니다. 이 프레임워크는 다단계 확산 과정 동안 2D 확산 기반 생성 모듈과 피드포워드 3D 재구성 모듈을 순환적으로 활용합니다. 구체적으로, 2D 확산 모델은 고품질 텍스처 생성을 위해 적용되며, 재구성 모델은 멀티뷰 일관성을 보장합니다. 또한, 2D 확산 모델은 생성된 콘텐츠를 추가로 제어하고, 보이지 않는 뷰에 대한 참조 뷰 정보를 주입함으로써 노이즈 제거 과정에서 3D 생성의 다양성과 텍스처 일관성을 향상시킵니다. 광범위한 실험을 통해 우리의 방법이 최신 베이스라인과 비교하여 고품질과 일관성을 갖춘 3D 콘텐츠를 생성하는 우수한 능력을 입증했습니다.
누군가가 팔을 긁는 것을 관찰한다고 상상해 보자. 그 이유를 이해하기 위해서는 추가적인 맥락이 필요할 것이다. 그러나 근처에 모기가 있는 것을 발견한다면, 그 사람의 불편함에 대한 가능성 높은 설명을 즉시 제공함으로써 더 많은 정보를 필요로 하지 않게 될 것이다. 이 예시는 미묘한 시각적 단서가 우리의 인지 능력에 어떻게 도전하는지 보여주며, 시각적 시나리오를 해석하는 것의 복잡성을 입증한다. 이러한 능력을 연구하기 위해, 우리는 상식과 세계 지식을 요구하는 시각적 수수께끼에 대한 비전과 언어 모델을 테스트하기 위한 벤치마크인 'Visual Riddles'를 제시한다. 이 벤치마크는 다양한 텍스트-이미지 모델로 생성된 독특한 이미지, 질문, 정답, 텍스트 힌트, 그리고 출처를 포함한 400개의 시각적 수수께끼로 구성되어 있다. 인간 평가 결과, 기존 모델들은 82%의 정확도를 보이는 인간의 성능에 크게 뒤처져 있으며, Gemini-Pro-1.5가 40%의 정확도로 선두를 달리고 있다. 우리의 벤치마크는 평가를 확장 가능하게 만들기 위한 자동 평가 작업을 제공한다. 이러한 발견들은 복잡한 시각적 시나리오를 해석하는 데 있어 비전과 언어 모델의 능력을 향상시키기 위한 'Visual Riddles'의 잠재력을 강조한다.
3D 다중모드 질의응답(MQA)은 지능형 에이전트가 3D 환경에서 주변을 이해할 수 있도록 함으로써 장면 이해에 중요한 역할을 합니다. 기존 연구는 주로 실내 가정용 작업과 도로 자율 주행 작업에 초점을 맞추었지만, 도시 수준의 장면 이해 작업에 대한 탐구는 제한적이었습니다. 더욱이, 기존 연구는 도시 수준에서 공간적 의미 정보와 인간-환경 상호작용 정보가 부족하여 도시 장면을 이해하는 데 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해, 우리는 데이터셋과 방법론적 관점에서 3D MQA를 조사합니다. 데이터셋 관점에서, 우리는 도시 수준의 장면 이해를 위한 새로운 3D MQA 데이터셋인 City-3DQA를 소개합니다. 이는 도시 내에서 장면 의미와 인간-환경 상호작용 작업을 통합한 최초의 데이터셋입니다. 방법론적 관점에서, 우리는 장면 그래프를 활용하여 공간적 의미를 도입하는 Scene graph enhanced City-level Understanding 방법(Sg-CityU)을 제안합니다. 새로운 벤치마크가 보고되었으며, 우리가 제안한 Sg-CityU는 City-3DQA의 다양한 설정에서 63.94%와 63.76%의 정확도를 달성했습니다. 실내 3D MQA 방법과 고급 대형 언어 모델(LLM)을 사용한 제로샷 접근법과 비교했을 때, Sg-CityU는 견고성과 일반화 측면에서 최첨단(SOTA) 성능을 보여줍니다.
고전 아랍어는 아랍 문화, 철학, 그리고 과학 문학의 황금기를 아우르는 중요한 시대를 대표합니다. 이러한 문학 작품들을 번역하여 다양한 공동체 간의 지식 전파를 풍부하게 하는 것의 중요성에 대해 폭넓은 합의가 이루어져 있으며, 대형 언어 모델(LLMs)과 번역 시스템의 등장은 이러한 목표를 촉진할 유망한 도구를 제공합니다. 그러나 고전 아랍어 번역 데이터셋의 부족이 지적되고 있으며, 이는 종종 범위와 주제가 제한적이어서 고품질 번역 시스템의 개발을 방해하고 있습니다. 이에 대응하여, 우리는 과학, 문화, 철학 등 다양한 주제를 포괄하는 66,000개의 고품질 고전 아랍어-영어 번역 샘플로 구성된 ATHAR 데이터셋을 제시합니다. 더 나아가, 우리는 다양한 설정 하에서 현재 최첨단 LLMs의 성능을 평가하며, 이러한 데이터셋이 현재 시스템에 필요하다는 결론을 내렸습니다. 우리의 연구 결과는 모델이 이 데이터셋을 미세 조정하거나 사전 학습 파이프라인에 통합함으로써 어떻게 이점을 얻을 수 있는지를 강조합니다. 이 데이터셋은 HuggingFace 데이터 허브(https://huggingface.co/datasets/mohamed-khalil/ATHAR)에서 공개적으로 이용 가능합니다.
대규모 언어 모델(LLM)은 많은 분야에서 인간의 지식을 빠르게 능가하고 있습니다. 이러한 모델을 개선하는 전통적인 방법은 비용이 많이 드는 인간 데이터에 의존해왔지만, 최근의 자기 보상 메커니즘(Yuan et al., 2024)은 LLM이 인간 라벨러에 의존하지 않고 자신의 응답을 평가함으로써 개선될 수 있음을 보여주었습니다. 그러나 기존 방법들은 주로 모델 응답을 개선하는 데 초점을 맞추어 판단 능력 향상에는 소홀히 했기 때문에, 반복적인 훈련 과정에서 빠르게 포화 상태에 이르는 문제가 발생했습니다. 이 문제를 해결하기 위해, 우리는 자기 개선 과정에 새로운 메타 보상 단계를 도입했습니다. 이 단계에서 모델은 자신의 판단을 평가하고 그 피드백을 사용하여 판단 능력을 개선합니다. 놀랍게도, 이 비지도 학습 접근법은 모델의 판단 능력과 지시 따르기 능력을 모두 향상시켰으며, AlpacaEval 2에서 Llama-3-8B-Instruct의 승률이 22.9%에서 39.4%로, Arena-Hard에서는 20.6%에서 29.1%로 향상된 결과를 보여주었습니다. 이러한 결과는 인간의 감독 없이도 자기 개선이 가능한 모델의 잠재력을 강력하게 시사합니다.
디퓨전 모델(DMs), 변이형 오토인코더(VAEs), 생성적 적대 신경망(GANs)과 같은 생성 모델은 실제 사진 및 예술 작품과 거의 구별할 수 없을 정도로 진실성 있는 이미지를 생성합니다. 이러한 능력은 많은 산업에 유용하지만, 합성 이미지를 식별하기 어렵다는 점은 온라인 미디어 플랫폼이 사칭 및 허위 정보 시도에 취약하게 만듭니다. 방어적 방법의 개발을 지원하기 위해, 우리는 기존 자료의 잠재적 편향을 완화하도록 설계된 고해상도 및 균형 잡힌 합성 이미지 탐지 데이터셋인 ImagiNet을 소개합니다. 이 데이터셋은 사진, 그림, 얼굴, 그리고 미분류 등 네 가지 콘텐츠 카테고리에 걸쳐 20만 개의 예시를 포함합니다. 합성 이미지는 오픈소스 및 독점 생성기를 사용하여 제작되었으며, 동일한 콘텐츠 유형의 실제 이미지는 공개 데이터셋에서 수집되었습니다. ImagiNet의 구조는 두 가지 평가 시스템을 가능하게 합니다: i) 실제 또는 합성으로 분류, ii) 생성 모델 식별. 기준을 설정하기 위해, 우리는 각 트랙에 대해 자기 지도 대조 목표(SelfCon)를 사용하여 ResNet-50 모델을 훈련시켰습니다. 이 모델은 압축 및 크기 조정과 같은 소셜 네트워크 조건에서도 최대 0.99의 AUC와 86%에서 95%의 균형 정확도를 달성하며, 기존 벤치마크에서 최첨단 성능과 높은 추론 속도를 보여줍니다. 우리의 데이터와 코드는 https://github.com/delyan-boychev/imaginet에서 확인할 수 있습니다.
감정 분석은 자연어 처리(NLP) 분야에서 널리 연구되는 주제로, 자동화 솔루션의 등장으로 인해 상당한 관심을 끌고 있습니다. 그러나 언어의 본질적인 복잡성과 감정의 주관적 특성으로 인해 이 작업은 여전히 도전적인 과제로 남아 있습니다. 특히 리투아니아어와 같이 연구가 덜 진행되고 자원이 부족한 언어의 경우 더욱 어려운 과제가 됩니다. 기존의 리투아니아어 NLP 연구를 검토한 결과, 전통적인 머신러닝 방법과 분류 알고리즘은 이 작업에 대해 제한적인 효과를 보이는 것으로 나타났습니다. 본 연구에서는 수집 및 정제한 다중 도메인의 리투아니아어 5점 척도 기반 온라인 리뷰에 대한 감정 분석을 다룹니다. 우리는 이 작업에 트랜스포머 모델을 처음으로 적용하며, 사전 훈련된 다국어 대형 언어 모델(LLM)의 능력을 탐구하고, 특히 BERT와 T5 모델의 미세 조정에 초점을 맞춥니다. 작업의 본질적인 어려움을 고려할 때, 미세 조정된 모델은 특히 감정 자체가 덜 모호한 경우 상당히 우수한 성능을 보였습니다: 가장 인기 있는 1점 및 5점 리뷰에 대해 각각 80.74%와 89.61%의 테스트 인식 정확도를 달성했습니다. 이 모델들은 현재 상용 최첨단 범용 LLM인 GPT-4를 크게 능가하는 성능을 보였습니다. 우리는 미세 조정된 LLM을 온라인에 공개하여 공유합니다.
개인을 위한 사실적인 아바타를 생성하는 것은 전통적으로 LightStage 시스템과 같은 복잡하고 비용이 많이 드는 스튜디오 장비를 사용한 광범위한 캡처 세션을 필요로 했습니다. 최근 신경망 표현 기술의 발전으로 인해 스마트폰으로 빠르게 스캔한 데이터로부터 사실적이고 애니메이션 가능한 3D 아바타를 생성할 수 있게 되었지만, 이러한 아바타는 캡처 시의 조명이 고정되어 있고, 얼굴 디테일이 부족하며, 귀 뒤와 같은 부분에서 누락된 영역이 존재합니다. 따라서 이들은 스튜디오에서 캡처된 아바타에 비해 품질이 떨어집니다. 본 논문에서는 짧은 단안(monocular) 스마트폰 캡처로부터 스튜디오 수준의 조명이 적용된 텍스처 맵을 생성하여 이러한 격차를 해소하는 방법을 제안합니다. 이를 위해 StyleGAN2의 W^+ 공간을 사용하여 스마트폰 텍스처 맵을 매개변수화함으로써 거의 완벽한 재구성을 가능하게 합니다. 그런 다음, 매우 소량의 스튜디오 캡처 텍스처를 적대적 학습 신호로 사용하여 W^+ 매개변수화 공간에서 샘플링함으로써 StyleGAN2를 미세 조정합니다. 얼굴 디테일의 사실감과 정확도를 더욱 향상시키기 위해, 스마트폰 캡처 텍스처 맵의 이미지 그래디언트를 기반으로 한 신중하게 설계된 확산 모델을 사용하여 StyleGAN2의 출력을 초해상도 처리합니다. 학습이 완료되면, 본 방법은 일반적인 단안 스마트폰 비디오로부터 스튜디오 수준의 얼굴 텍스처 맵을 생성하는 데 탁월한 성능을 발휘합니다. 이를 통해 단안 스마트폰 캡처로부터 사실적이고 균일한 조명이 적용된 완전한 아바타를 생성하는 능력을 입증합니다. http://shahrukhathar.github.io/2024/07/22/Bridging.html{프로젝트 페이지는 여기에서 확인할 수 있습니다.}
우리는 캐릭터의 형태학적 구조와 골격 구조와 독립적으로 모션 데이터셋의 주기성 구조와 의미론을 이해하기 위한 새로운 접근 방식을 제시합니다. 기존의 방법들이 지나치게 희소한 고차원 잠재 공간을 사용하는 것과 달리, 우리는 각각이 잠재 진폭에 대응하는 여러 닫힌 곡선으로 구성된 위상 매니폴드를 제안합니다. 우리가 제안한 벡터 양자화 주기적 오토인코더를 통해, 인간과 개와 같은 여러 캐릭터에 대한 공유 위상 매니폴드를 어떠한 감독 없이 학습합니다. 이는 이산 구조와 얕은 네트워크를 병목 구조로 활용함으로써 달성되며, 의미론적으로 유사한 모션들은 매니폴드의 동일한 곡선으로 클러스터링되고, 동일한 구성 요소 내의 모션들은 위상 변수에 의해 시간적으로 정렬됩니다. 개선된 모션 매칭 프레임워크와 결합하여, 우리는 모션 검색, 전이 및 스타일화를 포함한 여러 응용 프로그램에서 이 매니폴드의 타이밍 및 의미론 정렬 능력을 입증합니다. 본 논문의 코드와 사전 학습된 모델은 https://peizhuoli.github.io/walkthedog에서 확인할 수 있습니다.
도메인 일반화 능력은 딥러닝 모델이 보지 못한 도메인의 데이터에서도 잘 수행할 수 있는 능력을 결정하기 때문에 매우 중요한 측면입니다. 그러나 비전-언어 작업을 위한 딥러닝 모델의 도메인 일반화에 대한 연구는 필요한 데이터셋의 부족으로 인해 여전히 제한적입니다. 이러한 문제를 해결하기 위해, 우리는 도메인 일반화를 위해 특별히 설계된 데이터셋인 VolDoGer: Vision-Language Dataset for Domain Generalization를 제안합니다. 이 데이터셋은 이미지 캡셔닝, 시각 질의응답, 시각적 함의라는 세 가지 비전-언어 작업을 다룹니다. 우리는 LLM 기반 데이터 주석 기술을 비전-언어 작업으로 확장하여 VolDoGer를 구축함으로써 인간 주석가를 고용하는 부담을 줄였습니다. 우리는 VolDoGer를 통해 미세 조정된 모델부터 최근의 멀티모달 대형 언어 모델에 이르기까지 다양한 모델의 도메인 일반화 능력을 평가했습니다.
본 논문에서는 TAPTR을 기반으로 한 Transformer 기반 접근 방식인 TAPTRv2를 제안하여 Tracking Any Point (TAP) 과제를 해결합니다. TAPTR은 DEtection TRansformer (DETR)의 설계를 차용하고 각 추적 포인트를 포인트 쿼리로 공식화함으로써 DETR과 유사한 알고리즘에서 잘 연구된 연산을 활용할 수 있게 합니다. TAPTRv2는 TAPTR의 비용 볼륨(cost-volume) 의존성 문제를 해결하여 개선합니다. 이 문제는 포인트 쿼리의 콘텐츠 특징을 오염시키고 가시성 예측 및 비용 볼륨 계산에 부정적인 영향을 미칩니다. TAPTRv2에서는 새로운 주의 기반 위치 업데이트(APU) 연산을 제안하고, 이를 구현하기 위해 키 인식 변형 가능 주의(key-aware deformable attention)를 사용합니다. 각 쿼리에 대해 이 연산은 키 인식 주의 가중치를 사용하여 해당 변형 가능 샘플링 위치를 결합하여 새로운 쿼리 위치를 예측합니다. 이 설계는 로컬 주의가 기본적으로 비용 볼륨과 동일하다는 관찰에 기반합니다. 둘 다 쿼리와 주변 특징 간의 내적을 통해 계산됩니다. 이 새로운 연산을 도입함으로써, TAPTRv2는 비용 볼륨 계산의 추가 부담을 제거할 뿐만 아니라 성능을 크게 향상시킵니다. TAPTRv2는 TAPTR을 능가하며 여러 도전적인 데이터셋에서 최첨단 성능을 달성하여 그 우수성을 입증합니다.