번역이 포함된 일일 선별된 AI 연구 논문
우리는 Llama 3.1 8B 및 Mistral NeMo 12B 모델을 각각 4B 및 8B 매개변수로 압축하는 데 관한 포괄적인 보고서를 제시합니다. 우리는 가지치기(pruning)와 증류(distillation)를 사용하여 두 가지 다른 가지치기 전략을 탐구합니다: (1) 깊이 가지치기 및 (2) 결합된 숨겨진/주의/MLP(폭) 가지치기, 그리고 LM 평가 하네스의 일반적인 벤치마크에서 결과를 평가합니다. 그런 다음 모델은 NeMo Aligner와 함께 정교하게 조정된 버전에서 테스트됩니다. 이 접근 방식은 Llama 3.1 8B로부터 매력적인 4B 모델을 만들어내며 Mistral NeMo 12B로부터 최첨단 Mistral-NeMo-Minitron-8B(MN-Minitron-8B로 간략히 표기) 모델을 만들어냅니다. 우리는 원본 데이터에 액세스할 수 없는 경우, 증류 데이터셋에서 선생 모델을 약간 미세 조정하는 것이 유익하다는 것을 발견했습니다. 우리는 허깅페이스(Hugging Face)에서 우리의 기본 모델 가중치를 허용하는 라이선스로 공개합니다.
본 연구에서는 동영상 기반 모델을 공정하고 견고하게 평가하는 방법에 대해 논의합니다. 언어나 이미지 기반 모델과는 달리 많은 동영상 기반 모델이 샘플링 속도, 프레임 수, 사전 훈련 단계 등과 같은 다양한 매개변수로 평가되어 공정하고 견고한 비교가 어려운 상황입니다. 따라서 우리는 동영상 이해의 두 가지 핵심 능력인 외관 및 움직임 이해를 측정하기 위해 신중히 설계된 평가 프레임워크를 제시합니다. 우리의 연구 결과는 기존의 동영상 기반 모델인 UMT나 InternVideo2와 같은 텍스트 지도형 모델 또는 V-JEPA와 같은 자가 지도형 모델이 이러한 능력 중 적어도 하나에 제한이 있다는 것을 보여줍니다. 대안으로, 우리는 TWLV-I라는 새로운 동영상 기반 모델을 소개합니다. 이 모델은 움직임 및 외관 기반 동영상에 대해 견고한 시각적 표현을 구축합니다. 공개 데이터셋만을 사용하여 사전 훈련된 다섯 가지 액션 인식 벤치마크에서 선형 프로빙의 평균 상위 1위 정확도를 기반으로, 우리 모델은 V-JEPA (ViT-L)에 비해 4.6%p 향상, UMT (ViT-L)에 비해 7.7%p 향상을 보입니다. 훨씬 큰 모델과 비교해도, 우리 모델은 DFN (ViT-H)에 비해 7.2%p 향상, V-JEPA (ViT-H)에 비해 2.7%p 향상, InternVideo2 (ViT-g)에 비해 2.8%p 향상을 보입니다. 우리는 TWLV-I로부터 얻은 임베딩 벡터를 몇 가지 일반적으로 사용되는 동영상 벤치마크의 동영상에서 제공하며, 이러한 임베딩을 직접 활용할 수 있는 평가 소스 코드도 함께 제공합니다. 해당 코드는 "https://github.com/twelvelabs-io/video-embeddings-evaluation-framework"에서 이용 가능합니다.
LLM(Large Language Model)에 유용한 정보를 활용할 수 있는 능력을 부여하는 것은 많은 하위 응용 프로그램에 대해 중요합니다. 그러나 기존의 트랜스포머 아키텍처로 긴 문맥 길이를 달성하는 것은 상당한 교육 및 추론 리소스가 필요합니다. 본 논문에서는 어떤 디코더 전용 LLM의 문맥 길이를 확장할 수 있는 FocusLLM이라는 프레임워크를 제안합니다. 이를 통해 모델이 매우 긴 시퀀스에서 관련 정보에 집중할 수 있습니다. FocusLLM은 모델의 원래 문맥 길이를 기반으로 입력된 긴 텍스트를 청크로 나누어주어 주의 산만 문제를 완화합니다. 그런 다음 각 청크에 로컬 문맥을 프롬프트로 추가하여 새로운 병렬 디코딩 메커니즘을 기반으로 각 청크에서 중요 정보를 추출하고 최종적으로 추출된 정보를 로컬 문맥에 통합합니다. FocusLLM은 훌륭한 교육 효율성과 다재다능성을 갖추고 있습니다. 이전 방법보다 훨씬 적은 교육 비용으로 8K 입력 길이로 훈련된 FocusLLM은 하위 장기 문맥 작업에서 우수한 성능을 보여주며, 매우 긴 텍스트(최대 400K 토큰)를 처리할 때도 강력한 언어 모델링 능력을 유지합니다. 코드는 https://github.com/leezythu/FocusLLM에서 확인할 수 있습니다.
최근 몇 년간 확산 기반 제어 가능한 비디오 생성 기술에서 상당한 진전이 있었습니다. 그러나 세밀한 객체 부분, 복잡한 움직임 궤적, 일관된 배경 이동을 포함한 복잡한 시나리오에서 정밀한 제어를 달성하는 것은 여전히 어려운 과제입니다. 본 논문에서는 자유 형태의 마스크와 화살표를 활용한 조건부 비디오 생성을 위한 혁신적인 접근 방식인 TrackGo를 소개합니다. 이 방법은 사용자에게 비디오 콘텐츠를 유연하고 정확하게 조작할 수 있는 메커니즘을 제공합니다. 또한 사전 훈련된 비디오 생성 모델의 시간 자기 주의 계층에 원활하게 통합되도록 설계된 효율적이고 가벼운 어댑터인 TrackAdapter를 제안합니다. 이 설계는 이러한 계층의 주의 맵이 비디오의 움직임에 해당하는 영역을 정확하게 활성화할 수 있다는 관찰을 기반으로 합니다. 실험 결과는 TrackAdapter로 향상된 새로운 접근 방식이 FVD, FID 및 ObjMC 점수와 같은 주요 지표에서 최고 수준의 성능을 달성한다는 것을 보여줍니다. TrackGo의 프로젝트 페이지는 다음에서 확인할 수 있습니다: https://zhtjtcz.github.io/TrackGo-Page/
대규모 다중모달 모델(LMMs)은 여러 시각적 작업에서 뛰어난 능력을 보여왔습니다. 모델 성능을 평가하기 위한 많은 잘 알려진 벤치마크가 존재하지만, 이러한 벤치마크들은 점차 한계에 도달하고 있습니다. 따라서, 다음 세대 LMMs에 대한 도전적인 새로운 세대의 벤치마크가 절실합니다. LMMs가 잠재력을 보이는 한 분야는 그래프 분석이며, 특히, 그림을 해석할 때 분석가가 일반적으로 수행할 작업들인 평균, 절편 또는 함수 및 데이터 시리즈의 상관 관계 추정 등이 있습니다. 본 연구에서는 현재 및 미래의 선두 LMMs에 적합한 그래프 분석 벤치마크인 GRAB를 소개합니다. 저희의 벤치마크는 완전히 합성되어 있어 고품질이며 노이즈가 없는 질문들을 보장합니다. GRAB는 2170개의 질문으로 구성되어 있으며, 네 가지 작업과 23가지 그래프 속성을 다룹니다. 우리는 20개의 LMMs를 GRAB에서 평가하여, 이를 극도로 도전적인 벤치마크로 확인했으며, 최고 성능 모델이 21.7%의 점수를 얻었습니다. 마지막으로, 모델이 성공하고 어려움을 겪는 부분을 조사하기 위해 다양한 제거 실험을 실시합니다. 우리는 이 중요하고 성장 중인 영역에서 진전을 촉진하기 위해 GRAB를 공개합니다.
텍스트-이미지(T2I) 확산 모델은 텍스트 프롬프트가 주어졌을 때 고품질 이미지를 생성하는 뛰어난 능력을 보여주었습니다. 그러나 프롬프트-이미지 정렬을 보장하는 것은 여전히 상당한 도전입니다. 즉, 프롬프트 의미와 충실히 일치하는 이미지를 생성하는 것입니다. 최근 연구들은 잠재 코드를 최적화하여 충실성을 향상시키려고 시도했으나, 이는 잠재 코드가 분포를 벗어나 현실적이지 않은 이미지를 생성할 수 있다는 잠재적 문제가 있습니다. 본 논문에서는 FRAP를 제안합니다. FRAP는 생성된 이미지의 프롬프트-이미지 정렬과 진위성을 향상시키기 위해 토큰별 프롬프트 가중치를 적응적으로 조정하는 간단하면서도 효과적인 방법입니다. 우리는 온라인 알고리즘을 설계하여 각 토큰의 가중치 계수를 적응적으로 업데이트하며, 이는 객체 존재와 객체-수식어 쌍의 결합을 촉진하는 통합 목적 함수를 최소화함으로써 달성됩니다. 체계적인 평가를 통해 FRAP가 복잡한 데이터셋의 프롬프트에 대해 상당히 높은 프롬프트-이미지 정렬을 달성하면서, 최근의 잠재 코드 최적화 방법과 비교하여 평균 대기 시간이 낮다는 것을 보여줍니다. 예를 들어, COCO-Subject 데이터셋에서 D&B보다 4초 빠르게 작동합니다. 더불어 시각적 비교와 CLIP-IQA-Real 메트릭을 통한 평가를 통해 FRAP가 프롬프트-이미지 정렬을 향상시키는 뿐만 아니라 현실적인 외관을 가진 더 현실적인 이미지를 생성한다는 것을 보여줍니다. 또한 FRAP를 프롬프트 재작성 LLM과 결합하여 그들의 저하된 프롬프트-이미지 정렬을 복구하는 것을 탐구하였으며, 프롬프트-이미지 정렬과 이미지 품질 모두에서 개선이 있음을 관찰하였습니다.
현대 기계 학습 시스템은 광범위한 일반화를 달성하기 위해 대규모 데이터셋에 의존하며, 이는 종종 각 로봇 플랫폼과 작업이 작은 데이터셋만 가지고 있는 로봇 학습에서 어려움을 일으킵니다. 여러 종류의 로봇에 걸쳐 단일 정책을 훈련시킴으로써 로봇 학습 방법은 훨씬 더 넓고 다양한 데이터셋을 활용할 수 있으며, 결과적으로 더 나은 일반화와 견고성을 이끌어낼 수 있습니다. 그러나 여러 로봇 데이터에 대해 단일 정책을 훈련하는 것은 로봇의 센서, 액추에이터 및 제어 주파수가 크게 다를 수 있기 때문에 도전적입니다. 우리는 CrossFormer를 제안합니다. 이는 어떤 구현체에서도 데이터를 처리할 수 있는 확장 가능하고 유연한 트랜스포머 기반 정책입니다. 우리는 CrossFormer를 20가지 다른 로봇 구현체에 걸쳐 900K개의 궤적으로 구성된 지금까지 가장 크고 다양한 데이터셋으로 훈련합니다. 우리는 동일한 네트워크 가중치가 단일 및 이중 팔 조작 시스템, 바퀴 달린 로봇, 쿼드콥터 및 사발다리를 포함한 매우 다른 로봇을 제어할 수 있음을 보여줍니다. 이전 작업과는 달리, 우리의 모델은 관측 또는 행동 공간의 수동 정렬이 필요하지 않습니다. 현실 세계에서의 광범위한 실험 결과는 우리의 방법이 각 구현체에 맞춤화된 전문가 정책의 성능과 일치하면서도 구현체 간 학습의 최신 기술 수준을 크게 능가한다는 것을 보여줍니다.
텍스트에서 이미지로 모델의 지속적인 과제를 다룹니다: 특정 개수의 객체를 정확하게 생성하는 것입니다. 현재 모델들은 이미지-텍스트 쌍에서 학습하지만, 훈련 데이터가 주어진 객체에 대해 모든 가능한 객체 수를 묘사할 수 없기 때문에 계산에 어려움을 겪습니다. 이를 해결하기 위해 우리는 객체의 잠재력을 집계하는 계산 모델에서 파생된 계산 손실에 기반한 생성된 이미지를 최적화하는 것을 제안합니다. 기본적인 계산 모델을 사용하는 것은 두 가지 이유로 어려운데, 첫째로, 모델은 객체의 시각에 따라 다양한 잠재력 집계를 위한 스케일링 하이퍼파라미터가 필요하며, 둘째로, 분류기 지침 기술은 잡음이 있는 중간 확산 단계에서 작동하는 수정된 모델을 필요로 합니다. 이러한 도전에 대응하기 위해 우리는 텍스트 조건 임베딩을 변경하고 하이퍼파라미터를 동적으로 조정하면서 추론된 이미지의 정확도를 향상시키는 반복적인 온라인 훈련 모드를 제안합니다. 우리의 방법은 세 가지 주요 장점을 제공합니다: (i) 감지 모델을 기반으로 한 유도 불가능한 계산 기술을 고려할 수 있습니다, (ii) 계산 기술과 이미지 생성 방법에 빠르게 변경을 용이하게 하는 제로샷 플러그 앤 플레이 솔루션입니다, (iii) 최적화된 계산 토큰은 추가적인 최적화 없이 정확한 이미지를 생성하기 위해 재사용될 수 있습니다. 우리는 다양한 객체의 생성을 평가하고 정확도에서 상당한 향상을 보여줍니다. 프로젝트 페이지는 https://ozzafar.github.io/count_token에서 확인할 수 있습니다.
기계 학습 응용 프로그램에서는 이상 데이터(out-of-distribution, OOD)를 감지하는 것이 모델의 과신에 따른 위험을 완화하여 배포된 시스템의 신뢰성과 안전성을 향상시키는 데 중요합니다. 기존의 대부분의 OOD 감지 방법은 주로 이미지나 텍스트와 같은 단일 모달 입력에 초점을 맞추고 있습니다. 다중 모달 문서의 경우, 주로 컴퓨터 비전 작업에 초점을 맞추어 개발된 이러한 방법들의 성능에 대한 포괄적인 연구 부족이 두드러집니다. 저희는 문서 분류 시스템의 다중 모달 OOD 작업을 위한 새로운 방법인 주의 헤드 마스킹(attention head masking, AHM) 방법론을 제안합니다. 우리의 경험적 결과는 제안된 AHM 방법이 모든 최첨단 접근 방식을 능가하며 기존 솔루션과 비교하여 거짓 양성률(false positive rate, FPR)을 7.5%까지 크게 감소시킨다는 것을 보여줍니다. 이 방법론은 시각적 및 텍스트 정보가 동일한 Transformer 아키텍처 하에 모델링되는 문서와 같은 다중 모달 데이터에 대해 일반화가 잘 됩니다. 고품질의 공개 문서 데이터셋이 부족한 점을 해결하고 문서에 대한 OOD 감지에 대한 추가 연구를 촉진하기 위해 새로운 문서 AI 데이터셋인 FinanceDocs를 소개합니다. 저희의 코드와 데이터셋은 공개적으로 이용 가능합니다.
시각 검색 시스템은 개선된 표현으로 모델을 업데이트할 때 이전과 새로운 표현 사이의 불일치로 인해 중요한 도전에 직면합니다. 비용이 많이 들고 자원이 많이 소모되는 백필링(backfilling) 프로세스는 새 모델이 도입될 때마다 갤러리 세트의 이미지에 대한 특징 벡터를 재계산하는 것을 포함합니다. 이를 해결하기 위해 이전 연구에서는 백워드 호환성 훈련 방법을 탐구하여 백필링 없이 새로운 표현과 이전 표현 간의 직접적인 비교를 가능케 했습니다. 이러한 발전에도 불구하고, 백워드 호환성과 독립적으로 훈련된 모델의 성능 사이의 균형을 달성하는 것은 여전히 열린 문제입니다. 본 논문에서는 표현 공간을 추가적인 차원으로 확장하고 이전 모델과 호환성을 달성하면서 동시에 새로운 정보를 통합하기 위해 직교 변환을 학습함으로써 이 문제에 대처합니다. 이 변환은 원래의 특징 공간의 기하학을 보존하여 이전 버전과 일치하면서도 새로운 데이터를 학습합니다. 우리의 직교 호환 정렬(OCA) 접근 방식은 모델 업데이트 중 재색인이 필요 없도록 하며, 특징을 추가 매핑 함수 없이 다른 모델 업데이트 간에 직접 비교할 수 있도록 보장합니다. CIFAR-100 및 ImageNet-1k에서의 실험 결과는 우리의 방법이 이전 모델과 호환성을 유지할 뿐만 아니라 최첨단 정확도를 달성하며 여러 기존 방법을 능가한다는 것을 보여줍니다.
대규모 언어 모델(LLMs)은 훈련 데이터에 포함된 사회적 편향을 상속하고 확대하는 경향이 있어, 성별, 직업 및 기타 민감한 범주와 관련된 해로운 편견을 강화할 수 있습니다. 이 문제는 편향된 LLM이 불공정한 실천을 유발하고 채용, 온라인 콘텐츠 관리, 심지어 범죄 사법 체계와 같은 다양한 분야에서 사회적 불평등을 악화시킬 수 있기 때문에 특히 문제가 됩니다. 이전 연구는 내재적 편향을 강조하기 위해 설계된 전문 데이터셋을 사용하여 LLM의 편향을 감지하는 데 초점을 맞추었지만, 미국 노동 통계국(NBLS)과 같은 권위 있는 데이터셋과의 상관 관계에 대한 조사가 부족한 것으로 알려져 있습니다. 이 간극을 해소하기 위해, 우리는 '박스 밖의 편향' 설정에서 LLM을 평가하는 경험적 연구를 실시하며, 생성된 출력물이 NBLS 데이터에서 발견된 분포와 어떻게 비교되는지 분석합니다. 더불어, 우리는 NBLS 사례를 직접 통합하여 LLM 내의 편향을 완화하는 간단하면서도 효과적인 편향 제거 메커니즘을 제안합니다. 우리의 연구는 가르칠 수 있는, 기본 및 전문가 모델을 포함한 일곱 가지 다른 LLM을 아우르며, 기존의 편향 감지 기술에서 종종 간과되는 중요한 수준의 편향을 드러냅니다. 더 중요한 것은 외부 데이터셋에 의존하지 않는 우리의 편향 제거 방법이 편향 점수를 상당히 줄이는 것을 보여주어, 우리의 접근 방식이 더 공정하고 신뢰할 수 있는 LLM을 만드는 데 효과적임을 강조합니다.
오픈 언어 데이터 이니셔티브 공유 작업의 일환으로, 우리는 FLORES+ 평가 세트를 확장하여 모잠비크에서 널리 사용되는 저자원 언어인 에마쿠와어를 포함시켰습니다. 우리는 포르투갈어에서 에마쿠와어로 dev 및 devtest 세트를 번역했으며, 번역 과정과 품질 보증 조치를 상세히 설명합니다. 우리의 방법론은 포스트-편집 및 적합성 평가를 포함한 다양한 품질 점검을 수반했습니다. 결과 데이터셋은 각 소스에 대해 여러 참조 문장을 포함하고 있습니다. 우리는 신경 기계 번역 시스템을 훈련하고 기존 다국어 번역 모델을 세밀하게 조정하여 베이스라인 결과를 제시합니다. 우리의 연구 결과는 에마쿠와어에서 철자 불일치가 여전히 과제임을 시사합니다. 게다가, 베이스라인 모델은 이 평가 세트에서 성능이 낮았으며, 에마쿠와어의 기계 번역 품질을 향상시키기 위해 추가 연구가 필요함을 강조합니다. 데이터는 https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES 에서 공개적으로 이용 가능합니다.