번역이 포함된 일일 선별된 AI 연구 논문
멀티모달 대형 언어 모델(MLLMs)은 다양한 응용 분야에서 상당한 가능성을 보여주며, 연구자와 실무자 모두의 폭넓은 관심을 받고 있습니다. 그러나 이들의 장문맥(long-context) 능력을 종합적으로 평가하는 연구는 아직 미흡한 상태입니다. 이러한 격차를 해결하기 위해, 우리는 MLLMs의 장문맥 능력을 평가하기 위해 특별히 설계된 멀티모달 Needle-in-a-haystack(MMNeedle) 벤치마크를 소개합니다. 다중 이미지 입력 외에도, 이미지 스티칭(image stitching)을 통해 입력 문맥 길이를 더욱 증가시키고, 하위 이미지 수준 검색을 위한 레이블을 자동으로 생성하는 프로토콜을 개발했습니다. 본질적으로 MMNeedle은 텍스트 지시와 이미지 내용 설명을 기반으로 이미지 집합(haystack) 내에서 목표 하위 이미지(needle)를 찾는 MLLMs의 능력을 스트레스 테스트를 통해 평가합니다. 이 설정은 광범위한 시각적 문맥을 이해하고 장문맥 이미지 입력 내에서 효과적으로 정보를 검색하는 고급 능력을 필요로 합니다. 이 벤치마크를 통해 우리는 API 기반 및 오픈소스 모델을 포함한 최첨단 MLLMs를 평가했습니다. 연구 결과, GPT-4o는 장문맥 시나리오에서 다른 모델들을 지속적으로 능가하지만, 네거티브 샘플(즉, haystack에 needle이 없는 경우)에서 환각(hallucination) 문제를 겪는 것으로 나타났습니다. 또한, 우리의 종합적인 장문맥 평가는 API 기반 모델과 오픈소스 모델 간의 상당한 성능 격차를 밝혀냈습니다. 주요 결과를 재현하는 데 필요한 모든 코드, 데이터 및 지침은 https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack에서 확인할 수 있습니다.
오늘날, 코드 및 자연어 처리 분야는 빠르게 진화하고 있습니다. 특히, 모델들은 긴 컨텍스트 윈도우를 처리하는 능력이 향상되었으며, 지난 몇 년 동안 지원되는 컨텍스트 크기는 수십 배 증가했습니다. 그러나 단일 파일 이상의 컨텍스트를 다루는 코드 처리 벤치마크는 부족한 상황이며, 가장 널리 사용되는 벤치마크들은 단일 메소드에 국한되어 있습니다. 본 연구에서는 이러한 격차를 해소하기 위해 프로젝트 전반의 컨텍스트가 필요한 코드 처리 작업을 위한 6가지 벤치마크로 구성된 Long Code Arena를 소개합니다. 이 작업들은 코드 처리의 다양한 측면을 다루고 있습니다: 라이브러리 기반 코드 생성, CI 빌드 수정, 프로젝트 수준 코드 완성, 커밋 메시지 생성, 버그 위치 파악, 모듈 요약 등이 포함됩니다. 각 작업에 대해, 테스트를 위해 수동으로 검증된 데이터셋, 평가 스위트, 그리고 데이터셋 사용을 보여주고 다른 연구자들의 채용을 용이하게 하기 위한 인기 있는 LLM 기반의 오픈소스 베이스라인 솔루션을 제공합니다. 우리는 HuggingFace Spaces에 리더보드, 모든 데이터셋에 대한 HuggingFace Hub 링크, 그리고 베이스라인이 포함된 GitHub 저장소 링크와 함께 벤치마크 페이지를 공개합니다: https://huggingface.co/spaces/JetBrains-Research/long-code-arena.
비전 트랜스포머(ViTs)는 대규모 언어 모델과의 공동 학습 능력과 견고한 비전 기반 모델로서의 역할로 인해 중요한 연구 분야로 부상했습니다. 그러나 ViT 예측에 대한 사후 해석(post-hoc interpretation)을 위한 신뢰할 수 있는 설명 방법의 개발은 상대적으로 뒤처져 있습니다. 기존의 부분 이미지 선택 접근법, 예를 들어 특징 귀속(feature-attribution) 및 개념 모델(conceptual models)은 이러한 측면에서 부족함을 보입니다. 본 논문은 ViT를 설명하기 위한 다섯 가지 요구 사항 -- 충실성(faithfulness), 안정성(stability), 희소성(sparsity), 다중 수준 구조(multi-level structure), 간결성(parsimony) -- 을 제안하고, 현재의 방법들이 이러한 기준을 포괄적으로 충족시키지 못함을 보여줍니다. 우리는 패치 임베딩의 분포를 모델링하여 신뢰할 수 있는 사후 개념적 설명을 제공하는 변분 베이지안 설명 프레임워크인 ProbAbilistic Concept Explainers (PACE)를 소개합니다. 우리의 정성적 분석은 패치 수준 개념의 분포를 밝히고, 패치 임베딩과 ViT의 예측의 결합 분포를 모델링함으로써 ViT의 효과성을 설명합니다. 더욱이, 이러한 패치 수준의 설명은 이미지 수준과 데이터셋 수준의 설명 간의 간극을 메우며, PACE의 다중 수준 구조를 완성합니다. 합성 데이터셋과 실제 데이터셋에 대한 광범위한 실험을 통해, PACE가 정의된 요구 사항 측면에서 최신 방법들을 능가함을 입증합니다.
우리는 단일화된 대형 언어 모델(LLM)을 자가 전문가들의 모듈식 조합 시스템인 MiXSE(MiXture of Self-specialized Experts)로 변환하는 Self-MoE 접근법을 제안합니다. 본 접근법은 자가 생성된 합성 데이터를 활용하여 전문가 모듈을 구성하는 자가 전문화(self-specialization)를 활용하며, 각 모듈은 공유 기반 LLM과 자가 최적화 라우팅을 포함합니다. 이를 통해 다양한 목표 작업을 동적이고 능력별로 처리할 수 있어, 방대한 인간 주석 데이터와 추가 파라미터 없이도 전반적인 역량을 강화합니다. 실험 결과, LLM의 전문화는 비전문화 작업에서 성능 상의 트레이드오프를 보일 수 있음을 나타냅니다. 반면, Self-MoE는 지식, 추론, 수학, 코딩 등 다양한 벤치마크에서 기반 LLM 대비 상당한 개선을 보였습니다. 또한 인스턴스 병합 및 가중치 병합을 포함한 다른 방법들을 일관되게 능가하며, 의미론적 전문가와 라우팅을 통해 설계상 더 나은 유연성과 해석 가능성을 제공합니다. 본 연구 결과는 모듈성의 중요성과 효율적, 확장 가능하며 적응형 시스템을 달성하기 위한 자기 개선의 잠재력을 강조합니다.
BERT와 GPT와 같은 사전 학습된 언어 모델(PLM)의 통합은 특히 영어에 있어서 NLP 분야를 혁신적으로 변화시켰지만, 동시에 언어적 불균형을 초래하기도 했습니다. 본 논문은 다국어 환경에서 여러 지식 편집 기법을 검토함으로써 언어적 형평성의 필요성을 전략적으로 규명합니다. 우리는 Mistral, TowerInstruct, OpenHathi, Tamil-Llama, Kan-Llama 등의 모델을 영어, 독일어, 프랑스어, 이탈리아어, 스페인어, 힌디어, 타밀어, 칸나다어를 포함한 다양한 언어에서 평가합니다. 본 연구는 정상 모델과 병합 모델 간의 교차 언어 일관성에서 상당한 차이를 확인합니다. 우리는 '각 언어는 스스로를 위해'(ELFI)와 '각 언어는 다른 언어를 위해'(ELFO)와 같은 전략을 사용하여 이러한 모델을 스트레스 테스트합니다. 연구 결과는 LLM이 언어적 장벽을 극복할 수 있는 잠재력을 보여주며, AI 기술에서 언어적 포용성을 달성하기 위한 미래 연구의 기반을 마련합니다.
자기 지도 학습 음성(Self-supervised speech, SSL) 모델은 최근 다양한 하위 작업 음성 처리 작업에 널리 채택되고 있습니다. 일반적인 사용 패턴은 SSL 모델을 특징 추출기로 활용한 후, 특정 작업을 해결하기 위해 하위 예측 헤드를 학습시키는 것입니다. 그러나 SSL 모델의 서로 다른 계층들이 다양한 유형의 정보를 포착한다는 것이 밝혀졌으며, 이를 결합하는 방법은 잘 연구되지 않았습니다. 이를 위해 우리는 상위 모델과 하위 모델을 연결하는 인터페이스를 제안함으로써 SSL 모델 활용의 일반적인 프레임워크를 확장합니다. 이러한 관점에서, 계층별 가중 합을 통해 특징을 결합하는 주요 기술은 특정 인터페이스로 간주될 수 있습니다. 우리는 여러 대안적인 인터페이스 설계를 제안하고, 가중 합 인터페이스가 많은 작업에서 최적이 아니라는 것을 입증합니다. 특히, 상위 모델의 깊이에 대해 로그적으로 깊이가 조정되는 합성곱 인터페이스가 다른 많은 인터페이스 설계를 일관되게 능가한다는 것을 보여줍니다.
인간 피드백을 통한 강화 학습(RLHF)은 대형 모델을 사용자 선호에 맞추는 주요 방법으로 자리 잡았습니다. 미세 조정(fine-tuning)과 달리, RLHF 정렬 과정에서 데이터 기억화(memorization)가 어떻게 영향을 받거나 도입되는지는 명확하지 않습니다. 이러한 관계를 이해하는 것은 실제 사용자 데이터가 수집되어 대형 모델을 정렬하는 데 사용될 수 있기 때문에 중요합니다. 만약 RLHF 과정에서 사용자 데이터가 기억화되고 이후에 재현된다면, 이는 프라이버시 문제를 야기할 수 있습니다. 본 연구에서는 RLHF의 각 단계를 통해 훈련 데이터 기억화가 어떻게 나타나고 전파되는지 분석합니다. 우리는 코드 완성 모델에 초점을 맞추었는데, 이는 대형 언어 모델의 가장 인기 있는 사용 사례 중 하나이기 때문입니다. 연구 결과, RLHF는 보상 모델링 및 강화 학습에 사용된 데이터가 기억화될 가능성을 해당 데이터에 직접 미세 조정을 통해 정렬하는 방법에 비해 상당히 감소시키는 것으로 나타났습니다. 그러나 RLHF의 미세 조정 단계에서 이미 기억화된 예제들은 대부분의 경우 RLHF 이후에도 기억화된 상태로 남아있습니다.
대규모 언어 모델(LLMs)에서 특정 개념을 "언러닝(unlearning)"하는 작업은 유해한 정보, 개인 정보 또는 잘못된 정보의 생성과 같은 바람직하지 않은 모델 행동을 완화하는 데 중요하기 때문에 최근 엄청난 관심을 받고 있습니다. 현재 언러닝 방법을 평가하기 위한 프로토콜은 주로 행동 테스트에 의존하며, 모델의 매개변수 내에서 언러닝된 지식의 존재 여부를 모니터링하지 않습니다. 이러한 잔여 지식은 언러닝 후 삭제된 정보를 복구하기 위해 적대적으로 악용될 수 있습니다. 우리는 언러닝이 내부적으로도 평가되어야 하며, 언러닝된 개념의 매개변수적 지식 흔적의 변화를 고려해야 한다고 주장합니다. 이를 위해, 우리는 구체적인 개념을 인코딩하는 매개변수 공간 내의 방향(이하 "개념 벡터(concept vectors)"라고 함)을 도출하는 일반적인 방법론을 제안하고, 두 개의 오픈소스 LLMs 내에서 수백 개의 일반적인 개념과 그들의 매개변수적 지식 흔적을 포함한 벡터 데이터셋인 ConceptVectors를 구축했습니다. ConceptVectors에 대한 평가는 기존의 언러닝 방법이 개념 벡터에 미미한 영향을 미치는 반면, 이러한 벡터를 직접 제거하면 LLMs에서 관련 지식이 제거되고 적대적 조작에 대한 취약성이 크게 감소함을 보여줍니다. 우리의 결과는 행동 기반 언러닝 평가의 한계를 강조하며, 향후 연구에서 매개변수 기반 평가를 포함할 것을 요구합니다. 이를 지원하기 위해, 우리는 코드와 벤치마크를 https://github.com/yihuaihong/ConceptVectors에서 공개합니다.