번역이 포함된 일일 선별된 AI 연구 논문
검색 보강 생성(Retrieval-Augmented Generation, RAG)은 외부 지식 검색을 통해 대형 언어 모델(Large Language Models, LLMs)을 강화하는 강력한 패러다임이 되었습니다. 널리 주목받고 있지만 기존의 학술 연구는 주로 단일 턴 RAG에 초점을 맞추고 있어 현실 세계 응용 프로그램에서 발견되는 다중 턴 대화의 복잡성을 다루는 데 중요한 공백이 있습니다. 이 공백을 메우기 위해 우리는 실제적인 다중 턴 대화 환경에서 RAG 시스템을 평가하기 위해 설계된 대규모 벤치마크인 CORAL을 소개합니다. CORAL은 위키피디아에서 자동으로 유래된 다양한 정보 탐색 대화를 포함하며, 오픈 도메인 커버리지, 지식 집중도, 자유 형식 응답 및 주제 변경과 같은 주요 도전 과제를 다룹니다. 이는 대화형 RAG의 세 가지 핵심 작업인 단락 검색, 응답 생성 및 인용 레이블링을 지원합니다. 우리는 다양한 대화형 RAG 방법을 표준화하기 위한 통합된 프레임워크를 제안하고, 이러한 방법들을 CORAL에서 포괄적으로 평가하여 기존 방법을 개선할 수 있는 상당한 기회를 보여줍니다.
트랜스포머는 다양한 영역에서 우수한 성능으로 인해 기본 모델에서 주요 아키텍처가 되었습니다. 그러나 이러한 모델의 확장에 따른 상당한 비용은 여전히 중요한 문제입니다. 이 문제는 주로 선형 프로젝션 내에서 고정된 수의 매개변수에 의존하고 있기 때문에 발생합니다. 아키텍처 수정(예: 채널 차원)이 도입되면 전체 모델을 일반적으로 처음부터 다시 훈련해야 합니다. 모델 크기가 계속 커지면 이 전략은 점점 더 높은 계산 비용을 초래하고 지속 가능하지 않아집니다. 이 문제를 극복하기 위해 우리는 TokenFormer를 소개합니다. 이는 입력 토큰 간의 계산 뿐만 아니라 토큰과 모델 매개변수 간 상호 작용을 위해 주의 메커니즘을 활용하는 네이티브 확장 가능한 아키텍처입니다. 모델 매개변수를 토큰으로 취급하여 입력 토큰이 쿼리로 작용하고 모델 매개변수가 키와 값으로 작용하는 토큰-매개변수 주의층으로 트랜스포머의 모든 선형 프로젝션을 대체합니다. 이 재정립을 통해 처음부터 다시 훈련할 필요 없이 점진적이고 효율적인 확장이 가능해집니다. 우리 모델은 새로운 키-값 매개변수 쌍을 점진적으로 추가하여 124M에서 1.4B 매개변수로 확장되며, 훈련 비용을 크게 줄이면서 처음부터 훈련된 트랜스포머와 유사한 성능을 달성합니다. 코드 및 모델은 https://github.com/Haiyang-W/TokenFormer에서 사용할 수 있습니다.
최근 몇 년간 강화 학습(Reinforcement Learning, RL) 분야에서는 대규모 행동 모델이 대규모 데이터셋을 이용한 오프라인 학습을 통해 시퀀스 모델링을 통해 훈련되는 추세가 있었습니다. 기존 모델은 주로 Transformer 아키텍처를 기반으로 하며 강력한 에이전트를 얻게 됩니다. 그러나 Transformer 기반 접근 방식은 추론 시간이 느려 로봇공학과 같은 실시간 응용에는 비실용적입니다. 최근에는 xLSTM과 Mamba와 같은 현대적인 순환 아키텍처가 제안되었는데, 이들은 Transformer 아키텍처와 유사하게 훈련 중 병렬화 이점을 보여주면서 빠른 추론을 제공합니다. 본 연구에서는 이러한 현대적인 순환 아키텍처들이 대규모 행동 모델에 적합한지를 연구합니다. 따라서 xLSTM을 핵심으로 하는 Large Recurrent Action Model (LRAM)을 제안하며, 이는 선형 시간 추론 복잡성과 자연스러운 시퀀스 길이 추정 능력을 갖추고 있습니다. 6개 도메인의 432개 작업에 대한 실험 결과 LRAM이 성능과 속도 측면에서 Transformer와 유리한 비교 결과를 보여줍니다.
우리는 REM을 제시합니다. 이는 자연어로 설명할 수 있는 다양한 개념을 비디오에서 세분화하는 프레임워크입니다. 우리의 방법은 인터넷 규모의 데이터셋에서 비디오 확산 모델에 의해 학습된 시각-언어 표현을 활용합니다. 우리 접근 방식의 중요한 통찰력은 생성 모델의 원래 표현을 최대한 보존하면서, 좁은 영역의 Referral Object Segmentation 데이터셋에서 세부 조정하는 것입니다. 결과적으로, 우리의 프레임워크는 한정된 범주의 객체 마스크로 훈련되었음에도 드문하고 보이지 않는 객체를 정확하게 세분화하고 추적할 수 있습니다. 게다가, 우리의 새롭게 소개된 Referral Video Process Segmentation (Ref-VPS) 벤치마크에서 보여주는 것처럼, 파도가 바다에 부딪히는 등 비객체 동적 개념으로 일반화할 수 있습니다. 우리의 실험 결과 REM은 Ref-DAVIS와 같은 도메인 내 데이터셋에서 최첨단 접근 방식과 유사한 성능을 발휘하며, 도메인 밖 데이터에서 영역 유사성 측면에서 최대 12점까지 뛰어난 결과를 보여주며 인터넷 규모 사전 훈련의 힘을 활용합니다.
대형 언어 모델 (LLMs)은 어려운 추론 벤치마크에서 우수한 성능을 달성하지만 기본적인 추론 오류를 범하기도 합니다. 이 대조적인 행동은 LLMs의 추론 능력 메커니즘을 이해하는 데 어려움을 줍니다. 하나의 가설은 일반적인 추론 벤치마크에서 점점 높고 거의 포화된 성능이 유사한 문제들을 암기함으로써 이루어질 수 있다는 것입니다. 본 논문에서는 나이트와 남녀 (K&K) 퍼즐을 기반으로 한 동적 생성 논리 추론 벤치마크를 사용하여 추론 작업에서의 암기 정도를 양적으로 측정하여 이 가설을 체계적으로 조사했습니다. 우리는 LLMs가 훈련 퍼즐을 보간할 수 있음을 발견했으며 (거의 완벽한 정확도 달성), 그러나 이러한 퍼즐이 약간 왜곡될 때 실패하는 것으로 나타났습니다. 이는 모델이 훈련 퍼즐을 해결하기 위해 암기에 크게 의존한다는 것을 시사합니다. 반면에, 우리는 세밀한 조정이 많은 암기를 유발하지만 일반화 성능을 일관되게 향상시킨다는 것을 보여줍니다. 왜곡 테스트, 난이도 수준 간 전이성, 모델 내부 조사 및 잘못된 답변으로의 세밀한 조정과 함께 한 군데서 추론을 배우는 것을 보여주는 분석을 통해, LLMs가 훈련 데이터 암기에도 불구하고 K&K 퍼즐에서 추론하는 방법을 배운다는 것을 보여줍니다. 이 현상은 LLMs가 추론과 암기 사이의 복잡한 상호 작용을 나타냅니다. 마지막으로, 샘플별 암기 점수를 사용한 분석을 통해 LLMs가 논리 퍼즐을 해결하는 과정에서 추론과 암기 사이를 전환하는 방법에 대한 통찰을 제공합니다. 우리의 코드와 데이터는 https://memkklogic.github.io에서 사용할 수 있습니다.
독자들은 읽고 있는 텍스트에 대해 다양한 목표를 가질 수 있습니다. 그들의 눈의 움직임 패턴에서 이러한 목표를 해독할 수 있을까요? 본 연구에서는 정보 탐색과 평범한 독해라는 일상적인 두 가지 독해 목표를 해독할 수 있는지에 대해 최초로 조사합니다. 대규모 아이트래킹 데이터를 활용하여, 다양한 아키텍처와 데이터 표현 전략을 다루는 최첨단 모델들을 이 작업에 적용하고 새로운 모델 앙상블을 소개합니다. 우리는 이러한 모델들을 새로운 텍스트 항목, 새로운 참가자, 그리고 둘의 조합 세 가지 수준에서 체계적으로 평가합니다. 눈의 움직임이 이 작업에 매우 가치 있는 신호를 포함한다는 것을 발견합니다. 우리는 또한 평범한 독해와 정보 탐색 간의 차이에 대한 이전 경험적 연구 결과에 기초한 오류 분석을 수행하고 풍부한 텍스트 주석을 활용합니다. 이 분석은 작업의 난이도에 기여하는 텍스트 항목과 참가자 눈의 움직임의 주요 특성을 밝혀냅니다.
전문가들의 혼합 (Mixture-of-Experts, MoE) 모델은 각 토큰을 각 층의 소수의 전문가에 경로 지정하여 밀집 언어 모델의 효율성과 확장성을 향상시킵니다. 본 논문에서는 피해자의 쿼리가 피해자의 쿼리와 동일한 예제 배치에 나타나도록 배열할 수 있는 적대적 요소가 전문가 선택 라우팅을 악용하여 피해자의 프롬프트를 완전히 노출시킬 수 있다는 것을 보여줍니다. 우리는 torch.topk CUDA 구현의 tie-handling 동작을 악용하여 두 층의 Mixtral 모델에서 이 공격의 효과를 성공적으로 시연했습니다. 결과는 우리가 고려하는 설정에서 O({VM}^2) 쿼리(어휘 크기 V 및 프롬프트 길이 M) 또는 토큰 당 평균 100개의 쿼리를 사용하여 전체 프롬프트를 추출할 수 있다는 것을 보여줍니다. 이는 사용자 프롬프트를 추출하기 위해 구조적 결함을 악용하는 첫 번째 공격으로, 새로운 LLM 취약점 클래스를 소개합니다.
오픈 소스 대형 언어 모델은 연구자와 실무자들 사이에서 점점 더 이용 가능하고 인기를 끌고 있습니다. 오픈 가중치 모델에 대한 중요한 발전이 있었지만, 주요 오픈 가중치 모델 개발자들에 의해 아직 채택되지 않은 오픈 훈련 데이터는 한 가지 실천 사례입니다. 동시에 연구자들은 언어 모델을 보다 안전하게 만들기 위해 노력하고 있습니다. 우리는 공개 도메인 데이터로 훈련된 모델의 유해한 결과물을 줄이기 위한 데이터 정제 파이프라인을 제안합니다. 공개 도메인 데이터를 다루는 데는 고유한 도전 과제가 있습니다. 이러한 소스들은 형식과 내용 모두에서 웹 텍스트와 다릅니다. 많은 소스는 역사적 문서이며 광학 문자 인식(OCR)의 결과물입니다. 결과적으로 현재 최첨단 독성 필터링 접근 방식은 종종 오픈 데이터 모델에 대해 실현 가능하지 않거나 적절하지 않습니다. 본 논문에서는 오픈 데이터 독성 필터링을 위한 새로운 완전한 오픈 소스 파이프라인을 소개합니다. 우리의 기여는 세 가지입니다. 우리는 다섯 가지 다른 차원(인종/출신, 성별/성적, 종교, 능력에 기반한 차별, 폭력)을 통해 분류된 텍스트로 구성된 사용자 정의 훈련 데이터 세트인 ToxicCommons를 생성합니다. 이 데이터 세트를 사용하여 오픈 데이터에서 독성 콘텐츠를 더 효율적으로 대규모로 감지할 수 있는 사용자 정의 분류기인 Celadon을 훈련합니다. 마지막으로, 훈련용으로 사용 가능한 필터링된 데이터에 대한 안전 필터링을 최적화하는 균형 잡힌 콘텐츠 필터링 방식을 설명합니다.
인간은 보완적 학습 시스템을 갖고 있으며, 이는 일반적인 세계 역학의 느린 학습과 새로운 경험으로부터의 에피소드 기억의 빠른 저장을 연결합니다. 그러나 이전 비디오 생성 모델은 주로 방대한 양의 데이터를 사전 훈련하여 느린 학습에 초점을 맞추었으며, 에피소드 기억 저장에 중요한 빠른 학습 단계를 간과했습니다. 이러한 간과로 인해 더 긴 비디오를 생성할 때 시간적으로 먼 프레임에서 모델의 컨텍스트 창을 벗어나 일관성이 떨어지게 됩니다. 이에 우리는 액션 중심의 장비디오 생성을 위한 새로운 이중 속도 학습 시스템인 SlowFast-VGen을 소개합니다. 저희 접근 방식은 세계 역학의 느린 학습을 위해 마스크된 조건부 비디오 확산 모델을 통합하며, 시간 LoRA 모듈에 기반한 추론 시 빠른 학습 전략을 포함합니다. 구체적으로, 빠른 학습 프로세스는 지역 입력 및 출력을 기반으로 시간 LoRA 매개변수를 업데이트하여 효율적으로 에피소드 기억을 매개변수에 저장합니다. 또한 우리는 내부 빠른 학습 루프를 외부 느린 학습 루프에 매끄럽게 통합하여 컨텍스트 인식 기술 학습을 위해 이전 다중 에피소드 경험을 회상할 수 있는 느린-빠른 학습 루프 알고리즘을 제안합니다. 근사적 세계 모델의 느린 학습을 용이하게 하기 위해 우리는 다양한 시나리오를 다루는 200k개의 비디오와 언어 액션 주석을 포함한 대규모 데이터셋을 수집합니다. 광범위한 실험 결과는 SlowFast-VGen이 액션 중심 비디오 생성에 있어 다양한 메트릭에서 기존 기준을 능가하며, FVD 점수가 782에 비해 514로 달성하고, 평균 0.37 장면 전환 대비 0.89로 더 긴 비디오에서 일관성을 유지한다는 것을 보여줍니다. 또한 느린-빠른 학습 루프 알고리즘은 장기 계획 작업에서 성능을 크게 향상시킵니다. 프로젝트 웹사이트: https://slowfast-vgen.github.io
우리는 대규모 언어 모델을 위한 벤치마크를 제시합니다. 이 벤치마크는 데이터 과학에서 가장 지식 집약적인 작업 중 하나인 피처 엔지니어링 코드 작성에 대응하기 위해 설계되었습니다. 이 작업은 깊은 문제 이해와 데이터 구조에 대한 도메인 지식이 필요합니다. 모델은 프롬프트로 제공된 데이터셋 설명을 받아들이고 이를 변환하는 코드를 생성하도록 요청됩니다. 평가 점수는 수정된 데이터셋에 맞춰진 XGBoost 모델의 성능 향상을 기초로 합니다. 최첨단 모델들을 철저히 평가하고 잘 알려진 벤치마크와 비교함으로써, 우리 제안의 FeatEng가 기존 방법과 대조적으로 LLM의 폭넓은 능력을 저렴하고 효율적으로 평가할 수 있음을 입증합니다.
의료 정보 검색 (MIR)은 전자 건강 기록, 과학 문헌 및 의료 데이터베이스를 포함한 다양한 소스에서 관련 의료 지식을 검색하는 데 중요합니다. 그러나 의료 분야에서 효과적인 제로샷 밀집 검색을 달성하는 것은 관련성이 레이블이 지정되지 않은 데이터의 부족으로 인해 상당한 어려움을 겪습니다. 본 논문에서는 이 문제에 대처하기 위해 Self-Learning Hypothetical Document Embeddings (SL-HyDE)라는 새로운 접근 방식을 소개합니다. SL-HyDE는 대규모 언어 모델 (LLMs)을 생성기로 활용하여 주어진 쿼리를 기반으로 가상 문서를 생성하는 것을 통해 핵심 의료 맥락을 포함하는 생성된 문서를 활용하여 밀집 검색기가 가장 관련성 있는 문서를 식별하는 데 도움을 줍니다. 이 자기 학습 프레임워크는 관련성이 레이블이 지정되지 않은 의료 말뭉치를 활용하여 가상 문서 생성 및 검색을 점진적으로 개선하며 관련성이 레이블이 지정된 데이터를 요구하지 않습니다. 또한, 우리는 실제 의료 시나리오에 근거한 포괄적인 평가 프레임워크인 중국 의료 정보 검색 벤치마크 (CMIRB)를 제시합니다. 이는 다섯 가지 작업과 열 가지 데이터셋을 포함하며 CMIRB에서 열 가지 모델을 벤치마킹하여 의료 정보 검색 시스템을 평가하는 엄격한 기준을 설정합니다. 실험 결과는 SL-HyDE가 기존 방법보다 훨씬 뛰어난 검색 정확도를 보여주며 강력한 일반화 및 다양한 LLM 및 검색기 구성에 대한 확장성을 보여줍니다. CMIRB 데이터 및 평가 코드는 다음에서 공개적으로 이용할 수 있습니다: https://github.com/CMIRB-benchmark/CMIRB.