번역이 포함된 일일 선별된 AI 연구 논문
최근 DeepSeek-R1 릴리스는 강화 학습(RL)이 대규모 언어 모델(LLM)의 일반적인 추론 능력을 향상시키는 데 있어 엄청난 잠재력을 보여주었습니다. DeepSeek-R1과 후속 연구들이 주로 경쟁 프로그래밍 및 수학 문제에 RL을 적용하는 데 초점을 맞추는 반면, 본 논문은 실세계 소프트웨어 엔지니어링을 위해 RL 기반 LLM 추론을 확장하는 첫 번째 접근법인 SWE-RL을 소개합니다. 경량 규칙 기반 보상(예: 실제 정답과 LLM이 생성한 솔루션 간의 유사도 점수)을 활용함으로써, SWE-RL은 LLM이 방대한 오픈소스 소프트웨어 진화 데이터(소프트웨어의 전체 생명주기를 기록한 코드 스냅샷, 코드 변경, 이슈 및 풀 리퀘스트와 같은 이벤트 포함)로부터 학습하여 개발자의 추론 과정과 솔루션을 자율적으로 복구할 수 있도록 합니다. Llama 3를 기반으로 학습된 우리의 추론 모델인 Llama3-SWE-RL-70B는 SWE-bench Verified(실제 GitHub 이슈를 인간이 검증한 데이터셋)에서 41.0%의 해결률을 달성했습니다. 우리가 아는 한, 이는 중간 규모(<100B) LLM 중에서 지금까지 보고된 최고 성능이며, GPT-4o와 같은 선도적인 독점 LLM과도 비교 가능한 수준입니다. 흥미롭게도, 소프트웨어 진화 데이터에만 RL을 수행했음에도 불구하고 Llama3-SWE-RL은 일반화된 추론 능력을 보여주었습니다. 예를 들어, 함수 코딩, 라이브러리 사용, 코드 추론, 수학, 일반 언어 이해 등 다섯 가지 도메인 외 작업에서 개선된 결과를 보인 반면, 지도 학습 기반 파인튜닝 모델은 평균적으로 성능 저하를 초래했습니다. 전반적으로, SWE-RL은 대규모 소프트웨어 엔지니어링 데이터에 대한 강화 학습을 통해 LLM의 추론 능력을 개선하는 새로운 방향을 제시합니다.
최근 오픈소스 멀티모달 대형 언어 모델(MLLM)의 발전은 주로 기초 능력 향상에 초점을 맞추어 왔으며, 이로 인해 인간 선호도 정렬 측면에서 상당한 격차가 발생했습니다. 본 논문은 인간 선호도와의 정렬을 개선하기 위해 다양한 이미지, 복잡한 질문, 그리고 다양한 응답 형식을 포함한 20만 개의 고품질 학습 샘플로 구성된 OmniAlign-V 데이터셋을 소개합니다. 또한, MLLM의 인간 가치 정렬을 평가하기 위해 특별히 설계된 인간 주석 벤치마크인 MM-AlignBench를 제시합니다. 실험 결과, OmniAlign-V를 사용하여 지도 미세 조정(SFT) 또는 직접 선호도 최적화(DPO) 방식으로 MLLM을 미세 조정하면 인간 선호도 정렬이 크게 향상되면서도 표준 VQA 벤치마크에서의 성능을 유지하거나 향상시켜 기본 능력을 보존할 수 있음을 보여줍니다. 우리의 데이터셋, 벤치마크, 코드 및 체크포인트는 https://github.com/PhoenixZ810/OmniAlign-V에서 공개되었습니다.
큰 모델에서는 어텐션의 이차 시간 복잡도로 인해 효율적인 어텐션 구현이 필수적입니다. 다행히도, 어텐션은 흔히 희소성을 보이는데, 이는 어텐션 맵의 많은 값들이 0에 가까워 해당 계산을 생략할 수 있음을 의미합니다. 많은 연구들이 이러한 희소 패턴을 활용하여 어텐션을 가속화해 왔습니다. 그러나 기존 연구 대부분은 어텐션 맵의 특정 희소 패턴을 활용하여 특정 모델 내에서 어텐션을 최적화하는 데 초점을 맞추고 있습니다. 다양한 모델의 속도 향상과 엔드투엔드 성능을 모두 보장하는 보편적인 희소 어텐션은 아직 달성되지 못했습니다. 본 논문에서는 모든 모델에 적용 가능한 보편적인 희소 및 양자화 어텐션인 SpargeAttn을 제안합니다. 우리의 방법은 두 단계의 온라인 필터를 사용합니다: 첫 번째 단계에서는 어텐션 맵을 빠르고 정확하게 예측하여 어텐션의 일부 행렬 곱셈을 건너뛸 수 있도록 합니다. 두 번째 단계에서는 추가 오버헤드 없이 더 많은 행렬 곱셈을 생략할 수 있는 온라인 소프트맥스 인식 필터를 설계합니다. 실험 결과, 우리의 방법은 언어, 이미지, 비디오 생성 등 다양한 모델에서 엔드투엔드 지표를 희생하지 않으면서도 상당한 가속을 달성함을 보여줍니다. 코드는 https://github.com/thu-ml/SpargeAttn에서 확인할 수 있습니다.
이미지 편집 작업에서 배경 일관성은 여전히 중요한 과제로 남아 있습니다. 광범위한 발전에도 불구하고, 기존 연구들은 원본 이미지와의 유사성을 유지하는 것과 목표에 부합하는 콘텐츠를 생성하는 것 사이의 균형을 맞추는 데 어려움을 겪고 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 KV-Edit를 제안합니다. KV-Edit는 DiT(Diffusion Transformer)에서 KV 캐시를 활용하여 배경 일관성을 유지하는 훈련이 필요 없는 접근 방식으로, 복잡한 메커니즘이나 고비용의 훈련 없이도 배경 토큰을 재생성하지 않고 보존함으로써 사용자가 제공한 영역 내에서 배경과 자연스럽게 통합된 새로운 콘텐츠를 생성합니다. 또한 편집 과정에서 KV 캐시의 메모리 소비를 탐구하고, 역전(inversion)이 필요 없는 방법을 사용하여 공간 복잡도를 O(1)로 최적화했습니다. 우리의 접근 방식은 추가 훈련 없이도 모든 DiT 기반 생성 모델과 호환됩니다. 실험 결과, KV-Edit는 배경 및 이미지 품질 측면에서 기존 접근 방식을 크게 능가하며, 심지어 훈련 기반 방법들보다도 우수한 성능을 보여줍니다. 프로젝트 웹페이지는 https://xilluill.github.io/projectpages/KV-Edit에서 확인할 수 있습니다.
다중 레이어 이미지 생성은 사용자가 특정 이미지 레이어를 분리, 선택 및 편집할 수 있게 해주는 근본적인 작업으로, 이를 통해 생성 모델과의 상호작용에 혁신을 가져옵니다. 본 논문에서는 전역 텍스트 프롬프트와 익명 영역 레이아웃을 기반으로 가변적인 다중 레이어 투명 이미지를 직접 생성할 수 있는 익명 영역 트랜스포머(Anonymous Region Transformer, ART)를 소개합니다. 스키마 이론(Schema theory)에 영감을 받아, 이 익명 영역 레이아웃은 생성 모델이 어떤 시각적 토큰 집합이 어떤 텍스트 토큰과 정렬되어야 하는지를 자율적으로 결정할 수 있게 합니다. 이는 이전에 지배적이었던 이미지 생성 작업을 위한 의미론적 레이아웃과 대조됩니다. 또한, 각 익명 영역에 속하는 시각적 토큰만을 선택하는 레이어별 영역 자르기(region crop) 메커니즘은 주의(attention) 계산 비용을 크게 줄이고, 수많은 독립적인 레이어(예: 50개 이상)를 가진 이미지를 효율적으로 생성할 수 있게 합니다. 전체 주의(full attention) 접근 방식과 비교했을 때, 우리의 방법은 12배 이상 빠르며 레이어 간 충돌이 더 적습니다. 더 나아가, 우리는 가변적인 다중 레이어 이미지의 투명도를 직접적으로 인코딩 및 디코딩할 수 있는 고품질 다중 레이어 투명 이미지 자동 인코더를 제안합니다. 정밀한 제어와 확장 가능한 레이어 생성을 가능하게 함으로써, ART는 인터랙티브 콘텐츠 생성에 새로운 패러다임을 확립합니다.
컴퓨팅 기술의 급속한 발전은 대규모 언어 모델(LLM) 훈련의 규모와 비용을 크게 증가시키고 있습니다. 모델 훈련 전에 다운스트림 작업 성능을 정확하게 예측하는 것은 효율적인 자원 할당에 있어 매우 중요하지만, 두 가지 주요 제약으로 인해 여전히 어려운 과제로 남아 있습니다: (1) "발현 현상(emergence phenomenon)"으로, 다운스트림 성능 지표가 광범위한 훈련 후에야 의미를 갖게 되어 더 작은 모델을 사용한 예측이 제한되며, (2) 작업 난이도 분포의 불균일성과 일관된 스케일링 법칙의 부재로 인해 지표 변동성이 크게 발생합니다. 기존의 성능 예측 방법들은 정확성과 신뢰성이 제한적이어서 잠재적인 LLM 능력 평가에 방해가 되고 있습니다. 이러한 문제를 해결하기 위해, 우리는 작업 난이도를 기반으로 클러스터링하여 예측 가능한 지원 하위 집합을 구성하고, 비발현적(non-emergent) 및 비확장적(non-scalable) 클러스터를 전략적으로 제외하는 Clustering-On-Difficulty (COD) 다운스트림 성능 예측 프레임워크를 제안합니다. 선택된 하위 집합에서의 점수는 전체 평가 세트에 대한 다운스트림 성능의 효과적인 중간 예측 지표로 작용합니다. 이론적 근거를 바탕으로, 우리는 예측 가능한 하위 집합의 성능 지표를 전체 평가 세트로 변환하는 매핑 함수를 도출하여 LLM 다운스트림 성능의 정확한 외삽을 보장합니다. 제안된 방법은 70B LLM의 성능 스케일링 예측에 적용되어 훈련 자원 할당에 대한 실행 가능한 통찰을 제공하고 훈련 과정 모니터링을 지원했습니다. 특히, COD는 소규모 모델 앙상블을 활용하여 70B LLM에서 놀라운 예측 정확도를 달성했으며, 8개의 중요한 LLM 평가 벤치마크에서 평균 절대 편차 1.36%를 기록했습니다.
과학적 실험은 인간의 진보를 위한 초석으로서, 의미 있는 결과를 도출하기 위해 신뢰성, 체계적인 통제, 해석 가능성에 있어 엄격함을 요구합니다. 대규모 언어 모델(LLM)이 과학적 과정의 다양한 측면을 자동화하는 능력이 점차 향상되고 있음에도 불구하고, 엄격한 실험을 자동화하는 것은 여전히 상당한 과제로 남아 있습니다. 이러한 격차를 해소하기 위해, 우리는 Curie라는 AI 에이전트 프레임워크를 제안합니다. Curie는 세 가지 핵심 구성 요소를 통해 실험 과정에 엄격함을 내재화하도록 설계되었습니다: 신뢰성을 강화하기 위한 에이전트 내 엄격성 모듈, 체계적인 통제를 유지하기 위한 에이전트 간 엄격성 모듈, 그리고 해석 가능성을 높이기 위한 실험 지식 모듈입니다. Curie를 평가하기 위해 우리는 컴퓨터 과학의 네 가지 분야에 걸쳐 영향력 있는 연구 논문과 널리 채택된 오픈소스 프로젝트에서 도출된 46개의 질문으로 구성된 새로운 실험 벤치마크를 설계했습니다. 테스트된 가장 강력한 베이스라인과 비교했을 때, 우리는 실험 질문에 대해 3.4배의 정답률 향상을 달성했습니다. Curie는 https://github.com/Just-Curieous/Curie에서 오픈소스로 제공됩니다.
최근 연구들은 다양한 LoRA를 결합하여 학습된 스타일과 콘텐츠를 공동으로 생성하는 방법을 탐구해 왔습니다. 그러나 기존 방법들은 원본 주제와 스타일을 동시에 효과적으로 보존하지 못하거나 추가적인 학습이 필요한 한계를 보였습니다. 본 논문에서는 LoRA의 본질적 특성이 확산 모델이 학습된 주제와 스타일을 병합하는 데 효과적으로 활용될 수 있다고 주장합니다. 이러한 통찰을 바탕으로, 우리는 학습이 필요 없는 간단하면서도 효과적인 LoRA 융합 접근법인 K-LoRA를 제안합니다. 각 주의 계층에서 K-LoRA는 융합할 각 LoRA의 Top-K 요소를 비교하여 최적의 융합을 위해 어떤 LoRA를 선택할지 결정합니다. 이 선택 메커니즘은 융합 과정에서 주제와 스타일의 가장 대표적인 특징이 보존되도록 하여, 두 요소의 기여를 효과적으로 균형 있게 유지합니다. 실험 결과는 제안된 방법이 원본 LoRA들이 학습한 주제와 스타일 정보를 효과적으로 통합하며, 정성적 및 정량적 결과에서 최신 학습 기반 접근법들을 능가함을 보여줍니다.
시각 정보를 활용하기 위해 멀티모달 대형 언어 모델(MLLM)은 시각 인코더의 인지 프로세스에 의존합니다. 시각적 인지의 완전성과 정확성은 공간 추론, 세밀한 이해 및 기타 작업의 정밀도에 큰 영향을 미칩니다. 그러나 MLLM은 여전히 자율적으로 시각적 인지 프로세스를 제어할 수 있는 능력이 부족합니다. 예를 들어, 이미지의 특정 영역을 선택적으로 검토하거나 특정 객체 카테고리와 관련된 정보에 집중하는 등의 작업이 어렵습니다. 본 연구에서는 MLLM이 시각적 인지 프로세스를 제어할 수 있는 메커니즘을 제공하기 위해 '시각적 인지 토큰(Visual Perception Token)'이라는 개념을 제안합니다. 우리는 '영역 선택 토큰(Region Selection Token)'과 '시각 재인코딩 토큰(Vision Re-Encoding Token)'이라는 두 가지 유형의 시각적 인지 토큰을 설계했습니다. MLLM은 텍스트를 생성하는 것과 마찬가지로 이러한 토큰을 자율적으로 생성하고, 이를 통해 추가적인 시각적 인지 작업을 트리거합니다. 영역 선택 토큰은 이미지 내에서 추가적인 인지가 필요한 특정 영역을 명시적으로 식별하며, 시각 재인코딩 토큰은 은닉 상태(hidden states)를 제어 신호로 사용하여 추가적인 시각적 인지 프로세스를 안내합니다. 광범위한 실험을 통해 이러한 토큰이 공간 추론 처리, 세밀한 이해 개선 및 기타 작업에서의 장점을 입증했습니다. 평균적으로, 시각적 인지 토큰의 도입은 20억 파라미터 모델의 성능을 23.6% 향상시켜 점수를 0.572에서 0.708로 끌어올렸으며, 심지어 70억 파라미터 모델을 13.4%(0.624 기준) 앞질렀습니다. 자세한 내용은 https://github.com/yu-rp/VisualPerceptionToken에서 확인하실 수 있습니다.
대규모 언어 모델(LLM)의 사전 학습에서 훈련 안정성은 지속적인 과제로, 특히 Post-Norm Transformer와 같은 아키텍처에서 기울기 폭발 및 소멸 문제가 자주 발생합니다. 본 논문에서는 완전 연결 계층에서 가중치 행렬의 스케일과 분포를 명시적으로 분리하여 훈련을 안정화하는 새로운 접근법인 Scale-Distribution Decoupling(SDD)을 제안합니다. SDD는 활성화를 규제하기 위한 정규화 메커니즘과 잘 조절된 기울기를 유지하기 위한 학습 가능한 스케일링 벡터를 적용하여 기울기 폭발 및 소멸을 효과적으로 방지합니다. 이러한 분리는 특히 깊은 네트워크에서 안정적인 기울기 전파를 보장함으로써 최적화 효율성을 향상시킵니다. 실험 결과는 우리의 방법이 다양한 LLM 아키텍처에서 훈련을 안정화하고, 서로 다른 정규화 설정에서 기존 기술을 능가함을 보여줍니다. 또한, 제안된 방법은 경량이며 기존 프레임워크와 호환되어 LLM 훈련 안정화를 위한 실용적인 솔루션으로 적합합니다. 코드는 https://github.com/kaihemo/SDD에서 확인할 수 있습니다.
우리는 50개 이상의 인터랙티브 과제로 구성된 종합 벤치마크 제품군인 WebGames를 소개합니다. 이 과제들은 인간에게는 간단하지만, 기본적인 브라우저 상호작용, 고급 입력 처리, 인지 작업, 워크플로 자동화, 인터랙티브 엔터테인먼트 등 다양한 영역에서 현재 AI 시스템의 한계를 체계적으로 테스트하도록 설계되었습니다. 우리의 프레임워크는 외부 의존성을 제거한 밀폐된 테스트 환경을 통해 검증 가능한 정답을 보장하며 재현 가능한 평가를 제공합니다. GPT-4o, Claude Computer-Use, Gemini-1.5-Pro, Qwen2-VL 등 주요 시각-언어 모델을 인간 성능과 비교 평가했습니다. 결과는 현재 AI 시스템이 인간이 직관적으로 처리하는 일반적인 웹 상호작용 패턴을 다루는 데 있어 근본적인 한계를 보여주며, 최고의 AI 시스템도 43.1%의 성공률을 기록한 반면 인간은 95.7%의 성공률을 달성했습니다. 이 벤치마크는 webgames.convergence.ai에서 공개적으로 제공되며, 클라이언트 측에서 가볍게 구현되어 빠른 평가 주기를 지원합니다. 모듈식 아키텍처와 표준화된 과제 명세를 통해 WebGames는 더 능력 있는 웹 브라우징 에이전트 개발의 진전을 측정할 수 있는 견고한 기반을 제공합니다.
대형 언어 모델(LLM)의 계산 및 저장 비용을 줄이려는 동기로 인해, 모델 압축과 키-값(KV) 캐시 압축은 연구자들로부터 많은 관심을 받고 있습니다. 그러나 현재의 방법들은 주로 상식 지식 질의응답(QA) 및 기본 산술 추론 과제에서의 복잡도(perplexity) 또는 단순 정확도를 기준으로 압축된 LLM의 성능 유지에 초점을 맞추고 있습니다. 이 블로그에서는 검색 증강 생성(retrieval-augmented generation), 다단계 추론, 외부 도구 활용, 그리고 계산적 표현력과 관련된 최근 LLM의 발전을 간략히 살펴보고, 이러한 요소들이 LLM의 성능을 크게 향상시킨다는 점을 설명합니다. 이어서, 우리는 특정 LLM과 과제에 대해 다단계 추론과 외부 도구의 도움을 받아 원본 LLM과 동일한 성능을 내는 더 작은 "로또 LLM(lottery LLM)"이 존재할 수 있다는 가설을 제안합니다. LLM의 현재 발전 상황을 검토한 후, 우리는 기존 방법들에서 간과되고 있는 로또 LLM과 KV 캐시 압축이 반드시 갖춰야 할 핵심 역량에 대해 논의하고 요약합니다.
최근 멀티모달 대형 언어 모델(MLLMs)은 시각 인식 작업에서 급속한 발전을 이루어 왔습니다. 이러한 모델들이 다양한 중요한 응용 분야에 통합될 가능성을 고려할 때, 이들의 시각적 인지 능력의 한계를 이해하는 것이 중요합니다. 본 연구에서는 MLLMs가 이미지에 대한 질문에 답할 때 작은 시각적 세부 사항을 큰 것만큼 효과적으로 인식할 수 있는지 여부를 조사합니다. 우리는 MLLMs의 성능이 질문의 시각적 대상의 크기에 매우 민감하다는 것을 관찰하고, 더 나아가 개입 연구를 통해 이러한 효과가 실제로 인과적임을 보여줍니다. 다음으로, MLLMs가 시각적 질문에 답할 때의 주의 패턴을 연구한 결과, 흥미롭게도 이들이 잘못된 답을 제공할 때조차도 어디를 봐야 하는지 일관되게 알고 있음을 발견했습니다. 이러한 발견을 바탕으로, 우리는 MLLMs의 내부 지식을 활용한 학습이 필요 없는 시각적 개입 방법을 제안합니다. 이 방법은 주의 맵과 그래디언트 맵의 형태로 MLLMs 자체의 내부 지식을 활용하여 작은 시각적 세부 사항에 대한 인식을 향상시킵니다. 우리는 제안된 방법을 두 개의 널리 사용되는 MLLMs와 일곱 개의 시각적 질문 응답 벤치마크에서 평가하고, 어떠한 학습도 필요 없이 MLLMs의 정확도를 크게 향상시킬 수 있음을 보여줍니다. 우리의 결과는 작은 세부 사항과 관련된 시각 인식 작업에 MLLMs를 적용할 때의 위험을 명확히 하고, 모델의 내부 상태를 사용한 시각적 개입이 이러한 위험을 완화하기 위한 유망한 방향임을 시사합니다.
대형 언어 모델(LLM) 평가는 일반적으로 정확도나 인간 선호도와 같은 집계된 지표를 사용하며, 사용자와 프롬프트 전반에 걸쳐 평균을 내는 방식으로 진행됩니다. 이러한 평균화는 모델 성능에서 나타나는 사용자 및 프롬프트별 변동성을 가리게 됩니다. 이를 해결하기 위해, 우리는 특정 프롬프트에 맞춘 리더보드를 생성하는 Prompt-to-Leaderboard(P2L) 방법을 제안합니다. 이 방법의 핵심 아이디어는 자연어 프롬프트를 입력으로 받아 Bradley-Terry 계수 벡터를 출력하도록 LLM을 학습시키는 것입니다. 이 계수는 인간 선호도 투표를 예측하는 데 사용됩니다. 그 결과로 생성된 프롬프트 의존적 리더보드는 비지도 작업별 평가, 쿼리를 모델로 최적으로 라우팅, 개인화, 그리고 모델의 강점과 약점을 자동으로 평가하는 데 활용될 수 있습니다. Chatbot Arena의 데이터는 P2L이 평균화된 리더보드보다 언어 모델 성능의 미묘한 차이를 더 잘 포착한다는 것을 시사합니다. 더 나아가, 우리의 연구 결과는 P2L이 프롬프트별 평가를 생성하는 능력이 LLM 자체에서 관찰되는 것과 유사한 멱법칙 스케일링을 따른다는 것을 보여줍니다. 2025년 1월, 이 방법론을 기반으로 훈련된 라우터는 Chatbot Arena 리더보드에서 1위를 차지했습니다. 우리의 코드는 다음 GitHub 링크에서 확인할 수 있습니다: https://github.com/lmarena/p2l.
반복적인 데이터 생성과 모델 재훈련은 대규모 언어 모델(LLM)을 정렬(alignment)시키기 위해 널리 사용됩니다. 이 과정은 일반적으로 온-정책(on-policy) 응답을 생성하는 정책 모델과 훈련 데이터 선택을 안내하는 보상 모델을 포함합니다. 직접 선호 최적화(Direct Preference Optimization, DPO)는 선택된 응답과 거부된 응답의 선호 쌍을 구성함으로써 이 과정을 더욱 강화합니다. 본 연구에서는 반복적인 무작위 샘플링을 통해 온-정책 샘플의 수를 확장하여 정렬 성능을 개선하고자 합니다. 기존의 관행은 DPO를 위해 가장 높은 보상을 받은 샘플을 선택된 것으로, 가장 낮은 보상을 받은 샘플을 거부된 것으로 선택합니다. 그러나 우리의 실험 결과, 이 전략은 샘플 크기가 증가함에 따라 성능 저하를 초래하는 것으로 나타났습니다. 이를 해결하기 위해, 우리는 샘플 보상의 기본 정규 분포를 통해 선호 데이터 구성을 조사합니다. 보상 공간을 7개의 대표적인 지점으로 분류하고, 모든 21가지(C_7^2) 쌍별 조합을 체계적으로 탐구합니다. AlpacaEval 2를 사용하여 4개의 모델을 평가한 결과, 최소 보상이 아닌 보상 위치 mu - 2sigma에서 거부된 응답을 선택하는 것이 최적의 성능을 위해 중요하다는 것을 발견했습니다. 마지막으로, 샘플 규모가 증가함에 따라 모델 성능을 지속적으로 향상시키는 확장 가능한 선호 데이터 구성 전략을 소개합니다.
본 논문에서는 기존의 텍스트-이미지 확산 모델에 대규모 언어 모델(LLM)을 통합하면서도 계산적 요구를 최소화하는 새로운 방법인 LDGen을 소개합니다. CLIP 및 T5와 같은 기존의 텍스트 인코더는 다국어 처리에 있어 한계를 보이며, 다양한 언어 간의 이미지 생성을 방해합니다. 우리는 이러한 문제를 해결하기 위해 LLM의 고급 기능을 활용합니다. 우리의 접근 방식은 계층적 캡션 최적화와 인간 지시 기법을 적용하여 정확한 의미 정보를 도출하는 언어 표현 전략을 사용합니다. 이후, 경량 어댑터와 크로스 모달 리파이너를 도입하여 LLM과 이미지 특성 간의 효율적인 특성 정렬 및 상호 작용을 가능하게 합니다. LDGen은 학습 시간을 단축시키고 제로샷 다국어 이미지 생성을 가능하게 합니다. 실험 결과, 우리의 방법은 프롬프트 준수도와 이미지 미적 품질 모두에서 기준 모델을 능가하며, 여러 언어를 원활하게 지원합니다. 프로젝트 페이지: https://zrealli.github.io/LDGen.
청각 기반 모델, 특히 청각 대형 언어 모델(LLMs)은 청자의 인지와 무관하게 모든 소리 입력을 동등하게 처리합니다. 그러나 인간의 청각 인지는 본질적으로 선택적입니다: 청자들은 복잡한 청각 환경에서 특정 화자에 집중하며 다른 화자들은 무시합니다. 기존 모델들은 이러한 선택성을 반영하지 않아, 청자 인지와 일치하는 응답을 생성하는 데 한계가 있습니다. 이를 해결하기 위해, 우리는 의도 기반 청각 장면 이해(Intention-Informed Auditory Scene Understanding, II-ASU)를 소개하고, 청자의 주의를 추론하기 위해 뇌 신호를 통합한 프로토타입 시스템인 청각 주의 주도 LLM(Auditory Attention-Driven LLM, AAD-LLM)을 제시합니다. AAD-LLM은 청각 LLM을 확장하여 두개 내 뇌파 기록(intracranial electroencephalography, iEEG)을 통합하여 청자가 주의를 기울이는 화자를 해독하고, 이를 바탕으로 응답을 개선합니다. 이 모델은 먼저 신경 활동에서 주의를 기울이는 화자를 예측한 후, 이 추론된 주의 상태를 기반으로 응답 생성을 조정합니다. 우리는 AAD-LLM을 다중 화자 시나리오에서 화자 설명, 음성 전사 및 추출, 질문 응답 작업에 대해 평가했으며, 객관적 및 주관적 평가 모두에서 청자 의도와의 일치도가 향상되었음을 확인했습니다. 이 연구는 의도 인지형 청각 AI로의 첫 걸음을 내딛음으로써, 청자 인지가 기계 청각에 정보를 제공하는 새로운 패러다임을 탐구하며, 미래의 청자 중심 청각 시스템을 위한 길을 열었습니다. 데모 및 코드는 https://aad-llm.github.io에서 확인할 수 있습니다.
대형 언어 모델(LLMs)은 인공지능(AI) 분야에서 혁신적인 도구로 부상하며, 텍스트 생성, 추론, 의사결정 등 다양한 작업에서 뛰어난 능력을 보여주고 있습니다. 이들의 성공은 주로 컴퓨팅 파워와 딥러닝 아키텍처의 발전에 의해 주도되었지만, 불확실성 정량화, 의사결정, 인과 추론, 분포 변화와 같은 영역에서 발생하는 새로운 문제들은 통계학 분야와의 보다 깊은 협력을 요구하고 있습니다. 본 논문은 통계학자들이 LLMs의 개발, 특히 인간 사용자를 위한 신뢰성과 투명성을 확보하려는 LLMs의 발전에 중요한 기여를 할 수 있는 잠재적 영역을 탐구합니다. 이를 위해 우리는 불확실성 정량화, 해석 가능성, 공정성, 프라이버시, 워터마킹 및 모델 적응과 같은 문제에 초점을 맞춥니다. 또한 통계 분석에서 LLMs의 가능한 역할도 고려합니다. AI와 통계학을 연결함으로써, 우리는 LLMs의 이론적 기반과 실제 응용을 모두 발전시키고, 궁극적으로 복잡한 사회적 문제 해결에서의 역할을 형성하는 데 기여할 수 있는 더 깊은 협력을 촉진하고자 합니다.
Mamba와 같은 상태 공간 모델(SSMs)은 장문 맥락 시퀀스 모델링에서 트랜스포머의 효율적인 대안으로 부상하고 있습니다. 그러나 이러한 모델의 활용이 증가함에도 불구하고, SSMs는 어텐션 기반 아키텍처를 이해하고 개선하는 데 중요한 역할을 해 온 해석 가능성 도구를 갖추지 못하고 있습니다. 최근 연구들은 Mamba의 내부 메커니즘에 대한 통찰을 제공하지만, 토큰 단위 기여를 명시적으로 분해하지 않아 Mamba가 계층 간에 어떻게 선택적으로 시퀀스를 처리하는지에 대한 이해에 공백이 남아 있습니다. 본 연구에서는 Mamba-1과 Mamba-2 모두에 적용 가능한 새로운 토큰 수준 분해 방법인 LaTIM을 소개하며, 이를 통해 세밀한 해석 가능성을 가능하게 합니다. 우리는 기계 번역, 복사, 검색 기반 생성 등 다양한 작업에 걸쳐 이 방법을 광범위하게 평가하며, Mamba의 토큰 간 상호작용 패턴을 효과적으로 드러내는 데 있어 그 유용성을 입증합니다.
우리는 다중모달 학습에서의 데이터 효율성 문제를 해결하기 위해 설계된 10억(1B) 및 40억(4B) 파라미터 규모의 시각-언어 모델(VLM) 제품군인 Shakti VLM을 소개한다. 최근의 VLM들은 방대한 양의 학습 데이터를 통해 강력한 성능을 달성하고 있지만, Shakti 모델들은 구조적 혁신을 통해 더 적은 토큰으로도 경쟁력 있는 결과를 얻는다. 주요 개선 사항으로는 주의 메커니즘의 안정성을 위한 QK 정규화, 하이브리드 정규화 기법, 그리고 향상된 위치 인코딩이 포함된다. 또한, 3단계 학습 전략을 통해 학습 효율성을 더욱 최적화하였다. 평가 결과, Shakti-VLM-1B와 Shakti-VLM-4B는 문서 이해, 시각적 추론, OCR 추출, 그리고 일반적인 다중모달 추론에서 탁월한 성능을 보였다. 우리의 결과는 단순한 데이터 양이 아닌 모델 설계와 학습 전략을 통해 높은 성능을 달성할 수 있음을 보여주며, 이는 기업 규모의 다중모달 작업을 위한 효율적인 솔루션으로서 Shakti의 가치를 강조한다.
기존의 객관식 벤치마크의 복잡성을 높이기 위한 간단한 방법인 WiCkeD를 소개합니다. 이 방법은 교육 시험에서 자주 사용되는 "위의 어느 것도 아님"이라는 선택지를 무작위로 대체하는 방식입니다. WiCkeD는 기존의 어떤 벤치마크에도 자동으로 적용할 수 있어 더욱 도전적인 과제로 만들 수 있음을 보여줍니다. WiCkeD를 6개의 인기 있는 벤치마크에 적용하고, 이를 사용하여 18개의 오픈 가중치 대형 언어 모델(LLM)을 평가했습니다. 모델의 성능은 데이터셋의 원본 버전에 비해 평균 12.1점 하락했습니다. 3개의 MMLU 데이터셋에서 사고 연쇄(chain-of-thought)를 사용할 때, WiCkeD 변형에서의 성능 하락은 LLM을 직접 사용할 때 관찰된 것과 유사했으며, 이는 WiCkeD가 강화된 추론 능력을 가진 모델에게도 도전적임을 보여줍니다. 또한 WiCkeD는 일부 모델이 추가적인 추론에 더 민감하다는 점을 밝혀내어, 원본 벤치마크에 비해 추가적인 정보를 제공합니다. 코드와 데이터는 https://github.com/ahmedselhady/wicked-benchmarks에서 공개합니다.
현대 언어 모델은 사전 학습 전에 고정된 정적 어휘 사전에 의존하는 반면, 인간의 언어 학습에서는 적응형 어휘 습득이 관찰됩니다. 이러한 차이를 해소하기 위해, 우리는 어휘 커리큘럼 학습(vocabulary curriculum learning)을 소개합니다. 이 접근법은 어휘 크기에 대해 로그-선형(log-linear) 스케일링 이득을 통해 사전 학습 효율성을 향상시킵니다. 우리의 방법은 엔트로피 기반 어휘 확장과 모델 최적화를 번갈아 수행함으로써, 다양한 토큰화 세분화 수준에서 전이 가능한 표현을 학습할 수 있도록 합니다. 이 접근법은 자연스럽게 최적의 계산 할당 패턴을 도출합니다: 긴 토큰은 예측 가능한 내용을 포착하고, 짧은 토큰은 더 복잡하고 예측하기 어려운 맥락에 집중합니다. 소규모 GPT 모델에 대한 실험은 스케일링 효율성의 개선을 보여주며, 동적 토큰화의 효과를 입증합니다. 우리는 추가 연구를 지원하기 위해 코드를 공개하고, 더 큰 모델과 다양한 도메인으로 실험을 확장할 계획입니다.