번역이 포함된 일일 선별된 AI 연구 논문
대규모 추론 모델(LRMs)인 OpenAI-o1과 같은 모델은 대규모 강화 학습을 통해 인상적인 장거리 단계 추론 능력을 보여주었습니다. 그러나 그들의 확장된 추론 과정은 종종 지식 부족으로 인해 빈번한 불확실성과 잠재적인 오류를 야기합니다. 이 한계를 해결하기 위해 우리는 LRMs를 강화하는 Search-o1을 소개합니다. 이는 LRMs가 불확실한 지식 지점을 만났을 때 외부 지식을 동적으로 검색할 수 있도록 하는 강화 검색-증강 생성(RAG) 메커니즘과 검색된 문서를 정제하는 Reason-in-Documents 모듈을 갖추고 있습니다. Search-o1은 추론 과정에 강화된 검색 워크플로우를 통합하여 불확실한 지식 지점을 만났을 때 외부 지식을 동적으로 검색할 수 있게 합니다. 또한 검색된 문서의 상세한 성격으로 인해, 우리는 추론 체인에 주입하기 전에 검색된 정보를 심층적으로 분석하는 별도의 Reason-in-Documents 모듈을 설계하여 잡음을 최소화하고 일관된 추론 흐름을 유지합니다. 과학, 수학, 코딩 등 복잡한 추론 작업 및 여섯 개의 오픈 도메인 QA 벤치마크에서 수행된 포괄적인 실험은 Search-o1의 강력한 성능을 입증합니다. 이 접근 방식은 복잡한 추론 작업에서 LRMs의 신뢰성과 적용 가능성을 향상시키며, 더 신뢰할 수 있고 다재다능한 지능 시스템을 위한 길을 열어줍니다. 코드는 https://github.com/sunnynexus/Search-o1에서 확인할 수 있습니다.
GANs를 훈련하기 어렵다는 주장이 널리 퍼져 있으며, 문헌에서 GAN 아키텍처는 경험적인 트릭으로 가득합니다. 우리는 이 주장에 반증을 제시하고 더 원칙적인 방식으로 현대적인 GAN 베이스라인을 구축합니다. 먼저, 우리는 모드 드롭과 수렴하지 않는 문제를 해결하는 잘 행동하는 정규화된 상대적 GAN 손실을 유도합니다. 이전에는 여러 트릭의 가방을 통해 해결되었던 문제입니다. 우리는 수학적으로 손실을 분석하고 대부분의 기존 상대적 손실과 달리 지역 수렴 보장을 받는다는 것을 증명합니다. 둘째, 새로운 손실을 통해 모든 임시 트릭을 버리고 공통 GAN에서 사용된 구식 백본을 현대적인 아키텍처로 대체할 수 있습니다. StyleGAN2를 예로 들어, 우리는 간소화와 현대화의 로드맵을 제시하여 새로운 미니멀리스트 베이스라인인 R3GAN을 만듭니다. 단순한 방법임에도 불구하고, 우리의 접근 방식은 FFHQ, ImageNet, CIFAR 및 Stacked MNIST 데이터셋에서 StyleGAN2를 능가하며, 최첨단 GAN 및 확산 모델과 유리한 비교를 제시합니다.
본 논문은 대규모 언어 모델(LLMs)을 더 인간과 유사하게 만드는 발전에 대해 탐구합니다. 우리는 자연어 이해, 대화 일관성, 그리고 감정 지능을 향상시키는 기술에 초점을 맞춥니다. 이 연구는 다양한 방법을 평가하며, 다양한 데이터셋을 사용한 미세 조정, 심리학 원리의 통합, 그리고 인간의 추론 패턴을 더 잘 모방하는 모델의 설계를 포함합니다. 우리의 연구 결과는 이러한 향상이 사용자 상호작용을 향상시키는데 그치지 않고, 다양한 영역에서의 AI 응용 프로그램에 대한 새로운 가능성을 열어준다는 것을 입증합니다. 미래 연구에서는 이러한 인간과 유사한 특성들에 의해 도입된 윤리적 영향과 잠재적인 편향에 대해 다룰 것입니다.
우리는 비디오로부터의 자기회귀 사전 훈련을 경험적으로 연구했습니다. 연구를 수행하기 위해 Toto라고 불리는 일련의 자기회귀 비디오 모델을 구축했습니다. 우리는 비디오를 시각 토큰의 시퀀스로 취급하고 트랜스포머 모델을 훈련하여 미래 토큰을 자기회귀적으로 예측하도록 합니다. 우리의 모델은 1조 개 이상의 시각 토큰으로 구성된 다양한 데이터셋에서 사전 훈련되었습니다. 우리는 다양한 구조, 훈련 및 추론 설계 선택지를 탐구했습니다. 우리는 이미지 인식, 비디오 분류, 물체 추적 및 로봇 과제를 포함한 다양한 하향 작업에서 학습된 시각적 표현을 평가했습니다. 우리의 결과는 최소한의 귀납 편향에도 불구하고, 자기회귀 사전 훈련이 모든 벤치마크에서 경쟁력 있는 성능을 보여준다는 것을 입증합니다. 마지막으로, 비디오 모델의 스케일링은 언어 모델에서 본 것과 유사한 스케일링 곡선을 보여주지만, 다른 속도로 나타납니다. 더 많은 세부 정보는 https://brjathu.github.io/toto/에서 확인할 수 있습니다.
최근 Vision-Language Models (VLMs)의 발전은 자율 주행에 대한 관심을 불러일으키며, 특히 자연어를 통해 해석 가능한 주행 결정을 생성하는 데 사용되고 있다. 그러나 VLMs가 시각적으로 기반을 둔, 신뢰할 수 있고 해석 가능한 설명을 제공한다는 가정은 대부분 검증되지 않은 상태이다. 이러한 공백을 해소하기 위해, 우리는 VLM 신뢰성을 평가하기 위해 설계된 벤치마크 데이터셋인 DriveBench를 소개한다. 이 데이터셋은 17가지 설정(깨끗한, 손상된 및 텍스트만 포함된 입력)을 포함하며, 19,200프레임, 20,498개의 질문-답변 쌍, 세 가지 질문 유형, 네 가지 주요 주행 작업 및 총 12개의 인기 있는 VLMs를 포괄한다. 우리의 연구 결과는 VLMs가 종종 시각적 기반보다는 일반 지식이나 텍스트 단서에서 유도된 타당한 응답을 생성하는 경향이 있음을 보여주며, 특히 손상된 또는 누락된 시각적 입력 하에서 이러한 행동이 드러난다. 이러한 행동은 데이터셋의 불균형과 충분하지 않은 평가 지표에 의해 숨겨져 있으며, 자율 주행과 같은 안전 중요 시나리오에서 중대한 위험을 초래한다. 또한, VLMs가 다중 모달 추론에 어려움을 겪고 입력 손상에 대한 민감도가 높아 성능의 일관성이 떨어지는 것을 관찰했다. 이러한 도전에 대응하기 위해, 시각적 기반과 다중 모달 이해를 우선시하는 정교한 평가 지표를 제안한다. 게다가, VLMs가 손상을 감지하여 신뢰성을 향상시키는 잠재력을 강조하며, 실제 자율 주행 환경에서 더 신뢰할 수 있고 해석 가능한 의사 결정 시스템을 개발하기 위한 청사진을 제시한다. 이 벤치마크 툴킷은 공개적으로 이용 가능하다.
지금까지 대부분의 대형 Vision-Language 모델(LVLMs)은 주로 영어 데이터로 훈련되어 왔으며, 이는 그들이 비영어 입력을 이해하는 데 어려움을 겪고 원하는 목표 언어로 출력물을 생성하는 데 실패하게 만듭니다. 기존의 노력은 다국어 훈련 데이터를 추가함으로써 이러한 문제를 완화하지만, 이를 대부분 ad-hoc 방식으로 수행하여 서로 다른 언어 그룹에 대한 훈련 혼합이 어떻게 다른 결과를 가져오는지에 대한 통찰력이 부족합니다. 본 연구에서는 대규모 다국어 LVLMs의 훈련 전략에 대해 철저한 조사를 제시합니다. 먼저, 13가지 하위 비전-언어 작업과 43개 언어에 걸쳐 다단계 실험을 수행하여 (1) 영어 성능을 저하시키지 않고 포함할 수 있는 훈련 언어의 수, (2) 사전 훈련 및 (3) 지시 조정 데이터의 최적 언어 분포를 체계적으로 조사합니다. 더불어 (4) 다국어 텍스트-이미지 이해를 개선하는 방법을 조사하고 이를 위한 새로운 벤치마크를 소개합니다. 분석 결과, 최대 100개의 훈련 언어를 동시에 포함하고, 비영어 데이터의 25-50%만으로도 다국어 성능을 크게 향상시킬 수 있으면서 강력한 영어 성능을 유지할 수 있다는 점이 놀라운 것으로 밝혀졌습니다. 또한 사전 훈련 및 지시 조정에 비영어 OCR 데이터를 포함하는 것이 다국어 텍스트-이미지 이해를 개선하는 데 중요하다는 것을 발견했습니다. 마지막으로, 우리는 이러한 발견을 종합하여 14가지 작업과 56개 언어를 포함한 평가에서 최첨단 성능을 제공하는 100개 언어 LVLM인 Centurio를 훈련시켰습니다.
대형 언어 모델(Large Language Models, LLMs)은 다양한 복잡한 작업에서 놀라운 능력을 보여주었습니다. LLMs의 중요한 응용 중 하나는 GitHub에서 사용자가 보고한 문제를 기반으로 코드를 수정하여 실제 세계의 작업을 해결하는 소프트웨어 공학 도전 과제를 다루는 데 있습니다. 그러나 현재 많은 방법론이 소유 LLMs에 의존하고 있어 재현성, 접근성 및 투명성이 제한되는 문제가 있습니다. 소프트웨어 공학 문제를 해결하기 위한 LLMs의 중요 구성 요소와 그 능력을 효과적으로 향상시킬 수 있는 방법은 여전히 명확하지 않습니다. 이러한 도전에 대처하기 위해 우리는 SWE-Fixer를 소개합니다. 이는 GitHub 문제를 효과적이고 효율적으로 해결하기 위해 설계된 혁신적인 오픈 소스 LLM입니다. SWE-Fixer는 코드 파일 검색 모듈과 코드 편집 모듈 두 가지 필수 모듈로 구성됩니다. 검색 모듈은 BM25와 가벼운 LLM 모델을 사용하여 대략적인 파일 검색을 달성합니다. 이후에 코드 편집 모듈은 식별된 파일에 대한 패치를 생성하기 위해 다른 LLM 모델을 활용합니다. 그리고 공개적으로 이용 가능한 데이터셋의 부족을 해소하기 위해 우리는 11만 개의 GitHub 문제와 해당 패치를 포함하는 방대한 데이터셋을 편성하고 SWE-Fixer의 두 모듈을 별도로 훈련합니다. 우리의 방법론을 SWE-Bench Lite 및 Verified 벤치마크에서 평가하여, 각각 23.3%와 30.2%의 점수로 오픈 소스 모델 중 최고 수준의 성능을 달성했습니다. 이러한 결과는 우리 방법론의 효능을 강조합니다. 우리는 우리의 모델, 데이터셋 및 코드를 https://github.com/InternLM/SWE-Fixer에서 공개적으로 이용 가능하게 할 것입니다.
최근에, 시각 자기 회귀(Visual Autoregressive, VAR) 모델은 이미지 생성 분야에서 혁신적인 발전을 이뤘으며, "다음 스케일 예측" 패러다임을 통해 확장 가능한 접근 방식을 제공했습니다. 그러나, [Tian, Jiang, Yuan, Peng 및 Wang, NeurIPS 2024]의 VAR 모델의 최신 알고리즘은 O(n^4) 시간이 소요되어 계산적으로 비효율적입니다. 본 연구에서는 VAR 모델의 계산 한계와 효율성 기준을 세밀한 복잡성 관점을 통해 분석합니다. 우리의 주요 기여는 VAR 계산이 이차 시간 복잡도를 달성할 수 있는 조건을 식별하는 것입니다. 구체적으로, VAR 주의 메커니즘에서 사용된 입력 행렬의 노름에 대한 임계값을 설정합니다. 이 임계값을 초과하는 경우, 세밀한 복잡성 이론의 강한 지수 시간 가설(SETH)을 전제로 하면, VAR 모델을 위한 이차보다 낮은 시간 알고리즘은 불가능합니다. 우리의 이론적 결과를 입증하기 위해, 유도된 기준과 일치하는 저랭크 근사를 활용한 효율적인 구성을 제시합니다. 이 작업은 VAR 모델의 계산 효율성을 이론적 관점에서 연구를 시작합니다. 우리의 기술은 VAR 프레임워크에서 확장 가능하고 효율적인 이미지 생성을 발전시키는 데 도움이 될 것입니다.
전용 언어 모델의 보급은 중요한 개인 정보 보호 문제를 제기하여, 사용자의 민감한 정보를 노출하지 않고 암호화된 데이터 상에서 직접 계산을 수행하는 개인 추론(PI)의 발전이 필요하게 되었다. PI는 유망한 해결책을 제공하지만, 비선형 연산에서 비롯된 상당한 통신 및 지연 오버헤드로 인해 실제 적용이 어렵다. 이를 해결하기 위해, 우리는 비선형성의 역할을 해석하기 위한 정보 이론적 프레임워크를 소개하여, PI의 요구에 맞게 최적화된 트랜스포머 구조를 개발하는 원칙적인 기반을 마련한다. Shannon의 엔트로피를 양적 측정 항목으로 활용하여, 비선형성의 이전에 미처 발견되지 못한 이중적 의의를 밝혀내었다: 훈련 안정성을 보장하는 데 그치지 않고, 주의 헤드 다양성을 유지하는 데 중요하다는 것을 발견했다. 특히, 비선형성의 제거가 두 가지 핵심 실패 모드를 유발한다는 것을 발견했다: 깊은 층에서의 '엔트로피 붕괴'는 훈련을 불안정하게 만들고, 초기 층에서의 '엔트로피 과부하'는 Multi-Head Attention(MHA)의 표현 능력을 미활용하게 만든다. 엔트로피에 따른 주의 메커니즘과 새로운 엔트로피 정규화 기술을 활용하여 엔트로피 과부하를 완화하는 방안을 제안한다. 또한, 비선형성을 줄인 LLM의 훈련을 안정화하고 엔트로피 붕괴를 방지하기 위한 PI 친화적인 레이어 정규화 대안을 탐구한다. 우리의 연구는 정보 이론과 구조적 설계 사이의 간극을 메우며, 효율적인 PI 구조를 개발하기 위한 원칙적인 가이드로서의 엔트로피 역학을 확립한다. 코드 및 구현은 https://github.com/Nandan91/entropy-guided-attention-llm{entropy-guided-llm}에서 확인할 수 있다.
본 논문은 계산언어학에서 미개척된 분야인 터키 역사 언어의 자연어 처리(NLP)를 위한 기본 자원과 모델을 소개합니다. 우리는 터키어의 역사적 형태를 위한 첫 번째 명명된 개체 인식(NER) 데이터셋인 HisTR과 첫 번째 Universal Dependencies 트리뱅크인 OTA-BOUN을 제시하며, 이러한 데이터셋을 활용하여 명명된 개체 인식, 의존 구문 분석 및 품사 태깅 작업을 위해 훈련된 트랜스포머 기반 모델을 소개합니다. 게다가, 우리는 다양한 역사적 시기를 아우르는 터키 역사 텍스트의 로마자 표기본인 Ottoman Text Corpus (OTC)를 소개합니다. 실험 결과는 역사적 터키어의 계산 분석에서 상당한 향상을 보여주며, 역사적 언어 구조를 이해해야 하는 작업에서 융통성 있는 결과를 달성합니다. 또한, 도메인 적응 및 시대별 언어 변형과 같은 기존의 어려움을 강조합니다. 제시된 모든 자원과 모델은 터키 역사 NLP의 미래 발전을 위한 기준으로 제공되며, https://huggingface.co/bucolin에서 이용할 수 있습니다.