번역이 포함된 일일 선별된 AI 연구 논문
지도된 미세 조정(Supervised fine-tuning, SFT)과 강화 학습(Reinforcement Learning, RL)은 기본 모델에 대한 후속 훈련 기법으로 널리 사용됩니다. 그러나 이러한 기법이 모델의 일반화 능력을 향상하는 데 어떤 역할을 하는지는 여전히 명확하지 않습니다. 본 논문에서는 SFT와 RL 간의 차이를 연구하여 일반화와 기억화에 초점을 맞춘 텍스트 기반 규칙 변형 및 시각적 변형을 다루고 있습니다. 우리는 산술 추론 카드 게임인 GeneralPoints를 소개하고, 실제 세계 내비게이션 환경인 V-IRL을 채택하여 SFT와 RL로 훈련된 모델이 텍스트 및 시각적 영역에서 보이지 않는 변형에 어떻게 일반화되는지를 평가합니다. 우리는 특히 결과 기반 보상으로 훈련된 경우 RL이 규칙 기반 텍스트 및 시각적 변형 모두에 걸쳐 일반화된다는 것을 보여줍니다. 반면에 SFT는 훈련 데이터를 기억하고 분포 밖 시나리오에 대한 일반화에 어려움을 겪습니다. 추가적인 분석 결과, RL이 모델의 기본 시각적 인식 능력을 향상시키며 시각적 영역에서의 향상된 일반화에 기여한다는 것을 보여줍니다. RL의 우수한 일반화 능력에도 불구하고, 우리는 SFT가 효과적인 RL 훈련을 위해 중요하다는 것을 보여줍니다. SFT는 모델의 출력 형식을 안정화시켜 이후 RL이 성능 향상을 이룰 수 있도록 합니다. 이러한 결과는 복잡한 다중 모달 작업에서 RL이 일반화 가능한 지식을 습득하는 능력을 보여줍니다.
대규모 언어 모델 (LLM)을 훈련하는 컴퓨팅 요구가 증가함에 따라 더 효율적인 방법이 필요합니다. 양자화된 훈련은 이러한 비용을 줄이기 위해 낮은 비트 산술 연산을 가능하게 함으로써 유망한 해결책을 제시합니다. FP8 정밀도는 실행 가능성을 입증했지만, FP4를 활용하는 것은 상당한 양자화 오차와 제한된 표현 능력으로 인해 여전히 어려운 과제입니다. 본 연구는 LLM을 위한 첫 번째 FP4 훈련 프레임워크를 소개하며, 두 가지 주요 혁신을 통해 이러한 도전에 대응합니다: 정확한 가중치 업데이트를 위한 미분 가능한 양자화 추정기 및 활성화 붕괴를 방지하기 위한 이상치 클램핑 및 보상 전략. 안정성을 보장하기 위해 프레임워크는 혼합 정밀도 훈련 체계와 벡터별 양자화를 통합합니다. 실험 결과는 저평가가 미미하며, 100B 토큰까지 훈련된 13B-매개변수 LLM에 효과적으로 확장되는 FP4 프레임워크가 BF16 및 FP8과 유사한 정확도를 달성함을 보여줍니다. FP4를 지원하는 차세대 하드웨어의 등장으로, 우리의 프레임워크는 효율적인 초저 정밀도 훈련을 위한 기반을 마련합니다.
토큰화는 대형 언어 모델(LLMs)의 기본 구성 요소이지만, 모델 확장과 성능에 미치는 영향은 완전히 탐구되지 않았습니다. 본 논문에서는 입력 및 출력 어휘를 분리하여 언어 모델링 성능을 향상시키는 혁신적인 프레임워크 인 '과도 토큰화 트랜스포머(Over-Tokenized Transformers)'를 소개합니다. 구체적으로, 우리의 방법론은 다중 그램 토큰을 활용하기 위해 입력 어휘를 확장합니다. 광범위한 실험을 통해 입력 어휘 크기와 훈련 손실 사이의 로그 선형 관계를 발견하여, 모델 크기에 관계없이 더 큰 입력 어휘이 모델 성능을 일관되게 향상시킨다는 것을 입증했습니다. 큰 입력 어휘를 사용하여 추가 비용 없이 두 배 크기의 기준선과 비교 가능한 성능을 달성했습니다. 우리의 연구 결과는 스케일링 법칙에서의 토큰화의 중요성을 강조하고, 토크나이저 설계에 대한 실용적인 통찰을 제공하여 더 효율적이고 강력한 LLMs를 위한 길을 열어줍니다.
최근 3D 콘텐츠 생성의 발전은 텍스트나 단일 이미지에서의 제한된 고품질 3D 데이터셋과 2D 다중 뷰 생성에서의 일관성과의 불일치로 인해 어려움을 겪고 있습니다. 저희는 DiffSplat이라는 새로운 3D 생성 프레임워크를 소개합니다. 이 프레임워크는 대규모 텍스트-이미지 확산 모델을 다루면서 3D 가우시안 스플랫을 기본적으로 생성합니다. 이는 이전의 3D 생성 모델과 다르게 웹 규모의 2D 사전을 효과적으로 활용하면서 통합된 모델에서 3D 일관성을 유지합니다. 훈련을 초기화하기 위해 가벼운 재구성 모델이 제안되어 확장 가능한 데이터셋 구성을 위해 즉시 다중 뷰 가우시안 스플랫 그리드를 생성합니다. 이러한 그리드에 정규 확산 손실과 함께 3D 렌더링 손실이 도입되어 임의의 뷰에 걸쳐 3D 일관성을 용이하게 합니다. 이미지 확산 모델과의 호환성은 다양한 이미지 생성 기술을 3D 영역으로 매끄럽게 적응할 수 있게 합니다. 광범위한 실험에서 DiffSplat의 텍스트 및 이미지 조건부 생성 작업 및 하위 응용 프로그램에서의 우수성이 드러났습니다. 철저한 제거 연구는 각 중요한 설계 선택의 효과를 검증하고 근본적인 메커니즘에 대한 통찰을 제공합니다.
기계적 해석가능성은 신경망의 능력을 이루기 위한 계산 메커니즘을 이해하는 데 목표를 두며 구체적인 과학 및 공학 목표를 달성하기 위해 노력합니다. 이 분야의 발전은 인공지능 시스템의 행동에 대한 보다 확실한 확신을 제공하고 지능의 본질에 관한 흥미로운 과학적 질문에 빛을 발할 것으로 기대됩니다. 이러한 목표에 대한 최근 진전에도 불구하고, 이 분야에는 많은 미해결 문제가 있어 이를 해결해야 과학적 및 실용적 이점을 실현할 수 있습니다: 우리의 방법은 보다 심층적인 통찰력을 드러내기 위해 개념적 및 실용적 개선이 필요하며, 특정 목표를 달성하기 위해 우리의 방법을 가장 잘 적용하는 방법을 찾아야 합니다. 또한 이 분야는 우리의 작업에 영향을 주고 받는 사회 기술적 도전에 직면해야 합니다. 이 전방향적 리뷰는 기계적 해석가능성의 현재 최전선과 이 분야가 우선시할 수 있는 미해결 문제에 대해 논의합니다.
대형 언어 모델(LLMs)의 급격한 확장은 세밀한 조정과 배포에 필요한 계산 자원에 관한 중요한 도전을 제기했습니다. 최근에는 저랭크 어댑터의 발전이 이러한 모델의 매개 효율적인 세밀한 조정(PEFT)에서 효과를 입증했습니다. 본 회고 논문은 저랭크 표현과 신경망 구조 탐색(NAS) 기법, 특히 가중치 공유 슈퍼 네트워크와 상호 작용하는 혁신적인 접근 방법을 체계적으로 논의합니다. 이러한 방법론을 통합하여 대규모 사전 훈련된 모델을 압축하고 세밀하게 조정하는 견고한 솔루션이 개발되었습니다. 저희의 분석은 이러한 복합 전략이 LLMs의 사용을 대중화시키는 잠재력을 강조하며, 이를 통해 자원 제약 환경에서의 배포에 더 접근하기 쉽게 만들어줍니다. 결과 모델은 메모리 풋프린트를 줄이고 추론 시간을 단축시켜 더 실용적이고 확장 가능한 LLMs 응용 프로그램을 위한 길을 열어갑니다. 모델과 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.
인도 하위대륙에서 15억 명 이상의 사람들에 의해 알려진 인디크 언어는 그들의 풍부한 문화 유산, 언어 다양성, 그리고 복잡한 구조로 인해 자연어 처리(NLP) 연구에 독특한 도전과 기회를 제공합니다. IndicMMLU-Pro는 인디크 언어 전반에 걸쳐 대형 언어 모델(LLMs)을 평가하기 위해 설계된 포괄적인 벤치마크로, Massive Multitask Language Understanding(MMLU Pro) 프레임워크를 기반으로 합니다. 힌디어, 벵골어, 구자라트어, 마라티어, 칸나다어, 펀자브어, 타밀어, 텔루구어, 우르두어와 같은 주요 언어를 다루며, 저희의 벤치마크는 인도 하위대륙의 언어 다양성이 제시하는 독특한 도전과 기회에 대응합니다. 이 벤치마크는 인도어의 복잡성을 포착하기 위해 세심하게 설계된 언어 이해, 추론, 생성과 같은 다양한 작업을 포함하고 있습니다. IndicMMLU-Pro는 인디크 언어 인공지능 연구의 연구 경계를 넓히기 위한 표준화된 평가 프레임워크를 제공하여, 보다 정확하고 효율적이며 문화적으로 민감한 모델의 개발을 용이하게 합니다. 본 논문은 벤치마크의 설계 원칙, 작업 분류 체계, 데이터 수집 방법론을 개요하고, 최첨단 다국어 모델로부터의 기준 결과를 제시합니다.
인과 언어 모델은 놀라운 성능을 보여 주었지만, 그 크기는 자원이 제한된 환경에서의 배포에 중요한 도전을 제기합니다. 대규모 교사 모델로부터 지식을 소규모 학생 모델로 전달하는 널리 사용되는 기술인 지식 증류는 모델 압축을 위한 유망한 접근 방식을 제시합니다. 주요한 문제점 중 하나는 교사 모델과 학생 모델 사이의 주요한 차이점에 있습니다. 즉, 상당한 용량 차이, 모 평균화, 그리고 모 붕괴가 있어서 이러한 차이들이 증류 과정에서 장벽을 형성합니다. 이러한 문제를 해결하기 위해 우리는 Temporally Adaptive Interpolated Distillation (TAID)라는 새로운 지식 증류 방법을 소개합니다. TAID는 학생과 교사 분포를 동적으로 보간하는 적응 중간 분포를 통해 학생의 초기 분포에서 점진적으로 교사의 분포로 이동합니다. 우리는 이론적 분석을 통해 TAID가 모 붕괴를 방지하는 능력을 증명하고, 용량 차이를 해결하면서 모 평균화와 모 붕괴를 균형 있게 유지하는 효과를 경험적으로 보여줍니다. 우리의 포괄적인 실험은 TAID가 다양한 모델 크기와 아키텍처에서 지도 조정 및 사전 훈련 시나리오에서 우수한 성능을 보여 주며, TAID-LLM-1.5B(언어 작업용) 및 TAID-VLM-2B(시각-언어 작업용)와 같은 최첨단 소형 기반 모델을 개발하여 TAID의 실용적인 영향을 보여 줍니다. 이러한 결과는 TAID가 높은 성능을 발휘하고 효율적인 모델을 만드는 데 효과적임을 입증하며, 보다 접근하기 쉬운 AI 기술의 발전을 촉진합니다.
언어 모델을 인간의 가치와 조화시키는 것은 매우 중요하며, 특히 그들이 일상생활에 더 통합되는 상황에서는 더욱 중요합니다. 모델은 종종 사용자 선호도에 맞게 조정되지만, 실제 사회 상황에서 도덕적 규범과 행동과 일치하는지 확인하는 것이 동등하게 중요합니다. 영어나 중국어 같은 언어에서 상당한 진전이 있었지만, 프랑스어는 이 분야에서 주목을 받지 못해 프랑스어에서 도덕적 추론을 어떻게 다루는지에 대한 이해의 공백이 남아 있습니다. 이 공백을 해결하기 위해 우리는 Histoires Morales를 소개합니다. 이는 도덕 이야기에서 파생된 프랑스어 데이터셋으로, 번역을 통해 생성되었으며 이후 프랑스어 문화적 맥락에 맞게 문법적 정확성과 적응을 보장하기 위해 원어민의 지원을 받아 정제되었습니다. 또한 데이터셋 내의 도덕적 가치에 대한 주석을 의존하여 이를 프랑스의 규범과 일치시킵니다. Histoires Morales는 팁 관행의 차이, 관계에서의 정직 표현, 그리고 동물에 대한 책임감 등 다양한 사회 상황을 다룹니다. 미래 연구를 촉진하기 위해, 우리는 또한 다국어 모델의 프랑스어와 영어 데이터에 대한 조화와 조정의 견고성에 대한 예비 실험을 수행합니다. 우리는 LLMs이 일반적으로 사용자의 도덕적 규범과 기본적으로 일치되지만, 도덕적 및 비도덕적 데이터에 대한 사용자 선호도 최적화로 쉽게 영향을 받을 수 있다는 것을 발견했습니다.
본 논문은 대규모 언어 모델 (LLM)을 효율적으로 클라우드 환경에서 규모 확장하여 제공하기 위해 설계된 확장 가능하고 서버리스 AI 플랫폼인 DeepFlow를 소개합니다. DeepFlow는 자원 할당, 서비스 효율성, 그리고 콜드 스타트 지연과 같은 주요 도전 과제를 네 가지 주요 설계 구성 요소를 통해 해결합니다. 첫째, AI 워크로드를 관리하는 데 도움이 되는 request-job-task 모델이라는 간단한 서버리스 추상화를 사용합니다. 둘째, LLM 서비스를 최적화하기 위해 마이크로커널 기반 설계, NPU 중심 실행, 그리고 SPMD 기반 병렬성을 활용한 내부 서빙 엔진 FlowServe를 구축합니다. 시스템은 또한 PD-분리 및 PD-공존 구성에 맞게 맞춤형 스케줄링 정책을 포함합니다. 사전 가열된 파드, DRAM 사전 로딩, 그리고 NPU-포크와 같은 최적화를 통해 DeepFlow는 64개의 인스턴스로 초 단위 내에 확장할 수 있습니다. DeepFlow는 1년 이상 운영되어 왔으며 대규모 Ascend NPU 클러스터에서 작동하며 고객에게 세밀한 조정, 에이전트 서빙, 그리고 모델 서빙을 위한 산업 표준 API를 제공하고 있습니다.