번역이 포함된 일일 선별된 AI 연구 논문
OpenAI-o1 및 DeepSeek-R1과 같은 대형 추론 모델(LRMs)은 긴 사고의 연쇄(Chain-of-thought, CoT)를 활용하여 복잡한 추론 작업에서 뛰어난 능력을 보여주었습니다. 그러나 이러한 모델들은 내부 추론 프로세스에만 의존함으로써 환각(hallucination)과 비효율성 문제를 겪는 경우가 많습니다. 본 논문에서는 외부 도구를 활용하여 추론 능력을 크게 향상시킨 새로운 도구 통합형 장기 CoT 추론 대형 언어 모델(LLM)인 START(Self-Taught Reasoner with Tools)를 소개합니다. 코드 실행을 통해 START는 복잡한 계산 수행, 자체 점검, 다양한 방법 탐색, 그리고 자체 디버깅을 할 수 있어 LRMs의 한계를 극복합니다. START의 핵심 혁신은 두 가지 주요 기술로 구성된 자가 학습 프레임워크에 있습니다: 1) Hint-infer: 추론 과정에서 인공적으로 설계된 힌트(예: "잠깐, 여기서 Python을 사용하는 것이 좋을지도 모르겠다.")를 삽입함으로써 LRM이 데모 데이터 없이도 외부 도구를 활용하는 능력을 효과적으로 자극할 수 있음을 보여줍니다. Hint-infer는 또한 간단하면서도 효과적인 순차적 테스트 시간 스케일링 방법으로도 사용될 수 있습니다; 2) Hint Rejection Sampling Fine-Tuning(Hint-RFT): Hint-RFT는 Hint-infer와 RFT를 결합하여 Hint-infer를 통해 생성된 도구 호출이 포함된 LRM의 추론 궤적을 점수화, 필터링, 수정한 후 LRM을 미세 조정합니다. 이 프레임워크를 통해 QwQ-32B 모델을 미세 조정하여 START를 구현했습니다. 박사 수준의 과학 QA(GPQA), 경쟁 수준의 수학 벤치마크(AMC23, AIME24, AIME25), 그리고 경쟁 수준의 코드 벤치마크(LiveCodeBench)에서 START는 각각 63.6%, 95.0%, 66.7%, 47.1%, 47.3%의 정확도를 달성했습니다. 이는 기본 QwQ-32B를 크게 능가하며, 최신 오픈 가중치 모델 R1-Distill-Qwen-32B와 독점 모델 o1-Preview에 필적하는 성능을 보여줍니다.
비디오 기반 다중 모드 대형 언어 모델(Video-LLMs)의 최근 발전은 비디오를 이미지 프레임 시퀀스로 처리함으로써 비디오 이해를 크게 향상시켰습니다. 그러나 기존의 많은 방법들은 비전 백본에서 프레임을 독립적으로 처리하며, 명시적인 시간적 모델링이 부족하여 동적 패턴을 포착하고 긴 비디오를 효율적으로 처리하는 능력이 제한됩니다. 이러한 한계를 해결하기 위해, 우리는 STORM(Spatiotemporal TOken Reduction for Multimodal LLMs)이라는 새로운 아키텍처를 소개합니다. 이 아키텍처는 이미지 인코더와 LLM 사이에 전용 시간적 인코더를 통합합니다. 우리의 시간적 인코더는 Mamba State Space Model을 활용하여 이미지 토큰에 시간적 정보를 통합하고, 전체 비디오 시퀀스에 걸쳐 프레임 간 동역학을 보존하는 풍부한 표현을 생성합니다. 이 풍부한 인코딩은 비디오 추론 능력을 향상시킬 뿐만 아니라, 테스트 시간 샘플링 및 훈련 기반 시간적 및 공간적 풀링을 포함한 효과적인 토큰 감소 전략을 가능하게 하여, 중요한 시간적 정보를 희생하지 않고도 LLM의 계산 요구를 크게 줄입니다. 이러한 기술들을 통합함으로써, 우리의 접근 방식은 훈련 및 추론 지연 시간을 줄이면서 성능을 향상시켜, 확장된 시간적 맥락에서 효율적이고 강력한 비디오 이해를 가능하게 합니다. 광범위한 평가 결과, STORM은 다양한 긴 비디오 이해 벤치마크(MLVU 및 LongVideoBench에서 5% 이상의 향상)에서 최첨단 결과를 달성하면서, 고정된 입력 프레임 수에 대해 계산 비용을 최대 8배, 디코딩 지연 시간을 2.4-2.9배 줄였습니다. 프로젝트 페이지는 https://research.nvidia.com/labs/lpr/storm에서 확인할 수 있습니다.
최근 음성 대 음성 대화 시스템의 발전은 다중 모달 상호작용을 위해 LLM(Large Language Model)을 활용하고 있지만, 여전히 미세 조정 요구사항, 높은 계산 오버헤드, 그리고 텍스트-음성 불일치 문제에 직면해 있습니다. 기존의 음성 지원 LLM은 LLM을 수정함으로써 대화 품질을 저하시키고, 이로 인해 언어적 능력을 훼손하는 경우가 많습니다. 이에 반해, 우리는 LLMVoX를 제안합니다. 이는 경량의 30M 파라미터, LLM에 독립적이며, 자동회귀 스트리밍 TTS(Text-to-Speech) 시스템으로, 낮은 지연 시간으로 고품질 음성을 생성하면서도 기본 LLM의 능력을 완전히 보존합니다. 우리의 접근 방식은 음성 지원 LLM에 비해 상당히 낮은 단어 오류율(Word Error Rate)을 달성하며, 비슷한 지연 시간과 UTMOS 점수를 유지합니다. 다중 큐 토큰 스트리밍 시스템을 통해 음성 합성을 LLM 처리와 분리함으로써, LLMVoX는 원활하고 무한 길이의 대화를 지원합니다. 또한, 플러그 앤 플레이 설계로 다양한 백본을 사용한 다양한 작업으로의 확장이 용이합니다. 더 나아가, LLMVoX는 데이터셋 적응만으로 새로운 언어에 일반화되며, 아랍어 음성 작업에서 낮은 문자 오류율(Character Error Rate)을 달성합니다. 추가적으로, 우리는 LLMVoX를 Vision-Language Model과 통합하여 추가적인 다중 모달 학습 없이도 음성, 텍스트, 비전 기능을 갖춘 올모델(omni-model)을 생성했습니다. 우리의 코드 베이스와 프로젝트 페이지는 https://mbzuai-oryx.github.io/LLMVoX에서 확인할 수 있습니다.
우리는 EgoLife 프로젝트를 소개합니다. 이 프로젝트는 AI 기반 웨어러블 안경을 통해 개인의 효율성을 동반하고 향상시키는 에고센트릭(egocentric) 생활 어시스턴트를 개발하는 것을 목표로 합니다. 이 어시스턴트의 기반을 마련하기 위해, 우리는 6명의 참가자가 1주일 동안 함께 생활하며 일상 활동(토론, 쇼핑, 요리, 사교, 엔터테인먼트 등)을 AI 안경을 사용해 지속적으로 기록하는 포괄적인 데이터 수집 연구를 수행했습니다. 이때 다중 모달 에고센트릭 비디오 캡처와 동기화된 제3자 시점 비디오 참조 자료도 함께 수집했습니다. 이를 통해 300시간 분량의 포괄적인 에고센트릭, 대인관계, 다중 시점, 다중 모달 일상 생활 데이터셋인 EgoLife 데이터셋이 구축되었으며, 이 데이터셋은 집중적인 주석 작업이 이루어졌습니다. 이 데이터셋을 활용하여, 우리는 EgoLifeQA를 소개합니다. 이는 과거 관련 이벤트 회상, 건강 습관 모니터링, 개인화된 추천 제공 등 실질적인 질문에 답변함으로써 일상 생활에서 의미 있는 지원을 제공하도록 설계된 장문 컨텍스트, 생활 지향형 질의응답 작업 모음입니다. (1) 에고센트릭 데이터를 위한 강력한 시각-오디오 모델 개발, (2) 신원 인식 가능, (3) 광범위한 시간 정보에 걸친 장문 컨텍스트 질의응답 지원이라는 주요 기술적 과제를 해결하기 위해, 우리는 EgoGPT와 EgoRAG로 구성된 통합 시스템인 EgoButler를 도입했습니다. EgoGPT는 에고센트릭 데이터셋으로 훈련된 올모달(omni-modal) 모델로, 에고센트릭 비디오 이해 분야에서 최첨단 성능을 달성했습니다. EgoRAG는 초장문 컨텍스트 질문에 답변을 지원하는 검색 기반 컴포넌트입니다. 우리의 실험 연구는 이들의 작동 메커니즘을 검증하고, 향후 개선을 위한 중요한 요소와 병목 현상을 밝혀냈습니다. 데이터셋, 모델, 벤치마크를 공개함으로써, 우리는 에고센트릭 AI 어시스턴트 분야의 추가 연구를 촉진하고자 합니다.
대규모 언어 모델이 온라인 콘텐츠 생성에 점점 더 큰 역할을 맡으면서, 이들이 자신의 출력을 반복적으로 처리함으로써 발생할 수 있는 영향에 대한 우려가 제기되고 있다. 인간의 연쇄적 의사소통에서 나타나는 "깨진 전화" 효과에서 영감을 받아, 본 연구는 대규모 언어 모델이 반복적 생성을 통해 유사하게 정보를 왜곡하는지 여부를 조사한다. 번역 기반 실험을 통해, 언어 선택과 연쇄 복잡성에 영향을 받으면서 왜곡이 시간이 지남에 따라 누적되는 것을 발견했다. 저하가 불가피하지만, 전략적인 프롬프팅 기법을 통해 이를 완화할 수 있다. 이러한 연구 결과는 AI 매개 정보 전파의 장기적 영향에 대한 논의에 기여하며, 반복적 워크플로우에서 대규모 언어 모델이 생성한 콘텐츠의 신뢰성에 대한 중요한 질문을 제기한다.
대규모 언어 모델(LLM)의 추론 능력을 효과적으로 평가하는 것은 평가 벤치마크의 데이터 노출로 인해 과대평가될 가능성이 높다. 우리는 모델 성능 추정에서 암기의 영향을 줄이는 언어적 추론 문제를 생성하기 위한 프레임워크를 소개하고, 이를 적용하여 언어적 추론을 위한 도전적인 평가 벤치마크인 LINGOLY-TOO를 개발했다. 우리는 표기법 템플릿을 개발하여 실제 언어의 문자 체계를 동적으로 은폐함으로써 다양한 질문 변형을 생성한다. 이러한 변형은 각 해결책에 필요한 추론 단계를 보존하면서도 특정 문제 사례가 모델 학습 데이터에 나타날 가능성을 줄인다. 우리의 실험은 OpenAI o1-preview와 DeepSeem R1을 포함한 최첨단 모델들이 고급 추론에서 어려움을 겪는 것을 보여준다. 또한 우리의 분석은 LLM이 동일한 문제의 순열에 대해 정확도에서 눈에 띄는 차이를 보이며, 평균적으로 원래 표기법으로 나타난 질문에서 더 나은 성능을 보인다는 것을 보여준다. 우리의 연구 결과는 LLM의 응답 생성의 불투명한 특성을 강조하고, 이전 데이터 노출이 최첨단 모델들의 추론 능력을 과대평가하는 데 기여한다는 증거를 제공한다.
비언어적 소리와 음악을 이해하고 추론하는 능력은 인간과 AI 에이전트가 환경과 효과적으로 상호작용하기 위해 필수적입니다. 본 논문에서는 고급 오디오 이해 및 추론 능력을 갖춘 오디오-언어 모델(Audio-Language Model, ALM)인 Audio Flamingo 2(AF2)를 소개합니다. AF2는 (i) 맞춤형 CLAP 모델, (ii) 세밀한 오디오 추론을 위한 합성 오디오 QA 데이터, 그리고 (iii) 다단계 커리큘럼 학습 전략을 활용합니다. AF2는 단 30억 개의 파라미터로 구성된 소규모 언어 모델임에도 불구하고 20개 이상의 벤치마크에서 대형 오픈소스 및 상용 모델들을 능가하는 최첨단 성능을 달성했습니다. 또한, 본 연구에서는 최초로 오디오 이해를 긴 오디오 세그먼트(30초에서 5분)로 확장하고, 긴 오디오 캡셔닝 및 질의응답 작업을 위한 대규모 신규 데이터셋인 LongAudio를 제안합니다. LongAudio를 활용해 AF2를 미세 조정한 결과, 긴 오디오 이해 능력을 평가하기 위한 전문가 주석 벤치마크인 LongAudioBench에서 탁월한 성능을 보였습니다. 본 연구의 접근 방식의 효용성을 확인하기 위해 광범위한 절제 연구를 수행했습니다. 프로젝트 웹사이트: https://research.nvidia.com/labs/adlr/AF2/.
우리는 자연어에서 장거리 의존성을 지배하는 이분 상호정보(bipartite mutual information) 스케일링 법칙을 엄밀히 정립하였다. 이 스케일링 법칙은 기존의 두 점 상호정보(two-point mutual information)와 구별되며 독립적으로 스케일링되는데, 이는 장문맥 언어 모델링을 이해하는 데 핵심적인 역할을 한다. 이 스케일링 법칙을 활용하여, 우리는 장문맥 언어 모델링(Long-context Language Modeling, L^2M) 조건을 공식화하였다. 이 조건은 모델의 효과적인 장문맥 길이 모델링 능력과 과거 정보를 저장하기 위한 잠재 상태 크기의 스케일링 간의 관계를 규정한다. 우리의 결과는 트랜스포머와 상태 공간 모델(state space models)에 대한 실험을 통해 검증되었다. 이 연구는 대규모 언어 모델의 개발을 더 긴 문맥 길이로 이끌기 위한 이론적 기반을 마련하였다.
우리는 전문 분야에서의 명령어 기반 정보 검색(Instruction-Following Information Retrieval, IR)을 평가하기 위해 설계된 첫 번째 포괄적인 벤치마크인 IFIR를 소개한다. IFIR는 2,426개의 고품질 예시를 포함하며, 금융, 법률, 의료, 과학 문헌 등 네 가지 전문 분야에 걸친 여덟 개의 하위 집합을 다룬다. 각 하위 집합은 하나 이상의 도메인 특화 검색 작업을 다루며, 맞춤형 명령어가 중요한 실제 시나리오를 재현한다. IFIR는 다양한 복잡도 수준의 명령어를 통합함으로써 명령어 기반 검색 능력에 대한 세부적인 분석을 가능하게 한다. 또한, 우리는 명령어를 따르는 모델 성능을 보다 정확하고 신뢰할 수 있게 평가하기 위한 새로운 LLM 기반 평가 방법을 제안한다. LLM 기반 모델을 포함한 15개의 최신 검색 모델에 대한 광범위한 실험을 통해, 현재의 모델들이 복잡하고 도메인 특화된 명령어를 효과적으로 따르는 데 상당한 어려움을 겪고 있음을 확인했다. 우리는 이러한 한계를 부각시키기 위한 심층 분석을 추가로 제공함으로써, 향후 검색기 개발을 위한 가치 있는 통찰을 제시한다.
트랜스포머(Transformers)는 다양한 머신러닝 작업, 특히 대규모 언어 모델(LLMs)에서 사실상 표준 아키텍처로 자리 잡았습니다. 그러나 뛰어난 성능에도 불구하고, 깊은 트랜스포머 네트워크를 훈련하는 데 있어서는 여전히 과제가 남아 있으며, 특히 레이어 정규화(layer normalization)의 위치와 관련된 문제가 있습니다. Pre-Norm 구조는 더 두드러진 항등 경로(identity path)로 인해 훈련이 더 쉬운 반면, 종종 Post-Norm에 비해 최적의 성능을 내지 못합니다. 본 논문에서는 Pre-Norm과 Post-Norm 접근법의 장점을 통합한 간단하면서도 효과적인 하이브리드 정규화 전략인 HybridNorm을 제안합니다. 구체적으로, HybridNorm은 어텐션 메커니즘 내에서 QKV 정규화를 사용하고, 각 트랜스포머 블록의 피드포워드 네트워크(FFN)에서는 Post-Norm을 적용합니다. 이 설계는 훈련을 안정화할 뿐만 아니라, 특히 LLMs의 맥락에서 성능을 향상시킵니다. 밀집(dense) 및 희소(sparse) 아키텍처 모두에서 수행한 포괄적인 실험 결과, HybridNorm은 Pre-Norm과 Post-Norm 접근법을 모두 능가하며 다양한 벤치마크에서 최첨단 결과를 달성했습니다. 이러한 결과는 HybridNorm이 깊은 트랜스포머 모델의 훈련과 성능을 개선하기 위한 더 안정적이고 효과적인 기술로서의 잠재력을 강조합니다. 코드는 https://github.com/BryceZhuo/HybridNorm에서 공개될 예정입니다.
FuseChat-3.0을 소개합니다. 이는 이기종 소스 대형 언어 모델(LLM)의 강점을 통합하여 더 컴팩트한 타겟 LLM으로 개발된 모델 제품군입니다. 우리의 소스 모델에는 강력한 Gemma-2-27B-it, Mistral-Large-Instruct-2407, Qwen-2.5-72B-Instruct, 그리고 Llama-3.1-70B-Instruct가 포함됩니다. 타겟 모델로는 널리 사용되는 세 가지 소형 변형인 Llama-3.1-8B-Instruct, Gemma-2-9B-it, Qwen-2.5-7B-Instruct와 두 가지 초소형 옵션인 Llama-3.2-3B-Instruct 및 Llama-3.2-1B-Instruct에 초점을 맞췄습니다. 이러한 소스 모델의 다양한 역량을 활용하기 위해, 우리는 다양한 작업과 도메인에 맞춘 전용 데이터 구성 프로토콜을 개발했습니다. FuseChat-3.0의 학습 파이프라인은 두 가지 주요 단계로 구성됩니다: (1) 타겟과 소스 모델 분포를 정렬하기 위한 지도 미세 조정(SFT), 그리고 (2) 다중 소스 LLM의 선호도를 적용하여 타겟 모델을 미세 조정하는 직접 선호 최적화(DPO). 결과적으로 FuseChat-3.0 모델은 명령어 수행, 일반 지식, 수학, 코딩 등의 작업에서 상당한 성능 향상을 보여줍니다. 그림 1에서와 같이, Llama-3.1-8B-Instruct를 타겟 모델로 사용할 경우, 우리의 융합 접근법은 14개 벤치마크에서 평균 6.8점의 향상을 달성했습니다. 또한, 명령어 수행 벤치마크인 AlpacaEval-2와 Arena-Hard에서 각각 37.1점과 30.1점의 놀라운 성능 향상을 보였습니다. 우리의 코드, 모델, 데이터셋은 https://github.com/SLIT-AI/FuseChat-3.0에서 확인할 수 있습니다.
우리는 포켓몬 배틀을 위한 대형 언어 모델(LLM) 기반의 미니맥스 에이전트인 Pok\'eChamp를 소개합니다. 두 명의 플레이어가 경쟁하는 게임을 위한 일반적인 프레임워크 위에 구축된 Pok\'eChamp는 LLM의 일반화 능력을 활용하여 미니맥스 트리 탐색을 강화합니다. 구체적으로, LLM은 세 가지 핵심 모듈을 대체합니다: (1) 플레이어 행동 샘플링, (2) 상대 모델링, (3) 가치 함수 추정. 이를 통해 에이전트는 게임플레이 기록과 인간의 지식을 효과적으로 활용하여 탐색 공간을 줄이고 부분 관측 가능성을 해결할 수 있습니다. 특히, 우리의 프레임워크는 추가적인 LLM 학습이 필요하지 않습니다. 우리는 Pok\'eChamp를 인기 있는 Gen 9 OU 포맷에서 평가했습니다. GPT-4o를 기반으로 할 때, 이는 기존 최고의 LLM 기반 봇에 대해 76%의 승률을, 가장 강력한 규칙 기반 봇에 대해 84%의 승률을 달성하며 우수한 성능을 입증했습니다. 오픈소스 80억 파라미터 Llama 3.1 모델을 사용할 때도 Pok\'eChamp는 GPT-4o 기반의 이전 최고 LLM 기반 봇인 Pok\'ellmon을 64%의 승률로 꾸준히 능가했습니다. Pok\'eChamp는 Pok\'emon Showdown 온라인 래더에서 1300-1500의 예상 Elo를 달성하며, 이는 인간 플레이어 상위 30%-10%에 해당합니다. 또한, 이 연구는 300만 건 이상의 게임을 포함한 가장 큰 실시간 플레이어 포켓몬 배틀 데이터셋을 구축했으며, 이 중 50만 건 이상이 고-Elo 매치입니다. 이 데이터셋을 기반으로, 우리는 특정 배틀 기술을 평가하기 위한 일련의 배틀 벤치마크와 퍼즐을 설정했습니다. 또한, 로컬 게임 엔진에 대한 주요 업데이트를 제공합니다. 우리는 이 연구가 포켓몬 배틀을 벤치마크로 활용하여 LLM 기술과 일반적인 다중 에이전트 문제를 해결하는 게임 이론 알고리즘을 통합하는 추가 연구를 촉진하기를 바랍니다. 비디오, 코드, 데이터셋은 https://sites.google.com/view/pokechamp-llm에서 확인할 수 있습니다.
LLM(대형 언어 모델)의 환각 현상은 실제 애플리케이션에서의 안전한 배포에 있어 중요한 문제로 대두되고 있습니다. 최근 연구들은 LLM의 잠재 공간을 활용하여 환각 현상을 탐지하려는 접근법을 시도했지만, 언어적 일관성을 위해 최적화된 임베딩은 사실적 정확성을 명확히 구분하지 못하는 경우가 많습니다. 이를 해결하기 위해, 우리는 Truthfulness Separator Vector(TSV)를 제안합니다. TSV는 경량화되고 유연한 스티어링 벡터로, 모델 파라미터를 변경하지 않고도 추론 과정에서 LLM의 표현 공간을 재구성하여 진실된 출력과 환각된 출력 간의 분리를 강화합니다. 우리의 2단계 프레임워크는 먼저 소량의 레이블된 예제 데이터를 사용하여 TSV를 학습시켜 컴팩트하고 잘 분리된 클러스터를 형성합니다. 이후, 레이블이 없는 LLM 생성 데이터를 예제 세트에 추가하고, 최적 수송 기반 알고리즘을 활용한 의사 레이블링과 신뢰도 기반 필터링 프로세스를 결합합니다. 광범위한 실험을 통해 TSV는 최소한의 레이블 데이터로도 최첨단 성능을 달성하며, 데이터셋 간 강력한 일반화 능력을 보여주어 실제 LLM 애플리케이션에 실용적인 해결책을 제공함을 입증했습니다.
최근 텍스트-투-비디오(T2V) 생성 분야의 발전은 두 가지 경쟁 패러다임, 즉 자기회귀 언어 모델과 확산 모델에 의해 주도되어 왔습니다. 그러나 각 패러다임은 고유한 한계를 가지고 있습니다: 언어 모델은 시각적 품질과 오류 누적 문제에 어려움을 겪는 반면, 확산 모델은 의미론적 이해와 인과 관계 모델링이 부족합니다. 본 연구에서는 이러한 두 패러다임의 강점을 조화롭게 결합한 하이브리드 프레임워크인 LanDiff를 제안합니다. 우리의 아키텍처는 세 가지 주요 혁신을 도입합니다: (1) 3D 시각적 특징을 효율적인 의미론적 압축을 통해 간결한 1D 이산 표현으로 압축하는 의미론적 토크나이저로, 이는 14,000배의 압축 비율을 달성합니다; (2) 고수준의 의미론적 관계를 가진 의미론적 토큰을 생성하는 언어 모델; (3) 거친 의미론을 고화질 비디오로 정제하는 스트리밍 확산 모델. 실험 결과, 5B 규모의 LanDiff는 VBench T2V 벤치마크에서 85.43점을 달성하여 최첨단 오픈소스 모델인 Hunyuan Video(13B)와 Sora, Keling, Hailuo와 같은 상용 모델을 능가했습니다. 또한, 우리의 모델은 장편 비디오 생성 분야에서도 최첨단 성능을 달성하여 이 분야의 다른 오픈소스 모델들을 뛰어넘었습니다. 우리의 데모는 https://landiff.github.io/에서 확인할 수 있습니다.
전문가 혼합(Mixture-of-Experts, MoE)은 계산 효율성을 유지하면서 모델 성능을 향상시켜 대규모 응용 프로그램에 적합합니다. 그러나 기존 MoE 패러다임에서 전문가는 개별적으로 작동하여 고품질의 전문가 상호작용이 부족합니다. 또한, 이들은 어텐션 블록에 효과적으로 확장되지 않아 추가적인 효율성 개선이 제한됩니다. 이러한 문제를 해결하기 위해, 우리는 전문가 연합(Union-of-Experts, UoE)을 제안합니다. 이는 트랜스포머를 동등한 전문가 그룹으로 분해하고, 입력 데이터와 전문가에 대해 동적 라우팅을 구현합니다. 우리의 접근 방식은 세 가지 주요 혁신으로 MoE 설계를 발전시킵니다: (1) 텐서 병렬화에서 행렬 분할을 기반으로 MLP 블록과 어텐션 블록 모두에 대해 동등한 전문가 분해를 수행했습니다. (2) 패치 단위 데이터 선택과 전문가 선택이라는 두 가지 라우팅 패러다임을 개발하여 다양한 수준에서 라우팅을 적용했습니다. (3) 선택적 멀티-헤드 어텐션(Selective Multi-Head Attention, SMHA)과 MLP 전문가 연합(Union-of-MLP-Experts, UoME)을 포함한 UoE 모델의 아키텍처를 설계했습니다. (4) UoE의 라우팅과 계산 작업을 병렬로 구현하고, 하드웨어 처리 분석을 기반으로 효율성을 최적화했습니다. 실험 결과, UoE를 적용한 모델은 이미지 및 자연어 도메인에서 여러 작업에서 전체 어텐션(Full Attention), 최신 MoE 및 효율적인 트랜스포머를 능가하는 성능을 보였습니다. 소스 코드는 https://github.com/YujiaoYang-work/UoE에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)을 서빙하는 데는 비용이 많이 듭니다. 그러나 사후 훈련 가중치 양자화는 이 문제를 해결할 수 있는데, 제한된 메모리를 위해 모델 크기를 압축하고 가속화를 위해 대역폭을 절약함으로써 가능합니다. 모든 가중치 차원이 동일하게 중요한 것은 아니기 때문에, 이러한 방법들은 일반적으로 민감도 지표에 의존합니다. 이 지표는 가중치가 손실 함수에 미치는 요소별 영향을 나타내며, 더 나은 양자화를 위해 원래 가중치를 전처리하는 데 사용됩니다. 본 연구에서는 민감도 지표의 정확성에 대한 실증적 연구를 수행했으며, 기존의 그래디언트 및 헤시안 기반 지표들이 매우 부정확하다는 것을 발견했습니다: 이들은 양자화가 손실 함수에 미치는 영향을 크게 과소평가하는데, 이는 주로 테일러 공식에서의 그래디언트 및 헤시안 항과 같은 국소 2차 근사의 작은 수렴 반경 때문입니다. 이 문제를 해결하기 위해, 우리는 사후 양자화 적분(PQI)을 제안합니다. 이는 세밀한 방식으로 사후 민감도를 정확하게 추정하는 지표입니다. 이 정확한 지표를 활용하기 위해, 우리는 ReQuant이라는 간단하지만 강력한 프레임워크를 추가로 제안합니다. 이 프레임워크는 주로 두 가지 Dense-and-Sparse 분리 구성 요소로 이루어져 있습니다: 자체 적응 이상치 선택 및 단계별 중요 가중치 분리. 결과는 ReQuant이 최신 사후 훈련 양자화 방법을 크게 향상시킴을 보여주며, Llama 3.2 1B에서 QTIP를 사용할 때 2.66의 perplexity 향상을 달성했습니다.
추론 시간 스케일링은 OpenAI o1과 DeepSeek R1과 같은 최신 모델의 성공에 중요한 역할을 해왔습니다. 그러나 추론 시간 스케일링을 위해 모델을 훈련시키는 데 사용되는 많은 기술들은 검증 가능한 답변이 필요한 작업에 제한되어, 수학, 코딩, 논리적 추론과 같은 특정 도메인에만 적용될 수 있습니다. 우리는 인간이 첫 시도를 하고, 다른 사람들로부터 상세한 피드백을 요청하며, 그러한 피드백을 바탕으로 개선을 이루는 방식에서 영감을 얻었습니다. 이를 위해, 우리는 개방형 일반 도메인 작업에 대해 추론 시간 스케일링을 수행할 수 있는 전용 피드백 및 편집 모델을 위한 데이터를 수집하고 훈련시켰습니다. 우리의 설정에서는 하나의 모델이 초기 응답을 생성하고, 두 번째 모델이 피드백을 제공하며, 세 번째 모델이 그 피드백을 사용하여 응답을 편집합니다. 우리는 Chatbot Arena Elo를 강력하게 예측하는 벤치마크인 Arena Hard에서의 성능이 초기 응답 초안의 수, 효과적인 피드백, 그리고 편집된 응답의 스케일링을 통해 향상될 수 있음을 보여줍니다. 최적의 스케일링을 적용했을 때, Llama 3 패밀리의 70B 모델을 기반으로 한 우리의 설정은 2025년 3월 5일 기준으로 Arena Hard에서 92.7의 SoTA 성능에 도달할 수 있으며, 이는 90.4의 OpenAI o1-preview-2024-09-12와 92.3의 DeepSeek R1을 능가합니다.
대규모 언어 모델(LLM)은 기계 번역 분야에서 주목할 만한 성공을 거두며 다양한 언어에서 인상적인 성능을 보여주고 있습니다. 그러나 지나치게 직역적이고 부자연스러운 번역을 특징으로 하는 '번역체(translationese)'는 LLM 기반 번역 시스템에서 여전히 지속적인 과제로 남아 있습니다. LLM은 방대한 자연어 발화 코퍼스에 대해 사전 학습을 거쳤음에도 불구하고, 지도 미세 조정(supervised fine-tuning, SFT) 과정에서 도입된 편향으로 인해 번역체 오류를 보이고 예상치 못한 부자연스러운 번역을 생성합니다. 본 연구에서는 LLM이 생성한 번역에서 번역체의 유행을 체계적으로 평가하고, 지도 학습 과정에서 그 근원을 조사합니다. 우리는 번역체를 완화하기 위한 방법을 소개하며, 이에는 골든 레퍼런스를 다듬고 부자연스러운 학습 인스턴스를 필터링하는 방법이 포함됩니다. 실험적 평가를 통해 이러한 접근법이 번역체를 상당히 줄이고 번역의 자연스러움을 개선함을 입증하였으며, 이는 인간 평가와 자동 평가 지표를 통해 검증되었습니다. 우리의 연구 결과는 LLM 번역 출력을 최적화하기 위해 학습 과정을 고려한 조정의 필요성을 강조하며, 더 유창하고 목표 언어에 일관된 번역을 위한 길을 열어줍니다. 우리는 데이터와 코드를 https://github.com/yafuly/LLM_Translationese에서 공개합니다.
베이지안 역문제를 효율적으로 해결하는 것은 사후 분포의 복잡성과 전통적인 샘플링 방법의 계산 비용으로 인해 여전히 중요한 과제로 남아 있습니다. 일련의 관측값과 순방향 모델이 주어졌을 때, 우리는 관측된 실험 데이터에 조건부로 매개변수의 분포를 복구하고자 합니다. 우리는 조건부 흐름 매칭(Conditional Flow Matching, CFM)을 트랜스포머 기반 아키텍처와 결합함으로써, 가변적인 수의 관측값에 조건부로 이러한 종류의 분포에서 효율적으로 샘플링할 수 있음을 보여줍니다.
교차언어 전이(Crosslingual transfer)는 현대 언어 모델의 다국어 능력에 있어 핵심적인 요소이지만, 그 발생 메커니즘은 잘 이해되지 않고 있다. 본 논문에서는 단일언어 언어 모델이 제2언어 학습을 시작할 때 어떤 현상이 일어나는지 탐구한다. 구체적으로, 각 언어의 데이터 양과 언어 노출 순서를 통제한 소규모 이중언어 모델을 학습시킨다. 공유된 다국어 표현의 증거를 찾기 위해, 인간의 문법적 표현을 연구하는 데 사용되는 구조적 프라이밍(structural priming) 방법을 활용한다. 먼저, 기존의 교차언어 구조적 프라이밍 결과를 재현하고, 학습 데이터 양과 언어 노출을 통제한 후에도 언어 쌍과 방향에 따라 비대칭적 효과가 나타남을 확인한다. 이러한 비대칭성이 인간의 구조적 프라이밍 효과에 대한 가설을 형성할 수 있음을 주장한다. 또한, 유사성이 낮은 언어 쌍의 경우 구조적 프라이밍 효과가 덜 강력하게 나타나, 유형론적으로 다양한 언어들 간의 교차언어 전이 학습과 공유 표현의 잠재적 한계를 강조한다.
소프트웨어 프로젝트는 다양한 배경을 가진 개인들의 참여와 기여를 통해 번성합니다. 그러나 유해한 언어와 부정적인 상호작용은 기여자들의 참여와 유지를 방해하고, 신규 참여자들을 소외시킬 수 있습니다. 사전 조정 전략은 의도된 목적에서 벗어난 대화를 해결함으로써 유해성이 발생하는 것을 방지하는 것을 목표로 합니다. 본 연구는 GitHub에서 독성으로 이어지는 대화의 탈선을 이해하고 예측하는 것을 목표로 합니다. 이 연구를 위해, 우리는 GitHub에서 수집한 202개의 독성 대화와 이들의 탈선 지점을 주석 처리한 데이터셋과 696개의 비독성 대화를 기준으로 한 새로운 데이터셋을 구축했습니다. 이 데이터셋을 기반으로, 우리는 독성 대화와 탈선 지점의 고유한 특성을 식별했습니다. 이 특성에는 2인칭 대명사, 부정어, 그리고 '쓰라린 좌절'과 '조급함'과 같은 어조와 같은 언어적 표지, 그리고 프로젝트 기여자와 외부 참여자 간의 대화 역학 패턴이 포함됩니다. 이러한 경험적 관찰을 활용하여, 우리는 잠재적으로 유해한 대화가 악화되기 전에 자동으로 탐지하고 해결하기 위한 사전 조정 접근 방식을 제안합니다. 최신 대형 언어 모델(LLM)을 활용하여, 우리는 토론의 진화를 포착하고 탈선의 초기 징후를 식별하는 대화 궤적 요약 기술을 개발했습니다. 우리의 실험은 GitHub 대화의 요약을 제공하도록 맞춤화된 LLM 프롬프트가 대화 탈선 예측에서 69%의 F1 점수를 달성하며, 일련의 기준 접근 방식에 비해 크게 개선됨을 보여줍니다.