번역이 포함된 일일 선별된 AI 연구 논문
Neural Radiance Fields (NeRF)는 소수샷 시나리오에서 중요한 도전에 직면하고 있는데, 이는 오버피팅과 고품질 렌더링을 위한 장기간 훈련 때문이다. 기존 방법인 FreeNeRF와 SparseNeRF는 주파수 정규화나 사전 훈련된 사전을 사용하지만 복잡한 스케줄링과 편향에 어려움을 겪고 있다. 우리는 FrugalNeRF를 소개하는데, 이는 여러 스케일에서 가중치 공유 복셀을 활용하여 효율적으로 장면 세부 정보를 표현한다. 우리의 주요 기여는 크로스-스케일 기하적 적응 스키마로, 스케일 간 재투영 오류에 기반하여 의사 실제 깊이를 선택하는 것이다. 이는 외부에서 학습된 사전에 의존하지 않고 훈련을 안내함으로써 훈련 데이터의 완전한 활용을 가능하게 한다. 또한 수렴 속도를 늦추지 않고 품질을 향상시키는 사전 훈련된 사전을 통합할 수도 있다. LLFF, DTU, RealEstate-10K에서의 실험 결과 FrugalNeRF가 다른 소수샷 NeRF 방법보다 우수한 성능을 보이며 훈련 시간을 크게 줄여 효율적이고 정확한 3D 장면 재구성에 실용적인 솔루션이 되었다.
Segment Anything Model 2 (SAM 2)은 이미지와 비디오에서 물체 분할을 위한 강력한 기초 모델로 등장하여, 다양한 하위 비디오 응용 프로그램을 위한 길을 열었습니다. 비디오 분할을 위한 SAM 2의 중요한 설계는 현재 프레임 예측을 위해 이전 프레임에서 물체 인식 메모리를 유도하는 메모리 모듈입니다. 그러나 그것의 탐욕스러운 선택 메모리 설계는 "오류 누적" 문제에 시달리며, 오류가 있는 또는 누락된 마스크가 연쇄적으로 영향을 미쳐 다음 프레임의 분할에 영향을 줄 수 있어 SAM 2의 성능을 복잡한 장기 비디오로 제한합니다. 이에 우리는 향상된 훈련 불필요 비디오 물체 분할 전략인 SAM2Long을 소개합니다. 이는 각 프레임 내의 분할 불확실성을 고려하고 제한된 트리 탐색 방식으로 여러 분할 경로에서 비디오 수준의 최적 결과를 선택합니다. 실제로 우리는 비디오 전체를 통해 일정 수의 분할 경로를 유지합니다. 각 프레임마다 기존 경로를 기반으로 여러 마스크가 제안되어 다양한 후보 분기를 생성합니다. 그런 다음 누적 점수가 더 높은 동일한 수의 분기를 다음 프레임의 새 경로로 선택합니다. 최종 프레임을 처리한 후 누적 점수가 가장 높은 경로가 최종 분할 결과로 선택됩니다. 휴리스틱 탐색 설계 덕분에 SAM2Long은 가려짐과 물체 재출현에 강하며 복잡한 장기 비디오의 물체를 효과적으로 분할하고 추적할 수 있습니다. 특히 SAM2Long은 SA-V 및 LVOS와 같은 장기 비디오 물체 분할 벤치마크에서 J&F에서 최대 5.3 포인트의 이득을 포함하여 모든 24개의 헤드 투 헤드 비교에서 평균 3.0 포인트의 향상을 달성합니다. 코드는 https://github.com/Mark12Ding/SAM2Long에서 공개되었습니다.
대규모 언어 모델(Large Language Models, LLMs)의 지속적인 향상을 위해 효율적이고 정확한 평가가 중요합니다. 다양한 평가 방법 중 주관적 평가는 실제 사용 시나리오와 인간의 선호도와 뛰어난 일치성으로 인해 상당한 관심을 받고 있습니다. 그러나 인간 중심의 평가는 비용이 많이 들며 재현성이 부족하여, 정확한 자동 평가자(판단자)가 이 과정에서 중요합니다. 본 보고서에서는 CompassJudger-1을 소개합니다. 이는 최초의 오픈 소스 올인원 판단자 LLM입니다. CompassJudger-1은 현저한 다재다능성을 보여주는 일반 목적의 LLM입니다. 이는 다음을 수행할 수 있습니다: 1. 보상 모델로서 단일 점수화 및 두 모델 비교; 2. 지정된 형식에 따른 평가 수행; 3. 비평 생성; 4. 일반 LLM처럼 다양한 작업 실행. 서로 다른 판단자 모델의 평가 능력을 통일된 환경에서 평가하기 위해 다양한 주관적 평가 작업을 포함하고 다양한 주제를 다루는 새로운 벤치마크인 JudgerBench를 개발했습니다. CompassJudger-1은 다양한 평가 작업에 대한 포괄적인 솔루션을 제공하면서 다양한 요구 사항에 적응할 수 있는 유연성을 유지합니다. CompassJudger와 JudgerBench는 https://github.com/open-compass/CompassJudger에서 연구 커뮤니티에 공개되어 있습니다. 이 도구들을 오픈 소스로 공개함으로써 협력을 촉진하고 LLM 평가 방법론의 발전을 가속화할 수 있다고 믿습니다.
오픈 소스 모델의 발전으로 사용자 지정 데이터셋에서 모델을 학습(또는 파인튜닝)하는 것은 특정 산업이나 오픈 소스 응용 프로그램에 맞춘 솔루션을 개발하는 중요한 부분이 되었습니다. 그러나 서로 다른 유형의 모달리티나 작업에 걸쳐 학습 프로세스를 단순화하는 도구는 없습니다. 저희는 AutoTrain(또는 AutoTrain Advanced)을 소개합니다. 이는 다양한 종류의 작업에 대해 모델을 학습(또는 파인튜닝)하는 데 사용할 수 있는 오픈 소스, 노 코드 도구/라이브러리입니다. 이 작업에는 대규모 언어 모델(LLM) 파인튜닝, 텍스트 분류/회귀, 토큰 분류, 시퀀스-투-시퀀스 작업, 문장 변환기 파인튜닝, 시각 언어 모델(VLM) 파인튜닝, 이미지 분류/회귀, 심지어 탭 데이터에 대한 분류 및 회귀 작업이 포함됩니다. AutoTrain Advanced는 사용자 지정 데이터셋에서 모델을 학습하는 데 대한 최상의 방법론을 제공하는 오픈 소스 라이브러리입니다. 해당 라이브러리는 https://github.com/huggingface/autotrain-advanced에서 사용할 수 있습니다. AutoTrain은 완전 로컬 모드나 클라우드 머신에서 사용할 수 있으며 Hugging Face Hub에서 공유된 수만 개의 모델 및 그 변형과 작동합니다.
최근의 다중 모달 기반 모델의 발전은 시각-언어 이해 분야에서 상당한 진전을 이루었습니다. 초기 시도들은 시각적 콘텐츠 생성을 위한 다중 모달 대규모 언어 모델 (MLLMs)의 잠재력을 탐구했습니다. 그러나 기존 연구는 통합된 MLLM 패러다임 내에서 다양한 이미지 생성 작업의 다양한 세분성 요구를 충분히 다루지 못했습니다 - 텍스트에서 이미지로의 생성에 필요한 다양성부터 이미지 조작에 필요한 정확한 제어 가능성까지. 본 연구에서는 PUMA, Multi-grAnular 시각적 생성을 위한 통합된 MLLM을 강화하는 것을 제안합니다. PUMA는 다중 세분 시각적 특징을 MLLM의 입력 및 출력으로 통합하여 다양한 이미지 생성 작업의 다양한 세분성 요구를 우아하게 해결하는 통합된 MLLM 프레임워크 내에서 다른 세분성 요구를 주소합니다. 다중 모달 사전 훈련 및 작업별 지시 조정을 거친 후, PUMA는 다양한 다중 모달 작업에서 능숙함을 나타냅니다. 본 연구는 다양한 시각 작업의 세분성 요구에 적응할 수 있는 진정한 통합 MLLM으로 나아가는 중요한 한걸음을 나타냅니다. 코드와 모델은 https://github.com/rongyaofang/PUMA에서 공개될 예정입니다.
배천 정렬(Baichuan Alignment)을 소개합니다. 이는 Baichuan 시리즈 모델에서 사용된 정렬 기술의 상세한 분석입니다. 이는 산업에서 처음으로 정렬 방법론에 대한 포괄적인 설명을 제공하며, AI 연구를 발전시키는 데 유용한 통찰을 제공합니다. 우리는 정렬 프로세스 중 모델 성능을 향상시키는 중요 구성 요소들을 조사합니다. 최적화 방법, 데이터 전략, 능력 향상, 그리고 평가 프로세스를 포함합니다. 이 프로세스는 Prompt Augmentation System (PAS), Supervised Fine-Tuning (SFT), 그리고 Preference Alignment의 세 가지 주요 단계로 이루어집니다. 마주한 문제, 적용된 해결책, 그리고 이루어진 개선 사항이 철저히 기록되어 있습니다. 잘 알려진 벤치마크를 통한 비교를 통해, 배천 정렬이 가능케 한 기술적 진보를 강조합니다. Baichuan-Instruct는 내부 모델이며, Qwen2-Nova-72B와 Llama3-PBM-Nova-70B는 Baichuan Alignment를 통해 최적화된 Qwen2-72B와 Llama-3-70B의 instruct 버전입니다. Baichuan-Instruct는 핵심 능력에서 상당한 향상을 보여주며, 사용자 경험 향상은 17%에서 28%로 범위가 확대되었으며, 전문 벤치마크에서 우수한 성과를 거두었습니다. 오픈 소스 벤치마크 평가에서, Qwen2-Nova-72B와 Llama3-PBM-Nova-70B는 거의 모든 데이터셋에서 각각의 공식 instruct 버전을 일관되게 능가합니다. 이 보고서는 커뮤니티 내에서 정렬 프로세스 뒤에 있는 주요 기술을 명확히 하고, 깊은 이해를 촉진하는 것을 목표로 합니다. Llama3-PBM-Nova-70B 모델은 다음 링크에서 이용 가능합니다: https://huggingface.co/PKU-Baichuan-MLSystemLab/Llama3-PBM-Nova-70B.
지도 미세 조정(Supervised fine-tuning, SFT)은 대규모 언어 모델(Large Language Models, LLMs)을 특정 도메인이나 작업에 적응시키는 데 중요합니다. 그러나 실제 응용 프로그램에서는 한정된 양의 레이블이 지정된 데이터만 사용 가능하며, 이는 지도 미세 조정이 만족스러운 결과를 얻는 데 심각한 어려움을 겪게 합니다. 따라서 LLM 미세 조정을 위해 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 모두 활용할 수 있는 데이터 효율적인 프레임워크가 매우 기대됩니다. 이를 위해 우리는 SemiEvol이라는 반복 및 선택 방식을 통한 LLM 적응을 위한 준지도 미세 조정 프레임워크를 소개합니다. 지식 전파를 위해 SemiEvol은 레이블이 지정된 데이터에서 레이블이 지정되지 않은 데이터로 지식을 전파하기 위해 가중치 내 및 문맥 내 방법을 모두 채택하는 이중 접근 방식을 채택합니다. 지식 선택을 위해 SemiEvol은 고품질 가짜 응답 샘플을 선택하는 협력 학습 메커니즘을 통합합니다. 우리는 GPT-4o-mini와 Llama-3.1을 사용하여 일곱 가지 일반 또는 도메인별 데이터셋에서 실험을 수행했으며, 대상 데이터의 모델 성능에서 상당한 향상을 보여주었습니다. 더 나아가, SemiEvol을 지도 미세 조정(SFT) 및 자체 진화 방법과 비교하여 혼합 데이터 시나리오에서의 실용성을 강조했습니다.
최근에는 다중 모달 대형 언어 모델(MLLMs)의 발전이 있었지만, 그 발전은 주로 영어 및 서양 중심의 데이터셋과 작업에 초점을 맞추어 전 세계의 언어와 다양한 문화적 맥락이 미흡한 상태입니다. 본 논문에서는 39개 언어를 아우르는 다양한 6백만 개의 지침 데이터셋인 PangeaIns에서 훈련된 다국어 다중 모달 LLM인 Pangea를 소개합니다. PangeaIns는 1) 고품질의 영어 지침, 2) 신중하게 기계 번역된 지침, 그리고 3) 문화적으로 관련된 다중 모달 작업을 특징으로 하여 다문화적인 커버리지를 보장합니다. 모델의 성능을 엄격하게 평가하기 위해 47개 언어를 아우르는 14개 데이터셋을 포함하는 종합적인 평가 스위트인 PangeaBench를 소개합니다. 결과는 Pangea가 다양한 문화적 맥락에서 다국어 환경에서 기존의 오픈 소스 모델들을 현격하게 능가함을 보여줍니다. Ablation 연구는 영어 데이터 비율, 언어 인기도, 그리고 다중 모달 훈련 샘플 수가 전체 성능에 미치는 중요성을 더 자세히 밝혀냅니다. 우리는 포괄적이고 견고한 다국어 MLLMs의 개발을 촉진하고 보다 넓은 언어 및 문화적 스펙트럼에서의 공정성과 접근성을 촉진하기 위해 데이터, 코드 및 훈련된 체크포인트를 완전히 오픈 소스로 제공합니다.
보상 모델은 인간 피드백으로부터 강화 학습 (RLHF) 및 추론 스케일링 법과 같은 기술에서 중요하며, 언어 모델 정렬을 안내하고 최적의 응답을 선택합니다. 그러나 그 중요성에도 불구하고, 기존의 보상 모델 벤치마크는 종종 모델의 힘에 따라 생성된 응답을 구별하도록 요청하여 모델을 평가합니다. 그러나 이 접근 방식은 보상 모델을 섬세하지만 중요한 콘텐츠 변경 및 스타일 변화에 대해 평가하지 못하며, 결과적으로 정책 모델 성능과의 낮은 상관 관계를 보입니다. 이에 우리는 RM-Bench를 소개하여 보상 모델의 섬세한 콘텐츠 차이에 대한 민감도와 스타일 편향에 대한 저항력을 기반으로 보상 모델을 평가하는 새로운 벤치마크를 설계했습니다. 광범위한 실험을 통해 RM-Bench가 정책 모델 성능과 강력한 상관 관계를 갖는 것으로 입증되었으며, 이를 통해 언어 모델을 효과적으로 정렬하기 위해 보상 모델을 선택하는 믿을만한 참고 자료가 되었습니다. 우리는 RM-Bench에서 거의 40개의 보상 모델을 평가했습니다. 결과는 최첨단 모델조차 스타일 편향 간섭에 직면했을 때 무작위 수준의 정확도 (50%)를 달성하지 못하며, 평균 성능이 46.6%에 불과함을 보여줍니다. 이 결과는 현재의 보상 모델에서 개선할 여지가 상당함을 강조합니다. 관련 코드와 데이터는 https://github.com/THU-KEG/RM-Bench에서 확인할 수 있습니다.
검색 증강 생성 (RAG)은 대규모 언어 모델 (LLM)에 유용한 보완 역할을 하지만 종종 파이프라인 내의 텍스트 청킹이 중요한 측면으로 간과되어 지식 중심 작업의 품질에 영향을 미칩니다. 본 논문에서는 문장과 단락 사이의 세분성을 나타내는 Meta-Chunking 개념을 소개합니다. 이는 문단 내에서 깊은 언어 논리적 연결을 갖는 문장 모음으로 구성됩니다. Meta-Chunking을 구현하기 위해 LLM을 기반으로 Margin Sampling Chunking과 Perplexity Chunking 두 가지 전략을 설계했습니다. 전자는 LLM을 활용하여 연속된 문장을 분할해야 하는지에 대한 이진 분류를 수행하며, 마진 샘플링에서 얻은 확률 차이에 기반하여 결정을 내립니다. 후자는 헷갈리는 분포의 특성을 분석하여 텍스트 청킹 경계를 정확히 식별합니다. 또한, 서로 다른 텍스트의 본질적인 복잡성을 고려하여, Meta-Chunking과 동적 병합을 결합하여 세밀한 및 거친 텍스트 청킹 사이의 균형을 달성하는 전략을 제안합니다. 11개 데이터셋에서 수행된 실험 결과, Meta-Chunking이 RAG를 기반으로 한 단일-점프 및 다중-점프 질문 응답의 성능을 효율적으로 향상시킬 수 있음을 보여줍니다. 예를 들어, 2WikiMultihopQA 데이터셋에서 유사성 청킹을 1.32만큼 능가하면서 시간의 45.8%만 소비합니다. 저희의 코드는 https://github.com/IAAR-Shanghai/Meta-Chunking에서 확인하실 수 있습니다.
지식 증류(Knowledge distillation, KD)은 큰 교사 모델로부터 작은 학생 모델로 지식을 전달하는 것을 목표로 합니다. 이전 연구에서는 대형 언어 모델(Large Language Models, LLMs) 분야에서 KD를 적용할 때 주로 후훈련 단계에 초점을 맞추어 왔는데, 여기서 학생 LLM이 교사 모델이 생성한 지시와 해당 응답에서 직접 학습하는 방식이었습니다. 본 논문에서는 KD를 LLM의 사전훈련 단계로 확장하여 사전훈련 증류(Pre-training distillation, PD)이라고 명명하였습니다. 우리는 먼저 GLM-4-9B를 교사 LLM으로 사용하여 1.9B 파라미터 학생 LLM을 증류하는 초기 실험을 수행하여 PD의 효과를 검증했습니다. 증류의 주요 영향 요소를 고려하여 사전훈련 증류의 설계 공간을 로짓 처리, 손실 선택, 스케일링 법칙, 오프라인 또는 온라인 로짓 네 가지 측면에서 체계적으로 탐색했습니다. 우리는 사전훈련 증류의 설계 공간을 탐색하기 위해 포괄적인 실험을 수행하고 더 나은 구성 및 흥미로운 결론을 도출했습니다. 예를 들어, 일반적으로 큰 학생 LLM이 사전훈련 증류에서 더 많은 이점을 얻는 반면, 큰 교사 LLM이 반드시 더 나은 결과를 보장하지는 않는다는 사실을 발견했습니다. 우리의 설계 공간 탐색이 사전훈련 증류에 대한 미래 실천에 도움이 되기를 희망합니다.
형식적인 증명은 경험이 풍부한 전문가들에게도 쓰기 어려운 과제입니다. 최근 신경 정리 증명(Neural Theorem Proving, NTP)의 발전은 이 과정을 가속화하는 데 유망성을 보여줍니다. 그러나 인터넷에서 이용 가능한 형식적 말뭉치는 일반 텍스트에 비해 제한적이어서 NTP에 대한 중요한 데이터 부족 도전을 제기합니다. 본 연구는 이 문제에 대응하기 위해 데이터 합성을 위한 일반적인 프레임워크인 Alchemy를 제안합니다. 이 프레임워크는 상징적 돌연변이를 통해 형식적 정리를 구축합니다. 구체적으로, Mathlib의 각 후보 정리에 대해 해당 정리를 다시 쓰거나 적용할 수 있는 모든 호출 가능한 정리를 식별합니다. 그 후, 후보 정리를 해당 문장의 대응하는 용어를 동등한 형태나 선행으로 대체함으로써 돌연변이를 일으킵니다. 결과적으로, 우리의 방법은 Mathlib의 정리 수를 11만 개에서 600만 개로 10배 증가시킵니다. 더불어, 우리는 이 보강된 말뭉치에 대해 대규모 언어 모델을 위한 지속적인 사전 훈련 및 지도된 미세 조정을 수행합니다. 실험 결과는 우리의 접근 방식의 효과를 입증하며, Leandojo 벤치마크에서 5%의 절대적인 성능 향상을 달성합니다. 게다가, 우리의 합성 데이터는 분포 밖 miniF2F 벤치마크에서 2.5%의 절대적인 성능 향상을 이룹니다. 더 나아가, 우리는 합성 데이터 구성과 훈련 패러다임에 대한 포괄적인 분석을 실시하여, 강력한 정리 증명기를 개발하기 위한 소중한 지침을 제공합니다.
대규모 언어 모델(LLMs)은 자연어 처리를 혁신적으로 바꿨지만, 음성 기반 작업에 적용하는 것은 오디오와 텍스트 모드의 복잡성 때문에 여전히 어려움이 남아 있습니다. 본 논문은 Ichigo를 소개하는데, 이는 음성과 텍스트의 교차된 순서열을 매끄럽게 처리하는 혼합 모달 모델입니다. 토큰화된 초기 융합 접근 방식을 활용하여 Ichigo는 음성을 이산 토큰으로 양자화하고 음성과 텍스트 모드 모두에 대해 균일한 트랜스포머 기반 아키텍처를 사용합니다. 이 방법은 별도의 어댑터 없이 모드 간의 공동 추론과 생성을 가능하게 합니다. 우리는 다국어 음성 인식 데이터셋에서 사전 훈련하고 정돈된 지시 데이터셋에서 세밀한 조정을 통해 포괄적인 훈련 방법론을 제시합니다. Ichigo는 음성 질의응답 벤치마크에서 최첨단 성능을 보여주며, 기존 오픈 소스 음성 언어 모델을 능가하고 연쇄 시스템과 유사한 결과를 달성합니다. 특히, Ichigo는 첫 번째 토큰 생성까지 단지 111ms의 대기 시간을 보여 현재 모델보다 훨씬 낮습니다. 우리의 접근 방식은 다모달 인공지능 분야를 발전시키는 데 그치지 않고, 작은 연구 팀이 오픈 소스 음성 언어 모델에 효과적으로 기여할 수 있는 프레임워크를 제공합니다.
대형 언어 모델(LLM)의 신생 제로샷 기능은 자연어 처리 작업을 넘어 다양한 영역에 적용되고 있습니다. 강화 학습에서 LLM은 텍스트 기반 환경에서 널리 사용되어 왔지만 연속 상태 공간과의 통합은 미연구 상태입니다. 본 논문에서는 사전 훈련된 LLM이 연속적인 마르코프 의사 결정 과정의 동역학을 문맥 속에서 예측하는 데 어떻게 활용될 수 있는지 조사합니다. 다변량 데이터 처리와 제어 신호 통합을 식별하여 LLM의 이러한 설정에서의 활용 가능성을 제한하는 주요 도전 과제로 지적하고, 이를 해결하기 위해 Disentangled In-Context Learning (DICL)을 제안합니다. 우리는 제안된 방법의 이론적 분석을 지원하며, 모델 기반 정책 평가 및 데이터 보강형 오프-폴리시 강화 학습 두 가지 설정에서의 개념 증명 응용을 제시합니다. 실험 결과는 우리의 접근 방식이 잘 보정된 불확실성 추정을 생성한다는 것을 더욱 입증합니다. 코드는 https://github.com/abenechehab/dicl에서 공개되어 있습니다.
대규모 언어 모델을 확장하여 극도로 긴 문맥을 처리하는 능력을 효과적으로 다루기 위한 연구가 완전히 탐구되지 않은 상태입니다. 주요 장애물은 긴 문맥 정렬을 위해 고안된 고품질의 장문 지시어 따르기 데이터셋을 구축하는 데 있습니다. 기존 연구는 긴 지시어 따르기 샘플을 합성하여 사용 가능한 데이터 양을 확장하려고 시도해 왔습니다. 그러나 데이터 품질을 보장하기 위한 명확한 전략 없이 데이터 양을 무분별하게 증가시키면 낮은 품질의 샘플을 도입하고 최종 성능을 제한할 수 있습니다. 이 간극을 메우기 위해 우리는 긴 문맥 정렬의 독특한 도전 과제, 즉 지시어 및 긴 입력 문맥을 처리하기 위한 장거리 종속성 모델링에 대응하고자 합니다. 우리는 HMG(Homologous Models' Guidance)와 CAM(Contextual Awareness Measurement)을 활용하여 장거리 종속성 관계로 풍부하고 고품질의 샘플을 식별하기 위한 혁신적인 프레임워크인 GATEAU를 제안합니다. 구체적으로, HMG는 서로 다른 문맥 창을 가진 두 동종 모델의 응답의 혼란도 점수를 사용하여 장거리 종속성으로 인해 해당 응답을 생성하는 난이도를 측정하려고 시도합니다. 또한, CAM의 역할은 모델의 주의가 중요한 세그먼트에 집중되는지를 평가하여 장거리 종속성으로 인해 긴 입력 문맥을 이해하는 난이도를 측정하는 것입니다. 제안된 두 방법을 기반으로, 우리는 장거리 종속성을 효과적으로 프레임하는 데 영향력 있는 데이터로 가장 어려운 샘플을 선택하여 LLMs의 성능을 향상시킵니다. 포괄적인 실험 결과는 GATEAU가 장거리 종속성 관계로 풍부한 샘플을 효과적으로 식별하며 이러한 선택된 샘플로 훈련된 모델이 지시어 따르기 및 긴 문맥 이해 능력이 더 좋다는 것을 나타냅니다.
텍스트 대 이미지 모델은 대량의 데이터셋을 사용하여 훈련됩니다. 이 데이터셋은 인터넷에서 이미지-텍스트 쌍을 수집하여 구성되는데, 종종 개인 정보, 저작권 소유물 및 라이선스가 필요한 자료를 포함합니다. 이러한 데이터셋에서 모델을 훈련시키면 해당 콘텐츠를 포함한 이미지를 생성할 수 있게 되는데, 이는 저작권법과 개인 정보 보호법을 위반할 수 있습니다. 이러한 현상은 모방이라고 불리며, 훈련 이미지와 유사성을 인식할 수 있는 콘텐츠를 가진 이미지를 생성하는 것을 의미합니다. 본 연구에서는 훈련 데이터셋 내에서 개념의 빈도와 모델이 모방할 수 있는 능력 사이의 관계를 연구합니다. 모델이 개념을 모방할 수 있는 충분한 인스턴스로 훈련된 지점을 결정하는 것을 목표로 하며, 이를 '모방 임계값 찾기'라는 새로운 문제로 제시합니다. 우리는 이러한 모방 임계값을 추정하는 효율적인 방법을 제안하며, 복수의 모델을 처음부터 훈련하는 엄청난 비용을 발생시키지 않고 모방 임계값을 추정합니다. 우리는 인간 얼굴과 예술 스타일 두 가지 도메인에서 네 개의 데이터셋을 생성하고, 두 개의 사전 훈련 데이터셋에서 훈련된 세 가지 텍스트 대 이미지 모델을 평가합니다. 결과는 이러한 모델의 모방 임계값이 도메인 및 모델에 따라 200-600개의 이미지 범위에 있음을 보여줍니다. 모방 임계값은 저작권 침해 주장에 대한 경험적 근거를 제공하며, 저작권 및 개인 정보 보호법을 준수하려는 텍스트 대 이미지 모델 개발자들에게 지침이 되는 원칙 역할을 합니다. 코드와 데이터는 https://github.com/vsahil/MIMETIC-2.git에서 공개되었으며, 프로젝트 웹사이트는 https://how-many-van-goghs-does-it-take.github.io에서 호스팅됩니다.
우리는 Agent-to-Sim (ATS)을 제시합니다. 이는 3D 에이전트의 상호작용 행동 모델을 일반적인 종단적 비디오 컬렉션으로부터 학습하는 프레임워크입니다. ATS는 마커 기반 추적과 다중 시점 카메라에 의존하는 이전 작업과는 달리, 한 환경에서 오랜 기간(예: 한 달) 동안 기록된 비디오 관측을 통해 동물 및 인간 에이전트의 자연스러운 행동을 비침입적으로 학습합니다. 에이전트의 3D 행동을 모델링하려면 장기간에 걸쳐 지속적인 3D 추적(예: 어떤 지점이 어떤 것에 해당하는지 파악)이 필요합니다. 이러한 데이터를 얻기 위해 우리는 에이전트와 카메라를 시간에 걸쳐 정규 3D 공간을 통해 추적하는 coarse-to-fine 등록 방법을 개발하여 완전하고 지속적인 시공간 4D 표현을 얻습니다. 그런 다음 4D 재구성에서 쿼리된 에이전트의 지각 및 움직임의 짝 데이터를 사용하여 에이전트 행동의 생성 모델을 훈련합니다. ATS는 에이전트의 비디오 녹화로부터 상호작용 행동 시뮬레이터로의 실제 대 가상 전송을 가능하게 합니다. 우리는 스마트폰에 의해 촬영된 단안 RGBD 비디오로부터 애완동물(예: 고양이, 개, 토끼) 및 인간에 대한 결과를 시연합니다.
오늘날 환자의 요구와 제공되는 정신 건강 지원 사이에는 상당한 격차가 있습니다. 본 논문에서는 대규모 언어 모델(LLMs)을 활용하여 전문가 심리 치료를 지원하는 잠재력을 철저히 조사하고자 합니다. 이를 위해 우리는 인지 행동 치료(CBT) 지원의 체계적 평가를 위한 새로운 벤치마크인 CBT-BENCH를 제안합니다. CBT-BENCH에는 다음과 같은 세 가지 수준의 작업이 포함되어 있습니다: I: 다지선다 문제를 풀어 기본 CBT 지식 습득, II: 인지 모델 이해를 위한 과제로서 인지 왜곡 분류, 주요 핵심 신념 분류, 세분화된 핵심 신념 분류가 있으며, III: 치료적 대응 생성을 위해 CBT 세션에서 환자 발화에 대한 응답 생성 작업이 있습니다. 이러한 작업들은 AI 지원을 통해 향상될 수 있는 CBT의 주요 측면을 포괄하며, 동시에 기본적인 지식 암기부터 실제 치료 대화에 참여하는 능력 요구의 등급 구조를 개요화합니다. 우리는 우리의 벤치마크에서 대표적인 LLMs를 평가했습니다. 실험 결과는 LLMs가 CBT 지식을 암기하는 데 능숙하나, 환자의 인지 구조를 심층적으로 분석하고 효과적인 응답을 생성하는 복잡한 실제 시나리오에서는 성능이 부족하며, 잠재적인 미래 작업을 시사합니다.
전통적인 트랜스포머 모델은 각 입력 토큰에 일정한 계산 자원을 할당하여 비효율적이고 불필요한 계산을 유발합니다. 이를 해결하기 위해 계산 깊이를 동적으로 조절하는 Mixture of Depths (MoD)가 도입되었습니다. 약속된 것과는 달리 현재의 MoD 접근 방식은 미개척된 상태에 있으며 두 가지 주요 도전에 직면하고 있습니다: (1) 어떤 레이어를 건너뛌지 결정하는 라우터를 함께 훈련해야 하기 때문에 발생하는 높은 훈련 비용, 그리고 (2) 중요한 레이어를 건너뛸 때 성능 저하의 위험. 첫 번째 문제에 대응하기 위해 작은 데이터셋에서 라우터만을 세밀하게 튜닝하는 Router-Tuning 방법을 제안합니다. 이는 전체 모델 훈련에 따른 계산 부담을 크게 줄입니다. 두 번째 도전에 대응하기 위해 성능을 유지하면서 계산 및 메모리 효율성을 크게 향상시키는 Attention with Dynamic Depths를 적용한 MindSkip를 제안합니다. 광범위한 실험 결과, 우리의 접근 방식이 경쟁력 있는 결과를 제공하면서 계산 효율성을 현저히 향상시키는 것을 입증했습니다. 예를 들어, 21%의 가속화와 0.2%의 성능 저하만 발생합니다. 코드는 https://github.com/CASE-Lab-UMD/Router-Tuning에서 공개되어 있습니다.
최근 음성 언어 모델의 발전은 음성 토큰화와 합성에서 상당한 향상을 이끌어 냈습니다. 그러나 음성의 복잡하고 다차원 속성을 이산 토큰으로 효과적으로 매핑하는 것은 여전히 어려운 과제입니다. 이 과정은 정확한 음성 표현을 위해 음향, 의미 및 문맥 정보를 요구합니다. 기존의 음성 표현은 일반적으로 오디오 코덱에서 나오는 음향 토큰과 음성 자가 지도 학습 모델에서 나오는 의미 토큰 두 가지 범주로 나뉩니다. 최근 노력들은 음향과 의미 토큰을 통합하여 성능을 향상시켰지만, 포괄적인 음성 모델링에서 문맥 표현의 중요한 역할을 간과하고 있습니다. 우리의 경험적 조사 결과, 문맥 표현의 부재는 음성 전사에서 단어 오류율(WER) 및 단어 정보 손실(WIL) 점수가 상승하는 결과를 초래합니다. 이러한 한계를 극복하기 위해 우리는 두 가지 새로운 증류 접근 방식을 제안합니다: (1) 문맥 정보를 통합하는 언어 모델(LM)-지도 증류 방법, 그리고 (2) 효과적으로 다중 모달 표현(음향, 의미 및 문맥)을 증류하는 결합 LM 및 자가 지도 음성 모델(SM)-지도 증류 기술, DM-코덱이라는 포괄적인 음성 토크나이저로 구현됩니다. DM-코덱 아키텍처는 잔차 벡터 양자화기(RVQ)를 갖춘 간소화된 인코더-디코더 프레임워크를 채택하고 훈련 과정 중 LM 및 SM을 통합합니다. 실험 결과, DM-코덱은 최첨단 음성 토큰화 모델들을 크게 능가하여 LibriSpeech 벤치마크 데이터셋에서 WER을 최대 13.46%, WIL을 9.82% 감소시키고 음성 품질을 5.84%, 명료성을 1.85% 향상시킵니다. 코드, 샘플 및 모델 체크포인트는 https://github.com/mubtasimahasan/DM-Codec에서 확인할 수 있습니다.
기계 학습의 목표는 일반화입니다. No Free Lunch 이론은 일반화에 대한 이론적 보증을 얻을 수 없다는 것을 명시하지만, 실제로는 훈련 데이터를 가장 잘 설명하는 간단한 모델이 가장 잘 일반화되는 것을 관찰합니다: Occam's razor라 불리는 원리입니다. 간단한 모델이 필요하다는 점에도 불구하고, 대부분의 현재의 기계 학습 접근 방식은 훈련 오차를 최소화하며, 최대한 간단함을 규제나 구조 설계를 통해 간접적으로 촉진합니다. 여기서 우리는 Occam's razor와 맥락 학습 사이의 연결을 제시합니다: Transformer와 같은 일부 시퀀스 모델의 신흥 능력인 추론 시 과거 관측으로부터 학습하는 능력입니다. 특히, 우리는 맥락 학습자를 훈련하는 데 사용되는 다음 토큰 예측 손실이 사전적 코딩이라 불리는 데이터 압축 기술과 직접 동등하며, 이 손실을 최소화하는 것이 훈련 오차와 함께 모델의 복잡성을 함께 최소화하는 것을 의미한다는 것을 보여줍니다. 우리의 이론과 실험 결과는 맥락 학습에 대한 규범적 설명을 제공할 뿐만 아니라 현재의 맥락 학습 방법의 단점을 명확히 하고, 개선 방안을 제안합니다. 우리는 이를 지원하기 위해 사용한 코드를 https://github.com/3rdCore/PrequentialCode 에서 제공합니다.
대형 언어 모델(LLMs)이 다양한 산업 분야에 점점 더 많이 도입되면서, 특히 사용자 입력과 사실적으로 관련이 없거나 관련이 없는 결과물을 생성하는 환각에 대한 신뢰성에 대한 우려가 커졌습니다. 저희 연구는 기존 연구가 주로 사후 감지 및 완화 전략에 초점을 맞추고 있는 기존 연구의 주요 공백을 해소하기 위해 훈련 과정과 환각의 발생 사이의 관계를 조사합니다. Pythia 스위트(70M-12B 매개변수)의 모델과 여러 환각 감지 메트릭을 사용하여 훈련 중 환각 트렌드를 분석하고 LLM 내부 역학을 탐구합니다. 환각을 완화하기 위해 분산을 감소시키는 새로운 훈련 프로토콜인 SEnsitive Neuron Dropout (SeND)를 소개합니다. SeND는 데이터셋에서 중요한 변동성을 가진 뉴런, 즉 민감한 뉴런이라고 불리는 뉴런을 결정적으로 제거함으로써 이를 달성합니다. 또한, 전통적인 EigenScore를 2배 빠른 속도로 근사하는 효율적인 EigenScore (EES)를 개발합니다. 이 효율적인 메트릭은 우리의 프로토콜에 통합되어 SeND가 계산적으로 확장 가능하고 환각을 줄이는 데 효과적인 방법이 되도록 합니다. 우리의 경험적 평가는 우리의 접근 방식이 일반적인 훈련과 비교하여 시험 시 LLM 신뢰성을 최대 40% 향상시키면서, Wikipedia 및 의료 데이터셋과 같은 도메인에 LLM을 적응시킬 때 사실적 정확도를 향상시키는 효율적인 방법을 제공함을 보여줍니다.
자연어 처리(NLP)에서 기계 생성 텍스트를 평가하는 것은 특히 비영어 언어에 대해 중요한 도전입니다. 현재 방법론은 자동화된 측정, 인간 평가, 그리고 LLM(언어 모델) 기반 평가를 포함하며, 이는 주로 영어에 초점을 맞추고 있어 다중언어 평가 프레임워크에서 상당한 차이를 드러냅니다. 저희는 Cross Lingual Auto Evaluation (CIA) Suite를 소개합니다. 이는 다중언어 평가를 위해 특별히 설계된 새로운 테스트 세트(Recon)와 평가자 LLMs(Hercule)를 포함한 확장 가능한 프레임워크입니다. 저희의 테스트 세트는 여섯 개 언어에 걸쳐 인간이 주석을 다는 500개의 지침을 포함하며, 인간 판단 점수를 특징으로 합니다. 이는 일반적인 다중언어 LLMs의 벤치마킹을 가능하게 하고, 평가자 LLMs의 메타평가를 용이하게 합니다. 제안된 모델인 Hercule은 영어로 쉽게 이용 가능한 참조 답변에 기초하여 응답에 점수를 할당하는 학습을 통해 대상 언어의 참조 답변 부족 문제를 해결하는 다중언어 평가 모델입니다. 저희의 실험은 Hercule이 전용 모델과 비교하여 인간 판단과 더 밀접하게 일치함을 보여주며, 이러한 다중언어 평가의 효과를 낮은 자원 상황에서 입증합니다. 더불어, 이는 보지 못한 언어에 대한 제로샷 평가에서도 효과적입니다. 이 연구는 LLMs를 사용한 다중언어 평가의 첫 종합적인 검토로, 다중언어 평가에 대한 확장 가능하고 효과적인 접근 방식을 제시합니다. 모든 코드, 데이터셋, 그리고 모델은 이 중요한 분야에서의 추가 연구를 가능하게 하기 위해 공개적으로 이용 가능할 것입니다.