번역이 포함된 일일 선별된 AI 연구 논문
최근 몇 년간 엔드 투 엔드 인간 애니메이션, 예를 들어 오디오 주도 대화형 인간 생성은 주목할 만한 발전을 이루었습니다. 그러나 기존 방법은 여전히 대규모 일반 비디오 생성 모델로 확장하는 데 어려움을 겪어 실제 응용 프로그램에서의 잠재력을 제한하고 있습니다. 본 논문에서는 훈련 단계에서 모션 관련 조건을 혼합하여 데이터를 확장하는 Diffusion Transformer 기반 프레임워크인 OmniHuman을 제안합니다. 이를 위해 이러한 혼합 조건에 대한 두 가지 훈련 원칙을 소개하고, 해당 모델 아키텍처 및 추론 전략을 제시합니다. 이러한 설계는 OmniHuman이 데이터 기반 모션 생성을 완전히 활용하도록 하여 근본적으로 매우 현실적인 인간 비디오 생성을 달성하게 합니다. 더 중요한 것은 OmniHuman이 다양한 초상 콘텐츠(얼굴 초근접, 초상, 반신, 전신), 대화와 노래를 모두 지원하며, 인간-객체 상호작용과 어려운 몸의 자세를 처리하고 다양한 이미지 스타일을 수용한다는 것입니다. 기존 엔드 투 엔드 오디오 주도 방법과 비교했을 때, OmniHuman은 더 현실적인 비디오를 생성뿐만 아니라 입력에서 더 큰 유연성을 제공합니다. 또한 다중 주행 모드(오디오 주도, 비디오 주도 및 결합 주행 신호)를 지원합니다. 비디오 샘플은 ttfamily 프로젝트 페이지(https://omnihuman-lab.github.io)에서 제공됩니다.
직접 정렬 알고리즘(Direct Alignment Algorithms, DAAs)은 인간 피드백으로부터 강화 학습(Reinforcement Learning, RL) 및 보상 모델링(Reward Modeling, RM)을 대체하여 직접 정책 최적화를 통해 언어 모델 정렬을 간소화합니다. DAAs는 순위 손실(쌍별 대 단일별), 해당 손실에서 사용되는 보상(예: 정책 및 참조 정책의 우도 비율 또는 승률 비율), 또는 지도된 미세 조정(Supervised Fine-Tuning, SFT) 단계가 필요한지 여부에 따라 분류될 수 있습니다(이중 단계 대 단일 단계). 먼저 단일 단계 방법이 이중 단계 방법보다 성능이 낮다는 것을 보여줍니다. 이를 해결하기 위해 명시적인 SFT 단계를 통합하고, 단일 단계 ORPO와 ASFT에 선호도 최적화의 강도를 제어하는 베타 매개변수를 도입합니다. 이러한 수정은 Alpaca Eval 2에서 ORPO의 +3.46 및 ASFT의 +8.27의 성능을 향상시키며, DPO와 같은 이중 단계 방법과 일치시킵니다. 추가 분석 결과, 접근 방식이 특정 내재 보상이나 손실 함수보다는 쌍별 또는 단일별 목표를 사용하는지 여부가 핵심 요소임을 밝혀냅니다. 이러한 결과는 정렬 알고리즘에서 성능 향상이나 전반적인 우월성 주장을 조심스럽게 평가하는 중요성을 강조합니다.
밀집 프로세스 보상은 대규모 언어 모델(Large Language Models, LLMs)의 추론 시 스케일링에서 희소 결과 수준의 보상에 비해 더 효과적인 대안으로 입증되었습니다, 특히 복잡한 다단계 추론이 필요한 작업에서. 밀집 보상은 또한 강화 학습(RL)에서 LLMs의 학습에 매력적인 선택지를 제공하는데, 이는 그들의 세밀한 보상이 결과 보상의 학습 효율성 및 신용 할당과 같은 일부 내재적 문제를 해결할 수 있는 잠재력이 있기 때문입니다. 그러나 이 잠재력은 대부분 실현되지 않은 채로 남아 있습니다. 이는 온라인에서 프로세스 보상 모델(Process Reward Models, PRMs)을 훈련하는 과제의 어려움으로 주로 기인하며, 고품질의 프로세스 레이블을 수집하는 것이 가격이 비싸기 때문에 보상 해킹에 취약하게 만듭니다. 이러한 과제를 해결하기 위해 우리는 PRIME (Process Reinforcement through IMplicit rEwards)을 제안합니다. PRIME은 정책 롤아웃과 결과 레이블을 통해 암묵적 프로세스 보상을 사용하여 온라인 PRM 업데이트를 가능하게 합니다. PRIME은 다양한 이점 함수와 잘 결합되며, 기존 접근 방식이 필요로 하는 전용 보상 모델 훈련 단계를 포기함으로써 개발 오버헤드를 크게 줄입니다. 우리는 PRIME의 효과를 수학 및 코딩 대회에서 입증합니다. Qwen2.5-Math-7B-Base에서 시작하여, PRIME은 SFT 모델 대비 여러 주요 추론 벤치마크에서 평균 15.1% 향상을 달성합니다. 특히, 우리의 결과 모델인 Eurus-2-7B-PRIME은 훈련 데이터의 10%로 Qwen2.5-Math-7B-Instruct를 7개의 추론 벤치마크에서 앞섭니다.
대형 언어 모델(LLM)을 판사로 사용하고 LLM 기반 데이터 합성은 모델 개발에서 두 가지 근본적인 LLM 주도 데이터 주석 방법으로 등장했습니다. 이들의 결합은 모델 훈련과 평가의 효율성을 크게 향상시키지만, 이 새로운 모델 개발 패러다임에 의해 가져온 잠재적인 오염에는 거의 주의가 기울어지지 않았습니다. 본 연구에서는 LLM-판사로서의 선호 누출이라는 LLM-판사에서 발생하는 오염 문제를 다룹니다. 이 문제는 합성 데이터 생성기와 LLM 기반 평가자 간의 관련성으로 인한 것입니다. 이 문제를 연구하기 위해 먼저 데이터 생성기 LLM과 판사 LLM 간의 세 가지 일반적인 관련성을 정의합니다: 동일한 모델, 상속 관계, 동일한 모델 패밀리에 속함. 광범위한 실험을 통해, 우리는 판사들이 선호 누출로 인해 관련 학생 모델에 편향되어 있는 것을 여러 LLM 기준선과 벤치마크를 통해 경험적으로 확인합니다. 추가적인 분석은 선호 누출이 이전에 식별된 편향과 비교하여 감지하기 어려운 보편적인 문제임을 시사합니다. 이러한 발견들은 선호 누출이 LLM-판사 영역에서 보편적이고 도전적인 문제임을 시사합니다. 모든 코드와 데이터는 다음에서 확인할 수 있습니다: https://github.com/David-Li0406/Preference-Leakage.
시각-언어 모델(VLMs)에서 시각적 특징을 언어 임베딩과 일치시키는 것은 중요한 과제입니다. 이러한 모델의 성능은 시각 인코더에 의해 생성된 시각적 특징을 LLM과 공유된 임베딩 공간에 매핑하는 우수한 커넥터에 달려 있으며 의미 유사성을 보존해야 합니다. 기존의 커넥터인 다층 퍼셉트론(MLPs)은 종종 분포 밖이거나 잡음이 많은 입력을 생성하여 모달리티 간의 불일치를 야기합니다. 본 연구에서는 시각-텍스트 정렬 방법인 AlignVLM을 제안합니다. 이 방법은 시각적 특징을 LLM 텍스트 임베딩의 가중 평균에 매핑합니다. 우리의 접근 방식은 LLM에 의해 부여된 언어적 사전 지식을 활용하여 시각적 특징이 LLM이 효과적으로 해석할 수 있는 공간 영역에 매핑되도록 합니다. AlignVLM은 문서 이해 작업에 특히 효과적이며, 여기서 스캔된 문서 이미지를 정확하게 해당 텍스트 내용에 매핑해야 합니다. 우리의 포괄적인 실험 결과는 AlignVLM이 이전 정렬 방법과 비교하여 최고 수준의 성능을 달성한다는 것을 보여줍니다. 우리는 더 나아가 개선된 시각-텍스트 특징 정렬과 잡음에 대한 강건성을 입증하는 추가 분석을 제공합니다.
검색-검색-생성 패러다임의 검색-증강 생성(RAG)은 외부 지식을 대형 언어 모델(LLM)에 통합함으로써 지식 밀집형 작업을 해결하는 데 매우 성공적이었습니다. 그러나 외부 및 검증되지 않은 지식의 통합은 LLM의 취약성을 증가시키며, 공격자가 지식을 조작하여 공격 작업을 수행할 수 있습니다. 본 논문에서는 RAG 보안을 평가하기 위해 설계된 SafeRAG라는 벤치마크를 소개합니다. 먼저, 공격 작업을 은색 잡음, 상황 간 충돌, 부드러운 광고, 백색 서비스 거부로 분류합니다. 그런 다음, 각 작업에 대해 주로 수동으로 RAG 보안 평가 데이터셋(즉, SafeRAG 데이터셋)을 작성합니다. 그런 다음 SafeRAG 데이터셋을 활용하여 RAG가 직면할 수 있는 다양한 공격 시나리오를 시뮬레이션합니다. 14가지 대표적인 RAG 구성 요소에서 수행된 실험은 RAG가 모든 공격 작업에 대해 상당한 취약성을 나타내며, 가장 명백한 공격 작업조차도 기존의 검색기, 필터 또는 고급 LLM을 우회하여 RAG 서비스 품질을 저하시킬 수 있음을 보여줍니다. 코드는 다음에서 이용 가능합니다: https://github.com/IAAR-Shanghai/SafeRAG.
우리는 SliderSpace를 제시합니다. 이는 확산 모델의 시각적 능력을 제어 가능하고 인간이 이해할 수 있는 방향으로 자동으로 분해하는 프레임워크입니다. 각 방향은 저차원 어댑터로 훈련되어 구성 제어와 모델의 잠재 공간에서 놀라운 가능성의 발견을 가능하게 합니다. 최첨단 확산 모델에 대한 광범위한 실험을 통해, 개념 분해, 예술적 스타일 탐색 및 다양성 향상 세 가지 응용 분야에서 SliderSpace의 효과를 입증합니다. 우리의 정량적 평가는 SliderSpace에서 발견된 방향이 모델의 지식의 시각적 구조를 효과적으로 분해하며, 확산 모델 내에 인코딩된 잠재 능력에 대한 통찰을 제공한다는 것을 보여줍니다. 사용자 연구는 우리의 방법이 기준선과 비교하여 더 다양하고 유용한 변형을 생성한다는 것을 추가로 검증합니다. 우리의 코드, 데이터 및 훈련된 가중치는 https://sliderspace.baulab.info에서 사용할 수 있습니다.
우리는 SCONE (Scalable, Contextualized, Offloaded, N-gram Embedding)을 제안합니다. 이는 언어 모델 성능을 향상시키기 위해 입력 임베딩 레이어를 확장하는 방법으로, 레이어 크기가 확장됨에 따라 디코딩 비용이 증가하는 것을 피하기 위해 SCONE은 원래 어휘를 유지하면서 일련의 빈도가 높은 n-그램에 대한 임베딩을 도입합니다. 이러한 임베딩은 각 입력 토큰에 대한 문맥화된 표현을 제공하며 훈련 중 별도의 모델로 학습됩니다. 추론 중에는 미리 계산되어 가속기 외부 메모리에 저장되며 추론 속도에 미미한 영향을 미칩니다. SCONE은 두 가지 새로운 확장 전략을 가능하게 하며, 캐시된 n-그램 임베딩의 수를 증가시키고 해당 임베딩을 학습하는 모델을 확장함으로써, 고정된 추론 시간 FLOPS를 유지하면서 성능을 향상시킵니다. 우리는 두 측면을 함께 확장함으로써 SCONE이 다양한 말뭉치에서 19억 개의 파라미터 기준을 능가하고 추론 시간 FLOPS의 절반만 사용하는 것을 보여줍니다.
대형 언어 모델 (LLMs)은 추론에서 높은 잠재력을 보여주었지만, 시기적, 정확성 및 매개 변수 지식의 범위로 인해 심각한 사실 상투를 겪고 있습니다. 한편, 추론을 검색 증강 생성 (RAG)과 통합하는 것은 작업 분해의 비효율성과 중복된 검색으로 인해 여전히 어려운 상황이며, 이는 노이즈를 도입하고 응답 품질을 저하시킬 수 있습니다. 본 논문에서는 DeepRAG라는 프레임워크를 제안합니다. 이 프레임워크는 검색 증강 추론을 마르코프 결정 과정 (MDP)으로 모델링하여 전략적이고 적응적인 검색을 가능하게 합니다. DeepRAG는 쿼리를 반복적으로 분해함으로써 각 단계에서 외부 지식을 검색할지 매개 변수 추론에 의존할지 동적으로 결정합니다. 실험 결과는 DeepRAG가 검색 효율성을 향상시키면서 정답 정확도를 21.99% 향상시킨다는 것을 보여주며, 검색 증강 추론을 최적화하는 데 효과적임을 입증합니다.
지능 지수 테스트는 인간의 인지 능력을 평가하는 데 기본적인 방법론으로 사용되어 왔으며, 언어적 배경, 언어 능력 또는 도메인 특정 지식과 분리하여 추상화와 추론의 핵심 역량을 분리하기 위해 고의적으로 작용합니다. 그러나 현재 인공 지능 연구는 다중 모달 시스템에서 이러한 핵심 인지 차원을 양적화하는 체계적인 기준이 부족합니다. 이 중요한 공백을 해결하기 위해 우리는 8가지 다른 추론 패러다임을 포괄하는 2,710개의 세심하게 선별된 테스트 항목으로 이루어진 MM-IQ라는 포괄적인 평가 프레임워크를 제안합니다. 주요 오픈 소스 및 프로프리테러리 다중 모달 모델의 체계적인 평가를 통해, 우리의 벤치마크는 놀라운 한계를 드러냅니다: 최첨단 아키텍처조차 무작위 기회(27.49% 대 25% 기준 정확도)에 비해 약간 우수한 성능만을 달성합니다. 이 상당한 성능 격차는 현재 다중 모달 시스템이 기본적인 인간 추론 능력을 근사하는 데 불충분하다는 점을 강조하며, 이 인지적 격차를 메우기 위한 패러다임 변화적인 발전의 필요성을 강조합니다.
인간 지능의 특징 중 하나는 구조화된 다단계 과정을 통해 복잡한 아티팩트를 창조하는 능력입니다. AI를 사용하여 절차적 튜토리얼을 생성하는 것은 오랜 역사가 있지만 도전적인 목표이며, 세 가지 주요 장애물에 직면하고 있습니다: (1) 다중 작업 절차 데이터셋의 부족, (2) 단계 간 논리적 연속성과 시각적 일관성의 유지, (3) 여러 도메인을 횡단적으로 일반화하는 것입니다. 이러한 도전에 대응하기 위해, 우리는 24,000개 이상의 절차적 시퀀스를 포함한 21가지 작업을 다루는 다중 도메인 데이터셋을 제안합니다. 이 기반 위에, 우리는 확산 트랜스포머(DIT)를 기반으로 한 MakeAnything 프레임워크를 소개합니다. 이 프레임워크는 DIT의 문맥 내 능력을 활성화하기 위해 파인튜닝을 활용하여 일관된 절차적 시퀀스를 생성합니다. 이미지 생성을 위해 비대칭 저랭크 적응(LoRA)을 소개하여 인코더 매개변수를 고정시키고 디코더 레이어를 적응적으로 조정함으로써 일반화 능력과 작업 특정 성능을 균형 있게 유지합니다. 또한 우리의 ReCraft 모델은 공간적 시간적 일관성 제약을 통해 이미지에서 과정 생성을 가능하게 하며, 정적 이미지를 타당한 창조 시퀀스로 분해할 수 있습니다. 방대한 실험 결과는 MakeAnything가 기존 방법을 능가하며, 절차적 생성 작업에 대한 새로운 성능 기준을 설정한다는 것을 보여줍니다.
대규모 언어 모델(LLM)의 논리 추론 능력과 복잡한 비단조 추론에서의 확장성을 조사합니다. 이를 위해, 우리는 LLM 추론 성능을 평가하기 위한 포괄적인 평가 프레임워크인 ZebraLogic을 소개합니다. 이 프레임워크는 제약 충족 문제(CSPs)에서 유도된 논리 그리드 퍼즐에 대한 LLM 추론 성능을 평가하기 위한 것입니다. ZebraLogic은 조절 가능하고 측정 가능한 복잡성으로 퍼즐을 생성하여 Llama, o1 모델 및 DeepSeek-R1과 같은 모델의 확장 한계를 체계적으로 연구하는 것을 용이하게 합니다. 다양한 논리 제약 조건과 넓은 범위의 탐색 공간 복잡성을 포괄함으로써, ZebraLogic은 증가하는 난이도 하에서 추론을 평가하기 위한 구조화된 환경을 제공합니다. 우리의 결과는 문제 복잡성이 증가함에 따라 정확도가 상당히 감소하는 것을 밝혀냅니다. 이 현상을 복잡성의 저주라고 명명합니다. 이 한계는 더 큰 모델과 증가된 추론 시간 계산으로도 지속되며, 현재 LLM 추론 능력의 내재적인 제약을 시사합니다. 또한, Best-of-N 샘플링, 백트래킹 메커니즘 및 자가 확인 프롬프트를 포함한 논리 추론을 향상시키는 전략을 탐구합니다. 우리의 연구 결과는 LLM 추론의 확장성에 대한 중요한 통찰력을 제공하며, 기본적인 한계를 강조하고 개선 방향을 개요화합니다.
대규모 언어 모델(LLM)은 장기 문맥 시퀀스를 처리하는 데 뛰어나지만, 문맥 정보를 저장하기 위해 상당한 키-값(KV) 캐시가 필요하여 계산 효율성과 메모리 사용량에 부담을 줄 수 있습니다. 이전 KV 캐시를 압축하는 노력은 주로 메모리 요구량을 줄이는 데 초점을 맞추었지만, 대기 시간을 개선하는 데 제한이 있었습니다. 이 문제를 해결하기 위해 우리는 FastKV를 소개합니다. FastKV는 장기 문맥 시퀀스의 대기 시간을 향상시키기 위해 설계된 KV 캐시 압축 방법입니다. 정확도를 유지하면서 처리 속도를 향상시키기 위해 FastKV는 LLM의 초기 레이어에서 전체 문맥 정보를 유지하고 깊은 레이어에서는 사전 채우기 단계에서도 이 정보의 일부만 선택적으로 전파하는 혁신적인 Token-Selective Propagation (TSP) 접근 방식을 채택합니다. 또한 FastKV는 그룹화된 쿼리 어텐션(GQA)을 고려한 KV 캐시 압축을 통해 GQA의 메모리 및 계산 효율성 장점을 활용합니다. 실험 결과는 FastKV가 HeadKV, 최첨단 KV 캐시 압축 방법과 비교하여 첫 번째 토큰까지의 시간(TTFT) 및 처리량에서 각각 2.00배 및 1.40배의 개선을 달성한다는 것을 보여줍니다. 또한 FastKV는 장기 문맥 벤치마크에서 기준선과 비교 가능한 수준의 정확도를 성공적으로 유지합니다. 코드는 https://github.com/dongwonjo/FastKV에서 확인할 수 있습니다.
대형 언어 모델 (LLM)의 신속한 발전과 대형 다중 모달 모델 (LMM)로 진화함에 따라, 영어와 중국어와 같은 고자원 언어에서 상당한 발전이 이루어졌습니다. 아라비아어 LLM은 주목할 만한 발전을 보았지만, 아라비아어 LMM은 대부분 미개척 상태로, 종종 언어와 시각 이해의 몇 가지 특정 측면에만 초점을 맞추고 있습니다. 이 간극을 메우기 위해 우리는 AIN을 소개합니다. AIN은 다양한 영역에서 뛰어난 성과를 내기 위해 설계된 아라비아 포괄적 다중 모달 모델로, 영어-아라비아어 이중 언어 LMM으로, 360만 개의 고품질 아라비아어-영어 다중 모달 데이터 샘플을 활용합니다. AIN은 최첨단 아라비아 성능을 보여주며, 강력한 영어 언어 시각 능력을 갖추고 있습니다. 최근 CAMEL-Bench 벤치마크에서는 다중 이미지 이해, 복잡한 시각 지각, 필기 문서 이해, 비디오 이해, 의료 영상, 식물 질병, 원격 감지 기반 토지 이용 이해를 포함한 38개 하위 도메인으로 구성된 벤치마크에서, AIN은 8개 도메인과 38개 하위 도메인을 평균한 3.4%의 절대적 이득으로 GPT-4o를 능가하는 7B 모델로 강력한 성능을 보여주었습니다. AIN의 우수한 능력은 다양한 응용 프로그램에서 아라비아어 사용자들에게 고급 다중 모달 생성 AI 도구를 제공하는 중요한 한 걸음으로 위치시킵니다.
OpenAI의 o1 및 o3 릴리스는 대규모 언어 모델에서 고급 추론 능력으로의 중대한 패러다임 변화를 나타냅니다. 특히 o3은 인공 일반 지능 (ARC-AGI)의 추상화 및 추론 말뭉치에서 혁신적인 문제 해결 및 기술 습득에서 인간을 능가했습니다. 그러나 이 벤치마크는 상징적 패턴에 한정되어 있으며, 반면 인간은 종종 시각 및 언어 데이터를 포함하는 다중 모달 시나리오에 대해 지각하고 추론합니다. 따라서, 다중 모달 작업에서 고급 추론 능력을 조사할 필요가 절박합니다. 이를 위해 우리는 GPT-[n] 및 o-[n] 시리즈 모델의 진화를 추적하며, 추상적이거나 알고리즘적 추론이 필요한 어려운 다중 모달 퍼즐에 대해 미세한 시각 지각을 요구합니다. o1의 우수한 성능은 GPT-4o의 거의 750배에 달하는 계산 비용으로 이루어졌으며, 효율성에 대한 우려가 제기되었습니다. 우리의 결과는 모델 반복별 추론 능력의 명확한 상승 추세를 보여주며, GPT-시리즈 모델과 이어지는 o1을 통해 주목할만한 성능 향상이 있었습니다. 그러나 o1 모델은 여전히 추상적 추론이 필요한 간단한 다중 모달 퍼즐에서 어려움을 겪는 것으로 나타났습니다. 더욱이, 알고리즘적 퍼즐에서의 성능은 여전히 나쁩니다. 우리는 계속해서 시리즈의 새로운 모델을 추적하고 본 논문에서 결과를 업데이트할 계획입니다. 이 평가에 사용된 모든 자원은 https://github.com/declare-lab/LLM-PuzzleTest에서 공개적으로 이용 가능합니다.
심층 언어 모델 (LLM)은 높은 능력을 갖고 있지만 편향된 또는 안전하지 않은 응답을 생성할 수 있으며, 이 문제를 완화하기 위한 RLHF와 같은 정렬 기술은 LLM을 재학습하여 오버피팅될 수 있으므로 비용이 많이 듭니다. 본 논문은 거의 확실하게 안전한 응답을 생성하도록 보장하는 새로운 추론 시간 정렬 접근 방식을 소개합니다. 이를 위해 추론 시간 응답의 안전 생성을 LLM의 잠재 공간 내에서 제약 조건이 있는 마르코프 의사 결정 과정으로 구성합니다. 중요한 점은 안전성 제약 조건의 진화를 추적하는 안전 상태를 보강하여 잠재 공간에서 MDP를 해결함으로써 공식적인 안전 보장을 증명할 수 있습니다. 이 기반 위에 InferenceGuard를 제안하여 모델 가중치를 수정하지 않고 LLM을 안전하게 정렬하는 실용적인 구현을 제시합니다. 경험적으로, InferenceGuard가 안전성과 작업 성능을 효과적으로 균형 있게 유지하며, 안전하고 정렬된 응답을 생성하는 기존 추론 시간 정렬 방법을 능가하는 것을 시연합니다.
기존의 선두 모델을 위한 기준은 종종 비전문가들이 이해하기 어려운 "박사 수준"의 전문 지식을 시험합니다. 대조적으로, 우리는 오직 일반 지식만 필요로 하는 NPR 일요일 퍼즐 챌린지를 기반으로 한 벤치마크를 제시합니다. 우리의 벤치마크는 인간과 모델 둘 다에게 도전적이지만, 정답은 쉽게 확인할 수 있으며 모델의 실수는 쉽게 발견할 수 있습니다. 우리의 연구는 기존의 벤치마크에서는 명백하지 않은 능력 차이를 드러냅니다: OpenAI o1은 전문 지식을 시험하는 벤치마크에서 동등한 수준의 다른 추론 모델들을 크게 앞섭니다. 게다가, 우리가 추론 결과를 분석하면 새로운 종류의 실패를 발견할 수 있습니다. 예를 들어, DeepSeek R1은 종종 "포기합니다"라고 인정하고 나중에 틀린 것을 알면서 답변을 제공하기도 합니다. R1은 출력에서 놀랍도록 "불확실"할 수도 있으며, 드물게는 "생각을 완료하지 않는" 경우도 있어서 문맥 창 한계에 도달하기 전에 "마무리"하기 위한 추론 시간 기술이 필요함을 시사합니다. 또한, R1과 Gemini Thinking을 사용하여 추론을 더 길게 하는 효과를 양적으로 분석하여, 우리의 벤치마크에서 정확도를 향상시키기 어려운 지점을 식별합니다.
우리는 Craftax-classic 벤치마크에서 새로운 최고 수준의 성능을 달성하는 모델 기반 강화 학습 접근 방식을 제시합니다. Craftax-classic은 요구되는 요소들이 다양한 일반적인 능력을 나타내는 에이전트들에게 필요한 오픈 월드 2D 서바이벌 게임으로, 강력한 일반화, 심층 탐색, 장기적 추론과 같은 능력을 요구합니다. 샘플 효율성을 향상시키기 위한 신중한 설계 선택들의 연속으로, 우리의 MBRL 알고리즘은 환경 단계 1백만 단계 후에 67.4%의 보상을 달성하여 DreamerV3의 53.2%를 크게 능가하며, 처음으로 65.0%의 인간 수준 성능을 초과합니다. 우리의 방법은 SOTA 모델 무관 기준선을 구축하는 것으로 시작하며, CNN과 RNN을 결합한 새로운 정책 아키텍처를 사용합니다. 그런 다음 표준 MBRL 설정에 세 가지 개선을 추가합니다: (a) "워마업이 포함된 Dyna", 실제 및 가상 데이터로 정책을 훈련하는 방법, (b) 이미지 패치에 대한 "최근 이웃 토크나이저"로, 트랜스포머 세계 모델 (TWM) 입력을 생성하는 방법을 개선하고, (c) "블록 티처 포싱", 다음 타임스텝의 미래 토큰에 대해 TWM이 공동으로 추론할 수 있도록 합니다.
Low-Rank Adaptation (LoRA) 및 해당 변형들은 대규모 transformer 네트워크의 학습 가능한 매개변수 및 메모리 요구 사항을 줄이면서 fine-tuning 성능을 유지하는 데 인상적인 결과를 보여주었습니다. 그러나 가중치 업데이트의 저랭크 특성은 fine-tuned 모델의 표현 능력을 본질적으로 제한하여 복잡한 작업에서 성능을 저하시킬 수 있습니다. 이는 중요한 질문을 던집니다: LoRA와 표준 fine-tuning 간의 성능 차이가 관측될 때, 학습 가능한 매개변수의 수가 감소한 것인지 랭크 결핍인지는 무엇인가요? 본 논문은 이 질문에 대답하기 위해 RandLoRA를 소개하여, 학습 가능하지 않은 낮은 랭크 무작위 행렬의 학습된 선형 조합을 사용하여 full-rank 업데이트를 수행하는 매개 효율적인 방법을 제시합니다. 우리의 방법은 최적화를 고정된 무작위 행렬에 적용된 대각 스케일링 행렬로 제한함으로써 학습 가능한 매개변수의 수를 효과적으로 제한합니다. 이를 통해 우리는 훈련 중에 낮은 랭크 제한을 극복하면서 매개변수 및 메모리 효율성을 유지할 수 있습니다. 시각, 언어 및 시각-언어 벤치마크를 통해 체계적으로 LoRA 및 기존의 무작위 기저 방법의 한계를 평가합니다. 우리의 연구 결과는 full-rank 업데이트가 시각 및 언어 작업에서 개별적으로 유익하며, 시각-언어 작업에서는 특히 표준 fine-tuning과 LoRA 간의 성능 차이를 크게 줄이는 - 때로는 제거하는 - 효과를 보여주어 그 효과를 입증합니다.
일관성 모델은 단일 단계 또는 여러 단계에서 고품질 샘플을 생성할 수 있는 새로운 생성 모델 패밀리입니다. 최근에는 일관성 모델이 픽셀 공간에서 확산 모델과 유사한 결과를 달성하며 인상적인 성능을 보여주었습니다. 그러나 텍스트에서 이미지 및 비디오 생성 작업에 대한 대규모 데이터셋에 대한 일관성 훈련의 성공은 잠재 공간에서의 성능에 따라 결정됩니다. 본 연구에서는 픽셀 공간과 잠재 공간 간의 통계적 차이를 분석하여, 잠재 데이터가 종종 매우 충동적인 이상값을 포함하고 있어 잠재 공간에서의 성능을 심각하게 저하시키는 것을 발견했습니다. 이를 해결하기 위해, 우리는 Pseudo-Huber 손실을 Cauchy 손실로 대체하여 이상값의 영향을 효과적으로 완화했습니다. 또한 초기 타임스텝에서 확산 손실을 도입하고 최적 운송(OT) 결합을 사용하여 성능을 더 향상시켰습니다. 마지막으로, 강건한 훈련 프로세스를 관리하기 위해 적응형 스케일링-c 스케줄러를 도입하고, 아키텍처에 비스케일링 레이어 정규화를 채택하여 특징의 통계를 더 잘 캡처하고 이상값의 영향을 줄였습니다. 이러한 전략을 통해, 우리는 1단계 또는 2단계에서 고품질 샘플링이 가능한 잠재 일관성 모델을 성공적으로 훈련시켰으며, 잠재 일관성과 확산 모델 간의 성능 차이를 크게 줄였습니다. 구현은 여기에서 공개되었습니다: https://github.com/quandao10/sLCT/
이전에 매개변수 수정 지식 편집에 대한 이전 연구에서는 대규모 순차 편집이 모델의 심각한 저하로 이어진다는 것을 보여주었습니다. 본 논문에서는 이에 대한 이유를 연구하고 순차적인 지식 편집을 10,000번까지 확장하면서 원래 모델의 하류 성능을 유지합니다. 먼저, 편집된 사실에 대한 지역화 후 편집 지식 편집 방법이 편집된 특정 사실에 대한 과적합을 유발한다는 것을 보여줍니다. 또한 이러한 방법을 사용한 연속적인 지식 편집이 편집된 행렬의 노름이 불균형하게 증가하게 됨을 보여줍니다. 그런 다음, 지역화 후 편집 방법의 내부 작동에 대한 중요한 통찰력을 제공합니다. 우리는 이러한 방법들이 사용하는 노름 증가가 편집된 레이어에서 생성된 출력 활성화에 더 큰 중요성을 부여하는 숨겨진 속임수임을 보여줍니다. 이 "중요성 해킹"을 통해, 편집된 레이어는 모델의 출력에 훨씬 더 큰 기여를 제공합니다. 이러한 문제를 완화하기 위해 우리는 ENCORE - 조기 중지 및 노름 제한 강건한 지식 편집을 제시합니다. ENCORE는 과적합 및 불균형한 노름 증가를 제어하여 하류 성능 손실 없이 장기적인 순차 편집을 가능하게 합니다. ENCORE는 Llama3-8B에서 MEMIT보다 61% 빠르고 AlphaEdit보다 64% 빠릅니다.
긴 형식 생성은 학술 논문 및 저장소 수준 코드 생성에 중요하다. 그럼에도 불구하고, 현재의 모델인 GPT-4o를 포함한 모델들은 아직도 만족스럽지 못한 성능을 보여준다. 결과 지도를 활용하는 기존 방법들은 종종 확장된 맥락에 대한 자세한 피드백을 제공하지 못하여 실패한다. 이 결함으로 인해 쿼리 요구 사항을 완전히 충족시키지 못하는 콘텐츠가 생성되어 길이의 편차나 품질 저하와 같은 문제가 발생할 수 있다. 본 논문에서는 과정 지도를 통해 긴 형식 생성을 향상시키는 것을 제안한다. 우리는 Monte Carlo Tree Search를 활용하여 절차적 선호 쌍을 수집하며, 일관성을 유지하기 위해 전역 메모리 풀을 활용한다. 최적이 아닌 후보 선택 문제를 해결하기 위해 외부 비평을 통합하여 선호 쌍의 품질을 개선한다. 마지막으로, 수집된 단계별 선호 쌍을 사용하여 단계별 DPO를 적용한다. 실험 결과는 우리의 방법이 긴 형식 생성 벤치마크에서 길이와 품질을 향상시키며, 다양한 모델 백본에 걸쳐 일반 벤치마크에서 거의 손실 없는 성능을 보여준다.
단위 테스트(Unit tests, UTs)는 코드의 정확성을 평가하고 동시에 대규모 언어 모델(LLM)에 피드백을 제공하여 결함이 있는 코드를 반복적으로 수정하는 데 중요한 역할을 합니다. 이는 자동화된 테스트 생성을 촉발합니다. 그러나, 우리는 결함이 있는 코드를 주면 오류를 드러내는 단위 테스트 입력을 생성하는 것과 골드 솔루션에 액세스하지 않고 단위 테스트 출력을 올바르게 예측하는 것 사이의 상충관계를 발견했습니다. 이 상충관계를 해결하기 위해 우리는 UTGen을 제안합니다. 이는 작업 설명과 후보 코드를 기반으로 오류를 드러내는 단위 테스트 입력과 그에 대한 올바른 예상 출력을 생성하는 방법을 LLM에 가르칩니다. 우리는 UTGen을 UTDebug에 통합하여 생성된 테스트를 사용하여 LLM이 효과적으로 디버깅하는 강력한 디버깅 파이프라인을 구축합니다. 모델이 생성한 테스트는 잘못된 출력으로부터 노이즈 신호를 제공할 수 있기 때문에, UTDebug은 (i) 테스트 시간 계산을 통해 UT 출력 예측을 개선하기 위해 UTGen을 확장하고, (ii) 오버피팅을 피하기 위해 생성된 여러 UT에 기반한 편집을 확인하고 되추적합니다. 우리는 UTGen이 오류를 드러내는 UT 입력과 올바른 UT 출력의 양존재를 측정하는 메트릭을 기반으로 UT 생성 기준선을 7.59% 능가한다는 것을 보여줍니다. UTDebug와 함께 사용할 때, UTGen의 단위 테스트로부터의 피드백은 HumanEvalFix의 Qwen-2.5 7B의 pass@1 정확도를 다른 LLM 기반 UT 생성 기준선 대비 3% 이상 및 MBPP+의 더 어려운 디버깅 분할에 대해 각각 12.35% 이상 향상시킵니다.
언어 모델(Language Models, LMs)은 사용자가 실수를 감지하고 필요할 때는 인간 전문가에게 양도할 수 있도록 신뢰할 수 있는 신뢰도 추정을 제공해야 합니다. 언어 모델에게 자신의 신뢰도를 평가하도록 요청하는 것("0부터 1까지의 신뢰도를 점수로 매겨주세요.")은 그 불확실성을 평가하는 자연스러운 방법입니다. 그러나 모델은 절대적인 신뢰도 평가(즉, 다른 질문들과 독립적으로 질문에 대한 신뢰를 판단하는 것)를 제공하는 데 어려움을 겪으며, 그들이 생성하는 굵은 점수는 답변의 정확성을 평가하는 데 유용하지 않습니다. 저희는 상대적인 신뢰도 추정을 제안합니다. 여기서 우리는 서로 질문을 대결시키고 모델에게 상대적인 신뢰도 판단을 내리도록 요청합니다("어떤 질문에 대해 정확하게 대답하는 데 더 자신이 있습니까?"). 각 질문을 다른 질문들과 대결시키는 "선수"로 취급하고 모델의 선호도를 경기 결과로 삼아 Elo 등급 및 Bradley-Terry와 같은 순위 집계 방법을 사용하여 모델의 신뢰도 선호를 신뢰도 점수로 변환할 수 있습니다. 저희는 상대적인 신뢰도 추정을 절대적인 신뢰도 추정 및 자기 일관성 신뢰 방법과 비교하여 다섯 가지 최첨단 언어 모델인 GPT-4, GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet, 그리고 Llama 3.1 405B에서 14가지 어려운 STEM, 사회과학, 그리고 상식적 추론 질문 응답 작업에 대해 평가합니다. 결과는 상대적인 신뢰도 추정이 절대적인 신뢰도 추정 방법보다 신뢰할 만한 신뢰도 점수를 일관되게 제공하며, 모든 모델과 데이터셋에서 직접적인 절대적인 신뢰도 추정 방법보다 선택적 분류 AUC에서 3.5%의 평균 향상 및 자기 일관성 접근 방식보다 1.7%의 평균 향상을 보여줍니다.
복막후공간에는 희귀한 양성 및 악성 종을 포함한 다양한 종양이 있으며, 이 종양들은 그 빈도와 주요 구조물에 인접해 있어 진단 및 치료에 어려움을 겪습니다. 종양 부피를 추정하기는 불규칙한 형태 때문에 어렵고, 수동 분할은 시간이 많이 소요됩니다. U-Net 및 그 변형을 사용한 자동 분할은 Vision Transformer (ViT) 요소를 통합하여 유망한 결과를 보여주었지만 높은 계산 요구에 어려움을 겪습니다. 이를 해결하기 위해 Mamba State Space Model (SSM) 및 Extended Long-Short Term Memory (xLSTM)와 같은 아키텍처는 낮은 자원 소비로 장거리 종속성을 처리하여 효율적인 해결책을 제공합니다. 본 연구에서는 CNN, ViT, Mamba 및 xLSTM을 포함한 U-Net 개선 사항을 새로운 내부 CT 데이터셋과 공개 기관 분할 데이터셋에서 평가합니다. 제안된 ViLU-Net 모델은 개선된 분할을 위해 Vi-blocks를 통합합니다. 결과는 U-Net 구조에서 xLSTM의 효율성을 강조합니다. 코드는 GitHub에서 공개적으로 접근할 수 있습니다.
병리학 기반 모델(FMs)은 의료 분야에서 큰 잠재력을 가지고 있습니다. 임상 실무에서 사용되기 전에 의료 센터 간의 변이에 견고한지 확인하는 것이 중요합니다. 우리는 병리학 FMs가 조직 및 암 종류와 같은 생물학적 특징에 중점을 둘지, 아니면 염색 과정과 기타 차이로 인해 도입된 잘 알려진 혼란스러운 의료 센터 서명에 중점을 둘지를 측정합니다. 우리는 견고성 지수를 소개합니다. 이 혁신적인 견고성 측정 항목은 생물학적 특징이 혼란스러운 특징을 얼마나 지배하는지를 반영합니다. 현재 공개된 10가지 병리학 기반 모델을 평가합니다. 우리는 모든 현재의 병리학 기반 모델이 의료 센터를 강하게 대표한다는 것을 발견했습니다. 견고성 지수에서 상당한 차이가 관찰되었습니다. 지금까지 하나의 모델만 견고성 지수가 1보다 크며, 이는 생물학적 특징이 혼란스러운 특징을 약간 우세하게 한다는 것을 의미합니다. 의료 센터 간의 차이가 FM 기반 예측 성능에 미치는 영향을 측정하는 양적 접근 방법이 설명됩니다. 우리는 비견고성이 하류 모델의 분류 성능에 미치는 영향을 분석하고, 암 종류 분류 오류가 무작위가 아니라 동일 의료 센터의 다른 클래스 이미지로 구분되는 것을 발견했습니다. 우리는 FM 임베딩 공간을 시각화하고, 이들이 생물학적 요소보다 의료 센터에 의해 더 강력하게 구성되어 있는 것을 발견했습니다. 그 결과로, 출처 의료 센터가 조직 출처 및 암 종류보다 더 정확하게 예측됩니다. 여기 소개된 견고성 지수는 견고하고 신뢰할 수 있는 병리학 FMs의 임상 채택으로 나아가는 진전을 위해 제공됩니다.