번역이 포함된 일일 선별된 AI 연구 논문
Transformer는 관련 없는 맥락에 지나치게 많은 주의를 기울이는 경향이 있습니다. 본 연구에서는 관련 있는 맥락에 주의를 집중하고 노이즈를 제거하는 Diff Transformer를 소개합니다. 구체적으로, 차별적 주의 메커니즘은 두 개의 별도의 소프트맥스 주의 맵 간의 차이로 주의 점수를 계산합니다. 뺄셈은 노이즈를 제거하고 희소한 주의 패턴의 발생을 촉진합니다. 언어 모델링에 대한 실험 결과는 Diff Transformer가 모델 크기 확장 및 훈련 토큰 설정의 다양한 상황에서 Transformer를 능가한다는 것을 보여줍니다. 더 흥미로운 점은 Diff Transformer가 긴 맥락 모델링, 주요 정보 검색, 환각 완화, 맥락 내 학습 및 활성화 이상값 감소와 같은 실용적 응용 분야에서 주목할만한 장점을 제공한다는 것입니다. 관련 없는 맥락에 쉽게 산만해지지 않아 질문 응답 및 텍스트 요약에서 환각을 완화할 수 있습니다. 맥락 내 학습의 경우, Diff Transformer는 정확도를 향상시키는데 그치지 않고, 순서 순열에 대해 더 견고하며 만성적인 견고성 문제로 여겨졌던 것입니다. 이러한 결과들은 Diff Transformer를 대규모 언어 모델을 발전시키는 데 매우 효과적이고 유망한 아키텍처로 위치시킵니다.
본 논문은 대규모 언어 모델(Large Language Models, LLMs)의 수학 추론 능력을 향상시키기 위한 고급 수학 문제 해결 프레임워크인 LLaMA-Berry를 제안합니다. 이 프레임워크는 몬테카를로 트리 탐색(Monte Carlo Tree Search, MCTS)를 반복적인 Self-Refine과 결합하여 추론 경로를 최적화하고, 서로 다른 경로를 전역적으로 평가하기 위해 쌍으로 보상 모델을 활용합니다. LLM의 자가 비평과 재작성 능력을 활용하여 MCTS에 적용된 Self-Refine(SR-MCTS)는 솔루션 공간을 더 효율적으로 탐색함으로써 기존의 단계별 및 탐욕 알고리즘의 비효율성과 한계를 극복합니다. 인간 피드백으로부터 강화 학습을 영감받은 쌍별 선호 보상 모델(PPRM)은 솔루션 간 쌍별 선호도를 모델링하고, 이러한 선호도를 전역 순위 점수로 합성하기 위해 향상된 보르다 카운트(EBC) 방법을 활용하여 더 나은 답변을 찾습니다. 이 접근 방식은 수학 추론 작업에서의 점수 변동성과 비독립적 분포의 문제에 대응합니다. 본 프레임워크는 일반 및 고급 벤치마크에서 테스트되었으며, GPQA, AIME24 및 AMC23을 포함한 복잡한 올림피아드 수준 벤치마크에서 기존 방법인 ToT와 rStar와 비교하여 탐색 효율성 및 문제 해결 능력 측면에서 우수한 성능을 보여주었습니다.
대형 언어 모델(Large language models, LLMs)은 종종 사실적 부정확성, 편향, 그리고 추론 실패를 포함한 오류를 생성하는데, 이를 "환각"이라고 일반적으로 지칭한다. 최근 연구들은 LLMs의 내부 상태가 출력의 진실성에 관한 정보를 인코딩하고, 이 정보가 오류를 감지하는 데 활용될 수 있다는 것을 입증했다. 본 연구에서는 LLMs의 내부 표현이 이전에 인식된 것보다 훨씬 더 많은 진실성 정보를 인코딩한다는 것을 보여준다. 우리는 먼저 진실성 정보가 특정 토큰에 집중되어 있음을 발견하고, 이 특성을 활용하여 오류 감지 성능을 크게 향상시킨다. 그러나 이러한 오류 탐지기가 데이터셋을 통해 일반화하지 못하는 것을 보여주며, 이는 이전 주장과는 달리 진실성 인코딩이 보편적이 아닌 다면껏인 것을 시사한다. 그 다음, 내부 표현이 모델이 만들 가능성이 있는 오류 유형을 예측하는 데 사용될 수 있음을 보여주며, 맞춤형 완화 전략 개발을 용이하게 한다. 마지막으로, LLMs의 내부 인코딩과 외부 행동 간의 불일치를 드러내는데, 이는 정답을 인코딩하지만 일관되게 잘못된 답변을 생성할 수 있다는 것을 의미한다. 이러한 통찰력을 종합함으로써, 이러한 모델의 내부 관점에서 LLM 오류에 대한 우리의 이해를 깊게 하고, 향후 오류 분석과 완화에 대한 연구를 이끌어낼 수 있다.
텍스트-이미지 (T2I) 확산 모델은 시각적 콘텐츠 생성을 혁신적으로 바꿨지만, 이러한 능력을 텍스트-비디오 (T2V) 생성으로 확장하는 것은 여전히 도전이며, 특히 시간적 일관성을 유지하는 것이 어렵습니다. 일관성을 향상시키려는 기존 방법들은 종종 이미징 품질 감소나 비실용적인 계산 시간과 같은 트레이드오프를 유발합니다. 이러한 문제를 해결하기 위해 우리는 VideoGuide를 소개합니다. 이는 사전 훈련된 T2V 모델의 시간적 일관성을 향상시키는 혁신적인 프레임워크로, 추가 훈련이나 세밀한 조정이 필요하지 않습니다. 대신, VideoGuide는 추론 초기 단계에서 사전 훈련된 비디오 확산 모델(VDM)이나 자체를 가이드로 활용하여, 가이드 모델의 노이즈 제거된 샘플을 샘플링 모델의 노이즈 제거 과정에 보간함으로써 시간적 품질을 향상시킵니다. 제안된 방법은 시간적 일관성과 이미지 충실도를 현저히 향상시켜 다양한 비디오 확산 모델의 강점을 시너지적으로 결합하는 비용 효율적이고 실용적인 솔루션을 제공합니다. 더불어, 우리는 사전 증류를 시연하여, 제안된 방법을 통해 가이드 모델의 우수한 데이터 사전을 활용함으로써 기본 모델이 향상된 텍스트 일관성을 달성할 수 있음을 입증합니다. 프로젝트 페이지: http://videoguide2025.github.io/
신경망이 이룬 놀라운 성공에도 불구하고, 특히 MLP와 Transformer로 표현되는 신경망들은 주기성의 모델링과 추론에서 잠재적인 결함을 보여주며, 주기적 데이터를 단순히 기억하는 대신 주기성의 기본 원리를 실제로 이해하지 못하는 경향이 있다는 것을 밝혀냅니다. 그러나 주기성은 자연 및 공학 시스템 전반에 걸쳐 예측 가능성을 뒷받침하는 다양한 형태의 추론과 일반화에 있어서 중요한 특성입니다. 본 논문에서는 푸리에 분석을 기반으로 한 새로운 네트워크 구조인 FAN을 제안합니다. 이를 통해 주기적 현상에 대해 효율적으로 모델링하고 추론할 수 있는 능력을 부여합니다. 푸리에 급수를 도입함으로써 주기성이 신경망의 구조와 계산 과정에 자연스럽게 통합되어 주기적 패턴의 더 정확한 표현과 예측을 이룰 수 있습니다. MLP의 유망한 대안으로, FAN은 더 적은 매개변수와 FLOP을 가진 다양한 모델에서 MLP를 원활하게 대체할 수 있습니다. 다양한 실험을 통해, FAN이 주기 함수에 대한 모델링과 추론에서의 효과적임을 입증하고, 상징적 공식 표현, 시계열 예측, 언어 모델링을 포함한 다양한 실제 과제 범위에서 FAN의 우수성과 일반화 능력을 보여줍니다.
최근 대형 언어 모델(Large Language Models, LLMs)의 발전은 그들의 형식적 추론 능력에 대한 수학적 관심을 불러일으켰다. GSM8K 벤치마크는 초등학교 수준 문제에 대한 모델의 수학적 추론 능력을 평가하는 데 널리 사용된다. LLMs의 GSM8K 성능은 최근 몇 년 동안 크게 향상되었지만, 그들의 수학적 추론 능력이 실제로 발전했는지 여전히 불분명하며, 보고된 지표의 신뢰성에 대한 의문이 제기된다. 이러한 우려를 해소하기 위해 우리는 여러 최첨단 오픈 및 폐쇄 모델에 대한 대규모 연구를 실시한다. 기존 평가의 한계를 극복하기 위해 우리는 심볼 템플릿에서 생성되는 다양한 질문 세트를 가능하게 하는 개선된 벤치마크인 GSM-Symbolic을 소개한다. GSM-Symbolic은 더 많은 통제 가능한 평가를 가능하게 하며, 모델의 추론 능력을 측정하기 위한 핵심 통찰과 더 신뢰할 수 있는 지표를 제공한다. 우리의 연구 결과는 LLMs가 동일한 질문의 다른 구체화에 대해 응답할 때 주목할 만한 변동성을 나타내는 것을 보여준다. 특히, GSM-Symbolic 벤치마크에서 질문의 숫자 값만 변경되었을 때 모든 모델의 성능이 저하된다. 더 나아가, 우리는 이러한 모델들의 수학적 추론의 취약성을 조사하고, 질문의 절의 수가 증가함에 따라 그들의 성능이 크게 악화되는 것을 보여준다. 우리는 현재 LLMs가 진정한 논리적 추론을 수행할 수 없기 때문에 이 하락이 발생한다고 가설을 세운다; 그들은 훈련 데이터에서 추론 단계를 복제한다. 질문에 관련이 있는 것으로 보이는 단일 절을 추가하면 최첨단 모델 전체에서 상당한 성능 하락(최대 65%)이 발생한다. 비록 그 절이 최종 답변에 필요한 추론 체인에 기여하지 않더라도 말이다. 전반적으로, 우리의 연구는 LLMs의 수학적 추론 능력과 한계에 대한 더 세밀한 이해를 제공한다.
언어 모델의 발전은 과학적 발견을 자동화하기 위해 언어 모델 기반 언어 에이전트를 개발하는 데 커다란 관심을 불러일으켰으며, 이는 그러한 에이전트의 실제 능력에 대한 흥분과 회의를 동시에 촉발했습니다. 본 연구에서는 과학적 발견을 완전히 자동화하기 위해서는 에이전트가 워크플로우의 모든 중요한 작업을 완료할 수 있어야 한다고 주장합니다. 따라서 우리는 단계별 과학적 워크플로우에서 에이전트를 엄격하게 평가하고, 최종적으로 완전한 자동화에 대한 대담한 주장을 하기 전에 각 작업에서 에이전트를 철저히 검토해야 한다고 주장합니다. 이를 위해 데이터 기반 과학적 발견을 위한 언어 에이전트를 평가하기 위한 새로운 벤치마크인 ScienceAgentBench를 제시합니다. 우리의 벤치마크의 과학적 신뢰성과 현실 성을 보장하기 위해 우리는 네 가지 학문 분야에서 44편의 피어 리뷰 논문으로부터 102가지 작업을 추출하고, 아홉 명의 전문가들을 참여시켜 이를 검증합니다. 우리는 각 작업의 목표 출력을 독립적인 Python 프로그램 파일로 통합하고, 생성된 프로그램, 실행 결과 및 비용을 검토하기 위해 다양한 평가 지표를 활용합니다. 각 작업은 주석 작업자와 전문가들에 의해 주석 품질과 과학적 타당성을 보장하기 위해 여러 차례의 수동 검증을 거칩니다. 또한 데이터 오염 우려를 완화하기 위한 두 가지 효과적인 전략을 제안합니다. 우리의 벤치마크를 사용하여 다섯 개의 오픈 웨이트 및 프로프리터리한 언어 모델들을 평가하며, 각각에 대해 세 가지 프레임워크인 직접 프롬프팅, OpenHands 및 자체 디버깅을 사용합니다. 각 작업에 대해 세 번의 시도가 주어졌을 때, 최고 성능을 발휘하는 에이전트는 작업의 32.4%만 독립적으로 해결할 수 있으며, 전문가 지식을 활용하면 34.3%를 해결할 수 있습니다. 이러한 결과는 현재의 언어 에이전트들이 데이터 기반 발견을 위한 코드를 생성하는 능력이 제한되어 있을 뿐만 아니라, 과학 연구를 위한 완전한 자동화에 대해서도 한계가 있다는 점을 강조합니다.
다중 모달 대형 언어 모델(MLLMs)은 그래픽 사용자 인터페이스(GUI) 에이전트의 능력을 변화시키며, 제어된 시뮬레이션에서 복잡한 실제 응용 프로그램으로의 전환을 가능케 합니다. 그러나 이러한 에이전트의 효과성은 그들의 기초 능력의 견고성에 달려 있습니다. 현재 GUI 에이전트는 주로 HTML이나 접근성 트리와 같은 텍스트 기반 표현을 활용하며, 이는 그들의 유용성에도 불구하고 종종 잡음, 불완전성 및 증가된 계산 오버헤드를 도입합니다. 본 논문에서는 GUI 에이전트에 대한 인간과 유사한 구현을 제안하며, 환경을 완전히 시각적으로 인식하고 GUI에 대한 픽셀 수준의 작업을 직접 수행하는 것입니다. 핵심은 시각적 기초 모델로, 다양한 GUI 요소의 지칭 표현을 다양한 플랫폼에서 GUI 상의 좌표로 정확하게 매핑할 수 있는 것입니다. 웹 기반 합성 데이터와 LLaVA 아키텍처의 약간의 적응을 포함하는 간단한 레시피가 이러한 시각적 기초 모델을 훈련하는 데 놀라울 정도로 효과적임을 보여줍니다. 우리는 지금까지 GUI 시각적 기초에 대한 가장 큰 데이터셋을 수집했으며, 1.3백만 개의 스크린샷에서 1000만 개의 GUI 요소와 그들의 지칭 표현을 포함하고 있으며, GUI 에이전트를 위한 강력한 범용 시각적 기초 모델인 UGround를 훈련하는 데 사용합니다. 세 가지 범주(기초, 오프라인 에이전트 및 온라인 에이전트)에 걸쳐 있는 여섯 가지 벤치마크에서의 경험적 결과는 다음과 같습니다: 1) UGround는 GUI 에이전트를 위한 기존 시각적 기초 모델을 20%까지 절대적으로 능가하며, 2) 기존 에이전트가 추가적인 텍스트 기반 입력을 사용하는 반면 우리는 시각적 지각만 사용함에도 불구하고 UGround를 사용하는 에이전트가 최첨단 에이전트를 능가합니다. 이러한 결과는 인간처럼 디지털 세계를 탐색하는 GUI 에이전트의 실행 가능성과 약속을 강력하게 지지합니다.
UniMuMo를 소개합니다. UniMuMo는 임의의 텍스트, 음악 및 동작 데이터를 입력 조건으로 사용하여 세 가지 모드 간에 출력을 생성할 수 있는 통합된 다중 모달 모델입니다. 시간 동기화된 데이터 부족 문제를 해결하기 위해, 우리는 리듬 패턴을 기반으로 비쌍의 음악 및 동작 데이터를 정렬하여 기존 대규모 음악 전용 및 동작 전용 데이터셋을 활용합니다. 음악, 동작 및 텍스트를 토큰 기반 표현으로 변환함으로써, 우리 모델은 통합된 인코더-디코더 트랜스포머 아키텍처를 통해 이러한 모드 간의 간극을 줄입니다. 단일 프레임워크 내에서 여러 생성 작업을 지원하기 위해 여러 구조적 개선을 도입합니다. 우리는 동작을 음악 코드북으로 인코딩하고, 동작을 음악과 동일한 특징 공간으로 매핑하는 것을 제안합니다. 우리는 음악-동작 병렬 생성 체계를 도입하여 모든 음악 및 동작 생성 작업을 음악-동작 합성 생성의 단일 트랜스포머 디코더 아키텍처로 통합합니다. 또한, 모델은 기존 사전 훈련된 단일 모드 모델을 세밀하게 조정하여 계산 요구를 크게 줄였습니다. 광범위한 실험 결과에서 UniMuMo가 음악, 동작 및 텍스트 모드에서 모두 경쟁력 있는 결과를 달성했음을 입증했습니다. 양적 결과는 {프로젝트 페이지}에서 확인할 수 있습니다.
동적 장면에서 기하학을 추정하는 것은 컴퓨터 비전에서 핵심적인 도전 과제로 남아 있습니다. 현재의 접근 방식은 종종 다단계 파이프라인이나 문제를 깊이와 흐름과 같은 하위 작업으로 분해하는 전역 최적화에 의존하여 복잡한 시스템을 만들어내는 경향이 있습니다. 본 논문에서는 동적 장면으로부터 단계별 기하학을 직접 추정하는 혁신적인 geometry-first 접근 방식인 Motion DUSt3R (MonST3R)을 제안합니다. 우리의 주요 통찰은 각 단계에 대한 포인트맵을 간단히 추정함으로써, 이전에 정적 장면에만 사용되었던 DUST3R의 표현을 동적 장면에 효과적으로 적응시킬 수 있다는 것입니다. 그러나 이 접근 방식은 적절한 훈련 데이터, 즉 깊이 레이블이 있는 동적인 포즈 비디오의 부족이라는 중요한 도전 과제를 제시합니다. 이에도 불구하고, 우리는 문제를 세밀한 조정 작업으로 설정하고, 여러 적합한 데이터셋을 식별하고, 이 제한된 데이터에 모델을 전략적으로 훈련시킴으로써, 모델이 명시적인 동작 표현 없이도 놀랍도록 동역학을 처리할 수 있도록 할 수 있다는 것을 보여줍니다. 이를 기반으로, 우리는 여러 하류 비디오 특정 작업에 대한 새로운 최적화를 소개하고, 비디오 깊이 및 카메라 위치 추정에서 강력한 성능을 보여주어 이전 연구를 능가하는 강건성과 효율성을 나타냅니다. 게다가, MonST3R은 주로 피드포워드 4D 재구성에 대해 유망한 결과를 보여줍니다.
확산 기반 텍스트-음악 (TTM) 방법의 발전에도 불구하고, 효율적이고 고품질의 생성은 여전히 어려운 과제입니다. 본 연구에서는 스텝 수와 스텝 당 비용을 감소시킴으로써 스코어 기반 확산 트랜스포머의 추론 가속화를 위한 프레스토!(Presto!)를 소개합니다. 스텝을 줄이기 위해, EDM 계열의 확산 모델을 위한 새로운 스코어 기반 분포 매칭 디스틸레이션 (DMD) 방법을 개발하였으며, 이는 TTM을 위한 최초의 GAN 기반 디스틸레이션 방법입니다. 스텝 당 비용을 줄이기 위해, 최근 레이어 디스틸레이션 방법에 간단하지만 강력한 개선을 도입하여, 숨겨진 상태 분산을 더 잘 보존함으로써 학습을 개선하였습니다. 마지막으로, 스텝 및 레이어 디스틸레이션 방법을 결합하여 이중적인 접근법을 제시합니다. 우리는 스텝 및 레이어 디스틸레이션 방법을 각각 독립적으로 평가하고, 각각이 최고 수준의 성능을 발휘함을 보여줍니다. 저희의 결합된 디스틸레이션 방법은 향상된 다양성을 갖는 고품질 출력물을 생성할 수 있으며, 베이스 모델을 10-18배 가속화할 수 있습니다 (32초 단일/스테레오 44.1kHz에 대해 230/435ms의 지연 시간, 비교 가능한 SOTA보다 15배 빠름) -- 저희가 알기로는 가장 빠른 고품질 TTM입니다. 소리 예시는 https://presto-music.github.io/web/에서 확인할 수 있습니다.
이 기술 보고서는 의료 분야의 언어 모델을 평가하기 위한 Named Clinical Entity Recognition Benchmark를 소개하며, 임상 내러티브에서 구조화된 정보를 추출하는 중요한 자연어 처리(NLP) 작업에 대응하여 자동 코딩, 임상 시험 집단 식별 및 임상 의사 결정 지원과 같은 응용 프로그램을 지원합니다. 리더보드는 인코더 및 디코더 아키텍처를 포함한 다양한 언어 모델의 임상 엔티티를 식별하고 분류하는 능력을 평가하기 위한 표준화된 플랫폼을 제공합니다. 공개적으로 이용 가능한 임상 데이터셋의 선별된 컬렉션을 활용하여, 질병, 증상, 약물, 수술 및 검사 측정치와 같은 엔티티를 포함하며, 이러한 엔티티들은 Observational Medical Outcomes Partnership (OMOP) 공통 데이터 모델에 따라 표준화되어 다양한 의료 시스템 및 데이터셋 간의 일관성과 상호 운용성을 보장하고 모델 성능의 포괄적인 평가를 제공합니다. 모델의 성능은 주로 F1 점수를 사용하여 평가되며, 모델 성능에 대한 포괄적인 통찰력을 제공하기 위해 다양한 평가 모드로 보완됩니다. 보고서에는 현재까지 평가된 모델의 간단한 분석도 포함되어 있어 관찰된 트렌드와 한계를 강조합니다. 이 벤치마킹 프레임워크를 수립함으로써, 리더보드는 의료 NLP에서 견고한 평가 방법의 필요성을 다루며, 투명성을 촉진하고 비교 분석을 용이하게 하며 임상 엔티티 인식 작업에서 혁신을 촉진하기 위한 목적을 가지고 있습니다.
보상 모델은 다중 모달 대규모 언어 모델의 성능을 향상시키는 데 성공했지만, 보상 모델 자체는 여전히 잔인하며 최소한의 정보만을 포함하고 있습니다. 특히 기존의 보상 모델은 어떤 텍스트에 대해 길이에 관계없이 하나의 이진 피드백만 할당하여 인간 주석을 모방합니다. 이미지와 텍스트를 모두 처리해야 하는 다중 모달 언어 모델의 영역에서는, 순진한 보상 모델은 텍스트에 대한 암시적 편향을 학습하고 이미지에 대한 기반을 잃을 수 있습니다. 본 논문에서는 각 텍스트 토큰에 세밀한 주석을 제공하기 위한 토큰-수준 탐지 보상 모델(TLDR)을 제안합니다. 우리는 먼저 합성 어려운 부정적 사례를 생성하고 이들의 토큰-수준 레이블을 훈련시키기 위한 변형 기반 방법을 소개합니다. 그런 다음 TLDR 모델이 오프-더-셀프 모델이 생성을 자체 수정하는 데 도움을 주고 환각 평가 도구로 작용하는 풍부한 유용성을 보여줍니다. 마지막으로, TLDR 모델이 고품질 비전 언어 데이터의 보다 넓은 범위를 확보하기 위해 인간 주석을 3배로 빠르게 할 수 있다는 것을 보여줍니다.
최근 대형 언어 모델(LLMs)은 긴 맥락 상황에서 다재다능한 능력을 보여주었습니다. 최근 일부 벤치마크는 LLMs의 긴 맥락 능력을 평가하기 위해 개발되었지만, LLMs의 수학적 추론 능력을 긴 맥락에서 평가하는 벤치마크가 부족합니다. 이는 LLMs의 실제 시나리오 적용에 중요합니다. 본 논문에서는 LLMs의 긴 맥락 수학적 추론 능력을 평가하기 위해 고안된 자동화된 벤치마크인 MathHay를 소개합니다. 이전의 Needle in a Haystack과 같은 벤치마크와 달리, MathHay는 주로 긴 텍스트 내 정보 검색에 초점을 맞추는 것이 아니라 정보 탐색과 복잡한 수학적 추론 능력을 모두 요구합니다. 우리는 MathHay에서 여덟 개의 성능이 우수한 LLMs의 긴 맥락 수학적 추론 능력을 평가하기 위해 광범위한 실험을 실시했습니다. 심지어 최고 성능을 보이는 모델인 Gemini-1.5-Pro-002도 여전히 긴 맥락에서의 수학적 추론에 어려움을 겪어, 128K 토큰에서 51.26%의 정확도만 달성했습니다. 이는 MathHay 벤치마크에서 개선할 여지가 많다는 점을 강조합니다.
대형 언어 모델(LLMs)의 적용이 확대됨에 따라 신뢰할 수 있는 평가 수요가 증가하고 있습니다. 기존 LLM 평가 벤치마크는 주로 정적 데이터셋에 의존하므로 모델의 성능을 동적 상호작용에서 평가하는 것이 어려워지고 있습니다. 또한 이러한 벤치마크는 종종 특정 배경 지식에 의존하여 모델의 논리 추론 능력을 측정하는 것을 복잡하게 만듭니다. 강력한 모델이나 수동 노력에 기반한 다른 동적 평가 방법은 편향을 도입하고 높은 비용과 시간을 요구하여 대규모 응용을 방해할 수 있습니다. 이러한 문제를 해결하기 위해 TurtleBench를 제안합니다. TurtleBench는 저희가 개발한 온라인 Turtle Soup Puzzle 플랫폼에서 실제 사용자 추측을 수집합니다. 이 접근 방식은 비교적 동적으로 평가 데이터셋을 생성하여 모델 부정행위의 위험을 줄이고, 추론 능력에 대한 정확한 사용자 요구와 더 일치하도록 평가를 강화합니다. TurtleBench에는 1,532개의 사용자 추측과 주석 작업 후의 정확성이 포함되어 있습니다. 이 데이터셋을 사용하여 오늘날 가장 고급 LLM 중 9개를 철저히 평가했습니다. 특히, OpenAI o1 시리즈 모델은 이러한 평가에서 선도적인 결과를 달성하지 못했습니다. "o1의 잠재적 추론이 사소한 Chain-of-Thought (CoT) 기술을 활용"과 "CoT 길이를 증가시키면 추론 이점 뿐만 아니라 노이즈 비용도 발생한다"는 추가 연구를 위한 몇 가지 가설을 제안합니다.
우리는 OmniBooth를 제시합니다. 이는 공간 제어를 가능하게 하는 이미지 생성 프레임워크로, 인스턴스 수준의 다중 모달 사용자 정의를 허용합니다. 모든 인스턴스에 대해 다중 모달 지시는 텍스트 프롬프트나 이미지 참조를 통해 설명될 수 있습니다. 사용자가 정의한 마스크 세트와 관련된 텍스트 또는 이미지 안내가 주어지면, 우리의 목표는 여러 객체가 지정된 좌표에 배치되고 그 속성이 해당 안내와 정확하게 일치하는 이미지를 생성하는 것입니다. 이 접근 방식은 텍스트에서 이미지로의 생성 범위를 크게 확장시키며, 제어 가능성 측면에서 더 다양하고 실용적인 차원으로 높입니다. 본 논문에서 우리의 핵심 기여는 제안된 잠재 제어 신호에 있습니다. 이는 공간, 텍스트 및 이미지 조건을 매끄럽게 통합하는 통합 표현을 제공하는 고차원 공간 기능입니다. 텍스트 조건은 ControlNet을 확장하여 인스턴스 수준의 오픈 어휘 생성을 제공합니다. 이미지 조건은 개인화된 신원을 가진 세밀한 제어를 더 활성화합니다. 실제로 우리의 방법은 사용자가 필요에 따라 텍스트 또는 이미지에서 다중 모달 조건을 선택할 수 있도록 하여 제어 가능한 생성에서 사용자에게 더 많은 유연성을 부여합니다. 더 나아가, 철저한 실험을 통해 우리의 이미지 합성의 충실도와 다양한 작업 및 데이터셋 간의 정렬에서 향상된 성능을 입증합니다. 프로젝트 페이지: https://len-li.github.io/omnibooth-web/
모델 병합은 여러 전문가 모델을 더 강력한 단일 모델로 결합하여 저장 및 서비스 비용을 줄이고 개선된 일반화 및 분산 모델 개발 지원과 같은 이점을 제공하는 것을 목표로 합니다. 그러나 이러한 유망성에도 불구하고, 이전 연구들은 주로 소규모 모델을 병합하는 데 초점을 맞추었습니다. 이로 인해 모델 크기의 확장이 모델 크기 조정과 다른 주요 요인들 -- 기본 모델 품질 및 전문가 모델 수와 같은 -- 과 어떻게 상호작용하여 병합된 모델의 성능에 영향을 미치는지에 대한 많은 질문이 남아 있습니다. 본 연구는 모델 병합의 유효성을 체계적으로 평가하며 이러한 다양한 요인들의 영향을 조사합니다. 우리는 1B-64B 매개변수 범위의 모델 크기에서 8개의 다른 전문가 모델을 병합하는 실험을 수행하면서 4가지 인기있는 병합 방법 -- 평균화, 작업 산술, Dare 및 TIES -- 를 사용합니다. 우리는 전문가의 훈련 작업인 보유 작업과 보유되지 않은 작업에 대한 제로샷 일반화 모델을 평가합니다. 우리의 실험은 대규모 모델 병합의 유용성과 다양한 요인들 간의 상호작용을 조사하여 새로운 통찰력을 제공합니다. 첫째, 우리는 전문가가 좋은 제로샷 성능을 가진 강력한 기본 모델에서 생성될 때 병합이 더 효과적임을 발견했습니다. 둘째, 더 큰 모델은 더 쉬운 병합을 용이하게 합니다. 셋째, 병합은 일반화 능력을 일관되게 향상시킵니다. 특히, 8개의 대규모 전문가 모델을 병합할 때, 병합된 모델은 종래의 다중 작업 훈련 모델보다 일반화 성능이 더 좋을 때가 많습니다. 넷째, 더 큰 모델을 다룰 때 더 많은 전문가 모델을 더 잘 병합할 수 있습니다. 다섯째, 다른 병합 방법들은 대규모에서 매우 유사하게 작동합니다. 전반적으로, 우리의 연구 결과는 모델 병합의 흥미로운 특성을 밝히면서 동시에 일부 제한 사항을 강조합니다. 이 연구가 향후 연구를 위한 대규모 병합의 참고 자료로 활용되기를 희망합니다.
데이터 큐레이션은 효율적인 학습을 지원하는 데이터셋으로 샘플을 수집하고 구성하는 문제입니다. 이 작업의 중요성에도 불구하고 다양한 큐레이션 방법의 대규모이고 체계적인 비교에 대한 노력은 미미합니다. 본 연구에서는 데이터 큐레이션 전략의 형식적 평가를 위해 SELECT라는 이미지 분류를 위한 큐레이션 전략의 대규모 벤치마킹을 소개하며 이에 한걸음 나아갑니다. SELECT 벤치마킹을 위한 기준선 방법을 생성하기 위해 ImageNet-1K의 최대의 슈퍼셋인 ImageNet++ 데이터셋을 새롭게 만들었습니다. 우리의 데이터셋은 ImageNet을 5개의 새로운 훈련 데이터 변형으로 확장하였으며, 각각은 ImageNet-1K의 크기와 유사하며 각각이 구별된 큐레이션 전략을 사용하여 구성되었습니다. 우리는 데이터 큐레이션 기준선을 두 가지 방법으로 평가합니다: (i) 각 훈련 데이터 변형을 사용하여 동일한 이미지 분류 모델을 처음부터 훈련시키고 (ii) 데이터 자체를 사용하여 사전 훈련된 자기 지도 표현을 맞추는 것입니다. 우리의 연구 결과는 최근의 데이터 큐레이션 방법에 특히 합성 데이터 생성 및 CLIP 임베딩을 기반으로 한 룩업과 관련된 흥미로운 추세를 보여줍니다. 이러한 전략이 특정 작업에 대해 매우 경쟁력이 있다는 것을 보여주지만, 원래 ImageNet-1K 데이터셋을 구성하는 데 사용된 큐레이션 전략이 여전히 최고의 기준이라는 것을 보여줍니다. 우리의 벤치마크가 새로운 방법이 간극을 더욱 줄이기 위한 길을 밝힐 것으로 기대합니다. 우리는 https://github.com/jimmyxu123/SELECT에서 우리의 체크포인트, 코드, 문서 및 데이터셋 링크를 공개합니다.
3D 환경에서 인간 동작을 합성하는 것은 특히 보행, 손 도달, 그리고 인간-객체 상호작용과 같은 복잡한 활동을 포함할 때 사용자 정의 웨이포인트와 단계 전환에 상당한 요구를 제시합니다. 이러한 요구 사항은 현재 모델에 대한 도전 과제를 제기하여 단순한 인간 입력에서 캐릭터의 애니메이션을 자동화하는 데 상당한 공백을 남기고 있습니다. 본 논문은 단일 텍스트 명령과 목표 위치로부터 직접 다단계 장면 인식 상호작용 동작을 합성하기 위한 포괄적인 프레임워크를 소개함으로써 이 도전에 대처합니다. 저희 방법은 다음 동작 세그먼트를 합성하기 위해 자기 회귀 확산 모델을 사용하며, 각 작업 단계의 전환을 예측하는 자율 스케줄러를 도입합니다. 합성된 동작이 환경 내에서 매끄럽게 통합되도록 보장하기 위해 시작 및 목표 위치에서의 지역 인식을 고려하는 장면 표현을 제안합니다. 또한 생성된 동작의 일관성을 강화하기 위해 프레임 임베딩을 언어 입력과 통합합니다. 더불어 모델 훈련을 지원하기 위해, 120개의 실내 장면에서 16시간의 동작 시퀀스를 포함하고 각각 정확한 언어 설명으로 주석이 달린 40가지 유형의 동작을 포함하는 포괄적인 동작 캡처 데이터셋을 제시합니다. 실험 결과는 우리의 방법이 환경 및 텍스트 조건과 밀접하게 일치하는 고품질의 다단계 동작을 생성하는 데 효과적임을 입증합니다.
인간 피드백으로부터 강화 학습 (RLHF) 방법은 시각 생성을 위한 확산 모델 (DMs)을 세밀하게 조정하는 방법으로 등장하고 있습니다. 그러나 일반적으로 사용되는 온-정책 전략은 보상 모델의 일반화 능력에 제한을 받는 반면, 오프-정책 접근 방식은 특히 시각 생성 작업에서 얻기 어려운 대량의 짝지어진 인간 주석 데이터를 필요로 합니다. 온-정책 및 오프-정책 RLHF의 한계를 해결하기 위해, 우리는 보상 모델이나 짝지어진 인간 주석 데이터에 의존하지 않고 DMs를 선호에 맞추는 선호 최적화 방법을 제안합니다. 구체적으로, 우리는 Semi-Policy Preference Optimization (SePPO) 방법을 소개합니다. SePPO는 이전 체크포인트를 참조 모델로 활용하면서 이를 사용하여 "패배 이미지"를 선호 쌍에서 대체하는 온-정책 참조 샘플을 생성합니다. 이 접근 방식을 통해 우리는 오프-정책 "승리 이미지"만을 사용하여 최적화할 수 있습니다. 더 나아가, 정책 공간에서 탐색을 확장하는 참조 모델 선택 전략을 설계합니다. 특히, 우리는 참조 샘플을 단순히 학습을 위한 부정적 예로 취급하지 않습니다. 대신, 참조 샘플이 승리 이미지인지 패배 이미지인지 평가하기 위한 기준을 설계하여 모델이 생성된 참조 샘플에서 선택적으로 학습할 수 있도록 합니다. 이 접근 방식은 참조 샘플 품질의 불확실성으로 인한 성능 저하를 완화시킵니다. 우리는 SePPO를 텍스트-이미지 및 텍스트-비디오 벤치마크에서 검증합니다. SePPO는 텍스트-이미지 벤치마크에서 모든 이전 접근 방법을 능가하며, 텍스트-비디오 벤치마크에서도 우수한 성능을 보여줍니다. 코드는 https://github.com/DwanZhang-AI/SePPO에서 공개될 예정입니다.
확산 모델은 이미지 생성을 혁신하였으며, 비디오 생성으로의 확장은 유망성을 보여주었습니다. 그러나 현재의 비디오 확산 모델(VDMs)은 클립 레벨에서 적용되는 스칼라 타임스텝 변수에 의존하며, 이는 이미지에서 비디오로의 생성과 같은 다양한 작업에 필요한 복잡한 시간 종속성을 모델링하는 능력을 제한합니다. 이 한계를 해결하기 위해, 우리는 프레임 인식 비디오 확산 모델(FVDM)을 제안합니다. 이 모델은 새로운 벡터화된 타임스텝 변수(VTV)를 도입합니다. 일반적인 VDM과 달리, 우리의 접근 방식은 각 프레임이 독립적인 노이즈 일정을 따를 수 있도록 하여 세밀한 시간 종속성을 캡처하는 모델의 능력을 향상시킵니다. FVDM의 유연성은 표준 비디오 생성, 이미지에서 비디오 생성, 비디오 보간, 그리고 긴 비디오 합성을 포함한 여러 작업에서 입증되었습니다. 다양한 VTV 구성을 통해, 우리는 생성된 비디오의 우수한 품질을 달성하며, 미세 조정 중의 재앙적인 잊혀짐과 제로샷 방법의 제한된 일반화와 같은 도전을 극복합니다. 우리의 경험적 평가는 FVDM이 비디오 생성 품질에서 최첨단 방법을 능가하며, 확장된 작업에서도 우수한 성과를 거두는 것을 보여줍니다. 기존 VDM의 근본적인 결점을 해결함으로써, FVDM은 비디오 합성에서 새로운 패러다임을 제시하며, 생성 모델링과 멀티미디어 응용 분야에 중요한 영향을 미치는 견고한 프레임워크를 제공합니다.
우리는 다중 에이전트 신체화 환경에서의 지시어 생성 및 이해를 위한 작업과 데이터셋을 소개합니다. 이 작업에서 공유된 장면에서 두 개의 에이전트는 서로의 시각적 관점을 고려해야 하며, 이는 자신의 것과 다를 수 있습니다. 이를 통해 장면 내 객체 및 그들 사이의 공간적 관계에 대한 참조를 생성하고 이해해야 합니다. 우리는 2,970개의 인간이 작성한 지시어로 이루어진 데이터셋을 수집하였으며, 각각이 인간 이해 판단과 짝을 이루어 있습니다. 우리는 자동화된 모델의 성능을 평가하고, 이들을 사람 파트너와 짝을 이루어 화자 및 청자로 설정하여 모델의 성능이 참조 생성 및 이해 모두에서 인간 에이전트의 성능을 미치지 못한다는 것을 발견했습니다. 마지막으로, 우리는 통신적 성공의 증거로 열린 가중치 화자 모델을 훈련시켜 실험하였고, 청자와 짝을 이룰 때 통신적 성공이 58.9%에서 69.3%로 향상되었으며, 가장 강력한 프로프리어터리 모델을 능가하는 결과를 얻었습니다.
인기 있는 기업용 사례인 요약, RAG 및 코드 생성과 같은 경우에 대해 LLM 추론은 일반적으로 생성 길이보다 수십 배 긴 프롬프트 길이를 관찰합니다. 이 특성은 프리필 비용과 응답 대기 시간 증가로 이어집니다. 본 논문에서는 프롬프트 토큰 처리 시간과 비용을 줄이면서 생성된 토큰의 고품질을 유지하기 위해 특별히 설계된 신규 모델 변환 및 증류 절차인 SwiftKV를 제안합니다. SwiftKV는 세 가지 주요 메커니즘을 결합합니다: i) SingleInputKV는 후반 레이어의 KV 캐시를 훨씬 이른 레이어의 출력을 사용하여 미리 채우며, 프롬프트 토큰이 모델 계산의 많은 부분을 건너뛸 수 있도록 합니다. ii) AcrossKV는 인접한 레이어의 KV 캐시를 병합하여 메모리 풋프린트를 줄이고 더 큰 배치 크기를 지원하여 처리량을 높입니다. iii) 기존 LLM을 SwiftKV에 적응시킬 수 있는 지식 보존 증류 절차로, 최소한의 정확도 영향과 낮은 계산 및 데이터 요구 사항으로 SwiftKV를 위한 LLM을 조정할 수 있습니다. Llama-3.1-8B 및 70B의 경우, SwiftKV는 프리필의 계산 요구 사항을 50% 줄이고 KV 캐시의 메모리 요구 사항을 62.5% 줄이면서 다양한 작업 범위에서 최소 품질 저하를 초래합니다. 최적화된 vLLM 구현을 사용한 엔드 투 엔드 추론 서비스에서, SwiftKV는 최대 2배 높은 총 처리량과 60% 낮은 출력 토큰 당 시간을 실현할 수 있습니다. 4x H100 GPU에서 16비트 정밀도로 Llama-3.1-70B에 대해 16K 토큰/초를 의미하는 560 TFlops/GPU의 표준화된 추론 처리량을 달성할 수 있습니다.