번역이 포함된 일일 선별된 AI 연구 논문
시각-언어 모델(Vision-Language Models, VLMs)의 신속한 발전은 시각적 맥락을 포함하는 수학적 추론 작업에 대한 큰 잠재력을 보여주었습니다. 비슷한 문제에 해결 단계를 신뢰할 수 있는 방법으로 적용할 수 있는 인간과는 달리, GPT-4o와 같은 최신 VLMs는 이러한 시나리오에서 일관되게 실패할 수 있다는 것을 발견했습니다. 이는 그들의 수학적 추론 능력에 제한이 있다는 것을 드러냅니다. 본 논문에서는 VLMs의 수학적 추론 강인성을 조사하고, 동일한 질문의 다양한 변형(시각적 수치 값 또는 함수 그래프의 변경)에 대한 이러한 모델의 성능을 평가합니다. 시각 기반 수학 벤치마크는 VLMs의 문제 해결 능력을 평가하기 위해 개발되었지만, 이러한 벤치마크는 정적 문제 세트만 포함하고 있어 수학적 추론 강인성을 쉽게 평가할 수 없습니다. 이러한 공백을 메우기 위해 우리는 VLMs의 심층적 평가를 위해 설계된 동적 시각 수학 벤치마크인 DynaMath를 소개합니다. DynaMath에는 파이썬 프로그램으로 표현된 501개의 고품질 다중 주제 시드 질문이 포함되어 있습니다. 이러한 프로그램은 다양한 시각적 및 텍스트 변형을 포함한 많은 다른 유형의 구체적인 질문 집합을 자동으로 생성할 수 있도록 신중하게 설계되고 주석이 달려 있습니다. DynaMath를 사용하면 시드 질문의 입력 조건이 다양한 경우에 모델의 일반화 능력을 평가할 수 있습니다. 우리는 5,010개의 생성된 구체적인 질문과 함께 14개의 최신 VLMs를 평가했습니다. 결과는 최악의 경우 모델 정확도, 즉 모든 10가지 변형에서 올바르게 답변된 시드 질문의 백분율로 정의된 것이 평균 경우 정확도보다 현저히 낮다는 것을 보여줍니다. 분석 결과는 VLMs의 추론 능력의 강인성을 연구해야 한다는 필요성을 강조하며, DynaMath는 수학적 추론을 위한 더 신뢰할 수 있는 모델 개발을 지원하는 소중한 통찰을 제공합니다.
전문가들은 전문가들의 혼합물(MoEs)이 더 효율적이고 효과적인 대형 언어 모델(LLMs)의 개발에 중요한 역할을 한다고 말합니다. 엄청난 자원 요구 사항으로 인해 대규모 MoE 알고리즘의 연구는 많은 연구자들에게 접근하기 어려운 상태입니다. 본 연구는 LibMoE를 개발하여 MoE 알고리즘의 연구, 훈련 및 평가를 간소화하는 포괄적이고 모듈식 프레임워크를 제시합니다. 모듈식 설계, 효율적인 훈련, 포괄적인 평가라는 세 가지 핵심 원칙을 기반으로 한 LibMoE는 훈련 및 평가 파이프라인을 표준화함으로써 다양한 연구자들에게 MoE를 LLMs에 더 쉽게 접근할 수 있도록 합니다. LibMoE를 사용하여, 우리는 세 가지 다른 LLMs와 11개의 데이터셋에서 제로샷 설정 하에 다섯 가지 최첨단 MoE 알고리즘을 철저히 벤치마킹했습니다. 결과는 독특한 특성에도 불구하고, 모든 MoE 알고리즘은 다양한 작업을 평균화했을 때 대체로 유사하게 수행됨을 보여줍니다. 모듈식 설계와 철저한 평가를 통해, 우리는 LibMoE가 연구자들이 의미 있는 진전을 이루기 위해 다음 세대 MoE와 LLMs로 나아가는 데 귀중한 도구가 될 것이라고 믿습니다. 프로젝트 페이지: https://fsoft-aic.github.io/fsoft-LibMoE.github.io.
대규모 언어 모델 (LLM) 양자화의 인퍼런스 가속화에 대한 인기에도 불구하고, 다양한 양자화 형식과 관련된 정확성-성능 교환에 대한 상당한 불확실성이 남아 있습니다. 본 연구에서는 학술 벤치마크와 실제 과제에서 인기 있는 양자화 형식 (FP8, INT8, INT4)을 평가하여 전체 Llama-3.1 모델 패밀리에서 양자화된 정확성에 대한 포괄적인 경험적 연구를 제시합니다. 또한 본 연구는 양자화된 모델과 압축 해제된 대조군 간의 생성된 텍스트의 차이를 조사합니다. 벤치마크 이상으로, 우리는 최첨단 정확성 회복 결과를 얻을 수 있도록 한 몇 가지 양자화 개선을 제시합니다. 50만 개 이상의 개별 평가를 포괄하는 우리의 조사는 여러 가지 주요 결과를 도출합니다: (1) FP8 가중치 및 활성화 양자화 (W8A8-FP)는 모든 모델 규모에서 손실이 없습니다, (2) INT8 가중치 및 활성화 양자화 (W8A8-INT)는 적절하게 조정된 경우 놀랍도록 1-3%의 정확도 저하를 초래하며, (3) INT4 가중치 전용 양자화 (W4A16-INT)는 8비트 정수 가중치와 활성화 양자화와 경쟁력이 있습니다. 특정 배포 환경에 대한 "최상의" 형식에 대한 문제를 해결하기 위해 우리는 인기 있는 오픈 소스 vLLM 프레임워크를 사용하여 다양한 GPU 아키텍처에서 인퍼런스 성능 분석을 수행합니다. 우리는 W4A16이 동기식 배포에 가장 좋은 비용 효율성을 제공하며 중간급 GPU에서 비동기식 배포에 적합함을 발견합니다. 동시에, W8A8 형식은 고급 GPU에서 중간 및 대형 모델의 비동기식 "연속 배치" 배포에서 뛰어납니다. 우리의 결과는 다양한 규모와 성능 요구 사항에 걸쳐 양자화된 LLM을 배포하는 실용적인 지침 세트를 제공합니다.
자율 에이전트는 현실 세계와 상호 작용하는 데 점점 더 중요해지고 있습니다. 특히 안드로이드 에이전트는 최근 자주 언급되는 상호 작용 방법 중 하나입니다. 그러나 기존의 안드로이드 에이전트를 훈련하고 평가하는 연구는 오픈 소스와 폐쇄 소스 모두에 대한 체계적인 연구가 부족합니다. 본 연구에서는 AndroidLab을 체계적인 안드로이드 에이전트 프레임워크로 제안합니다. 이는 다양한 모드, 액션 공간 및 재현 가능한 벤치마크를 갖춘 작동 환경을 포함합니다. 동일한 액션 공간에서 대형 언어 모델 (LLM) 및 다중 모달 모델 (LMM)을 지원합니다. AndroidLab 벤치마크에는 미리 정의된 안드로이드 가상 장치와 이러한 장치에 구축된 9개 앱을 통해 138가지 작업이 포함되어 있습니다. AndroidLab 환경을 활용하여 Android 지침 데이터 세트를 개발하고 6개의 오픈 소스 LLM 및 LMM을 훈련함으로써 LLM의 평균 성공률을 4.59%에서 21.50%로, LMM의 평균 성공률을 1.93%에서 13.28%로 향상시켰습니다. AndroidLab은 오픈 소스로 공개되어 있으며 https://github.com/THUDM/Android-Lab에서 공개되어 있습니다.
대형 언어 모델(LLM)은 특히 웹 기반 작업에서 자율 에이전트로서 놀라운 잠재력을 보여주었습니다. 그러나 기존 LLM 웹 에이전트들은 고가의 소유 LLM API에 심하게 의존하고 있으며, 오픈 LLM은 필요한 의사 결정 능력이 부족합니다. 본 논문은 오픈 LLM을 활용하여 고성능 웹 에이전트를 훈련시키기 위한 자기 진화 온라인 커리큘럼 강화 학습 프레임워크인 WebRL을 소개합니다. WebRL은 LLM 웹 에이전트를 구축하는 데 있어서 훈련 작업의 부족, 희박한 피드백 신호, 그리고 온라인 학습에서의 정책 분포 이탈이라는 세 가지 주요 도전에 대응합니다. 구체적으로, WebRL은 1) 실패한 시도로부터 새로운 작업을 생성하는 자기 진화 커리큘럼, 2) 강력한 결과 지도 보상 모델(ORM), 그리고 3) 지속적인 개선을 보장하기 위한 적응형 강화 학습 전략을 통합합니다. 우리는 WebRL을 적용하여 오픈 Llama-3.1 및 GLM-4 모델을 능숙한 웹 에이전트로 변환했습니다. WebArena-Lite에서, WebRL은 Llama-3.1-8B의 성공률을 4.8%에서 42.4%로, 그리고 GLM-4-9B의 성공률을 6.1%에서 43%로 향상시켰습니다. 이러한 오픈 모델들은 GPT-4-Turbo(17.6%)와 GPT-4o(13.9%)보다 성능이 크게 뛰어나며, 오픈 LLM에서 훈련된 이전 최첨단 웹 에이전트들(AutoWebGLM, 18.2%)을 능가합니다. 우리의 연구 결과는 WebRL이 오픈 및 소유 LLM 기반 웹 에이전트 사이의 간극을 좁히는 데 효과적임을 입증하며, 더 접근 가능하고 강력한 자율 웹 상호 작용 시스템을 위한 길을 열어줍니다.
OpenAI의 Sora는 비디오 생성의 잠재력을 강조하여 기본 물리 법칙을 준수하는 세계 모델을 개발하는 데 기여합니다. 그러나 시각 데이터만을 사용하여 비디오 생성 모델이 이러한 법칙을 순수하게 발견할 수 있는 능력에 대해 의문을 제기할 수 있습니다. 진정한 법칙을 학습하는 세계 모델은 세세한 점에 강건하고 보이지 않는 시나리오에서 올바르게 추정해야 합니다. 본 연구에서는 세 가지 주요 시나리오를 효과적으로 평가합니다: 분포 내, 분포 외, 그리고 조합적 일반화. 우리는 물체 이동과 충돌을 위한 2D 시뮬레이션 테스트베드를 개발하여 고전 물리학 법칙에 의해 결정론적으로 지배되는 비디오를 생성합니다. 이를 통해 대규모 실험을 위한 무한한 데이터 공급을 제공하며 생성된 비디오가 물리 법칙을 준수하는지를 정량적으로 평가할 수 있습니다. 초기 프레임을 기반으로 물체 이동을 예측하기 위해 확산 기반 비디오 생성 모델을 훈련시켰습니다. 우리의 확장 실험은 분포 내에서 완벽한 일반화, 조합적 일반화에 대한 측정 가능한 확장 행동, 그러나 분포 외 시나리오에서의 실패를 보여줍니다. 추가 실험은 이러한 모델의 일반화 메커니즘에 대한 두 가지 중요한 통찰을 제공합니다: (1) 모델은 일반적인 물리적 규칙을 추상화하지 못하고 대신 "사례 기반" 일반화 행동, 즉 가장 가까운 훈련 예제를 모방합니다; (2) 새로운 케이스로 일반화할 때 모델은 훈련 데이터를 참조할 때 다른 요소를 우선시하는 것으로 관찰됩니다: 색상 > 크기 > 속도 > 모양. 우리의 연구는 Sora의 넓은 성공에서의 역할에도 불구하고 비디오 생성 모델이 기본적인 물리 법칙을 발견하는 데 단독으로 충분하지 않음을 시사합니다. 프로젝트 페이지는 https://phyworld.github.io에서 확인할 수 있습니다.
기존 LLM 에이전트 시스템은 일반적으로 각 단계에서 고정되고 미리 정의된 집합에서 작업을 선택합니다. 이 접근 방식은 폐쇄된, 좁은 범위의 환경에서 효과적이지만, 우리는 실제 시나리오에서 LLM 에이전트를 배치할 때 두 가지 주요 도전 과제가 있다고 주장합니다: (1) 고정된 작업 집합에서 선택하는 것은 LLM 에이전트의 계획 및 작용 능력을 심각하게 제한하며, (2) 이 접근 방식은 모든 가능한 작업을 나열하고 구현하는 데 상당한 인적 노력이 필요하며, 잠재적인 작업이 많은 복잡한 환경에서는 실용적이지 않습니다. 본 연구에서는 온라인 방식으로 작업을 동적으로 생성하고 구성할 수 있는 LLM 에이전트 프레임워크를 제안합니다. 이 프레임워크에서 에이전트는 각 단계에서 일반 목적 프로그래밍 언어로 작성된 프로그램을 생성하고 실행하여 환경과 상호 작용합니다. 또한 생성된 작업은 나중에 재사용할 수 있도록 시간이 지남에 따라 누적됩니다. 우리의 GAIA 벤치마크에서의 광범위한 실험 결과는 이 프레임워크가 이전 방법보다 훨씬 더 큰 유연성을 제공하며 우수한 성능을 발휘한다는 것을 보여줍니다. 특히, 미리 정의된 집합에서 관련 작업이 없는 시나리오나 기존 작업이 예기치 못한 예외 상황으로 실패한 경우에 LLM 에이전트가 회복할 수 있도록 합니다. 작성 시점에서 우리는 GAIA 공개 리더보드에서 최상위 위치를 차지하고 있습니다. 우리의 코드는 https://github.com/adobe-research/dynasaur{https://github.com/adobe-research/dynasaur}에서 찾을 수 있습니다.
확산 모델은 텍스트에서 이미지를 생성하는 데 뛰어난 능력을 보여주었습니다. 그들의 의미 이해(즉, 프롬프트 따르기) 능력은 대형 언어 모델(예: T5, Llama)로 크게 향상되었습니다. 그러나 기존 모델은 특히 텍스트 프롬프트가 다양한 객체와 다수의 속성 및 상호 관련된 공간적 관계를 포함할 때 장황하고 복잡한 텍스트 프롬프트를 완벽하게 처리할 수 없습니다. 많은 지역 프롬프팅 방법이 UNet 기반 모델들을 위해 제안되었지만(예: SD1.5, SDXL), 최근의 확산 트랜스포머(DiT) 아키텍처를 기반으로 한 구현은 아직 없습니다. 예를 들어 SD3 및 FLUX.1. 본 보고서에서는 주의 조작을 기반으로 FLUX.1을 위한 지역 프롬프팅을 제안하고 구현하며, 이는 훈련 없이 DiT가 미세 구성의 텍스트에서 이미지를 생성할 수 있는 능력을 제공합니다. 코드는 https://github.com/antonioo-c/Regional-Prompting-FLUX에서 확인할 수 있습니다.
텍스처링은 3D 에셋 제작 워크플로우에서 중요한 단계로, 3D 에셋의 시각적 매력과 다양성을 향상시킵니다. 최근의 Text-to-Texture (T2T) 생성 기술의 발전에도 불구하고, 기존 방법들은 종종 지역적 불연속성, 여러 뷰 간 불일치, 그리고 UV 언랩핑 결과에 대한 강한 의존으로 인해 부적합한 결과물을 얻는 경우가 많습니다. 이러한 도전에 대처하기 위해, 우리는 MVPaint라는 새로운 생성-정제 3D 텍스처링 프레임워크를 제안합니다. 이 프레임워크는 고해상도의 매끄러운 텍스처를 생성하면서 다뷰 일관성을 강조합니다. MVPaint는 주로 세 가지 주요 모듈로 구성됩니다. 1) 동기화된 다뷰 생성 (SMG). 3D 메쉬 모델을 입력으로 받아, MVPaint는 먼저 SMG 모델을 활용하여 동시에 다뷰 이미지를 생성하고, 미관이 부족한 부분을 그림이 그려지지 않은 채로 거친 텍스처링 결과를 얻습니다. 2) 공간 인식 3D 보정 (S3I). 완전한 3D 텍스처링을 보장하기 위해, 우리는 이전에 관측되지 않은 영역을 효과적으로 텍스처링하기 위해 특별히 설계된 S3I 방법을 소개합니다. 3) UV 정제 (UVR). 더불어, MVPaint는 UV 공간에서 텍스처 품질을 향상시키기 위해 UVR 모듈을 사용합니다. 이 모듈은 먼저 UV 공간 초해상도를 수행하고, 이어서 UV 언랩핑에 의해 발생한 공간 텍스처링 불연속성을 수정하기 위한 공간 인식 실선 평활화 알고리즘을 수행합니다. 더불어, 우리는 Objaverse 데이터셋에서 선택한 고품질 3D 메쉬를 기반으로 한 Objaverse T2T 벤치마크와 전체 GSO 데이터셋을 기반으로 한 GSO T2T 벤치마크를 수립합니다. 광범위한 실험 결과는 MVPaint가 기존 최첨단 기법을 능가함을 입증합니다. 특히, MVPaint는 최소한의 Janus 문제와 높은 수준의 교차 뷰 일관성을 갖춘 고품질 텍스처를 생성할 수 있었습니다.
본 논문에서는 현재 가장 큰 오픈 소스 Transformer 기반 전문가 모델인 훈원-라지(Hunyuan-Large)를 소개합니다. 이 모델은 총 3890억 개의 파라미터와 520억 개의 활성화 파라미터를 갖추고 있으며, 최대 256,000개의 토큰을 처리할 수 있습니다. 훈원-라지의 우수한 성능을 입증하기 위해 언어 이해 및 생성, 논리적 추론, 수학 문제 해결, 코딩, 장기 문맥, 그리고 집계 작업을 포함한 다양한 벤치마크에서 철저한 평가를 실시했습니다. 이 모델은 LLama3.1-70B를 능가하며, 상당히 큰 LLama3.1-405B 모델과 비교했을 때 유사한 성능을 보여줍니다. 훈원-라지의 주요 특징은 이전 문헌보다 훨씬 많은 규모의 합성 데이터, 혼합 전문가 라우팅 전략, 키-값 캐시 압축 기술, 그리고 전문가별 학습률 전략을 포함합니다. 또한, 전문가 모델의 스케일링 법칙과 학습률 일정에 대해 조사하여 미래 모델 개발과 최적화를 위한 유용한 통찰과 지침을 제공했습니다. 훈원-라지의 코드와 체크포인트는 미래 혁신과 응용을 용이하게 하기 위해 공개되었습니다. 코드: https://github.com/Tencent/Hunyuan-Large 모델: https://huggingface.co/tencent/Tencent-Hunyuan-Large
다양한 응용 프로그램에서 대규모 언어 모델 (LLM)의 대규모 배포는 챗봇과 가상 비서와 같은 응용 프로그램에서 사용자에게 문화적으로 민감하게 대응하여 포용성을 보장해야 합니다. 문화는 심리학과 인류학에서 널리 연구되어 왔으며, 최근 LLM에서 문화적 포용성을 강조하는 연구가 급증하고 있습니다. 이 연구는 다국어성을 넘어 심리학과 인류학의 연구 결과를 기반으로 한 LLM의 문화적 포용성을 강화하는 방향으로 나아가고 있습니다. 본 논문에서는 텍스트 기반 및 멀티모달 LLM에 문화적 인식을 통합하는 노력을 조사합니다. 우선, 인류학과 심리학에서 문화를 정의하고 이를 기점으로 LLM에서 문화적 인식을 살펴봅니다. 그런 다음, 다문화 데이터셋을 생성하는 방법, 하위 작업에서 문화적 포용성을 위한 전략, 그리고 LLM에서 문화적 인식을 벤치마킹하는 데 사용된 방법론을 조사합니다. 더불어 문화적 조정의 윤리적 함의, 인간-컴퓨터 상호작용의 문화적 포용성 촉진 역할, 그리고 문화적 조정이 사회과학 연구를 촉진하는 역할에 대해 논의합니다. 마지막으로, 문헌의 공백에 대한 연구 결과를 바탕으로 미래 연구를 위한 지침을 제시합니다.
시간적으로 일관된 고품질 비디오를 생성하는 것은 특히 긴 시간 범위에 걸쳐서는 계산 비용이 많이 들 수 있습니다. 보다 최근에 등장한 확산 트랜스포머(Diffusion Transformers, DiTs)는 이러한 맥락에서 상당한 진전을 이루었지만, 더 큰 모델과 더 무거운 주의 메커니즘에 의존하므로 추론 속도가 느려지는 등의 도전에 직면하고 있습니다. 본 논문에서는 비디오 DiTs를 가속화하기 위한 훈련 없는 방법인 적응형 캐싱(Adaptive Caching, AdaCache)을 소개합니다. 이 방법은 "모든 비디오가 동일하게 생성되는 것은 아니다"는 사실에서 출발하여, 일부 비디오는 다른 비디오보다 합리적인 품질을 얻기 위해 더 적은 노이즈 제거 단계가 필요하다는 점에서 동기부여를 받았습니다. 이를 바탕으로 확산 과정을 통해 계산을 캐싱뿐만 아니라 각 비디오 생성에 맞는 캐싱 일정을 설계하여 품질과 지연 시간의 균형을 최대화합니다. 또한 비디오 정보를 활용하기 위해 모션 정규화(Motion Regularization, MoReg) 체계를 도입하여 움직임 콘텐츠에 기반한 컴퓨팅 할당을 제어합니다. 이러한 플러그 앤 플레이 기여들은 여러 비디오 DiT 기준에 걸쳐 생성 품질을 희생하지 않으면서 상당한 추론 가속화(예: Open-Sora 720p - 2초 비디오 생성에서 최대 4.7배)를 제공합니다.
2D 시각 생성의 최근 발전은 놀랄 만큼 성공적이었습니다. 그러나 3D 및 4D 생성은 대규모 4D 데이터 부족과 효과적인 모델 설계로 인해 실제 응용 프로그램에서 여전히 어려움을 겪고 있습니다. 본 논문에서는 일상 생활에서 흔히 관찰되는 카메라 및 물체 이동을 활용하여 일반적인 3D 및 4D 생성을 공동으로 조사하는 것을 제안합니다. 커뮤니티에서 실제 세계 4D 데이터가 부족하기 때문에 먼저 비디오에서 카메라 포즈와 물체 이동 강도를 얻기 위한 데이터 정제 파이프라인을 제안합니다. 이 파이프라인을 기반으로 대규모 실제 세계 4D 씬 데이터 세트인 CamVid-30K를 소개합니다. 3D 및 4D 데이터를 활용하여 GenXD 프레임워크를 개발하여 임의의 3D 또는 4D 씬을 생성할 수 있습니다. 우리는 카메라 및 물체 이동을 분리하여 학습할 수 있도록 하는 다중뷰-시간 모듈을 제안하며, GenXD는 다양한 조건부 뷰를 지원하기 위해 마스크된 잠재 조건을 사용합니다. GenXD는 카메라 궤적을 따르는 비디오 및 3D 표현으로 변환할 수 있는 일관된 3D 뷰를 생성할 수 있습니다. 우리는 다양한 실제 세계 및 합성 데이터 세트를 통해 GenXD의 효과성과 다양성을 이전의 3D 및 4D 생성 방법과 비교하여 상세하게 평가합니다.
현대 시각 효과 (VFX) 소프트웨어는 숙련된 예술가들이 거의 모든 것의 이미지를 만들 수 있게 만들었습니다. 그러나, 창작 과정은 여전히 수고롭고 복잡하며 대중에게는 대부분 접근하기 어렵습니다. 본 연구에서는 AutoVFX를 제안합니다. 이는 단일 비디오와 자연어 지시사항에서 실제감 있고 동적인 VFX 비디오를 자동으로 생성하는 프레임워크입니다. 신경 씬 모델링, LLM 기반 코드 생성, 물리 시뮬레이션을 신중하게 통합함으로써 AutoVFX는 물리적으로 기반을 둔 사실적인 편집 효과를 제공할 수 있으며 이를 자연어 지시사항을 통해 직접 제어할 수 있습니다. 우리는 AutoVFX의 효과를 다양한 비디오와 지시사항을 통해 검증하기 위해 광범위한 실험을 수행합니다. 양적 및 질적 결과는 AutoVFX가 생성적 품질, 지시사항 정렬, 편집 다양성 및 물리적 타당성에서 경쟁하는 모든 방법을 큰 폭으로 능가한다는 것을 시사합니다.
활성 희소성은 활성 출력 내에서 제거될 수 있는 상당한 약하게 기여하는 요소들의 존재를 나타내며, 대규모 언어 모델(LLMs)과 관련된 많은 중요한 응용 프로그램에 이로운 영향을 미칠 수 있습니다. LLMs 내에서 더 큰 활성 희소성을 촉진하는 것이 심층 연구가 필요하지만, 기존 연구들은 활성 희소성과 잠재적으로 영향을 미칠 수 있는 요소들 간의 상관 관계에 대한 포괄적이고 양적인 연구가 부족합니다. 본 논문에서는 디코더 전용 Transformer 기반 LLMs 내에서 활성 희소성의 양적 스케일링 특성과 영향을 포괄적으로 연구합니다. 구체적으로, 우리는 모든 활성 함수에 적용 가능한 정확하고 성능을 고려한 활성 희소성 측정 항목인 PPL-p% 희소성을 제안합니다. 광범위한 실험을 통해 몇 가지 중요한 현상을 발견했습니다. 첫째, 서로 다른 활성 함수는 비슷한 성능을 보이지만 훈련 시간에 따른 희소성 추세가 반대입니다. 활성 비율(즉, 1-희소 비율)은 SiLU 활성화 및 ReLU 활성화된 LLMs에 대해 각각 훈련 데이터 양에 따라 수렴하는 증가 파워-로우 및 감소하는 로그 공간 파워-로우로 진화합니다. 이러한 결과는 ReLU가 SiLU보다 활성 함수로 더 효율적이며 더 많은 훈련 데이터를 활용하여 활성 희소성을 향상시킬 수 있음을 보여줍니다. 둘째, 병목점 이하에서 너비-깊이 비율이 선형적으로 증가함에 따라 활성 비율도 증가하며, 일정한 매개변수 규모에서 더 깊은 아키텍처의 잠재적 이점을 나타냅니다. 마지막으로, 유사한 너비-깊이 비율에서 매개변수 규모에 따라 활성 희소성의 한계 값이 약하게 변하는 것을 발견했는데, 즉 LLMs 내의 활성 패턴은 매개변수 규모에 민감하지 않음을 의미합니다. 이러한 LLMs에 대한 경험적 법칙들은 더 큰 활성 희소성을 갖는 LLMs를 더 효율적이고 해석 가능하게 만드는 데 중요한 함의를 가지고 있습니다.
작년은 비디오 기반 대규모 언어 모델의 중요한 발전을 목격했습니다. 그러나 짧은 비디오와 긴 비디오 이해를 위한 통합 모델 개발의 어려움은 여전히 해결되지 않은 문제입니다. 대부분의 기존 비디오 언어 모델은 한 시간 이상의 비디오를 처리할 수 없으며, 긴 비디오에 맞춤화된 방법은 짧은 비디오와 이미지에 대해 비효율적일 수 있습니다. 본 논문에서는 비디오 내 중복 콘텐츠를 주요 문제로 파악합니다. 이를 해결하기 위해 토큰 압축과 명령어 인식 비주얼 특징 집계를 동시에 달성하는 새로운 풀링 전략을 제안합니다. 우리의 모델은 Prompt-guided Pooling LLaVA 또는 PPLLaVA로 명명되었습니다. 구체적으로, PPLLaVA는 CLIP 기반 비주얼-프롬프트 정렬을 포함하며 사용자 지시와 관련된 비주얼 정보를 추출합니다. 비주얼 시퀀스를 임의의 스케일로 압축하는 프롬프트 지원 풀링과 비주얼 대화에서 흔한 긴 프롬프트를 위해 설계된 클립 컨텍스트 확장으로 구성됩니다. 더불어, 우리의 코드베이스는 가장 최신의 비디오 직접 선호 최적화(DPO) 및 비주얼 교차 훈련을 통합하고 있습니다. 광범위한 실험을 통해 우리 모델의 성능이 검증되었습니다. 우수한 처리량과 1024 비주얼 컨텍스트만으로 PPLLaVA는 비디오 언어 모델로서 이미지 벤치마크에서 더 나은 결과를 달성하면서 다양한 비디오 벤치마크에서 최첨단 성능을 보여주며, 캡션 생성부터 객관식 질문에 이르기까지 다양한 작업에서 뛰어난 성과를 거두고 초부터 시간까지의 비디오 길이를 처리합니다. 코드는 https://github.com/farewellthree/PPLLaVA에서 사용할 수 있습니다.
대규모 언어 모델(LLM) 개발에서는 인간 피드백으로부터의 강화 학습이 모델을 인간의 가치와 선호에 맞추는 데 중요합니다. RLHF(Reinforcement Learning from Human Feedback)는 현재 정책과 초기 정책 사이의 Kullback-Leibler(KL) 발산을 참조로 삼는 전통적인 방법을 사용하여 정책 최적화 알고리즘인 Proximal Policy Optimization(PPO)에서 패널티로 추가됩니다. 이 제약은 모델이 초기 체크포인트에서 너무 멀리 벗어나지 못하도록 방지하지만, 보상 지형의 탐색을 제한하여 모델이 더 높은 품질의 솔루션을 발견하는 능력을 감소시킵니다. 결과적으로, 정책 최적화는 매개 변수 공간의 좁은 영역에 갇히게 되어 최적이 아닌 정렬과 성능을 유발합니다. 본 논문에서는 SALSA(Soup-based Alignment Learning for Stronger Adaptation)를 제안하여 이러한 제한을 극복하기 위한 혁신적인 방법을 소개합니다. 이 방법은 두 개의 독립적인 지도 학습된(SFT) 모델의 가중치 공간 평균화를 통해 더 유연하고 적절한 참조 모델을 생성합니다. 이 모델 수프는 KL 발산에서 더 큰 편차를 허용하고 안정성을 희생하지 않고 솔루션 공간의 유망한 영역을 탐색할 수 있게 합니다. 이 더 견고한 참조 모델을 활용함으로써 SALSA는 더 나은 탐색을 유도하여 높은 보상을 달성하고 모델의 견고성, 분포 외 일반화, 성능을 향상시킵니다. 우리는 널리 사용되는 오픈 모델(Llama2-7B, Mistral-7B, Gemma-2B)에 대한 다양한 벤치마크(MT-Bench, Arena-Hard, UltraFeedback)에서 깊은 탐색을 유도하고 LLM에서 우수한 정렬을 달성함으로써 PPO를 일관되게 능가하는 SALSA의 효과를 포괄적인 실험을 통해 검증합니다.
우리는 Image-GOal Representations (IGOR)을 소개합니다. IGOR은 인간과 다양한 로봇 간에 통일된 의미론적으로 일관된 행동 공간을 학습하기 위해 설계되었습니다. 이 통일된 잠재적 행동 공간을 통해 IGOR은 대규모 로봇 및 인간 활동 데이터 간의 지식 이전을 가능하게 합니다. 우리는 초기 이미지와 목표 상태 간의 시각적 변화를 잠재적 행동으로 압축함으로써 이를 달성합니다. IGOR을 사용하면 인터넷 규모의 비디오 데이터에 대한 잠재적 행동 레이블을 생성할 수 있습니다. 이 통일된 잠재적 행동 공간은 로봇과 인간이 수행하는 다양한 작업에 걸쳐 기초 정책 및 세계 모델의 교육을 가능하게 합니다. 우리는 다음을 입증합니다: (1) IGOR은 인간과 로봇 모두에 대해 의미론적으로 일관된 행동 공간을 학습하여 물리적 상호 작용 지식을 대표하는 객체의 다양한 움직임을 특징화합니다; (2) IGOR은 잠재적 행동 모델과 세계 모델을 공동으로 사용하여 객체의 움직임을 한 비디오에서 다른 비디오로 "이주"시킬 수 있습니다. 심지어 인간과 로봇 간에도 가능합니다; (3) IGOR은 기초 정책 모델을 통해 잠재적 행동을 자연어와 일치시키고, 낮은 수준의 정책 모델과 통합하여 효과적인 로봇 제어를 달성할 수 있습니다. 우리는 IGOR이 인간에서 로봇으로의 지식 이전과 제어를 위한 새로운 가능성을 열어줄 것이라고 믿습니다.
기초 모델(FMs)과 관련된 잠재적 위험을 이해하고 완화하는 데는 효과적인 해석 가능성 방법을 개발하는 데 달려 있습니다. 희소 오토인코더(SAEs)는 FM 표현을 해체하는 데 유망한 도구로 등장했지만, 데이터에서 드물지만 중요한 개념을 포착하는 데 어려움을 겪습니다. 우리는 특수 희소 오토인코더(SSAEs)를 소개합니다. SSAEs는 특정 하위 영역에 집중하여 이 난해한 어두운 요소를 명확히 하는 데 사용됩니다. SSAEs의 훈련을 위한 실용적인 방법론을 제시하며, 데이터 선택을 위한 밀집 검색의 효과성과 개념 회수를 향상시키기 위한 기울어진 경험적 위험 최소화의 이점을 보여줍니다. 우리는 SSAEs의 표준 메트릭인 하류 헷갈림(perplexity) 및 L_0 희소성 등을 평가하고, 이들이 하위 영역 꼬리 개념을 효과적으로 포착하여 일반 목적 SAE의 능력을 능가한다는 것을 보여줍니다. SSAEs의 실용적 유틸리티를 보여주기 위해 Bias in Bios 데이터셋에 대한 사례 연구를 소개합니다. 여기서 SSAEs는 잘못된 성별 정보를 제거하는 데 적용될 때 최악의 그룹 분류 정확도가 12.5% 향상됩니다. SSAEs는 하위 영역에서 FM의 내부 작동을 엿보는 강력한 새로운 시각을 제공합니다.
저희는 ExpertPrompting (Xu et al., 2023)의 혁신적인 개선인 Multi-expert Prompting을 제안합니다. 이는 대형 언어 모델 (LLM) 생성을 향상시키기 위해 설계되었습니다. 구체적으로, 이는 LLM이 입력 지시에 부응하도록 안내하기 위해 여러 전문가를 시뮬레이션하고, 그들의 응답을 집계하며, 개별 및 집계된 응답 중 최상의 것을 선택합니다. 이 과정은 Ven과 Delbecq (1974)의 Nominal Group Technique에서 파생된 7가지 신중히 설계된 하위 작업을 통해 단일 사고 체인에서 수행됩니다. 저희의 평가 결과, Multi-expert Prompting이 진실성, 사실성, 정보 제공성 및 유용성을 향상시키는 데 있어 ExpertPrompting 및 비교 기준선을 현저히 능가하며, 독성 및 상처를 줄입니다. 또한 ChatGPT에서 최고의 기준선을 8.69% 능가하여 최신의 진실성을 달성합니다. Multi-expert Prompting은 효율적이고 설명 가능하며 다양한 시나리오에 매우 적응 가능하여 수동 프롬프트 작성의 필요성을 제거합니다.
본 논문은 사전 학습된 확산 모델을 활용하여 소음이 있는 선형 역문제를 효율적으로 해결하는 알고리즘을 설명합니다. 소음 제거 확산 암시 모델(DDIM) 패러다임을 확장하여, 최종 출력에 제약 조건을 강제하는 확산 암시 모델(CDIM)을 제안합니다. 무소음 역문제의 경우, CDIM은 제약 조건을 정확히 만족시킵니다. 소음이 있는 경우, CDIM을 일반화하여 소음의 잔차 분포에 정확한 제약 조건을 만족하도록 합니다. 다양한 작업과 메트릭을 통한 실험 결과는 CDIM의 강력한 성능을 보여주며, 무제약 DDIM과 유사한 추론 가속화를 제공합니다. 이전 조건부 확산 방법보다 10배에서 50배 빠릅니다. 초해상도, 소음 제거, 인페인팅, 흐림 제거 및 3D 포인트 클라우드 재구성을 포함한 여러 문제에 대한 접근법의 다재다능성을 시연합니다.
최근 대규모 다중 모달 모델(LMMs)은 텍스트-풍부 이미지 이해 분야에서 큰 진전을 보여주었지만, 여전히 복잡하고 멀티페이지이며 시각적으로 풍부한 문서에 어려움을 겪고 있습니다. 문서 파서를 사용한 전통적인 방법은 검색 증강 생성에 있어서 성능과 효율성 제한을 겪지만, 모든 페이지를 LMMs에 직접 제시하는 것은 특히 긴 문서의 경우 비효율적입니다. 본 연구에서는 LoRA-대규모 다중 모달 모델의 맥락화 적응(LoCAL)이라는 새로운 프레임워크를 제시합니다. 이 프레임워크는 어떤 LMM도 장문서 이해를 지원할 수 있도록 확장합니다. 우리는 LMMs가 다중 모달 검색기 역할을 효과적으로 수행할 수 있음을 입증하고, 사용자 질문에 대답하기 위해 관련 페이지를 검색하는 LoCAL을 소개합니다. LoCAL은 두 가지 특정 LMM 어댑터로 구현되어 있습니다: 증거 페이지 검색을 위한 하나와 질문에 대한 답변을 위한 다른 하나입니다. 경험적 결과는 공개 벤치마크에서 최첨단 성능을 보여주며, LoCAL의 효과를 입증합니다.
우리는 작은 규모와 대규모 사용 사례를 모두 다루는 아랍어 언어를 중심으로 한 임베딩 모델 패밀리인 Swan을 소개합니다. Swan은 두 가지 변형을 포함하고 있습니다: ARBERTv2를 기반으로 한 Swan-Small과 사전 훈련된 아랍어 대형 언어 모델인 ArMistral을 기반으로 하는 Swan-Large입니다. 이러한 모델을 평가하기 위해 우리는 아랍어 텍스트 임베딩 성능을 평가하는 포괄적인 벤치마킹 스위트인 ArabicMTEB를 제안합니다. 이는 94개 데이터셋을 포함하며 8가지 다양한 작업을 다루며, 크로스-언어, 다이아렉토, 다중 도메인 및 다문화적 아랍어 텍스트 임베딩 성능을 평가합니다. Swan-Large는 대부분의 아랍어 작업에서 Multilingual-E5-large를 능가하는 최첨단 결과를 달성하며, Swan-Small은 일관되게 Multilingual-E5 base를 능가합니다. 우리의 포괄적인 평가는 Swan 모델이 방언적으로나 문화적으로 인식력이 뛰어나며, 다양한 아랍어 도메인에서 뛰어나며 상당한 비용 효율성을 제공한다는 것을 입증합니다. 이 연구는 아랍어 언어 모델링 분야를 크게 발전시키고, 아랍어 자연어 처리 분야의 미래 연구 및 응용에 유용한 자원을 제공합니다. 우리의 모델과 벤치마크는 연구를 위해 공개적으로 접근 가능하게 될 것입니다.