번역이 포함된 일일 선별된 AI 연구 논문
계산 양자 화학 방법론은 컴퓨터 보조 약물 발견 및 화학 과학의 다른 분야에서 중요한 분자 특성의 정확한 근사치를 제공합니다. 그러나 높은 계산 복잡성으로 인해 이들의 응용 확장성이 제한됩니다. 신경망 포텐셜(NNPs)은 양자 화학 방법론에 대한 유망한 대안이지만, 이를 위해서는 대규모의 다양한 데이터셋이 학습에 필요합니다. 본 연구는 nablaDFT를 기반으로 한 새로운 데이터셋 및 벤치마크인 nabla^2DFT를 제시합니다. 이 데이터셋은 두 배 많은 분자 구조, 세 배 많은 형태, 새로운 데이터 유형 및 과제, 그리고 최신 모델들을 포함합니다. 데이터셋은 에너지, 힘, 17가지 분자 특성, 해밀토니안 및 중첩 행렬, 그리고 파동함수 객체를 포함합니다. 모든 계산은 각 형태에 대해 DFT 수준(omegaB97X-D/def2-SVP)에서 수행되었습니다. 더욱이, nabla^2DFT는 상당수의 약물 유사 분자에 대한 이완 궤적을 포함하는 최초의 데이터셋입니다. 또한, 우리는 분자 특성 예측, 해밀토니안 예측, 그리고 형태 최적화 과제에서 NNPs를 평가하기 위한 새로운 벤치마크를 소개합니다. 마지막으로, 우리는 NNPs 학습을 위한 확장 가능한 프레임워크를 제안하고, 그 안에 10개의 모델을 구현합니다.
비지도 다중 작업 사전 학습은 최근 언어 모델(LM)의 성공을 이끈 핵심 방법이었습니다. 그러나 지도 다중 작업 학습은 여전히 상당한 잠재력을 가지고 있으며, 사후 학습 단계에서 이를 확장하는 것이 더 나은 일반화로 이어지는 추세입니다. 본 논문에서는 지도 다중 작업 사전 학습을 탐구하기 위해 Instruction Pre-Training이라는 프레임워크를 제안합니다. 이 프레임워크는 대규모 원시 코퍼스를 명령어-응답 쌍으로 확장 가능하게 보강하여 LM을 사전 학습합니다. 명령어-응답 쌍은 오픈소스 모델을 기반으로 구축된 효율적인 명령어 합성기에 의해 생성됩니다. 실험에서는 40개 이상의 작업 범주를 포함하는 2억 개의 명령어-응답 쌍을 합성하여 Instruction Pre-Training의 효과를 검증했습니다. 처음부터 사전 학습할 때, Instruction Pre-Training은 사전 학습된 기본 모델을 지속적으로 개선할 뿐만 아니라 추가적인 명령어 튜닝에서 더 큰 이점을 얻었습니다. 지속적인 사전 학습에서는 Instruction Pre-Training이 Llama3-8B를 Llama3-70B와 비슷하거나 더 나은 성능을 발휘하도록 가능하게 했습니다. 우리의 모델, 코드, 데이터는 https://github.com/microsoft/LMOps에서 확인할 수 있습니다.
실제 이미지 속성을 StyleGAN 인버전을 통해 조작하는 작업은 광범위하게 연구되어 왔습니다. 이 과정은 잘 훈련된 StyleGAN 생성기에서 실제 이미지를 합성할 수 있는 잠재 변수를 탐색하고, 이러한 잠재 변수를 수정한 다음 원하는 편집이 적용된 이미지를 합성하는 것을 포함합니다. 이때 재구성 품질과 편집 능력 사이의 균형을 맞추는 것이 중요합니다. 초기 연구에서는 효과적인 편집을 가능하게 하지만 복잡한 세부 사항을 재구성하는 데 어려움을 겪는 저차원 W-공간을 잠재 탐색에 활용했습니다. 최근 연구에서는 입력 이미지를 성공적으로 역변환하지만 편집 중에 많은 세부 사항을 잃는 고차원 특징 공간 F로 전환했습니다. 본 논문에서는 w-잠재 변수와 F-잠재 변수 모두에서 편집을 가능하게 하는 새로운 방법인 StyleFeatureEditor를 소개합니다. 이 기술은 더 섬세한 이미지 세부 사항을 재구성할 수 있을 뿐만 아니라 편집 중에 이를 보존할 수 있도록 합니다. 또한 F-잠재 변수를 정확하게 편집하도록 모델을 훈련시키기 위해 특별히 설계된 새로운 훈련 파이프라인을 제시합니다. 우리의 방법은 최신 인코딩 접근 방식과 비교하여, 우리 모델이 재구성 품질에서 우수하며 도메인 외의 어려운 예제도 편집할 수 있음을 보여줍니다. 코드는 https://github.com/AIRI-Institute/StyleFeatureEditor에서 확인할 수 있습니다.
인간 사전 지식은 딥러닝에서 데이터를 효율적으로 활용하는 데 중요한 역할을 합니다. 그러나 대규모 언어 모델(LLMs)의 발전과 함께 모델 크기와 데이터 양을 확장하는 데 초점이 맞춰지면서, 데이터 구축에서 인간 사전 지식의 중요성이 점차 감소하고 있습니다. 이러한 추세에 영향을 받아, 기존의 소규모 언어 모델(SLMs)은 주로 웹에서 수집된 대규모 훈련 데이터에 의존하며, 인간 사전 지식을 적절히 통합하지 못하고 있습니다. 이러한 간과는 자원이 제한된 환경에서 언어 모델의 훈련 효율성을 제한합니다. 본 논문에서는 데이터 구축을 위해 인간 사전 지식을 활용하는 원칙을 제안합니다. 이 원칙은 벤치마크 데이터 누출을 피하면서도 의미적 다양성과 데이터 품질 일관성을 모두 고려한 간결한 데이터셋을 통해 고성능 SLMs를 달성하는 데 중점을 둡니다. 이 원칙에 따라 HARE-1.1B라는 SLM을 훈련시켰습니다. 대규모 벤치마크 데이터셋에 대한 광범위한 실험을 통해 HARE-1.1B가 최신 SLMs와 비교하여 우수한 성능을 보임으로써 제안된 원칙의 효과를 입증했습니다. 또한, 이는 인간 사전 지식의 관점에서 자원이 제한된 환경에서의 효율적인 언어 모델 훈련에 대한 새로운 통찰을 제공합니다.
비전 언어 모델(VLMs)은 강력한 인지 및 추론 능력을 요구하는 다양한 시각적 질문을 해결하는 데 있어 뛰어난 숙련도를 보여줍니다. 기존 VLMs에서 보기와 추론이 밀접하게 얽혀 있는 특성으로 인해 어려움이 있지만, 이 두 능력을 독립적으로 평가하는 것은 모델 개선에 있어 매우 중요합니다. 이 문제를 해결하기 위해, 우리는 시각적 문제 해결에 관여하는 인지와 추론 과정을 분리하도록 설계된 혁신적인 프레임워크인 Prism을 제안합니다. Prism은 두 가지 독립적인 단계로 구성됩니다: VLM을 활용하여 시각 정보를 추출하고 이를 텍스트 형태로 표현하는 인지 단계와, 추출된 시각 정보를 기반으로 대형 언어 모델(LLM)을 사용하여 응답을 구성하는 추론 단계입니다. 이 모듈식 설계는 독점 및 오픈소스 VLM의 인지 및 추론 강점을 체계적으로 비교하고 평가할 수 있게 합니다. 우리의 분석 프레임워크는 Prism이 비전-언어 작업을 위한 비용 효율적인 솔루션으로서의 잠재력을 강조하는 여러 유용한 통찰을 제공합니다. 인지에 초점을 맞춘 간소화된 VLM과 추론에 특화된 강력한 LLM을 결합함으로써, Prism은 일반적인 비전-언어 작업에서 우수한 결과를 달성하면서도 훈련 및 운영 비용을 크게 절감합니다. 정량적 평가 결과, Prism은 기본적인 2B LLaVA와 자유롭게 접근 가능한 GPT-3.5로 구성되었을 때, 엄격한 멀티모달 벤치마크 MMStar에서 10배 더 큰 VLMs와 동등한 성능을 보여줍니다. 이 프로젝트는 https://github.com/SparksJoe/Prism에서 공개되었습니다.
대규모 시각-언어 모델(LVLMs)의 등장은 다중 모달리티 환경, 특히 비디오 이해 분야에서의 응용 연구를 촉진했습니다. 기존의 VideoQA 벤치마크는 정량적 지표를 제공하지만, 비디오 콘텐츠의 전체 스펙트럼을 포괄하지 못하며 모델의 시간적 이해력을 충분히 평가하지 못하는 경우가 많습니다. 이러한 한계를 해결하기 위해, 우리는 LVLMs의 비디오 이해 능력을 엄격하게 평가하기 위해 설계된 정량적 벤치마크인 MMBench-Video를 소개합니다. MMBench-Video는 YouTube의 긴 비디오를 포함하고 실용적인 사용 사례를 반영한 자유 형식 질문을 사용합니다. 이 벤치마크는 모델의 시간적 추론 능력을 탐구하기 위해 세심하게 설계되었으며, 모든 질문은 신중하게 구성된 능력 분류 체계에 따라 인간이 주석을 달았습니다. 우리는 GPT-4를 자동 평가에 활용하여, 이전의 LLM 기반 평가보다 우수한 정확성과 견고성을 입증했습니다. MMBench-Video를 활용하여, 우리는 이미지와 비디오를 위한 독점 및 오픈소스 LVLMs를 모두 포함한 포괄적인 평가를 수행했습니다. MMBench-Video는 연구 커뮤니티에 귀중한 자원으로, LVLMs의 평가를 개선하고 비디오 이해 분야의 진전을 촉진합니다. MMBench-Video의 평가 코드는 VLMEvalKit에 통합될 예정입니다: https://github.com/open-compass/VLMEvalKit.
대규모 언어 모델(LLM) 병합은 여러 전문가 LLM을 단일 다목적 모델로 결합하여 원본 모델의 전문성을 유지하는 비용 효율적인 기술입니다. 그러나 현재의 접근 방식들은 병합 과정에서 안전 정렬의 중요성을 종종 간과하여 심각하게 정렬되지 않은 모델을 초래합니다. 본 연구는 모델 병합이 정렬에 미치는 영향을 조사합니다. 우리는 여러 인기 있는 모델 병합 기법을 평가하며, 기존 방법들이 도메인 전문성을 전달할 뿐만 아니라 정렬 오류도 전파한다는 것을 입증합니다. 이 문제를 해결하기 위해 우리는 간단한 두 단계 접근 방식을 제안합니다: (i) 합성 안전 및 도메인 특화 데이터를 생성하고, (ii) 이러한 생성된 데이터를 기존의 데이터 인식 모델 병합 기법의 최적화 과정에 통합하는 것입니다. 이를 통해 정렬을 결과적으로 병합된 LLM에서 극대화할 수 있는 기술로 취급할 수 있습니다. 우리의 실험은 병합 과정에서 정렬 관련 데이터를 통합하는 것이 도메인 전문성과 정렬 모두에서 우수한 모델을 만드는 데 효과적임을 보여줍니다.
시각적 사고가 필요한 질문을 접했을 때, 인간은 자연스럽게 사고 방식을 전환하며, 종종 마음속 이미지를 형성하거나 시각적 보조 도구를 그립니다. 대형 언어 모델은 사고의 연쇄(chain of thought)로 중간 추론 과정을 텍스트로 표현함으로써 산술 및 기호 추론에서 유망한 결과를 보여왔지만, 광범위한 다중모드 사전 학습에도 불구하고 시각적 추론으로 쉽게 해결할 수 있는 텍스트 질의에 이 능력을 확장하는 데 어려움을 겪습니다. 우리는 다중모드 대형 언어 모델의 시각적 추론 능력을 다양한 모드에서 발휘할 수 있도록 하는 간단한 방법인 '화이트보드 사고 프롬프팅(whiteboard-of-thought prompting)'을 소개합니다. 화이트보드 사고 프롬프팅은 다중모드 대형 언어 모델에 추론 단계를 이미지로 그릴 수 있는 은유적인 '화이트보드'를 제공한 다음, 이러한 이미지를 모델에 다시 반환하여 추가 처리를 수행합니다. 우리는 이 방법이 데모나 특수 모듈 없이도 Matplotlib 및 Turtle과 같은 라이브러리를 사용하여 코드를 작성하는 모델의 기존 능력을 활용함으로써 가능하다는 것을 발견했습니다. 이 간단한 접근 방식은 시각적 및 공간적 추론이 포함된 네 가지 어려운 자연어 작업에서 최첨단 결과를 보여줍니다. 우리는 사고의 연쇄를 사용하는 GPT-4o가 극적으로 실패하는 여러 설정을 확인했으며, 그 중 하나 이상에서 0%의 정확도를 달성하는 반면, 화이트보드 사고는 동일한 설정에서 최대 92%의 정확도를 가능하게 합니다. 우리는 이 기술이 성공하는 경우와 오류의 원인에 대한 상세한 탐구를 제시합니다.
확산 증류(Diffusion distillation)는 적은 샘플링 단계로도 충실한 텍스트-이미지 생성을 달성하기 위한 매우 유망한 방향성을 제시합니다. 그러나 최근의 성공에도 불구하고, 기존의 증류된 모델들은 여전히 실제 이미지 역변환(real image inversion)과 같은 확산 모델의 전체 능력 스펙트럼을 제공하지 못하고 있으며, 이는 다양한 정밀한 이미지 조작 방법을 가능하게 합니다. 본 연구는 증류된 텍스트-이미지 확산 모델에 실제 이미지를 효과적으로 잠재 공간(latent space)으로 인코딩할 수 있는 능력을 부여하는 것을 목표로 합니다. 이를 위해, 우리는 가역적 일관성 증류(invertible Consistency Distillation, iCD)를 소개합니다. 이는 단 3-4번의 추론 단계만으로도 고품질 이미지 합성과 정확한 이미지 인코딩을 모두 가능하게 하는 일반화된 일관성 증류 프레임워크입니다. 텍스트-이미지 확산 모델의 역변환 문제는 높은 classifier-free guidance scale에서 더욱 악화되지만, 우리는 동적 가이던스(dynamic guidance)가 생성 성능의 눈에 띄는 저하 없이 재구성 오류를 크게 줄인다는 사실을 발견했습니다. 결과적으로, 동적 가이던스를 장착한 iCD는 더 비싼 최첨단 대안들과 경쟁할 수 있는 제로샷 텍스트 기반 이미지 편집을 위한 매우 효과적인 도구로 활용될 수 있음을 입증합니다.
정보 추출 작업은 정확하고 효율적이며 일반화 가능한 모델을 요구합니다. 기존의 지도 학습 기반 딥러닝 접근법은 필요한 성능을 달성할 수 있지만, 대규모 데이터셋이 필요하며 다양한 작업에 적응하는 능력이 제한적입니다. 반면, 대형 언어 모델(LLM)은 우수한 일반화 능력을 보여주어 사용자 요청에 따라 다양한 작업에 적응할 수 있습니다. 그러나 LLM은 계산 비용이 많이 들며 구조화된 출력을 생성하는 데 실패하는 경향이 있습니다. 이 논문에서는 다양한 정보 추출 작업에 사용할 수 있는 소형 인코더 모델인 새로운 종류의 GLiNER 모델을 소개합니다. 우리의 모델은 제로샷 NER 벤치마크에서 SoTA 성능을 달성했으며, 질문 응답, 요약, 관계 추출 작업에서도 선두적인 성능을 보였습니다. 또한, 이 논문에서는 GLiNER 모델을 사용한 명명된 개체 인식을 위한 자기 학습 접근법에 대한 실험 결과를 다룰 것입니다.
최근 대규모 멀티모달 모델(Large Multimodal Models, LMMs)의 발전은 방대한 멀티모달 데이터셋을 활용하여 복잡한 지식 기반 작업에서의 성능을 향상시켰습니다. 그러나 지각 및 추론 오류와 같은 지속적인 문제들은 특히 복잡한 시각 데이터 해석과 멀티모달 관계 추론에서 모델의 효율성을 제한하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 멀티모달 학습의 깊이와 폭을 크게 개선할 수 있는 새로운 데이터셋 형식인 PIN(Paired and INterleaved multimodal documents)을 소개합니다. PIN 형식은 지식 강도, 확장성, 다양한 학습 방식 지원이라는 세 가지 기본 원칙에 기반을 두고 있습니다. 이 혁신적인 형식은 마크다운 파일과 포괄적인 이미지를 결합하여 밀도 높은 지식 구조와 다양한 학습 전략을 통해 학습 데이터를 풍부하게 만듭니다. 우리는 중국어와 영어로 된 다양한 소스에서 추출한 1,400만 개의 샘플로 구성된 오픈소스 데이터셋인 PIN-14M을 제시합니다. 이 데이터셋은 복잡한 웹 및 과학 콘텐츠를 포함하도록 설계되었으며, 데이터 품질과 윤리적 무결성을 보장하기 위해 세심하게 구축되었습니다. 이를 통해 고급 학습 전략을 촉진하고 일반적인 멀티모달 학습의 함정에 대한 모델의 견고성을 개선하는 것을 목표로 합니다. 이 기술 보고서의 기초가 된 초기 결과는 PIN 형식이 LMM 성능을 개선하는 데 상당한 잠재력을 가지고 있음을 시사하며, 향후 확장 및 모델 기능에 미치는 영향에 대한 상세한 평가를 계획하고 있습니다.
비전 언어 모델(VLM)을 위한 훈련 코퍼스는 일반적으로 의사 결정 중심 데이터가 충분하지 않습니다. 이로 인해 기성 VLM은 그래픽 사용자 인터페이스(GUI)를 통한 실외 기기 제어와 같은 의사 결정 작업에 최적화되지 않습니다. 정적 데모를 사용한 훈련이 일부 가능성을 보여주었지만, 이러한 방법은 정적 관찰 데이터에서 포착되지 않는 실제 세계의 확률성과 비정상성을 다루지 못해 실제 GUI 제어에는 부족함이 있습니다. 본 논문은 사전 훈련된 VLM을 두 단계로 미세 조정하여 실외 기기 제어 에이전트를 훈련하기 위한 새로운 자율 강화 학습(RL) 접근법인 DigiRL을 소개합니다: 오프라인 RL로 모델을 초기화한 후, 오프라인에서 온라인으로의 RL을 수행합니다. 이를 위해, VLM 기반 평가자를 갖춘 확장 가능하고 병렬화 가능한 Android 학습 환경을 구축하고, 이 도메인에서 학습하기 위한 간단하지만 효과적인 RL 접근법을 개발했습니다. 우리의 접근법은 확률성을 고려한 이점 추정기와 최대 학습 신호를 도출하기 위한 자동 커리큘럼을 함께 사용하여 이점 가중 RL을 실행합니다. 우리는 Android-in-the-Wild(AitW) 데이터셋을 사용하여 DigiRL의 효과를 입증했으며, RL로 훈련된 1.3B VLM은 정적 인간 데모 데이터를 사용한 지도 미세 조정 대비 49.5%의 절대적 개선(17.7%에서 67.2% 성공률)을 달성했습니다. 이러한 결과는 GPT-4V를 사용한 AppAgent(8.3% 성공률)와 AitW 데이터로 훈련된 17B CogAgent(38.5%)를 포함한 이전 최고의 에이전트뿐만 아니라, 필터링된 행동 복제 기반의 이전 최고 자율 RL 접근법(57.8%)도 크게 능가하여, 실외 기기 제어를 위한 디지털 에이전트의 새로운 최첨단 기술을 확립했습니다.
대규모 언어 모델(LLM)의 핵심 능력 중 하나는 자연어 지시를 따르는 것입니다. 그러나 수동 주석 없이도 LLM의 복잡한 지시 수행 능력을 향상시키기 위해 고품질의 훈련 데이터를 자동으로 구성하는 문제는 여전히 해결되지 않고 있습니다. 본 논문에서는 지시 수행 훈련 데이터를 자동으로 생성하는 최초의 확장 가능하고 신뢰할 수 있는 방법인 AutoIF를 소개합니다. AutoIF는 지시 수행 데이터의 품질 검증을 코드 검증으로 전환하여, LLM이 지시를 생성하고, 지시 응답의 정확성을 확인하는 코드를 생성하며, 코드의 정확성을 검증하기 위한 단위 테스트 샘플을 생성하도록 요구합니다. 그런 다음, 실행 피드백 기반의 거부 샘플링을 통해 지도 미세 조정(SFT)과 인간 피드백 강화 학습(RLHF) 훈련을 위한 데이터를 생성할 수 있습니다. AutoIF는 최고의 오픈소스 LLM인 Qwen2와 LLaMA3에 적용하여 자체 정렬 및 강한 모델에서 약한 모델로의 지식 증류 설정에서 SFT, 오프라인 DPO, 온라인 DPO 등 세 가지 훈련 알고리즘 전반에 걸쳐 상당한 개선을 달성했습니다. 우리의 코드는 https://github.com/QwenLM/AutoIF에서 공개되어 있습니다.
본 논문에서는 불완전한 프롬프트로도 추론을 수행할 수 있는 대규모 언어 모델(LLM)을 위한 새로운 저지연 추론 프레임워크를 소개한다. 계산 프로세스를 프롬프트 입력 단계로 재배치함으로써 지연 시간을 상당히 줄여 LLM 사용자의 상호작용 경험을 크게 향상시킨다. 이 프레임워크는 스트리밍 프롬프트의 가시성을 모델에 적절히 관리하여, 불완전한 프롬프트로부터 추론하거나 추가 프롬프트를 기다릴 수 있게 한다. 완전한 프롬프트를 사용하는 기존 추론 방법과 비교하여, MMLU-Pro 데이터셋에서 평균 59%의 응답 지연 시간 감소를 달성하면서도 비슷한 정확도를 유지한다. 또한, 이 프레임워크는 다양한 모델 간의 협업 추론 및 출력을 용이하게 한다. LLM을 추론에 사용하고 소규모 언어 모델(SLM)을 출력에 사용함으로써, SLM 기준선 대비 MMLU-Pro 데이터셋에서 평균 68%의 응답 지연 시간 감소와 5.5%의 정확도 향상을 달성한다. 20문장을 초과하는 긴 프롬프트의 경우, 응답 지연 시간을 최대 93%까지 줄일 수 있다.
상식 추론은 근본적으로 다중 모달 지식에 기반을 두고 있습니다. 그러나 기존의 대형 언어 모델(LLMs)은 주로 텍스트 데이터만을 사용해 학습되기 때문에 필수적인 시각 정보를 통합하는 능력이 제한적입니다. 반면, 시각 중심 작업에서 뛰어난 성능을 보이는 시각 언어 모델은 기본적인 상식 추론과 같은 비시각적 작업에서는 종종 실패합니다. 이러한 차이는 강력한 시각 이해와 텍스트 기반 언어 추론의 통합이라는 중요한 과제를 부각시킵니다. 이를 위해, 우리는 LLM의 시각적 상식을 향상시키기 위한 방법을 제안합니다. 구체적으로, 우리의 방법은 입력 텍스트 프롬프트를 기반으로 여러 이미지를 생성하고, 이들의 예측 확률을 혼합하여 모델의 의사결정 과정에 통합합니다. 다중 모달 기반 언어 모델링을 용이하게 하기 위해, 우리는 사전 학습된 LLM의 텍스트 전용 출력과 투영된 시각적 특징을 결합하는 후기 융합(late-fusion) 레이어를 사용합니다. 이 후기 융합 레이어는 포괄적인 이미지-텍스트 지식뿐만 아니라 필요한 경우 텍스트만을 기반으로 예측을 가능하게 합니다. 우리는 이 접근법을 여러 시각적 상식 추론 작업과 함께 전통적인 NLP 작업(상식 추론 및 독해 포함)을 사용해 평가합니다. 실험 결과는 기존의 베이스라인을 크게 능가함을 보여줍니다. 최신 최첨단 LLM(예: Llama3)에 적용했을 때, 시각적 상식뿐만 아니라 전통적인 NLP 벤치마크에서도 개선이 관찰되었습니다. 코드와 모델은 https://github.com/guyyariv/vLMIG에서 확인할 수 있습니다.
인간의 선호도에 언어 모델을 정렬시키는 표준 방법인 Direct Preference Optimization(DPO)은 전통적으로 오프라인 선호도에 적용되어 왔습니다. 최근 연구에 따르면, 훈련된 보상 모델에 의해 라벨링된 온라인 선호도를 사용한 반복적 훈련이 DPO에 이점을 제공한다고 합니다. 본 연구에서는 기본적인 반복적 DPO의 한계를 발견했는데, 응답 품질이 개선될수록 장황함이 증가할 수 있다는 점입니다. 이를 해결하기 위해, 응답 길이에 패널티를 부여하는 반복적 길이 정규화 DPO(iLR-DPO)를 도입했습니다. 실험 결과, iLR-DPO는 7B 모델이 장황함을 증가시키지 않으면서 GPT-4와 동등한 성능을 발휘하도록 향상시킬 수 있음을 보여줍니다. 구체적으로, 우리의 7B 모델은 AlpacaEval 2.0에서 GPT-4 Preview 대비 50.5%의 길이 제어 승률을 달성했으며, MT-Bench, Arena-Hard, OpenLLM Leaderboard를 포함한 표준 벤치마크에서도 우수한 성능을 보였습니다. 이러한 결과는 반복적 DPO가 인간 피드백에 언어 모델을 정렬시키는 데 효과적임을 입증합니다.
리포지토리 수준에서 실행 가능하고 기능적으로 정확한 코드를 생성하는 CodeLLM의 능력은 아직까지 크게 탐구되지 않았습니다. 우리는 리포지토리 수준의 코드 생성을 평가하기 위한 새로운 벤치마크인 RepoExec를 소개합니다. RepoExec는 실행 가능성, 높은 커버리지율을 가진 자동화된 테스트 케이스 생성을 통한 기능적 정확성, 그리고 정확한 코드 생성을 위해 신중하게 설계된 크로스 파일 컨텍스트라는 세 가지 주요 측면에 초점을 맞춥니다. 우리의 연구는 개발자가 필요한 코드 의존성을 명시하는 통제된 시나리오를 탐구하며, 모델이 이를 정확하게 통합하도록 요구합니다. 실험 결과, 사전 학습된 LLM이 정확성 면에서 지시 튜닝된 모델을 능가하는 반면, 후자는 제공된 의존성을 활용하고 디버깅 능력을 보여주는 데 뛰어난 성과를 보였습니다. 또한, 우리는 코드 의존성에 초점을 맞춘 새로운 지시 튜닝 데이터셋을 소개하고, 이 데이터셋으로 미세 조정된 CodeLLM이 이러한 의존성을 효과적으로 활용하는 능력이 더 뛰어남을 입증합니다. RepoExec는 코드 기능성과 개발자 의도와의 일치를 포괄적으로 평가하여, 실제 시나리오에서 더 신뢰할 수 있고 적용 가능한 CodeLLM을 위한 길을 열어줄 것을 목표로 합니다. 데이터셋과 소스 코드는 https://github.com/FSoft-AI4Code/RepoExec에서 확인할 수 있습니다.
최근 비디오 합성 기술의 발전이 큰 주목을 받고 있습니다. AnimateDiff와 Stable Video Diffusion과 같은 비디오 합성 모델들은 확산 모델을 활용해 동적 시각 콘텐츠를 생성하는 데 있어 실용적인 가능성을 입증했습니다. SORA의 등장은 비디오 생성 기술의 잠재력을 더욱 부각시켰습니다. 그러나 비디오 길이의 확장은 컴퓨팅 자원의 한계로 인해 제약을 받아왔습니다. 대부분의 기존 비디오 합성 모델들은 짧은 비디오 클립만 생성할 수 있습니다. 본 논문에서는 ExVideo라는 새로운 비디오 합성 모델의 사후 조정 방법론을 제안합니다. 이 접근법은 현재의 비디오 합성 모델들이 더 긴 시간 동안 콘텐츠를 생성할 수 있도록 하면서도 더 낮은 학습 비용을 유지할 수 있도록 설계되었습니다. 특히, 우리는 3D 컨볼루션, 시간적 어텐션, 위치 임베딩과 같은 일반적인 시간적 모델 아키텍처에 걸쳐 확장 전략을 각각 설계했습니다. 제안된 사후 조정 접근법의 효과를 평가하기 위해 Stable Video Diffusion 모델에 대한 확장 학습을 수행했습니다. 우리의 접근법은 모델이 원래 프레임 수의 최대 5배까지 생성할 수 있는 능력을 향상시키며, 40k 비디오로 구성된 데이터셋에서 단 1.5k GPU 시간의 학습만을 요구합니다. 중요한 점은, 비디오 길이의 상당한 증가가 모델의 본질적인 일반화 능력을 저해하지 않으며, 다양한 스타일과 해상도의 비디오 생성에서 그 장점을 보여준다는 것입니다. 우리는 소스 코드와 향상된 모델을 공개할 예정입니다.
기존 벤치마크는 언어 에이전트가 인간 사용자와의 상호작용이나 도메인 특정 규칙을 따르는 능력을 테스트하지 않는데, 이는 실제 애플리케이션에 배포하기 위해 필수적인 요소입니다. 우리는 tau-bench를 제안하는데, 이는 도메인 특정 API 도구와 정책 가이드라인이 제공된 언어 에이전트와 사용자(언어 모델로 시뮬레이션됨) 간의 동적 대화를 에뮬레이트하는 벤치마크입니다. 우리는 대화 종료 시 데이터베이스 상태를 주석이 달린 목표 상태와 비교하는 효율적이고 신뢰할 수 있는 평가 프로세스를 사용합니다. 또한, 에이전트 행동의 신뢰성을 여러 시도에 걸쳐 평가하기 위한 새로운 메트릭(pass^k)을 제안합니다. 우리의 실험 결과, 최첨단 함수 호출 에이전트(예: gpt-4o)조차도 작업의 50% 미만에서 성공하며, 상당히 일관성이 없음(소매 도메인에서 pass^8 <25%)을 보여줍니다. 이러한 발견은 에이전트가 일관적으로 행동하고 규칙을 신뢰할 수 있게 따르는 능력을 향상시킬 수 있는 방법의 필요성을 지적합니다.
모델 답변의 검증 가능성을 보장하는 것은 질의응답(QA) 분야에서 검색 증강 생성(RAG)의 근본적인 과제입니다. 최근, 대규모 언어 모델(LLM)이 답변과 함께 지원 문서에 대한 인용을 생성하도록 하는 자기 인용 프롬프팅이 제안되었습니다. 그러나 자기 인용 LLM은 종종 요구된 형식에 맞추지 못하거나, 존재하지 않는 출처를 참조하며, 생성 과정 전반에 걸쳐 LLM의 문맥 사용을 충실히 반영하지 못하는 문제가 있습니다. 본 연구에서는 MIRAGE(Model Internals-based RAG Explanations)를 제안합니다. MIRAGE는 모델 내부를 활용한 플러그 앤 플레이 방식으로, RAG 애플리케이션에서 신뢰할 수 있는 답변 귀속을 가능하게 합니다. MIRAGE는 문맥에 민감한 답변 토큰을 감지하고, 이를 예측에 기여한 검색 문서와 짝짓기 위해 중요도 기법을 사용합니다. 우리는 제안된 접근 방식을 다국어 추출 QA 데이터셋에서 평가하여 인간의 답변 귀속과 높은 일치도를 확인했습니다. 개방형 QA에서는 MIRAGE가 자기 인용과 비슷한 수준의 인용 품질과 효율성을 달성하면서도, 귀속 매개변수를 더 세밀하게 제어할 수 있음을 보였습니다. 우리의 정성적 평가는 MIRAGE의 귀속이 충실함을 강조하며, RAG 답변 귀속을 위한 모델 내부의 유망한 응용 가능성을 부각시킵니다.
시각적 장면의 의미를 이해하는 것은 컴퓨터 비전 분야의 근본적인 과제입니다. 이 과제의 핵심은 유사한 의미나 기능을 공유하는 객체들이 현저한 시각적 차이를 보일 수 있어 정확한 식별과 범주화가 어렵다는 점입니다. 최근 텍스트-이미지 프레임워크의 발전으로 자연스러운 장면 통계를 암묵적으로 포착하는 모델들이 등장했습니다. 이러한 프레임워크는 객체의 시각적 변동성, 복잡한 객체 동시 발생, 그리고 다양한 조명 조건과 같은 잡음 원인들을 고려합니다. 대규모 데이터셋과 교차 주의 조건화를 활용함으로써, 이러한 모델들은 세부적이고 맥락적으로 풍부한 장면 표현을 생성합니다. 이 능력은 다양한 도전적인 환경에서 객체 인식과 장면 이해를 개선할 수 있는 새로운 가능성을 열어줍니다. 우리의 연구는 StableSemantics라는 데이터셋을 제시합니다. 이 데이터셋은 22만 4천 개의 인간이 선별한 프롬프트, 처리된 자연어 캡션, 2백만 개 이상의 합성 이미지, 그리고 개별 명사 덩어리에 해당하는 1천만 개의 주의 맵으로 구성되어 있습니다. 우리는 시각적으로 흥미로운 안정적 확산 생성에 해당하는 인간 생성 프롬프트를 명시적으로 활용하며, 각 구문에 대해 10개의 생성을 제공하고 각 이미지에 대한 교차 주의 맵을 추출합니다. 우리는 생성된 이미지의 의미적 분포를 탐구하고, 이미지 내 객체의 분포를 조사하며, 우리의 데이터에 대해 캡션 생성 및 개방형 어휘 분할 방법을 벤치마킹합니다. 우리가 아는 한, 우리는 의미적 속성이 포함된 확산 데이터셋을 최초로 공개합니다. 우리는 제안된 데이터셋이 시각적 의미 이해의 발전을 촉진하고, 더 정교하고 효과적인 시각적 모델 개발을 위한 기반을 제공할 것으로 기대합니다. 웹사이트: https://stablesemantics.github.io/StableSemantics
해석 가능성 및 분석(Interpretability and Analysis, IA) 연구는 NLP 시스템과 방법의 동작 또는 내부 작동에 대한 더 깊은 이해를 목표로 하는 NLP 내 성장 중인 하위 분야입니다. 이 하위 분야에 대한 관심이 증가하고 있음에도 불구하고, 흔히 제기되는 비판은 실행 가능한 통찰력이 부족하여 NLP에 미치는 영향이 미미하다는 것입니다. 본 논문에서는 IA 연구가 NLP 전반에 미치는 영향을 정량화하고자 합니다. 이를 위해 우리는 다음과 같은 혼합 방법론적 분석을 수행합니다: (1) 2018년부터 2023년까지 ACL 및 EMNLP 학회에서 발표된 모든 논문을 기반으로 구축된 185,000편 이상의 논문 인용 그래프, 그리고 (2) NLP 커뮤니티 구성원 138명을 대상으로 한 설문 조사. 정량적 분석 결과, IA 연구는 IA 외부에서도 활발히 인용되며 NLP 인용 그래프에서 중심적인 위치를 차지하고 있음을 보여줍니다. 설문 응답에 대한 질적 분석과 556편의 논문에 대한 수동 주석을 통해, NLP 연구자들이 IA 연구 결과를 기반으로 연구를 진행하며, IA가 NLP 및 여러 하위 분야의 발전에 중요하다고 인식하고, 자신들의 연구에 IA의 발견과 용어를 활용하고 있음을 확인했습니다. 많은 새로운 방법론이 IA 연구 결과를 바탕으로 제안되고 있으며, 이에 크게 영향을 받고 있지만, IA 연구 결과를 인용하는 매우 영향력 있는 비 IA 연구는 IA 연구 결과에 의해 주도되지는 않습니다. 우리는 현재 IA 연구에서 부족한 점을 요약하고, 더 영향력 있는 IA 연구의 미래를 열기 위한 행동 촉구로 글을 마무리합니다.
텍스트 요약 연구는 딥 뉴럴 네트워크, 사전 학습된 언어 모델(PLM), 그리고 최근의 대규모 언어 모델(LLM)의 등장과 함께 여러 차례의 중요한 변혁을 겪어왔습니다. 이에 본 조사 논문은 이러한 패러다임 전환의 관점에서 텍스트 요약 연구의 진보와 진화를 포괄적으로 검토합니다. 이 논문은 크게 두 부분으로 구성됩니다: (1) LLM 시대 이전의 데이터셋, 평가 지표, 그리고 요약 방법에 대한 상세한 개요로서, 전통적인 통계적 방법, 딥러닝 접근법, 그리고 PLM 미세 조정 기법을 포함하며, (2) LLM 시대의 벤치마킹, 모델링, 그리고 요약 평가에 관한 최근의 발전을 처음으로 상세히 조명합니다. 기존 문헌을 종합하고 일관된 개요를 제시함으로써, 이 조사 논문은 또한 연구 동향, 해결되지 않은 과제들을 논의하고, 요약 연구의 진화하는 풍경을 안내하기 위해 유망한 연구 방향을 제안합니다.
3D 장면에 대한 잠재 확산 모델을 제안하며, 이 모델은 2D 이미지 데이터만을 사용하여 학습할 수 있습니다. 이를 위해 먼저 다중 뷰 이미지를 3D 가우시안 스플랫으로 매핑하고, 동시에 이러한 스플랫의 압축된 잠재 표현을 구축하는 오토인코더를 설계합니다. 그런 다음, 잠재 공간 위에서 다중 뷰 확산 모델을 학습시켜 효율적인 생성 모델을 학습합니다. 이 파이프라인은 객체 마스크나 깊이 정보를 필요로 하지 않으며, 임의의 카메라 위치를 가진 복잡한 장면에 적합합니다. 복잡한 실제 세계 장면의 대규모 데이터셋인 MVImgNet과 RealEstate10K에 대해 신중한 실험을 수행했습니다. 우리의 접근 방식이 처음부터, 단일 입력 뷰에서, 또는 희소 입력 뷰에서 3D 장면을 0.2초 만에 생성할 수 있음을 보여줍니다. 이 모델은 비-잠재 확산 모델 및 이전의 NeRF 기반 생성 모델보다 한 차원 더 빠르게 실행되면서도 다양하고 고품질의 결과를 생성합니다.