번역이 포함된 일일 선별된 AI 연구 논문
우리는 비디오의 시각적 및 청각적 콘텐츠를 이해할 수 있는 능력을 대형 언어 모델(LLMs)에 부여하는 다중 모달 프레임워크인 Video-LLaMA를 소개합니다. Video-LLaMA는 고정된 사전 학습된 시각 및 오디오 인코더와 고정된 LLMs로부터 크로스 모달 학습을 부트스트랩합니다. MiniGPT-4~zhu2023minigpt 및 LLaVA~liu2023visualit과 같은 이전의 시각-LLMs가 정적 이미지 이해에 초점을 맞춘 것과 달리, Video-LLaMA는 비디오 이해에서 두 가지 과제를 해결합니다: (1) 시각적 장면의 시간적 변화 포착, (2) 오디오-시각적 신호 통합. 첫 번째 과제를 위해, 우리는 사전 학습된 이미지 인코더를 비디오 인코더로 확장하기 위해 Video Q-former를 제안하고, 비디오-언어 대응을 학습하기 위해 비디오-텍스트 생성 작업을 도입합니다. 두 번째 과제를 위해, 우리는 다양한 모달리티를 공통 임베딩 공간에 정렬하는 데 탁월한 성능을 보이는 ImageBind~girdhar2023imagebind를 사전 학습된 오디오 인코더로 활용합니다. 그리고 청각적 쿼리 토큰을 학습하기 위해 Audio Q-former를 도입합니다. 시각 및 오디오 인코더의 출력을 LLM의 임베딩 공간에 정렬하기 위해, 우리는 대규모 시각 캡션 데이터셋과 고품질 시각-지시-튜닝 데이터셋에서 Video-LLaMA를 학습시킵니다. 우리는 Video-LLaMA가 비디오 콘텐츠를 지각하고 이해하며, 비디오에 존재하는 시각적 및 청각적 정보에 기반한 의미 있는 응답을 생성하는 능력을 보여준다는 것을 발견했습니다. 이는 Video-LLaMA가 오디오-시각적 AI 어시스턴트로서의 유망한 프로토타입으로서의 잠재력을 강조합니다. 우리의 코드, 사전 학습된 모델, 데모는 https://github.com/DAMO-NLP-SG/Video-LLaMA에서 확인할 수 있습니다.
Polyglot은 다국어 언어 모델의 비영어 성능을 향상시키기 위한 선구적인 프로젝트입니다. mBERT(Devlin et al., 2019), XGLM(Lin et al., 2022), BLOOM(Scao et al., 2022)와 같은 다양한 다국어 모델이 존재함에도 불구하고, 연구자와 개발자들은 현재의 다국어 모델이 비영어 언어에서 보여주는 성능에 만족하지 못해 각자의 언어로 단일 언어 모델을 구축하는 경우가 많습니다. 이러한 격차를 해소하기 위해, 우리는 비영어 언어에서 더 나은 성능을 제공하는 고급 다국어 언어 모델을 개발하고자 합니다. 본 논문에서는 다국어 모델이 아닌 특정 언어에 초점을 맞춘 Polyglot 한국어 모델을 소개합니다. TUNiB와의 협력을 통해, 우리 팀은 연구 여정을 위해 세심하게 선별된 1.2TB의 한국어 데이터를 수집했습니다. 우리는 다국어 모델을 개발하기 전에 한국어 모델 개발을 우선적으로 진행하기로 결정했습니다. 이 결정은 여러 가지 이유에서 비롯되었습니다: 첫째, 한국어 모델은 기존 다국어 모델과의 성능 비교를 용이하게 했으며, 마지막으로 한국 기업과 연구자들의 특정 요구를 충족시키기 위함이었습니다. 본 논문은 다국어 언어 모델의 비영어 성능 격차를 해결하기 위한 몇 가지 단계를 제안하는 Polyglot 한국어 모델 개발 작업을 소개합니다.
대형 언어 모델(LLMs)은 다양한 추론 작업을 수행함에 있어 사고의 연쇄(Chain-of-Thought, CoT) 프롬프팅으로부터 상당한 이점을 얻습니다. CoT는 모델이 더 포괄적인 추론 과정을 생성할 수 있게 해주지만, 중간 추론 단계에 대한 강조로 인해 환각(hallucination)과 누적 오류가 발생할 수 있어 복잡한 추론 문제 해결 능력을 제한할 수 있습니다. 인간이 과제를 해결하기 위해 신중하고 꼼꼼한 연역적 논리 추론 과정을 거치는 방식에서 영감을 받아, 우리는 언어 모델이 명시적이고 엄격한 연역적 추론을 수행할 수 있도록 하고, 이를 통해 추론 과정의 신뢰성을 자체 검증을 통해 보장하고자 합니다. 그러나 ChatGPT와 같은 고급 모델을 사용하더라도 전체 연역적 추론 과정의 타당성을 직접 검증하는 것은 어려운 과제입니다. 이를 고려하여, 우리는 추론 검증 과정을 단계별 하위 과정으로 분해하고, 각 하위 과정이 필요한 맥락과 전제만을 받아들이도록 제안합니다. 이 과정을 지원하기 위해, 우리는 자연어 기반의 연역적 추론 형식인 Natural Program을 제안합니다. 우리의 접근 방식은 모델이 이전 단계를 더 엄격하게 기반으로 한 정확한 추론 단계를 생성할 수 있게 하며, 언어 모델이 단계별로 추론 자체 검증을 수행할 수 있도록 합니다. 이 검증 과정을 각 연역적 추론 단계에 통합함으로써, 생성된 추론 단계의 엄격성과 신뢰성을 크게 향상시킵니다. 이 과정을 통해 복잡한 추론 과제에서의 답변 정확성도 개선됩니다. 코드는 https://github.com/lz1oceani/verify_cot에서 공개될 예정입니다.
대규모 및 다양한 데이터셋에 대한 텍스트-음성 변환(Text-to-Speech, TTS)의 확장은, 특히 제로샷 TTS에서 음색 및 발화 스타일 일반화를 달성하는 데 매우 효과적인 것으로 입증되었습니다. 그러나 기존 연구들은 일반적으로 오디오 코덱을 사용하여 음성을 잠재 공간으로 인코딩하고, 이를 생성하기 위해 자기회귀 언어 모델이나 확산 모델을 사용하는데, 이는 음성의 본질적인 특성을 무시하고 열등하거나 통제 불가능한 결과를 초래할 수 있습니다. 우리는 음성이 여러 속성(예: 내용, 음색, 운율, 위상)으로 분해될 수 있으며, 각 속성은 적절한 귀납적 편향을 가진 모듈로 모델링되어야 한다고 주장합니다. 이러한 관점에서, 우리는 대규모의 다양한 데이터로 학습되고 각 속성을 다른 방식으로 모델링하는 Mega-TTS라는 새로운 대형 제로샷 TTS 시스템을 신중하게 설계했습니다: 1) 오디오 코덱에 의해 인코딩된 잠재 공간을 중간 특징으로 사용하는 대신, 위상과 다른 속성을 잘 분리하는 스펙트로그램을 선택했습니다. 위상은 GAN 기반 보코더에 의해 적절히 구성될 수 있으며 언어 모델에 의해 모델링될 필요가 없습니다. 2) 음색은 시간에 따라 느리게 변화하는 전역 속성이므로 전역 벡터를 사용하여 모델링합니다. 3) 운율은 문장 내에서 빠르게 변화하며 언어 모델이 지역적 및 장거리 의존성을 모두 포착할 수 있으므로, VQGAN 기반 음향 모델을 사용하여 스펙트로그램을 생성하고 잠재 코드 언어 모델을 사용하여 운율의 분포를 맞춥니다. 우리는 Mega-TTS를 20,000시간의 음성 데이터를 포함한 다중 도메인 데이터셋으로 확장하고, 보이지 않는 화자에 대한 성능을 평가했습니다. 실험 결과는 Mega-TTS가 각 모듈의 적절한 귀납적 편향 덕분에 제로샷 TTS, 음성 편집, 그리고 교차 언어 TTS 작업에서 최첨단 TTS 시스템을 능가하며, 우수한 자연스러움, 견고성, 그리고 화자 유사성을 보여줍니다. 오디오 샘플은 https://mega-tts.github.io/demo-page에서 확인할 수 있습니다.
우리는 다중 에이전트에 대한 미래 궤적의 결합 분포를 표현하는 확산 기반 표현인 MotionDiffuser를 제안합니다. 이러한 표현은 몇 가지 주요 장점을 가지고 있습니다: 첫째, 우리 모델은 다양한 미래 결과를 포착하는 고도로 다중 모드 분포를 학습합니다. 둘째, 간단한 예측기 설계는 단일 L2 손실 훈련 목표만 필요로 하며, 궤적 앵커에 의존하지 않습니다. 셋째, 우리 모델은 순열 불변 방식으로 다중 에이전트의 움직임에 대한 결합 분포를 학습할 수 있습니다. 또한, PCA를 통한 압축된 궤적 표현을 활용하여 모델 성능을 향상시키고 정확한 샘플 로그 확률의 효율적인 계산을 가능하게 합니다. 이어서, 우리는 미분 가능한 비용 함수를 기반으로 제어된 궤적 샘플링을 가능하게 하는 일반적인 제약 샘플링 프레임워크를 제안합니다. 이 전략은 규칙과 물리적 사전 지식을 강제하거나 맞춤형 시뮬레이션 시나리오를 생성하는 등 다양한 응용을 가능하게 합니다. MotionDiffuser는 기존 백본 아키텍처와 결합되어 최고 수준의 움직임 예측 결과를 달성할 수 있습니다. 우리는 Waymo Open Motion Dataset에서 다중 에이전트 움직임 예측에 대해 최첨단 결과를 얻었습니다.
최근 텍스트 기반 3D 생성 방법은 대규모 시각-언어 및 이미지 확산 모델의 확산을 활용하여 고품질 텍스처와 형상을 생성하는 데 있어 놀라운 발전을 이루었습니다. 그러나 기존 방법들은 여전히 고충실도 3D 헤드 아바타를 생성하는 데 있어 두 가지 측면에서 어려움을 겪고 있습니다: (1) 대부분 사전 학습된 텍스트-이미지 확산 모델에 의존하면서 필요한 3D 인식과 헤드 사전 지식이 부족합니다. 이로 인해 생성된 아바타에서 불일치와 기하학적 왜곡이 발생하기 쉽습니다. (2) 세밀한 편집 기능이 부족합니다. 이는 주로 사전 학습된 2D 이미지 확산 모델에서 상속된 한계 때문이며, 이러한 한계는 3D 헤드 아바타에 이르면 더욱 두드러집니다. 본 연구에서는 이러한 문제를 해결하기 위해 텍스트 프롬프트로부터 3D 헤드 아바타를 제작(즉, 생성 및 편집)하기 위한 다용도 코스-투-파인 파이프라인인 HeadSculpt를 소개합니다. 구체적으로, 먼저 랜드마크 기반 제어와 헤드의 후면 외관을 나타내는 학습된 텍스트 임베딩을 활용하여 확산 모델에 3D 인식을 부여함으로써 3D 일관성 있는 헤드 아바타 생성을 가능하게 합니다. 또한, 고해상도 미분 가능 렌더링 기술을 통해 텍스처 메쉬를 최적화하기 위한 새로운 아이덴티티 인식 편집 점수 증류 전략을 제안합니다. 이를 통해 편집 지시를 따르면서도 아이덴티티를 보존할 수 있습니다. 우리는 포괄적인 실험과 기존 방법과의 비교를 통해 HeadSculpt의 우수한 충실도와 편집 기능을 입증합니다.
우리는 음성-음성 번역(S2ST) 시스템을 위한 언어 모델 기반 프레임워크인 PolyVoice를 제안합니다. 우리의 프레임워크는 두 개의 언어 모델로 구성됩니다: 번역 언어 모델과 음성 합성 언어 모델. 우리는 완전히 비지도 방식으로 생성된 이산화된 음성 단위를 사용하며, 이를 통해 우리의 프레임워크는 문자로 기록되지 않은 언어에도 적용할 수 있습니다. 음성 합성 부분에서는 기존의 VALL-E X 접근 방식을 채택하고 단위 기반 오디오 언어 모델을 구축합니다. 이를 통해 우리의 프레임워크는 원본 음성의 음성 특성과 발화 스타일을 보존할 수 있는 능력을 갖추게 됩니다. 우리는 중국어 → 영어 및 영어 → 스페인어 쌍에 대해 시스템을 검증했습니다. 실험 결과는 우리의 시스템이 높은 번역 품질과 오디오 품질의 음성을 생성할 수 있음을 보여줍니다. 음성 샘플은 https://speechtranslation.github.io/polyvoice에서 확인할 수 있습니다.
코드를 학습한 대규모 언어 모델은 소프트웨어 개발자의 생산성을 높이는 데 큰 잠재력을 보여주고 있다. 단순한 프로그래밍 문제에서 모델이 생성한 코드의 기능적 정확성을 평가하기 위해 여러 실행 기반 벤치마크가 제안되었다. 그러나 복잡한 실제 프로젝트에서 동일한 평가를 수행하는 것은 실행 비용을 고려할 때 비용이 많이 든다. 반면, 프로그램을 실행하지 않고도 오류를 감지할 수 있는 린터(linter)와 같은 정적 분석 도구는 코드 생성 모델을 평가하는 데 잘 활용되지 않았다. 본 연구에서는 추상 구문 트리(Abstract Syntax Tree)를 활용하여 파이썬 코드 완성에서 발생하는 정적 오류를 정량화하는 정적 평가 프레임워크를 제안한다. 실행 기반 평가와 비교하여 우리의 방법은 더 효율적일 뿐만 아니라 실제 환경의 코드에도 적용 가능하다. 실험을 위해 오픈소스 저장소에서 코드 컨텍스트를 수집하여 공개 모델을 사용해 100만 개의 함수 본문을 생성했다. 정적 분석 결과, 언어 모델이 만드는 오류 중에서 '정의되지 않은 이름(Undefined Name)'과 '사용되지 않은 변수(Unused Variable)'가 가장 흔한 오류로 나타났다. 또한, 광범위한 연구를 통해 샘플링 온도, 모델 크기, 컨텍스트가 코드 완성에서의 정적 오류에 미치는 영향을 보여준다.
노이즈 제거 확산 확률 모델(Denoising Diffusion Probabilistic Models)은 놀라운 정확도와 다양성으로 이미지 생성 분야를 혁신적으로 변화시켰다. 본 연구에서는 이러한 모델이 특정 작업에 맞춤화된 아키텍처와 손실 함수 없이도 광학 흐름(optical flow)과 단안 깊이(monocular depth) 추정에서도 탁월한 성능을 보인다는 것을 입증한다. 기존의 회귀 기반 방법론이 제공하는 점 추정(point estimates)과 달리, 확산 모델은 몬테카로 추론(Monte Carlo inference)을 가능하게 하여 흐름과 깊이에서의 불확실성과 모호성을 포착할 수 있다. 자기 지도 사전 학습(self-supervised pre-training), 합성 데이터와 실제 데이터를 결합한 지도 학습(supervised training), 잡음이 많고 불완전한 학습 데이터를 처리하기 위한 기술적 혁신(예: 채우기(infilling) 및 단계별 노이즈 제거 학습(step-unrolled denoising diffusion training)), 그리고 간단한 형태의 coarse-to-fine 정제(coarse-to-fine refinement)를 통해 깊이와 광학 흐름 추정을 위한 최첨단 확산 모델을 학습할 수 있다. 본 연구는 벤치마크 대비 정량적 성능, 모델의 불확실성 및 다중 모드(multimodality) 포착 능력, 결측값 대체 능력에 대한 광범위한 실험을 수행한다. 우리의 모델인 DDVM(Denoising Diffusion Vision Model)은 실내 NYU 벤치마크에서 0.074의 최첨단 상대 깊이 오차(relative depth error)를, KITTI 광학 흐름 벤치마크에서 3.26%의 Fl-all 이상치 비율(Fl-all outlier rate)을 달성하여, 이전에 발표된 최고의 방법론보다 약 25% 우수한 성능을 보인다. 자세한 개요는 https://diffusion-vision.github.io에서 확인할 수 있다.
삼항 및 이진 신경망은 전용 하드웨어에서 구현될 경우 곱셈 연산 없이 계산이 가능하며, 완전 정밀도 네트워크 대비 수 차례의 효율성 향상을 약속합니다. 그러나 매개변수와 출력 공간이 모두 고도로 이산화되어 있어, 이러한 네트워크의 최적화는 매우 어려운 것으로 입증되었습니다. 이러한 어려움은 트랜스포머 텍스트 생성 모델의 경우, 양자화에 대한 어텐션 연산의 민감성과 고차원 출력 공간에서의 자기회귀 디코딩으로 인한 노이즈 누적 효과로 인해 더욱 복잡해집니다. 우리는 이 문제를 가중치에 대한 통계 기반 양자화와 활성화에 대한 탄력적 양자화를 혼합하여 접근하고, 요약 및 기계 번역과 같은 하위 작업에서 최초의 삼항 및 이진 트랜스포머 모델을 시연합니다. 우리의 삼항 BART base 모델은 CNN/DailyMail 벤치마크에서 R1 점수 41을 달성했으며, 이는 완전 모델 대비 단 3.9점 차이로 16배 더 효율적입니다. 이진 모델은 정확도는 낮지만 35.6이라는 상당히 의미 있는 점수를 달성했습니다. 기계 번역의 경우, WMT16 En-Ro 벤치마크에서 BLEU 점수 21.7과 17.6을 달성했으며, 이는 완전 정밀도 mBART 모델의 점수인 26.8과 비교됩니다. 또한, 8비트 활성화 설정에서 우리의 접근 방식을 비교했을 때, 삼항 및 이진 가중치 모델이 기존 문헌에서 최고의 8비트 가중치 모델과 견줄 만하거나 이를 능가할 수 있음을 보여줍니다. 우리의 코드와 모델은 https://github.com/facebookresearch/Ternary_Binary_Transformer에서 확인할 수 있습니다.
개념 삭제(Concept Erasure)는 표현에서 특정 특징을 제거하는 것을 목표로 한다. 이는 공정성을 개선(예: 분류기가 성별이나 인종 정보를 사용하지 못하도록 방지)하거나 해석력을 높이는 데(예: 특정 개념을 제거하여 모델의 행동 변화를 관찰) 사용될 수 있다. 본 논문에서는 최소 제곱 개념 삭제(LEAst-squares Concept Erasure, LEACE)를 소개한다. LEACE는 모든 선형 분류기가 특정 개념을 탐지하지 못하도록 보장하면서 표현에 최소한의 손상을 입히는 폐쇄형 방법이다. 우리는 LEACE를 대규모 언어 모델에 적용하기 위해 "개념 스크러빙(concept scrubbing)"이라는 새로운 절차를 도입했으며, 이는 네트워크의 모든 계층에서 목표 개념 정보를 삭제한다. 우리는 이 방법의 유용성을 두 가지 작업에서 입증한다: 언어 모델이 품사 정보에 의존하는 정도를 측정하고, BERT 임베딩에서 성별 편향을 줄이는 작업이다. 코드는 https://github.com/EleutherAI/concept-erasure에서 확인할 수 있다.
본 논문에서는 Microsoft Office와 같은 생산성 소프트웨어를 위한 자연어 친화적 AI 시스템인 Semantic Interpreter를 소개한다. 이 시스템은 대규모 언어 모델(LLMs)을 활용하여 애플리케이션 기능 간에 사용자 의도를 실행한다. LLMs는 자연어로 표현된 사용자 의도를 이해하는 데 탁월하지만, 텍스트 간 변환 이상의 애플리케이션 특화 사용자 의도를 충족시키기에는 부족하다. 따라서 우리는 Office 애플리케이션 내에서 동작을 수행하고 엔티티와 상호작용하기 위해 특화된 간결하고 고수준의 언어인 Office 도메인 특화 언어(ODSL)를 도입한다. Semantic Interpreter는 LLMs를 활용한 분석-검색 프롬프트 구성 방법을 통해 프로그램 합성을 수행하며, 자연어 사용자 발화를 ODSL 프로그램으로 변환하여 애플리케이션 API로 트랜스파일링한 후 실행할 수 있도록 한다. 본 논문에서는 주로 Microsoft PowerPoint에 대한 연구 탐구를 중심으로 논의를 진행한다.
코드용 대형 언어 모델(Code-LLMs)은 최근 프로그래밍 지원 및 코드 인텔리전스의 기본 기능인 코드 완성에 있어 엄청난 발전을 가져왔습니다. 그러나 대부분의 기존 연구는 생성 과정에서 코드 문맥에 존재할 수 있는 버그를 간과하고 있으며, 이러한 버그는 소프트웨어 개발에서 불가피한 요소입니다. 따라서 우리는 실시간 코드 제안의 현실적인 시나리오에서 영감을 받아 버그가 포함된 코드 문맥에서의 코드 완성 문제를 소개하고 연구합니다. 이는 완성된 프로그램에서 버그로 이어질 수 있는 안티 패턴을 포함하는 상황입니다. 이 작업을 체계적으로 연구하기 위해, 우리는 두 가지 데이터셋을 도입했습니다: 하나는 의미를 변경하는 연산자 변경으로부터 유도된 합성 버그를 포함한 데이터셋(buggy-HumanEval)이고, 다른 하나는 사용자가 제출한 코딩 문제에서 유도된 실제 버그를 포함한 데이터셋(buggy-FixEval)입니다. 우리는 잠재적 버그의 존재가 고성능 Code-LLMs의 생성 성능을 크게 저하시킨다는 사실을 발견했습니다. 예를 들어, CodeGen-2B-mono의 테스트 케이스 통과율은 buggy-HumanEval에서 단 하나의 잠재적 버그가 문맥에 주어졌을 때 50% 이상 하락했습니다. 마지막으로, 잠재적 버그의 부정적 영향을 완화하기 위한 몇 가지 사후 처리 방법을 조사했으며, 완화 후 성능에 여전히 큰 격차가 남아 있음을 발견했습니다.
신경망 기반 표면 재구성은 이미지 기반 신경 렌더링을 통해 조밀한 3D 표면을 복원하는 데 강력한 성능을 보여왔습니다. 그러나 현재의 방법들은 실제 장면의 세부 구조를 복원하는 데 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해, 우리는 다중 해상도 3D 해시 그리드의 표현력을 신경 표면 렌더링과 결합한 Neuralangelo를 제안합니다. 우리의 접근 방식은 두 가지 핵심 요소에 의해 가능해졌습니다: (1) 고차 도함수를 계산하기 위한 수치적 기울기를 평활화 작업으로 사용하는 것과 (2) 다양한 수준의 세부 사항을 제어하는 해시 그리드에 대한 거친 단계에서 세밀한 단계로의 최적화입니다. 깊이 정보와 같은 보조 입력 없이도, Neuralangelo는 다중 시점 이미지로부터 조밀한 3D 표면 구조를 효과적으로 복원할 수 있으며, 이전 방법들을 크게 능가하는 충실도로 RGB 비디오 캡처로부터 대규모 장면의 세부 재구성을 가능하게 합니다.
대규모 언어 모델의 발전과 함께 ChatGPT와 같은 놀라운 언어 시스템이 많은 작업에서 두각을 나타내며 기초 모델의 놀라운 힘을 보여주고 있다. 이러한 기초 모델의 능력을 시각 작업에 적용하고자 하는 목표로, 최근 이미지 분할을 위한 시각 기초 모델인 Segment Anything Model(SAM)이 제안되었으며, 많은 2D 하위 작업에서 강력한 제로샷 능력을 보여주고 있다. 그러나 SAM이 3D 시각 작업, 특히 3D 객체 탐지에 적용될 수 있는지에 대해서는 아직 탐구되지 않았다. 이러한 영감을 바탕으로, 본 논문에서는 SAM의 제로샷 능력을 3D 객체 탐지에 적용하는 방법을 탐구한다. 우리는 SAM 기반의 BEV(Bird's Eye View) 처리 파이프라인을 제안하여 대규모 Waymo 오픈 데이터셋에서 객체를 탐지하고 유망한 결과를 얻었다. 초기 시도로서, 우리의 방법은 시각 기초 모델을 활용한 3D 객체 탐지로 한 걸음 나아가며, 3D 시각 작업에서 그들의 힘을 발휘할 수 있는 기회를 제시한다. 코드는 https://github.com/DYZhang09/SAM3D에서 공개되었다.
본 기술 논문은 GPT-3 및 ChatGPT와 같은 대규모 언어 모델(LLM)의 최신 발전을 활용한 채팅 로봇 시스템을 소개한다. 이 시스템은 발화의 개념적 의미를 기반으로 적절한 제스처를 선택하는 동시 발화 제스처 생성 시스템과 통합되어 있다. 우리의 목표는 LLM의 최신 발전을 실용적인 로봇 애플리케이션에 활용할 방법을 탐구함으로써, 채팅봇과 LLM의 개발 모두에 기여하는 것이다. 구체적으로, 이는 LLM을 활용하여 고도로 반응적인 채팅봇 시스템을 개발할 수 있게 하며, LLM의 사용자 인터페이스에 시각적 효과를 추가함으로써 부가적인 가치를 제공한다. 해당 시스템의 소스 코드는 Microsoft 내부 로봇용 GitHub(https://github.com/microsoft/LabanotationSuite/tree/master/MSRAbotChatSimulation)와 Toyota HSR용 GitHub(https://github.com/microsoft/GPT-Enabled-HSR-CoSpeechGestures)에서 확인할 수 있다.
텍스트를 위한 자기회귀 모델은 생성 단계에서 오류가 누적되면서 반복적이고 저품질의 출력을 생성하는 경우가 있다. 이 문제는 노출 편향, 즉 모델이 훈련되는 방식과 추론 중에 사용되는 방식 간의 차이로 인해 발생하는 것으로 종종 여겨진다. 노이즈 제거 확산 모델은 모델이 출력을 재검토하고 수정할 수 있는 대안적 접근 방식을 제공한다. 그러나 이러한 모델은 계산 비용이 많이 들며, 특히 긴 텍스트와 단락에 대해 자기회귀 모델에 비해 덜 유창한 출력을 생성하는 모델로 이어지는 경우가 있었다. 본 논문에서는 잠재 의미 확산과 자기회귀 생성을 결합한 PLANNER 모델을 제안하여 단락에 대한 전역적 제어를 수행하면서도 유창한 텍스트를 생성한다. 이 모델은 자기회귀적 "디코딩" 모듈과 잠재 확산을 사용하여 거친 방식에서 세밀한 방식으로 의미론적 단락 임베딩을 생성하는 "계획" 모듈을 결합함으로써 이를 달성한다. 제안된 방법은 다양한 조건부 생성 작업에서 평가되며, 의미 생성, 텍스트 완성 및 요약 작업에서의 결과는 고품질의 장문 텍스트를 효율적으로 생성하는 데 있어 그 효과를 보여준다.
대조적 이미지-텍스트 매칭 손실(예: P(매칭|텍스트, 이미지))로 차별적으로 사전 학습된 시각-언어 모델(VLMs)은 구성적 이해가 부족하다는 비판을 받아왔다. 이는 원본 캡션이 다른 의미론적 문장으로 재배열되더라도 유사한 점수를 출력할 수 있음을 의미한다. 이를 해결하기 위해, 우리는 P(텍스트|이미지)의 {bf 시각적 생성 사전 학습 점수}({bf VisualGPTScore})를 사용할 것을 제안한다. 이는 이미지 조건부 언어 모델을 사용하여 이미지에 조건부된 텍스트 캡션의 가능성을 포착하는 다중모달 생성 점수이다. VLMs이 단순한 단어 모음 모델이라는 믿음과는 달리, 우리의 즉시 사용 가능한 VisualGPTScore는 구성적 추론을 평가하는 ARO 및 Crepe와 같은 최근 제안된 이미지-텍스트 검색 벤치마크에서 최고 수준의 성능을 보여준다. 더 나아가, 우리는 VisualGPTScore를 주변 P(텍스트)와 점별 상호 정보(PMI)의 곱으로 분해한다. 이는 (a) 강력한 언어 편향을 가진 데이터셋을 진단하고, (b) 정보 이론적 프레임워크를 사용하여 Winoground와 같은 다른 벤치마크의 결과에서 편향을 제거하는 데 도움을 준다. VisualGPTScore는 가치 있는 통찰을 제공하며, 향후 시각-언어 구성성 평가를 위한 강력한 기준선으로서의 역할을 한다.
인터넷 규모의 데이터로 학습된 대형 텍스트-비디오 모델은 임의의 텍스트 설명에서 고품질 비디오를 생성하는 탁월한 능력을 보여주었습니다. 그러나 애니메이션이나 로봇 공학 비디오와 같이 도메인 특화 데이터가 제한된 작업에 이러한 모델을 적용하는 것은 사전 학습된 대형 모델을 미세 조정하는 데 드는 비용이 매우 높기 때문에 상당한 계산적 어려움을 야기합니다. 작은 수정 가능한 구성 요소(예: 프롬프트, 프리픽스 튜닝)가 대형 언어 모델을 모델 가중치에 접근하지 않고도 새로운 작업을 수행하도록 적응시킬 수 있는 방식에서 영감을 받아, 우리는 대형 사전 학습된 텍스트-비디오 모델을 미세 조정 없이 다양한 하위 도메인과 작업에 적응시키는 방법을 연구합니다. 이 문제에 대한 해결책으로, 우리는 Video Adapter를 제안합니다. 이는 대형 사전 학습된 비디오 확산 모델의 점수 함수를 확률적 사전 지식으로 활용하여 작업 특화 소형 비디오 모델의 생성을 안내합니다. 우리의 실험 결과, Video Adapter는 대형 사전 학습된 비디오 모델의 광범위한 지식을 통합하고 고품질을 유지하면서도 애니메이션, 에고센트릭 모델링, 시뮬레이션 및 실제 로봇 공학 데이터 모델링과 같은 다양한 작업에서 고품질의 특화된 비디오를 생성할 수 있는 작업 특화 소형 비디오 모델을 가능하게 합니다. 더 많은 비디오는 https://video-adapter.github.io/에서 확인할 수 있습니다.
소프트웨어 취약점은 기업에 상당한 비용을 초래합니다. 소프트웨어 취약점 탐지 방법에 대한 광범위한 연구와 개발 노력에도 불구하고, 발견되지 않은 취약점들은 여전히 소프트웨어 소유자와 사용자들을 위험에 빠뜨리고 있습니다. 현재 많은 취약점 탐지 방법들은 코드 조각이 컴파일되고 빌드될 수 있어야 탐지를 시도할 수 있습니다. 이는 불행히도 취약점이 주입된 시점부터 제거되는 시점까지의 긴 지연 시간을 초래하며, 이는 취약점을 수정하는 비용을 상당히 증가시킬 수 있습니다. 우리는 기계 학습의 최신 발전을 활용하여 개발자가 코드를 작성하는 동안 구문적으로 불완전한 코드 조각에서도 취약한 코드 패턴을 탐지할 수 있다는 것을 인식했습니다. 본 논문에서는 대규모 취약한 코드 패턴 데이터셋에 대한 딥러닝을 활용하여 250개 이상의 취약점 유형의 복잡한 표현을 학습하고, EditTime에 취약한 코드 패턴을 탐지하는 실용적인 시스템을 제시합니다. 우리는 최신 사전 훈련된 대형 언어 모델(LLM)에 대한 제로샷, 퓨샷, 그리고 미세 조정 접근법을 논의합니다. 우리의 접근법은 최신 취약점 탐지 모델과 비교하여 10%의 성능 향상을 보여줍니다. 또한, 코드 LLM에 의해 자동 생성된 코드에서 취약점을 탐지하기 위한 우리의 접근법을 평가합니다. 고위험 코드 시나리오 벤치마크에서의 평가는 최대 90%의 취약점 감소를 보여줍니다.