번역이 포함된 일일 선별된 AI 연구 논문
Transformer 모델의 크기를 증가시키는 것이 항상 성능 향상으로 이어지는 것은 아닙니다. 이러한 현상은 경험적 스케일링 법칙으로 설명할 수 없습니다. 더 나아가, 모델이 훈련 샘플을 암기함에 따라 일반화 능력이 개선되는 현상이 발생합니다. 우리는 Transformer 기반 언어 모델의 암기 과정과 성능 역학을 밝히는 이론적 프레임워크를 제시합니다. 우리는 Hopfield 네트워크를 사용하여 연관 메모리를 가진 Transformer의 동작을 모델링하여, 각 Transformer 블록이 효과적으로 근사 최근접 이웃 탐색을 수행하도록 합니다. 이를 바탕으로, 우리는 현대적 연속 Hopfield 네트워크와 유사한 에너지 함수를 설계하여 어텐션 메커니즘에 대한 통찰력 있는 설명을 제공합니다. Majorization-minimization 기법을 사용하여, 우리는 Transformer의 계층적 아키텍처를 포착하는 전역 에너지 함수를 구성합니다. 특정 조건 하에서, 우리는 달성 가능한 최소 교차 엔트로피 손실이 약 1에 가까운 상수로 하한이 있음을 보입니다. 우리는 다양한 데이터 크기에 대해 GPT-2를 실험하고, 2M 토큰 데이터셋에서 기본 Transformer를 훈련시켜 우리의 이론적 결과를 입증합니다.
인간으로서 우리는 자유롭게 의지할 수 있고 쉽게 제어할 수 있는 미디어 콘텐츠를 창조하고자 합니다. 생성 기술의 눈부신 발전 덕분에, 이제 우리는 원시 스케치나 지정된 인간 포즈로 제어되는 이미지를 합성하기 위해 2D 확산 방법을 쉽게 활용할 수 있으며, 마스크 인페인팅을 통해 지역적 영역을 점진적으로 편집하거나 재생성할 수도 있습니다. 그러나 3D 모델링 작업에서 유사한 워크플로우는 여전히 사용할 수 없는데, 이는 3D 생성에서의 제어 가능성과 효율성 부족 때문입니다. 본 논문에서는 Coin3D라는 새로운 제어 가능하고 상호작용적인 3D 자산 모델링 프레임워크를 제시합니다. Coin3D는 사용자가 기본 도형으로 조립된 거친 기하학적 프록시를 사용하여 3D 생성을 제어할 수 있도록 하며, 상호작용적인 생성 워크플로우를 도입하여 몇 초 내에 반응적인 3D 객체 미리보기를 제공하면서도 원활한 지역적 부분 편집을 지원합니다. 이를 위해 우리는 확산 모델에 체적적 거친 형태 제어를 적용하는 3D 어댑터, 정확한 부분 편집을 위한 프록시 경계 편집 전략, 반응형 미리보기를 지원하는 점진적 체적 캐시, 그리고 일관된 메쉬 재구성을 보장하는 volume-SDS 등 여러 기술을 개발했습니다. 다양한 형태 프록시에 대한 상호작용적 생성 및 편집 실험을 통해 우리의 방법이 3D 자산 생성 작업에서 우수한 제어 가능성과 유연성을 달성함을 입증했습니다.
우리는 영어와 중국어 모두에 대한 세밀한 이해를 갖춘 텍스트-이미지 확산 트랜스포머인 Hunyuan-DiT를 소개합니다. Hunyuan-DiT를 구축하기 위해 트랜스포머 구조, 텍스트 인코더, 그리고 위치 인코딩을 신중하게 설계했습니다. 또한 반복적인 모델 최적화를 위해 데이터를 업데이트하고 평가할 수 있는 전체 데이터 파이프라인을 처음부터 구축했습니다. 세밀한 언어 이해를 위해, 우리는 이미지 캡션을 개선하기 위해 다중모달 대형 언어 모델을 학습시켰습니다. 마지막으로, Hunyuan-DiT는 사용자와 다중모달 대화를 수행하며, 문맥에 따라 이미지를 생성하고 개선할 수 있습니다. 50명 이상의 전문 평가자들이 참여한 종합적인 인간 평가 프로토콜을 통해, Hunyuan-DiT는 다른 오픈소스 모델들과 비교하여 중국어-이미지 생성 분야에서 새로운 최첨단 기술을 달성했습니다. 코드와 사전 학습된 모델은 github.com/Tencent/HunyuanDiT에서 공개적으로 이용 가능합니다.
인간 피드백을 통한 강화 학습(RLHF)은 대규모 언어 모델 정렬을 위한 표준 프레임워크입니다. 그러나 오프라인 정렬 알고리즘의 인기가 높아지면서 RLHF에서 온-폴리시 샘플링의 필요성에 의문이 제기되고 있습니다. 보과 최적화의 맥락에서, 우리는 온라인 방법이 오프라인 방법보다 명확한 우위를 점한다는 것을 보여주는 초기 실험 세트로 시작합니다. 이는 우리가 신중하게 설계된 일련의 실험적 제거를 통해 성능 차이의 원인을 조사하도록 이끕니다. 우리는 오프라인 데이터 커버리지와 데이터 품질과 같은 가설만으로는 성능 차이를 설득력 있게 설명할 수 없다는 것을 실증적으로 보여줍니다. 또한 오프라인 알고리즘이 정책을 쌍별 분류에 능숙하게 훈련시키는 반면, 생성에서는 더 나쁘다는 것을 발견했습니다. 반면 온라인 알고리즘으로 훈련된 정책은 생성에는 능숙하지만 쌍별 분류에서는 더 나쁩니다. 이는 판별 능력과 생성 능력 사이의 독특한 상호작용을 암시하며, 이는 샘플링 과정에 크게 영향을 받습니다. 마지막으로, 우리는 성능 차이가 대조적 및 비대조적 손실 함수 모두에서 지속되며, 단순히 정책 네트워크를 확장하는 것으로는 해결되지 않는 것으로 관찰했습니다. 종합적으로, 우리의 연구는 AI 정렬에서 온-폴리시 샘플링의 중추적인 역할을 밝히고, 오프라인 정렬 알고리즘의 근본적인 어려움을 암시합니다.
대규모 언어 모델(LLMs)은 자연어 지시의 의미적 이해를 요구하는 작업을 수행하는 데 놀라운 능력을 보여주고 있습니다. 최근에는 이러한 능력을 오디오와 텍스트 입력을 동시에 인식할 수 있는 다중 모달 방식으로 확장한 많은 연구가 진행되었지만, 이러한 모델의 능력은 자동 음성 인식 및 번역과 같은 특정한 미세 조정 작업에 국한되는 경우가 많습니다. 이에 따라 우리는 SpeechVerse를 개발했습니다. 이는 사전 훈련된 음성 및 텍스트 기반 모델을 소수의 학습 가능한 매개변수를 통해 결합하면서도 훈련 중에 사전 훈련된 모델을 동결 상태로 유지하는 강력한 다중 작업 훈련 및 커리큘럼 학습 프레임워크입니다. 이 모델들은 음성 기반 모델에서 추출된 연속 잠재 표현을 사용하여 자연어 지시를 통해 다양한 음성 처리 작업에서 최적의 제로샷 성능을 달성하도록 지시 미세 조정됩니다. 우리는 여러 데이터셋과 작업에 걸쳐 전통적인 베이스라인과의 모델 성능 비교를 포함한 광범위한 벤치마킹을 수행했습니다. 또한, 도메인 외 데이터셋, 새로운 프롬프트, 그리고 보지 못한 작업에 대한 테스트를 통해 모델의 일반화된 지시 수행 능력을 평가했습니다. 우리의 실험 결과는 다중 작업 SpeechVerse 모델이 11개 작업 중 9개에서 기존의 작업 특화 베이스라인보다 우수함을 보여줍니다.
기존의 텍스트-이미지 모델은 복잡한 텍스트 프롬프트를 따르는 데 어려움을 겪으며, 더 나은 제어 가능성을 위해 추가적인 기반 입력이 필요합니다. 본 연구에서는 장면을 시각적 기본 요소로 분해하는 방법을 제안합니다. 이 요소들은 조밀한 블롭(blob) 표현으로 표시되며, 장면의 세밀한 디테일을 포함하면서도 모듈화 가능하고 인간이 해석하기 쉬우며 구성하기 쉽습니다. 블롭 표현을 기반으로, 우리는 BlobGEN이라는 블롭 기반 텍스트-이미지 확산 모델을 개발하여 조합적 생성을 가능하게 합니다. 특히, 블롭 표현과 시각적 특징 간의 융합을 분리하기 위해 새로운 마스크 교차 주의(masked cross-attention) 모듈을 도입했습니다. 또한, 대규모 언어 모델(LLM)의 조합성을 활용하기 위해 텍스트 프롬프트에서 블롭 표현을 생성하는 새로운 인-컨텍스트 학습(in-context learning) 접근 방식을 소개합니다. 광범위한 실험을 통해 BlobGEN이 MS-COCO에서 우수한 제로샷(zero-shot) 생성 품질과 더 나은 레이아웃 기반 제어 가능성을 달성함을 보여줍니다. LLM을 활용할 경우, 우리의 방법은 조합적 이미지 생성 벤치마크에서 우수한 수치적 및 공간적 정확성을 보입니다. 프로젝트 페이지: https://blobgen-2d.github.io.
현재의 비디오 이해를 위한 아키텍처는 주로 3D 컨볼루션 블록이나 시간적 모델링을 위한 추가 연산이 포함된 2D 컨볼루션을 기반으로 구축됩니다. 그러나 이러한 방법들은 모두 시간 축을 비디오 시퀀스의 별도 차원으로 간주하여, 이는 큰 계산 및 메모리 예산을 필요로 하며, 따라서 모바일 기기에서의 사용을 제한합니다. 본 논문에서는 비디오 시퀀스의 시간 축을 채널 차원으로 압축하고, 모바일 비디오 이해를 위한 경량화된 비디오 인식 네트워크인 SqueezeTime을 제안합니다. 제안된 네트워크의 시간적 모델링 능력을 강화하기 위해, 우리는 시퀀스의 시간적 역학을 포착하기 위한 Channel-Time Learning (CTL) 블록을 설계했습니다. 이 모듈은 두 개의 상호 보완적인 브랜치를 가지며, 하나는 시간적 중요도 학습을 위한 것이고, 다른 하나는 시간적 위치 복원 능력을 갖춰 시간 간 객체 모델링 능력을 강화합니다. 제안된 SqueezeTime은 모바일 비디오 이해를 위해 매우 경량화되고 빠르며 높은 정확도를 보입니다. Kinetics400, Kinetics600, HMDB51, AVA2.1 및 THUMOS14와 같은 다양한 비디오 인식 및 행동 감지 벤치마크에서의 광범위한 실험을 통해 우리 모델의 우수성을 입증했습니다. 예를 들어, 우리의 SqueezeTime은 Kinetics400에서 기존 방법 대비 +1.2%의 정확도와 +80%의 GPU 처리량 향상을 달성했습니다. 코드는 https://github.com/xinghaochen/SqueezeTime 및 https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime에서 공개적으로 이용 가능합니다.
음성 명령을 이해하고 관련 텍스트 응답을 생성할 수 있는 통합 음성 및 대형 언어 모델(SLMs)이 최근 인기를 얻고 있습니다. 그러나 이러한 모델의 안전성과 견고성은 여전히 불분명한 상태입니다. 본 연구에서는 이러한 명령 수행 음성-언어 모델이 적대적 공격과 탈옥(jailbreaking)에 취약할 가능성을 조사합니다. 구체적으로, 우리는 인간의 개입 없이도 화이트박스 및 블랙박스 공격 환경에서 SLMs를 탈옥시킬 수 있는 적대적 예제를 생성하는 알고리즘을 설계합니다. 또한, 이러한 탈옥 공격을 방어하기 위한 대응책을 제안합니다. 음성 명령이 포함된 대화 데이터로 학습된 우리의 모델은 음성 질의응답 작업에서 최첨단 성능을 달성하며, 안전성과 유용성 지표 모두에서 80% 이상의 점수를 기록했습니다. 안전 장치가 있음에도 불구하고, 탈옥 실험은 SLMs가 적대적 섭동과 전이 공격에 취약함을 보여주었으며, 12가지 유해 범주에 걸쳐 신중하게 설계된 유해 질문 데이터셋에서 평균 공격 성공률이 각각 90%와 10%로 나타났습니다. 그러나 우리가 제안한 대응책이 공격 성공률을 크게 감소시킴을 입증했습니다.