번역이 포함된 일일 선별된 AI 연구 논문
우리는 MM1.5를 제시합니다. MM1.5는 텍스트 풍부한 이미지 이해, 시각적 지칭 및 기반, 그리고 다중 이미지 추론 능력을 향상시키기 위해 설계된 새로운 멀티모달 대형 언어 모델(MLLM) 패밀리입니다. MM1 아키텍처를 기반으로 구축된 MM1.5는 모델 훈련에 데이터 중심 접근 방식을 채택하여, 전체 모델 훈련 주기 동안 다양한 데이터 혼합의 영향을 체계적으로 탐구합니다. 이는 고품질 OCR 데이터 및 합성 캡션을 계속적으로 사전 훈련에 사용하고, 지도된 세밀한 튜닝을 위한 최적화된 시각적 지시 데이터 혼합을 포함합니다. 우리의 모델은 10억부터 300억까지의 매개변수를 갖추며, 밀집형과 전문가 혼합(MoE) 변형을 모두 포함하며, 신중한 데이터 선별과 훈련 전략이 심지어 소규모(10억 및 30억)에서도 강력한 성능을 얻을 수 있음을 보여줍니다. 게다가, 우리는 비디오 이해를 위해 설계된 MM1.5-Video와 모바일 UI 이해에 특화된 MM1.5-UI 두 가지 전문화된 변형을 소개합니다. 광범위한 경험적 연구와 제거 실험을 통해, 우리는 최종 설계에 영향을 미치는 훈련 과정과 결정에 대한 상세한 통찰을 제공하며, MLLM 개발에 대한 미래 연구를 위한 가치 있는 지침을 제공합니다.
대형 언어 모델의 명령 따르기 능력은 인간이 자연스럽게 AI 에이전트와 상호 작용할 수 있게 합니다. 그러나 특정 길이의 응답을 생성해야 할 때, 대형 언어 모델은 종종 숫자 제약을 정확하게 인식하는 데 어려움을 겪어 사용자의 요구를 충족시키기 어렵습니다. 대형 언어 모델이 생성된 응답의 길이를 제어하는 능력을 탐구하기 위해 우리는 목표 길이 생성 작업 (TLG)을 제안하고 Precise Match (PM) 및 Flexible Match (FM) 두 가지 메트릭을 설계하여 모델이 지정된 응답 길이를 준수하는 성능을 평가합니다. 더 나아가, 우리는 Ruler라는 새로운, 모델에 독립적인 접근 방식을 소개합니다. 이 방법은 Meta Length Tokens (MLTs)를 활용하여 길이 제약이 있는 명령 아래에서 대형 언어 모델의 명령 따르기 능력을 향상시킵니다. 구체적으로, Ruler는 LLMs에게 명령 내 길이 제약을 기반으로 지정된 길이의 응답을 생성할 수 있는 능력을 제공합니다. 또한, Ruler는 길이 제약이 명시적으로 제공되지 않을 때 자동으로 적절한 MLT를 생성할 수 있어 뛰어난 다재다능성과 일반화 능력을 보여줍니다. 포괄적인 실험은 Ruler의 효과를 보여주며, 다양한 LLMs에서 Target Length Generation Task에 대해 All Level에서 PM에서 평균 27.97의 이득, FM에서 평균 29.57의 이득을 얻었습니다. 더불어, Ruler의 효과와 일반화 능력을 더 확실히 입증하기 위해 포괄적인 제거 실험을 수행했습니다. 우리의 코드와 데이터는 https://github.com/Geaming2002/Ruler에서 확인할 수 있습니다.
우리는 하이퍼-연결(hyper-connections)을 제안합니다. 이는 잔여 연결(residual connections)의 대안으로 작용할 수 있는 간단하면서도 효과적인 방법입니다. 이 접근 방식은 특히, 잔여 연결 변형에서 관측된 일반적인 단점들을 해결합니다. 이러한 단점으로는 그래디언트 소멸과 표현 붕괴 사이의 시소 효과(seesaw effect)가 포함됩니다. 이론적으로, 하이퍼-연결은 네트워크가 서로 다른 깊이의 특징들 간의 연결 강도를 조절하고 동적으로 레이어를 재배열할 수 있도록 합니다. 우리는 밀집(dense) 및 희소(sparse) 모델을 포함한 대규모 언어 모델의 사전 훈련에 중점을 둔 실험을 수행했으며, 이 과정에서 하이퍼-연결이 잔여 연결보다 상당한 성능 향상을 보여주었습니다. 시각 작업에 대한 추가 실험도 유사한 향상을 보여주었습니다. 이 방법이 다양한 AI 문제에 걸쳐 널리 적용되고 유익할 것으로 기대합니다.
다양한 영역에서 학술 주제부터 일상 대화까지 도메인 특정 대화 데이터셋의 부족은 다양한 응용 프로그램을 위한 대화 시스템의 개발을 제한합니다. 기존 연구는 종종 너무 일반적인 대화 데이터셋이나 필요한 규모에 맞지 않는 특정 도메인 대화 데이터셋으로 제한됩니다. 이 간극을 해결하기 위해 우리는 DiaSynth를 소개합니다. DiaSynth는 다양한 영역에서 고품질의 맥락이 풍부한 대화를 생성할 수 있는 합성 대화 생성 프레임워크입니다. 우리의 접근 방식은 Large Language Model (LLM)과 Chain of Thought (CoT) 추론을 사용하여 자연스러운 인간 상호작용을 밀접하게 모방하는 도메인 특정 대화를 창출하는 동적 대화 생성을 통해 기존 프레임워크와 차별화됩니다. DiaSynth는 현실적인 대화를 흉내 내는 맞춤형 대화를 생성합니다. 우리는 DialogSum과 SAMSum에서 몇 가지 예시를 사용하여 합성 데이터를 생성함으로써 실험을 수행합니다. 합성 데이터로 사전 훈련된 언어 모델은 기본 모델보다 16.47% 우수한 성능을 보이며, 도메인 내 데이터와 합성 데이터로 훈련된 모델 간 비교에서 합성 데이터가 도메인 내 데이터의 분포의 90.48%를 포착할 수 있음을 보여줍니다. 생성된 데이터의 품질은 LLM의 크기와 함께 증가합니다. 이러한 결과는 DiaSynth가 전통적인 데이터 수집 방법에 대한 견고한 대안으로서의 잠재력을 입증합니다.
어텐션 메커니즘 중 특히 소프트맥스 어텐션은 GPT와 같은 트랜스포머 기반 모델의 성공에 중요한 역할을 했습니다. 그러나 시퀀스 길이에 대한 소프트맥스 어텐션의 이차 메모리 복잡도는 더 긴 시퀀스를 처리하는 데 중요한 도전을 제기합니다. 저희는 코사인 유사성으로 소프트맥스 연산을 대체하는 새로운 어텐션 메커니즘인 Cottention을 소개합니다. 코사인 유사성의 특성을 활용하고 어텐션 방정식을 재배열함으로써, Cottention은 시퀀스 길이에 대한 원시 선형 메모리 복잡도를 달성하여 소프트맥스 어텐션보다 메모리 사용 효율성이 뛰어납니다. Cottention을 유한한 숨겨진 상태를 가진 순환 신경망(RNN)으로 재정의할 수 있어 추론 중에 일정한 메모리 사용을 가능하게 합니다. 우리는 Cottention을 양방향 BERT와 인과적 GPT 작업에서 평가하여 소프트맥스 어텐션과 유사한 성능을 보이면서 메모리 요구 사항을 크게 줄였음을 입증합니다. 효율적인 계산을 보장하기 위해 Cottention을 위한 사용자 정의 CUDA 커널을 개발했습니다. 결과는 Cottention이 소프트맥스 어텐션에 대한 유망한 대안이 되며, 원시적인 선형 메모리 복잡도와 추론 중 일정한 메모리 풋프린트를 유지할 수 있는 능력으로 인해 성능을 희생하지 않고 더 긴 시퀀스를 처리할 수 있음을 보여줍니다.
로봇 조작에 관한 이전 연구들은 기본적인 3차원 움직임 제약과 affordances에 대한 제한된 이해를 기반으로 합니다. 이러한 도전에 대응하기 위해, 우리는 3차원 물체 중심의 조작과 작업 이해를 통합한 UniAff라는 포괄적인 패러다임을 제안합니다. 구체적으로, 우리는 19개 범주의 900개의 관절이 있는 물체와 12개 범주의 600개의 도구로 구성된 조작 관련 주요 속성으로 레이블이 지정된 데이터셋을 구축했습니다. 더 나아가, 우리는 MLLM을 활용하여 affordance 인식 및 3차원 움직임 제약에 대한 추론을 포함한 조작 작업을 위한 물체 중심 표현을 유도합니다. 시뮬레이션 및 현실 세팅에서의 포괄적인 실험 결과는 UniAff가 도구와 관절이 있는 물체에 대한 로봇 조작의 일반화를 크게 향상시킨다는 것을 보여줍니다. 우리는 UniAff가 미래의 통합된 로봇 조작 작업에 대한 일반적인 기준으로 기능할 것을 희망합니다. 이미지, 비디오, 데이터셋 및 코드는 프로젝트 웹사이트에서 공개되어 있습니다: https://sites.google.com/view/uni-aff/home
오늘날 일반적인 로봇 모델을 훈련하는 데 있어 한 가지 장애물은 이질성입니다. 이전 로봇 학습 방법은 종종 한 가지 구현체에 대한 한 가지 작업을 훈련하기 위해 데이터를 수집하는데, 이는 비용이 많이 들며 오버피팅에 취약합니다. 본 연구는 다양한 구현체 및 규모에서 로봇 데이터를 활용한 이질적 사전 훈련을 통해 정책 표현 학습 문제를 연구합니다. 우리는 이질적으로 사전 훈련된 트랜스포머(HPT)를 제안합니다. HPT는 정책 신경망의 큰 공유 가능한 트렁크를 사전 훈련하여 작업 및 구현체에 중립적인 공유 표현을 학습합니다. 이 일반적인 아키텍처는 서로 다른 구현체로부터의 구체적인 자세 및 시각 입력을 짧은 토큰 순서로 정렬하고, 그러한 토큰을 처리하여 다양한 작업에 대한 로봇 제어로 매핑합니다. 최근 대규모 다양한 구현체의 실제 로봇 데이터셋 및 시뮬레이션, 배치된 로봇 및 인간 비디오 데이터셋을 활용하여 우리는 이질성을 가로지르며 정책 사전 훈련을 조사합니다. 우리는 52개의 데이터셋에 대한 훈련 목표의 확장 행동을 조사하는 실험을 실시합니다. HPT는 여러 기준 모델을 능가하며, 다수의 시뮬레이터 벤치마크 및 실제 환경에서 보이지 않는 작업에 대해 세밀하게 튜닝된 정책 성능을 20% 이상 향상시킵니다. 코드 및 비디오는 프로젝트 웹사이트(https://liruiw.github.io/hpt/)에서 확인할 수 있습니다.
확산 모델에 의해 생성된 이미지는 디지털 아트 및 시각적 마케팅에서 점점 더 인기를 얻고 있습니다. 그러나 이러한 생성된 이미지는 기존 이미지에서 콘텐츠를 복제할 수 있으며 콘텐츠의 원본성에 대한 도전 과제를 제기할 수 있습니다. 기존의 이미지 복사 감지 (ICD) 모델은 수동으로 제작된 복제품을 감지하는 데 정확하지만, 확산 모델로부터의 도전 과제를 간과합니다. 이로 인해 우리는 확산 모델을 위해 특화된 최초의 ICD 인 ICDiff를 소개하게 되었습니다. 이를 위해 우리는 확산-복제 (D-Rep) 데이터셋을 구축하고 이에 대응하는 새로운 심층 임베딩 방법을 제안합니다. D-Rep은 최첨단 확산 모델 (안정된 확산 V1.5)을 사용하여 40,000개의 이미지-복제 쌍을 생성하며, 이들은 0(복제 없음)부터 5(완전 복제)까지의 6가지 복제 수준으로 수동으로 주석이 달렸습니다. 우리의 방법인 PDF-임베딩은 각 이미지-복제 쌍의 복제 수준을 확률 밀도 함수 (PDF)로 변환하여 지도 신호로 사용합니다. 이 아이디어는 이웃하는 복제 수준의 확률이 연속적이고 부드러워야 한다는 것입니다. 실험 결과는 PDF-임베딩이 D-Rep 테스트 세트에서 프로토콜 주도 방법과 비-PDF 선택지를 능가함을 보여줍니다. 또한 PDF-임베딩을 활용함으로써, 잘 알려진 확산 모델의 복제 비율이 오픈 소스 갤러리에 대해 10%에서 20% 범위 내에 있음을 발견했습니다.
본 논문은 코드 편집에 대한 피드백을 제공하는 모델을 훈련하는 데 사용되는 포괄적인 강화 학습 환경인 Coffee-Gym을 제시합니다. Coffee-Gym에는 두 가지 주요 구성 요소가 포함되어 있습니다: (1) 코딩 문제에 대한 인간의 코드 편집 추적을 포함하고, 잘못된 코드를 편집하는 데 도움이 되는 기계 작성 피드백을 제공하는 데이터 세트인 Coffee; (2) 수정된 코드의 성능을 단위 테스트에서 평가하여 피드백의 유용성을 충실히 반영하는 보상 함수인 CoffeeEval. Coffee-Gym은 강화 학습을 통해 피드백 모델을 훈련하기 위한 고품질 데이터 세트의 부족 문제를 해결하고, SOTA 보상 모델인 GPT-4보다 더 정확한 보상을 제공합니다. Coffee-Gym을 적용함으로써, 오픈 소스 코드 LLMs의 코드 편집을 향상시키는 데 기존의 기준선을 능가하는 피드백 모델을 유도하여, 이를 폐쇄 소스 LLMs와 비교 가능하게 만듭니다. 데이터 세트와 모델 체크포인트를 공개적으로 제공합니다.
대형 언어 모델(LLMs)이 점점 더 발전함에 따라, 학습 중에 경험하지 않은 새로운 방식으로 배운 기술을 결합하는 능력인 합성 일반화 능력을 나타내는 능력이 중요시되고 있습니다. 이러한 종류의 일반화 능력은 특히 학습 데이터 이상의 시나리오에서 AI 안전성 및 조정 연구에서도 큰 관심을 받고 있습니다. 최근 연구에서는 모델이 특정 k-튜플 언어 기술을 사용하여 짧은 단락을 구성하는 SKILL-MIX 평가를 소개했습니다. 작은 모델들은 k=3일 때조차도 구성에 어려움을 겪었지만, GPT-4와 같은 대형 모델은 k=5 및 6에서 상당히 잘 수행했습니다. 본 논문에서는 SKILL-MIX와 유사한 설정을 활용하여 작은 모델의 합성 일반화 능력을 평가합니다. 수사, 문학, 추론, 마음의 이해, 상식을 포함한 다양한 언어 기술을 활용하여 GPT-4를 사용하여 k 기술의 임의의 하위 집합을 보여주는 텍스트 샘플을 생성했습니다. 이러한 결합된 기술 텍스트에서 7B 및 13B 매개변수 모델을 후속 세부 조정하면서, k 값이 증가함에 따라 다음 결과가 나타났습니다: (1) k=2 및 3 기술의 조합으로 훈련하면, 모델은 훈련 중에 이러한 예시를 본 적이 없음에도 불구하고 k=4 및 5 기술을 사용하여 텍스트를 구성하는 능력이 현저히 향상됩니다. (2) 기술 범주가 훈련 및 보류 그룹으로 분할되면, 모델은 세부 조정 중에 훈련 중인 기술만 본 상태에서 시험 중에 보류된 기술을 사용하여 텍스트를 구성하는 능력이 크게 향상되어, 이전에 본 적이 없는 기술에도 효과적인 훈련 방법을 보여줍니다. 이 연구는 훈련에 기술이 풍부한(가능한 합성) 텍스트를 통합하면 모델의 합성 능력을 크게 향상시킬 수 있다는 것을 시사합니다.
질문 분해는 복잡한 질문에 대한 대답을 유도하기 위한 효과적인 전략으로 등장했습니다. 그러나 기존 방법은 주로 단일 모달 언어 모델에 초점을 맞추고 있으며, 다중 모달 대형 언어 모델(MLLMs)의 질문 분해 능력은 아직 탐구되지 않았습니다. 이 논문은 MLLMs에서 시각적인 질문 분해를 탐구합니다. 구체적으로, 우리는 분해된 하위 질문의 품질을 평가하기 위한 데이터셋과 여러 평가 기준을 포함한 체계적인 평가 프레임워크를 소개하며, 기존 MLLMs가 고품질 하위 질문을 생성하는 데 어려움을 겪는다는 것을 밝혀냅니다. 이 한계를 극복하기 위해, 우리는 모델의 질문 분해 능력을 향상시키기 위한 특정한 파인튜닝 데이터셋인 DecoVQA+를 제안합니다. 적절한 선택적 분해를 수행할 수 있도록 모델을 지원하기 위해 효율적인 파인튜닝 파이프라인을 제안합니다. 파인튜닝 파이프라인은 우리가 제안한 데이터셋과 선택적 분해를 위한 훈련 목표로 구성됩니다. 파인튜닝된 MLLMs는 하위 질문의 품질과 선택적 질문 분해 정책에서 상당한 향상을 보여주며, VQA 벤치마크 데이터셋에서 선택적 분해로 더 높은 정확도를 달성합니다.
오디오 워터마킹 기술은 메시지를 오디오에 삽입하고 워터마킹된 오디오에서 메시지를 정확하게 추출합니다. 기존 방법은 전문가 경험을 기반으로 신호의 시간 영역이나 변환 영역에 워터마크를 삽입하는 알고리즘을 개발했습니다. 심층 신경망의 발전으로 심층 학습 기반의 신경 오디오 워터마킹 기술이 등장했습니다. 전통적인 알고리즘과 비교하여, 신경 오디오 워터마킹은 훈련 중 다양한 공격을 고려하여 더 나은 견고성을 달성합니다. 그러나 현재의 신경 워터마킹 방법은 용량이 낮고 만족스럽지 못한 인식 능력을 가지고 있습니다. 더불어, 신경 오디오 워터마킹에서 더욱 중요한 워터마크 위치 결정 문제는 충분히 연구되지 않았습니다. 본 논문에서는 효율적인 위치 결정을 위해 이중 삽입 워터마킹 모델을 설계합니다. 또한 견고성 훈련에서 불변 신경망의 공격 계층이 모델에 미치는 영향을 고려하여, 모델을 향상시켜 이성과 안정성을 모두 향상시킵니다. 실험 결과 제안된 IDEAW 모델은 기존 방법과 비교하여 더 높은 용량과 더 효율적인 위치 결정 능력으로 다양한 공격에 견딜 수 있음을 보여줍니다.