번역이 포함된 일일 선별된 AI 연구 논문
본 논문에서는 언어 모델의 지시 수행 능력을 감지하는 지표인 Instruction Following Score(IFS)를 소개한다. 이 지표는 두 가지 목적을 가지고 있다. 첫째, IFS는 기본 모델과 지시 모델을 구분하는 데 사용될 수 있다. 공개적으로 이용 가능한 기본 모델과 지시 모델을 벤치마킹하여, 잘 형식화된 응답과 부분적 또는 완전한 문장 간의 비율이 이 두 모델 클래스를 구분하는 효과적인 척도가 될 수 있음을 보여준다. 둘째, 이 지표는 지시 튜닝을 위한 조기 중단 기준으로 사용될 수 있다. 7B 및 13B LLaMA 모델의 지도 미세 조정(Supervised Fine-Tuning, SFT)에 대해 IFS를 계산한 결과, 모델이 훈련 과정 초기에 비교적 빠르게 지시를 수행하는 법을 배우며, 추가적인 미세 조정이 기본 모델의 의미론에 변화를 가져올 수 있음을 보여준다. 의미론적 변화의 예시로, 보조 지표인 ObjecQA로 정의된 모델 예측의 객관성을 제시한다. 이 특정 사례에서 의미론적 변화는 IFS가 정체기에 접어들 때 가장 급격하게 발생함을 보여준다. 지시 튜닝을 IFS와 의미론적 요소로 분해함으로써 더 나은 제어 가능한 지시 튜닝의 새로운 트렌드를 시작하고, 기반 모델을 쿼리하는 최소한의 지시 인터페이스 설계의 가능성을 열어주기를 기대한다.
공급망 운영은 전통적으로 다양한 복잡한 의사결정 문제를 포함합니다. 지난 수십 년 동안, 공급망은 컴퓨팅 기술의 발전으로 큰 혜택을 받았으며, 이는 수동 처리에서 자동화 및 비용 효율적인 최적화로의 전환을 가능하게 했습니다. 그럼에도 불구하고, 비즈니스 운영자들은 여전히 이해관계자들에게 최적화 결과를 설명하고 해석하는 데 상당한 노력을 기울여야 합니다. 최근 대규모 언어 모델(LLM)의 발전에 영감을 받아, 우리는 이 혁신적인 기술이 공급망 자동화와 인간의 이해 및 신뢰 간의 격차를 어떻게 해소할 수 있는지 연구합니다. 우리는 일반 텍스트로 입력된 질의를 받아들이고, 기본 최적화 결과에 대한 통찰력을 출력하는 프레임워크를 설계합니다. 우리의 프레임워크는 최신 조합 최적화 기술을 포기하지 않고, 오히려 이를 활용하여 "만약에" 시나리오(예: 주어진 수요에 대해 공급자 A 대신 공급자 B를 사용하면 비용이 어떻게 변할까요?)를 정량적으로 답변합니다. 특히, 우리의 설계는 LLM에 독점 데이터를 전송할 필요가 없어, 일부 상황에서 프라이버시 문제가 될 수 있는 점을 고려했습니다. 우리는 Microsoft의 클라우드 공급망 내에서 실제 서버 배치 시나리오를 통해 우리 프레임워크의 효과를 입증합니다. 이를 통해, 우리는 다른 시나리오에서 LLM 출력의 정확성을 평가하는 데 사용할 수 있는 일반적인 평가 벤치마크를 개발합니다.
GPT-4와 같은 대규모 언어 모델은 광범위한 텍스트 데이터에 대해 훈련될 때, 비지도 방식의 다음 토큰 예측 목표로 명시적으로 인코딩되지 않은 기본 산술과 같은 일반적인 작업에서도 새로운 능력을 나타냅니다. 본 연구는 무작위 초기화부터 훈련된 소형 트랜스포머가 다음 토큰 예측 목표를 사용하여 덧셈, 곱셈 및 제곱근과 같은 기본 함수와 같은 산술 연산을 어떻게 효율적으로 학습할 수 있는지 조사합니다. 먼저, 기존의 훈련 데이터가 산술 학습에 가장 효과적이지 않으며, 간단한 형식 변경이 정확도를 크게 향상시킬 수 있음을 보여줍니다. 이는 훈련 데이터 규모에 따른 급격한 위상 전환을 초래하며, 경우에 따라 저순위 행렬 완성과의 연결을 통해 설명될 수 있습니다. 선행 연구를 바탕으로, 중간 단계 결과를 포함하는 사고 사슬(chain-of-thought) 스타일의 데이터에 대해 훈련합니다. 사전 훈련이 전혀 없는 경우에도 이 접근 방식은 정확도, 샘플 복잡성 및 수렴 속도를 동시에 크게 향상시킵니다. 또한, 훈련 중 산술과 텍스트 데이터 간의 상호작용을 연구하고, 소수 샷 프롬프팅, 사전 훈련 및 모델 규모의 영향을 검토합니다. 추가적으로, 길이 일반화 문제에 대해서도 논의합니다. 본 연구는 다음 단어 예측 목표의 특성을 고려한 고품질의 교육적 데이터가 산술 능력을 빠르게 이끌어내는 데 중요함을 강조합니다.
이미지-텍스트 쌍에 대한 대규모 언어 모델(LLM)의 지시 튜닝은 전례 없는 시각-언어 다중모달 능력을 달성했습니다. 그러나 이들의 시각-언어 정렬은 이미지 수준에만 구축되어 있으며, 영역 수준 정렬의 부재는 세밀한 다중모달 이해로의 발전을 제한합니다. 본 논문에서는 관심 영역(Region-of-Interest)에 대한 지시 튜닝을 제안합니다. 핵심 설계는 바운딩 박스를 공간적 지시 형식으로 재구성하는 것입니다. 공간적 지시로 추출된 시각적 특징과 언어 임베딩이 교차된 시퀀스는 LLM에 입력되며, 지시 튜닝 형식으로 변환된 영역-텍스트 데이터에 대해 학습됩니다. 우리의 영역 수준 시각-언어 모델인 GPT4RoI는 이미지 수준 이해를 넘어서는 새로운 대화형 및 상호작용 경험을 제공합니다. (1) 제어 가능성: 사용자는 언어와 공간적 지시를 모두 사용하여 모델과 상호작용하며 질문의 세부 수준을 유연하게 조정할 수 있습니다. (2) 능력: 우리의 모델은 단일 영역 공간적 지시뿐만 아니라 다중 영역도 지원합니다. 이를 통해 세부 영역 캡션 및 복잡한 영역 추론과 같은 더 많은 영역 수준 다중모달 능력이 해제됩니다. (3) 구성: 기성 객체 탐지기는 공간적 지시 제공자로 사용될 수 있어, 우리 모델에서 색상, 형태, 재질, 동작, 다른 객체와의 관계 등과 같은 유익한 객체 속성을 추출할 수 있습니다. 코드, 데이터 및 데모는 https://github.com/jshilong/GPT4RoI에서 확인할 수 있습니다.
기술적 비대칭성으로 인해 많은 사람들이 자신이 낮은 문해력을 가진 언어로 웹을 사용해야 하는 상황에 처해 있습니다. 이러한 사용자들이 제2언어(L2)로 작성한 텍스트는 종종 모국어(L1)의 영향을 받아 많은 오류를 포함하고 있습니다. 우리는 L1과 L2 쌍에 대해 음소 혼동(L1 화자가 L2의 특정 소리를 혼동할 가능성이 높은 경우)을 추출하는 방법을 제안합니다. 이러한 혼동은 생성 모델(Bi-Phone)에 적용되어 L2 텍스트의 부정확한 변형을 합성적으로 생성합니다. 인간 평가를 통해 Bi-Phone이 다양한 L1에 따라 다르면서도 웹에서 널리 발견될 수 있는 그럴듯한 오류를 생성한다는 것을 보여줍니다. 또한, 우리는 이 기술을 사용하여 인기 있는 언어 이해 벤치마크인 SuperGLUE를 변형시킨 FunGLUE(Phonetically Noised GLUE)를 제안하고, 최신 언어 이해 모델들이 이에 대해 낮은 성능을 보임을 입증합니다. 또한, 우리는 새로운 음소 예측 사전 학습 과제를 도입하여 바이트 모델이 SuperGLUE에 근접한 성능을 회복할 수 있도록 돕습니다. 마지막으로, 음성적으로 강건한 언어 모델 연구를 촉진하기 위해 FunGLUE 벤치마크를 공개합니다. 우리가 아는 한, FunGLUE는 텍스트에서 L1-L2 상호작용을 도입한 최초의 벤치마크입니다.
파운데이션 모델(foundation model)의 등장으로 인해 대규모 언어 및 비전 모델이 통합되면서 시각적 캡셔닝, 대화, 질문 응답 등 다중모달 능력을 획득하게 되었습니다. 기존의 다중모달 모델들은 시각적 이해와 추론에서 인상적인 성능을 보여주지만, 고품질의 지시 튜닝 데이터가 부족하기 때문에 그 한계는 여전히 크게 탐구되지 않고 있습니다. 다중모달 능력의 한계를 더욱 확장하기 위해, 우리는 320만 개의 시각적 지시 튜닝 데이터로 구성된 SVIT(Scaled-up Visual Instruction Tuning) 데이터셋을 구축했습니다. 이 데이터셋은 160만 개의 대화형 질문-응답(QA) 쌍, 160만 개의 복잡한 추론 QA 쌍, 그리고 106,000개의 상세한 이미지 설명을 포함하고 있습니다. 데이터셋의 규모뿐만 아니라, GPT-4를 활용하여 수동으로 주석이 달린 이미지들을 기반으로 생성된 고품질과 풍부한 다양성도 특징입니다. 우리는 SVIT를 통해 다중모달 모델을 학습시키는 것이 시각적 인지, 추론 및 계획 측면에서 다중모달 성능을 크게 향상시킬 수 있음을 실증적으로 검증했습니다.
최근 연구들은 컨텍스트 내 학습을 실증적으로 분석하며, 합성 선형 회귀 작업에 대해 훈련된 트랜스포머가 충분한 용량이 주어졌을 때 베이즈 최적 예측자인 릿지 회귀를 구현할 수 있음을 보여주었다[Akyürek et al., 2023]. 반면, 선형 자기 주의 메커니즘만을 갖고 MLP 층이 없는 단일 층 트랜스포머는 최소 제곱 선형 회귀 목표에 대한 경사 하강법(GD)의 한 단계를 학습한다[von Oswald et al., 2022]. 그러나 이러한 관찰 결과에 대한 이론적 배경은 아직 잘 이해되지 않고 있다. 우리는 합성 잡음 선형 회귀 데이터에 대해 훈련된 단일 층 선형 자기 주의 메커니즘을 가진 트랜스포머를 이론적으로 연구한다. 먼저, 공변량이 표준 가우시안 분포에서 추출되었을 때, 사전 훈련 손실을 최소화하는 단일 층 트랜스포머가 최소 제곱 선형 회귀 목표에 대한 GD의 한 단계를 구현함을 수학적으로 보인다. 그런 다음, 공변량과 가중치 벡터의 분포를 비등방성 가우시안 분포로 변경하면 학습된 알고리즘에 강한 영향을 미침을 발견한다: 이제 사전 훈련 손실의 전역 최소화자는 사전 조건화된 GD의 한 단계를 구현한다. 그러나 반응 변수의 분포만 변경된 경우, 이는 학습된 알고리즘에 큰 영향을 미치지 않는다: 반응 변수가 더 일반적인 비선형 함수군에서 나오더라도, 사전 훈련 손실의 전역 최소화자는 여전히 최소 제곱 선형 회귀 목표에 대한 GD의 한 단계를 구현한다.
시각적 로봇 조작에서 모방 학습의 일반화를 어렵게 만드는 요인은 무엇인가? 이 질문은 표면적으로 접근하기 어려운 문제이지만, 로봇의 관점에서 환경은 종종 조명 조건이나 카메라 배치와 같은 다양한 변동 요소로 분해될 수 있다. 경험적으로, 이러한 요소 중 일부에 대한 일반화는 다른 요소들보다 더 큰 장애물로 나타났지만, 기존 연구는 각 요소가 일반화 격차에 기여하는 정도를 정확히 밝히지 못했다. 이 질문에 대한 답을 찾기 위해, 우리는 시뮬레이션과 실제 로봇에서 언어 조건부 조작 작업을 통해 모방 학습 정책을 연구하여 다양한 (집합의) 요소에 대한 일반화의 어려움을 정량화한다. 또한, 일반화의 더 통제된 평가를 용이하게 하기 위해 11개의 변동 요소를 가진 19개 작업의 새로운 시뮬레이션 벤치마크를 설계한다. 우리의 연구를 통해, 시뮬레이션과 실제 로봇 설정에서 일관되게 나타나는 일반화 난이도에 기반한 요소들의 순서를 결정한다.
고급 AI 모델은 인류에게 엄청난 혜택을 제공할 가능성을 지니고 있지만, 사회는 이에 수반되는 위험을 적극적으로 관리할 필요가 있습니다. 본 논문에서는 우리가 "프론티어 AI" 모델이라고 부르는, 공공 안전에 심각한 위험을 초래할 수 있는 위험한 능력을 가질 가능성이 있는 매우 강력한 기초 모델에 초점을 맞춥니다. 프론티어 AI 모델은 독특한 규제적 도전 과제를 제시합니다: 위험한 능력이 예기치 않게 발생할 수 있으며, 배포된 모델의 오용을 견고하게 방지하기 어렵고, 모델의 능력이 광범위하게 확산되는 것을 막기 어렵습니다. 이러한 도전 과제를 해결하기 위해, 최소한 세 가지 프론티어 모델 규제의 기본 요소가 필요합니다: (1) 프론티어 AI 개발자에게 적절한 요구 사항을 식별하기 위한 표준 설정 프로세스, (2) 프론티어 AI 개발 프로세스에 대한 규제 당국의 가시성을 제공하기 위한 등록 및 보고 요구 사항, (3) 프론티어 AI 모델의 개발 및 배포에 대한 안전 표준 준수를 보장하기 위한 메커니즘. 산업계의 자율 규제는 중요한 첫걸음입니다. 그러나 보다 넓은 사회적 논의와 정부의 개입이 표준을 만들고 이를 준수하도록 보장하기 위해 필요할 것입니다. 이를 위해 감독 당국에 강제 집행 권한을 부여하거나 프론티어 AI 모델에 대한 라이선스 제도를 도입하는 등 여러 옵션을 고려합니다. 마지막으로, 우리는 초기 안전 표준 세트를 제안합니다. 이에는 배포 전 위험 평가 수행, 모델 행동에 대한 외부 검토, 위험 평가를 통해 배포 결정에 정보를 제공, 배포 후 모델 능력 및 사용에 대한 새로운 정보를 모니터링하고 대응하는 것이 포함됩니다. 이 논의가 AI 개발의 최전선에서의 혁신적 혜택과 공공 안전 위험 사이의 균형을 어떻게 맞출 것인가에 대한 더 넓은 대화에 기여하기를 바랍니다.