번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)의 명령어 튜닝은 하이퍼파라미터 선택의 복잡성과 튜닝된 모델 평가의 어려움으로 인해 여전히 도전적인 과제로 남아 있습니다. 최적의 하이퍼파라미터를 결정하기 위해서는 자동적이고 견고하며 신뢰할 수 있는 평가 벤치마크가 필수적입니다. 그러나 평가 정확성과 개인정보 보호와 관련된 문제로 인해 이러한 벤치마크를 구축하는 것은 간단한 작업이 아닙니다. 이러한 문제에 대응하기 위해, 우리는 여러 LLM 중에서 우수한 모델을 구별하도록 훈련된 판단 대규모 언어 모델인 PandaLM을 소개합니다. PandaLM은 전통적인 평가 데이터셋의 주요 초점인 응답의 객관적 정확성뿐만 아니라 상대적 간결성, 명확성, 명령어 준수, 포괄성, 형식성과 같은 중요한 주관적 요소도 다룹니다. PandaLM의 신뢰성을 보장하기 위해, 우리는 다양한 인간 주석 테스트 데이터셋을 수집하였으며, 모든 문맥은 인간이 생성하고 레이블은 인간의 선호도와 일치하도록 설정했습니다. 우리의 결과에 따르면, PandaLM-7B는 테스트 데이터셋에서 GPT-3.5의 평가 능력의 93.75%, GPT-4의 F1 점수의 88.28%를 달성했습니다. PandaLM은 LLM 평가를 더 공정하게 하면서도 비용을 절감할 수 있게 해주며, PandaLM을 통해 튜닝된 모델들이 기본 Alpaca 하이퍼파라미터로 훈련된 모델들에 비해 상당한 개선을 보인 것으로 입증되었습니다. 또한, PandaLM은 API 기반 평가에 의존하지 않아 잠재적인 데이터 유출을 방지합니다. PandaLM의 모든 리소스는 https://github.com/WeOpenML/PandaLM에서 공개되었습니다.
명령어 튜닝된 대규모 언어 모델은 자연어 처리 분야를 혁신적으로 변화시켰으며, 대화형 에이전트와 같은 응용 분야에서 큰 잠재력을 보여주고 있습니다. GPT-4와 같은 이러한 모델은 언어를 숙달할 뿐만 아니라 수학, 코딩, 의학, 법률 등 다양한 분야에서 복잡한 과제를 해결할 수 있습니다. 그러나 이러한 모델의 인상적인 능력에도 불구하고, 많은 모델이 블랙박스 형태를 띠고 있으며 종합적인 평가 연구가 부족하기 때문에 그들의 전체 잠재력에 대한 포괄적인 이해가 여전히 부족합니다. 이러한 문제를 해결하기 위해, 우리는 명령어 튜닝된 대규모 언어 모델을 위해 특별히 설계된 더 포괄적인 평가 도구인 INSTRUCTEVAL을 소개합니다. 기존 연구와 달리, 우리의 평가는 문제 해결 능력, 글쓰기 능력, 그리고 인간 가치와의 정렬을 기반으로 모델을 엄격하게 평가합니다. 우리는 모델 성능에 영향을 미치는 다양한 요인, 즉 사전 학습 기반, 명령어 튜닝 데이터, 그리고 학습 방법 등을 종합적으로 분석합니다. 우리의 연구 결과는 명령어 데이터의 품질이 모델 성능을 확장하는 데 가장 중요한 요소임을 보여줍니다. 오픈소스 모델들은 인상적인 글쓰기 능력을 보여주지만, 문제 해결 및 정렬 측면에서는 상당한 개선의 여지가 있습니다. 우리는 오픈소스 커뮤니티의 모델 개발 속도에 고무되지만, 이러한 모델에 대한 주장을 뒷받침하기 위해 엄격한 평가의 필요성도 강조합니다. INSTRUCTEVAL을 통해, 우리는 명령어 튜닝된 모델에 대한 더 깊은 이해와 그들의 능력 발전을 촉진하고자 합니다. INSTRUCTEVAL은 https://github.com/declare-lab/instruct-eval에서 공개적으로 이용 가능합니다.
대형 언어 모델(LLMs)은 이제 일상적으로 사용되며 앞으로 10년 동안 대량의 텍스트를 생성할 것으로 예상된다. 기계 생성 텍스트는 인터넷상에서 인간이 작성한 텍스트를 대체할 가능성이 있으며, 스피어피싱 공격이나 소셜 미디어 봇과 같은 악의적인 목적으로 사용될 수도 있다. 워터마킹은 LLM 생성 텍스트의 탐지와 문서화를 가능하게 함으로써 이러한 피해를 완화하기 위한 간단하면서도 효과적인 전략이다. 그러나 중요한 질문이 남아 있다: 실제 환경에서 워터마킹은 얼마나 신뢰할 수 있는가? 실제 환경에서는 워터마킹된 텍스트가 다른 텍스트 소스와 혼합되거나, 인간 작가나 다른 언어 모델에 의해 재구성될 수 있으며, 사회적 및 기술적 다양한 분야에서 활용될 수 있다. 본 논문에서는 다양한 탐지 기법을 탐구하고, 워터마크를 탐지하는 데 있어 그들의 능력을 정량화하며, 각 시나리오에서 워터마크를 신뢰할 수 있게 탐지하기 위해 얼마나 많은 기계 생성 텍스트가 관찰되어야 하는지를 결정한다. 특히, 인간의 재구성에 직면했을 때 워터마킹의 신뢰성을 조사한 인간 연구를 강조한다. 워터마크 기반 탐지를 다른 탐지 전략과 비교한 결과, 워터마킹은 특히 샘플 복잡성 측면에서 신뢰할 수 있는 해결책임을 확인하였다. 우리가 고려한 모든 공격에 대해, 더 많은 예제가 제공될수록 워터마크 증거가 누적되어 결국 워터마크가 탐지된다.
본 연구에서는 다양한 오픈 명령어 수행 데이터셋을 기반으로 한 언어 모델의 최신 지시 튜닝(instruction-tuning) 기술의 발전을 탐구한다. 최근 오픈 모델이 최첨단 독점 모델과 동등한 성능을 낼 수 있다는 주장이 제기되고 있지만, 이러한 주장은 종종 제한된 평가와 함께 이루어져 모델 간 전반적인 비교와 다양한 자원의 유용성을 판단하기 어렵다. 우리는 6.7B에서 65B 파라미터 크기의 다양한 지시 튜닝 모델을 제공하며, 이는 수동으로 정제된 데이터셋(예: OpenAssistant)부터 합성 및 증류된 데이터셋(예: Alpaca)에 이르는 12개의 명령어 데이터셋으로 학습되었다. 또한, 자동화된 평가, 모델 기반 평가, 인간 기반 평가를 통해 사실 지식, 추론 능력, 다국어 지원, 코딩 능력, 그리고 개방형 명령어 수행 능력을 체계적으로 평가한다. 더 나아가, 우리는 고품질 오픈 자원의 조합으로 미세 조정된 최고 성능의 지시 튜닝 모델 제품군인 T\"ulu를 소개한다. 실험 결과, 서로 다른 지시 튜닝 데이터셋은 특정 기술을 발견하거나 향상시킬 수 있지만, 단일 데이터셋(또는 조합)이 모든 평가에서 최고의 성능을 제공하지는 않는다는 것을 보여준다. 흥미롭게도, 모델 및 인간 선호도 기반 평가는 벤치마크 기반 평가에서 드러나는 모델 능력의 차이를 반영하지 못하는 것으로 나타나, 본 연구에서 수행한 체계적인 평가의 필요성을 시사한다. 우리의 평가 결과에 따르면, 특정 평가에서 최고 성능을 보인 모델은 평균적으로 ChatGPT 성능의 83%, GPT-4 성능의 68%에 달하며, 이는 격차를 줄이기 위해 더 나은 기본 모델과 지시 튜닝 데이터 구축에 대한 추가 투자가 필요함을 시사한다. 우리는 완전히 미세 조정된 65B T\"ulu 모델을 포함한 지시 튜닝 모델과 코드, 데이터, 평가 프레임워크를 https://github.com/allenai/open-instruct에서 공개하여 향후 연구를 촉진하고자 한다.
우리는 대규모 언어 모델 LLaMA-7B를 과거 토큰 윈도우가 주어졌을 때 다음 토큰을 예측하는 도구로 사용하여 영어의 엔트로피에 대한 점근적 상한선의 새로운 추정치를 제시합니다. 이 추정치는 cover1978convergent와 lutati2023focus에서 현재 사용 가능한 추정치보다 상당히 작습니다. 이로부터 자연스럽게 도출된 부산물로, 대규모 언어 모델의 예측과 무손실 압축 기법을 결합한 영어 텍스트의 무손실 압축 알고리즘이 있습니다. 제한된 실험에서 얻은 예비 결과는 우리의 기법이 BSC, ZPAQ, paq8h와 같은 최신 텍스트 압축 기법들을 능가함을 시사합니다.
단안 이미지에서 동물의 몸체와 같은 3D 관절형 구조를 추정하는 것은 카메라 시점, 자세, 질감, 조명 등의 모호성으로 인해 본질적으로 어려운 문제입니다. 본 연구에서는 야생 환경에서 희소한 이미지 컬렉션으로부터 개별 인스턴스의 3D 형태를 재구성하기 위한 자기 지도 학습 프레임워크인 ARTIC3D를 제안합니다. 구체적으로, ARTIC3D는 골격 기반의 표면 표현을 기반으로 하며, Stable Diffusion의 2D 확산 사전 정보를 추가적으로 활용합니다. 첫째, 2D 확산을 통해 가려짐/절단이 있는 입력 이미지를 개선하여 더 깔끔한 마스크 추정치와 의미론적 특징을 얻습니다. 둘째, 확산 기반 3D 최적화를 수행하여 입력 이미지에 충실하면서도 고해상도의 형태와 질감을 추정합니다. 또한, 기존 대안에 비해 확산 모델을 통해 더 안정적인 이미지 수준의 그래디언트를 계산하는 새로운 기법을 제안합니다. 마지막으로, 강체 부위 변환 하에서 렌더링된 형태와 질감을 미세 조정하여 현실적인 애니메이션을 생성합니다. 기존의 여러 데이터셋과 가려짐 및 절단이 있는 새로운 웹 이미지 컬렉션에 대한 광범위한 평가를 통해 ARTIC3D가 노이즈가 있는 이미지에 대해 더 강건하며, 형태와 질감 세부 사항에서 더 높은 품질을 보이고, 애니메이션 시 더 현실적인 결과를 출력함을 입증합니다. 프로젝트 페이지: https://chhankyao.github.io/artic3d/
StableDiffusion은 이미지 생성 및 편집 분야에서 혁신을 일으키고 있는 텍스트-이미지 생성기입니다. 기존의 픽셀 공간에서 확산 모델을 학습하는 방법과 달리, StableDiffusion은 VQGAN을 통해 잠재 공간에서 확산 모델을 학습함으로써 효율성과 품질을 동시에 보장합니다. 이 모델은 이미지 생성 작업을 지원할 뿐만 아니라, 이미지 인페인팅 및 지역 편집과 같은 실제 이미지 편집도 가능하게 합니다. 그러나 StableDiffusion에서 사용되는 기본 VQGAN은 상당한 정보 손실을 초래하여, 편집되지 않은 이미지 영역에서도 왜곡 아티팩트를 유발하는 것으로 관찰되었습니다. 이를 해결하기 위해, 우리는 두 가지 간단한 설계를 포함한 새로운 비대칭 VQGAN을 제안합니다. 첫째, 인코더의 입력 외에도 디코더는 인페인팅에서 마스크되지 않은 이미지 영역과 같은 작업별 사전 정보를 통합하는 조건부 분기를 포함합니다. 둘째, 디코더는 인코더보다 훨씬 더 무거워져, 전체 추론 비용을 약간만 증가시키면서도 더 세밀한 복구를 가능하게 합니다. 우리의 비대칭 VQGAN의 학습 비용은 저렴하며, 기본 VQGAN 인코더와 StableDiffusion을 변경하지 않고도 새로운 비대칭 디코더만 재학습하면 됩니다. 이 비대칭 VQGAN은 StableDiffusion 기반의 인페인팅 및 지역 편집 방법에 광범위하게 적용될 수 있습니다. 광범위한 실험을 통해 이 모델이 원본 텍스트-이미지 기능을 유지하면서도 인페인팅 및 편집 성능을 크게 향상시킬 수 있음을 입증했습니다. 코드는 https://github.com/buxiangzhiren/Asymmetric_VQGAN에서 확인할 수 있습니다.
학계와 산업계에서 대형 언어 모델(LLMs)에 대한 의존도가 점차 증가함에 따라, 이러한 모델의 프롬프트에 대한 견고성을 포괄적으로 이해하는 것이 필수적입니다. 이러한 중요한 필요성에 대응하여, 본 연구는 적대적 프롬프트에 대한 LLMs의 견고성을 측정하기 위해 설계된 견고성 벤치마크인 PromptBench를 소개합니다. 본 연구는 문자, 단어, 문장, 의미적 수준을 아우르는 다양한 적대적 텍스트 공격을 프롬프트에 적용합니다. 이러한 프롬프트는 감정 분석, 자연어 추론, 독해, 기계 번역, 수학 문제 해결 등 다양한 작업에 활용됩니다. 본 연구는 총 567,084개의 테스트 샘플을 포함하여 8개의 작업과 13개의 데이터셋에 걸쳐 4,032개의 적대적 프롬프트를 생성하고 세심하게 평가합니다. 연구 결과는 현대의 LLMs가 적대적 프롬프트에 취약하다는 것을 보여줍니다. 또한, 프롬프트 견고성과 그 전이성 뒤에 숨겨진 미스터리를 이해하기 위한 포괄적인 분석을 제시합니다. 이어서, 연구자와 일반 사용자 모두에게 유익한 프롬프트 구성에 대한 통찰력 있는 견고성 분석과 실용적인 권장 사항을 제공합니다. 본 연구는 적대적 프롬프트를 생성하기 위한 코드, 프롬프트, 방법론을 공개하여 이 중요한 분야에서의 협력적 탐구를 가능하게 하고 장려합니다: https://github.com/microsoft/promptbench.
모바일 기기에서 신경망 기계 번역(NMT) 모델을 배포하는 것은 개인 정보 보호, 낮은 지연 시간, 오프라인 시나리오에서 필수적입니다. 높은 모델 용량을 위해 NMT 모델은 상당히 큰 편입니다. 이러한 모델을 제한된 저장 공간, 메모리, 계산 능력 및 전력 소비를 가진 기기에서 실행하는 것은 어려운 과제입니다. 기존 연구는 주로 FLOPs와 같은 단일 지표에 초점을 맞추거나 자동 회귀 디코딩에 적합하지 않은 일반 엔진에만 집중했습니다. 본 논문에서는 15MB와 30ms 내에 기기에서 번역을 수행할 수 있는 MobileNMT 시스템을 소개합니다. 양자화와 결합된 모델 압축을 위한 일련의 원칙을 제안합니다. 또한, INT8 및 디코딩에 친화적인 엔진을 구현합니다. 모델과 엔진의 공동 설계를 통해 기존 시스템과 비교하여 47.0배의 속도 향상과 99.5%의 메모리 절약을 달성하면서 BLEU 점수는 단 11.6%만 감소했습니다. 코드는 https://github.com/zjersey/Lightseq-ARM에서 공개되어 있습니다.
중국 커뮤니티 내 비전-언어 사전 학습(Vision-Language Pre-training, VLP) 및 멀티모달 대형 언어 모델(Large Language Model, LLM)의 발전을 촉진하기 위해, 우리는 먼저 중국 최대 규모의 고품질 비디오-언어 데이터셋인 Youku-mPLUG를 공개한다. 이 데이터셋은 중국의 유명 비디오 공유 웹사이트인 Youku에서 수집되었으며, 안전성, 다양성, 품질에 대한 엄격한 기준을 충족한다. Youku-mPLUG는 45개 다양한 카테고리에서 4억 개의 원시 비디오 중 필터링된 1천만 개의 중국어 비디오-텍스트 쌍을 포함하며, 대규모 사전 학습을 위해 구성되었다. 또한, 비디오-언어 모델의 포괄적인 평가를 용이하게 하기 위해, 우리는 교차 모달 검색(cross-modal retrieval), 비디오 캡셔닝(video captioning), 비디오 카테고리 분류(video category classification)라는 세 가지 인기 있는 비디오-언어 작업을 다루는 최대 규모의 인간 주석 중국어 벤치마크를 신중하게 구축했다. Youku-mPLUG는 연구자들이 더 깊이 있는 멀티모달 연구를 수행하고 미래에 더 나은 애플리케이션을 개발할 수 있도록 지원한다. 더불어, 우리는 인기 있는 비디오-언어 사전 학습 모델인 ALPRO와 mPLUG-2, 그리고 Youku-mPLUG에서 사전 학습된 우리가 제안한 모듈화된 디코더 전용 모델인 mPLUG-video를 공개한다. 실험 결과, Youku-mPLUG에서 사전 학습된 모델은 비디오 카테고리 분류에서 최대 23.1%의 성능 향상을 보였다. 또한, mPLUG-video는 이러한 벤치마크에서 비디오 카테고리 분류에서 80.5%의 Top-1 정확도, 비디오 캡셔닝에서 68.9의 CIDEr 점수로 새로운 최첨단 결과를 달성했다. 마지막으로, 우리는 고정된 Bloomz 기반으로 mPLUG-video를 확장하여 단 1.7%의 학습 가능한 매개변수만을 사용한 중국어 멀티모달 LLM으로 구현하고, 인상적인 지시 및 비디오 이해 능력을 입증했다. 제로샷 지시 이해 실험은 Youku-mPLUG로 사전 학습함으로써 전체 및 세부 시각 의미를 이해하고, 장면 텍스트를 인식하며, 개방형 도메인 지식을 활용하는 능력이 향상될 수 있음을 보여준다.