번역이 포함된 일일 선별된 AI 연구 논문
우리는 이산 및 연속 데이터에 대해 다중 모달 모델을 훈련시키는 레시피인 Transfusion을 소개합니다. Transfusion은 언어 모델링 손실 함수(다음 토큰 예측)를 확산과 결합하여 혼합 모달 시퀀스 상의 단일 트랜스포머를 훈련시킵니다. 우리는 텍스트와 이미지 데이터의 혼합물에 대해 7B 파라미터까지 여러 Transfusion 모델을 처음부터 사전 훈련하여, 다양한 단일 및 교모달 벤치마크에 대한 스케일링 법칙을 수립합니다. 실험 결과, Transfusion이 이미지 양자화 및 이산 이미지 토큰에 대한 언어 모델 훈련보다 훨씬 효과적으로 스케일링되는 것을 보여줍니다. 모달리티별 인코딩 및 디코딩 레이어를 도입함으로써 Transfusion 모델의 성능을 더욱 향상시킬 수 있으며, 심지어 각 이미지를 단지 16개 패치로 압축할 수 있습니다. 또한, 7B 파라미터 및 2T 다중 모달 토큰에 대한 Transfusion 레시피의 스케일링을 통해, 유사한 규모의 확산 모델 및 언어 모델과 유사한 수준의 이미지 및 텍스트 생성이 가능한 모델을 만들어냄으로써 양쪽 세계의 혜택을 누릴 수 있음을 더 자세히 보여줍니다.
최근 대형 언어 모델 (Large Language Models, LLMs)의 발전은 표 형식 데이터의 해석 및 처리를 현저히 향상시켰으며, 이전에 상상할 수 없었던 능력을 소개했습니다. 이러한 성취에도 불구하고, LLMs는 산업 시나리오에서 적용될 때 여전히 중요한 도전에 직면하며, 특히 실제 세계의 표 형식 데이터에 필요한 추론의 증가된 복잡성으로 인해 학술적 벤치마크와 실용적 응용 사이에 현저한 불일치가 강조됩니다. 이 불일치를 해결하기 위해 우리는 산업 시나리오에서 표 형식 데이터의 적용에 대해 자세히 조사하고, 표 질문 응답 (Table Question Answering, TableQA) 능력의 네 가지 주요 범주 내 18개의 필드를 포함하는 포괄적이고 복잡한 벤치마크 TableBench를 제안합니다. 더불어, 저희는 저희가 세심하게 구축한 훈련 세트 TableInstruct에서 훈련된 TableLLM을 소개하여, GPT-3.5와 유사한 성능을 달성했습니다. TableBench에서 수행된 대규모 실험은 오픈 소스 및 프로프리어터리 LLMs가 여전히 실제 세계의 요구를 충족시키기 위해 상당한 개선 여지가 있다는 것을 나타내며, 가장 선진 모델인 GPT-4도 인간과 비교했을 때 다소 저조한 점수를 얻었습니다.
사전 훈련 데이터 혼합물에 코드를 포함하는 것은 코드에 특별히 설계되지 않은 모델들에 대해서도 LLMs 사전 훈련에서 흔한 실천 방법이 되었습니다. 실무자들 사이에는 코드 데이터가 일반 LLMs의 성능에 중요한 역할을 한다는 견해가 있었지만, 코드가 비코드 작업에 미치는 정확한 영향을 분석한 연구는 제한적입니다. 본 연구에서는 코드 데이터가 일반 성능에 미치는 영향을 체계적으로 조사합니다. 우리는 "사전 훈련에 사용된 코드 데이터가 코드 생성 이외의 다양한 하위 작업에 미치는 영향은 무엇인가"라는 질문을 제기합니다. 우리는 광범위한 자연어 추론 작업, 세계 지식 작업, 코드 벤치마크, 그리고 470M에서 2.8B 매개변수 크기의 모델에 대한 LLM-판사로서의 승률을 포함한 폭넓은 범위의 실험적 연구를 수행하고 평가합니다. 다양한 설정에서, 우리는 코드가 코딩 작업을 넘어서 일반화에 중요한 구성 요소임을 일관된 결과로 발견했으며, 코드 품질의 향상이 모든 작업에 상당한 영향을 미침을 확인했습니다. 특히, 텍스트만을 사용한 사전 훈련과 비교했을 때, 코드 추가는 자연어 추론에서 최대 8.2%의 상대적 증가, 세계 지식에서 4.2%의 향상, 생성적 승률에서 6.6%의 향상, 그리고 코드 성능에서 12배의 향상을 가져옵니다. 우리의 연구는 코드 품질에 대한 투자와 사전 훈련 중 코드 보존이 긍정적인 영향을 미친다는 점을 시사합니다.
우리는 사전 학습된 표현을 개선하기 위해 새로운 자기 지도 학습 신호로서 다양한 관점에서 패치 표현을 정렬하는 것을 제안합니다. 이를 위해, 우리는 NeCo: 패치 이웃 일관성을 소개합니다. 이는 학생과 교사 모델 간의 패치 수준에서 참조 배치에 대한 이웃 일관성을 강화하는 새로운 훈련 손실입니다. 우리의 방법은 사전 학습된 표현 위에 적용된 미분 가능한 정렬 방법을 활용하여 DINOv2-레지스터와 같은 학습 신호를 부트스트랩하고 더 개선합니다. 이러한 밀집한 사후 사전 훈련은 다양한 모델과 데이터셋에서 우수한 성능을 보여주며, 단일 GPU에서 19시간만 소요됩니다. 이 방법이 고품질 밀집 특성 인코더를 생성하고 ADE20k 및 Pascal VOC에서 비모수형 인-컨텍스트 의미 분할에 대해 +5.5% 및 +6%, COCO-Things 및 -Stuff에서 선형 분할 평가에 대해 +7.2% 및 +5.7%의 새로운 최첨단 결과를 수립하는 것을 입증합니다.
대형 언어 모델 (LLM)은 상호 작용형 챗봇, 문서 분석 및 에이전트 워크플로우와 같은 장문 맥락 응용 프로그램에서 더 많이 사용되고 있지만, 낮은 대기 시간과 높은 처리량으로 장문 맥락 요청을 처리하는 것은 어려운 과제입니다. 추론을 위한 추측적 디코딩 (SD)은 성능을 희생하지 않으면서 대기 시간을 줄이기 위한 널리 사용되는 기술이지만, 기존의 지혜는 그 효과가 작은 배치 크기에 제한된다고 제안합니다. MagicDec에서는 놀랍게도 SD가 중간에서 긴 시퀀스에 대해 높은 처리량 추론 체제에서도 가속화를 달성할 수 있음을 보여줍니다. 더 흥미로운 점은 우리의 철저한 분석을 바탕으로 배치 크기가 증가함에 따라 더 나은 가속화를 달성할 수 있는 지능적인 초안 전략입니다. MagicDec는 먼저 배치 크기와 시퀀스 길이가 증가함에 따라 병목 현상이 어떻게 변화하는지 식별하고, 이러한 통찰을 사용하여 높은 처리량 추론을 위해 추론을 더 효과적으로 배치합니다. 그런 다음, 시퀀스 길이와 배치 크기 모두에 비례하는 KV 병목 현상을 해결하기 위해 희소 KV 캐시를 사용하는 초안 모델을 활용합니다.
확산 모델은 탁월한 성능으로 텍스트에서 이미지를 생성하는 데 선두주자로 등장했습니다. 그러나 훈련 중 고정된 이미지 해상도로 인해 고해상도 이미지 생성에 대한 도전이 종종 발생하며, 이는 의미적 부정확성과 객체 복제와 같은 문제를 야기합니다. 본 논문에서는 MegaFusion이라는 혁신적인 방법을 소개하여 기존의 확산 기반 텍스트에서 이미지로의 생성 모델을 효율적인 고해상도 생성으로 확장하며, 추가적인 세부 조정이나 추가적인 적응 없이 이를 실현합니다. 구체적으로, 우리는 새로운 절단 및 중계 전략을 채택하여 다른 해상도 간에 노이즈 제거 과정을 연결함으로써, 거친 단계에서부터 세밀한 단계로 고해상도 이미지 생성을 가능하게 합니다. 더불어, 확장된 합성곱과 노이즈 재스케줄링을 통합함으로써 모델의 사전 확률을 더 높은 해상도에 맞게 조정합니다. MegaFusion의 다재다능성과 효과는 잠재 공간 및 픽셀 공간 확산 모델뿐만 아니라 다른 파생 모델에도 보편적으로 적용될 수 있습니다. 광범위한 실험 결과 MegaFusion이 기존 모델의 능력을 크게 향상시켜 메가픽셀 및 다양한 종횡비의 이미지를 생성할 수 있으며, 원래의 계산 비용의 약 40%만 필요하다는 것을 확인합니다.
오늘날 대형 언어 모델(Large Language Models, LLMs)이 다양한 실제 응용 프로그램에 통합되는 시대에는, 그 안전성과 견고성을 보장하는 것이 책임 있는 AI 사용에 중요합니다. 자동 적대적 팀팀 방법은 이러한 모델의 잠재적 취약점을 식별하고 완화하기 위해 적대적 공격을 생성함으로써 이 프로세스에서 중요한 역할을 합니다. 그러나 기존 방법은 종종 성능이 느리고 범주 다양성이 제한되며 높은 자원 요구가 있습니다. 최근 접근 방식인 무지개 팀팀은 적대적 프롬프트 생성을 품질-다양성 탐색으로 구성함으로써 다양성 문제에 대처하지만 여전히 느리며 최적 성능을 위해 큰 세밀 조정자가 필요합니다. 이러한 제한을 극복하기 위해 우리는 Ferret이라는 새로운 방법을 제안합니다. Ferret은 Rainbow Teaming을 기반으로 하여 각 반복마다 여러 적대적 프롬프트 변이를 생성하고 점수 함수를 사용하여 가장 효과적인 적대적 프롬프트를 순위 매기고 선택합니다. 우리는 보상 모델, Llama Guard 및 LLM-판사 등 다양한 점수 함수를 탐구하여 잠재적 피해에 따라 적대적 변이를 순위 매겨 유해한 변이를 탐색하는 효율성을 향상시킵니다. 우리의 결과는 Ferret이 점수 함수로서 보상 모델을 활용함으로써 전체 공격 성공률(Attack Success Rate, ASR)을 95%로 향상시키며, 이는 Rainbow Teaming보다 46% 높습니다. 또한 Ferret은 기준과 비교하여 90% ASR을 달성하는 데 필요한 시간을 15.2% 줄이고, 더 큰 크기의 다른 LLM에서도 효과적인 전이 가능한 적대적 프롬프트를 생성합니다. 우리의 코드는 https://github.com/declare-lab/ferret에서 사용할 수 있습니다.
"매치 컷"은 비디오 편집 기술 중 하나로, 유사한 구도를 가진 두 장면이 서로 매끄럽게 전환되는 공통적인 기법입니다. 매치 컷은 주로 시각적이지만, 일부 매치 컷은 오디오의 유동적인 전환을 포함하여 다른 소스에서 나온 소리가 두 장면 사이의 구분할 수 없는 전환으로 융합되는 경우도 있습니다. 본 논문에서는 비디오와 영화 내에서 "오디오 매치 컷"을 자동으로 찾고 생성하는 능력을 탐구합니다. 우리는 오디오 매치 컷을 위한 자가 감독 오디오 표현을 만들고, 일치하는 장면을 추천하고 혼합된 오디오를 생성하는 coarse-to-fine 오디오 매치 파이프라인을 개발합니다. 또한 제안된 오디오 매치 컷 작업을 위해 데이터셋을 주석 처리하고, 여러 오디오 표현의 오디오 매치 컷 후보를 찾는 능력을 비교합니다. 마지막으로, 두 일치하는 오디오 후보를 부드러운 전환을 만들기 위해 혼합하는 여러 방법을 평가합니다. 프로젝트 페이지와 예시는 다음 링크에서 확인할 수 있습니다: https://denfed.github.io/audiomatchcut/
Transformer 기반 대형 언어 모델 (LLM)은 안전하지 않은 응답, 신뢰할 수 없는 추론 등의 제한이 나타납니다. 기존의 추론 개입 방법은 이러한 문제를 완화하기 위해 추가 모델을 세밀 조정하여 보정 신호(보상과 같은)를 생성하고 LLM의 디코딩 과정을 안내합니다. 그러나 이 솔루션은 필요한 별도 모델로 인해 상당한 시간과 공간 오버헤드를 도입합니다. 본 연구는 비방해적 매개변수 삽입 (Otter)을 제안합니다. Otter는 트랜스포머 구조에 추가 매개변수를 삽입하여 보정 신호를 예측하고 원래 LLM 출력과 함께 제공합니다. Otter는 다수의 요구되는 작업에서 최신 기술 성능을 제공하면서 추가 공간을 최대 86.5%, 추가 시간을 최대 98.5% 절약합니다. 더불어 Otter는 기존의 추론 엔진과 원활하게 통합되며, 한 줄의 코드 변경만 필요하며, 매개변수 삽입 후에도 원래 모델 응답에 접근할 수 있습니다. 저희 코드는 https://github.com/chenhan97/Otter 에서 공개되어 있습니다.
텍스트에서 이미지로의 생성 시스템의 급격한 발전은 Stable Diffusion, Midjourney, Imagen, 그리고 DALL-E와 같은 모델을 통해 보여주어졌으며, 이는 그들의 잠재적 남용에 대한 우려를 증폭시켰다. 이에 대응하여 Meta와 Google과 같은 기업들은 AI로 생성된 이미지에 워터마킹 기술을 구현하여 잠재적으로 오도하는 시각 자료의 유통을 억제하기 위한 노력을 강화했다. 그러나 본 논문에서는 현재의 이미지 워터마킹 방법이 연약하며 시각적 해석 공격을 통해 우회될 수 있는 취약성을 주장한다. 제안된 시각적 해석기는 두 단계로 작동한다. 먼저, 최신의 이미지 캡션 시스템 중 하나인 KOSMOS-2를 사용하여 주어진 이미지에 대한 캡션을 생성한다. 그 다음, 원본 이미지와 생성된 캡션을 이미지 간 확산 시스템에 전달한다. 확산 파이프라인의 소음 제거 단계에서 시스템은 텍스트 캡션에 의해 안내되는 시각적으로 유사한 이미지를 생성한다. 결과 이미지는 시각적 해석이며 어떠한 워터마크도 포함되어 있지 않다. 우리의 경험적 결과는 시각적 해석 공격이 이미지로부터 워터마크를 효과적으로 제거할 수 있음을 입증한다. 본 논문은 기존의 워터마킹 기술이 시각적 해석 공격에 취약함을 경험적으로 드러내는 중요한 평가를 제공한다. 이 문제에 대한 해결책을 제안하지는 않지만, 이 논문은 더 견고한 워터마킹 기술의 개발을 우선시하기 위해 과학 커뮤니티에 대한 행동 요청으로 기능한다. 우리의 첫 번째 시각적 해석 데이터셋과 관련 코드는 공개적으로 이용 가능하다.
물리학의 전문 용어와 복잡한 개념은 자연어 처리(NLP)를 통한 정보 추출에 상당한 어려움을 제기합니다. 효과적인 NLP 응용 프로그램의 핵심은 텍스트 임베딩 모델로, 이 모델은 텍스트를 밀집 벡터 표현으로 변환하여 효율적인 정보 검색과 의미 분석을 제공합니다. 본 연구에서는 첫 번째 물리학 전용 텍스트 임베딩 모델인 PhysBERT를 소개합니다. 120만 개의 arXiv 물리학 논문으로 구성된 선별된 말뭉치로 사전 훈련된 PhysBERT는 지도 데이터로 세밀하게 조정되어, 특정 물리학 하위 도메인에 대한 세밀한 조정의 효과를 포함한 물리학 특화 작업에서 선도적인 일반 목적 모델을 능가합니다.
최근 몇 년간 이벤트 카메라 기반 시각 추적은 독특한 이미징 원리와 저 에너지 소비, 높은 다이내믹 범위, 그리고 밀도 높은 시간 해상도의 장점으로 인해 점점 더 많은 관심을 끌고 있습니다. 현재의 이벤트 기반 추적 알고리즘은 시각 Transformer의 활용과 대상 객체 위치 지정을 위한 정적 템플릿으로 인해 성능 병목 현상에 점차 직면하고 있습니다. 본 논문에서는 선형 복잡도를 가진 상태 공간 모델을 백본 네트워크로 채택하는 새로운 Mamba 기반 시각 추적 프레임워크를 제안합니다. 탐색 영역과 대상 템플릿은 시각 Mamba 네트워크로 전달되어 동시에 특징 추출과 상호 작용이 이루어집니다. 탐색 영역의 출력 토큰은 대상 위치 지정을 위해 추적 헤드로 전달됩니다. 더 중요한 것은, 메모리 Mamba 네트워크를 사용하여 추적 프레임워크에 동적 템플릿 업데이트 전략을 도입하는 것을 고려합니다. 대상 템플릿 라이브러리의 샘플 다양성을 고려하고 템플릿 메모리 모듈에 적절한 조정을 가하여 보다 효과적인 동적 템플릿을 통합할 수 있습니다. 동적 및 정적 템플릿의 효과적인 결합을 통해 Mamba 기반 추적 알고리즘은 EventVOT, VisEvent, 그리고 FE240hz를 포함한 여러 대규모 데이터셋에서 정확성과 계산 비용 사이의 좋은 균형을 달성할 수 있습니다. 소스 코드는 https://github.com/Event-AHU/MambaEVT에서 공개될 예정입니다.
로봇 손에 인간 수준의 민첩성을 부여하는 것은 오랜 연구 목표였습니다. 이중 로봇 피아노 연주는 빠르면서도 정확한 동작을 생성하는 동적 작업과 더딘 접촉이 풍부한 조작 문제를 결합한 작업입니다. 강화 학습 기반 접근법은 단일 작업 성능에서 유망한 결과를 보여주었지만, 이러한 방법은 다수의 곡을 다루는 다중 노래 설정에서 어려움을 겪습니다. 저희 연구는 이 간극을 줄이고, 이에 따라 규모에 맞는 로봇 피아노 연주를 위한 모방 학습 접근법을 가능하게 하는 것을 목표로 합니다. 이를 위해, 100만 개 이상의 궤적을 포함하는 이중 로봇 피아노 연주 모션 데이터 세트인 로봇 피아노 1백만(RP1M) 데이터 세트를 소개합니다. 우리는 손가락 위치를 최적 운송 문제로 정의하여 수많은 미표시 노래를 자동으로 주석 달 수 있게 합니다. 기존의 모방 학습 접근법을 벤치마킹한 결과, RP1M을 활용하여 이러한 접근법이 최첨단 로봇 피아노 연주 성능에 도달함을 보여줍니다.
3D 가우시안 스플래팅(3DGS)은 많은 시각 작업에서 3D 표현의 사실상의 방법이 되었습니다. 이는 이 표현 공간에서 3D 이해를 직접 요구합니다. 이 방향의 연구를 용이하게 하기 위해, 우리는 먼저 널리 사용되는 ShapeNet 및 ModelNet 데이터셋을 사용하여 대규모 3DGS 데이터셋을 구축합니다. 우리의 데이터셋 ShapeSplat은 87개의 고유한 범주에서 65,000개의 객체로 구성되어 있으며, 해당 데이터셋과 일치하는 레이블을 가지고 있습니다. 이 데이터셋의 생성에는 TITAN XP GPU에서 2 GPU 연도에 해당하는 컴퓨팅이 사용되었습니다. 우리는 이 데이터셋을 분류 및 분할 작업을 위한 비지도 사전 훈련 및 지도된 세밀 조정에 활용합니다. 이를 위해 우리는 가우시안 매개변수로부터 표현 학습의 독특한 이점을 강조하는 \textit{가우시안-MAE}를 소개합니다. 철저한 실험을 통해 여러 가치 있는 통찰을 제공합니다. 특히, 우리는 보다 (1) 최적화된 GS 중심의 분포가 균일하게 샘플링된 포인트 클라우드(초기화에 사용됨)와 현저하게 다르다는 것을 보여줍니다; (2) 이 분포 변화가 분류에서 저하를 초래하지만 중심만 사용할 때 분할 작업에서 개선을 가져옵니다; (3) 추가 가우시안 매개변수를 활용하기 위해 정규화된 특징 공간에서 가우시안 특징 그룹화를 제안하며, 이에 splats 풀링 레이어를 추가하여 유사한 가우시안을 효과적으로 그룹화하고 임베딩하는 맞춤형 솔루션을 제공하여 세밀 조정 작업에서 현저한 개선을 이끌어 냅니다.
도시 이동 및 교통 시스템은 자율 주행 차량 기술의 발전으로 근본적으로 변화되었습니다. 중국의 기술 거인인 바이두가 선도하는 로보택시 서비스인 바이두 아폴로 고는 최근 베이징, 우한과 같은 주요 도시에 널리 배포되어 도시 이동의 미래를 엿보게 했습니다. 본 연구는 2024년 1월부터 7월까지의 36,096개의 위보 게시물을 대상으로 중국 전역에서 아폴로 고에 대한 대중의 태도를 조사했습니다. 분석 결과, 아폴로 고와 관련된 게시물 중 89.56%가 7월에 집중되어 있음을 보여주었습니다. 1월부터 7월까지 대중의 감정은 주로 긍정적이었지만, 7월 21일에 화제가 되면서 부정적인 의견이 증가하기 시작했습니다. 공간 분석은 아폴로 고가 운영되는 지방과 토론 강도가 높은 지방 사이에 강한 상관 관계를 보여주었습니다. 처음에는 후베이와 광동이 온라인 게시량을 주도했지만, 7월에는 광동, 베이징 및 국제 지역이 후베이를 앞질렀습니다. 지방 간 태도는 크게 다양했으며, 신장과 청해는 낙관적이었고, 티베트와 간수는 전통 택시 서비스에 대한 우려를 표현했습니다. 감정 분석 결과, 긍정적인 의견은 기술 응용과 개인 경험에 집중되었으며, 부정적인 의견은 직업 이탈과 안전 문제에 집중되었습니다. 요약하면, 본 연구는 자율 주행 라이드헤일링 서비스에 대한 대중 인식의 다양성을 강조하며, 기획자, 정책 결정자 및 서비스 제공 업체에게 유용한 통찰을 제공합니다. 해당 모델은 Hugging Face의 https://huggingface.co/wsqstar/bert-finetuned-weibo-luobokuaipao 및 GitHub의 https://github.com/GIStudio/trb2024에서 공개되어 있습니다.