번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLMs)은 수학적 추론 분야의 많은 벤치마크에서 인상적인 성과를 거두었습니다. 그러나 이러한 성과 중 일부가 실제 추론 능력이 아니라, 벤치마크 질문과 유사한 데이터가 학습 데이터에 유출된 데이터셋 오염을 반영하고 있다는 우려가 커지고 있습니다. 이 주장을 엄밀히 조사하기 위해, 우리는 Grade School Math 1000(GSM1k)을 제작했습니다. GSM1k은 초등 수학적 추론을 측정하는 데 있어 표준으로 여겨지는 GSM8k 벤치마크의 스타일과 복잡성을 반영하도록 설계되었습니다. 우리는 두 벤치마크가 인간의 문제 해결률, 해결 단계 수, 답변의 크기 등 중요한 지표에서 비교 가능하도록 보장했습니다. GSM1k에서 주요 오픈소스 및 클로즈드소스 LLMs을 평가한 결과, 최대 13%의 정확도 하락을 관찰했으며, 특히 Phi와 Mistral과 같은 모델군은 거의 모든 모델 크기에서 체계적인 과적합 증거를 보였습니다. 반면, 최첨단 모델들(예: Gemini/GPT/Claude)은 과적합의 최소한의 징후만을 보였습니다. 추가 분석 결과, 모델이 GSM8k의 예제를 생성할 확률과 GSM8k와 GSM1k 간의 성능 차이 사이에 양의 상관관계(Spearman's r^2=0.32)가 있음을 발견했는데, 이는 많은 모델이 GSM8k를 부분적으로 암기했을 가능성을 시사합니다.
텍스트 조건부 확산 모델의 도입으로 이미지 편집 기술은 크게 발전했습니다. 그러나 이러한 진전에도 불구하고, 사용자가 제공한 입력 마스크 없이 텍스트 지시에 따라 이미지에 객체를 자연스럽게 추가하는 것은 여전히 어려운 과제로 남아 있습니다. 우리는 이 문제를 해결하기 위해 객체 제거(Inpaint)가 객체 추가(Paint)의 역과정보다 훨씬 간단하다는 통찰을 활용했습니다. 이는 세그멘테이션 마스크 데이터셋과 이러한 마스크 내에서 인페인팅을 수행하는 모델의 활용 덕분입니다. 이러한 깨달음을 바탕으로, 우리는 자동화된 광범위한 파이프라인을 구현하여 객체가 제거된 버전과 원본 이미지 쌍을 포함하는 대규모 필터링된 이미지 데이터셋을 구축했습니다. 이러한 쌍을 사용하여 우리는 인페인팅 과정을 역으로 수행하여 이미지에 객체를 효과적으로 추가하는 확산 모델을 학습시켰습니다. 다른 편집 데이터셋과 달리, 우리의 데이터셋은 합성 이미지 대신 자연스러운 대상 이미지를 특징으로 하며, 구성상 원본과 대상 간의 일관성을 유지합니다. 또한, 우리는 제거된 객체에 대한 상세 설명을 제공하기 위해 대규모 시각-언어 모델을 활용하고, 이러한 설명을 다양한 자연어 지시로 변환하기 위해 대형 언어 모델을 사용했습니다. 학습된 모델이 기존 모델들을 정성적 및 정량적으로 능가함을 보여주며, 대규모 데이터셋과 학습된 모델을 커뮤니티에 공개합니다.
기존의 인간 피드백을 통한 강화 학습(RLHF) 접근법은 Bradley-Terry 모델과 같은 파라미터 모델에 의존함으로써 인간 선호의 비이행성과 비합리성을 충분히 포착하지 못하는 한계를 보였습니다. 최근 연구에서는 선호 확률을 직접 다루는 것이 인간 선호를 더 정확하게 반영할 수 있으며, 이를 통해 언어 모델 정렬을 더 유연하고 정확하게 수행할 수 있다는 점이 제시되었습니다. 본 논문에서는 언어 모델 정렬 문제를 상수합(constant-sum) 2인 게임으로 간주하고 내쉬 균형 정책을 찾는 것을 목표로 하는 자기대전(self-play) 기반 방법을 제안합니다. 우리의 접근법인 Self-Play Preference Optimization(SPPO)은 반복적인 정책 업데이트를 통해 내쉬 균형을 근사하며, 이론적 수렴 보장을 갖추고 있습니다. 이 방법은 선택된 응답의 로그 가능도를 효과적으로 증가시키고 거부된 응답의 로그 가능도를 감소시킬 수 있으며, 이러한 결과는 Direct Preference Optimization(DPO) 및 Identity Preference Optimization(IPO)와 같은 대칭적 쌍별 손실 함수로는 쉽게 달성할 수 없습니다. 실험에서는 UltraFeedback 데이터셋의 60k 프롬프트(응답 없음)만을 사용하고 프롬프트 증강 없이, 0.4B 파라미터의 사전 학습된 선호 모델 PairRM을 활용하여 Mistral-7B-Instruct-v0.2를 미세 조정한 모델을 얻었습니다. 이 모델은 AlpacaEval 2.0에서 GPT-4-Turbo 대비 28.53%의 최신 길이 제어 승률을 달성했으며, MT-Bench와 Open LLM Leaderboard에서도 (반복적) DPO 및 IPO를 능가했습니다. 특히, SPPO의 강력한 성능은 GPT-4나 다른 더 강력한 언어 모델로부터의 추가 외부 감독(예: 응답, 선호 등) 없이도 달성되었습니다.
본 연구는 최신 대규모 언어 모델인 Llama-3를 대상으로 한 표적 모델 편집 분석을 제시합니다. 우리는 정밀한 레이어 개입을 위해 설계된 인기 있는 모델 편집 기법인 ROME, MEMIT, EMMET의 효용성을 탐구합니다. 세 가지 전략(순차 편집, 배치 편집, 그리고 순차-배치 편집이라 명명한 하이브리드 접근법)을 통해 최대 4096개의 편집을 포함한 평가를 수행하며, 표적 편집에 가장 효과적인 레이어를 식별합니다. 연구 결과에 따르면, 동일한 수의 편집을 수행할 때 작은 편집 배치를 순차적으로 사용하는 것보다 편집 배치 크기를 늘리는 것이 모델 성능을 더 크게 저하시킬 수 있음을 보여줍니다. 이를 통해, 순차적 모델 편집이 모델 편집 방법의 확장에 중요한 요소이며, 향후 연구는 배치 및 순차 편집을 결합한 방법에 초점을 맞춰야 한다고 주장합니다. 이 관찰은 더 큰 편집 배치 크기를 지향하는 현재의 모델 편집 방법에 잠재적인 한계가 있음을 시사하며, 배치 크기와 모델 편집 성능을 최적화하기 위한 향후 연구의 길을 열어줄 것으로 기대합니다.
대규모 언어 모델(LLM)은 오디오를 이산 토큰으로 변환하는 오디오 코덱을 통해 오디오 처리 기술을 크게 발전시켰으며, 이를 통해 언어 모델링 기술을 오디오 데이터에 적용할 수 있게 되었습니다. 그러나 기존 코덱은 높은 비트레이트에서 작동하거나 음성과 같은 특정 도메인에 한정되어 있어 효율적인 언어 모델링에 필요한 의미론적 단서가 부족한 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 SemantiCodec이라는 새로운 코덱을 소개합니다. SemantiCodec은 음성, 일반 오디오, 음악 등 다양한 오디오 유형에서 품질 저하 없이 초당 100개 미만의 토큰으로 오디오를 압축할 수 있도록 설계되었습니다. SemantiCodec은 이중 인코더 아키텍처를 특징으로 합니다: 자기 지도 학습 방식의 AudioMAE를 사용한 의미론적 인코더는 광범위한 오디오 데이터에 대해 k-means 클러스터링을 통해 이산화되며, 나머지 세부 사항을 포착하기 위한 음향 인코더가 함께 사용됩니다. 의미론적 인코더와 음향 인코더의 출력은 확산 모델 기반 디코더를 통해 오디오를 재구성하는 데 사용됩니다. SemantiCodec은 초당 25, 50, 100개의 토큰 속도를 지원하는 세 가지 변형으로 제공되며, 0.31 kbps에서 1.43 kbps 사이의 초저 비트레이트 범위를 지원합니다. 실험 결과, SemantiCodec은 재구성 품질에서 최신 기술인 Descript 코덱을 크게 능가하는 것으로 나타났습니다. 또한, SemantiCodec은 평가된 모든 오디오 코덱보다 훨씬 더 풍부한 의미론적 정보를 포함하고 있으며, 훨씬 더 낮은 비트레이트에서도 이를 유지하는 것으로 나타났습니다. 우리의 코드와 데모는 https://haoheliu.github.io/SemantiCodec/에서 확인할 수 있습니다.
대규모 언어 모델(LLM)은 자동 회귀 디코딩의 요구사항과 대부분의 현대 GPU 설계 간의 불일치로 인해 낮은 효율성을 겪고 있습니다. 구체적으로, 수십억에서 수조 개의 파라미터가 GPU 캐시로 제한된 메모리 대역폭을 통해 로드되어 계산되지만, 실제로는 소량의 토큰만이 계산됩니다. 결과적으로 GPU는 계산보다는 메모리 전송에 대부분의 시간을 소비하게 됩니다. 최근에는 병렬 디코딩이라는 스펙티브 디코딩 알고리즘의 한 유형이 더욱 인기를 끌며 생성 과정에서 인상적인 효율성 개선을 보여주고 있습니다. 이 방법은 대형 모델에 추가 디코딩 헤드를 도입하여 여러 후속 토큰을 동시에 예측하고 이러한 후보 연속성을 단일 디코딩 단계에서 검증할 수 있게 합니다. 그러나 이 접근 방식은 사전 학습 중 사용된 다음 토큰 예측 훈련 목표와는 다르기 때문에 후보 토큰의 적중률이 낮습니다. 본 논문에서는 병렬 디코딩 과정에 순차적 지식을 통합한 새로운 스펙티브 디코딩 알고리즘인 Clover를 제안합니다. 이 개선은 스펙티베이터의 적중률을 향상시켜 전반적인 효율성을 높입니다. Clover는 회귀 연결(Regressive Connection)을 통해 사전 예측된 토큰으로부터 순차적 지식을 전달한 후, 주의 디코더(Attention Decoder)를 사용하여 이러한 예측 토큰을 통합합니다. 또한, Clover는 다음 토큰 예측이 아닌 스펙티브 생성을 목적으로 숨겨진 상태를 수정하는 증강 블록(Augmenting Block)을 포함합니다. 실험 결과, Clover는 Baichuan-Small에서 최대 91%, Baichuan-Large에서 최대 146%로 기준선을 능가하며, 이전 최고 성능 방법인 Medusa를 Baichuan-Small에서 최대 37%, Baichuan-Large에서 최대 57%까지 초과하는 성능을 보여줍니다.
최근 새로운 3D 표현 방식으로서 3D 가우시안 스플래팅(3D Gaussian Splatting)이 빠른 렌더링 속도와 높은 렌더링 품질로 주목받고 있습니다. 그러나 이 방법은 높은 메모리 소비를 동반하는데, 예를 들어 잘 학습된 가우시안 필드는 300만 개의 가우시안 프리미티브와 700MB 이상의 메모리를 사용할 수 있습니다. 우리는 이러한 높은 메모리 사용량이 프리미티브 간의 관계를 고려하지 않은 데 기인한다고 판단했습니다. 본 논문에서는 스펙트럼 프루닝(spectral pruning)과 신경망 보상을 통해 메모리 효율적인 가우시안 필드인 SUNDAE를 제안합니다. 한편으로, 우리는 가우시안 프리미티브 집합에 그래프를 구성하여 그들 간의 관계를 모델링하고, 원하는 신호를 보존하면서 프리미티브를 제거하기 위한 스펙트럼 다운샘플링 모듈을 설계했습니다. 다른 한편으로, 프루닝된 가우시안의 품질 손실을 보상하기 위해, 경량 신경망 헤드를 활용하여 스플래팅된 특징을 혼합합니다. 이는 품질 손실을 효과적으로 보상하면서 프리미티브 간의 관계를 가중치에 포착합니다. 우리는 SUNDAE의 성능을 다양한 결과를 통해 입증했습니다. 예를 들어, Mip-NeRF360 데이터셋에서 SUNDAE는 104MB의 메모리를 사용하여 145 FPS로 26.80 PSNR을 달성한 반면, 기본 가우시안 스플래팅 알고리즘은 523MB의 메모리를 사용하여 160 FPS로 25.60 PSNR을 달성했습니다. 코드는 https://runyiyang.github.io/projects/SUNDAE/에서 공개되어 있습니다.
3차원 공간에서 물체를 추적하는 것은 자율 주행에 있어 매우 중요합니다. 안전한 주행을 보장하기 위해, 추적기는 프레임 간에 물체를 안정적으로 추적하고 현재의 속도 및 가속도와 같은 상태를 정확하게 추정할 수 있어야 합니다. 기존 연구들은 주로 연관 작업에 초점을 맞추면서 상태 추정에서의 모델 성능을 간과하거나 복잡한 휴리스틱을 사용하여 상태를 예측하는 경우가 많았습니다. 본 논문에서는 Transformer 기반의 Stateful Tracking 모델인 STT를 제안합니다. STT는 장면 내 물체를 일관되게 추적하면서도 그들의 상태를 정확하게 예측할 수 있습니다. STT는 오랜 기간에 걸친 탐지 기록을 통해 풍부한 외형, 기하학적, 그리고 운동 신호를 활용하며, 데이터 연관과 상태 추정 두 작업에 대해 공동으로 최적화됩니다. MOTA 및 MOTP와 같은 표준 추적 지표는 물체 상태의 광범위한 스펙트럼에서 두 작업의 결합된 성능을 포착하지 못하기 때문에, 이러한 한계를 해결하기 위해 S-MOTA 및 MOTPS라는 새로운 지표를 도입했습니다. STT는 Waymo Open Dataset에서 경쟁력 있는 실시간 성능을 달성했습니다.
애플리케이션 개발자들은 앱 이미지가 포함된 제품 페이지를 생성하고 검색어에 입찰함으로써 자신들의 앱을 광고합니다. 이때 앱 이미지가 검색어와 높은 관련성을 가지는 것이 매우 중요합니다. 이 문제를 해결하기 위해서는 선택된 이미지와 검색어 간의 매칭 품질을 예측할 수 있는 이미지-텍스트 매칭 모델이 필요합니다. 본 연구에서는 사전 학습된 LXMERT 모델을 미세 조정하여 앱 이미지와 검색어를 매칭하는 새로운 접근 방식을 제시합니다. 우리는 검색어를 위해 Transformer 모델을, 이미지를 위해 ResNet 모델을 사용한 베이스라인 및 CLIP 모델과 비교하여 매칭 정확도를 크게 향상시킴을 보여줍니다. 우리는 두 가지 라벨 세트를 사용하여 접근 방식을 평가합니다: 주어진 애플리케이션에 대한 광고주가 연관시킨 (이미지, 검색어) 쌍과 (이미지, 검색어) 쌍 간의 관련성에 대한 인간 평가입니다. 우리의 접근 방식은 광고주가 연관시킨 실측 데이터에 대해 0.96 AUC 점수를 달성하여 Transformer+ResNet 베이스라인보다 8%, 미세 조정된 CLIP 모델보다 14% 우수한 성능을 보였습니다. 인간이 라벨링한 실측 데이터에 대해서는 0.95 AUC 점수를 달성하여 Transformer+ResNet 베이스라인보다 16%, 미세 조정된 CLIP 모델보다 17% 우수한 성능을 보였습니다.