번역이 포함된 일일 선별된 AI 연구 논문
최근 대규모 언어 모델(LLMs)의 평가는 기본적인 자연어 작업에 대한 제로샷/퓨샷 능력과 지시사항을 도구 API로 변환하는 능력을 테스트하는 데 초점이 맞춰져 왔습니다. 그러나 복잡한 다중 모달 환경에서 복잡한 도구를 활용하여 다중 턴, 다중 모달 지시사항을 완료하는 LLMs의 평가는 아직 연구되지 않았습니다. 이러한 격차를 해결하기 위해, 우리는 사용자 지시에 따라 PPT 파일을 생성하고 편집하는 LLMs의 능력을 평가하기 위한 PowerPoint 작업 완료(PPTC) 벤치마크를 소개합니다. 이 벤치마크는 다양한 주제를 다루는 279개의 다중 턴 세션과 다중 모달 작업을 포함하는 수백 개의 지시사항을 포함합니다. 또한, 우리는 LLMs가 레이블 API 시퀀스가 아닌 예측 파일을 기반으로 지시사항을 완료했는지 평가하는 PPTX-Match 평가 시스템을 제안합니다. 이 시스템은 다양한 LLM 생성 API 시퀀스를 지원합니다. 우리는 3개의 폐쇄형 LLMs와 6개의 오픈소스 LLMs를 측정했습니다. 결과는 GPT-4가 단일 턴 대화 테스트에서 75.1%의 정확도로 다른 LLMs를 능가하지만, 전체 세션을 완료하는 데는 어려움을 겪어 단 6%의 세션 정확도를 달성했음을 보여줍니다. 우리는 벤치마크에서 세 가지 주요 오류 원인을 발견했습니다: 다중 턴 세션에서의 오류 누적, 긴 PPT 템플릿 처리, 그리고 다중 모달리티 인식. 이러한 문제들은 향후 LLM 및 에이전트 시스템에 큰 도전을 제기합니다. 우리는 PPTC의 데이터, 코드, 평가 시스템을 https://github.com/gydpku/PPTC에서 공개합니다.
우리는 마스킹, 대조 학습 및 재구성을 통해 오디오와 언어 표현을 효율적이고 효과적으로 정렬하여 학습하는 자기 지도 방식인 Fast Language-Audio Pre-training(FLAP)을 제안한다. 효율성을 위해 FLAP은 오디오 스펙트로그램 토큰을 무작위로 제거하고, 남은 토큰에만 집중하여 자기 지도를 수행한다. FLAP은 인터모달 대조 학습을 통해 공유 잠재 공간에서 짝을 이루는 오디오와 텍스트 표현을 정렬하는 방법을 학습한다. 특히, FLAP은 마스킹을 통해 생성된 다중 증강 뷰를 활용하여 인터모달 대조를 수행하고, 마스킹된 오디오 토큰 부분을 재구성하는 방법을 학습한다. 또한, FLAP은 대형 언어 모델(LLM)을 활용하여 텍스트 입력을 증강시켜 성능 향상에 기여한다. 이러한 접근 방식은 더욱 견고하고 정보가 풍부한 오디오-텍스트 표현을 가능하게 하여, FLAP이 AudioCaps(53.0% R@1 달성)와 Clotho(25.5% R@1 달성)에서 오디오-텍스트 검색 작업에서 최첨단(SoTA) 성능을 달성할 수 있도록 한다.
우리는 동적 주행 장면의 시공간적 표현을 학습하기 위한 간단하면서도 강력한 접근법인 EmerNeRF를 제안한다. EmerNeRF는 신경 필드(neural fields)에 기반하여, 장면의 기하학, 외관, 움직임, 그리고 의미론을 자가 부트스트래핑을 통해 동시에 포착한다. EmerNeRF는 두 가지 핵심 구성 요소에 의존한다: 첫째, 장면을 정적 필드와 동적 필드로 계층화한다. 이 분해는 순수하게 자기 지도 학습에서 발생하며, 이를 통해 우리의 모델은 일반적인 실제 데이터 소스로부터 학습할 수 있다. 둘째, EmerNeRF는 동적 필드에서 유도된 흐름 필드를 매개변수화하고, 이 흐름 필드를 사용하여 다중 프레임 특징을 추가로 집계함으로써 동적 객체의 렌더링 정밀도를 증폭시킨다. 이 세 가지 필드(정적, 동적, 흐름)를 결합함으로써 EmerNeRF는 동적 객체 분할이나 광학 흐름 추정을 위한 지상 진실 객체 주석이나 사전 학습된 모델에 의존하지 않고도 고도로 동적인 장면을 자체적으로 표현할 수 있다. 우리의 방법은 센서 시뮬레이션에서 최첨단 성능을 달성하며, 정적 장면(+2.93 PSNR)과 동적 장면(+3.70 PSNR)을 재구성할 때 이전 방법들을 크게 능가한다. 또한, EmerNeRF의 의미론적 일반화를 강화하기 위해, 우리는 2D 시각적 기반 모델 특징을 4D 시공간으로 리프트하고, 현대 트랜스포머의 일반적인 위치 편향을 해결함으로써 3D 인식 성능을 크게 향상시킨다(예: 점유 예측 정확도에서 평균 37.50% 상대적 개선). 마지막으로, 우리는 극단적이고 고도로 동적인 설정에서 신경 필드를 벤치마크하기 위해 다양하고 도전적인 120-시퀀스 데이터셋을 구축한다.