번역이 포함된 일일 선별된 AI 연구 논문
주어진 음악 트랙에 대한 자연어 설명을 생성하는 자동 음악 캡셔닝은 대량의 음악 데이터를 이해하고 조직화하는 데 있어 상당한 잠재력을 가지고 있습니다. 그러나 그 중요성에도 불구하고, 연구자들은 기존 음악-언어 데이터셋의 제한된 크기와 이를 수집하는 데 드는 비용과 시간이 많이 소요되는 문제로 인해 어려움을 겪고 있습니다. 이러한 데이터 부족 문제를 해결하기 위해, 우리는 대규모 태그 데이터셋에서 설명 문장을 인공적으로 생성하기 위해 대형 언어 모델(LLM)을 사용할 것을 제안합니다. 이를 통해 약 0.5M개의 오디오 클립과 짝을 이루는 약 2.2M개의 캡션을 생성합니다. 우리는 이를 대형 언어 모델 기반의 가짜 음악 캡션 데이터셋, 줄여서 LP-MusicCaps라고 명명합니다. 우리는 이 대규모 음악 캡셔닝 데이터셋을 자연어 처리 분야에서 사용되는 다양한 정량적 평가 지표와 인간 평가를 통해 체계적으로 평가했습니다. 또한, 이 데이터셋으로 트랜스포머 기반의 음악 캡셔닝 모델을 학습시키고, 제로샷 및 전이 학습 설정에서 평가했습니다. 결과는 우리가 제안한 접근 방식이 지도 학습 기반의 베이스라인 모델을 능가함을 보여줍니다.
인터넷 규모의 데이터로 훈련된 시각-언어 모델이 어떻게 종단 간 로봇 제어에 직접 통합되어 일반화를 촉진하고 새로운 의미적 추론을 가능하게 할 수 있는지 연구합니다. 우리의 목표는 단일 종단 간 훈련 모델이 로봇 관측을 동작으로 매핑하는 방법을 학습함과 동시에 웹에서 수집된 대규모 언어 및 시각-언어 데이터에 대한 사전 훈련의 이점을 누릴 수 있도록 하는 것입니다. 이를 위해, 우리는 최첨단 시각-언어 모델을 로봇 궤적 데이터와 인터넷 규모의 시각-언어 작업(예: 시각적 질문 응답)에 대해 공동으로 미세 조정할 것을 제안합니다. 다른 접근법과 달리, 우리는 이 목표를 달성하기 위한 간단하고 일반적인 방법을 제안합니다: 자연어 응답과 로봇 동작을 동일한 형식으로 맞추기 위해, 동작을 텍스트 토큰으로 표현하고 이를 자연어 토큰과 동일한 방식으로 모델의 훈련 세트에 직접 통합합니다. 우리는 이러한 범주의 모델을 시각-언어-동작 모델(VLA)이라고 부르며, 이를 구현한 예시 모델을 RT-2라고 명명합니다. 우리의 광범위한 평가(6,000회 평가 시험)는 우리의 접근 방식이 성능이 뛰어난 로봇 정책을 이끌어내고 RT-2가 인터넷 규모의 훈련으로부터 다양한 새로운 능력을 획득할 수 있음을 보여줍니다. 이는 새로운 객체에 대한 일반화 능력의 상당한 개선, 로봇 훈련 데이터에 없는 명령(예: 특정 숫자나 아이콘 위에 객체를 놓기)을 해석하는 능력, 사용자 명령에 대한 기본적인 추론(예: 가장 작거나 큰 객체를 선택하거나 다른 객체에 가장 가까운 객체를 선택하기)을 수행하는 능력을 포함합니다. 우리는 또한 사고의 연쇄(chain of thought) 추론을 통합함으로써 RT-2가 다단계 의미적 추론을 수행할 수 있음을 보여줍니다. 예를 들어, 임시 망치로 사용할 객체(바위)를 선택하거나, 피곤한 사람에게 가장 적합한 음료 종류(에너지 드링크)를 결정하는 등의 작업을 수행할 수 있습니다.
우리는 대규모 언어 모델(LLM)을 활용한 개인화 콘텐츠 추천 성능 향상을 위해 다양한 프롬프트 전략을 입력 증강을 통해 조사합니다. 우리가 제안한 접근 방식인 LLM-Rec은 네 가지 구별되는 프롬프트 전략을 포함합니다: (1) 기본 프롬프트, (2) 추천 중심 프롬프트, (3) 참여 유도 프롬프트, (4) 추천 중심 + 참여 유도 프롬프트. 실험 결과, 이러한 프롬프트 전략을 사용하여 LLM이 생성한 증강 입력 텍스트를 원본 콘텐츠 설명과 결합하면 추천 성능이 향상되는 것으로 나타났습니다. 이 결과는 개인화 콘텐츠 추천을 위해 대규모 언어 모델의 추천 능력을 향상시키기 위해 다양한 프롬프트와 입력 증강 기술을 통합하는 것의 중요성을 강조합니다.
우리는 인과 분석을 통해 언어 모델 계산의 내부 구조를 조사하고 두 가지 주요 패턴을 발견했습니다: (1) 언어 모델의 하나의 어텐션 레이어를 제거했을 때 다른 레이어가 이를 보상하는 적응형 계산 형태(이를 '히드라 효과'라고 명명)와 (2) 최대 우도 토큰을 하향 조절하는 후기 MLP 레이어의 균형 조절 기능입니다. 우리의 제거 연구는 언어 모델 레이어들이 일반적으로 상대적으로 느슨하게 결합되어 있음을 보여줍니다(한 레이어의 제거는 소수의 하위 레이어에만 영향을 미침). 놀랍게도, 이러한 효과는 드롭아웃 없이 훈련된 언어 모델에서도 발생합니다. 우리는 이러한 효과를 사실 회상의 맥락에서 분석하고, 언어 모델의 회로 수준 속성에 대한 함의를 고려합니다.
이미지 캡셔닝은 일반적으로 참조 이미지-캡션 쌍의 분포와 일치하는 이미지 캡션을 생성하는 작업으로 공식화됩니다. 그러나 표준 캡셔닝 데이터셋의 참조 캡션은 짧으며, 설명하는 이미지를 고유하게 식별하지 못할 수 있습니다. 이러한 문제는 인터넷에서 수집된 이미지-대체 텍스트 쌍으로 직접 모델을 훈련시킬 때 더욱 악화됩니다. 본 연구에서는 훈련 과정을 최소한으로 변경하면서도 더 구체적인 캡션을 생성할 수 있음을 보여줍니다. 우리는 자동회귀 캡셔닝 모델에 대해 조건부 및 무조건부 캡션 분포를 모두 추정하도록 미세 조정하여 분류자 없는 가이던스를 구현합니다. 디코딩 시 적용되는 가이던스 스케일은 p(캡션|이미지)와 p(이미지|캡션) 사이의 균형을 조절합니다. 표준 그리디 디코딩과 비교하여, 가이던스 스케일 2를 적용한 디코딩은 CLIPScore(0.808 대 0.775)와 같은 참조 없는 메트릭 및 CLIP 임베딩 공간에서의 캡션-이미지 검색 성능(recall@1 44.6% 대 26.5%)을 크게 향상시키지만, 표준 참조 기반 캡셔닝 메트릭(예: CIDEr 78.6 대 126.1)은 악화시킵니다. 또한, 언어 모델을 사용하여 디코딩 과정을 가이드하는 방법을 탐구하여, 분류자 없는 가이던스에서 발생하는 참조 없는 대 참조 기반 캡셔닝 메트릭의 파레토 프론티어를 약간 개선하고, 최소한으로 정제된 웹 데이터로 훈련된 모델에서 생성된 캡션의 품질을 크게 향상시킵니다.
최근 비디오 기반 모델과 대형 언어 모델을 통합하여 특정 사전 정의된 비전 작업의 한계를 극복하는 비디오 이해 시스템을 구축하는 연구가 활발히 진행되고 있습니다. 그러나 기존 시스템은 극소수의 프레임으로 구성된 비디오만 처리할 수 있습니다. 긴 비디오의 경우 계산 복잡성, 메모리 비용, 그리고 장기간의 시간적 연결이 여전히 해결해야 할 과제로 남아 있습니다. Atkinson-Shiffrin 기억 모델에서 영감을 받아, 우리는 빠르게 업데이트되는 단기 기억과 간결하면서도 지속적인 장기 기억을 포함하는 메모리 메커니즘을 개발했습니다. 우리는 트랜스포머의 토큰을 메모리의 운반체로 사용합니다. MovieChat은 긴 비디오 이해 분야에서 최첨단 성능을 달성했습니다.
대형 언어 모델(LLMs)은 범용 에이전트를 개발하려는 야심찬 목표가 더 이상 공상이 아니게 만들었습니다. 이러한 범용 모델을 구축하는 데 있어 주요 장애물은 과제와 모달리티의 다양성과 이질성입니다. 이를 해결할 수 있는 유망한 방법은 통합으로, 하나의 통합 프레임워크 내에서 다양한 과제와 모달리티를 지원하는 것입니다. 대규모 데이터셋으로 학습된 Flamingo(Alayrac et al., 2022)와 같은 몇몇 대형 모델은 두 가지 이상의 모달리티를 지원할 수 있지만, 현재의 소규모 및 중간 규모 통합 모델은 여전히 이미지-텍스트 또는 비디오-텍스트와 같이 두 가지 모달리티로 제한됩니다. 우리가 던지는 질문은: 모든 모달리티를 지원할 수 있는 통합 모델을 효율적으로 구축할 수 있는가? 이에 대한 답으로, 우리는 이 야심찬 목표를 향한 한 걸음 더 나아간 UnIVAL을 제안합니다. 거대한 데이터셋 크기나 수십억 개의 파라미터를 가진 모델에 의존하지 않고, 약 0.25B 파라미터의 UnIVAL 모델은 두 가지 이상의 모달리티를 넘어 텍스트, 이미지, 비디오, 오디오를 하나의 모델로 통합합니다. 우리의 모델은 과제 균형과 다중 모달리티 커리큘럼 학습을 기반으로 많은 과제에 대해 효율적으로 사전 학습됩니다. UnIVAL은 이미지 및 비디오-텍스트 과제에서 기존의 최첨단 접근 방식과 경쟁력 있는 성능을 보여줍니다. 이미지와 비디오-텍스트 모달리티에서 학습된 특징 표현 덕분에, 오디오에 사전 학습되지 않았음에도 불구하고 오디오-텍스트 과제에 미세 조정 시 경쟁력 있는 성능을 달성할 수 있습니다. 통합 모델 덕분에, 우리는 서로 다른 다중 모달리티 과제에서 학습된 모델의 가중치 보간을 통한 다중 모달리티 모델 병합에 대한 새로운 연구를 제안하며, 특히 분포 외 일반화에서의 이점을 보여줍니다. 마지막으로, 우리는 과제 간의 시너지를 보여줌으로써 통합의 동기를 부여합니다. 모델 가중치와 코드는 여기에서 공개됩니다: https://github.com/mshukor/UnIVAL.
현재 행동(예: 계란 깨기) 이후에 일반적으로 발생하는 상황을 알고 있다면, 행위자의 미래 행동(예: 계란 섞기)을 더 잘 예측할 수 있을까? 또한 행위자의 장기적 목표(예: 계란 볶음밥 만들기)를 알고 있다면 어떨까? 장기적 행동 예측(LTA) 작업은 비디오 관찰을 통해 행위자의 미래 행동을 동사와 명사 시퀀스 형태로 예측하는 것을 목표로 하며, 인간-기계 상호작용에 있어 매우 중요하다. 우리는 LTA 작업을 두 가지 관점에서 공식화할 것을 제안한다: 시간적 역학을 모델링하여 다음 행동을 자동회귀적으로 예측하는 하향식 접근법과, 행위자의 목표를 추론하고 목표를 달성하기 위해 필요한 절차를 계획하는 상향식 접근법이다. 우리는 레시피나 방법론과 같은 절차 텍스트 데이터로 사전 학습된 대형 언어 모델(LLM)이 두 관점 모두에서 LTA를 지원할 잠재력이 있다고 가정한다. LLM은 가능한 다음 행동에 대한 사전 지식을 제공하고, 관찰된 절차의 일부를 바탕으로 목표를 추론하는 데 도움을 줄 수 있다. LLM을 활용하기 위해, 우리는 AntGPT라는 두 단계 프레임워크를 제안한다. 이 프레임워크는 먼저 관찰된 비디오에서 이미 수행된 행동을 인식한 다음, 조건부 생성을 통해 미래 행동을 예측하거나, 사고 연쇄 프롬프팅을 통해 목표를 추론하고 전체 절차를 계획하도록 LLM에 요청한다. Ego4D LTA v1 및 v2 벤치마크, EPIC-Kitchens-55, 그리고 EGTEA GAZE+에서의 실험 결과는 우리가 제안한 접근법의 효과를 입증한다. AntGPT는 위의 모든 벤치마크에서 최첨단 성능을 달성했으며, 질적 분석을 통해 목표를 성공적으로 추론하고 목표 기반의 "반사실적" 예측을 수행할 수 있다. 코드와 모델은 https://brown-palm.github.io/AntGPT에서 공개될 예정이다.
비디오 시간적 그라운딩(Video Temporal Grounding, VTG)은 사용자 정의 언어 쿼리(예: 문장 또는 단어)에 따라 비디오에서 타겟 클립(예: 연속적인 구간 또는 분리된 샷)을 찾는 것을 목표로 하며, 소셜 미디어에서의 비디오 탐색에 핵심적인 역할을 합니다. 이 분야의 대부분의 방법은 특정 작업에 맞춰진 모델을 개발하며, 이 모델들은 시간 간격 검색(moment retrieval)이나 가치 곡선(worthiness curve)과 같은 유형별 레이블로 학습됩니다. 이는 다양한 VTG 작업과 레이블로 일반화하는 능력을 제한합니다. 본 논문에서는 다양한 VTG 레이블과 작업을 통합하는 UniVTG를 제안합니다. 첫째, 다양한 VTG 레이블과 작업을 재검토하고 통합된 공식을 정의합니다. 이를 기반으로 확장 가능한 가짜 감독(pseudo supervision)을 생성하기 위한 데이터 주석 방식을 개발합니다. 둘째, 각 작업을 해결하고 각 레이블을 최대한 활용할 수 있는 효과적이고 유연한 그라운딩 모델을 개발합니다. 마지막으로, 통합된 프레임워크 덕분에 대규모 다양한 레이블로부터 시간적 그라운딩 사전 학습을 가능하게 하고, 제로샷 그라운딩(zero-shot grounding)과 같은 더 강력한 그라운딩 능력을 개발합니다. 7개의 데이터셋(QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum, QFVS)에서 3가지 작업(시간 간격 검색, 하이라이트 검출, 비디오 요약)에 대한 광범위한 실험을 통해 제안된 프레임워크의 효과성과 유연성을 입증합니다. 코드는 https://github.com/showlab/UniVTG에서 확인할 수 있습니다.
우리는 인스트럭션 튜닝된 대형 언어 모델(LLMs)을 대상으로 한 가상 프롬프트 주입(Virtual Prompt Injection, VPI)을 소개한다. VPI는 공격자가 지정한 가상 프롬프트를 통해 모델 입력에 명시적인 주입 없이도 특정 트리거 시나리오에서 모델 행동을 조종할 수 있게 한다. 예를 들어, 조 바이든 관련 인스트럭션에 대해 "조 바이든을 부정적으로 묘사하라."라는 가상 프롬프트로 LLM이 손상된 경우, 이 모델을 배포한 서비스는 조 바이든 관련 사용자 쿼리를 처리할 때 편향된 견해를 전파하게 된다. VPI는 주로 두 가지 이유로 특히 해롭다. 첫째, 공격자는 다양한 가상 프롬프트를 정의함으로써 LLM의 행동을 세밀하게 제어할 수 있으며, 이는 LLM이 인스트럭션을 잘 따르는 능력을 악용한 것이다. 둘째, 이러한 제어는 모델이 서비스 중일 때 공격자의 개입 없이도 이루어지므로 지속적인 공격이 가능하다. 이러한 위협을 입증하기 위해, 우리는 모델의 인스트럭션 튜닝 데이터를 오염시켜 VPI를 수행하는 간단한 방법을 제안한다. 우리가 제안한 방법은 VPI로 LLM을 조종하는 데 매우 효과적임을 발견했다. 예를 들어, 인스트럭션 튜닝 데이터에 단 52개의 오염된 예제(훈련 데이터 크기의 0.1%)만 주입해도, 훈련된 모델이 조 바이든 관련 쿼리에 대해 부정적인 응답을 하는 비율이 0%에서 40%로 변경되었다. 따라서 우리는 인스트럭션 튜닝 데이터의 무결성을 보장할 필요성을 강조하며, 적은 양의 오염된 데이터도 배포된 모델에 은밀하고 지속적인 피해를 줄 수 있음을 지적한다. 또한, 우리는 가능한 방어 방법을 탐구하고 데이터 필터링이 오염 공격에 효과적으로 대응할 수 있는 방법임을 확인했다. 우리의 프로젝트 페이지는 https://poison-llm.github.io에서 확인할 수 있다.
강력한 대형 언어 모델(LLMs)을 기반으로, 최근 생성형 멀티모달 대형 언어 모델(MLLMs)이 중요한 연구 분야로 부각되며, 이해와 생성 모두에서 뛰어난 능력을 보여주고 있습니다. 본 연구에서는 생성 모델의 포괄적인 평가를 위한 예비 단계로서 MLLMs의 생성적 이해 능력 평가를 다루며, SEED-Bench라는 벤치마크를 소개합니다. SEED-Bench는 정확한 인간 주석이 달린 19,000개의 객관식 문제로 구성되어 있으며(기존 벤치마크보다 6배 큼), 이미지와 비디오 양식의 이해를 포함한 12개의 평가 차원을 아우릅니다. 우리는 특정 평가 차원을 대상으로 하는 객관식 문제 생성을 위한 고급 파이프라인을 개발하고, 자동 필터링과 수동 검증 프로세스를 통합했습니다. 인간 주석에서 도출된 정답 옵션이 있는 객관식 문제는 평가 과정에서 인간이나 GPT의 개입 없이도 모델 성능을 객관적이고 효율적으로 평가할 수 있게 합니다. 또한, 우리는 공간적 및 시간적 이해를 모두 포함한 12개 차원에 걸쳐 18개 모델의 성능을 평가합니다. 평가 결과를 통해 기존 MLLMs의 한계를 드러냄으로써, SEED-Bench가 미래 연구를 촉진하는 데 통찰을 제공할 수 있기를 목표로 합니다. 우리는 커뮤니티가 모델 능력을 평가하고 연구할 수 있는 플랫폼을 제공하기 위해 리더보드를 출시하고 지속적으로 유지할 예정입니다.
실제 환경에 배치된 자율 로봇은 환경 변화에 빠르게 적응할 수 있는 제어 정책이 필요합니다. 이를 위해 우리는 AutoML-Zero를 기반으로 한 AutoRobotics-Zero(ARZ) 방법을 제안합니다. 이 방법은 제로샷 적응 가능한 정책을 처음부터 발견합니다. 신경망 적응 정책이 모델 파라미터만 최적화하는 반면, ARZ는 선형 레지스터 머신의 완전한 표현력을 가진 제어 알고리즘을 구축할 수 있습니다. 우리는 모델 파라미터를 조정하고 추론 알고리즘을 실시간으로 변경하여 갑작스러운 환경 변화에 적응하는 모듈식 정책을 진화시킵니다. 우리는 이 방법을 현실적인 시뮬레이션 환경의 사족 보행 로봇에 적용하여, 개별 다리가 갑자기 고장 나도 넘어지지 않는 안전한 제어 정책을 진화시켰습니다. 이는 두 가지 인기 있는 신경망 기반 방법이 실패하는 어려운 과제입니다. 마지막으로, 우리는 'Cataclysmic Cartpole'이라는 새롭고 도전적인 비정상 제어 과제에 대해 우리의 방법을 상세히 분석했습니다. 결과는 ARZ가 갑작스러운 환경 변화에 훨씬 더 강건하며 단순하고 해석 가능한 제어 정책을 구축할 수 있다는 우리의 발견을 확인시켜 줍니다.