번역이 포함된 일일 선별된 AI 연구 논문
우리는 현대의 대형 언어 모델(LLM)이 강화 학습과 의사 결정에서 핵심 능력인 탐색(exploration)을 어느 정도 수행할 수 있는지 조사했다. 본 연구는 기존 LLM의 기본 성능에 초점을 맞추며, 별도의 학습 개입 없이 진행되었다. 우리는 LLM을 단순한 다중 슬롯 머신(multi-armed bandit) 환경에서 에이전트로 배치하고, 환경 설명과 상호작용 이력을 모두 컨텍스트 내(즉, LLM 프롬프트 내)에서 명시했다. GPT-3.5, GPT-4, Llama2를 다양한 프롬프트 설계와 함께 실험한 결과, 상당한 개입 없이는 모델들이 견고한 탐색 행동을 보이지 않음을 발견했다: i) 모든 실험 중에서 만족스러운 탐색 행동을 보인 구성은 GPT-4에 사고 연쇄(chain-of-thought) 추론과 외부에서 요약된 상호작용 이력(충분 통계량으로 제시)을 적용한 경우뿐이었다; ii) 사고 연쇄 추론을 사용했지만 요약되지 않은 이력을 포함한 다른 모든 구성에서는 견고한 탐색 행동이 나타나지 않았다. 이러한 결과는 긍정적으로 해석될 수 있지만, 더 복잡한 환경에서는 불가능할 수 있는 외부 요약이 LLM 에이전트로부터 바람직한 행동을 이끌어내는 데 중요함을 시사한다. 우리는 복잡한 환경에서 LLM 기반 의사 결정 에이전트를 강화하기 위해서는 미세 조정(fine-tuning)이나 데이터셋 큐레이션과 같은 비단순한 알고리즘적 개입이 필요할 수 있다고 결론지었다.
사전 학습된 대규모 언어 모델(LLM)은 현재 대부분의 자연어 처리 작업을 해결하는 데 있어 최첨단 기술로 자리 잡고 있습니다. 많은 실제 애플리케이션들은 만족스러운 성능 수준에 도달하기 위해 여전히 미세 조정이 필요하지만, 이들 중 상당수는 데이터가 부족한 상황에 있어 미세 조정이 어려운 경우가 많습니다. 이를 해결하기 위해, 우리는 LLM2LLM이라는 목표 지향적이고 반복적인 데이터 증강 전략을 제안합니다. 이 전략은 교사 LLM을 사용하여 특정 작업에 대한 미세 조정에 사용할 수 있는 추가 데이터를 증강함으로써 작은 시드 데이터셋을 강화합니다. LLM2LLM은 (1) 초기 시드 데이터에 대해 기본 학생 LLM을 미세 조정하고, (2) 모델이 잘못 예측한 데이터 포인트를 평가 및 추출하며, (3) 교사 LLM을 사용하여 이러한 잘못된 데이터 포인트를 기반으로 합성 데이터를 생성한 후 이를 다시 훈련 데이터에 추가합니다. 이 접근 방식은 훈련 중 LLM이 잘못 예측한 데이터 포인트의 신호를 증폭시키고 이를 데이터셋에 재통합하여 LLM이 더 어려운 예제에 집중할 수 있도록 합니다. 우리의 결과는 LLM2LLM이 데이터가 부족한 상황에서 LLM의 성능을 크게 향상시키며, 전통적인 미세 조정 및 기타 데이터 증강 기준선을 능가함을 보여줍니다. LLM2LLM은 노동 집약적인 데이터 큐레이션에 대한 의존도를 줄이고, 더 확장 가능하고 성능이 뛰어난 LLM 솔루션을 위한 길을 열어 데이터가 제한된 도메인과 작업을 해결할 수 있게 합니다. 우리는 LLaMA2-7B 학생 모델을 사용하여 데이터가 부족한 상황에서 GSM8K 데이터셋에서 24.2%, CaseHOLD에서 32.6%, SNIPS에서 32.0%, TREC에서 52.6%, SST-2에서 39.8%의 성능 향상을 달성했습니다.
우리는 새로운 비디오 기반 모델(ViFM)인 InternVideo2를 소개합니다. 이 모델은 행동 인식, 비디오-텍스트 작업, 그리고 비디오 중심 대화에서 최첨단 성능을 달성합니다. 우리의 접근 방식은 마스킹된 비디오 토큰 재구성, 크로스 모달 대조 학습, 그리고 다음 토큰 예측과 같은 다양한 자기 또는 약한 감독 학습 프레임워크를 통합하는 점진적인 훈련 패러다임을 채택합니다. 다양한 훈련 단계는 우리 모델이 다양한 사전 작업을 통해 구조와 의미 정보의 다른 수준을 포착하도록 안내합니다. 데이터 수준에서는 비디오를 의미적으로 분할하고 비디오-오디오-음성 캡션을 생성함으로써 시공간적 일관성을 우선시합니다. 이는 비디오와 텍스트 간의 정렬을 개선합니다. 우리는 InternVideo2를 위해 데이터와 모델 크기를 모두 확장했습니다. 광범위한 실험을 통해 우리의 설계를 검증하고 60개 이상의 비디오 및 오디오 작업에서 최첨단 성능을 입증했습니다. 특히, 우리의 모델은 다양한 비디오 관련 캡션, 대화, 그리고 긴 비디오 이해 벤치마크에서 다른 모델들을 능가하며, 긴 시간적 맥락을 추론하고 이해하는 능력을 강조합니다. 코드와 모델은 https://github.com/OpenGVLab/InternVideo2/에서 확인할 수 있습니다.
본 연구에서는 현재의 인간 생성 기술에서 형태 정렬과 동작 안내를 강화하기 위해 잠재 확산 프레임워크 내에서 3D 인간 파라미터 모델을 활용한 인간 이미지 애니메이션 방법론을 소개한다. 이 방법론은 SMPL(Skinned Multi-Person Linear) 모델을 3D 인간 파라미터 모델로 사용하여 신체 형태와 자세의 통합된 표현을 확립한다. 이를 통해 소스 비디오에서 복잡한 인간 기하학과 동작 특성을 정확하게 포착할 수 있다. 구체적으로, SMPL 시퀀스에서 얻은 렌더링된 깊이 이미지, 노멀 맵, 그리고 의미론적 맵을 골격 기반 동작 안내와 함께 활용하여 잠재 확산 모델에 포괄적인 3D 형태와 상세한 자세 속성을 조건으로 제공한다. 다층 동작 융합 모듈은 자기 주의 메커니즘을 통합하여 공간 영역에서 형태와 동작의 잠재 표현을 융합한다. 3D 인간 파라미터 모델을 동작 안내로 표현함으로써, 참조 이미지와 소스 비디오 동작 간의 인간 신체 파라미터 형태 정렬을 수행할 수 있다. 벤치마크 데이터셋에서 수행된 실험적 평가는 이 방법론이 자세와 형태 변화를 정확하게 포착하는 고품질 인간 애니메이션을 생성하는 우수한 능력을 보여준다. 또한, 제안된 야외 데이터셋에서도 우수한 일반화 능력을 보인다. 프로젝트 페이지: https://fudan-generative-vision.github.io/champ.
실제 애플리케이션에서는 종종 일관된 테마를 공유하는 대규모 3D 자산 라이브러리가 필요합니다. 텍스트나 이미지로부터 일반적인 3D 콘텐츠를 생성하는 데 있어서는 놀라운 발전이 있었지만, 입력된 3D 예제들의 공유된 테마를 따라 맞춤형 3D 자산을 합성하는 것은 여전히 열려 있고 어려운 문제로 남아 있습니다. 본 연구에서는 테마 인식 3D-to-3D 생성을 위한 새로운 접근 방식인 ThemeStation을 제안합니다. ThemeStation은 주어진 몇 가지 예제를 기반으로 맞춤형 3D 자산을 합성하며, 두 가지 목표를 가지고 있습니다: 1) 주어진 예제들과 테마적으로 일치하는 3D 자산을 생성하는 통일성과 2) 높은 수준의 변형을 가진 3D 자산을 생성하는 다양성입니다. 이를 위해, 우리는 먼저 컨셉 이미지를 그린 다음, 참조 정보를 활용한 3D 모델링 단계로 구성된 두 단계 프레임워크를 설계했습니다. 또한, 입력 예제들과 합성된 컨셉 이미지로부터의 사전 지식을 공동으로 활용하기 위해 새로운 이중 점수 증류(DSD) 손실을 제안합니다. 광범위한 실험과 사용자 연구를 통해 ThemeStation이 인상적인 품질로 다양한 테마 인식 3D 모델을 생성하는 데 있어 기존 연구를 능가한다는 것을 확인했습니다. ThemeStation은 또한 제어 가능한 3D-to-3D 생성과 같은 다양한 애플리케이션을 가능하게 합니다.
본 논문에서는 대규모 비디오-언어 정렬을 위한 VidLA 접근법을 제안한다. 기존 비디오-언어 정렬 접근법에는 두 가지 주요 한계점이 있다. 첫째, 단기 및 장기 시간적 의존성을 모두 포착하지 못하며, 일반적으로 기존의 사전 학습된 이미지-텍스트 기반 모델과 통합하기 어려운 복잡한 계층적 심층 네트워크 아키텍처를 사용한다. 이러한 한계를 효과적으로 해결하기 위해, 우리는 네트워크 아키텍처를 단순하게 유지하고 비디오의 시간적 계층적 특성을 고려하여 다양한 시간적 해상도에서 작동하는 데이터 토큰 세트를 계층적으로 사용한다. 간단한 두 타워(two-tower) 아키텍처를 사용함으로써, 사전 학습된 이미지-텍스트 기반 모델로 비디오-언어 모델을 초기화하여 최종 성능을 향상시킬 수 있다. 둘째, 기존의 비디오-언어 정렬 연구는 의미적으로 정렬된 대규모 학습 데이터의 부족으로 어려움을 겪는다. 이를 극복하기 위해, 우리는 최신 대형 언어 모델(LLM)을 활용하여 지금까지 가장 큰 비디오-언어 데이터셋을 구축하고 더 나은 시각적 근거를 제공한다. 또한, 기존의 비디오-텍스트 데이터셋이 짧은 클립만 포함하는 것과 달리, 우리의 데이터셋은 다양한 지속 시간의 비디오 클립으로 풍부하게 구성되어 시간적 계층적 데이터 토큰이 다양한 시간적 규모에서 더 나은 표현을 추출할 수 있도록 돕는다. 전반적으로, 실험 결과는 우리가 제안한 접근법이 여러 검색 벤치마크에서 최신 방법을 능가하며, 특히 긴 비디오에서 더 나은 성능을 보이고, 분류 벤치마크에서도 경쟁력 있는 성능을 보임을 입증한다.
트랜스포머는 시퀀스 혼합을 위해 어텐션 네트워크를, 채널 혼합을 위해 MLP를 널리 채택하며 다양한 분야에서의 혁신을 이끄는 데 중요한 역할을 해왔습니다. 그러나 최근 연구에서는 어텐션 네트워크의 낮은 귀납적 편향과 입력 시퀀스 길이에 대한 2차 복잡성과 같은 문제점들이 지적되고 있습니다. 이러한 문제를 해결하고 더 긴 시퀀스 길이를 처리하기 위해 S4와 같은 상태 공간 모델(SSM)들(Hippo, Global Convolutions, liquid S4, LRU, Mega, Mamba 등)이 등장했습니다. Mamba는 최신 SSM이지만 컴퓨터 비전 데이터셋을 위한 대규모 네트워크로 확장할 때 안정성 문제가 있습니다. 우리는 채널 모델링을 위해 특정 고유값 계산을 통해 Einstein FFT(EinFFT)를 도입하고 시퀀스 모델링을 위해 Mamba 블록을 사용하는 새로운 아키텍처인 SiMBA를 제안합니다. 이미지 및 시계열 벤치마크에 대한 광범위한 성능 연구를 통해 SiMBA가 기존 SSM들을 능가하며 최신 트랜스포머와의 성능 격차를 줄이는 것을 입증했습니다. 특히, SiMBA는 ImageNet 및 Stanford Car, Flower와 같은 전이 학습 벤치마크뿐만 아니라 7개의 시계열 벤치마크 데이터셋에서도 새로운 최신 SSM으로 자리매김했습니다. 프로젝트 페이지는 ~https://github.com/badripatro/Simba에서 확인할 수 있습니다.
우리는 DragAPart라는 방법을 소개합니다. 이 방법은 이미지와 일련의 드래그 입력을 받아, 드래그 동작과 호환되는 새로운 상태의 동일한 객체 이미지를 생성할 수 있습니다. 기존의 객체 재배치에 초점을 맞춘 연구와 달리, DragAPart는 서랍 열기 및 닫기와 같은 부위 수준의 상호작용을 예측합니다. 우리는 이 문제를 특정 운동학적 구조나 객체 카테고리에 제한되지 않는 일반적인 모션 모델을 학습하기 위한 대리 문제로 연구합니다. 이를 위해, 우리는 사전 훈련된 이미지 생성기로 시작하여 새로운 합성 데이터셋인 Drag-a-Move에서 미세 조정을 수행합니다. 새로운 드래그 인코딩과 데이터셋 무작위화를 결합함으로써, 이 새로운 모델은 실제 이미지와 다양한 카테고리에 대해 잘 일반화됩니다. 기존의 모션 제어 생성기와 비교하여, 우리는 훨씬 더 우수한 부위 수준의 모션 이해를 입증합니다.
현대의 대규모 언어 모델(LLMs)은 다양한 사용자 작업을 가능하게 하는 길고 복잡한 지시를 따를 수 있는 능력을 갖추고 있습니다. 그러나 정보 검색(IR) 모델들이 LLMs를 그들의 아키텍처의 핵심으로 사용하고 있음에도 불구하고, 거의 모든 모델들은 여전히 쿼리만을 입력으로 받으며 지시를 포함하지 않습니다. 최근 소수의 모델들이 지시를 입력으로 받기는 하지만, 그들이 이를 어떻게 사용하는지는 명확하지 않습니다. 우리는 FollowIR 데이터셋을 소개합니다. 이 데이터셋은 엄격한 지시 평가 벤치마크와 IR 모델이 실제 세계의 지시를 더 잘 따르도록 학습하는 데 도움을 주는 훈련 세트를 포함하고 있습니다. FollowIR은 TREC 컨퍼런스의 오랜 역사를 기반으로 합니다: TREC이 인간 주석자들에게 문서 관련성을 결정하기 위한 지시(또는 서술)를 제공하는 것처럼, IR 모델들도 이러한 상세한 지시를 이해하고 관련성을 결정할 수 있어야 합니다. 우리의 평가 벤치마크는 세 개의 깊이 있게 판단된 TREC 컬렉션으로 시작하며, 주석자 지시를 변경하여 관련 문서를 다시 주석 처리합니다. 이 과정을 통해 우리는 새로운 쌍별 평가 프레임워크를 통해 IR 모델들이 지시를 얼마나 잘 따르는지 측정할 수 있습니다. 우리의 결과는 기존의 검색 모델들이 지시를 올바르게 사용하지 못하며, 기본적인 키워드로 사용하고 긴 형식의 정보를 이해하는 데 어려움을 겪는다는 것을 보여줍니다. 그러나 우리는 IR 모델들이 복잡한 지시를 따르도록 학습할 수 있음을 보여줍니다: 우리의 새로운 FollowIR-7B 모델은 우리의 훈련 세트에서 미세 조정 후 상당한 개선(13% 이상)을 보였습니다.
직접적인 피드백은 사용자 경험, 의견 및 요구사항을 담고 있는 소프트웨어 개발에 필수적인 귀중한 자료원입니다. 이러한 데이터에서 가치 있는 통찰을 효과적이고 효율적으로 추출하는 것은 어려운 과제입니다. 본 논문은 대규모 언어 모델(LLMs)을 활용하여 자연어 인터페이스를 통해 대규모 피드백 분석을 수행하는 혁신적인 분석 프레임워크인 Allhands를 소개합니다. Allhands는 기존의 피드백 분석 워크플로우를 따르며, 먼저 피드백에 대한 분류 및 토픽 모델링을 수행하여 이를 구조적으로 강화된 형식으로 변환하고, LLMs를 활용하여 정확성, 견고성, 일반화 및 사용자 친화성을 향상시킵니다. 이후, LLM 에이전트를 사용하여 피드백에 대한 사용자의 다양한 자연어 질문을 해석하고 이를 실행 가능한 Python 코드로 변환한 후, 텍스트, 코드, 테이블 및 이미지를 포함한 포괄적인 다중 모드 응답을 제공합니다. 우리는 Allhands를 세 가지 다양한 피드백 데이터셋에서 평가했습니다. 실험 결과, Allhands는 분류 및 토픽 모델링을 포함한 분석의 모든 단계에서 우수한 효율성을 달성하며, 궁극적으로 사용자에게 "무엇이든 물어보세요" 경험을 제공하며 포괄적이고 정확하며 인간이 읽기 쉬운 응답을 제공합니다. 우리가 아는 한, Allhands는 자연어 인터페이스를 통해 다양한 맞춤형 요구사항을 지원하는 첫 번째 포괄적인 피드백 분석 프레임워크입니다.
최근의 텍스트-3D 생성 접근법은 인상적인 3D 결과물을 생성하지만, 프롬프트당 최대 1시간까지 소요되는 시간 소모적인 최적화 과정이 필요합니다. ATT3D와 같은 분할 상환 방식(amortized method)은 여러 프롬프트를 동시에 최적화하여 효율성을 높이고 빠른 텍스트-3D 합성을 가능하게 합니다. 그러나 이러한 방법은 고주파 기하학적 및 텍스처 세부 사항을 포착하지 못하고 대규모 프롬프트 세트로 확장하기 어려워 일반화 성능이 떨어집니다. 우리는 LATTE3D를 소개하여 이러한 한계를 해결하고 훨씬 더 큰 프롬프트 세트에서 빠르고 고품질의 생성을 달성합니다. 우리 방법의 핵심은 1) 확장 가능한 아키텍처 구축과 2) 3D 데이터를 활용한 최적화로, 3D 인식 확산 사전(3D-aware diffusion priors), 형태 정규화(shape regularization), 모델 초기화를 통해 다양하고 복잡한 훈련 프롬프트에 대한 견고성을 달성합니다. LATTE3D는 신경 필드(neural field)와 텍스처가 적용된 표면 생성을 분할 상환하여 단일 순방향 전달(forward pass)로 고도로 세부화된 텍스처 메시를 생성합니다. LATTE3D는 400ms 내에 3D 객체를 생성하며, 빠른 테스트 시간 최적화를 통해 더욱 향상될 수 있습니다.
우리는 LLVM 어셈블리의 코드 크기를 최적화하기 위해 컴파일러 피드백과 결합된 대형 언어 모델(Large Language Models)을 활용한 새로운 컴파일러 최적화 패러다임을 소개합니다. 이 모델은 최적화되지 않은 LLVM IR을 입력으로 받아 최적화된 IR, 최적의 최적화 패스, 그리고 최적화 전후의 명령어 수를 출력합니다. 그런 다음 생성된 최적화 패스를 사용하여 입력을 컴파일하고, 예측된 명령어 수가 정확한지, 생성된 IR이 컴파일 가능한지, 그리고 컴파일된 코드와 일치하는지 평가합니다. 이 피드백을 다시 LLM에 제공하여 코드를 다시 최적화할 기회를 줍니다. 이 접근 방식은 기존 모델 대비 -Oz에 추가로 0.53%의 개선을 달성했습니다. 피드백을 통해 더 많은 정보를 추가하는 것이 직관적으로 보이지만, 단순한 샘플링 기법은 10개 이상의 샘플이 주어졌을 때 훨씬 더 높은 성능을 보여줍니다.