번역이 포함된 일일 선별된 AI 연구 논문
소프트웨어는 우리 인간이 활용할 수 있는 가장 강력한 도구 중 하나로, 숙련된 프로그래머가 복잡하고 심오한 방식으로 세상과 상호작용할 수 있게 해줍니다. 동시에, 대규모 언어 모델(LLM)의 발전 덕분에 주변 환경과 상호작용하며 변화를 일으키는 AI 에이전트의 급속한 발전도 이루어지고 있습니다. 본 논문에서는 인간 개발자와 유사한 방식으로 세상과 상호작용하는 강력하고 유연한 AI 에이전트를 개발하기 위한 플랫폼인 OpenDevin을 소개합니다. 이 플랫폼은 코드 작성, 명령줄 상호작용, 웹 브라우징 등을 통해 새로운 에이전트를 구현하고, 코드 실행을 위한 샌드박스 환경과의 안전한 상호작용, 다중 에이전트 간의 조정, 평가 벤치마크의 통합을 가능하게 합니다. 현재 통합된 벤치마크를 기반으로, 소프트웨어 엔지니어링(예: SWE-Bench) 및 웹 브라우징(예: WebArena)을 포함한 15가지 도전적인 과제에 대해 에이전트를 평가합니다. 허가적인 MIT 라이선스로 공개된 OpenDevin은 학계와 산업계를 아우르는 커뮤니티 프로젝트로, 160명 이상의 기여자로부터 1,300건 이상의 기여를 받았으며, 앞으로 더욱 개선될 예정입니다.
시각 언어 모델(VLMs)은 대형 언어 모델(LLMs)의 성공에 힘입어 빠르게 발전해 왔습니다. 모델 아키텍처와 훈련 인프라가 급속도로 진보하는 가운데, 데이터 큐레이션은 여전히 충분히 탐구되지 않은 분야로 남아 있습니다. 데이터의 양과 질이 병목 현상을 일으킬 때, 기존 연구는 인터넷에서 데이터 품질을 보장할 수 없는 원시 데이터를 직접 크롤링하거나 GPT-4V/Gemini와 같은 블랙박스 상용 모델에서 지식을 추출하여 해당 모델의 성능 상한에 제한되는 방식을 취해왔습니다. 본 연구에서는 데이터 품질과 모델 성능을 반복적으로 개선하기 위해 자가 증강 단계와 전문가 증강 단계를 포함한 새로운 접근 방식을 소개합니다. 자가 증강 단계에서는 VLM이 자신의 사전 훈련 데이터를 재캡션하여 데이터 품질을 향상시키고, 이를 통해 정제된 데이터셋으로 처음부터 재훈련하여 모델 성능을 개선합니다. 이 과정은 여러 차례 반복될 수 있습니다. 자가 증강이 포화 상태에 이르면, 자가 증강된 VLM을 기반으로 도메인별 전문 지식을 갖춘 여러 전문가 VLMs을 활용하여 작업 지향적 재캡션과 재훈련을 통해 일반적인 VLM에 전문가 지식을 추가로 주입합니다. 자가 증강과 전문가 증강 훈련을 결합하여, 우리는 VILA^2(VILA-augmented-VILA)라는 VLM 패밀리를 소개하며, 이는 다양한 작업에서 기존 기술 대비 정확도를 꾸준히 개선하고, 오픈소스 모델 중 MMMU 리더보드에서 새로운 최첨단 결과를 달성합니다.
인물 이미지 애니메이션은 캐릭터 사진에서 비디오를 생성하며, 사용자 제어를 가능하게 하고 비디오 및 영화 제작의 잠재력을 열어줍니다. 최근의 접근법들은 고품질 학습 데이터를 사용하여 인상적인 결과를 도출하지만, 이러한 데이터셋의 접근성이 제한되어 공정하고 투명한 벤치마킹이 어렵습니다. 또한, 이러한 접근법들은 2D 인물 동작을 우선시하고 비디오에서 카메라 동작의 중요성을 간과하여 제어가 제한적이고 불안정한 비디오 생성을 초래합니다. 학습 데이터의 신비를 풀기 위해, 우리는 인물 이미지 애니메이션을 위해 특별히 제작된 첫 번째 대규모 고품질 데이터셋인 HumanVid를 제시합니다. 이 데이터셋은 제작된 실제 세계 데이터와 합성 데이터를 결합합니다. 실제 세계 데이터의 경우, 인터넷에서 저작권이 없는 방대한 실제 비디오 컬렉션을 편집합니다. 신중하게 설계된 규칙 기반 필터링 전략을 통해 고품질 비디오를 포함하도록 보장하며, 결과적으로 1080P 해상도의 20,000개의 인물 중심 비디오 컬렉션을 확보합니다. 인물 및 카메라 동작 주석은 2D 포즈 추정기와 SLAM 기반 방법을 사용하여 수행됩니다. 합성 데이터의 경우, 기존에 사용 가능한 3D 자산을 보강하기 위해 2,300개의 저작권 없는 3D 아바타 자산을 수집합니다. 특히, 우리는 규칙 기반 카메라 궤적 생성 방법을 도입하여 합성 파이프라인이 다양한 정확한 카메라 동작 주석을 포함할 수 있도록 합니다. 이러한 주석은 실제 세계 데이터에서 거의 찾아볼 수 없습니다. HumanVid의 효과를 검증하기 위해, 우리는 CamAnimate(Camera-controllable Human Animation의 약자)라는 베이스라인 모델을 구축합니다. 이 모델은 인물과 카메라 동작을 모두 조건으로 고려합니다. 광범위한 실험을 통해, 우리의 HumanVid에 대한 간단한 베이스라인 훈련이 인물 포즈와 카메라 동작을 모두 제어하는 데 있어 최첨단 성능을 달성하며 새로운 벤치마크를 설정함을 입증합니다. 코드와 데이터는 https://github.com/zhenzhiwang/HumanVid/에서 공개될 예정입니다.
대규모 언어 모델(LLM)이 다양한 응용 분야에서 고급 지능 능력을 보여주고 있음에도 불구하고, 여전히 상당한 계산 및 저장 요구 사항에 직면해 있습니다. 지식 증류(Knowledge Distillation, KD)는 고성능 LLM(즉, 교사 모델)의 지식을 전달하여 더 작은 LLM(즉, 학생 모델)의 성능을 향상시키는 효과적인 전략으로 부상했습니다. LLM 증류의 일반적인 기법은 블랙박스 모델 API를 사용하여 고품질의 사전 학습 및 정렬된 데이터셋을 생성하거나, 화이트박스 증류를 통해 손실 함수를 변경하여 교사 LLM의 지식을 더 잘 전달하는 방법을 사용합니다. 그러나 이러한 방법들은 학생과 교사 LLM 간의 도메인별 지식 차이를 무시합니다. 이로 인해 성능 격차가 최소인 도메인에 과도하게 초점이 맞춰지고, 격차가 큰 도메인에는 충분한 주의가 기울여지지 않아 전체 성능이 저하됩니다. 본 논문에서는 DDK라는 새로운 LLM 증류 프레임워크를 소개합니다. DDK는 교사와 학생 모델 간의 도메인 성능 차이에 따라 증류 데이터셋의 구성을 부드럽게 동적으로 조정하여 증류 과정을 더 안정적이고 효과적으로 만듭니다. 광범위한 평가 결과, DDK는 학생 모델의 성능을 크게 향상시키며, 지속적으로 사전 학습된 베이스라인과 기존의 지식 증류 방법들을 큰 차이로 능가하는 것으로 나타났습니다.
언어 모델(LM)의 급속한 발전은 다양한 사용자 가치와의 견고한 정렬을 필요로 합니다. 그러나 현재의 선호도 최적화 접근법은 종종 사용자 의견의 다양성을 포착하지 못하고, 대신 다수 의견을 강화하며 소수 의견을 소외시키는 경향이 있습니다. 우리는 이러한 문제를 해결하기 위해 PERSONA를 소개합니다. PERSONA는 LM의 다원적 정렬을 평가하고 개선하기 위해 설계된 재현 가능한 테스트 베드입니다. 우리는 미국 인구 조사 데이터에서 다양한 사용자 프로필을 절차적으로 생성하여, 다양한 인구통계학적 및 개인적 특성을 가진 1,586개의 합성 페르소나를 만들었습니다. 그리고 이 합성 페르소나로부터 얻은 3,868개의 프롬프트와 317,200개의 피드백 쌍을 포함한 대규모 평가 데이터셋을 생성했습니다. 이 데이터셋을 활용하여, 우리는 LM이 다양한 사용자를 역할 수행하는 능력을 체계적으로 평가했으며, 이를 인간 평가자를 통해 검증했습니다. 또한, 다원적 정렬 접근법을 위한 벤치마크인 PERSONA Bench와 새로운 및 미래의 벤치마크를 생성하기 위한 광범위한 데이터셋을 구축했습니다. 전체 데이터셋과 벤치마크는 여기에서 확인할 수 있습니다: https://www.synthlabs.ai/research/persona.
대형 언어 모델(LLMs)과 같은 현대 AI 방법론의 가장 근본적인 능력은 긴 토큰 시퀀스에서 다음 토큰을 예측하는 능력, 즉 "시퀀스 모델링"입니다. 트랜스포머(Transformers) 모델이 현재 시퀀스 모델링의 주류 접근법이지만, 시퀀스 길이에 대한 2차 계산 비용은 중요한 단점으로 지적됩니다. 상태-공간 모델(SSMs)은 선형 디코딩 효율성과 훈련 중 높은 병렬화 가능성으로 인해 유망한 대안으로 주목받고 있습니다. 그러나 기존 SSM들은 종종 임의적으로 보이는 선형 회귀 설계에 의존하는 경향이 있습니다. 본 연구에서는 SSM 설계를 온라인 학습의 관점에서 탐구하며, SSM을 특정 온라인 학습 문제를 위한 메타 모듈로 개념화합니다. 이 접근법은 SSM 설계를 정확한 온라인 학습 목표 설정과 연결하며, 이러한 목표를 최적화함으로써 상태 전이 규칙을 도출합니다. 이러한 통찰을 바탕으로, 우리는 온라인 회귀 목표를 최적화하기 위한 암시적 업데이트(implicit update)를 기반으로 한 새로운 심층 SSM 아키텍처를 제안합니다. 실험 결과, 우리의 모델은 표준 시퀀스 모델링 벤치마크와 언어 모델링 작업에서 Mamba 모델을 포함한 최첨단 SSM들을 능가하는 성능을 보여줍니다.
우리는 다중 프레임 및 다중 뷰 일관성을 갖춘 동적 3D 콘텐츠 생성을 위한 잠재 비디오 확산 모델인 Stable Video 4D(SV4D)를 제안합니다. 기존 방법들이 비디오 생성과 새로운 시점 합성을 위해 별도로 훈련된 생성 모델에 의존하는 것과 달리, 우리는 동적 3D 객체의 새로운 시점 비디오를 생성하기 위해 통합된 확산 모델을 설계했습니다. 구체적으로, 단안 참조 비디오가 주어지면 SV4D는 각 비디오 프레임에 대해 시간적으로 일관된 새로운 시점을 생성합니다. 그런 다음 생성된 새로운 시점 비디오를 사용하여 대부분의 기존 연구에서 사용된 번거로운 SDS 기반 최적화 없이도 효율적으로 암묵적 4D 표현(동적 NeRF)을 최적화합니다. 우리의 통합 새로운 시점 비디오 생성 모델을 훈련시키기 위해, 기존 Objaverse 데이터셋에서 동적 3D 객체 데이터셋을 정제했습니다. 여러 데이터셋에 대한 광범위한 실험 결과와 사용자 연구는 SV4D가 새로운 시점 비디오 합성 및 4D 생성 분야에서 기존 연구 대비 최첨단 성능을 보여줌을 입증합니다.
시각운동 로봇이 다양한 오픈 월드 시나리오에서 작동할 수 있는 일반화 능력을 부여할 수 있을까요? 본 논문에서는 시각 강화 학습에 맞춰 설계된 일반화 가능한 프레임워크인 Maniwhere를 제안합니다. 이를 통해 훈련된 로봇 정책이 여러 시각적 방해 유형의 조합에 걸쳐 일반화할 수 있도록 합니다. 구체적으로, 우리는 다중 뷰 표현 학습 접근법을 Spatial Transformer Network(STN) 모듈과 융합하여 다양한 시점 간의 공유 의미 정보와 대응 관계를 포착합니다. 또한, 커리큘럼 기반 무작위화 및 증강 접근법을 사용하여 RL 훈련 과정을 안정화하고 시각적 일반화 능력을 강화합니다. Maniwhere의 효과를 입증하기 위해, 우리는 관절형 물체, 양손 조작, 그리고 정교한 손 조작 작업을 포함한 8가지 작업을 세심하게 설계하여 3가지 하드웨어 플랫폼에서 Maniwhere의 강력한 시각적 일반화 및 시뮬레이션-실제 전이 능력을 보여줍니다. 우리의 실험 결과, Maniwhere는 기존의 최첨단 방법들을 크게 능가함을 보여줍니다. 비디오는 https://gemcollector.github.io/maniwhere/에서 제공됩니다.
동일한 프롬프트에 대해 생성된 이미지가 사용자마다 선호하는 바가 다릅니다. 이로 인해 개인의 시각적 선호도에 맞춘 이미지를 생성하는 개인화된 이미지 생성이 필요하게 되었습니다. 그러나 현재의 생성 모델은 광범위한 대중에게 어필할 수 있는 출력물을 생성하도록 조정되어 있어 개인화되지 않은 상태입니다. 이를 통해 개별 사용자의 선호도에 맞는 이미지를 생성하려면 사용자가 반복적으로 수동으로 프롬프트를 조정해야 하는데, 이는 비효율적이며 바람직하지 않습니다. 우리는 이미지 생성 과정을 개인화하기 위해, 사용자에게 소수의 이미지를 제시하고 각 이미지를 좋아하거나 싫어하는 이유를 설명하도록 요청함으로써 사용자의 일반적인 선호도를 일회성 프로세스로 파악하는 방법을 제안합니다. 이러한 설명을 바탕으로, 대규모 언어 모델을 사용하여 사용자가 선호하거나 싫어하는 구조화된 시각적 속성, 즉 시각적 선호도를 추론합니다. 이러한 속성은 텍스트-이미지 모델이 개별 사용자의 시각적 선호도에 맞춰 이미지를 생성하도록 유도하는 데 사용됩니다. 일련의 사용자 연구와 대규모 언어 모델 기반 평가를 통해, 우리는 제안된 방법이 개별 사용자의 시각적 선호도와 잘 맞는 이미지를 생성한다는 것을 입증합니다.
float8과 같은 저정밀도 형식은 대규모 언어 모델의 학습 및 추론을 위한 계산 효율성을 향상시키기 위해 머신러닝 가속 하드웨어에 도입되었습니다. 그러나 ML 커뮤니티의 채택은 더 높은 정밀도의 학습 정확도를 맞추기 위해 필요한 복잡하고 때로는 취약한 기술들로 인해 더딘 상태입니다. 본 연구에서는 기존의 텐서 스케일링 방법을 일반화하고 공식화한, 계산 그래프를 위한 종단 간 스케일 전파 패러다임인 Scalify를 소개합니다. 실험 결과는 Scalify가 float8 행렬 곱셈 및 그래디언트 표현, 그리고 float16 옵티마이저 상태 저장을 즉시 지원함을 보여줍니다. Scalify의 JAX 구현은 https://github.com/graphcore-research/jax-scalify에서 오픈소스로 제공됩니다.
교통 시스템 관리, 전력망 운영, 공급망 관리와 같은 많은 복잡한 과제들은 상충되는 다중 목표를 균형 있게 조정하고 다양한 독립적인 의사결정자(DMs)들의 행동을 조율해야 하는 복잡한 의사결정 과정을 포함합니다. 이러한 과제를 공식화하고 해결하기 위한 한 가지 관점은 다중 목표 다중 에이전트 강화 학습(MOMARL)입니다. MOMARL은 강화 학습(RL)을 확장하여 각 에이전트가 학습 과정에서 다중 목표를 고려해야 하는 문제로 접근합니다. 강화 학습 연구에서 벤치마크는 진전, 평가, 재현성을 촉진하는 데 중요한 역할을 합니다. 이러한 벤치마크의 중요성은 단일 에이전트 RL(예: Gymnasium), 다중 에이전트 RL(예: PettingZoo), 단일 에이전트 다중 목표 RL(예: MO-Gymnasium) 등 다양한 RL 패러다임을 위한 수많은 벤치마크 프레임워크의 존재로 강조됩니다. MOMARL 분야의 발전을 지원하기 위해, 우리는 다중 목표 다중 에이전트 강화 학습을 위한 첫 번째 표준화된 환경 모음인 MOMAland를 소개합니다. MOMAland는 이 신흥 분야에서 포괄적인 벤치마킹의 필요성을 해결하며, 에이전트 수, 상태 표현, 보상 구조, 효용 고려 사항 등이 다양한 10개 이상의 환경을 제공합니다. 또한, MOMAland는 이러한 설정에서 정책을 학습할 수 있는 알고리즘을 포함하여 향후 연구를 위한 강력한 기준선을 제공합니다.
최근 몇 년간 확산 모델로 생성된 이미지가 급증하면서, 현재의 탐지 기술에 독특한 도전 과제를 제시하고 있습니다. 이러한 이미지를 식별하는 작업은 이진 분류라는 겉보기에는 단순한 범주에 속하지만, "재구성 후 비교" 기법을 사용할 경우 계산 부담이 상당합니다. 이 접근법은 DIRE(Diffusion Reconstruction Error)로 알려져 있으며, 확산 모델로 생성된 이미지를 식별할 뿐만 아니라 GAN으로 생성된 이미지도 탐지하여 이 기술의 광범위한 적용 가능성을 보여줍니다. 이러한 계산적 어려움을 해결하고 효율성을 개선하기 위해, 우리는 확산 모델에 내재된 지식을 추출하여 빠른 딥페이크 탐지 모델을 개발하는 방법을 제안합니다. 우리의 접근법은 작고 빠르며 저렴하고 가벼운 확산 합성 딥페이크 탐지기를 만드는 것을 목표로 하며, 강력한 성능을 유지하면서 운영 요구 사항을 크게 줄입니다. 실험 결과에 따르면, 우리의 방법은 기존 DIRE 프레임워크보다 추론 속도가 3.2배 빠른 것으로 나타났습니다. 이러한 발전은 이러한 시스템을 실제 환경에 배치하는 실용성을 높일 뿐만 아니라, 확산 모델 지식을 활용하려는 미래 연구 노력의 길을 열어줍니다.
자율주행 산업에서는 일반적으로 전문 아티스트를 고용해 정교한 3D 자동차 모델을 제작합니다. 그러나 대규모 디지털 자산을 만드는 데는 비용이 많이 듭니다. 이미 자동차 이미지를 대량으로 포함한 다양한 데이터셋이 존재하기 때문에, 우리는 이러한 데이터셋에서 고품질 3D 자동차 모델을 재구성하는 데 초점을 맞췄습니다. 하지만 이러한 데이터셋은 전진하는 장면에서 자동차의 한쪽 면만을 포함하고 있습니다. 기존 생성 모델을 활용해 더 많은 감독 정보를 제공하려고 시도했지만, 이 모델들은 자동차에 특화된 데이터셋이 아닌 합성 데이터셋으로 학습되었기 때문에 자동차에 대해 잘 일반화하지 못합니다. 또한, 야외 이미지를 다룰 때 카메라 포즈 추정의 큰 오류로 인해 재구성된 3D 자동차 텍스처가 어긋나는 문제가 발생합니다. 이러한 제약으로 인해 기존 방법들은 완전한 3D 자동차를 재구성하는 데 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 우리는 소수의 이미지, 심지어 단일 이미지로도 고품질 3D 자동차를 재구성할 수 있는 새로운 방법인 DreamCar를 제안합니다. 생성 모델을 일반화하기 위해, 우리는 5,600대 이상의 자동차를 포함한 Car360 데이터셋을 수집했습니다. 이 데이터셋을 통해 생성 모델이 자동차에 대해 더 강력해지도록 했습니다. 우리는 이 자동차 특화 생성 사전 지식을 Score Distillation Sampling을 통해 재구성을 안내하는 데 사용합니다. 감독 정보를 더 보완하기 위해, 자동차의 기하학적 및 외관 대칭성을 활용합니다. 마지막으로, 텍스처 어긋남 문제를 해결하기 위해 포즈 최적화 방법을 제안합니다. 광범위한 실험을 통해 우리의 방법이 고품질 3D 자동차 재구성에서 기존 방법들을 크게 능가함을 입증했습니다. https://xiaobiaodu.github.io/dreamcar-project/{코드를 제공합니다.}