번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)이 발전함에 따라, 우리는 이들의 품질을 정확히 평가하는 능력을 따라가지 못하고 있습니다. 특정 모델 속성을 적절히 탐구할 데이터를 찾는 것뿐만 아니라, 모델의 자유 형식 생성 결과의 정확성을 평가하는 것 자체가 어려운 과제입니다. 이를 해결하기 위해, 현재 많은 평가에서는 다른 LLM의 출력 품질을 평가하기 위해 LLM 자체를 판단자로 사용하고 있습니다. 가장 일반적으로는 GPT4와 같은 단일 대형 모델을 사용합니다. 이 방법은 점점 인기를 얻고 있지만, 비용이 많이 들고, 모델 내 편향을 유발할 수 있으며, 본 연구에서는 매우 큰 모델이 종종 불필요하다는 것을 발견했습니다. 대신, 우리는 LLM 평가자 패널(Panel of LLM evaluators, PoLL)을 사용하여 모델을 평가할 것을 제안합니다. 세 가지 서로 다른 판단자 설정과 여섯 개의 서로 다른 데이터셋에 걸쳐, 더 많은 수의 소형 모델로 구성된 PoLL이 단일 대형 판단자를 능가하고, 서로 다른 모델 패밀리로 구성되어 모델 내 편향이 적으며, 이를 수행하면서도 비용이 7배 이상 적게 드는 것을 확인했습니다.
스펙큘레이티브 디코딩(speculative decoding)은 대형 언어 모델의 추론 속도를 가속화하면서도 일관된 샘플링 분포를 유지하는 데 효과적임이 입증되었습니다. 그러나 기존의 별도 드래프트 모델을 훈련시켜 만족스러운 토큰 수용률을 달성하는 방식은 비용이 많이 들 수 있습니다. 이를 해결하기 위해, 우리는 초기 종료(early exiting)에서 영감을 받아 고정된 얕은 서브 네트워크를 자체 드래프트 모델로 사용하고, 나머지 레이어를 더 큰 타겟 모델로 활용하는 새로운 자기 스펙큘레이티브 디코딩 프레임워크인 Kangaroo를 제안합니다. 우리는 서브 네트워크와 전체 모델의 표현 능력 간의 격차를 줄이기 위해 서브 네트워크 위에 가볍고 효율적인 어댑터 모듈을 훈련시킵니다. 특히, 자체 드래프트 모델의 추론 지연 시간이 더 이상 대형 모델에 비해 무시할 수 없을 정도로 커질 수 있으므로, 작은 모델의 드래프팅 단계를 최소화하면서 토큰 수용률을 높이는 전략이 필요합니다. 이 문제를 해결하기 위해, 우리는 드래프트 토큰을 생성하기 위한 추가적인 초기 종료 메커니즘을 도입합니다. 구체적으로, 드래프팅 단계에서 현재 토큰에 대한 신뢰도가 특정 임계값 아래로 떨어지면 작은 모델의 후속 예측을 중단합니다. Spec-Bench에서의 광범위한 실험을 통해 Kangaroo의 효과를 입증했습니다. 단일 시퀀스 검증(single-sequence verification) 하에서 Kangaroo는 Spec-Bench에서 최대 1.68배의 속도 향상을 달성하며, Medusa-1 대비 88.7% 더 적은 추가 파라미터(67M 대 591M)를 사용합니다. Kangaroo의 코드는 https://github.com/Equationliu/Kangaroo에서 확인할 수 있습니다.
다양한 의료 응용 분야에서의 탁월함은 AI에게 상당한 도전 과제를 제시하며, 고급 추론 능력, 최신 의학 지식에 대한 접근, 복잡한 다중 모드 데이터에 대한 이해를 요구합니다. 다중 모드 및 장문맥 추론에서 강력한 일반 능력을 갖춘 Gemini 모델들은 의학 분야에서 흥미로운 가능성을 제공합니다. 이러한 Gemini의 핵심 강점을 기반으로, 우리는 웹 검색을 원활하게 활용할 수 있고 맞춤형 인코더를 사용하여 새로운 모드에 효율적으로 적응 가능한, 의학에 특화된 고성능 다중 모드 모델군인 Med-Gemini를 소개합니다. 우리는 Med-Gemini를 14개의 의료 벤치마크에서 평가하여, 그 중 10개에서 새로운 최첨단(SoTA) 성능을 달성했으며, 직접 비교가 가능한 모든 벤치마크에서 GPT-4 모델군을 크게 앞질렀습니다. 인기 있는 MedQA(USMLE) 벤치마크에서, 우리의 최고 성능 Med-Gemini 모델은 불확실성 기반 검색 전략을 사용하여 91.1% 정확도의 SoTA 성능을 달성했습니다. NEJM 이미지 챌린지와 MMMU(건강 및 의학)를 포함한 7개의 다중 모드 벤치마크에서, Med-Gemini는 GPT-4V 대비 평균 44.5%의 상대적 차이로 개선되었습니다. 우리는 장문맥 능력의 효과를 입증하기 위해, 장기간 비식별화된 건강 기록과 의료 영상 질의응답에서의 바늘 찾기 검색 과제에서 SoTA 성능을 달성했으며, 이전의 맞춤형 방법들을 단순히 문맥 학습만으로 능가했습니다. 마지막으로, Med-Gemini의 성능은 의료 텍스트 요약과 같은 과제에서 인간 전문가를 능가하며, 다중 모드 의료 대화, 의학 연구 및 교육에서의 유망한 잠재력을 보여줌으로써 실제 세계에서의 유용성을 시사합니다. 종합적으로, 우리의 결과는 Med-Gemini의 잠재력에 대한 설득력 있는 증거를 제공하지만, 이 안전이 중요한 분야에서의 실제 배포 전에 추가적인 엄격한 평가가 필수적일 것입니다.
대규모 언어 모델(LLMs)과 대규모 멀티모달 모델(LMMs)의 발전에도 불구하고, 이러한 모델들을 언어 기반의 인간과 유사한 구현 에이전트에 통합하는 작업은 여전히 미완성 상태이며, 이는 물리적 환경에서의 복잡한 실생활 과제 수행을 방해하고 있습니다. 기존의 통합 방식은 대체로 오픈소스화가 제한적이어서 이 분야의 집단적 진전을 어렵게 하고 있습니다. 우리는 LEGENT를 소개합니다. LEGENT은 LLMs와 LMMs를 사용하여 구현 에이전트를 개발하기 위한 개방적이고 확장 가능한 플랫폼입니다. LEGENT은 두 가지 접근 방식을 제공합니다: 첫째, 상호작용이 가능하고 실행 가능한 에이전트가 포함된 풍부한 3D 환경과 사용자 친화적인 인터페이스를 제공하며, 둘째, 시뮬레이션된 세계로부터의 감독을 대규모로 활용하기 위해 고급 알고리즘을 사용하는 정교한 데이터 생성 파이프라인을 제공합니다. 우리의 실험에서, LEGENT에서 생성된 데이터로 훈련된 초기 단계의 시각-언어-행동 모델은 구현 과제에서 GPT-4V를 능가하며, 유망한 일반화 능력을 보여주었습니다.
그래픽 디자인은 영화 제작과 게임 디자인을 포함한 다양한 응용 분야에서 중요합니다. 고품질의 장면을 만들기 위해 디자이너들은 보통 Blender와 같은 소프트웨어에서 수 시간을 보내며, 재질 노드를 연결하는 것과 같은 작업을 수백 번 반복하고 교차해야 할 수도 있습니다. 게다가, 약간 다른 디자인 목표는 완전히 다른 작업 순서를 요구할 수 있어 자동화를 어렵게 만듭니다. 본 논문에서는 GPT-4V와 같은 Vision-Language Models(VLMs)을 활용하여 사용자의 의도를 만족시킬 수 있는 답변에 도달하기 위해 디자인 액션 공간을 지능적으로 탐색하는 시스템을 제안합니다. 구체적으로, 우리는 목표를 달성하기 위한 올바른 작업 순서를 찾기 위해 시각 기반 편집 생성기와 상태 평가기를 함께 설계했습니다. 인간 디자인 과정에서 시각적 상상력의 역할에서 영감을 받아, 우리는 VLMs의 시각적 추론 능력을 이미지 생성 모델에서 생성된 "상상된" 참조 이미지로 보완하여 추상적인 언어 설명의 시각적 근거를 제공합니다. 본 논문에서는 우리의 시스템이 텍스트 및/또는 참조 이미지에서 절차적 재질을 편집하거나 복잡한 장면에서 제품 렌더링을 위한 조명 구성을 조정하는 것과 같은 단순하지만 지루한 Blender 편집 시퀀스를 생성할 수 있다는 경험적 증거를 제시합니다.
기본 모델을 더 많은 데이터나 파라미터로 확장하는 것 외에도, 미세 조정된 어댑터는 높은 충실도의 맞춤형 이미지를 저렴한 비용으로 생성할 수 있는 대안을 제공합니다. 이에 따라 어댑터는 오픈소스 커뮤니티에서 널리 채택되어 10만 개 이상의 어댑터 데이터베이스를 구축했으며, 이 중 대부분은 설명이 부족한 상태로 고도로 맞춤화되어 있습니다. 본 논문은 프롬프트를 관련 어댑터 세트와 매칭하는 문제를 탐구하며, 최근 연구에서 어댑터를 조합함으로써 얻은 성능 향상을 기반으로 합니다. 우리는 Stylus를 소개하는데, 이는 프롬프트의 키워드를 기반으로 작업별 어댑터를 효율적으로 선택하고 자동으로 조합합니다. Stylus는 세 단계 접근 방식을 제시합니다: 먼저 개선된 설명과 임베딩으로 어댑터를 요약하고, 관련 어댑터를 검색한 다음, 프롬프트의 키워드를 기반으로 어댑터를 조합하며 프롬프트에 얼마나 잘 맞는지 확인합니다. Stylus를 평가하기 위해, 우리는 75,000개의 어댑터와 사전 계산된 어댑터 임베딩을 포함한 StylusDocs 데이터셋을 개발했습니다. 인기 있는 Stable Diffusion 체크포인트에 대한 평가에서, Stylus는 CLIP-FID 파레토 효율성을 더 높였으며, 인간과 멀티모달 모델을 평가자로 사용한 결과 기본 모델보다 두 배 더 선호되었습니다. 자세한 내용은 stylus-diffusion.github.io를 참조하십시오.
새로운 조작 작업을 학습할 수 있는 자율 로봇 시스템은 제조업부터 서비스 자동화에 이르기까지 다양한 산업을 혁신할 잠재력을 가지고 있습니다. 그러나 VIP 및 R3M과 같은 현대적인 방법론은 여전히 상당한 어려움에 직면해 있습니다. 특히 로봇 구현체 간의 도메인 격차와 특정 동작 공간 내에서 성공적인 작업 실행의 희소성으로 인해 작업 표현이 잘못 정렬되거나 모호해지는 문제가 발생합니다. 우리는 이러한 문제를 극복하기 위해 Ag2Manip(Agent-Agnostic Representations for Manipulation) 프레임워크를 제안합니다. 이 프레임워크는 두 가지 주요 혁신을 통해 이러한 과제를 해결합니다: 첫째, 인간의 조작 비디오에서 도출된 새로운 에이전트-불특정(agent-agnostic) 시각적 표현으로, 구현체의 세부 사항을 흐리게 하여 일반화를 강화합니다. 둘째, 로봇의 운동학을 보편적인 에이전트 프록시로 추상화한 에이전트-불특정 동작 표현으로, 엔드 이펙터와 객체 간의 중요한 상호작용을 강조합니다. Ag2Manip은 FrankaKitchen, ManiSkill, PartManip과 같은 시뮬레이션 벤치마크에서 도메인 특화 데모 없이도 성능이 325% 향상되었음을 실험적으로 입증했습니다. 또한, 시각적 표현과 동작 표현이 이러한 성공에 필수적인 기여를 했다는 것을 보여주는 절제 연구(ablation study)를 수행했습니다. 실제 환경에서의 평가로 확장하여, Ag2Manip은 모방 학습의 성공률을 50%에서 77.5%로 크게 향상시켰으며, 시뮬레이션과 물리적 환경 모두에서의 효과성과 일반화 능력을 입증했습니다.
의류가 인간의 외모에 미치는 중요한 영향은 디지털 휴먼 생성에 있어 의류 디지털화의 중요성을 강조합니다. 최근 3D 콘텐츠 생성 기술의 발전은 디지털 휴먼 생성에 있어 핵심적인 역할을 하고 있습니다. 그러나 텍스트 지시를 통한 의류 생성은 아직 초기 단계에 머물러 있습니다. 우리는 텍스트 기반 3D 의류 생성 프레임워크인 DressCode를 소개하며, 이는 초보자도 쉽게 디자인할 수 있도록 하고 패션 디자인, 가상 피팅, 디지털 휴먼 생성 등에서 막대한 잠재력을 제공합니다. 우리의 프레임워크를 위해 먼저 텍스트 조건 임베딩과 크로스 어텐션을 통합한 GPT 기반 아키텍처인 SewingGPT를 도입하여 텍스트 지시를 통해 재봉 패턴을 생성합니다. 또한, 고품질의 타일 기반 PBR 텍스처 생성을 위해 사전 학습된 Stable Diffusion을 맞춤화했습니다. 대규모 언어 모델을 활용함으로써, 우리의 프레임워크는 자연어 상호작용을 통해 CG 친화적인 의류를 생성합니다. 또한, 패턴 완성과 텍스처 편집을 용이하게 하여 디자이너들이 사용자 친화적인 상호작용으로 프로세스를 단순화할 수 있도록 합니다. 포괄적인 평가 및 최신 기술과의 비교를 통해, 우리의 방법은 최고의 품질과 입력 프롬프트와의 일치성을 보여줍니다. 사용자 연구는 고품질 렌더링 결과를 검증하며, 실제 생산 환경에서의 실용성과 잠재력을 강조합니다.