번역이 포함된 일일 선별된 AI 연구 논문
언어 모델의 역할 수행 능력을 평가하기 위한 새로운 벤치마크를 소개합니다. 저희의 방법론은 언어 모델 자체를 활용하여 동적이고 다중 턴 대화에서 사용자를 흉내내고 그 결과 대화를 평가합니다. 이 프레임워크는 특정 캐릭터 역할을 가정하는 플레이어 모델, 사용자 행동을 모방하는 심문자 모델, 대화 품질을 평가하는 심사자 모델로 구성됩니다. 우리는 자동 평가와 인간 주석을 비교하는 실험을 실시하여 우리의 방법을 검증하였으며, 다양한 기준에 걸쳐 강한 상관 관계를 보여주었습니다. 이 연구는 상호작용 시나리오에서 모델 능력을 견고하고 동적으로 평가하기 위한 기초를 제공합니다.
의료 응용 프로그램을 위한 대규모 언어 모델(Large Language Models, LLMs)의 신속한 발전은 미국 의사 국가 시험 (USMLE)과 같은 자주 언급되는 벤치마크를 넘어 실제 성능을 더 잘 반영하기 위한 종합적인 평가를 촉발시켰다. 실제 세계 평가는 유용성의 중요한 지표이지만, LLM 진화의 속도를 따라가지 못하며, 배포 시에는 결과가 더 이상 유효하지 않을 가능성이 높다. 이러한 시간적 불일치는 특정 임상 응용 프로그램을 위한 모델 선택을 안내할 수 있는 종합적인 초기 평가를 필요로 한다. 우리는 의료 추론, 윤리와 편향, 데이터 및 언어 이해, 맥락 속 학습, 그리고 임상 안전이라는 다섯 가지 핵심 차원을 통해 LLMs를 평가하는 MEDIC를 소개한다. MEDIC는 참조 출력이 필요 없이 LLM의 성능을 커버리지와 환각 감지와 같은 영역에서 양적으로 평가하는 새로운 교차 검증 프레임워크를 특징으로 한다. 우리는 MEDIC를 사용하여 의료 질문 응답, 안전성, 요약, 노트 생성 및 기타 작업에 대한 LLMs를 평가한다. 우리의 결과는 모델 크기, 기준 대 의학적으로 세밀하게 조정된 모델, 그리고 허상이 적거나 추론 비용이 낮은 특정 모델 강점이 필요한 응용 프로그램을 위한 모델 선택에 대한 영향을 보여준다. MEDIC의 다면적 평가는 이러한 성능 트레이드 오프를 드러내며, 이론적 능력과 의료 분야에서의 실제 구현 사이의 간극을 메워주어 가장 유망한 모델이 다양한 의료 응용 프로그램에 대해 식별되고 적응되도록 보장한다.
언어 모델 기반 에이전트의 잠재력에도 불구하고 웹 탐색과 같은 실제 과제를 해결하는 데 현재 방법들은 여전히 복잡한 행동 궤적을 가진 장기 과제에 어려움을 겪고 있습니다. 반면에 인간은 과거 경험으로부터 재사용 가능한 작업 워크플로우를 학습하고 미래 행동을 안내하는 데 사용함으로써 유연하게 복잡한 과제를 해결할 수 있습니다. 이러한 과정에서 유사한 혜택을 누릴 수 있는 에이전트를 구축하기 위해 우리는 에이전트 워크플로우 메모리(AWM)를 소개합니다. AWM은 자주 재사용되는 루틴, 즉 워크플로우를 유도하고 에이전트에게 후속 세대를 안내하기 위해 워크플로우를 선택적으로 제공하는 방법입니다. AWM은 훈련 예제로부터 워크플로우를 미리 유도하거나 테스트 쿼리에서 실시간으로 워크플로우를 유도하는 오프라인 및 온라인 시나리오에 유연하게 적용됩니다. 우리는 여행, 쇼핑, 소셜 미디어 등 다양한 도메인을 포괄하는 200개 이상의 도메인에서 1000개 이상의 과제를 다루는 두 가지 주요 웹 탐색 벤치마크인 Mind2Web과 WebArena에서 실험을 진행했습니다. AWM은 WebArena 과제를 성공적으로 해결하기 위해 필요한 단계 수를 줄이면서 Mind2Web과 WebArena에서 기준 결과를 상대적으로 24.6% 및 51.1% 향상시킵니다. 더 나아가, 온라인 AWM은 훈련-테스트 과제 분포 간격이 넓어짐에 따라 교차 과제, 웹사이트 및 도메인 평가에서 8.9에서 14.0 절대 포인트의 베이스라인을 뛰어넘는 강건한 일반화 능력을 보입니다.
이미지에서 3D로의 생성에서 엄청난 진전을 이루었음에도 불구하고, 기존 방법은 여전히 2D 확산 패러다임에서 특히 3D 인식이 부족한 상세한 고해상도 텍스처를 가진 다중 뷰 일관성 이미지를 생성하는 데 어려움을 겪고 있다. 본 연구에서는 고해상도 이미지에서 3D 모델 (Hi3D)을 제시하며, 이는 새로운 비디오 확산 기반 패러다임으로, 단일 이미지를 3D 인식 순차 이미지 생성(즉, 궤도 비디오 생성)으로 재정의한다. 이 방법론은 비디오 확산 모델의 기저적 시간 일관성 지식을 탐구하여 다중 뷰에서 3D 생성에 걸쳐 일반화되는 기하학적 일관성에 대해 다룬다. 기술적으로, Hi3D는 먼저 사전 훈련된 비디오 확산 모델을 3D 인식 사전(카메라 포즈 조건)으로 강화하여 저해상도 텍스처 세부 사항을 가진 다중 뷰 이미지를 생성한다. 3D 인식 비디오에서 비디오로의 개선기는 더 높은 해상도 텍스처 세부 사항을 가진 다중 뷰 이미지를 확장하기 위해 학습된다. 이러한 고해상도 다중 뷰 이미지는 3D 가우시안 스플래팅을 통해 새로운 뷰로 확장되며, 이후 3D 재구성을 통해 고성능 메쉬를 얻기 위해 활용된다. 새로운 뷰 합성 및 단일 뷰 재구성에 대한 광범위한 실험은 Hi3D가 고해상도 텍스처를 가진 우수한 다중 뷰 일관성 이미지를 생성하는 데 성공했음을 보여준다. 소스 코드와 데이터는 https://github.com/yanghb22-fdu/Hi3D-Official에서 제공된다.
선형 주의 트랜스포머와 그들의 게이트 변형은 병렬 훈련과 효율적인 순환 추론을 가능하게 함으로써 칭송받았지만, 전통적인 트랜스포머에 비해 회상 집중적 작업에서는 아직 부족하며, 처음부터 훈련에 상당한 자원을 요구합니다. 본 논문은 게이트형 슬롯 주의 (GSA)를 소개하는데, 이는 게이트 선형 주의 (GLA)에서 영감을 받은 게이팅 메커니즘을 통해 주의를 Bounded-memory-Control (ABC)로 향상시킴으로써 주의를 강화합니다. 기본적으로 GSA는 소프트맥스를 통해 연결된 두 층 GLA로 구성되며, 컨텍스트 인식 메모리 읽기와 적응적인 잊기를 활용하여 기억 용량을 향상시키면서도 간결한 순환 상태 크기를 유지합니다. 이 설계는 GLA의 하드웨어 효율적인 훈련 알고리즘과 상태 크기 축소를 통해 훈련과 추론 효율성을 크게 향상시킵니다. 또한 소프트맥스 연산을 유지하는 것은 "미세 조정된 사전 훈련된 트랜스포머를 RNN에 미세 조정" (T2R) 설정에서 특히 유익하며, 처음부터의 광범위한 훈련 필요성을 줄입니다. 광범위한 실험은 GSA가 문맥 기억과 T2R 설정에서 우수한 성능을 보여주는 것을 확인합니다.
Chain-of-Thought (CoT) 프롬프팅은 대형 언어 모델이 중간 단계를 통해 복잡한 추론을 수행할 수 있는 능력을 보여줍니다. CoT 프롬프팅은 주로 세 가지 접근 방식으로 분류됩니다. 첫 번째 접근 방식은 "한 단계씩 생각해 봅시다"와 같은 간단한 프롬프트를 활용하여 답변을 도출하기 전에 순차적인 사고 과정을 생성합니다. 두 번째 접근 방식은 인간이 작성한 단계별 데모를 활용하여 모델의 추론 과정을 안내합니다. 세 번째는 '한 단계씩 생각해 봅시다'를 사용하여 추론 데모를 자동으로 생성합니다. 이 접근 방식은 때로 추론 오류를 유발하여, 그 혼란을 완화하기 위해 다양한 데모를 다양화해야 한다는 필요성을 강조합니다. 그러나 다양한 데모는 효과적인 표현에 대한 도전을 제기합니다. 본 연구에서는 다양한 해결 경로를 균일하고 효과적인 해결 패턴으로 통합하는 자체 조화형 Chain-of-Thought 프롬프팅 방법인 ECHO를 제안합니다. ECHO는 세 가지 추론 도메인 전반에서 최고의 성능을 보여줍니다.
gsplat은 가우시안 스플래팅 방법을 훈련하고 개발하기 위해 설계된 오픈 소스 라이브러리입니다. 이는 PyTorch 라이브러리와 호환되는 Python 바인딩을 갖춘 프론트엔드와 고도로 최적화된 CUDA 커널을 갖춘 백엔드를 특징으로 합니다. gsplat은 가우시안 스플래팅 모델의 최적화를 향상시키는 다양한 기능을 제공하며, 속도, 메모리 및 수렴 시간에 대한 최적화 개선을 포함합니다. 실험 결과는 gsplat이 원래 구현보다 최대 10% 더 적은 훈련 시간과 4배 더 적은 메모리를 달성한다는 것을 보여줍니다. 여러 연구 프로젝트에서 활용되며, GitHub에서 적극적으로 유지보수되고 있습니다. 소스 코드는 Apache License 2.0 하에 https://github.com/nerfstudio-project/gsplat에서 제공됩니다. 오픈 소스 커뮤니티로부터의 기여를 환영합니다.
"아이디어는 새로운 조합에 불과하다." (Young, J.W.). 대형 언어 모델 (LLM)과 공개적으로 이용 가능한 ChatGPT의 널리 퍼지는 채택은 인공 지능 (AI)을 사람들의 일상생활에 통합하는 중요한 전환점을 표시했다. 본 연구는 연구 논문 정보를 기반으로 LLM의 혁신적인 연구 아이디어 생성 능력을 탐구한다. 우리는 화학, 컴퓨터, 경제, 의학 및 물리학 등 다섯 분야에서 4개의 LLM을 철저히 조사했다. Claude-2와 GPT-4에 의해 생성된 미래 연구 아이디어가 GPT-3.5와 Gemini보다 저자의 시각과 더 일치하는 것으로 발견했다. 또한 Claude-2가 GPT-4, GPT-3.5 및 Gemini 1.0보다 다양한 미래 연구 아이디어를 생성한다는 것을 발견했다. 우리는 또한 생성된 미래 연구 아이디어의 혁신성, 관련성 및 실행 가능성에 대한 인간 평가를 수행했다. 이 조사는 아이디어 생성에서 LLM의 진화하는 역할에 대한 통찰력을 제공하며, 그 능력과 한계를 강조한다. 우리의 작업은 미래 연구 아이디어 생성을 위해 언어 모델을 평가하고 활용하는 지속적인 노력에 기여한다. 우리는 데이터셋과 코드를 공개적으로 제공한다.
우리는 물리 기반 얼굴 자산의 효율적인 애니메이션 및 렌더링을 위해 맞춤형으로 개발된 새로운 가우시안 스플래팅 표현인 GauFace를 제안합니다. 강력한 기하학적 사전 지식과 제한된 최적화를 활용하여 GauFace는 깔끔하고 구조화된 가우시안 표현을 보장하여 Snapdragon 8 Gen 2 모바일 플랫폼에서 1440p 해상도에서 30fps의 고도의 신뢰성과 실시간 얼굴 상호작용을 제공합니다. 그런 다음, 물리 기반 얼굴 자산을 해당 GauFace 표현으로 즉시 변환하는 확산 트랜스포머 인 TransGS를 소개합니다. 구체적으로, 우리는 광범위한 수의 가우시안을 효과적으로 처리하기 위해 패치 기반 파이프라인을 채택합니다. 또한 우리의 TransGS에 의해 생성된 GauFace 자산의 처리량과 렌더링 품질을 보장하기 위해 새로운 픽셀 정렬 샘플링 방식과 UV 위치 인코딩을 소개합니다. 훈련을 받은 후, TransGS는 조명 조건이 있는 얼굴 자산을 즉시 GauFace 표현으로 번역할 수 있습니다. 풍부한 조건부 모달리티를 통해 전통적인 CG 파이프라인을 연상시키는 편집 및 애니메이션 기능도 가능합니다. 우리의 접근 방식이 얼굴 자산 렌더링에 대해 우수한 성능을 보여주는 것을 입증하기 위해 전통적인 오프라인 및 온라인 렌더러 및 최근의 신경 렌더링 방법과 비교한 방대한 평가 및 사용자 연구를 실시합니다. 또한 우리의 TransGS 접근 방식과 GauFace 표현을 활용한 다양한 풍부한 얼굴 자산의 몰입형 응용 프로그램을 PC, 휴대폰 및 심지어 VR 헤드셋과 같은 다양한 플랫폼에서 소개합니다.
우리는 비디오 입력으로부터 배경 음악을 생성하는 방법에 대한 프레임워크를 제시합니다. 기존의 심볼 음악 주석에 의존하는 기존 작업과는 달리, 우리의 방법은 대규모 웹 비디오와 함께 제공되는 배경 음악을 활용합니다. 이를 통해 우리의 모델은 현실적이고 다양한 음악을 생성하는 방법을 학습할 수 있습니다. 이 목표를 달성하기 위해 우리는 새로운 의미론적 비디오-음악 정렬 체계를 갖춘 생성 비디오-음악 트랜스포머를 개발합니다. 우리의 모델은 결합 자기 회귀 및 대조 학습 목표를 사용하여, 고수준 비디오 콘텐츠와 일치하는 음악을 생성하도록 장려합니다. 또한 생성된 음악 비트를 비디오의 저수준 동작과 일치시키기 위한 새로운 비디오-비트 정렬 체계를 소개합니다. 마지막으로, 현실적인 배경 음악 생성에 필요한 비디오의 세밀한 시각적 단서를 포착하기 위해 새로운 시계열 비디오 인코더 아키텍처를 도입하여, 많은 조밀하게 샘플링된 프레임으로 구성된 비디오를 효율적으로 처리할 수 있습니다. 우리는 2.2백만 개의 비디오-음악 샘플로 구성된 새롭게 정리된 DISCO-MV 데이터셋에서 우리의 프레임워크를 훈련시킵니다. 이 데이터셋은 비디오 음악 생성에 사용된 이전 데이터셋보다 수십 배 큽니다. 우리의 방법은 다양한 음악 생성 평가 메트릭을 기준으로 DISCO-MV 및 MusicCaps 데이터셋에서 기존 방법을 능가하며, 인간 평가를 포함한 결과가 https://genjib.github.io/project_page/VMAs/index.html 에서 확인할 수 있습니다.
최근 몇 년간 단백질 기반 모델의 발전이 급격히 증가하여, 3D 구조 예측 및 단백질 설계, 구조 변형 역학에 이르는 생성 작업에서의 성능이 크게 향상되었습니다. 그러나 이러한 모델과 관련된 능력과 한계는 통합된 평가 프레임워크의 부재로 인해 잘 이해되지 않고 있습니다. 이 갭을 메우기 위해, 우리는 ProteinBench를 소개합니다. ProteinBench는 단백질 기반 모델의 투명성을 향상시키기 위해 설계된 종합적인 평가 프레임워크입니다. 우리의 접근 방식은 세 가지 주요 구성 요소로 구성되어 있습니다: (i) 단백질 도메인의 주요 도전 과제를 넓게 포괄하는 작업의 분류 체계, 다양한 단백질 모달리티 간의 관계에 기초합니다; (ii) 품질, 독창성, 다양성, 견고성 네 가지 주요 차원에서 성능을 평가하는 다중 메트릭 평가 접근 방식; 및 (iii) 다양한 사용자 목표에 대한 철저한 분석을 통해 모델 성능의 종합적인 시각을 제공합니다. 우리의 단백질 기반 모델의 포괄적인 평가는 현재의 능력과 한계에 대한 몇 가지 주요 결과를 밝혀 냅니다. 투명성을 증진하고 추가 연구를 촉진하기 위해, 우리는 평가 데이터 세트, 코드, 그리고 일반적인 모듈식 도구킷을 위한 공개 리더보드를 공개적으로 공개합니다. ProteinBench를 통해 단백질 기반 모델의 표준화된, 철저한 평가 프레임워크를 수립하는 데 사용되는 살아있는 벤치마크로 만들고, 이를 통해 그들의 발전과 응용을 촉진하며 분야 내 협력을 육성하기를 의도합니다.
대형 언어 모델(LLM)이 코드 작성에서 상당한 진전을 이루었음을 감안할 때, 이제 연구 저장소에서 결과를 자동으로 재현하는 데 사용할 수 있을까? 이러한 능력은 연구 커뮤니티에 큰 도움이 될 것으로, 연구자들이 이전 작업을 검증하고 이해하며 확장하는 데 도움이 될 것이다. 이 목표를 달성하기 위해, 우리는 LLM의 능력을 평가하기 위해 설계된 최초의 벤치마크인 SUPER를 소개한다. SUPER는 기계 학습(ML) 및 자연어 처리(NLP) 연구 저장소에서 작업을 설정하고 실행하는 능력을 평가하기 위해 고안되었다. 저희의 벤치마크는 주석이 달린 전문가 솔루션을 갖춘 45가지 end-to-end 문제, 전문가 집합에서 파생된 특정 도전에 초점을 맞춘 152가지 하위 문제(예: 트레이너 구성) 및 대규모 개발을 위해 자동으로 생성된 602가지 문제로 구성되어 있다. 우리는 과제 성공과 진행을 평가하기 위해 다양한 평가 척도를 소개하였으며, 가능한 경우 골드 솔루션을 활용하거나 그 외의 경우 근사치를 활용하였다. 최고의 모델(GPT-4o)이 end-to-end 세트의 16.3%와 시나리오의 46.1%만 해결하는 데 어려움을 겪는 것을 보여주었다. 이는 이 작업의 어려움을 보여주며, SUPER가 커뮤니티에게 진전을 이루고 측정하는 데 유용한 자원으로 기능할 수 있다는 것을 시사한다.
본 논문은 신규 뷰 합성 작업을 위해 설계된 지능형 에이전트 MVLLaVA를 소개합니다. MVLLaVA는 다중 다뷰 확산 모델을 여러 개 통합한 대규모 다모델 모델 LLaVA를 활용하여 다양한 작업을 효율적으로 처리할 수 있습니다. MVLLaVA는 단일 이미지, 설명적 캡션 또는 시각 방향 변경에 대한 구체적인 지침을 통해 지향 생성을 이끌어내는 다양한 입력 유형에 적응하는 다재다능하고 통합된 플랫폼을 나타냅니다. 우리는 작업별로 신중히 설계된 지시어 템플릿을 만들어 LLaVA를 세밀하게 조정하는데 사용합니다. 결과적으로 MVLLaVA는 사용자 지시에 기반한 신규 뷰 이미지를 생성할 수 있는 능력을 획득하며 다양한 작업에 대한 유연성을 보여줍니다. MVLLaVA의 효과를 검증하기 위해 실험이 수행되었으며, 다양한 신규 뷰 합성 과제에 대한 견고한 성능과 다재다능성을 입증하였습니다.
대규모로 훈련된 생성 모델은 이제 텍스트, 비디오, 그리고 더 최근에는 결정 구조와 같은 과학 데이터를 생성할 수 있습니다. 재료 과학에 생성적 방법을 응용하고 특히 결정 구조에 대한 경우, 도메인 전문가의 고수준 지침은 자동 시스템이 후속 연구에 유용한 후보 결정을 출력하는 데 필수적일 수 있습니다. 본 연구에서는 언어-구조 생성을 다중 목적 최적화 문제로 정의하고 제어 가능한 결정 구조 생성을 위해 생성적 계층 재료 검색(GenMS)을 제안합니다. GenMS는 (1) 고수준 자연어를 입력으로 받아 결정에 대한 중간 텍스트 정보(예: 화학식)를 생성하는 언어 모델과, (2) 중간 정보를 입력으로 받아 저수준 연속 값 결정 구조를 생성하는 확산 모델로 구성됩니다. GenMS는 또한 생성된 결정 구조로부터 특성(예: 생성 에너지)을 예측하기 위해 그래프 신경망을 활용합니다. 추론 과정에서 GenMS는 가능한 구조 공간에서 전방 트리 탐색을 수행하기 위해 세 가지 구성 요소를 활용합니다. 실험 결과는 GenMS가 사용자 요청을 충족시키고 저에너지 구조를 생성하는 측면에서 언어 모델을 직접 사용하는 다른 대안을 능가함을 보여줍니다. GenMS가 자연어 입력만으로 이중 페로브스카이트나 스피넬과 같은 일반적인 결정 구조를 생성할 수 있으며, 이는 가까운 미래에 더 복잡한 구조 생성의 기초를 형성할 수 있음을 확인합니다.