번역이 포함된 일일 선별된 AI 연구 논문
인공 일반 지능의 주요 과제 중 하나는 과학 연구를 수행하고 새로운 지식을 발견할 수 있는 에이전트를 개발하는 것입니다. 최신 모델은 이미 인간 과학자들을 돕는 데 사용되었으며, 아이디어 떠올리기, 코드 작성 또는 예측 작업 등에 사용되었지만, 아직 과학적 과정의 일부만을 수행합니다. 본 논문은 완전 자동 과학 발견을 위한 첫 번째 포괄적인 프레임워크를 제시하며, 최첨단 대형 언어 모델이 독립적으로 연구를 수행하고 결과를 전달할 수 있도록 합니다. 우리는 AI 과학자를 소개합니다. 이는 새로운 연구 아이디어를 생성하고, 코드를 작성하며, 실험을 실행하고, 결과를 시각화하며, 전체 과학 논문을 작성하여 결과를 설명하고, 그런 다음 평가를 위해 시뮬레이션 검토 과정을 실행합니다. 원칙적으로 이 프로세스는 인간 과학 커뮤니티처럼 작동하여 끝없는 창의력과 혁신이 세계에서 가장 어려운 문제에 발휘될 수 있도록 아이디어를 반복적으로 개발할 수 있습니다. 우리는 이를 기계 학습의 세 가지 다른 하위 분야에 적용하여 다양성을 증명합니다: 확산 모델링, 트랜스포머 기반 언어 모델링 및 학습 동태. 각 아이디어는 논문 당 15달러 미만의 비용으로 구현되고 개발됩니다. 생성된 논문을 평가하기 위해 우리는 자동 리뷰어를 설계하고 유효성을 검증하며, 이를 통해 논문 점수 평가에서 거의 인간 수준의 성능을 달성하는 것을 보여줍니다. AI 과학자는 우리의 자동 리뷰어에 의해 판단된 최고의 기계 학습 컨퍼런스의 수용 임계값을 초과하는 논문을 생산할 수 있습니다. 이 접근 방식은 기계 학습의 과학 발견에 새로운 시대의 시작을 의미하며, AI 에이전트의 변혁적 이점을 AI 자체의 전체 연구 과정에 가져다주며, 세계에서 가장 어려운 문제에 끝없는 저렴한 창의력과 혁신을 발휘할 수 있는 세계로 우리를 더 가깝게 이끕니다. 우리의 코드는 https://github.com/SakanaAI/AI-Scientist에서 오픈 소스로 제공됩니다.
본 논문은 rStar를 소개하는데, 이는 소량 언어 모델(SLMs)의 추론 능력을 현저히 향상시키는 자가 대결 상호 추론 접근법입니다. rStar는 미세 조정이나 우수한 모델 없이 추론을 크게 향상시킵니다. rStar는 추론을 자가 대결 생성-식별 과정으로 분리합니다. 먼저 대상 SLM은 Monte Carlo Tree Search (MCTS)에 인간과 유사한 다양한 추론 작업을 추가하여 더 높은 품질의 추론 경로를 구축합니다. 그 다음, 대상 SLM에 의해 생성된 각 경로를 확인하는 판별자 역할을 하는 또 다른 SLM이 있습니다. 상호 합의된 추론 경로는 상호 일관성이 있다고 간주되므로 올바를 가능성이 높습니다. GSM8K, GSM-Hard, MATH, SVAMP 및 StrategyQA를 포함한 다양한 추론 문제를 효과적으로 해결할 수 있는 것을 보여주는 다섯 개의 SLM을 대상으로 한 광범위한 실험을 통해 rStar가 얼마나 효과적인지 입증합니다. 놀랍게도, rStar는 LLaMA2-7B의 GSM8K 정확도를 12.51%에서 63.91%로, Mistral-7B의 정확도를 36.46%에서 81.88%로, LLaMA3-8B-Instruct의 정확도를 74.53%에서 91.13%로 향상시킵니다. 코드는 https://github.com/zhentingqi/rStar에서 제공될 예정입니다.
확산 모델은 이미지 및 비디오 생성에서 놀라운 강력함과 견고함을 입증해 왔습니다. 생성된 결과물을 보다 더 정밀하게 제어하기 위해 연구자들은 ControlNet, Adapters 및 ReferenceNet과 같은 추가 아키텍처를 도입하여 조건 제어를 통합합니다. 그러나 현재의 조절 가능한 생성 방법은 종종 상당한 추가 계산 리소스를 필요로 하며, 특히 비디오 생성의 경우 교육에 어려움을 겪거나 제어가 약합니다. 본 논문에서는 ControNeXt를 제안합니다. 이는 이미지 및 비디오 생성에 대한 강력하고 효율적인 방법입니다. 먼저, 우리는 더 간단하고 효율적인 아키텍처를 설계하여 추가 비용이 최소화된 상태로 기본 모델과 비교하여 무겁고 추가적인 가지를 대체합니다. 이러한 간결한 구조는 또한 우리의 방법이 다른 LoRA 가중치와 매끄럽게 통합되도록 하여 추가 교육 없이 스타일 변경이 가능하게 합니다. 교육 측면에서는 대안과 비교하여 학습 가능한 매개변수를 최대 90% 줄였습니다. 더 나아가, 빠르고 안정적인 교육 수렴을 달성하기 위해 'Zero-Convolution' 대신 Cross Normalization (CN)이라는 다른 방법을 제안합니다. 이미지 및 비디오에 걸쳐 다양한 기본 모델로 실험을 수행하여 우리의 방법의 견고성을 입증했습니다.
Med42-v2는 일반적인 모델의 한계를 해결하기 위해 설계된 임상 대규모 언어 모델(LLM) 스위트를 소개합니다. 이러한 모델들은 Llama3 아키텍처 위에 구축되었으며 전문적인 임상 데이터를 사용하여 세밀하게 조정되었습니다. 자연어 프롬프트에 효과적으로 응답하기 위해 다단계 선호 정렬을 거쳤습니다. 일반적인 모델들은 종종 임상 질의에 대답을 피하기 위해 선호 정렬을 하지만, Med42-v2는 이 제한을 극복하기 위해 특별히 훈련되어 임상 환경에서 사용할 수 있도록 되었습니다. Med42-v2 모델은 8B 및 70B 매개변수 구성 및 GPT-4에서 다양한 의학적 벤치마크에서 원래의 Llama3 모델보다 우수한 성능을 보여주었습니다. 이러한 LLM은 임상 질의를 이해하고 추론 작업을 수행하며 임상 환경에서 가치 있는 지원을 제공하기 위해 개발되었습니다. 이러한 모델은 이제 https://huggingface.co/m42-health{https://huggingface.co/m42-health}에서 공개적으로 이용 가능합니다.
우리는 CogVideoX를 소개합니다. 이는 텍스트 프롬프트를 기반으로 비디오를 생성하기 위해 설계된 대규모 확산 트랜스포머 모델입니다. 비디오 데이터를 효율적으로 모델링하기 위해, 우리는 비디오를 공간 및 시간 차원 모두에서 압축하기 위해 3D 변이형 오토인코더(Variational Autoencoder, VAE)를 활용하는 것을 제안합니다. 텍스트-비디오 정렬을 향상시키기 위해, 전문가 적응형 레이어 정규화(LayerNorm)를 갖춘 전문가 트랜스포머를 제안하여 두 모드 간의 깊은 융합을 용이하게 합니다. 점진적 훈련 기술을 적용함으로써, CogVideoX는 의미 있는 움직임을 특징으로 하는 일관된 장기 비디오를 생성하는 데 능숙합니다. 또한, 다양한 데이터 전처리 전략과 비디오 캡션 메소드를 포함하는 효과적인 텍스트-비디오 데이터 처리 파이프라인을 개발했습니다. 이는 CogVideoX의 성능을 향상시키는 데 상당히 도움이 됩니다. 결과는 CogVideoX가 다중 머신 메트릭과 인간 평가 모두에서 최첨단 성능을 보여주는 것을 보여줍니다. 3D 인과 VAE와 CogVideoX의 모델 가중치는 https://github.com/THUDM/CogVideo에서 공개적으로 이용 가능합니다.
우리는 FruitNeRF를 소개합니다. 이는 최첨단 시야 합성 방법을 활용하여 3D에서 어떤 과일 종류든 직접 세는 통합된 혁신적인 과일 계수 프레임워크입니다. 우리의 프레임워크는 단안 카메라에 의해 촬영된 순서 없는 포즈 이미지 세트를 취하고 각 이미지에서 과일을 분할합니다. 과일 종류에 독립적인 시스템을 만들기 위해 어떤 과일에 대해서도 이진 분할 마스크를 생성하는 기본 모델을 사용합니다. RGB 및 의미론적 모두를 활용하여 의미론적 신경 방사율 필드를 훈련시킵니다. 암묵적인 과일 필드를 균일하게 볼륨 샘플링하여 과일 전용 포인트 클라우드를 얻습니다. 추출된 포인트 클라우드에 연속 클러스터링을 적용함으로써 우리의 방법은 정확한 과일 계수를 달성합니다. 신경 방사율 필드의 사용은 객체 추적이나 광학 흐름과 같은 전통적인 방법에 비해 상당한 이점을 제공합니다. 계수 자체가 3D로 확장되기 때문에 과일의 중복 계수를 방지하고 관련 없는 과일을 세지 않습니다. 우리의 방법론을 실제 및 합성 데이터셋을 사용하여 평가합니다. 실제 데이터셋은 수동으로 계수된 세 개의 사과 나무와 지상 참값이 있는 벤치마크 사과 데이터셋, 합성 데이터셋은 사과, 자두, 레몬, 배, 복숭아, 망고를 포함합니다. 또한, 기초 모델을 사용한 과일 계수의 성능을 U-Net과 비교하여 평가합니다.
대규모 다중 모달 모델(LMMs)은 언어와 시각 능력을 결합하여 매우 능숙한 시각 기반 에이전트를 형성하는 인공 지능의 새로운 시대를 열었습니다. 이러한 에이전트들은 다양한 작업에서 뛰어나다는 가설을 받아 일반적인 인공 지능에 근접할 수 있습니다. 그러나 기존의 벤치마크는 복잡한 현실 환경에서 LMMs의 전체 잠재력을 충분히 도전하거나 보여주지 못합니다. 이러한 공백을 해결하기 위해 우리는 VisualAgentBench (VAB)를 소개합니다. 이는 LMMs를 시각적 기반 에이전트로 훈련하고 평가하기 위해 특별히 설계된 포괄적이고 선도적인 벤치마크로, 이를 통해 LMMs의 이해력과 상호 작용 능력을 탐구하는 작업을 포함한 다양한 시나리오에서 작동합니다. 우리는 9개의 독점 LMM API와 8개의 오픈 모델을 통해 엄격한 테스트를 거쳐, 이러한 모델들의 상당하면서도 계속 발전 중인 에이전트 능력을 증명합니다. 더불어, VAB는 프로그램 기반 솔버, LMM 에이전트 부트스트래핑, 그리고 인간 시연을 포함한 혼합 방법을 통해 구성된 궤적 훈련 세트를 구축하여, 행동 복제를 통해 LMMs의 성능을 상당히 향상시키고 있습니다. 우리의 연구는 기존 모델을 벤치마킹하는 것뿐만 아니라, 미래의 시각적 기반 에이전트로의 발전을 위한 견고한 기반을 제공하는 데 목표를 두고 있습니다. 코드, 훈련 및 테스트 데이터, 그리고 일부 파인튠된 오픈 LMMs는 https://github.com/THUDM/VisualAgentBench에서 제공됩니다.
본 논문에서는 고신뢰도 및 애니메이션 가능한 강건성으로부터 적은 양의 데이터로부터 범용화할 수 있는 새로운 3D 머리 아바타 생성 방법을 제안합니다. 이 문제의 미제한된 성격을 고려하여 사전 지식을 통합하는 것이 중요합니다. 따라서, 우리는 사전 학습 및 아바타 생성 단계로 구성된 프레임워크를 제안합니다. 사전 학습 단계는 대규모 다중 뷰 동적 데이터셋에서 유래된 3D 머리 사전을 활용하며, 아바타 생성 단계는 이러한 사전을 적은 양의 데이터로 개인화에 적용합니다. 우리의 방법은 가우시안 스플래팅 기반 오토 디코더 네트워크와 부분 기반 동적 모델링을 활용하여 이러한 사전을 효과적으로 포착합니다. 우리의 방법은 개인 신원을 위한 개인화된 잠재 코드와 신원 공유 인코딩을 활용하여 가우시안 기본체의 특성을 학습합니다. 아바타 생성 단계에서는 역전 및 세밀 조정 전략을 활용하여 신속한 머리 아바타 개인화를 달성합니다. 광범위한 실험 결과는 우리의 모델이 머리 사전을 효과적으로 활용하고 적은 양의 데이터로 개인화를 성공적으로 일반화하여 사진 현실적 렌더링 품질, 다중 뷰 일관성 및 안정적인 애니메이션을 달성한다는 것을 보여줍니다.
본 논문은 고양화된 인간 이미지 개인화를 위한 혁신적인 프레임워크인 UniPortrait을 제시합니다. 이 프레임워크는 고 페이스 유사성, 다양한 얼굴 편집 가능성, 자유로운 형식의 입력 설명, 그리고 다양한 레이아웃 생성을 통합하는데 있습니다. UniPortrait은 두 개의 플러그 앤 플레이 모듈로 구성되어 있습니다: ID 임베딩 모듈과 ID 라우팅 모듈입니다. ID 임베딩 모듈은 각 ID에 대해 분리 전략을 사용하여 다양하고 편집 가능한 얼굴 특징을 추출하고 이를 확산 모델의 컨텍스트 공간에 임베딩합니다. 그런 다음 ID 라우팅 모듈은 이러한 임베딩을 조합하고 적응적으로 합성된 이미지 내에서 각각의 영역에 분배하여 단일 및 다중 ID의 개인화를 달성합니다. 정교하게 설계된 두 단계의 훈련 체계를 통해 UniPortrait은 단일 및 다중 ID 개인화 모두에서 우수한 성능을 달성합니다. 양적 및 질적 실험을 통해 우리의 방법이 기존 접근 방식보다 우위를 보이며, 기존 생성 제어 도구와의 보편적 호환성과 같은 좋은 확장성을 입증합니다. 프로젝트 페이지는 https://aigcdesigngroup.github.io/UniPortrait-Page/ 에서 확인할 수 있습니다.
최근 몇 년간 트랜스포머 아키텍처는 자연어 처리와 컴퓨터 비전에 적용된 기계 학습 알고리즘의 사실상 표준이 되었습니다. 로봇 학습의 맥락에서 이 아키텍처의 성공적인 적용에 대한 현저한 증거가 있음에도 불구하고, 우리는 일반적인 트랜스포머가 로봇 학습 문제의 구조를 완전히 활용하지 못한다고 주장합니다. 따라서 우리는 Body Transformer (BoT)라는 아키텍처를 제안합니다. 이 아키텍처는 로봇의 구체성을 활용하여 학습 프로세스를 안내하는 귀납적 편향을 제공합니다. 우리는 로봇 몸체를 센서와 액추에이터의 그래프로 표현하고, 마스크된 어텐션을 활용하여 아키텍처 전체에 걸쳐 정보를 풀링합니다. 이러한 결과 아키텍처는 일반적인 트랜스포머뿐만 아니라 고전적인 다층 퍼셉트론에 비해 과제 완료, 확장 특성 및 계산 효율성 측면에서 더 우수한 성능을 보입니다. 또한 모방 또는 강화 학습 정책을 표현할 때 오픈 소스 코드를 포함한 추가 자료는 https://sferrazza.cc/bot_site에서 제공됩니다.
최근의 성공에도 불구하고, Transformer 기반의 대규모 언어 모델은 놀라운 실패 모드를 보여줍니다. 이러한 실패 모드의 잘 알려진 예는 훈련 중에 본 적이 있는 것보다 긴 추론 시간의 문제 인스턴스를 해결하지 못하는 것입니다. 본 연구에서는 간단한 패리티 작업에서 모델 행동을 상세히 분석함으로써 이 실패의 근본 원인을 더 탐구합니다. 우리의 분석은 길이 일반화 실패가 모델이 컨텍스트 창 내에서 무작위 메모리 액세스를 수행할 수 없는 능력과 복잡하게 관련되어 있다는 것을 시사합니다. 우리는 인덱싱이 필요 없는 방법이나 콘텐츠 기반 주소 지정을 통해 간접적으로 무작위 토큰 액세스를 가능하게 하는 방법론의 효과를 증명함으로써 이 가설을 지원하는 증거를 제시합니다. 또한 어디에서 어떻게 무작위 메모리 액세스를 수행하지 못하는 실패가 어텐션 맵 시각화를 통해 나타나는지 자세히 보여줍니다.