번역이 포함된 일일 선별된 AI 연구 논문
본 보고서는 대규모 다중모달 모델(LMMs) 개발을 위한 xGen-MM(또는 BLIP-3로도 알려짐) 프레임워크를 소개합니다. 이 프레임워크는 면밀히 선별된 데이터셋, 학습 레시피, 모델 아키텍처 및 다양한 LMMs로 구성됩니다. xGen-MM은 xGen-MultiModal의 약칭으로, Salesforce xGen 이니셔티어의 AI 모델에 대한 확장입니다. 저희 모델은 단일 및 다중 이미지 벤치마크를 포함한 다양한 작업들에서 엄격한 평가를 거쳤습니다. 사전 학습된 기본 모델은 강력한 문맥 학습 능력을 보이며, 인스트럭션 튜닝된 모델은 유사한 모델 크기의 오픈 소스 LMMs 사이에서 경쟁력 있는 성능을 나타냅니다. 더불어, 우리는 DPO를 활용한 안전 튜닝 모델을 소개하여 환각과 같은 유해한 행동을 완화하고 안전성을 향상시키고자 합니다. 우리는 우리의 모델, 선별된 대규모 데이터셋 및 파인튜닝 코드베이스를 오픈 소스로 공개하여 LMM 연구의 더 나은 발전을 촉진합니다. 관련 자료는 위의 프로젝트 페이지에서 제공될 예정입니다.
최근 이미지 및 비디오 생성 분야에서는 일반성과 다중 모달 시스템에 쉽게 통합될 수 있는 잠재적인 이점으로 인해 자기 회귀 LLM 아키텍처를 채택해왔습니다. 언어 생성에 대한 자기 회귀 학습을 시각적 생성에 적용하는 핵심은 이산화입니다. 즉, 이미지와 비디오와 같은 연속 데이터를 이산 토큰으로 표현하는 것입니다. 이미지와 비디오를 이산화하는 일반적인 방법에는 길이가 지나치게 긴 원시 픽셀 값 모델링이 포함되거나, 복잡한 사전 훈련이 필요한 벡터 양자화가 포함됩니다. 본 연구에서는 이미지와 비디오를 JPEG, AVC/H.264 등의 규범적 코덱을 통해 컴퓨터에 저장된 압축 파일로 직접 모델링하는 것을 제안합니다. 언어 생성에 대한 기본 Llama 아키텍처를 사용하여 어떠한 시각적 특정 수정도 없이 JPEG-LM을 처음부터 사전 훈련하여 이미지를 생성하고 (컨셉 증명을 위해 비디오를 생성하기 위해 AVC-LM을 사용), JPEG 및 AVC 형식의 압축 파일 바이트를 직접 출력합니다. 이미지 생성의 평가 결과, 이 간단하고 직관적인 방법이 픽셀 기반 모델링 및 복잡한 벡터 양자화 기준보다 효과적임을 보여주었으며 (우리의 방법은 FID에서 31% 감소를 보임), JPEG-LM이 장기적 시각적 요소를 생성하는 데 벡터 양자화 모델에 비해 특별한 장점을 가지고 있음을 분석 결과로 보여주었습니다. 전반적으로, 규범적 코덱 표현을 사용하면 언어 생성과 시각 생성 사이의 장벽을 줄이고, 다중 모달 언어/이미지/비디오 LLM에 대한 미래 연구를 용이하게 할 수 있다는 것을 보여줍니다.
연구자들은 강력한 범용 에이전트를 개발하는 데 상당한 노력을 투자하고 있으며, 이를 위해 Foundation 모델이 에이전트 시스템 내에서 모듈로 사용되고 있습니다 (예: Chain-of-Thought, Self-Reflection, Toolformer). 그러나 기계 학습의 역사는 수동으로 설계된 솔루션이 결국 학습된 솔루션으로 대체된다는 것을 보여줍니다. 우리는 자동 에이전트 시스템 설계 (ADAS)라는 새로운 연구 분야를 제시하며, 이는 혁신적인 구성 요소를 발명하거나 새로운 방식으로 결합하여 강력한 에이전트 시스템 설계를 자동으로 생성하는 것을 목표로 합니다. 또한 ADAS 내에서 미타 에이전트 프로그래밍을 통해 코드로 에이전트를 정의하고 더 나은 코드로 계속 발전하는 새로운 에이전트를 자동으로 발견할 수 있는 미개척되었지만 유망한 접근 방식이 있다는 것을 보여줍니다. 프로그래밍 언어가 튜링 완전성을 갖기 때문에, 이 접근 방식은 이론적으로 어떠한 가능한 에이전트 시스템의 학습도 가능하게 합니다: 혁신적인 프롬프트, 도구 사용, 제어 흐름 및 그 조합을 포함합니다. 우리는 이 아이디어를 보여주기 위해 Meta Agent Search라는 간단하면서 효과적인 알고리즘을 제시하며, 미타 에이전트가 이전 발견의 점점 더 커지는 아카이브를 기반으로 흥미로운 새로운 에이전트를 반복적으로 프로그래밍합니다. 코딩, 과학, 수학을 포함한 여러 도메인을 대상으로 한 광범위한 실험을 통해, 우리의 알고리즘이 최첨단 수동 설계된 에이전트들을 크게 능가하는 혁신적인 디자인의 에이전트를 점진적으로 발명할 수 있음을 보여줍니다. 중요한 점은 Meta Agent Search에 의해 발명된 에이전트가 도메인과 모델을 넘나드는 전이 시에도 우수한 성능을 유지한다는 놀라운 결과를 일관되게 관찰한다는 것이며, 이는 그들의 견고함과 일반성을 입증합니다. 안전하게 개발한다면, 우리의 연구는 자동으로 더욱 강력한 에이전트 시스템을 설계하기 위한 흥미로운 새로운 연구 방향의 잠재력을 보여줍니다.
수술 비디오 세그멘테이션은 컴퓨터 지원 수술에서 중요한 작업으로, 수술 품질과 환자 결과를 향상시키는 데 중요합니다. 최근에 Segment Anything Model 2 (SAM2) 프레임워크는 이미지 및 비디오 세그멘테이션에서 우수한 발전을 보여주었습니다. 그러나 SAM2는 고해상도 이미지 처리 및 수술 비디오의 복잡하고 장거리 시간 역학으로 인한 높은 계산 요구로 효율성에 어려움을 겪고 있습니다. 이러한 도전에 대응하기 위해 우리는 Surgical SAM 2 (SurgSAM-2)를 소개합니다. 이는 효율적인 프레임 가지치기(Efficient Frame Pruning, EFP) 메커니즘을 사용하여 SAM2를 활용하여 실시간 수술 비디오 세그멘테이션을 용이하게 합니다. EFP 메커니즘은 가장 정보가 풍부한 프레임만 선택적으로 보유함으로써 메모리 사용량과 계산 비용을 줄이면서 높은 세그멘테이션 정확도를 유지합니다. 우리의 포괄적인 실험은 SurgSAM-2가 바닐라 SAM2와 비교하여 효율성과 세그멘테이션 정확도를 크게 향상시킨다는 것을 입증합니다. 놀랍게도, SurgSAM-2는 SAM2와 비교하여 3배 빠른 FPS를 달성하며, 낮은 해상도 데이터로 세밀 조정한 후에도 최첨단 성능을 제공합니다. 이러한 발전으로 SurgSAM-2는 수술 비디오 분석을 위한 선도적인 모델로 자리매김하며, 자원 제약 환경에서 실시간 수술 비디오 세그멘테이션을 가능한 현실로 만듭니다.
우리는 몇 단계 확산 모델의 맥락에서 정확한 이미지 역전 및 이분화된 이미지 편집의 도전에 대처합니다. 우리는 입력 이미지와 이전 단계에서 재구성된 이미지에 의존하는 인코더 기반의 반복적 역전 기술을 소개합니다. 역전 네트워크는 다음 재구성을 입력 이미지 방향으로 보정할 수 있도록 조건이 설정됩니다. 우리는 (자동 생성된) 상세한 텍스트 프롬프트에 의존함으로써 몇 단계 확산 모델에서 이분화된 제어가 쉽게 달성될 수 있음을 보여줍니다. 역전된 이미지를 조작하기 위해 우리는 노이즈 맵을 고정시키고 텍스트 프롬프트에서 한 속성을 수정합니다 (수동으로 또는 LLM에 의해 주도되는 명령 기반 편집을 통해), 결과적으로 입력 이미지와 유사한 새 이미지를 생성하면서 한 가지 속성만 변경됩니다. 또한 편집 강도를 제어하고 지시적인 텍스트 프롬프트를 수용할 수 있습니다. 우리의 접근 방식은 실시간으로 현실적인 텍스트 안내 이미지 편집을 용이하게 하며, 역전에는 8회의 기능 평가 (NFEs)만 필요하며 편집 당 4회의 NFEs가 필요합니다. 우리의 방법은 빠를 뿐만 아니라 최첨단 다단계 확산 편집 기술을 현저하게 능가합니다.
대규모 언어 모델(LLM) 훈련은 상당한 데이터 관련 비용이 발생하며, 최적화된 데이터 순서 및 선택을 통해 데이터 효율적인 훈련 방법 개발을 촉진하고 있다. 교육 과정 학습과 같은 인간 영감을 받은 학습 전략은 일반적인 인간 학습 관행에 따라 데이터를 구성함으로써 효율적인 훈련 가능성을 제공한다. 교육 과정 학습을 통한 세밀 조정이 자연어 이해 작업에 대한 LLM의 성능을 향상시킨다는 증거에도 불구하고, 그 효과는 일반적으로 단일 모델을 사용하여 평가된다. 본 연구에서는 의료 질문 응답을 위해 인간 정의 및 자동화된 데이터 레이블을 사용하여 다중 LLM을 통해 교육 과정 기반 및 비교과정 기반 학습 전략을 평가함으로써 이전 연구를 확장한다. 결과는 LLM 세밀 조정에 인간 영감을 받은 학습 전략을 사용하는 것이 중간 정도의 영향을 미치며, 모델 당 최대 정확도 향상률은 1.77%, 데이터셋 당 1.81%이라는 것을 나타낸다. 중요한 점은 이러한 전략의 효과가 서로 다른 모델-데이터셋 조합에 따라 상당히 다르다는 것을 강조하며, LLM 세밀 조정에 대한 특정 인간 영감을 받은 전략의 이점이 일반화되지 않는다는 것을 입증한다. 게다가, LLM이 정의한 질문 난이도를 사용한 교육 과정 학습이 인간이 정의한 난이도보다 우월함을 입증하는 증거를 찾아, 최적 교육 과정 설계에 모델 생성 측정값을 사용하는 잠재력을 강조한다.
오프라인 강화 학습 알고리즘은 비용이 많이 들거나 위험한 실제 탐사를 필요로하지 않는 데이터 주도형 강화 학습 방법을 가능하게 하는 가능성을 가지고 있으며 대규모 사전 수집 데이터셋의 이점을 누릴 수 있습니다. 이는 실제 세계 응용 프로그램을 용이하게 하며 강화 학습 연구에 대한 더 표준화된 접근 방식을 제공할 수 있습니다. 또한, 오프라인 강화 학습 방법은 탐사에 대한 도전 과제를 극복하기 위한 온라인 세밀 조정에 대한 효과적인 초기화를 제공할 수 있습니다. 그러나 오프라인 강화 학습 알고리즘의 진전을 평가하기 위해서는 실제 세계 작업의 특성을 포착하고 다양한 난이도의 작업을 제공하며 도메인 매개변수(예: 수평의 길이, 보상의 희소성) 및 데이터 매개변수(예: 좁은 데모 데이터 또는 넓은 탐사 데이터)의 다양한 도전 과제를 다루는 효과적이고 도전적인 벤치마크가 필요합니다. 최근 몇 년간 오프라인 강화 학습에서 상당한 진전이 단순한 벤치마크 작업으로 가능해졌지만, 가장 널리 사용되는 데이터셋은 점점 더 성능이 포화되고 현실적인 작업의 특성을 반영하지 못할 수 있습니다. 우리는 로봇 조작 및 이동 환경에 대한 현실적인 시뮬레이션에 중점을 둔 오프라인 강화 학습을 위한 새로운 벤치마크를 제안합니다. 이는 실제 세계 로봇 시스템 모델을 기반으로 하며 스크립트된 데이터, 인간 텔레오퍼레이터에 의해 수집된 플레이 스타일 데이터 및 기타 데이터 소스를 포함합니다. 우리가 제안하는 벤치마크는 상태 기반 및 이미지 기반 도메인을 다루며 오프라인 강화 학습 및 온라인 세밀 조정 평가를 지원하며, 일부 작업은 명시적으로 사전 훈련과 세밀 조정이 필요하도록 설계되었습니다. 우리가 제안하는 벤치마크가 오프라인 강화 학습 및 세밀 조정 알고리즘의 더 나은 진전을 도울 것을 기대합니다. 코드, 예제, 작업 및 데이터가 있는 웹사이트는 다음에서 확인할 수 있습니다: https://sites.google.com/view/d5rl/