번역이 포함된 일일 선별된 AI 연구 논문
GPT-4o는 텍스트, 오디오, 이미지, 그리고 비디오의 어떤 조합도 입력으로 받아들이고 텍스트, 오디오, 이미지의 어떤 조합도 출력으로 생성하는 자기회귀적인 옴니 모델입니다. 이 모델은 텍스트, 비전, 오디오를 아우르는 종단간 훈련을 받아 모든 입력과 출력이 동일한 신경망에 의해 처리됩니다. GPT-4o는 대화에서의 인간 반응 시간과 유사한 232밀리초의 소요 시간으로 오디오 입력에 응답할 수 있으며, 평균적으로 320밀리초가 소요됩니다. 이 모델은 영어와 코드 텍스트에서 GPT-4 Turbo의 성능을 보여주며, 비영어 언어의 텍스트에서는 상당한 향상을 보여주며, 또한 API에서 50% 저렴하고 빠릅니다. GPT-4o는 기존 모델들과 비교하여 비전 및 오디오 이해에서 특히 우수합니다. 우리는 AI를 안전하게 구축하고 백악관에 대한 자발적 약속과 일관성 있게 이행하기 위해 GPT-4o 시스템 카드를 공유하고 있습니다. 이 시스템 카드에서는 GPT-4o의 능력, 한계, 그리고 여러 범주에서의 안전성 평가에 대해 자세히 살펴보며, 특히 음성 대 음성을 중점적으로 평가하면서 텍스트 및 이미지 능력을 평가하고 모델이 안전하고 일치되도록 보장하기 위해 시행한 조치들을 제공합니다. 또한 위험한 능력에 대한 제3자 평가와 GPT-4o의 텍스트 및 비전 능력의 잠재적 사회적 영향에 대한 논의를 포함하고 있습니다.
우리는 폴란드어 처리를 위한 70억 개 파라미터 생성 텍스트 모델인 Bielik 7B v0.1을 소개합니다. 정제된 폴란드어 말뭉치로 훈련된 이 모델은 혁신적인 기술을 통해 언어 모델 개발의 주요 도전 과제에 대응합니다. 이에는 다양한 지시 유형의 학습을 균형 있게 하는 Weighted Instruction Cross-Entropy Loss와 훈련 진행에 따라 학습률을 동적으로 조절하는 Adaptive Learning Rate 등이 포함됩니다. 성능을 평가하기 위해 우리는 Open PL LLM 리더보드와 폴란드어 MT-Bench를 만들었으며, 이는 다양한 NLP 작업과 대화 능력을 평가하는 새로운 프레임워크입니다. Bielik 7B v0.1은 RAG Reader 작업에서 Mistral-7B-v0.1과 비교해 평균 점수가 9 포인트 증가하는 중요한 개선을 보여줍니다. 또한 이 모델은 특히 Reasoning(6.15/10) 및 Role-playing(7.83/10) 범주에서 폴란드어 MT-Bench에서 뛰어난 성과를 보입니다. 이 모델은 폴란드어 언어 인공지능 분야에서 상당한 발전을 나타내며, 다양한 언어 응용 프로그램에 강력한 도구를 제공하고 분야에서 새로운 기준을 설정합니다.
작은 언어 모델(SLMs)은 최소한의 계산 자원을 사용하여 다양한 언어 작업을 수행하는 효율성과 성능으로 인해 점점 더 중요해지고 있으며, 디바이스 내, 모바일, 엣지 디바이스 등 다양한 환경에서 이상적입니다. 본 논문에서는 SLMs에 대한 포괄적인 조사를 제시하며, 그 구조, 훈련 기술, 그리고 모델 압축 기술에 초점을 맞춥니다. 우리는 SLMs를 최적화하는 데 사용되는 방법을 분류하기 위한 새로운 분류법을 제안하며, 모델 압축, 가지치기, 양자화 기술을 포함합니다. 우리는 SLMs를 평가하기 위해 유용한 벤치마킹 데이터셋을 요약하고, 일반적으로 사용되는 평가 지표를 함께 제시합니다. 더불어, 아직 해결되지 않은 주요 과제를 강조합니다. 우리의 조사는 작고 효율적인 언어 모델을 개발하고 배포하는 데 관심 있는 연구자와 실무자들에게 유용한 자원으로 기여하고자 합니다.
복잡한 컴퓨터 작업을 자동화할 수 있는 디지털 에이전트들은 인간-컴퓨터 상호작용을 향상시킬 수 있는 엄청난 잠재력으로 인해 상당한 관심을 끌고 있습니다. 그러나 기존의 에이전트 방법은 특히 실제 환경에서 열린 컴퓨터 작업을 처리하는 데 있어 일반화 및 전문화 능력에 결핍이 있습니다. App Store의 다양한 기능에서 영감을 받아, 우리는 컴퓨터 작업을 자동화하기 위해 다양한 에이전트를 동적으로 통합하는 확장 가능한 플랫폼인 AgentStore를 제안합니다. AgentStore는 사용자가 타사 에이전트를 통합하도록 허용하여 시스템이 능력을 지속적으로 향상시키고 빠르게 발전하는 운영 체제에 적응할 수 있도록 합니다. 또한, 우리는 다양한 에이전트를 효율적으로 관리하고 그들의 전문화 및 일반화 능력을 도메인별 및 시스템 전반적인 작업에 활용하기 위한 새로운 핵심 MetaAgent 및 AgentToken 전략을 제안합니다. OSWorld 벤치마크에서 11.21%에서 23.85%로 이전 결과를 두 배 이상 향상시켜 특히 이전 시스템의 한정된 능력의 제한을 뛰어넘는 AgentStore의 광범위한 실험 결과가 나타났습니다. 포괄적인 양적 및 질적 결과는 AgentStore가 일반화 및 전문화 측면에서 에이전트 시스템을 향상시키는 능력을 더욱 명확히 보여주며, 전문화된 일반화 컴퓨터 어시스턴트를 개발하는 데 있어 그 잠재력을 강조합니다. 모든 코드는 https://chengyou-jia.github.io/AgentStore-Home에서 공개적으로 제공될 예정입니다.
문서 구문 분석은 계약서, 학술 논문 및 송장과 같은 비구조화 및 반구조화된 문서를 구조화된 기계 판독 가능한 데이터로 변환하는 데 중요합니다. 문서 구문 분석은 비구조화 입력에서 신뢰할 수 있는 구조화된 데이터를 추출하여 다양한 응용 프로그램에 많은 편의성을 제공합니다. 특히 최근 대형 언어 모델의 성과로 인해 문서 구문 분석은 지식 베이스 구축 및 훈련 데이터 생성 모두에서 필수적인 역할을 합니다. 본 조사는 현재의 문서 구문 분석 상태에 대한 포괄적인 검토를 제공하며, 모듈식 파이프라인 시스템부터 대규모 비전-언어 모델에 의해 주도되는 end-to-end 모델까지 주요 방법론을 다룹니다. 레이아웃 감지, 내용 추출(텍스트, 표 및 수학식 포함), 그리고 다중 모달 데이터 통합과 같은 핵심 구성 요소가 자세히 살펴보입니다. 또한, 이 논문은 복잡한 레이아웃 처리, 여러 모듈 통합 및 고밀도 텍스트 인식에 직면한 모듈식 문서 구문 분석 시스템 및 비전-언어 모델이 마주한 도전에 대해 논의합니다. 더 크고 다양한 데이터셋을 개발하는 중요성을 강조하고, 미래 연구 방향을 개요합니다.
우리는 MarDini를 소개합니다. 이는 마스크 자기 회귀(Masked Auto-Regression, MAR)의 장점을 통합된 확산 모델(Diffusion Model, DM) 프레임워크로 통합한 새로운 비디오 확산 모델 패밀리입니다. 여기서 MAR은 시간적 계획을 다루고, DM은 공간 생성에 초점을 맞춥니다. 비대칭 네트워크 디자인에서 다음과 같이 작동합니다: i) 대부분의 매개변수를 포함하는 MAR 기반 계획 모델이 낮은 해상도 입력을 사용하여 각 마스크된 프레임에 대한 계획 신호를 생성합니다; ii) 가벼운 생성 모델은 이러한 신호를 사용하여 확산 소음 제거를 통해 고해상도 프레임을 생성합니다. MarDini의 MAR은 어떤 위치의 어떤 수의 마스크된 프레임에 조건을 걸고 비디오 생성을 가능하게 합니다: 단일 모델은 비디오 보간(예: 중간 프레임 마스킹), 이미지에서 비디오 생성(예: 두 번째 프레임부터 마스킹) 및 비디오 확장(예: 프레임의 절반 마스킹)을 처리할 수 있습니다. 효율적인 디자인은 대부분의 계산 자원을 낮은 해상도 계획 모델에 할당하여 계산적으로 비용이 많이 들지만 중요한 시공간 주의를 규모에 맞게 가능하게 합니다. MarDini는 비디오 보간에 대한 새로운 최첨단을 설정하며, 한편, 몇 단계의 추론 내에서 효율적으로 더 비싼 고급 이미지에서 비디오 모델과 유사한 비디오를 생성합니다.
FP8 훈련은 훈련 효율을 향상시키는 유망한 방법으로 등장했습니다. 기존 프레임워크는 FP8 계산을 선형 레이어에 적용하여 훈련을 가속화하지만 옵티마이저 상태와 활성화를 더 높은 정밀도로 유지하여 메모리 사용을 완전히 최적화하지 못합니다. 본 논문에서는 대규모 모델 훈련 시 메모리 풋프린트를 크게 줄이기 위해 설계된 혁신적인 FP8 훈련 프레임워크인 COAT(Compressing Optimizer States and Activations for FP8 Training)을 소개합니다. COAT은 현재의 제한 사항을 두 가지 주요 혁신을 통해 해결합니다: (1) Optimizer 상태 분포를 FP8 표현 범위와 보다 밀접하게 일치시켜 양자화 오류를 줄이는 Dynamic Range Expansion 및 (2) Mixed-Granularity Activation Quantization을 통해 텐서당 및 그룹당 양자화 전략의 조합을 사용하여 활성화 메모리를 최적화합니다. 실험 결과, COAT은 BF16 대비 1.54배의 훈련 메모리 풋프린트를 효과적으로 줄이면서 Large Language Model 사전 훈련, 미세 조정 및 Vision Language Model 훈련과 같은 다양한 작업에서 거의 손실이 없는 성능을 달성합니다. 또한 COAT은 BF16 대비 1.43배의 훈련 속도 향상을 달성하며 TransformerEngine의 속도 향상과 비슷하거나 능가합니다. COAT은 적은 수의 GPU에서 대규모 모델의 전체 매개변수 훈련을 효율적으로 가능하게 하며 분산 훈련 환경에서 배치 크기를 두 배로 증가시키는 것을 용이하게 합니다. 코드는 https://github.com/NVlabs/COAT에서 확인할 수 있습니다.
실제 세계 시나리오에서의 이미지 복원(IR)은 고용량 모델과 포괄적인 데이터셋의 부족으로 인해 중요한 도전을 제기합니다. 이러한 문제를 해결하기 위해 우리는 GenIR이라는 혁신적인 데이터 정제 파이프라인과 DreamClear라는 첨단 확산 트랜스포머(DiT) 기반 이미지 복원 모델을 제안합니다. GenIR은 기존 데이터셋의 한계를 극복하는 이중 프롬프트 학습 파이프라인으로, 일반적으로 몇 천 장의 이미지로만 구성된 기존 데이터셋의 한정된 일반화 능력을 극복합니다. GenIR은 이미지-텍스트 쌍 구성, 이중 프롬프트 기반 미세 조정, 데이터 생성 및 필터링 세 단계로 프로세스를 간소화합니다. 이 접근 방식은 번거로운 데이터 수집 과정을 우회하여 저작권 준수를 보장하고 IR 데이터셋 구축을 위한 비용 효율적이고 개인정보 보호에 적합한 솔루션을 제공합니다. 결과적으로, 100만 장의 고품질 이미지로 구성된 대규모 데이터셋이 생성됩니다. 두 번째 기여인 DreamClear는 DiT 기반 이미지 복원 모델입니다. 이 모델은 텍스트-이미지(T2I) 확산 모델의 생성 우선순위와 다중 모달 대형 언어 모델(MLLMs)의 강력한 지각 능력을 활용하여 사실적인 복원을 달성합니다. 다양한 실제 세계 손상에 대한 모델의 적응성을 향상시키기 위해 Mixture of Adaptive Modulator (MoAM)을 소개합니다. 이는 토큰별 손상 우선순위를 활용하여 다양한 복원 전문가를 동적으로 통합하여 모델이 다룰 수 있는 손상 범위를 확장합니다. 우리의 철저한 실험은 DreamClear의 우수한 성능을 확인하며, 실제 세계 이미지 복원을 위한 우리의 이중 전략의 효과를 강조합니다. 코드 및 사전 훈련된 모델은 다음에서 사용할 수 있습니다: https://github.com/shallowdream204/DreamClear.
긴 맥락 대형 언어 모델(LLM) 개발에서 상당한 발전이 이루어졌지만, 감소된 품질의 LLM 합성 데이터는 감독된 세밀 조정(SFT)을 위한 장기적 성능에 영향을 미치며 내재적 한계를 야기하는 경우가 많습니다. 원칙적으로 적절한 보상 신호와 함께 강화 학습(RL)은 모델의 능력을 더욱 향상시킬 수 있습니다. 그러나 긴 맥락 시나리오에서 신뢰할 수 있는 보상을 얻는 방법은 아직 탐구되지 않았습니다. 이에 우리는 LongReward라는 새로운 방법을 제안합니다. 이 방법은 오프더셀프 LLM을 활용하여 도움, 논리성, 충실성, 완전성이라는 인간의 가치관을 반영한 네 가지 차원에서 장기적 모델 응답에 보상을 제공하는데, 각각을 신중히 설계된 평가 파이프라인을 통해 수행합니다. LongReward와 오프라인 RL 알고리즘인 DPO를 결합함으로써 우리는 효과적으로 장기적 SFT 모델을 개선할 수 있습니다. 실험 결과 LongReward가 모델의 장기적 성능을 현저히 향상시키는데 그치지 않고 짧은 지시사항을 따르는 능력도 향상시킨다는 것을 보여줍니다. 또한 LongReward와 전통적인 짧은 맥락 DPO를 함께 사용하여 양쪽의 성능을 해치지 않고 사용할 수 있다는 것을 발견했습니다.
우리는 디퓨전 트랜스포머(DiT)를 사용한 이미지 생성을 위한 훈련 없이 공간 기반 기법을 소개합니다. 바운딩 박스를 활용한 공간 기반 기법은 이미지 생성에서 사용자 제어를 향상시킬 수 있는 간단하고 다재다능한 특징으로 주목받고 있습니다. 그러나 이전의 훈련 없는 접근 방식은 종종 사용자가 개별 바운딩 박스를 정밀하게 제어하기 어렵게 만들어주는 사용자 정의 손실 함수로부터의 역확산을 통해 역확산 과정 중에 잡음이 있는 이미지를 업데이트하는 데 의존합니다. 본 연구에서는 트랜스포머 아키텍처의 유연성을 활용하여 DiT가 각 바운딩 박스에 해당하는 잡음이 있는 패치를 생성할 수 있음을 입증합니다. 이를 통해 대상 객체를 완전히 인코딩하고 각 영역에 대한 세밀한 제어를 가능하게 합니다. 우리의 방법은 DiT의 흥미로운 특성인 의미 공유에 기반을 두고 있습니다. 의미 공유로 인해 작은 패치가 생성 가능한 크기의 이미지와 함께 공동으로 노이즈 제거되면 두 가지가 "의미적 복제본"이 됩니다. 각 패치는 생성 과정의 자체 분기에서 노이즈 제거되고 각 타임스텝에서 원본 잡음이 있는 이미지의 해당 영역으로 이식되어 각 바운딩 박스에 대한 견고한 공간 기반을 제공합니다. HRS 및 DrawBench 벤치마크 실험에서 이전의 훈련 없는 공간 기반 접근 방식과 비교하여 최첨단의 성능을 달성했습니다.
검색 엔진은 텍스트를 통해 알려지지 않은 정보를 검색할 수 있게 합니다. 그러나 전통적인 방법은 생소한 시각적 콘텐츠를 이해하는 데 한계가 있습니다. 예를 들어, 모델이 이전에 본 적이 없는 객체를 식별하는 것과 같은 작업입니다. 이러한 도전 과제는 대형 시각-언어 모델(VLMs)에서 특히 두드러집니다: 모델이 이미지에 나타난 객체에 노출되지 않았다면, 해당 이미지에 관한 사용자 질문에 신뢰할 수 있는 답변을 생성하는 데 어려움을 겪습니다. 게다가, 새로운 객체와 사건이 지속적으로 등장함에 따라 VLMs를 자주 업데이트하는 것은 계산 부담이 매우 크기 때문에 실용적이지 않습니다. 이 한계를 극복하기 위해, 우리는 Vision Search Assistant를 제안합니다. 이는 VLMs와 웹 에이전트 간의 협력을 촉진하는 혁신적인 프레임워크입니다. 이 접근 방식은 VLMs의 시각적 이해 능력과 웹 에이전트의 실시간 정보 접근을 활용하여 웹을 통한 오픈 월드 검색-증강 생성을 수행합니다. 이 협력을 통해 시각적 및 텍스트 표현을 통합함으로써, 시스템에게 이미지가 새로운 경우에도 정보를 제공할 수 있습니다. 오픈셋과 클로즈셋 QA 벤치마크에서 수행된 포괄적인 실험 결과는 Vision Search Assistant가 다른 모델보다 현저히 우수하며 기존 VLMs에 널리 적용될 수 있다는 것을 보여줍니다.
대형 언어 모델 (LLM)의 안전하고 효과적인 배포는 인간의 선호에 부합하는 모델 응답을 보장하는 정렬이라는 중요한 단계를 포함합니다. DPO, PPO 및 그 변형과 같은 주요 정렬 기술은 사전 훈련된 모델 가중치를 변경하여 LLM을 정렬하는데, 이는 후 훈련이라는 단계에서 이루어집니다. 주요한 후 훈련 방법은 LLM을 배포하기 전에 상당한 복잡성을 추가합니다. 추론 시간 정렬 방법은 복잡한 후 훈련 단계를 피하고 대신 인간의 선호와 일치하는 응답으로 생성을 편향시킵니다. Best-of-N이라고 불리는 가장 잘 알려진 추론 시간 정렬 방법은 최첨단 후 훈련 절차만큼 효과적입니다. 유감스럽게도, Best-of-N은 표준 디코딩 전략보다 추론 시간에 훨씬 더 많은 리소스가 필요하여 계산적으로 실행 불가능합니다. 본 연구에서는 계산적으로 실행 가능한 추론 시간 정렬 알고리즘인 Speculative Rejection을 소개합니다. 이는 Best-of-N과 같이 주어진 보상 모델에 따라 높은 점수의 응답을 생성하면서 계산적으로 16배에서 32배 더 효율적입니다.
우리는 LARP를 제시합니다. 이는 자기회귀 생성 모델을 위한 현재 비디오 토큰화 방법의 한계를 극복하기 위해 설계된 혁신적인 비디오 토크나이저입니다. 지역 시각 패치를 직접 이산 토큰으로 인코딩하는 전통적인 패치별 토크나이저와는 달리, LARP는 학습된 전체적인 쿼리 세트를 사용하여 시각적 콘텐츠에서 정보를 수집하는 전체적인 토크나이제이션 체계를 도입합니다. 이 설계를 통해 LARP는 지역 패치 수준 정보에 국한되지 않고 더 많은 전역적이고 의미론적인 표현을 포착할 수 있습니다. 더불어, 이는 임의의 수의 이산 토큰을 지원하여 작업의 특정 요구에 기반한 적응적이고 효율적인 토크나이제이션을 가능하게 합니다. 이산 토큰 공간을 하류 자기회귀 생성 작업에 맞추기 위해, LARP는 훈련 시 다음 토큰을 예측하는 경량 자기회귀 트랜스포머를 통합합니다. 훈련 중에 사전 모델을 통합함으로써, LARP는 비디오 재구성에 최적화된 잠재 공간을 학습할 뿐만 아니라 자기회귀 생성에 보다 적합한 방식으로 구조화된 잠재 공간을 학습합니다. 더불어, 이 과정은 이산 토큰에 대한 순차적 순서를 정의하며, 훈련 중에 이들을 최적의 구성으로 점진적으로 이동시켜 추론 시 더 부드럽고 정확한 자기회귀 생성을 보장합니다. 포괄적인 실험은 LARP의 강력한 성능을 입증하며, UCF101 클래스 조건부 비디오 생성 벤치마크에서 최신 FVD를 달성합니다. LARP는 자기회귀 모델과 비디오의 호환성을 향상시키고 통합적이고 고품질의 다중 모달 대형 언어 모델(MLLMs) 구축의 잠재력을 열어줍니다.
본 연구에서는 모델 압축 문제를 사용자의 맞춤 요구 사항(예: 작업, 압축 비율)에 따라 압축된 모델에 잔여 저랭크 경로를 도입하여 압축 오류를 보상하는 맞춤 보상 문제로 재정의합니다. 이로써 특정 압축 형식에 제약받지 않고 전체 용량을 조절하는 유연성이 증가합니다. 그러나 잔여 경로를 유도하기 위해 단순히 SVD를 적용하는 것은 저랭크 표현 용량의 최적 활용을 방해합니다. 대신, 우리는 Training-free Eigenspace Low-Rank Approximation (EoRA)이라는 방법을 제안합니다. 이 방법은 경사 기반 훈련을 필요로 하지 않고 압축으로 인한 오류를 직접 최소화하여 소량의 보정 데이터를 사용하여 몇 분 안에 빠른 최적화를 달성합니다. EoRA는 압축 오류를 입력 활성화의 고유 공간으로 투영하여 고유값을 활용하여 고중요도 오류 구성 요소의 재구성을 효과적으로 우선시합니다. 게다가, EoRA는 세밀 조정 및 양자화와 원활하게 통합되어 효과와 효율성을 더욱 향상시킬 수 있습니다. EoRA는 다양한 작업(예: 언어 생성, 상식적 추론, 수학 추론 작업)에서 압축된 LLaMA2/3 모델의 오류를 보상하는 데 이전 방법들보다 우수한 성능을 지속적으로 보여주며, 예를 들어 4비트 양자화 및 2:4 희소성으로 양자화된 LLaMA3-8B를 보상할 때 ARC-Easy/ARC-Challenge 및 MathQA에서 31.31%/12.88% 및 9.69%의 개선을 달성합니다. EoRA는 압축 오류를 보상하기 위한 확장 가능하고 훈련 불필요한 솔루션을 제공하여 다양한 용량 및 효율성 요구 사항에 따라 LLMs를 배포하는 강력한 도구로 작용합니다.
대형 언어 모델 (LLM)을 배포하는 데는 비용이 많이 듭니다. 매개변수 공유는 그 크기와 비용을 줄일 수 있는 가능한 방법을 제공하지만, 현대 LLM에서의 효과는 상당히 제한적입니다. 본 연구에서는 "레이어 결속"을 다시 살펴보고, 트랜스포머에서 매개변수 공유의 형태로 사용되는 새로운 방법을 소개합니다. 기존 LLM을 더 작은 "재귀 트랜스포머"로 변환하는 데 사용되며, 이는 층 간에 매개변수를 공유하면서 성능 손실을 최소화합니다. 여기서 재귀 트랜스포머는 효율적으로 표준 사전 훈련된 트랜스포머에서 초기화되지만, 고유한 층 블록 하나만 사용하여 여러 번 반복하는 방식입니다. 또한, 층 결속 제약에 유연성을 추가하는 "Relaxed Recursive Transformers"를 소개하여 깊이별 저랭크 적응 (LoRA) 모듈을 통해 성능을 더욱 향상시킵니다. 이러한 모델들 (예: 재귀 Gemma 1B)이 비슷한 크기의 표준 사전 훈련된 모델 (예: TinyLlama 1.1B 및 Pythia 1B) 및 지식 증류 기준선보다 우수한 성능을 보여주며, 심지어 원래의 "풀 사이즈" 모델 (예: 공유 매개변수가 없는 Gemma 2B)의 대부분 성능을 회복할 수 있음을 보여줍니다. 마지막으로, 재귀 트랜스포머와 초기 종료를 결합함으로써 가능해진 유망한 새로운 추론 패러다임인 "연속적인 깊이별 배치"를 제안합니다. 이론적 분석에서 이것이 추론 처리량에서 상당한 (2-3배) 향상을 이끌어낼 수 있는 잠재력을 가지고 있음을 보여줍니다.
비디오는 종종 학습하거나 필요한 정보를 추출하기 위해 텍스트와 정적 이미지만으로는 제공할 수 없는 방식으로 작업을 완료하는 데 사용됩니다. 그러나 많은 기존 에이전트 벤치마크는 장기적 컨텍스트 비디오 이해를 무시하고 텍스트나 정적 이미지 입력에 초점을 맞추고 있습니다. 이 간극을 메우기 위해 우리는 비디오 이해를 위한 장기적 다중모달 에이전트의 능력을 평가하기 위한 벤치마크인 VideoWebArena (VideoWA)를 소개합니다. VideoWA는 거의 4시간에 이르는 수동으로 제작된 비디오 튜토리얼을 기반으로 2,021개의 웹 에이전트 작업으로 구성되어 있습니다. 우리의 벤치마크에서는 장기적 비디오 기반 에이전트 작업의 분류법을 정의하였는데, 주요 관심사항은 기술 보유 및 사실 보유 두 가지입니다. 기술 보유 작업은 에이전트가 주어진 인간의 데모를 사용하여 작업을 효율적으로 완료할 수 있는지를 평가하며, 사실 보유 작업은 에이전트가 비디오에서 지시와 관련된 정보를 검색하여 작업을 완료할 수 있는지를 평가합니다. 최고 모델은 사실 보유 작업에서 13.3%의 성공률을 달성하고, 사실 보유 QA 쌍에서는 45.8%의 성공률을 달성하였으며, 이는 각각 73.9% 및 79.3%인 인간의 성능에 크게 못 미치는 수준입니다. 기술 보유 작업에서는 장기적 모델이 튜토리얼을 사용할 때 더 나쁜 성과를 보이며, WebArena 작업에서는 5%의 성능 저하와 VisualWebArena 작업에서는 10.3%의 성능 저하를 나타냅니다. 우리의 연구는 장기적 다중모달 모델의 에이전트 능력을 개선해야 한다는 필요성을 강조하고, 장기적 비디오 에이전트와 함께 미래 개발을 위한 테스트베드를 제공합니다.
신경장(Field)은 컴퓨터 비전과 로봇학에서 3D 장면 표현을 변혁적으로 다루는 방법으로 부상했으며, 2D 데이터로부터의 정확한 기하학, 3D 의미론, 그리고 동역학 추론을 가능하게 합니다. 미분 가능 렌더링을 활용하여, 신경장은 연속적인 암시적 및 명시적 신경 표현을 포괄하여 고품질의 3D 재구성, 다중 모달 센서 데이터 통합, 그리고 새로운 시각점 생성을 가능하게 합니다. 본 설문은 로봇학에서의 신경장의 응용을 탐구하며, 지각, 계획 및 제어를 향상시킬 수 있는 잠재력을 강조합니다. 그들의 간결함, 메모리 효율성, 그리고 미분 가능성은 기초 및 생성 모델과의 원활한 통합과 함께, 실시간 응용에 이상적으로 적합하여 로봇의 적응성과 의사 결정을 향상시킵니다. 본 논문은 로봇학에서의 신경장을 철저히 검토하며, 200편 이상의 논문을 기반으로 다양한 영역에서의 응용을 분류하고 강점과 한계를 평가합니다. 먼저, 우리는 네 가지 주요 신경장 프레임워크를 제시합니다: 점유 네트워크, 부호화된 거리장, 신경 방사장, 그리고 가우시안 스플래팅. 둘째로, 우리는 로봇학의 다섯 가지 주요 영역에서의 신경장 응용을 상세히 설명합니다: 자세 추정, 조작, 내비게이션, 물리학, 그리고 자율 주행을 강조하며 주요 작품을 소개하고 결론과 오픈 챌린지를 논의합니다. 마지막으로, 우리는 로봇학에서의 신경장의 현재 한계를 개요하고 미래 연구를 위한 유망한 방향을 제안합니다. 프로젝트 페이지: https://robonerf.github.io
미주석 대화에서 구조화된 워크플로우를 효율적으로 유도하는 것은 계산언어학에서 미개척되고 강력한 도전 과제입니다. 이 과정을 자동화함으로써 새로운 도메인에서의 워크플로우 수동 설계를 크게 가속화하고 대규모 언어 모델을 도메인별 플로차트에 기반하여 지원함으로써 투명성과 제어 가능성을 향상시킬 수 있습니다. 본 논문에서는 대화를 플로우차트로 변환하는 Dialog2Flow (D2F) 임베딩을 소개합니다. 이 임베딩은 발화를 의사소통적 및 정보적 기능(즉, 그들이 대표하는 행동)에 따라 그룹화하여 일반적인 문장 임베딩과 다릅니다. D2F는 대화를 잠재 공간에서 특정 행동과 관련된 지역을 가진 연속적 궤적으로 모델링할 수 있습니다. D2F 임베딩을 클러스터링함으로써 잠재 공간이 양자화되고 대화가 지역/행동 ID 시퀀스로 변환되어 기본 워크플로우를 추출하는 것을 용이하게 할 수 있습니다. D2F를 사전 훈련하기 위해, 우리는 이전에 정규화된 턴별 액션 주석을 갖춘 20개의 과제 지향 대화 데이터셋을 통합하여 포괄적인 데이터셋을 구축합니다. 또한 이러한 액션들의 의미 정보를 활용하여 표현 학습 과정을 안내하는 새로운 소프트 대조 손실을 소개하여 표준 지도 대조 손실과 비교했을 때 우수한 성능을 보입니다. 대화 특화 문장 임베딩을 포함한 다양한 문장 임베딩에 대한 평가에서, D2F가 다양한 도메인에서 우수한 질적 및 양적 결과를 제공함을 보여줍니다.
본 연구는 전문가 결정에 대한 공식적인 둘째 의견 도구로서의 대형 언어 모델(LLMs)의 역할을 검증하며, 특히 숙련된 의사조차 동료 상담을 필요로 하는 복잡한 의료 케이스에 초점을 맞추었습니다. 이 연구는 Medscape에서 20개월 동안 수행된 183건의 어려운 의료 케이스를 분석하여, 여러 LLM의 성능을 대중의 집단 소싱 의사 응답과 비교하였습니다. 주요 발견 중 하나는 최신의 기본 모델에서 가능한 높은 전체 점수였으며(합의 의견과 비교하여 80% 이상의 정확도), 이는 동일한 임상 케이스에 대해 보고된 대부분의 인간 측정 항목을 능가합니다(환자 프로필 450페이지, 검사 결과). 연구는 LLM의 성능 차이를 평가하였는데, 직관적인 케이스(>81% 정확도)와 복잡한 시나리오(43% 정확도) 사이에서 특히 두드러지며, 휴먼 의사들 사이에서 심각한 논쟁을 유발하는 이러한 케이스에서 더욱 크게 나타났습니다. 이 연구는 LLM이 주 진단 도구로서보다는 포괄적인 차별 진단 생성기로서 가치가 있을 수 있음을 입증하며, 임상 의사 결정의 인지적 편향을 극복하고, 인지적 부담을 줄이며, 이로써 의료 오류의 일부 원인을 제거하는 데 도움이 될 수 있음을 보여줍니다. 또한 제2의 비교적인 법적 데이터 세트(대법원 사건, N=21)의 포함은 둘째 의견 촉진을 위한 AI 사용에 대한 추가적인 경험적 맥락을 제공하였으나, 이러한 법적 도전은 LLM이 분석하기에 상당히 쉬웠습니다. LLM의 정확도에 대한 초기 증거뿐만 아니라, 이 연구는 다른 사람들이 LLM과 의견이 분분한 인간 실무자 사이의 고도로 논란되는 질문과 답변 신뢰도를 평가할 수 있는 새로운 기준을 집계하였습니다. 이러한 결과는 전문적인 환경에서 LLM의 최적 배치가 현재의 루틴 작업 자동화를 강조하는 현재 방식과 상당히 다를 수 있다는 것을 시사합니다.
로봇 데이터를 실제 세계에서 수집하는 데 드는 높은 비용을 감안할 때, 샘플 효율성은 로봇 공학에서 지속적으로 매력적인 추구 대상입니다. 본 논문에서는 시각 및 행동 표현을 개선하여 샘플 효율성을 향상시키는 모방 학습 프레임워크인 SGRv2를 소개합니다. SGRv2의 설계의 핵심은 핵심 귀납 편향인 행동 국부성을 통합하는 것인데, 이는 로봇의 행동이 주로 대상 물체 및 지역 환경과의 상호 작용에 영향을 받는다는 가정을 제시합니다. 모의 실험과 실제 환경에서의 광범위한 실험 결과는 행동 국부성이 샘플 효율성 향상에 중요하다는 것을 입증합니다. SGRv2는 키 프레임 제어를 사용하여 RLBench 작업에서 단순히 5개의 데모로 우수한 성과를 거두며 26개 작업 중 23개에서 RVT 기준선을 능가합니다. 또한 ManiSkill2 및 MimicGen에서 밀도 제어를 사용하여 평가할 때, SGRv2의 성공률은 SGR의 2.54배입니다. 실제 환경에서는 단 8개의 데모로도 SGRv2가 기준 모델과 비교하여 현저히 높은 성공률로 다양한 작업을 수행할 수 있습니다. 프로젝트 웹사이트: http://sgrv2-robot.github.io
인간 움직임 캡처 (MoCap) 데이터로부터의 모방 학습은 인간형 로봇을 훈련하는 유망한 방법을 제공합니다. 그러나 관절 자유도와 힘 제한과 같은 형태학적 차이로 인해 인간 행동의 정확한 복제가 인간형 로봇에게는 실현 가능하지 않을 수 있습니다. 결과적으로 훈련 데이터셋에 물리적으로 불가능한 MoCap 데이터를 통합하는 것은 로봇 정책의 성능에 악영향을 미칠 수 있습니다. 이 문제를 해결하기 위해 로봇 정책과 대상 MoCap 데이터 모두를 최적화하는 이중 수준 최적화 기반 모방 학습 프레임워크를 제안합니다. 구체적으로, 우리는 먼저 새로운 자기 일관적 오토인코더를 사용하여 희소하고 구조화된 움직임 표현을 학습하면서 데이터셋에서 원하는 움직임 패턴을 포착하는 생성적 잠재 동역학 모델을 개발합니다. 동역학 모델은 참조 움직임을 생성하는 데 활용되며 잠재 표현은 이중 수준 움직임 모방 과정을 규제합니다. 인간형 로봇의 현실적인 모델을 사용한 시뮬레이션 결과는 우리의 방법이 참조 움직임을 물리적으로 일관되도록 수정함으로써 로봇 정책을 향상시킨다는 것을 보여줍니다.