번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델 (LLMs) 및 대형 비전-언어 모델 (LVLMs)은 인상적인 언어/시각 추론 능력을 보여주며, 쇼핑 어시스턴트나 AI 소프트웨어 엔지니어와 같은 특정 응용 프로그램을 위해 에이전트를 구축하는 최근 추세를 촉발시켰습니다. 최근에는 많은 데이터 과학 벤치마크가 제안되어 그들의 성능을 데이터 과학 분야에서 조사하였습니다. 그러나 기존의 데이터 과학 벤치마크는 여전히 단순화된 설정으로 인해 실제 데이터 과학 응용 프로그램과 비교할 때 부족함이 있습니다. 이 간극을 메우기 위해 우리는 현실적인 작업을 수행하는 데이터 과학 에이전트를 평가하기 위해 설계된 포괄적인 벤치마크인 DSBench를 소개합니다. 이 벤치마크에는 Eloquence와 Kaggle 대회에서 가져온 466개의 데이터 분석 작업과 74개의 데이터 모델링 작업이 포함되어 있습니다. DSBench는 긴 컨텍스트, 다중 모달 작업 배경, 대용량 데이터 파일 및 다중 테이블 구조를 활용한 추론, 그리고 엔드-투-엔드 데이터 모델링 작업을 포함하여 현실적인 설정을 제공합니다. 최첨단 LLMs, LVLMs 및 에이전트의 평가 결과, 대부분의 작업에서 어려움을 겪으며, 최고의 에이전트는 데이터 분석 작업의 34.12%만 해결하고 상대 성능 갭 (RPG)은 34.74%에 달합니다. 이 결과들은 더 실용적이고 지능적이며 자율적인 데이터 과학 에이전트를 개발하기 위한 추가적인 발전이 필요함을 강조합니다.
대형 언어 모델(LLMs)은 컴퓨터 에이전트로 작용하여 인간의 생산성을 향상시키고 계획 및 추론이 필요한 다중 모달 작업에서 소프트웨어 접근성을 향상시키는 놀라운 잠재력을 보여줍니다. 그러나 현실적인 환경에서 에이전트 성능을 측정하는 것은 여전히 어려운 과제입니다. 왜냐하면: (i) 대부분의 벤치마크가 특정 모달리티나 도메인(예: 텍스트 전용, 웹 탐색, Q&A, 코딩)으로 제한되어 있고 (ii) 다단계 순차적인 작업의 특성으로 인해 전체 벤치마크 평가가 느립니다(일 수준의 순서). 이러한 도전에 대응하기 위해 Windows 에이전트 아레나를 소개합니다: Windows 운영 체제(OS)에만 초점을 맞춘 재현 가능한 일반 환경으로, 에이전트들이 작업을 해결할 때 인간 사용자가 사용하는 것과 동일한 다양한 응용 프로그램, 도구 및 웹 브라우저를 자유롭게 사용할 수 있는 환경입니다. 우리는 OSWorld 프레임워크(Xie et al., 2024)를 적용하여 계획, 화면 이해 및 도구 사용 능력이 필요한 대표적인 도메인에서 150개 이상의 다양한 Windows 작업을 생성했습니다. 우리의 벤치마크는 확장 가능하며 Azure에서 완전한 벤치마크 평가를 20분 만에 원활하게 병렬화할 수 있습니다. Windows 에이전트 아레나의 능력을 시연하기 위해 새로운 다중 모달 에이전트 Navi를 소개합니다. 우리의 에이전트는 Windows 도메인에서 19.5%의 성공률을 달성하며, 비지원 인간의 74.5% 성능과 비교됩니다. Navi는 또한 다른 인기 있는 웹 기반 벤치마크 Mind2Web에서 강력한 성능을 보여줍니다. Navi의 성능에 대한 포괄적인 양적 및 질적 분석을 제공하고, Windows 에이전트 아레나를 활용한 에이전트 개발 및 데이터 생성에 대한 미래 연구 기회에 대한 통찰을 제공합니다. 웹페이지: https://microsoft.github.io/WindowsAgentArena 코드: https://github.com/microsoft/WindowsAgentArena
최근 대형 언어 모델(LLMs)의 발전은 과학적 발견을 가속화할 수 있는 잠재력에 대한 낙관론을 불러일으켰으며, 자율적으로 새로운 아이디어를 생성하고 검증하는 연구 에이전트를 제안하는 작업이 증가하고 있습니다. 그럼에도 불구하고, 아직까지 LLM 시스템이 혁신적이고 전문가 수준의 아이디어를 생성하는 매우 첫 번째 단계를 수행할 수 있는 능력을 입증한 평가는 없습니다. 이를 해결하기 위해 혼란 변수를 통제하면서 연구 아이디어 생성을 평가하는 실험 설계를 수립하고, 전문 NLP 연구자와 LLM 아이디어 생성 에이전트 간의 첫 번째 직접 비교를 수행합니다. 100명 이상의 NLP 연구자를 모집하여 새로운 아이디어를 작성하고 LLM 및 인간 아이디어의 블라인드 리뷰를 통해, 현재 LLM 능력에 대한 연구 아이디어 생성에 대한 첫 번째 통계적으로 유의미한 결론을 얻습니다: LLM이 생성한 아이디어는 인간 전문가 아이디어보다 혁신적으로 판단되지만 실행 가능성 측면에서 약간 약한 것으로 판명됩니다. 에이전트 기준을 면밀히 조사하여, LLM 자가평가의 실패와 생성의 다양성 부족을 포함한 연구 에이전트 구축 및 평가의 문제점을 식별합니다. 마지막으로, 전문가조차 혁신성에 대한 인간 판단이 어려울 수 있음을 인정하고, 이러한 혁신성과 실행 가능성 판단이 연구 결과에 의미 있는 차이를 초래하는지 연구하는 데 연구자를 모집하여 이러한 아이디어를 완전한 프로젝트로 실행하도록 하는 종단간 연구 설계를 제안합니다.
텍스트-투-이미지(T2I) 확산 모델은 개별 인스턴스의 시각적으로 매력적인 이미지를 생성하는 데 뛰어나지만, 여러 인스턴스의 특징 생성을 정확하게 위치시키고 제어하는 데 어려움을 겪습니다. 레이아웃-투-이미지(L2I) 작업은 바운딩 박스를 공간 제어 신호로 통합하여 위치 지정 문제에 대응하도록 소개되었지만, 여전히 정확한 인스턴스 특징 생성에는 부족합니다. 이에 대응하여 우리는 인스턴스 특징 생성(IFG) 작업을 제안합니다. 이 작업은 생성된 인스턴스의 위치 정확성과 특징 충실도를 보장하는 데 목표를 두고 있습니다. IFG 작업에 대응하기 위해 우리는 인스턴스 특징 어댑터(IFAdapter)를 소개합니다. IFAdapter는 추가적인 외형 토큰을 통합하고 인스턴스 의미 지도를 활용하여 인스턴스 수준의 특징을 공간 위치와 조정함으로써 특징 묘사를 향상시킵니다. IFAdapter는 플러그 앤 플레이 모듈로 확산 프로세스를 안내하여 다양한 커뮤니티 모델에 적응 가능합니다. 평가를 위해 우리는 IFG 벤치마크를 제공하고 모델이 정확한 위치 및 특징으로 인스턴스를 생성하는 능력을 객관적으로 비교하기 위한 검증 파이프라인을 개발합니다. 실험 결과는 IFAdapter가 양적 및 질적 평가 모두에서 다른 모델보다 우수한 성과를 보여준다는 것을 입증합니다.
대형 언어 모델은 여전히 구조화된 데이터, 복잡한 추론 또는 도구 사용을 활용하는 어려운 시나리오에서 고전하는 문제가 있습니다. 본 논문에서는 고가의 인간 주석에 의존하지 않고 대형 언어 모델에 새로운 기술을 가르치는 데 사용할 수 있는 Source2Synth라는 새로운 방법을 제안합니다. Source2Synth는 사용자 정의 데이터 원본을 입력으로 받아 실제 세계 소스에 근거한 중간 추론 단계를 포함하는 합성 데이터 포인트를 생성합니다. Source2Synth는 답변 가능성에 기초한 저품질 생성물을 제거함으로써 데이터 질을 향상시킵니다. 우리는 이 접근 방식의 일반성을 입증하기 위해 이를 적용하여 다음 두 가지 어려운 도메인에서 추론 능력을 테스트하고 있습니다: 다중 점프 질문 응답 (MHQA)에서 추론 능력을 테스트하며, 표 형식 질문 응답 (TQA)에서 도구 사용을 테스트합니다. 우리의 방법은 WikiSQL의 TQA에서 25.51%, HotPotQA의 MHQA에서 22.57%의 성능을 향상시킵니다.
최근 텍스트-이미지 모델의 획기적인 발전은 맞춤형 이미지 생성 분야에서 유망한 연구 방향을 열었으며, 사용자가 자연어 프롬프트를 사용하여 특정 주제의 다양한 이미지를 만들 수 있게 했습니다. 그러나 기존 방법들은 종종 단일 참조 이미지만 제공될 때 성능이 저하되는 문제가 있습니다. 입력에 과적합되어 텍스트 프롬프트에 관계없이 매우 유사한 출력물을 생성하는 경향이 있습니다. 본 논문은 오버피팅을 완화하여 한 번에 한 장의 이미지를 통한 맞춤화의 과제에 대처하며, 텍스트 프롬프트를 통해 조절 가능한 이미지를 생성할 수 있도록 합니다. 구체적으로, 우리는 텍스트 인코더에 초점을 맞춘 선택적 파인 튜닝 전략을 제안합니다. 더불어, 맞춤화 성능을 향상시키기 위한 세 가지 주요 기술을 소개합니다: (1) 특징 분리를 촉진하고 오버피팅을 완화하기 위한 증가 토큰, (2) 언어 이동을 줄이고 다양한 프롬프트에 대한 일반화를 촉진하기 위한 지식 보존 손실, 그리고 (3) 효율적인 훈련을 위한 SNR 가중 샘플링. 광범위한 실험을 통해 우리의 접근 방식이 단일 참조 이미지만 사용하여 고품질이고 다양한 이미지를 효율적으로 생성하면서 메모리 및 저장 요구 사항을 크게 줄였음을 입증합니다.
우리는 DreamHOI를 제안합니다. 이는 텍스트 설명을 기반으로 3D 인간 모델이 임의의 객체와 현실적으로 상호 작용할 수 있는 제로샷 합성 방법입니다. 실제 세계 객체의 다양한 범주와 기하학, 그리고 다양한 HOI를 포괄하는 데이터셋의 부족으로 이 작업은 복잡합니다. 광범위한 데이터가 필요한 것을 우회하기 위해, 우리는 수십억 개의 이미지 캡션 쌍으로 훈련된 텍스트-이미지 확산 모델을 활용합니다. 이 모델은 이미지 공간 편집을 예측하는 SDS(점수 증류 샘플링) 그래디언트를 최적화하여 스킨된 인간 메시의 조립을 개선합니다. 그러나 이미지 공간 그래디언트를 복잡한 조립 매개변수로 직접 역전파하는 것은 그래디언트의 지역적 특성으로 인해 비효율적입니다. 이를 극복하기 위해, 우리는 스킨된 메시의 이중 암시적-명시적 표현을 소개합니다. 이는 (암시적) 신경 방사형 필드(NeRFs)와 (명시적) 스켈레톤 주도 메시 조립을 결합합니다. 최적화 과정에서, 우리는 암시적 및 명시적 형태 사이를 전환하며, NeRF 생성을 기반으로 메시 조립을 정밀화합니다. 우리의 접근 방식을 검증하기 위해 포괄적인 실험을 통해 효과적으로 현실적인 HOI를 생성하는 능력을 입증합니다.
대형 언어 모델 (LLM)의 파동에 힘입어, 대형 시각-언어 모델 (LVLM)은 이미지와 텍스트 사이의 간극을 메우는 중요한 발전으로 등장했습니다. 그러나 비디오는 언어와 공간-시간 데이터 구조 간의 복잡한 관계로 인해 LVLM이 적절하게 작동하는 데 어려움을 겪습니다. 최근의 대형 비디오-언어 모델 (LVidLM)은 이미지와 같은 정적 시각 데이터의 특징을 언어 특징의 잠재 공간에 정렬시켜, 다중 모달 작업을 통해 LLM의 능력을 충분히 활용합니다. 본 논문에서는 객체 궤적을 통한 세밀한 정렬 접근 방식을 탐구하여 공간 및 시간 차원 모두에서 다양한 모달에 걸쳐 세밀한 비디오-언어 정렬을 달성합니다. 따라서 우리는 유망한 적용 가능한 모델 특성을 나타내는 궤적 안내형 픽셀-시간 정렬인 PiTe로 명명된 새로운 LVidLM을 제안합니다. 세밀한 비디오-언어 정렬을 달성하기 위해, 우리는 자동 주석 파이프라인을 통해 비디오와 캡션 모두에 나타나고 언급되는 모든 개별 객체의 픽셀 수준 이동 궤적을 제공하는 다중 모달 사전 훈련 데이터셋 PiTe-143k를 선별합니다. 한편 PiTe는 최첨단 방법을 큰 폭으로 능가하여 다양한 비디오 관련 다중 모달 작업에서 놀라운 능력을 보여줍니다.
본 연구는 2D 마스크로부터 3D 가우시안 스플래팅을 정확하게 세분화하는 과제에 대해 다룹니다. 기존 방법은 각 가우시안에 고유한 레이블을 할당하기 위해 반복적인 경사 하강법을 종종 사용하여 최적화 시간이 오래 걸리고 최적해에 도달하지 못하는 문제가 있습니다. 대신, 우리는 3D-GS 세분화를 위한 직관적이면서 전역적으로 최적화된 해법을 제안합니다. 우리 방법의 핵심 통찰력은 3D-GS 장면을 재구성하면, 2D 마스크의 렌더링이 각 가우시안의 레이블에 대해 선형 함수로 볼 수 있다는 것입니다. 따라서 최적 레이블 할당은 닫힌 형태의 선형 프로그래밍을 통해 해결될 수 있습니다. 이 해법은 단일 단계 최적화를 위해 스플래팅 프로세스의 알파 블렌딩 특성을 활용합니다. 우리의 목적 함수에 배경 편향을 통합함으로써, 우리의 방법은 잡음에 대해 3D 세분화에서 우수한 견고성을 보여줍니다. 놀랍게도, 우리의 최적화는 최고의 기존 방법보다 약 50배 빠른 30초 내에 완료됩니다. 다양한 장면을 세분화하는 우리의 방법의 효율성과 견고성, 그리고 물체 제거 및 인페인팅과 같은 하향 작업에서 우수한 성능을 실험을 통해 입증하였습니다. 데모 및 코드는 https://github.com/florinshen/FlashSplat에서 제공될 예정입니다.
분포 밖 (OOD) 객체 감지는 오픈셋 OOD 데이터의 부재로 인해 어려운 작업입니다. Stable Diffusion과 같은 최근 텍스트에서 이미지로 생성 모델의 발전을 영감으로 삼아, 대규모 오픈셋 데이터로 훈련된 생성 모델의 잠재력을 연구하여 OOD 샘플을 합성함으로써 OOD 객체 감지를 향상시킬 수 있는 가능성을 연구합니다. 우리는 SyncOOD를 소개합니다. 이는 대규모 기반 모델의 능력을 활용하여 텍스트에서 이미지로 생성된 모델에서 의미 있는 OOD 데이터를 자동으로 추출하는 간단한 데이터 정제 방법입니다. 이를 통해 모델은 오프더셀프 기반 모델에 포함된 오픈 월드 지식에 접근할 수 있습니다. 합성 OOD 샘플은 가벼운 플러그 앤 플레이 OOD 감지기의 교육을 보강하는 데 사용되어, 결과적으로 분포 내(ID)/OOD 결정 경계를 효과적으로 최적화합니다. 다양한 벤치마크를 통한 광범위한 실험 결과, SyncOOD가 기존 방법을 크게 능가하여 최소한의 합성 데이터 사용으로 새로운 최신 기술 성능을 확립함을 입증합니다.