번역이 포함된 일일 선별된 AI 연구 논문
정규 표면 매핑은 객체의 각 픽셀을 3D 템플릿의 해당 점에 할당함으로써 키포인트 검출을 일반화합니다. 인간 분석을 위한 DensePose로 대중화된 이후, 저자들은 이 개념을 더 많은 범주에 적용하려 시도했지만, 수동 감독의 높은 비용으로 인해 제한된 성공을 거두었습니다. 본 연구에서는 수동 감독 없이 정규 맵을 학습하는 SHIC 방법을 소개하며, 대부분의 범주에서 감독 방법보다 더 나은 결과를 달성합니다. 우리의 아이디어는 DINO와 Stable Diffusion과 같은 기초 컴퓨터 비전 모델을 활용하는 것입니다. 이러한 모델은 개방형이므로 자연 범주에 대한 우수한 사전 지식을 가지고 있습니다. SHIC는 기초 모델의 특징을 사용하여 이미지-템플릿 대응 관계를 추정하는 문제를 이미지-이미지 대응 관계 예측으로 축소합니다. 이 축소는 객체의 이미지를 템플릿의 비사실적 렌더링과 매칭함으로써 이루어지며, 이는 이 작업을 위한 수동 주석 수집 과정을 모방합니다. 이러한 대응 관계는 관심 객체에 대한 고품질 정규 맵을 감독하는 데 사용됩니다. 또한, 이미지 생성기가 템플릿 뷰의 사실성을 더욱 향상시킬 수 있음을 보여주며, 이는 모델에 대한 추가적인 감독 소스를 제공합니다.
일상적인 디지털 작업(예: 가정용 식료품 주문)을 처리하는 자율 에이전트는 API를 통해 여러 앱(예: 메모, 메시징, 쇼핑 앱)을 조작할 뿐만 아니라, 환경과의 상호작용을 기반으로 반복적으로 복잡한 제어 흐름을 가진 풍부한 코드를 생성해야 합니다. 그러나 기존의 도구 사용 벤치마크는 단순한 API 호출 시퀀스만을 요구하는 작업만을 다루기 때문에 부적합합니다. 이러한 격차를 해소하기 위해, 우리는 457개의 API를 통해 작동하는 9개의 일상 앱과 약 100명의 가상 사용자들의 삶을 시뮬레이션한 현실적인 디지털 활동으로 구성된 고품질 실행 환경인 AppWorld Engine(6만 줄의 코드)을 구축했습니다. 또한, 우리는 풍부하고 상호작용적인 코드 생성을 요구하는 750개의 자연스럽고 다양하며 도전적인 자율 에이전트 작업으로 구성된 AppWorld Benchmark(4만 줄의 코드)를 개발했습니다. 이 벤치마크는 상태 기반 단위 테스트를 통해 강력한 프로그래밍 평가를 지원하며, 작업을 완료하는 다양한 방법을 허용하면서도 예기치 않은 변경(즉, 부수적 손상)을 확인합니다. 최첨단 LLM인 GPT-4o는 우리의 '일반' 작업 중 약 49%, '도전' 작업 중 약 30%만 해결하며, 다른 모델들은 최소 16% 더 적은 작업을 해결합니다. 이는 벤치마크의 난이도와 AppWorld가 상호작용 코딩 에이전트의 한계를 넓힐 잠재력을 강조합니다. 프로젝트 웹사이트는 https://appworld.dev/에서 확인할 수 있습니다.
우리는 정확한 비디오 캡셔닝을 위한 WOrLd 요약 프레임워크인 Wolf를 제안합니다. Wolf는 Vision Language Models(VLMs)의 상호 보완적인 강점을 활용한 전문가 혼합(mixture-of-experts) 접근 방식을 채택한 자동 캡셔닝 프레임워크입니다. 이미지와 비디오 모델을 모두 활용함으로써, 우리의 프레임워크는 다양한 수준의 정보를 포착하고 이를 효율적으로 요약합니다. 이 접근 방식은 비디오 이해, 자동 라벨링, 캡셔닝을 향상시키는 데 적용될 수 있습니다. 캡션 품질을 평가하기 위해, 우리는 생성된 캡션과 실제 캡션 간의 유사성과 품질을 평가하기 위한 LLM 기반 메트릭인 CapScore를 도입했습니다. 또한, 자율 주행, 일반 장면, 로보틱스라는 세 가지 도메인에서 인간이 주석을 단 네 가지 데이터셋을 구축하여 포괄적인 비교를 가능하게 했습니다. 우리는 Wolf가 연구 커뮤니티(VILA1.5, CogAgent)와 상업적 솔루션(Gemini-Pro-1.5, GPT-4V)의 최신 접근 방식보다 우수한 캡셔닝 성능을 달성함을 보여줍니다. 예를 들어, GPT-4V와 비교했을 때, Wolf는 도전적인 주행 비디오에서 CapScore를 품질 측면에서 55.6%, 유사성 측면에서 77.4% 향상시켰습니다. 마지막으로, 우리는 비디오 캡셔닝을 위한 벤치마크를 구축하고 리더보드를 도입하여 비디오 이해, 캡셔닝, 데이터 정렬 분야의 발전을 가속화하고자 합니다. 리더보드: https://wolfv0.github.io/leaderboard.html.
본 논문에서는 텍스트 검색을 위한 장문 다국어 텍스트 표현 모델(TRM)과 리랭커를 처음부터 구축하기 위한 체계적인 노력을 소개합니다. 먼저, RoPE와 언패딩을 통해 강화된 텍스트 인코더(베이스 크기)를 도입했으며, 이는 기존 다국어 인코더의 512 토큰보다 긴 8192 토큰의 컨텍스트에서 사전 학습되었습니다. 이후, 대조 학습을 통해 하이브리드 TRM과 크로스-인코더 리랭커를 구성했습니다. 평가 결과, 우리의 텍스트 인코더는 동일 크기의 이전 최신 모델인 XLM-R을 능가하는 성능을 보였습니다. 동시에, 우리의 TRM과 리랭커는 대형 최신 BGE-M3 모델의 성능에 필적하며, 장문 컨텍스트 검색 벤치마크에서 더 나은 결과를 달성했습니다. 추가 분석을 통해 제안된 모델이 학습과 추론 과정에서 더 높은 효율성을 보임을 입증했습니다. 우리는 이러한 효율성과 효과가 다양한 연구 및 산업 응용에 기여할 수 있을 것으로 기대합니다.
펜 형태의 물체를 손 안에서 조작하는 능력은 일상생활에서 중요한 기술입니다. 망치나 드라이버와 같은 많은 도구들이 유사한 형태를 가지고 있기 때문입니다. 그러나 현재의 학습 기반 방법들은 고품질 데모 데이터의 부족과 시뮬레이션과 실제 세계 간의 상당한 차이로 인해 이 작업에 어려움을 겪고 있습니다. 본 연구에서는 학습 기반 손 내 조작 시스템의 한계를 넘어, 펜 형태의 물체를 회전시키는 능력을 입증합니다. 먼저, 강화 학습을 사용하여 특권 정보를 가진 오라클 정책을 훈련하고 시뮬레이션에서 고품질 궤적 데이터셋을 생성합니다. 이는 두 가지 목적을 제공합니다: 1) 시뮬레이션에서 감각운동 정책을 사전 훈련; 2) 실제 세계에서 개방 루프 궤적 재생. 그런 다음, 이러한 실제 세계 궤적을 사용하여 감각운동 정책을 미세 조정하여 실제 세계의 역학에 적응시킵니다. 50개 미만의 궤적으로, 우리의 정책은 다양한 물리적 특성을 가진 10개 이상의 펜 형태 물체를 여러 바퀴 회전시키는 방법을 학습합니다. 우리는 설계 선택에 대한 포괄적인 분석을 제시하고 개발 과정에서 얻은 교훈을 공유합니다.
비전 트랜스포머(Vision Transformers)는 컴퓨터 비전 분야에서 글로벌 수용 필드와 강력한 모델링 능력을 제공하며 큰 발전을 이루었습니다. 그러나 긴 시퀀스 처리에서의 높은 계산 요구량으로 인해 적용 가능성이 제한됩니다. 이를 해결하기 위해 상태 공간 모델(State Space Models, SSMs)이 선형 계산 복잡도를 제공하며 비전 작업에서 주목받고 있습니다. 최근 Mamba2에서 SSM의 개선된 변형인 상태 공간 이중성(State Space Duality, SSD)이 도입되어 모델 성능과 효율성을 향상시켰습니다. 그러나 SSD/SSM의 본질적인 인과적 특성은 비인과적 비전 작업에서의 적용을 제한합니다. 이러한 한계를 해결하기 위해, 우리는 SSD의 비인과적 형태를 갖는 비주얼 상태 공간 이중성(Visual State Space Duality, VSSD) 모델을 제안합니다. 구체적으로, 우리는 숨겨진 상태와 토큰 간 상호작용의 크기를 제거하면서 상대적 가중치를 보존하여 토큰 기여도가 이전 토큰에 의존하는 문제를 완화합니다. 다중 스캔 전략을 함께 적용함으로써, 스캔 결과를 통합하여 비인과성을 달성할 수 있음을 보여주며, 이는 SSD의 비전 작업 성능을 향상시킬 뿐만 아니라 효율성도 높입니다. 우리는 이미지 분류, 탐지, 세그멘테이션을 포함한 다양한 벤치마크에서 광범위한 실험을 수행하였으며, VSSD는 기존의 최첨단 SSM 기반 모델을 능가하는 성능을 보였습니다. 코드와 가중치는 https://github.com/YuHengsss/VSSD에서 확인할 수 있습니다.
단일 이미지에서의 3D 객체 재구성 기술의 최근 발전은 주로 객체 형태의 정확도 향상에 초점을 맞추어 왔습니다. 그러나 이러한 기술들은 종종 객체, 지면, 카메라 간의 상호 관계를 정확히 포착하지 못합니다. 그 결과, 재구성된 객체들은 평평한 표면 위에 놓일 때 공중에 떠 있거나 기울어진 것처럼 보이는 문제가 발생합니다. 이러한 한계는 그림자 렌더링 및 객체 자세 조작과 같은 3D 인식 이미지 편집 애플리케이션에 큰 영향을 미칩니다. 이 문제를 해결하기 위해, 우리는 지면과 함께 3D 객체 기하학을 재구성하는 새로운 과제인 ORG(Object Reconstruction with Ground)를 제안합니다. 우리의 방법은 카메라, 객체, 지면 간의 관계를 나타내기 위해 두 가지 간결한 픽셀 수준 표현을 사용합니다. 실험 결과, 제안된 ORG 모델은 기존의 단일 이미지 3D 재구성 기술에 비해 보이지 않는 데이터에서도 객체-지면 기하학을 효과적으로 재구성할 수 있으며, 그림자 생성과 자세 조작의 품질을 크게 향상시킬 수 있음을 보여줍니다.