번역이 포함된 일일 선별된 AI 연구 논문
오늘날 가장 선진한 다중 모달 모델들은 여전히 독점적입니다. 가장 강력한 오픈 가중치 모델들은 좋은 성능을 달성하기 위해 독점적인 VLM으로부터의 합성 데이터에 크게 의존하며, 이를 효과적으로 폐쇄된 모델들을 오픈으로 변환합니다. 결과적으로, 커뮤니티는 여전히 처음부터 성능이 우수한 VLM을 구축하는 방법에 대한 기본적인 지식이 부족합니다. 저희는 Molmo를 제시합니다. 이는 해당 개방성 클래스에서 최첨단인 VLM의 새로운 패밀리입니다. 저희의 주요 혁신은 음성 기반 설명을 사용하여 인간 주석자들에 의해 완전히 수집된 혁신적이고 매우 상세한 이미지 캡션 데이터셋입니다. 다양한 사용자 상호작용을 가능하게 하기 위해, 우리는 또한 인-더-와일드 Q&A 및 혁신적인 2D 포인팅 데이터를 포함한 다양한 데이터셋 혼합을 소개합니다. 저희 방법의 성공은 모델 아키텍처 세부 사항에 대한 신중한 선택, 잘 조정된 훈련 파이프라인, 그리고 가장 중요한 것은 새롭게 수집된 데이터셋의 품질에 의존합니다. 이 모든 것들은 공개될 것입니다. Molmo 패밀리 내 최고 수준의 72B 모델은 오픈 가중치 및 데이터 모델 클래스에서 다른 모델들을 능가할 뿐만 아니라 GPT-4o, Claude 3.5, Gemini 1.5와 같은 독점 시스템들과 학술적 벤치마크 및 인간 평가에서 유리한 비교를 제공합니다. 우리는 곧 모든 모델 가중치, 캡션 및 세밀한 조정 데이터, 그리고 소스 코드를 공개할 예정입니다. 일부 모델 가중치, 추론 코드, 그리고 데모는 https://molmo.allenai.org에서 이용 가능합니다.
대형 언어 모델 사전 훈련은 기존에는 인간 전문가가 말뭉치 품질을 향상시키기 위한 휴리스틱을 만들어 왔으며, 이로 인해 현재까지 다양한 규칙이 개발되었습니다. 그러나 이러한 규칙들은 개별 예제의 고유한 특성을 효과적으로 다루기에는 유연성이 부족합니다. 한편, 맞춤형 규칙을 각 예제에 적용하는 것은 인간 전문가에게는 비현실적입니다. 본 논문에서는 0.3B 매개변수만 있는 소형 언어 모델조차도 인간 전문가의 데이터 정제 능력과 유사한 상당한 능력을 발휘할 수 있다는 것을 증명합니다. 우리는 '모든 예제 프로그래밍(ProX)'이라는 새로운 프레임워크를 소개합니다. 이 프레임워크는 데이터 정제를 프로그래밍 작업으로 취급하여 모델이 각각의 예제에 대해 문자열 표준화와 같은 세부적인 작업을 생성하고 실행함으로써 규모에 맞게 말뭉치를 정제할 수 있게 합니다. 실험 결과는 ProX로 정제된 데이터에서 사전 훈련된 모델이 다양한 하향 벤치마크에서 다른 선택 방법으로 걸러낸 원본 데이터보다 2% 이상 우수한 성능을 보인다는 것을 보여줍니다. ProX의 효과는 C4, RedPajama-V2, FineWeb을 포함한 다양한 모델 크기와 사전 훈련 말뭉치에 걸쳐 확장됩니다. 또한 ProX는 도메인별 지속적 사전 훈련에서 상당한 잠재력을 보여줍니다. 도메인 특정 설계 없이 ProX로 정제된 OpenWebMath에서 훈련된 모델은 Mistral-7B보다 평균 정확도를 7.6% 향상시키며, Llama-2-7B에 대해서는 14.6%, CodeLlama-7B에 대해서는 20.3% 향상시킵니다. 이는 200B 토큰에 훈련된 Llemma-7B와 같은 모델과 비교 가능한 10B 토큰으로 이루어진 모델입니다. 추가 분석 결과 ProX는 훈련 FLOP를 상당히 절약하며, 효율적인 LLM 사전 훈련을 위한 유망한 방법을 제시합니다. 우리는 ProX를 100B 이상의 말뭉치, 모델과 함께 오픈소스로 공개하고, 재현 가능한 연구와 미래 혁신을 위해 모든 훈련 및 구현 세부 정보를 공유합니다. 코드: https://github.com/GAIR-NLP/ProX
대형 언어 모델(Large Language Models, LLMs)은 자연어 처리에서 놀라운 능력을 보여주었지만, 그들의 사실적인 부정확성과 환각은 특히 의료와 같은 중요한 영역에서의 응용을 제한하고 있다. 문맥 검색 방법은 관련 정보를 입력으로 도입함으로써 LLM의 사실성과 신뢰성을 향상시키는 중요한 접근법으로 부상했다. 본 연구는 의료 분야 내에서 문맥 검색 방법의 한계를 탐구하며, 그 구성 요소를 최적화하고 성능을 오픈 및 폐쇄 대안과의 비교를 통해 측정하였다. 우리의 연구 결과는 최적화된 검색 시스템으로 보강된 오픈 LLM이 확립된 의료 벤치마크(다지선다식 질문 응답)에서 가장 큰 사설 솔루션과 비슷한 성능을 달성할 수 있다는 것을 보여준다. 질문 내에 가능한 답변을 포함하는 현실성의 부족을 인식하고(이는 의학 시험에서만 발견되는 설정이다), 그러한 옵션 없이 강력한 LLM 성능 저하를 평가한 후, 우리는 그 방향으로 문맥 검색 시스템을 확장한다. 특히, 우리는 보다 신뢰할 수 있는 개방형 답변 생성을 개선하는 OpenMedPrompt 파이프라인을 제안하여, 이 기술을 실용적인 응용에 더 가깝게 이끈다.
사전 훈련된 2D 확산 모델과 점수 증류 샘플링(SDS)을 활용하여 최근의 방법들은 텍스트로부터 3D 아바타를 생성하는 데 유망한 결과를 보여주었습니다. 그러나 표현력 있는 애니메이션을 할 수 있는 고품질 3D 아바타를 생성하는 것은 여전히 어려운 과제입니다. 본 연구에서는 텍스트로부터 애니메이션 가능한 3D 아바타 생성을 위한 새로운 학습 프레임워크인 DreamWaltz-G를 제안합니다. 이 프레임워크의 핵심은 스켈레톤 안내 점수 증류와 하이브리드 3D 가우시안 아바타 표현에 있습니다. 구체적으로 제안된 스켈레톤 안내 점수 증류는 3D 인간 템플릿에서의 스켈레톤 제어를 2D 확산 모델에 통합하여 SDS 감독의 일관성을 향상시킴으로써 시야와 인간 자세 측면에서 SDS 감독의 일관성을 향상시킵니다. 이는 고품질 아바타를 생성하여 다중 얼굴, 추가된 팔다리, 흐릿함과 같은 문제를 완화시킵니다. 제안된 하이브리드 3D 가우시안 아바타 표현은 효율적인 3D 가우시안을 기반으로 하며, 신경 임플리시트 필드와 매개변수화된 3D 메쉬를 결합하여 실시간 렌더링, 안정적인 SDS 최적화 및 표현력 있는 애니메이션을 가능하게 합니다. 광범위한 실험 결과는 DreamWaltz-G가 고품질의 3D 아바타를 생성하고 애니메이션화하는 데 매우 효과적이며 시각적 품질과 애니메이션 표현력 측면에서 기존 방법들을 능가한다는 것을 입증합니다. 우리의 프레임워크는 인간 비디오 재연 및 다중 주제 씬 구성을 포함한 다양한 응용을 지원합니다.
최근의 미분 가능 및 신경 렌더링 기술의 발전은 새로운 시각 합성, 3D 재구성 등 다양한 2D 및 3D 작업에서 놀라운 진전을 이루었습니다. 일반적으로 미분 가능 렌더링은 장면의 밀도 높은 시점 커버리지에 의존하여 기하학적 구조를 외관 관측만으로 명확히 할 수 있습니다. 그러나 입력 뷰가 적을 때 여러 어려움이 발생하며 이를 희소 또는 희소 샷 신경 렌더링이라고 합니다. 이는 불충분한 제약 조건으로, 대부분의 기존 접근 방식은 정규화의 사용을 도입하고 학습 및 수동으로 만든 사전의 다양성과 함께 사용합니다. 희소 렌더링 문헌에서 반복되는 문제는 동질적이고 최신의 데이터셋 및 평가 프로토콜의 부재입니다. 밀도 높은 재구성 문헌에서 고해상도 데이터셋이 표준이지만, 희소 렌더링 방법은 종종 저해상도 이미지로 평가합니다. 또한 데이터 분할은 다른 논문 간에 일관성이 없으며, 테스트의 실제 이미지는 공개적으로 사용 가능하여 과적합을 유발할 수 있습니다. 본 연구에서는 Sparse Rendering (SpaRe) 데이터셋과 벤치마크를 제안합니다. 우리는 DTU MVS 데이터셋의 설정을 따르는 새로운 데이터셋을 소개합니다. 이 데이터셋은 합성된 고품질 에셋을 기반으로 한 97개의 새로운 장면으로 구성되어 있습니다. 각 장면은 최대 64개의 카메라 뷰와 7개의 조명 구성을 가지며, 1600x1200 해상도로 렌더링되었습니다. 우리는 82개의 장면으로 구성된 훈련 분할을 공개하여 일반화 가능한 접근 방식을 촉진하고, 검증 및 테스트 세트를 위한 온라인 평가 플랫폼을 제공하였습니다. 이들의 실제 이미지는 숨겨져 있습니다. 우리는 각각 3개 및 9개의 입력 이미지로 구성된 두 가지 다른 희소 구성을 제안합니다. 이는 재현 가능한 평가를 위한 강력하고 편리한 도구를 제공하며, 연구자들이 최신 성능 점수를 갖춘 공개 리더보드에 쉽게 접근할 수 있도록 합니다. 이용 가능한 링크: https://sparebenchmark.github.io/
확산 기반 이미지 초해상도 (SR) 방법은 대규모 사전 훈련된 텍스트-이미지 확산 모델을 이용하여 뛰어난 성과를 거두었습니다. 그러나 이러한 방법은 여전히 두 가지 문제에 직면하고 있습니다: 만족스러운 결과를 얻기 위해 수십 단계의 샘플링이 필요한 점은 실제 시나리오에서 효율성을 제한하며, 초해상도 문제 해결에 중요한 보조 정보인 손상 모델을 무시하는 문제가 있습니다. 본 연구에서는 확산 기반 SR 방법의 효율성 문제를 크게 해결하는 새로운 단계별 SR 모델을 소개했습니다. 기존의 미세 조정 전략과는 달리, 저해상도 이미지로부터 사전 추정된 손상 정보를 기반으로 모델 매개변수를 보정하는 SR 전용 저랭크 적응 (LoRA) 모듈을 설계했습니다. 이 모듈은 강력한 데이터 종속 또는 손상 종속 SR 모델을 용이하게 하면서 사전 훈련된 확산 모델의 생성 우선순위를 최대한 보존합니다. 더불어 온라인 부정 샘플 생성 전략을 도입하여 새로운 훈련 파이프라인을 맞춤화했습니다. 추론 중에는 분류기 없는 가이드 전략을 결합하여 초해상도 결과물의 인지적 품질을 크게 향상시켰습니다. 광범위한 실험을 통해 제안된 모델이 최근 최첨단 방법과 비교하여 우수한 효율성과 효과를 입증했습니다.
물리적으로 시뮬레이션된 손에 대한 미숙한 동작을 합성하는 새로운 방법을 제안합니다. 이 방법은 두 손을 제어하는 작업에서 높은 시간적 정밀도를 요구하는 작업에서 협조 제어를 통해 이루어집니다. 두 손을 제어하기 위한 공동 정책을 직접 학습하는 대신, 우리의 방법은 각 손을 개별 에이전트로 취급하여 협력 학습을 수행합니다. 각 손에 대한 개별 정책은 먼저 별도로 훈련되고, 그런 다음 중앙 환경에서 잠재 공간 조작을 통해 동기화되어 두 손 제어의 공동 정책으로 작용합니다. 이를 통해 두 손의 공동 상태-행동 공간에서 정책 학습을 직접 수행하는 것을 피하며, 전반적인 훈련 효율성을 크게 향상시킵니다. 우리는 제안한 방법의 효과를 증명하기 위해 어려운 기타 연주 작업에서 시연합니다. 우리의 방법으로 훈련된 가상 기타 연주자는 일반 기타 연주 연습 동작의 구조화되지 않은 참조 데이터에서 동작을 합성하고, 참조 데이터에는 없는 입력 기타 탭을 기반으로 복잡한 코드 누르기 및 줄 선택 패턴으로 다양한 리듬을 정확하게 연주할 수 있습니다. 본 논문과 함께 정책 훈련을 위한 참조로 수집한 모션 캡처 데이터를 제공합니다. 코드는 다음에서 확인할 수 있습니다: https://pei-xu.github.io/guitar.
대규모 언어 모델 (LLM)은 소프트웨어 공학 (SE)을 혁신적으로 변화시켜 왔으며, 다양한 코딩 작업에서 놀라운 능력을 보여주고 있습니다. 최근의 노력들은 LLM을 기반으로 한 자율 소프트웨어 에이전트를 만들어 end-to-end 개발 작업을 수행하였지만, 이러한 시스템들은 일반적으로 특정 SE 작업을 위해 설계됩니다. 우리는 HyperAgent를 소개합니다. 이는 새로운 종류의 다목적 다중 에이전트 시스템으로, 다양한 프로그래밍 언어를 통해 SE 작업의 넓은 스펙트럼을 다루기 위해 인간 개발자의 작업 흐름을 모방합니다. Planner, Navigator, Code Editor, 그리고 Executor로 구성된 네 가지 특화된 에이전트를 포함하고 있습니다. HyperAgent는 SE 작업의 초기 개념부터 최종 검증까지의 전체 수명주기를 관리합니다. 광범위한 평가를 통해 HyperAgent는 다양한 SE 작업에서 최첨단 성능을 달성합니다: SWE-Bench-Lite에서 25.01%의 성공률과 SWE-Bench-Verified에서 31.40%의 성과를 거두어 GitHub 이슈 해결에서 기존 방법을 능가합니다. 더 나아가, HyperAgent는 저장소 수준의 코드 생성 (RepoExec) 및 결함 위치 식별 및 프로그램 수리 (Defects4J)에서 최첨단 성능을 보여주며 종종 전문 시스템을 능가합니다. 본 연구는 다양한 도메인과 언어를 통해 복잡하고 다단계 SE 작업을 처리할 수 있는 다재다능하고 자율적인 에이전트로의 중요한 발전을 나타내며, 이는 AI 지원 소프트웨어 개발 방법을 변화시킬 수 있는 잠재력을 지닙니다.
동영상은 정보 공유 및 소비를 위한 인기 있는 미디어 형식이 되었습니다. 그러나 동영상을 시청하면서 필기하는 것은 상당한 시간과 노력이 필요합니다. 이에 대응하기 위해 우리는 실시간으로 개인화된 노트를 작성하는 혁신적인 대화형 시스템 NoTeeline을 제안합니다. NoTeeline을 사용하면 사용자가 빠르게 중요한 지점(마이크로 노트)을 메모할 수 있으며, 이는 자동으로 전체 노트로 확장되어 사용자의 마이크로 노트 내용을 포착하고 사용자의 쓰기 스타일과 일관성을 유지합니다. 주관자 내 연구(N=12)에서 NoTeeline을 사용하면 사용자가 마이크로 노트의 본질을 높은 사실적 정확도(93.2%)로 포착하는 데 도움이 되며, 사용자의 쓰기 스타일을 정확하게 반영합니다. NoTeeline을 사용하는 동안 참가자들은 정신적 노력을 크게 줄이고, 47% 더 적은 텍스트를 쓰면서 만족스러운 노트를 작성하며, 수동 노트 작성 기준에 비해 43.9% 더 적은 시간으로 노트 작성을 완료했습니다.
UAV를 위한 시각 기반 지리 위치 기술은 전역 항법 위성 시스템(GNSS)에 추가된 GPS 정보의 보조원으로 작용하여 GPS가 차단된 환경에서도 독립적으로 작동할 수 있습니다. 최근의 딥러닝 기반 방법은 이를 이미지 매칭 및 검색 작업으로 설명합니다. 지리 태그가 지정된 위성 이미지 데이터베이스에서 드론 뷰 이미지를 검색함으로써 근사한 위치 정보를 얻을 수 있습니다. 그러나 높은 비용과 개인정보 보호 문제로 인해 연속적인 지역에서 대량의 드론 뷰 이미지를 얻는 것은 일반적으로 어렵습니다. 기존의 드론 뷰 데이터셋은 주로 완벽한 일대일 정렬된 참조 이미지가 쿼리에 대해 존재한다는 강력한 가정 하에 소규모 항공 사진으로 구성되어 있어 실제 위치 지정 시나리오와 상당한 차이가 있습니다. 본 연구에서는 최신 컴퓨터 게임을 활용하여 다양한 비행 고도, 자세, 장면 및 대상을 특징으로 하는 대규모 연속 지역 UAV 지리 위치 데이터셋인 GTA-UAV를 구축합니다. 이 데이터셋을 기반으로 부분적인 교차 뷰 페어 데이터의 일치와 이미지 수준의 검색을 거리(미터) 측면에서 실제 위치 지정으로 확장하는 보다 실용적인 UAV 지리 위치 작업을 소개합니다. 드론 뷰와 위성 뷰 페어의 구성을 위해 가중치 기반 대조 학습 접근 방식을 채택하여 추가 후처리 일치 단계를 피하면서 효과적인 학습이 가능합니다. 실험 결과는 우리의 데이터 및 교육 방법이 UAV 지리 위치에 대한 효과성과 실제 세계 시나리오로의 일반화 능력을 입증합니다.
우리는 단안 비디오로부터 전신을 말하는 인간의 동적 신경 광도장 필드(NeRF)를 학습하는 혁신적인 프레임워크를 소개합니다. 이전 연구는 몸의 자세나 얼굴만을 표현했습니다. 그러나 인간은 몸의 자세, 손 제스처, 그리고 얼굴 표정을 결합하여 전신으로 의사소통합니다. 본 연구에서는 전체적인 4D 인간 동작을 표현하는 통합 NeRF 기반 네트워크인 TalkinNeRF를 제안합니다. 주어진 주체의 단안 비디오로부터 몸, 얼굴, 손에 대한 해당 모듈을 학습하고 이를 결합하여 최종 결과물을 생성합니다. 복잡한 손가락 움직임을 포착하기 위해 손에 대한 추가 변형 필드를 학습합니다. 다중 신원 표현은 여러 주체에 대한 동시 학습과 완전히 새로운 자세에서도 견고한 애니메이션을 가능하게 합니다. 또한 입력으로 단지 짧은 비디오만을 제공하면 새로운 신원에 대해 일반화할 수 있습니다. 우리는 세밀한 손가락 움직임과 얼굴 표정을 가진 전신을 말하는 인간을 애니메이션화하는 최첨단 성능을 시연합니다.
우리는 Tracking Any Point (TAP) 문제에 대한 간단하고 자기 지도 학습 방법을 제안합니다. 우리는 전역 일치 변환기를 훈련시켜 비디오를 통해 대조적인 랜덤 워크를 사용하여 사이클 일관성 있는 트랙을 찾도록 하며, 변환기의 주의 기반 전역 일치를 사용하여 공간-시간 그래프 상의 랜덤 워크를 위한 전이 행렬을 정의합니다. 점들 간의 "모든 쌍" 비교를 수행할 수 있는 능력은 모델이 높은 공간적 정밀도를 얻고 강력한 대조적 학습 신호를 얻을 수 있도록 하며, 최근의 접근법들의 복잡성을 피할 수 있습니다(예: 굵은-세밀 일치). 이를 위해 우리는 전역 일치 구조를 자기 지도를 통해 사이클 일관성을 사용하여 훈련할 수 있도록 하는 여러 디자인 결정을 제안합니다. 예를 들어, 우리는 변환기 기반 방법이 단축풀 솔루션에 민감하다는 것을 확인하고 그것들을 해결하기 위한 데이터 증강 체계를 제안합니다. 우리의 방법은 TapVid 벤치마크에서 강력한 성능을 달성하며, DIFT와 같은 이전의 자기 지도 추적 방법을 능가하며, 여러 지도 방법과 경쟁력을 갖습니다.