번역이 포함된 일일 선별된 AI 연구 논문
카메라 제어는 텍스트 또는 이미지 조건 하의 비디오 생성 작업에서 활발히 연구되어 왔습니다. 그러나 주어진 비디오의 카메라 궤적을 변경하는 것은 비디오 제작 분야에서 중요함에도 불구하고 아직 충분히 탐구되지 않았습니다. 이는 다중 프레임의 외관과 동적 동기화를 유지해야 하는 추가적인 제약으로 인해 사소하지 않은 과제입니다. 이를 해결하기 위해, 우리는 입력 비디오의 동적 장면을 새로운 카메라 궤적에서 재현하는 카메라 제어 생성 비디오 재렌더링 프레임워크인 ReCamMaster를 제안합니다. 핵심 혁신은 사전 훈련된 텍스트-투-비디오 모델의 생성 능력을 단순하지만 강력한 비디오 조건 메커니즘을 통해 활용하는 데 있습니다. 이 능력은 현재 연구에서 종종 간과되고 있습니다. 적합한 훈련 데이터의 부족을 극복하기 위해, 우리는 Unreal Engine 5를 사용하여 다양한 장면과 카메라 움직임을 다루며 현실 세계의 촬영 특성을 따르도록 신중하게 선별된 다중 카메라 동기화 비디오 데이터셋을 구축했습니다. 이는 모델이 실제 환경의 비디오에 일반화할 수 있도록 돕습니다. 마지막으로, 우리는 세심하게 설계된 훈련 전략을 통해 다양한 입력에 대한 견고성을 더욱 개선했습니다. 광범위한 실험을 통해 우리의 방법이 기존의 최첨단 접근법과 강력한 베이스라인을 크게 능가함을 확인했습니다. 또한, 우리의 방법은 비디오 안정화, 초해상도, 아웃페인팅 등에서 유망한 응용 가능성을 보여줍니다. 프로젝트 페이지: https://jianhongbai.github.io/ReCamMaster/
우리는 엔드투엔드 문서 변환을 목표로 하는 초소형 비전-언어 모델인 SmolDocling을 소개한다. 우리의 모델은 페이지 전체를 포괄적으로 처리하며, 모든 페이지 요소를 위치 정보와 함께 전체 맥락에서 포착하는 새로운 범용 마크업 형식인 DocTags를 생성한다. 대형 기반 모델에 의존하거나 여러 전문화된 모델로 구성된 수작업 파이프라인에 의존하는 기존 접근 방식과 달리, SmolDocling은 256M 파라미터의 비전-언어 모델 내에서 문서 요소의 내용, 구조, 공간적 위치를 정확하게 포착하는 엔드투엔드 변환을 제공한다. SmolDocling은 비즈니스 문서, 학술 논문, 기술 보고서, 특허, 양식 등 다양한 문서 유형에 걸쳐 코드 목록, 표, 수식, 차트, 목록 등의 문서 기능을 정확하게 재현하는 강력한 성능을 보여주며, 일반적으로 과학 논문에 초점을 맞추는 경향을 크게 확장한다. 또한, 우리는 차트, 표, 수식, 코드 인식을 위한 새로운 공개 소스 데이터셋을 제공한다. 실험 결과는 SmolDocling이 크기가 최대 27배 큰 다른 비전-언어 모델들과 경쟁하면서도 계산 요구 사항을 상당히 줄이는 것을 보여준다. 이 모델은 현재 사용 가능하며, 데이터셋은 곧 공개될 예정이다.
디퓨전 모델은 Classifier-Free Guidance(CFG)와 같은 가이던스 기법을 사용하여 고품질의 조건부 샘플을 생성하는 데 있어 인상적인 결과를 보여주었습니다. 그러나 기존 방법들은 추가적인 학습이나 신경망 함수 평가(NFEs)를 필요로 하기 때문에 가이던스 증류 모델과 호환되지 않는 경우가 많습니다. 또한, 이들은 특정 타겟 레이어를 식별해야 하는 휴리스틱 접근 방식에 의존합니다. 본 연구에서는 PLADIS라는 새로운 효율적인 방법을 제안하며, 이는 희소 주의(sparse attention)를 활용하여 사전 학습된 모델(U-Net/Transformer)의 성능을 향상시킵니다. 구체적으로, 우리는 추론 과정에서 교차 주의(cross-attention) 레이어 내에서 소프트맥스(softmax)와 그 희소 버전을 사용하여 쿼리-키 상관관계를 외삽하며, 추가적인 학습이나 NFEs를 필요로 하지 않습니다. 희소 주의의 노이즈 강건성을 활용함으로써, PLADIS는 텍스트-이미지 디퓨전 모델의 잠재력을 극대화하여, 이전에는 어려움을 겪었던 영역에서도 새로운 효과를 발휘할 수 있게 합니다. 이 방법은 가이던스 증류 모델을 포함한 다양한 가이던스 기법과 원활하게 통합됩니다. 광범위한 실험을 통해 텍스트 정렬 및 인간 선호도 측면에서 뚜렷한 개선을 확인하였으며, 이는 매우 효율적이고 보편적으로 적용 가능한 솔루션을 제공합니다.
대규모 언어 모델(LLMs)은 단순한 텍스트 생성 기능을 넘어 자연어 명령을 직접적인 행동으로 변환하는 소프트웨어 에이전트를 구동하는 수준으로 진화했습니다. API 기반 LLM 에이전트는 강력한 자동화 기능과 프로그래밍적 엔드포인트와의 원활한 통합으로 초기에 주목받았지만, 최근 멀티모달 LLM 연구의 진전으로 그래픽 사용자 인터페이스(GUI)와 인간과 유사한 방식으로 상호작용하는 GUI 기반 LLM 에이전트가 가능해졌습니다. 이 두 패러다임은 LLM 기반 작업 자동화를 목표로 한다는 공통점이 있지만, 아키텍처 복잡성, 개발 워크플로우, 사용자 상호작용 모델 측면에서 상당한 차이를 보입니다. 본 논문은 API 기반과 GUI 기반 LLM 에이전트를 최초로 포괄적으로 비교 분석한 연구로, 이들의 차이점과 잠재적인 융합 가능성을 체계적으로 검토합니다. 주요 차원을 살펴보고, 하이브리드 접근 방식이 상호 보완적 강점을 활용할 수 있는 시나리오를 강조합니다. 명확한 의사결정 기준을 제안하고 실질적인 사용 사례를 제시함으로써, 실무자와 연구자들이 이러한 패러다임을 선택, 결합 또는 전환하는 데 도움을 주고자 합니다. 궁극적으로, LLM 기반 자동화의 지속적인 혁신이 API와 GUI 기반 에이전트 간의 경계를 흐리게 하여, 다양한 실제 애플리케이션에서 더 유연하고 적응적인 솔루션을 위한 길을 열 것으로 전망합니다.
데이터의 양보다 질이 더 중요한 데이터 효율성 추구는, 특히 실제 세계 데이터 수집과 관련된 높은 비용을 고려할 때, 로봇 매니퓰레이션 분야의 핵심 요소로 부상했습니다. 우리는 개별 데모의 정보 밀도를 극대화함으로써 대규모 데이터셋에 대한 의존을 크게 줄이면서도 작업 성능을 향상시킬 수 있다고 제안합니다. 이를 위해, 우리는 실시간 양방향 인간-환경 상호작용을 통해 로봇 데이터 수집을 재정의하는 인간-루프(Human-in-the-Loop, HiL) 프레임워크인 적대적 데이터 수집(Adversarial Data Collection, ADC)을 소개합니다. 정적 데모를 수동적으로 기록하는 기존의 파이프라인과 달리, ADC는 협력적 교란 패러다임을 채택합니다: 단일 에피소드 동안, 적대적 운영자는 물체 상태, 환경 조건, 언어적 명령을 동적으로 변경하고, 원격 운영자는 이러한 변화하는 도전을 극복하기 위해 적응적으로 행동을 조정합니다. 이 과정은 다양한 실패-복구 행동, 구성적 작업 변형, 환경 교란을 최소한의 데모로 압축합니다. 우리의 실험은 ADC로 훈련된 모델이 보이지 않는 작업 지시에 대한 우수한 구성적 일반화, 지각적 교란에 대한 강건성, 그리고 발생적 오류 복구 능력을 달성함을 보여줍니다. 놀랍게도, ADC를 통해 수집된 데모 양의 단 20%만으로 훈련된 모델이 전체 데이터셋을 사용하는 전통적 접근법을 크게 능가합니다. 이러한 발전은 데이터 중심 학습 패러다임과 실제 로봇 배치 간의 격차를 줄이며, 전략적 데이터 수집이 단순히 사후 처리뿐만 아니라 확장 가능한 실제 세계 로봇 학습에 중요함을 입증합니다. 또한, 우리는 적대적 교란이 포함된 실제 세계 매니퓰레이션 작업으로 구성된 대규모 ADC-로보틱스 데이터셋을 구축 중입니다. 이 벤치마크는 로봇 모방 학습의 발전을 촉진하기 위해 오픈소스로 공개될 예정입니다.
상태 공간 모델(State Space Models, SSMs)은 현재 널리 사용되는 트랜스포머 기반 모델의 유망한 대안으로 부상하며 점점 더 많은 관심을 받고 있습니다. 트랜스포머와 비교했을 때, SSM은 순차 데이터나 긴 문맥을 다루는 작업에서 뛰어난 성능을 보이며, 비슷한 성능을 유지하면서도 상당한 효율성 향상을 달성합니다. 본 논문에서는 SSM에 대한 일관적이고 체계적인 개요를 제공하며, 이론적 동기, 수학적 공식화, 기존 모델 클래스와의 비교, 그리고 다양한 응용 사례를 다룹니다. SSM 시리즈를 세 가지 주요 섹션으로 나누어, 원래의 SSM, S4로 대표되는 구조화된 SSM, 그리고 Mamba로 대표되는 선택적 SSM에 대해 상세히 소개합니다. 기술적 측면에 중점을 두고, SSM의 효과성과 효율성을 해결하기 위해 도입된 다양한 핵심 기술들을 강조합니다. 이 논문이 연구자들이 SSM의 이론적 기초를 탐구하는 데 도움이 되는 입문서 역할을 하길 바랍니다.
우리는 VGGT를 소개합니다. VGGT는 피드포워드 신경망으로, 하나, 몇 개, 혹은 수백 개의 뷰로부터 카메라 파라미터, 포인트 맵, 깊이 맵, 3D 포인트 트랙 등 장면의 모든 주요 3D 속성을 직접 추론합니다. 이 접근법은 기존에 단일 작업에 제한되고 특화되어 있던 3D 컴퓨터 비전 모델에서 한 단계 진전된 것입니다. 또한 이 방법은 단순하고 효율적이며, 1초 미만으로 이미지를 재구성하면서도 시각적 기하학 최적화 기술을 통한 후처리가 필요한 대안들을 능가합니다. 이 네트워크는 카메라 파라미터 추정, 다중 뷰 깊이 추정, 밀집 포인트 클라우드 재구성, 3D 포인트 트래킹 등 다양한 3D 작업에서 최첨단 결과를 달성합니다. 또한, 사전 학습된 VGGT를 특징 백본으로 사용하면 비강체 포인트 트래킹과 피드포워드 새로운 뷰 합성과 같은 하위 작업이 크게 향상됨을 보여줍니다. 코드와 모델은 https://github.com/facebookresearch/vggt에서 공개적으로 이용 가능합니다.
최첨단 트랜스포머 기반 대규모 멀티모달 모델(LMMs)은 인과적 자기 주의 연산의 이차 복잡성으로 인해 시간 단위의 긴 비디오 입력을 처리하는 데 어려움을 겪으며, 이는 훈련 및 추론 과정에서 높은 계산 비용을 초래합니다. 기존의 토큰 압축 기반 방법들은 비디오 토큰의 수를 줄이지만, 종종 정보 손실을 유발하며 극도로 긴 시퀀스에 대해서는 여전히 비효율적입니다. 본 논문에서는 선형 복잡도로 비디오 토큰을 인코딩하기 위해 Mamba-2 블록을 사용하는 하이브리드 Mamba-Transformer 모델(VAMBA)을 구축하는 새로운 방향을 탐구합니다. 토큰 축소 없이도 VAMBA는 단일 GPU에서 1024개 이상의 프레임(640x360)을 인코딩할 수 있으며, 이는 트랜스포머 기반 모델이 256개 프레임만 인코딩할 수 있는 것과 대조적입니다. 긴 비디오 입력에서 VAMBA는 훈련 및 추론 과정에서 GPU 메모리 사용량을 최소 50% 줄이고, 트랜스포머 기반 LMMs 대비 훈련 단계당 속도를 거의 두 배로 향상시킵니다. 우리의 실험 결과는 VAMBA가 기존의 효율적인 비디오 LMMs 대비 도전적인 시간 단위 비디오 이해 벤치마크 LVBench에서 4.3%의 정확도 향상을 달성하며, 긴 및 짧은 비디오 이해 작업 전반에서 강력한 성능을 유지함을 보여줍니다.
다양한 모달리티 간의 연결은 크로스 모달리티 생성의 핵심입니다. 기존의 접근 방식은 텍스트 모달리티를 조건 신호로 취급하여 가우시안 노이즈에서 목표 이미지 모달리티로 점진적으로 디노이징 과정을 안내하는 반면, 우리는 훨씬 더 간단한 패러다임인 플로우 매칭을 통해 텍스트와 이미지 모달리티 간의 직접적인 진화를 탐구합니다. 이를 위해서는 두 모달리티를 공유된 잠재 공간에 투영해야 하는데, 이는 그들의 본질적으로 다른 표현 방식으로 인해 상당한 도전 과제를 제기합니다: 텍스트는 고도로 의미론적이며 1D 토큰으로 인코딩되는 반면, 이미지는 공간적으로 중복적이고 2D 잠재 임베딩으로 표현됩니다. 이를 해결하기 위해, 우리는 이미지를 간결한 1D 토큰 표현으로 인코딩함으로써 텍스트와 이미지 간의 원활한 흐름을 가능하게 하는 FlowTok이라는 최소한의 프레임워크를 소개합니다. 이 설계는 256 해상도의 이미지에서 잠재 공간 크기를 3.3배 줄여 복잡한 조건 메커니즘이나 노이즈 스케줄링의 필요성을 없앱니다. 더욱이, FlowTok은 동일한 공식 하에서 이미지-텍스트 생성으로 자연스럽게 확장됩니다. 간결한 1D 토큰을 중심으로 한 간소화된 아키텍처 덕분에, FlowTok은 매우 메모리 효율적이며 상당히 적은 훈련 자원을 필요로 하고 훨씬 더 빠른 샘플링 속도를 달성합니다. 이 모든 것은 최신 모델과 비슷한 성능을 제공하면서 이루어집니다. 코드는 https://github.com/bytedance/1d-tokenizer에서 제공될 예정입니다.
연합 학습(Federated Learning, FL)은 원시 데이터를 공유하지 않고도 개인 정보를 보호할 수 있는 협업형 모델 학습 패러다임으로 주목받고 있습니다. 그러나 최근 연구에 따르면, 공유된 그래디언트 정보를 통해 여전히 개인 정보가 유출될 수 있으며, 이는 그래디언트 역전 공격(Gradient Inversion Attack, GIA)에 의해 공격받을 수 있는 것으로 나타났습니다. 다양한 GIA 방법이 제안되었음에도 불구하고, 이러한 방법들에 대한 상세한 분석, 평가 및 요약은 아직 부족한 실정입니다. 여러 조사 논문들이 FL에서의 기존 프라이버시 공격을 요약하고 있지만, GIA의 효과성과 관련된 제한 요소를 폭넓게 실험을 통해 밝힌 연구는 거의 없습니다. 이러한 공백을 메우기 위해, 우리는 먼저 GIA에 대한 체계적인 리뷰를 수행하고 기존 방법들을 최적화 기반 GIA(OP-GIA), 생성 기반 GIA(GEN-GIA), 분석 기반 GIA(ANA-GIA)의 세 가지 유형으로 분류합니다. 그런 다음, FL에서의 세 가지 GIA 유형을 포괄적으로 분석하고 평가하여, 그들의 성능, 실용성 및 잠재적 위협에 영향을 미치는 요소들에 대한 통찰을 제공합니다. 우리의 연구 결과에 따르면, OP-GIA는 성능이 만족스럽지 않음에도 불구하고 가장 실용적인 공격 설정인 반면, GEN-GIA는 많은 의존성을 가지고 있고 ANA-GIA는 쉽게 탐지될 수 있어 둘 다 실용적이지 못한 것으로 나타났습니다. 마지막으로, 우리는 더 나은 프라이버시 보호를 위해 FL 프레임워크와 프로토콜을 설계할 때 사용자들에게 세 단계의 방어 파이프라인을 제안하고, 공격자와 방어자의 관점에서 추구해야 할 몇 가지 미래 연구 방향을 공유합니다. 우리의 연구가 연구자들이 이러한 공격에 대응할 수 있는 더 강력한 FL 프레임워크를 설계하는 데 도움이 되기를 바랍니다.
정밀 치료를 위해서는 개인 맞춤형 치료 권장안을 생성할 수 있는 다중 모드 적응형 모델이 필요합니다. 우리는 TxAgent를 소개합니다. 이 AI 에이전트는 211개의 도구로 구성된 툴박스에서 다단계 추론과 실시간 생의학 지식 검색을 활용하여 약물 상호작용, 금기 사항, 그리고 환자 특이적 치료 전략을 분석합니다. TxAgent는 약물이 분자, 약동학, 그리고 임상 수준에서 어떻게 상호작용하는지 평가하고, 환자의 동반 질환과 병용 약물을 기반으로 금기 사항을 식별하며, 개별 환자 특성에 맞춰 치료 전략을 조정합니다. 이는 여러 생의학 소스에서 증거를 검색하고 종합하며, 약물과 환자 상태 간의 상호작용을 평가하고, 반복적 추론을 통해 치료 권장안을 개선합니다. TxAgent는 작업 목표에 따라 도구를 선택하고, 임상적 추론과 교차 소스 검증이 필요한 치료 과제를 해결하기 위해 구조화된 함수 호출을 실행합니다. ToolUniverse는 1939년 이후 미국 FDA 승인을 받은 모든 약물과 Open Targets의 검증된 임상 통찰력을 포함하여 신뢰할 수 있는 소스의 211개 도구를 통합합니다. TxAgent는 DrugPC, BrandPC, GenericPC, TreatmentPC, DescriptionPC 등 5개의 새로운 벤치마크에서 3,168개의 약물 추론 과제와 456개의 개인 맞춤형 치료 시나리오를 포함하여 주요 LLM, 도구 사용 모델, 그리고 추론 에이전트를 능가합니다. 이는 개방형 약물 추론 과제에서 92.1%의 정확도를 달성하여 GPT-4o를 능가하고, 구조화된 다단계 추론에서 DeepSeek-R1 (671B)보다 우수한 성능을 보입니다. TxAgent는 약물 이름 변형과 설명에 걸쳐 일반화됩니다. 다단계 추론, 실시간 지식 기반, 그리고 도구 지원 의사결정을 통합함으로써, TxAgent는 치료 권장안이 확립된 임상 지침과 실제 증거와 일치하도록 보장하여 부작용 위험을 줄이고 치료 의사결정을 개선합니다.
비디오 캡셔닝 및 객체 그라운딩을 위한 새로운 접근 방식을 제안합니다. 이 방식에서는 캡션 내 객체들이 시간적으로 밀집된 바운딩 박스를 통해 비디오에 정확히 위치를 잡습니다. 본 연구는 다음과 같은 기여를 합니다. 첫째, 개별 프레임에 걸쳐 바운딩 박스로 그라운딩된 캡션들을 시간적으로 밀집되고 일관된 바운딩 박스 주석으로 통합하는 대규모 자동 주석 방법을 제시합니다. 이 방법을 HowTo100M 데이터셋에 적용하여 HowToGround1M이라는 대규모 사전 학습 데이터셋을 구축했습니다. 또한 GROVE(Grounded Video Caption Generation) 모델을 소개하고, 이를 HowToGround1M 데이터셋으로 사전 학습시켰습니다. 둘째, 수동으로 주석 처리된 캡션과 밀집된 시공간적 바운딩 박스가 포함된 3500개의 비디오로 구성된 새로운 데이터셋인 iGround를 소개합니다. 이를 통해 이 어려운 문제에 대한 진전을 측정할 수 있을 뿐만 아니라, 소규모이지만 고품질의 데이터를 통해 모델을 미세 조정할 수 있습니다. 셋째, 제안된 iGround 데이터셋에서 여러 베이스라인과 비교했을 때 우리의 접근 방식이 최첨단 결과를 달성함을 보여줍니다. 또한 VidSTG 및 ActivityNet-Entities 데이터셋에서도 우수한 성능을 입증했습니다. 우리는 자동 주석 처리된 HowToGround1M 데이터셋을 사용한 사전 학습과 수동 주석 처리된 iGround 데이터셋을 통한 미세 조정의 중요성을 입증하는 광범위한 실험을 수행했으며, 모델의 주요 기술적 기여를 검증했습니다.
콜모고로프-아르놀드 네트워크(KANs)는 데이터로부터 더 복잡한 관계를 포착할 수 있는 잠재력을 가진 학습 가능한 활성화 함수로 구성된 주목할 만한 혁신입니다. KANs는 1차원 함수의 기호적 표현과 지속적 학습을 찾는 데 유용하지만, 시각과 같은 다양한 기계 학습(ML) 작업에서의 효과성은 여전히 의문의 여지가 있습니다. 현재 KANs는 비전 트랜스포머(ViTs)와 같은 고급 아키텍처를 포함한 심층 네트워크 아키텍처에서 다층 퍼셉트론(MLPs)을 대체하여 배포되고 있습니다. 본 논문에서는 우리는 처음으로 일반적인 학습 가능한 콜모고로프-아르놀드 어텐션(KArAt)을 일반적인 ViTs에 설계하여 어떤 기저 선택에서도 작동할 수 있도록 했습니다. 그러나 이를 훈련하는 데 드는 계산 및 메모리 비용은 우리에게 더 모듈화된 버전을 제안하도록 동기를 부여했고, 우리는 푸리에-KArAt이라는 특정 학습 가능한 어텐션을 설계했습니다. 푸리에-KArAt과 그 변형들은 CIFAR-10, CIFAR-100, ImageNet-1K 데이터셋에서 그들의 ViT 대응물을 능가하거나 비슷한 성능을 보입니다. 우리는 이러한 아키텍처의 성능과 일반화 능력을 그들의 손실 경관, 가중치 분포, 옵티마이저 경로, 어텐션 시각화, 스펙트럼 행동을 분석하고 일반적인 ViTs와 대조하여 해부합니다. 본 논문의 목표는 매개변수와 계산 효율적인 어텐션을 생산하는 것이 아니라, 학습 가능한 활성화 함수를 신중하게 이해해야 하는 더 고급 아키텍처와 함께 KANs를 탐구하도록 커뮤니티를 격려하는 것입니다. 우리의 오픈소스 코드와 구현 세부 사항은 https://subhajitmaity.me/KArAt에서 확인할 수 있습니다.
3D 의복 인체 포인트 클라우드에 신체를 맞추는 작업은 흔하지만 어려운 과제입니다. 전통적인 최적화 기반 접근법은 포즈 초기화에 민감한 다단계 파이프라인을 사용하는 반면, 최근의 학습 기반 방법들은 다양한 포즈와 의복 유형에 대한 일반화에 어려움을 겪는 경우가 많습니다. 우리는 ETCH(Equivariant Tightness Fitting for Clothed Humans)라는 새로운 파이프라인을 제안합니다. 이는 국소적으로 근사한 SE(3) 등변성을 통해 의복-신체 표면 매핑을 추정하며, 의복 표면에서 내부 신체까지의 변위 벡터로 타이트함을 인코딩합니다. 이 매핑을 따라 포즈 불변 신체 특징은 희소 신체 마커를 회귀하며, 의복 인체 맞춤을 내부 신체 마커 맞춤 작업으로 단순화합니다. CAPE와 4D-Dress에 대한 광범위한 실험에서 ETCH는 느슨한 의복(16.7% ~ 69.5%)과 형태 정확도(평균 49.9%)에서 타이트함을 고려하지 않은 방법과 고려한 최신 방법 모두를 크게 능가하는 성능을 보였습니다. 우리의 등변 타이트함 설계는 원샷(또는 분포 외) 설정에서 방향 오류를 (67.2% ~ 89.8%)까지 줄일 수 있습니다. 정성적 결과는 ETCH가 도전적인 포즈, 보지 못한 형태, 느슨한 의복, 비강체 역학에 관계없이 강력한 일반화 능력을 보여줍니다. 연구 목적으로 코드와 모델을 곧 https://boqian-li.github.io/ETCH/에서 공개할 예정입니다.
시각적 자기회귀 모델은 일반적으로 래스터 순서의 "다음 토큰 예측" 패러다임을 따르는데, 이는 시각적 콘텐츠에 내재된 공간적 및 시간적 지역성을 간과합니다. 특히, 시각적 토큰은 멀리 떨어진 토큰들보다 공간적으로나 시간적으로 인접한 토큰들과 훨씬 강한 상관관계를 보입니다. 본 논문에서는 이웃 자기회귀 모델링(Neighboring Autoregressive Modeling, NAR)이라는 새로운 패러다임을 제안합니다. 이는 자기회귀적 시각 생성 작업을 근처에서 먼 곳으로 진행되는 "다음 이웃 예측" 메커니즘을 따르는 점진적인 아웃페인팅 과정으로 공식화합니다. 초기 토큰에서 시작하여, 나머지 토큰들은 공간-시간 공간에서 초기 토큰으로부터의 맨해튼 거리가 작은 순서대로 디코딩되며, 디코딩된 영역의 경계를 점진적으로 확장합니다. 공간-시간 공간에서 여러 인접 토큰을 병렬로 예측하기 위해, 우리는 상호 직교하는 차원을 따라 다음 토큰을 예측하는 차원 지향 디코딩 헤드 세트를 도입했습니다. 추론 과정에서는 디코딩된 토큰들에 인접한 모든 토큰들이 병렬로 처리되어, 생성에 필요한 모델 순전파 단계를 크게 줄입니다. ImageNet256×256과 UCF101에서의 실험 결과, NAR은 각각 2.4배와 8.6배 더 높은 처리량을 달성하면서도 PAR-4X 접근법에 비해 이미지 및 비디오 생성 작업에서 우수한 FID/FVD 점수를 얻었습니다. 텍스트-이미지 생성 벤치마크 GenEval에서 평가할 때, 0.8B 파라미터를 가진 NAR은 Chameleon-7B를 능가하면서도 단지 0.4배의 학습 데이터만을 사용했습니다. 코드는 https://github.com/ThisisBillhe/NAR에서 확인할 수 있습니다.
다중 모드 대형 언어 모델(MLLMs)이 과학적 문제를 해결할 때 빈번히 오류를 보이기 때문에, 그들의 추론 과정의 타당성을 평가하는 것은 신뢰성을 보장하고 세밀한 모델 약점을 발견하는 데 중요합니다. 인간 평가는 노동 집약적이고 비용이 많이 들기 때문에, MLLMs를 자동화된 과정 평가자로 프롬프팅하는 것이 일반적인 관행이 되었습니다. 그러나 이러한 모델 기반 평가자의 신뢰성은 여전히 불확실합니다. 이를 해결하기 위해, 우리는 MLLM 기반 과정 평가자의 능력을 평가하기 위해 특별히 설계된 첫 번째 포괄적인 벤치마크인 ProJudgeBench을 소개합니다. ProJudgeBench은 2,400개의 테스트 케이스와 50,118개의 단계별 레이블로 구성되어 있으며, 다양한 난이도와 다중 모드 콘텐츠를 포함한 네 가지 과학 분야를 아우릅니다. ProJudgeBench에서는 각 단계가 인간 전문가에 의해 정확성, 오류 유형 및 설명에 대해 꼼꼼하게 주석 처리되어, 평가자가 오류를 탐지, 분류 및 진단하는 능력을 체계적으로 평가할 수 있습니다. ProJudgeBench에 대한 평가는 오픈소스 모델과 독점 모델 간의 상당한 성능 격차를 보여줍니다. 이 격차를 해소하기 위해, 우리는 대규모 지시 튜닝 데이터셋인 ProJudge-173k와 문제 해결을 명시적으로 추론하도록 장려하는 동적 이중 단계 미세 조정 전략을 추가로 제안합니다. 이 두 가지 기여는 오픈소스 모델의 과정 평가 능력을 크게 향상시킵니다. 모든 리소스는 신뢰할 수 있는 다중 모드 과정 평가의 미래 연구를 촉진하기 위해 공개될 예정입니다.
최근 비전과 언어 분야에서 다중모달 이해와 생성을 위한 통합 모델(UniMs)이 많은 관심을 받고 있습니다. 기존의 UniMs는 다중모달 이해와 생성 능력을 동시에 학습하도록 설계되어 상당한 계산 자원을 요구하며, 텍스트와 이미지가 교차된 형태의 생성을 어려워하는 경우가 많습니다. 우리는 ARMOR를 제안합니다. ARMOR는 기존의 다중모달 대형 언어 모델(MLLMs)을 미세 조정하여 이해와 생성 모두를 달성하는 자원 효율적이고 순수한 자기회귀 프레임워크입니다. 구체적으로, ARMOR는 세 가지 관점에서 기존 MLLMs를 확장합니다: (1) 모델 아키텍처 측면에서, 텍스트와 시각적 양식을 통합한 임베딩 공간을 통일하여 자연스러운 텍스트-이미지 교차 생성을 가능하게 하는 전환 메커니즘을 갖춘 비대칭 인코더-디코더 아키텍처를 도입합니다. 이는 최소한의 계산 오버헤드로 구현됩니다. (2) 훈련 데이터 측면에서, MLLMs를 미세 조정하기 위해 신중하게 선별된 고품질의 교차 데이터셋을 수집합니다. (3) 훈련 알고리즘 측면에서, 우리는 "무엇을 또는 어떻게 생성할지" 알고리즘을 제안하여, 수집된 데이터셋을 기반으로 세 단계의 점진적 훈련 단계를 통해 기존 MLLMs에 다중모달 생성 능력을 부여하면서도 다중모달 이해 능력을 보존합니다. 실험 결과는 ARMOR가 제한된 훈련 자원을 사용하여 기존 MLLMs를 유망한 이미지 생성 능력을 갖춘 UniMs로 업그레이드함을 보여줍니다. 우리의 코드는 곧 https://armor.github.io에서 공개될 예정입니다.
대규모 언어 모델(LLM)은 다국어 및 다양한 작업에서 뛰어난 성능과 일반화 능력을 보여주며, 이를 통해 이미지나 음성과 같은 다중 모달리티 통합의 매력적인 대상으로 부상하고 있습니다. 본 연구에서는 기존 LLM을 음성 모달리티로 확장하기 위해 음성 이산화와 지속적인 사전 학습을 적용합니다. 특히, TOWER와 같은 다국어 LLM에 주목하는데, 이는 사전 학습 설정에서 이산화된 음성 입력을 추가 번역 언어로 취급할 수 있기 때문입니다. 그 결과로 개발된 오픈소스 모델인 SPIRE는 영어 음성 입력을 전사하고 번역할 수 있으며, TOWER의 원래 번역 관련 작업 성능을 유지합니다. 이는 LLM 적응 과정에서 이산화된 음성 입력을 추가 언어로 통합하는 것이 가능함을 보여줍니다. 우리는 코드와 모델을 커뮤니티에 공개합니다.
정확한 재질 검색은 사실적인 3D 자산을 생성하는 데 있어 매우 중요합니다. 기존 방법들은 형태 불변성과 조명 변화를 포착한 데이터셋에 의존하는데, 이러한 데이터셋은 희소하며 다양성 부족과 실제 세계로의 일반화 부족으로 인한 문제에 직면해 있습니다. 현재 대부분의 접근 방식은 전통적인 이미지 검색 기술을 채택하고 있습니다. 그러나 이러한 방법들은 재질 공간의 고유한 특성을 포착하는 데 한계가 있어 검색 작업에서 최적의 성능을 발휘하지 못합니다. 이러한 문제를 해결하기 위해, 우리는 합성 재질과 실제 재질 간의 특징 공간 차이를 해소하기 위해 설계된 MaRI 프레임워크를 소개합니다. MaRI는 이미지와 재질 인코더를 공동으로 학습하는 대조 학습 전략을 통해 시각적 속성과 재질 속성을 조화시키는 공유 임베딩 공간을 구축함으로써, 유사한 재질과 이미지를 가깝게 만들고 비슷하지 않은 쌍을 특징 공간 내에서 분리합니다. 이를 지원하기 위해, 우리는 제어된 형태 변화와 다양한 조명 조건으로 렌더링된 고품질 합성 재질과 재질 전이 기법을 통해 처리 및 표준화된 실제 재질로 구성된 포괄적인 데이터셋을 구축했습니다. 광범위한 실험을 통해 MaRI가 다양한 복잡한 재질 검색 작업에서 우수한 성능, 정확성 및 일반화 능력을 보이며 기존 방법들을 능가함을 입증했습니다.
확산 모델 샘플링 가속화는 효율적인 AIGC 배포에 있어 핵심적인 요소입니다. 분포 매칭과 궤적 매칭을 기반으로 한 확산 증류 방법들은 샘플링을 단 한 단계로 줄일 수 있지만, 텍스트-이미지 생성과 같은 복잡한 작업에서는 한계를 보입니다. 소수 단계 생성은 속도와 품질 사이의 균형을 더 잘 맞추지만, 기존 접근법들은 지속적인 트레이드오프에 직면해 있습니다: 분포 매칭은 다단계 샘플링에 유연성이 부족하고, 궤적 매칭은 종종 최적이 아닌 이미지 품질을 초래합니다. 이러한 격차를 해소하기 위해, 우리는 분포 매칭과 궤적 매칭의 장점을 결합한 통합 증류 패러다임인 궤적 분포 매칭(TDM)을 통해 소수 단계 확산 모델을 학습하는 방법을 제안합니다. 우리의 방법은 데이터 없는 스코어 증류 목표를 도입하여, 학생 모델의 궤적을 교사 모델의 분포 수준과 정렬합니다. 더 나아가, 우리는 다양한 단계에서 학습 목표를 분리하여 더 조정 가능한 샘플링을 가능하게 하는 샘플링 단계 인식 목표를 개발했습니다. 이 접근법은 우수한 이미지 품질을 위한 결정론적 샘플링과 유연한 다단계 적응을 모두 지원하며, 놀라운 효율성으로 최첨단 성능을 달성합니다. 우리의 모델인 TDM은 SDXL 및 PixArt-alpha와 같은 다양한 백본에서 기존 방법들을 능가하며, 우수한 품질과 상당히 감소된 학습 비용을 제공합니다. 특히, 우리의 방법은 PixArt-alpha를 4단계 생성기로 증류하여 1024 해상도에서 실제 사용자 선호도 측면에서 교사 모델을 능가합니다. 이는 500회 반복과 2시간의 A800 사용으로 달성되었으며, 이는 교사 모델 학습 비용의 단 0.01%에 불과합니다. 또한, 우리가 제안한 TDM은 텍스트-비디오 확산 가속화로 확장될 수 있습니다. 특히, TDM은 VBench에서 단 4 NFE만 사용하여 교사 모델(CogVideoX-2B)을 능가할 수 있으며, 총 점수를 80.91에서 81.65로 향상시킵니다. 프로젝트 페이지: https://tdm-t2x.github.io/
우리는 입력 포인트 클라우드와 정렬된 고품질 예술적 메시를 생성하도록 설계된 자동회귀 트랜스포머인 TreeMeshGPT를 소개합니다. 기존의 자동회귀 트랜스포머에서 사용되는 다음 토큰 예측 대신, 우리는 메시 내 면들의 삼각형 인접성을 기반으로 동적으로 성장하는 트리 구조에서 다음 입력 토큰을 검색하는 새로운 자동회귀 트리 시퀀싱(Autoregressive Tree Sequencing)을 제안합니다. 우리의 시퀀싱 방식은 각 단계에서 마지막으로 생성된 삼각형 면으로부터 메시가 지역적으로 확장되도록 하여, 학습 난이도를 줄이고 메시 품질을 향상시킵니다. 우리의 접근 방식은 각 삼각형 면을 두 개의 토큰으로 표현함으로써, 단순한 면 토큰화 방식에 비해 약 22%의 압축률을 달성합니다. 이 효율적인 토큰화는 우리의 모델이 강력한 포인트 클라우드 조건화를 통해 매우 세부적인 예술적 메시를 생성할 수 있게 하여, 이전 방법들보다 용량과 충실도 면에서 우수한 성능을 보입니다. 또한, 우리의 방법은 강력한 법선 방향 제약을 가진 메시를 생성하여, 이전 방법들에서 흔히 발생하는 뒤집힌 법선을 최소화합니다. 실험 결과, TreeMeshGPT는 세부 사항과 법선 방향 일관성이 개선된 메시 생성 품질을 보여줍니다.
본 연구는 OpenAI의 o3-mini와 DeepSeek R1이라는 두 가지 최신 대형 추론 모델(Large Reasoning Models, LRMs)을 비언어적 유추 추론 능력에 대해 처음으로 평가한 결과를 제시합니다. 이 평가는 Raven의 점진적 행렬(Raven's Progressive Matrices)에 기반한 잘 정립된 비언어적 인간 IQ 테스트에 초점을 맞추고 있습니다. 우리는 I-RAVEN 데이터셋과 더 어려운 확장 버전인 I-RAVEN-X를 벤치마크로 사용했는데, 이는 더 긴 추론 규칙과 속성 값 범위에 대한 일반화 능력을 테스트합니다. 비언어적 유추 추론 테스트에서 시각적 불확실성의 영향을 평가하기 위해, 우리는 I-RAVEN-X 데이터셋을 확장하여 오라클 지각(oracle perception)을 가정하지 않도록 했습니다. 이를 위해 불완전한 시각적 지각을 시뮬레이션하기 위한 두 가지 전략을 채택했습니다: 1) 퍼즐의 정답 예측에 기여하지 않는 무작위로 샘플링된 혼란 속성(confounding attributes)을 도입하고, 2) 입력 속성 값의 분포를 평활화(smoothen)했습니다. 그 결과, OpenAI의 o3-mini는 원래 I-RAVEN에서 86.6%의 정확도를 보였지만, 입력 길이와 범위가 증가하고 지각적 불확실성을 모방한 더 어려운 I-RAVEN-X에서는 17.0%로 급격히 하락하여 무작위 추측 수준에 근접했습니다. 이는 추론 토큰을 3.4배 더 사용했음에도 불구하고 발생한 현상입니다. DeepSeek R1에서도 유사한 경향이 관찰되었는데, 정확도가 80.6%에서 23.2%로 하락했습니다. 반면, I-RAVEN에서 최첨단 성능을 달성한 신경-기호적 확률적 귀추 모델(neuro-symbolic probabilistic abductive model)인 ARLC는 이러한 모든 분포 외(out-of-distribution) 테스트에서도 견고하게 추론할 수 있었으며, 정확도가 98.6%에서 88.0%로 약간만 감소하며 강력한 성능을 유지했습니다. 우리의 코드는 https://github.com/IBM/raven-large-language-models에서 확인할 수 있습니다.
비디오 상세 캡셔닝(VDC)은 복잡한 비디오 콘텐츠에 대한 세밀한 설명을 가능하게 하는 시각-언어 연결의 중요한 과제입니다. 본 논문에서는 먼저 현재 최첨단 접근법들을 포괄적으로 벤치마킹하고, 두 가지 중요한 한계점을 체계적으로 식별했습니다: 특정 캡셔닝 측면에 대한 편향된 능력과 인간 선호도와의 불일치입니다. 이러한 결점을 해결하기 위해, 우리는 VDC 성능을 향상시키기 위해 합성 데이터와 인간 정렬 훈련을 결합한 새로운 3단계 훈련 파이프라인인 Cockatiel을 제안합니다. 첫 번째 단계에서는 세심하게 주석이 달린 데이터셋에서 도출된 스코어를 사용하여 특정 세밀한 비디오-캡션 정렬 및 인간 선호도에서 우수한 성능을 보이는 합성 캡션을 선택하고 나머지는 배제합니다. 그런 다음, 이렇게 선별된 데이터셋을 사용하여 Cockatiel-13B를 훈련시켜 모델의 통합된 강점과 인간 선호도를 주입합니다. 마지막으로, 사용의 편의를 위해 Cockatiel-13B에서 Cockatiel-8B를 추가로 증류합니다. 광범위한 정량적 및 정성적 실험은 우리의 방법의 효과를 반영하며, 우리는 VDCSCORE에서 차원 균형을 유지하며 새로운 최첨단 성능을 달성했을 뿐만 아니라, 인간 평가 결과에서도 선도적인 대안들을 큰 차이로 능가했습니다.
오픈 월드 환경에서 스킬을 학습하는 것은 기본 스킬을 조합하여 다양한 작업을 처리할 수 있는 에이전트를 개발하는 데 필수적입니다. 온라인 데모 비디오는 일반적으로 길지만 분할되지 않아 스킬 식별자로 레이블을 지정하기 어렵습니다. 기존의 시퀀스 샘플링이나 인간 레이블링에 의존하는 방법과 달리, 우리는 이러한 긴 비디오를 의미론적으로 인지 가능하고 스킬 일관성이 있는 세그먼트로 분할하기 위해 자기 지도 학습 기반 접근법을 개발했습니다. 인간의 인지적 이벤트 분할 이론에서 영감을 받아, 우리는 Skill Boundary Detection(SBD)이라는 주석이 필요 없는 시간적 비디오 분할 알고리즘을 소개합니다. SBD는 사전 훈련된 무조건적 행동 예측 모델의 예측 오류를 활용하여 비디오에서 스킬 경계를 감지합니다. 이 접근법은 예측 오류의 급격한 증가가 실행 중인 스킬의 변화를 나타낸다는 가정에 기반합니다. 우리는 온라인에서 광범위한 게임플레이 비디오가 제공되는 풍부한 오픈 월드 시뮬레이터인 Minecraft에서 이 방법을 평가했습니다. 우리의 SBD로 생성된 세그먼트는 단기 원자적 스킬 작업에서 조건부 정책의 평균 성능을 63.7%와 52.1% 향상시켰고, 해당 계층적 에이전트는 장기 작업에서 11.3%와 20.8% 향상시켰습니다. 우리의 방법은 다양한 YouTube 비디오를 활용하여 명령 수행 에이전트를 훈련시킬 수 있습니다. 프로젝트 페이지는 https://craftjarvis.github.io/SkillDiscovery에서 확인할 수 있습니다.
우리는 3D 실내 장면의 확장 가능한 합성을 위한 새로운 프레임워크인 CHOrD를 소개합니다. 이 프레임워크는 주택 규모의 충돌 없는 계층적 구조를 가진 실내 디지털 트윈을 생성하도록 설계되었습니다. 기존 방법들이 장면 그래프나 객체 리스트로 직접 장면 레이아웃을 합성하는 것과 달리, CHOrD는 2D 이미지 기반의 중간 레이아웃 표현을 도입하여, 생성 과정에서 분포 외(out-of-distribution, OOD) 시나리오로 성공적으로 포착함으로써 충돌 아티팩트를 효과적으로 방지합니다. 또한, 기존 방법들과는 달리 CHOrD는 복잡한 평면도에 부합하는 장면 레이아웃을 생성할 수 있으며, 다중 모드 제어를 통해 방 구조의 기하학적 및 의미론적 변형에 강건한 일관된 주택 전체 레이아웃을 생성할 수 있습니다. 더불어, 우리는 가정용 품목과 방 구성의 범위를 확장하고 데이터 품질을 크게 개선한 새로운 데이터셋을 제안합니다. CHOrD는 3D-FRONT와 우리가 제안한 데이터셋 모두에서 최첨단 성능을 보여주며, 임의의 평면도 변형에 적응 가능한 사실적이고 공간적으로 일관된 실내 장면 합성을 제공합니다.
우리는 고품질의 다중 모드 궤적을 생성하기 위한 종단 간 자율 주행 방법인 GoalFlow를 제안한다. 자율 주행 시나리오에서는 단일 적합한 궤적이 거의 존재하지 않는다. 최근 방법들은 다중 모드 궤적 분포를 모델링하는 데 점점 더 초점을 맞추고 있다. 그러나 이러한 방법들은 궤적 선택의 복잡성과 높은 궤적 발산, 그리고 안내 정보와 장면 정보 간의 불일치로 인해 궤적 품질이 저하되는 문제를 겪고 있다. 이러한 문제를 해결하기 위해, 우리는 생성 과정을 효과적으로 제약하여 고품질의 다중 모드 궤적을 생성하는 새로운 방법인 GoalFlow를 소개한다. 확산 기반 방법에서 내재된 궤적 발산 문제를 해결하기 위해, GoalFlow는 목표 지점을 도입하여 생성된 궤적을 제약한다. GoalFlow는 장면 정보를 기반으로 후보 지점들 중에서 가장 적합한 목표 지점을 선택하는 새로운 점수 매커니즘을 구축한다. 더 나아가, GoalFlow는 다중 모드 궤적을 생성하기 위해 효율적인 생성 방법인 Flow Matching을 사용하고, 후보들 중에서 최적의 궤적을 선택하기 위해 정제된 점수 매커니즘을 통합한다. NavsimDauner2024_navsim에서 검증된 우리의 실험 결과는 GoalFlow가 최첨단 성능을 달성하며, 자율 주행을 위한 견고한 다중 모드 궤적을 제공함을 보여준다. GoalFlow는 PDMS 90.3을 달성하여 다른 방법들을 크게 앞섰다. 다른 확산 정책 기반 방법들과 비교했을 때, 우리의 접근 방식은 단일 디노이징 단계만으로도 우수한 성능을 얻을 수 있다. 코드는 https://github.com/YvanYin/GoalFlow에서 확인할 수 있다.
머신 언러닝(Machine Unlearning)은 특정 훈련 데이터(즉, 잊을 집합)의 영향을 모델에서 제거하면서 나머지 데이터(즉, 유지할 집합)에 대한 지식을 보존하는 새로운 패러다임입니다. 기존 접근법은 잊을 데이터가 모든 훈련 데이터 포인트에서 균일하게 분포되어 있다고 가정했습니다. 그러나 언러닝할 데이터가 한 그룹에서 지배적일 경우, 우리는 실험적으로 이 그룹의 성능이 저하되어 공정성 문제가 발생함을 보여줍니다. 본 연구는 균일하지 않게 분포된 잊을 집합이라는 간과된 문제, 즉 그룹-강건 머신 언러닝(Group-Robust Machine Unlearning)을 다룹니다. 이를 위해 샘플 분포 재가중을 통해 지배적 그룹의 성능 저하를 완화하는 간단하면서도 효과적인 전략을 제시합니다. 또한, 우리는 근사적 머신 언러닝에서 그룹 강건성을 위한 최초의 접근법인 MIU(Mutual Information-aware Machine Unlearning)를 소개합니다. MIU는 모델 특징과 그룹 정보 간의 상호 정보를 최소화하여 언러닝을 달성하면서 잊을 집합의 지배적 그룹에서의 성능 저하를 줄입니다. 더불어, MIU는 샘플 분포 재가중과 원본 모델과의 상호 정보 보정을 활용하여 그룹 강건성을 유지합니다. 우리는 세 가지 데이터셋에 대한 실험을 수행하여 MIU가 표준 방법을 능가하며 모델 강건성을 저해하지 않고 언러닝을 달성함을 보여줍니다. 소스 코드는 https://github.com/tdemin16/group-robust_machine_unlearning에서 확인할 수 있습니다.