번역이 포함된 일일 선별된 AI 연구 논문
시공간적 일관성은 비디오 생성 분야에서 중요한 연구 주제입니다. 적절하게 생성된 비디오 세그먼트는 플롯의 타당성과 일관성을 보장해야 하며, 동시에 다양한 시점에서 객체와 장면의 시각적 일관성을 유지해야 합니다. 기존 연구, 특히 오픈소스 프로젝트에서는 주로 시간적 또는 공간적 일관성, 또는 이들의 기본적인 결합에 초점을 맞추었습니다. 예를 들어, 프롬프트 뒤에 카메라 이동에 대한 설명을 추가하되, 이 이동의 결과를 제약하지 않는 방식이었습니다. 그러나 카메라 이동은 장면에 새로운 객체를 추가하거나 기존 객체를 제거할 수 있으며, 이로 인해 이전의 내러티브가 중첩되거나 영향을 받을 수 있습니다. 특히 카메라 이동이 빈번한 비디오에서는 여러 플롯 간의 상호작용이 점점 더 복잡해집니다. 본 논문은 플롯 진행과 카메라 기법 간의 시너지, 그리고 이전 콘텐츠가 후속 생성에 미치는 장기적인 영향을 고려한 통합적 시공간 일관성을 소개하고 검토합니다. 우리의 연구는 데이터셋 구축부터 모델 개발까지를 포괄합니다. 먼저, 동적 카메라 모션과 객체 동작을 포함한 1,000만 개의 비디오로 구성된 DropletVideo-10M 데이터셋을 구축했습니다. 각 비디오는 다양한 카메라 이동과 플롯 전개를 상세히 설명하는 평균 206단어의 캡션으로 주석 처리되었습니다. 이어서, 비디오 생성 과정에서 시공간적 일관성을 유지하는 데 탁월한 성능을 보이는 DropletVideo 모델을 개발하고 학습시켰습니다. DropletVideo 데이터셋과 모델은 https://dropletx.github.io에서 확인할 수 있습니다.
실제 세계에서 인간 수준의 성능을 달성할 수 있는 자율 로봇 에이전트를 구축하는 것은 휴머노이드 로봇 연구의 궁극적인 목표입니다. 최근의 발전으로 인해 Foundation Models(FMs)을 통한 고차원 인지 능력과 휴머노이드 로봇의 저수준 기술 개발에서 상당한 진전이 이루어졌습니다. 그러나 이러한 구성 요소를 직접 결합할 경우, 장기간 작업에서의 오류 누적과 다양한 모듈의 지연 시간으로 인해 견고성과 효율성이 떨어지는 문제가 발생합니다. 우리는 FM과 모듈식 기술 라이브러리를 통합한 계층적 에이전트 프레임워크인 Being-0을 소개합니다. FM은 명령 이해, 작업 계획, 추론과 같은 고차원 인지 작업을 처리하고, 기술 라이브러리는 안정적인 이동과 정교한 조작을 위한 저수준 제어를 제공합니다. 이러한 수준 간의 격차를 해소하기 위해, 경량화된 시각-언어 모델(VLM)로 구동되는 새로운 Connector 모듈을 제안합니다. Connector는 언어 기반 계획을 실행 가능한 기술 명령으로 변환하고, 이동과 조작을 동적으로 조정하여 작업 성공률을 향상시킴으로써 FM의 구체화된 능력을 강화합니다. FM을 제외한 모든 구성 요소는 저비용 온보드 컴퓨팅 장치에 배포 가능하며, Being-0은 정교한 손과 능동적 시각 기능을 갖춘 완전한 크기의 휴머노이드 로봇에서 실시간 성능을 달성합니다. 대규모 실내 환경에서의 광범위한 실험을 통해 Being-0이 도전적인 탐색 및 조작 하위 작업을 요구하는 복잡한 장기간 작업을 해결하는 데 효과적임을 입증했습니다. 자세한 내용과 동영상은 https://beingbeyond.github.io/being-0에서 확인할 수 있습니다.
깊이 맵(depth)과 캐니 에지(canny) 조건 기반 접근법과 같은 이미지 조건 생성 방법들은 정밀한 이미지 합성에서 뛰어난 능력을 보여주었습니다. 그러나 기존 모델들은 여전히 다중 인스턴스(또는 영역)의 내용을 정확하게 제어하는 데 어려움을 겪고 있습니다. FLUX나 3DIS와 같은 최첨단 모델들도 인스턴스 간 속성 누출과 같은 문제로 인해 사용자 제어가 제한됩니다. 이러한 문제를 해결하기 위해, 우리는 FLUX 모델을 기반으로 한 학습이 필요 없는 접근법인 DreamRenderer를 소개합니다. DreamRenderer는 사용자가 바운딩 박스나 마스크를 통해 각 인스턴스의 내용을 제어할 수 있도록 하면서도 전체적인 시각적 조화를 유지합니다. 우리는 두 가지 주요 혁신을 제안합니다: 1) 하드 텍스트 속성 바인딩을 위한 브릿지 이미지 토큰(Bridge Image Tokens for Hard Text Attribute Binding), 이는 복제된 이미지 토큰을 브릿지 토큰으로 사용하여 텍스트 데이터만으로 사전 학습된 T5 텍스트 임베딩이 Joint Attention 동안 각 인스턴스에 대한 올바른 시각적 속성을 바인딩하도록 보장합니다; 2) 핵심 레이어에만 적용되는 하드 이미지 속성 바인딩(Hard Image Attribute Binding). FLUX를 분석한 결과, 우리는 인스턴스 속성 렌더링을 담당하는 중요한 레이어들을 식별하고, 이 레이어들에서만 하드 이미지 속성 바인딩을 적용하며, 다른 레이어에서는 소프트 바인딩을 사용합니다. 이 접근법은 정밀한 제어를 보장하면서도 이미지 품질을 유지합니다. COCO-POS 및 COCO-MIG 벤치마크에서의 평가 결과, DreamRenderer는 FLUX 대비 이미지 성공 비율(Image Success Ratio)을 17.7% 향상시키고, GLIGEN 및 3DIS와 같은 레이아웃-투-이미지 모델의 성능을 최대 26.8% 향상시킴을 보여줍니다. 프로젝트 페이지: https://limuloo.github.io/DreamRenderer/.
개인화 이미지 생성은 사용자가 지정한 개념의 이미지를 생성하면서도 유연한 편집을 가능하게 하는 것을 목표로 합니다. 최근의 학습 없이 접근하는 방법들은 학습 기반 방법보다 계산 효율성이 높지만, 정체성 보존, 적용 가능성, 그리고 확산 트랜스포머(DiT)와의 호환성에서 어려움을 겪고 있습니다. 본 논문에서는 DiT의 잠재력을 발견하여, 단순히 디노이징 토큰을 참조 대상의 토큰으로 교체함으로써 제로샷 대상 재구성을 달성할 수 있음을 보여줍니다. 이 간단하지만 효과적인 특징 주입 기술은 개인화부터 이미지 편집까지 다양한 시나리오를 가능하게 합니다. 이러한 관찰을 바탕으로, 우리는 Personalize Anything이라는 학습 없는 프레임워크를 제안합니다. 이 프레임워크는 DiT에서 개인화 이미지 생성을 달성하기 위해: 1) 초기 단계 주입을 통해 대상 일관성을 강화하고 후기 단계 정규화를 통해 유연성을 높이는 시간 단계 적응형 토큰 교체, 그리고 2) 구조적 다양성을 증진시키는 패치 교란 전략을 사용합니다. 우리의 방법은 레이아웃 기반 생성, 다중 대상 개인화, 그리고 마스크 제어 편집을 원활하게 지원합니다. 평가 결과, 정체성 보존과 다용성에서 최신 기술을 능가하는 성능을 보여줍니다. 우리의 연구는 DiT에 대한 새로운 통찰을 제공하면서 효율적인 개인화를 위한 실용적인 패러다임을 제시합니다.
사회적 상호작용에서의 추론과 전략적 행동은 지능의 핵심적 특징 중 하나입니다. 이러한 형태의 추론은 정적인 환경에서의 고립된 계획 수립이나 문제 해결(예: 수학 문제 풀이)보다 훨씬 더 정교합니다. 본 논문에서는 전략적 계획과 사회적 추론 능력을 측정하기 위해 설계된 새로운 다중 도메인 평가 프레임워크인 SPIN-Bench(Strategic Planning, Interaction, and Negotiation Benchmark)를 소개합니다. 기존의 많은 벤치마크가 좁은 범위의 계획 수립이나 단일 에이전트 추론에 초점을 맞추는 반면, SPIN-Bench는 고전적인 PDDL 작업, 경쟁형 보드 게임, 협력형 카드 게임, 그리고 다중 에이전트 협상 시나리오를 하나의 통합된 프레임워크로 결합합니다. 이 프레임워크는 벤치마크뿐만 아니라 다양한 사회적 환경을 시뮬레이션하고 평가할 수 있는 아레나를 포함하며, 이를 통해 AI 에이전트의 추론 및 전략적 행동을 테스트합니다. SPIN-Bench 벤치마크는 행동 공간, 상태 복잡성, 상호작용하는 에이전트의 수를 체계적으로 변화시켜 다양한 사회적 환경을 시뮬레이션하도록 설계되었으며, 여기서 성공은 체계적이고 단계적인 의사결정뿐만 아니라 (적대적이거나 협력적인) 다른 참가자에 대한 개념적 추론에도 달려 있습니다. 실험 결과, 현대의 대형 언어 모델(LLM)은 기본적인 사실 검색과 단기 계획 수립은 비교적 잘 수행하지만, 큰 상태 공간에서의 깊은 다중 홉 추론이나 불확실성 하에서의 사회적으로 능숙한 조정이 필요한 작업에서는 상당한 성능 병목 현상을 겪는 것으로 나타났습니다. SPIN-Bench는 향후 강력한 다중 에이전트 계획, 사회적 추론, 그리고 인간-AI 팀워크 연구를 위한 촉매제가 될 것으로 기대합니다.
인간과 유사한 단계별 사고 과정인 사고의 연쇄(CoT) 추론의 장점을 다중모달(multimodal) 맥락으로 확장한 다중모달 CoT(MCoT) 추론은 최근 특히 다중모달 대형 언어 모델(MLLMs)과의 통합을 통해 상당한 연구 관심을 받고 있습니다. 기존의 MCoT 연구들은 이미지, 비디오, 음성, 오디오, 3D 및 구조화된 데이터 등 다양한 모달리티에서 발생하는 독특한 문제를 해결하기 위해 다양한 방법론과 혁신적인 추론 패러다임을 설계하며, 로보틱스, 헬스케어, 자율주행, 다중모달 생성 등의 분야에서 광범위한 성공을 거두었습니다. 그러나 MCoT는 여전히 독특한 도전과 기회를 제공하며, 이 분야의 지속적인 발전을 보장하기 위해 추가적인 집중이 필요합니다. 안타깝게도 이 분야에 대한 최신 리뷰가 부족한 상황입니다. 이러한 격차를 메우기 위해, 우리는 MCoT 추론에 대한 첫 번째 체계적인 조사를 제시하며, 관련 기초 개념과 정의를 명확히 합니다. 또한 다양한 응용 시나리오를 아우르는 포괄적인 분류 체계와 현재 방법론에 대한 심층 분석을 제공합니다. 더 나아가, 기존의 도전 과제와 미래 연구 방향에 대한 통찰을 제공함으로써 다중모달 AGI(인공 일반 지능)를 향한 혁신을 촉진하고자 합니다.
우리는 새로운 설정인 '편집 전이(Edit Transfer)'를 소개합니다. 이 설정에서 모델은 단 하나의 소스-타겟 예시로부터 변환을 학습하고 이를 새로운 쿼리 이미지에 적용합니다. 텍스트 기반 방법들은 텍스트 프롬프트를 통해 의미론적 조작에서 뛰어난 성능을 보이지만, 정확한 기하학적 세부 사항(예: 포즈 및 시점 변화)에서는 종종 어려움을 겪습니다. 반면, 참조 기반 편접은 일반적으로 스타일이나 외관에 초점을 맞추며 비강체 변환에서는 실패합니다. 소스-타겟 쌍으로부터 명시적으로 편집 변환을 학습함으로써, 편집 전이는 텍스트만 사용하는 방식과 외관 중심 참조 방식의 한계를 모두 완화합니다. 대규모 언어 모델의 인-컨텍스트 학습에서 영감을 받아, 우리는 DiT 기반 텍스트-이미지 모델을 기반으로 한 시각적 관계 인-컨텍스트 학습 패러다임을 제안합니다. 편집된 예시와 쿼리 이미지를 통합된 4패널 합성물로 배열한 후, 최소한의 예시로부터 복잡한 공간 변환을 포착하기 위해 경량화된 LoRA 미세 조정을 적용합니다. 단 42개의 훈련 샘플만 사용했음에도 불구하고, 편집 전이는 다양한 비강체 시나리오에서 최신의 TIE 및 RIE 방법들을 크게 능가하며, 소수 샷 시각적 관계 학습의 효과를 입증합니다.
최근 연구들은 일반적으로 고품질의 사고 연쇄(chain-of-thought) 추론 데이터에 대한 지도 미세 조정을 통해 MLLM(Multimodal Large Language Model)의 추론 능력을 향상시키는데, 이는 종종 모델이 성공적인 추론 경로를 단순히 모방하게 하면서 잘못된 추론 경로를 이해하지 못하는 결과를 초래합니다. 본 연구에서는 MLLM의 추론 능력을 단순히 긍정적인 추론 경로를 수동적으로 모방하는 것을 넘어서 향상시키는 것을 목표로 합니다. 이를 위해, 우리는 단계별 그룹 상대 정책 최적화(Step-wise Group Relative Policy Optimization, StepGRPO)라는 새로운 온라인 강화 학습 프레임워크를 설계했습니다. 이 프레임워크는 MLLM이 간단하고 효과적이며 밀도 높은 단계별 보상을 통해 스스로 추론 능력을 개선할 수 있도록 합니다. 구체적으로, StepGRPO는 두 가지 새로운 규칙 기반 추론 보상을 도입합니다: 단계별 추론 정확도 보상(Step-wise Reasoning Accuracy Reward, StepRAR)과 단계별 추론 타당성 보상(Step-wise Reasoning Validity Reward, StepRVR). StepRAR는 부드러운 핵심 단계 매칭 기술을 통해 필요한 중간 추론 단계를 포함하는 추론 경로를 보상하며, StepRVR은 추론의 완전성과 논리적 일관성을 평가하는 전략을 통해 잘 구조화되고 논리적으로 일관된 추론 과정을 따르는 추론 경로를 보상합니다. 제안된 StepGRPO를 통해, 우리는 단계별 추론에서 뛰어난 능력을 보이는 일련의 MLLM인 R1-VL을 소개합니다. 8개의 벤치마크에 대한 광범위한 실험을 통해 우리 방법의 우수성을 입증했습니다.
요소 수준의 시각적 조작은 디지털 콘텐츠 제작에 필수적이지만, 현재의 확산 기반 방법들은 전통적인 도구의 정밀성과 유연성을 갖추지 못하고 있습니다. 본 연구에서는 확률론적 블롭 기반 표현을 사용하여 요소 수준의 생성과 편집을 통합하는 BlobCtrl 프레임워크를 소개합니다. 블롭을 시각적 기본 요소로 사용함으로써, 우리의 접근 방식은 공간적 위치, 의미론적 내용, 그리고 식별 정보를 효과적으로 분리하고 표현하여 정밀한 요소 수준의 조작을 가능하게 합니다. 우리의 주요 기여는 다음과 같습니다: 1) 원활한 전경-배경 통합을 위한 계층적 특징 융합을 갖춘 이중 분기 확산 아키텍처; 2) 맞춤형 데이터 증강과 점수 함수를 사용한 자기 지도 학습 패러다임; 3) 충실도와 다양성의 균형을 맞추기 위한 제어 가능한 드롭아웃 전략. 추가 연구를 지원하기 위해, 대규모 학습을 위한 BlobData와 체계적인 평가를 위한 BlobBench를 도입했습니다. 실험 결과, BlobCtrl은 다양한 요소 수준의 조작 작업에서 우수한 성능을 보이면서도 계산 효율성을 유지하여, 정밀하고 유연한 시각적 콘텐츠 제작을 위한 실용적인 솔루션을 제공합니다. 프로젝트 페이지: https://liyaowei-stu.github.io/project/BlobCtrl/
과학 연구는 다중 모드 데이터에 대한 정교한 추론을 요구하며, 이는 특히 생물학 분야에서 두드러진 과제입니다. 최근 AI 지원 연구를 위한 다중 모드 대형 언어 모델(MLLMs)의 발전에도 불구하고, 기존의 다중 모드 추론 벤치마크는 대학 수준의 난이도까지만 다루고 있으며, 연구 수준의 벤치마크는 하위 수준의 인지에 초점을 맞추어 과학적 발견에 필요한 복잡한 다중 모드 추론을 충족시키지 못하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 연구 워크플로우에서 중요한 세 가지 추론 능력인 전문가 수준의 이미지 이해, 가설 생성, 실험 제안을 평가하기 위해 설계된 시각적 질문 응답(VQA) 벤치마크인 MicroVQA를 소개합니다. MicroVQA는 다양한 현미경 모달리티에 걸쳐 생물학 전문가들이 선별한 1,042개의 객관식 질문(MCQs)으로 구성되어 있으며, VQA 샘플이 실제 과학적 실습을 반영하도록 보장합니다. 벤치마크를 구축하는 과정에서, 표준 MCQ 생성 방법이 언어적 단축을 유도한다는 것을 발견하여, 새로운 두 단계 파이프라인을 제안했습니다: 최적화된 LLM 프롬프트가 질문-답변 쌍을 MCQs로 구조화하고, 에이전트 기반의 `RefineBot'이 이를 업데이트하여 단축을 제거합니다. 최신 MLLMs에 대한 벤치마킹 결과, 최고 성능은 53%로 나타났으며, 더 작은 LLMs를 사용한 모델이 최상위 모델에 비해 약간 뒤처지는 것으로 나타나 언어 기반 추론이 다중 모드 추론보다 덜 어려운 것으로 보입니다. 또한 과학 논문으로 튜닝하면 성능이 향상됩니다. 사고의 연쇄(chain-of-thought) 응답에 대한 전문가 분석은 인지 오류가 가장 빈번하게 발생하며, 그 다음으로 지식 오류와 과도한 일반화 오류가 뒤따르는 것으로 나타났습니다. 이러한 통찰은 다중 모드 과학적 추론의 과제를 강조하며, MicroVQA가 AI 기반 생물의학 연구를 발전시키는 데 유용한 자원임을 보여줍니다. MicroVQA는 https://huggingface.co/datasets/jmhb/microvqa에서 확인할 수 있으며, 프로젝트 페이지는 https://jmhb0.github.io/microvqa에서 확인할 수 있습니다.
3D 재구성 기술의 급속한 발전과 함께 4D 재구성 연구도 진전을 보이고 있으며, 기존의 4D 재구성 방법들은 고품질의 4D 장면을 생성할 수 있습니다. 그러나 다중 시점 비디오 데이터 획득의 어려움으로 인해, 현재의 4D 재구성 벤치마크는 주로 제자리에서 수행되는 동작(예: 춤)을 제한된 시나리오 내에서 보여주는 데 그치고 있습니다. 실제 시나리오에서는 많은 장면이 광범위한 공간 이동을 포함하고 있어, 기존 4D 재구성 데이터셋의 한계가 두드러지게 됩니다. 또한, 기존의 4D 재구성 방법들은 3D 객체의 동역학을 추정하기 위해 변형 필드(deformation field)에 의존하지만, 변형 필드는 광범위한 공간 이동을 처리하는 데 어려움을 겪어, 광범위한 공간 이동을 포함한 고품질 4D 장면 재구성을 달성하는 데 제약이 있습니다. 본 논문에서는 상당한 객체 공간 이동을 포함하는 4D 장면 재구성에 초점을 맞추고, 새로운 4D 재구성 벤치마크인 WideRange4D를 제안합니다. 이 벤치마크는 큰 공간 변화를 포함한 풍부한 4D 장면 데이터를 포함하여, 4D 생성 방법의 생성 능력을 보다 포괄적으로 평가할 수 있게 합니다. 더불어, 다양한 복잡한 4D 장면 재구성 작업에서 안정적이고 고품질의 4D 결과를 생성하는 새로운 4D 재구성 방법인 Progress4D를 소개합니다. WideRange4D에서 정량적 및 정성적 비교 실험을 수행한 결과, 우리의 Progress4D가 기존의 최신 4D 재구성 방법들을 능가하는 성능을 보임을 확인했습니다. 프로젝트: https://github.com/Gen-Verse/WideRange4D
비디오는 고유한 시간적 차원을 가지고 있어, 답변이 시각적이고 해석 가능한 증거와 직접적으로 연결된 정확한 근거 기반 이해를 요구합니다. 대규모 언어 모델(Large Language Models) 내에서 추론 능력이 크게 발전했음에도 불구하고, 특히 비디오를 대상으로 한 다중 모달 추론(multi-modal reasoning)은 여전히 탐구되지 않은 영역입니다. 본 연구에서는 시간적 근거 기반 비디오 이해를 위해 설계된 새로운 비디오-언어 에이전트인 VideoMind를 소개합니다. VideoMind는 두 가지 주요 혁신을 포함합니다: (i) 비디오 시간적 추론에 필수적인 능력을 식별하고, 다양한 역할을 조정하는 플래너(planner), 시간적 위치를 파악하는 그라운더(grounder), 시간적 간격의 정확성을 평가하는 검증자(verifier), 질문-응답을 담당하는 응답자(answerer)를 포함한 역할 기반 에이전트 워크플로우를 개발합니다. (ii) 이러한 다양한 역할을 효율적으로 통합하기 위해, 경량 LoRA 어댑터를 통해 원활한 역할 전환을 가능하게 하는 새로운 Chain-of-LoRA 전략을 제안합니다. 이를 통해 다중 모델의 오버헤드를 피하면서 효율성과 유연성을 균형 있게 유지합니다. 14개의 공개 벤치마크에서 수행한 광범위한 실험 결과, 우리의 에이전트는 근거 기반 비디오 질문-응답 3개, 비디오 시간적 위치 파악 6개, 일반 비디오 질문-응답 5개를 포함한 다양한 비디오 이해 작업에서 최첨단 성능을 달성함으로써, 비디오 에이전트 및 장편 시간적 추론 분야에서의 효과성을 입증했습니다.
보상 모델은 현대 NLP에서 필수적인 요소로 자리 잡았으며, 확장 가능한 텍스트 평가 도구로서뿐만 아니라 다양한 정렬 레시피와 추론 시 알고리즘에서도 없어서는 안 될 구성 요소로 활용되고 있습니다. 그러나 최근의 보상 모델들이 표준 벤치마크에서 성능을 향상시키는 것은 부분적으로 과적합 효과에 기인할 수 있으며, 이는 그들의 진정한 능력을 이해하는 데 혼란을 줄 수 있습니다. 본 연구에서는 보상 모델의 견고성과 이러한 과적합의 정도를 면밀히 검토합니다. 우리는 **reWordBench**를 구축하여 보상 모델 입력을 의미 또는 순위를 보존하는 방식으로 체계적으로 변환합니다. 우리는 최첨단 보상 모델들이 사소한 입력 변환에도 상당한 성능 저하를 겪으며, 때로는 무작위 정확도보다 훨씬 낮은 수준으로 떨어지는 취약성을 보인다는 것을 입증합니다. 보상 모델의 견고성을 향상시키기 위해, 우리는 명시적으로 패러프레이즈에 유사한 점수를 부여하도록 훈련하는 방법을 제안하며, 이 접근법이 다른 종류의 변환에 대한 견고성도 개선한다는 것을 발견했습니다. 예를 들어, 우리의 견고한 보상 모델은 RewardBench의 Chat Hard 하위 집합에서 이러한 성능 저하를 약 절반으로 줄입니다. 또한, 정렬 과정에서 사용될 때, 우리의 견고한 보상 모델은 더 나은 유용성을 보여주고 더 높은 품질의 출력을 생성하며, 표준적으로 훈련된 보상 모델에 대해 최대 59%의 사례에서 우위를 점합니다.
인간은 비디오를 순차적인 시공간 추론 논리로 처리합니다. 먼저 관련 프레임("언제")을 식별한 다음, 주요 객체 간의 공간적 관계("어디에")를 분석하고, 마지막으로 이러한 관계를 활용하여 추론("무엇")을 도출합니다. 그러나 비디오 대형 언어 모델(Video-LLMs)도 비디오에서 "순차적인 시공간 논리를 통해 추론"할 수 있을까요? 기존의 Video-LLM 벤치마크는 주로 객체 존재 여부를 평가하는 데 초점을 맞추고 있어 관계적 추론을 간과하고 있습니다. 결과적으로, 모델이 비디오에서 객체 상호작용(행동/사건)을 진정으로 이해하는지, 아니면 단순히 사전 학습된 "기억"에 의존하여 편향된 답변을 생성하는지 측정하기 어렵습니다. 본 연구에서는 이러한 단점을 해결하기 위해 Video Spatio-Temporal Reasoning(V-STaR) 벤치마크를 소개합니다. 핵심 아이디어는 비디오 이해를 역방향 시공간 추론(Reverse Spatio-Temporal Reasoning, RSTR) 작업으로 분해하여, 어떤 객체가 존재하는지, 언제 사건이 발생하는지, 어디에 위치하는지를 동시에 평가하면서 내재된 사고의 연쇄(Chain-of-thought, CoT) 논리를 포착하는 것입니다. 이를 지원하기 위해, 우리는 Video-LLM의 시공간 추론 과정을 유도하는 데이터셋을 구축했습니다. 이 데이터셋은 GPT-4 기반의 반자동화 파이프라인으로 생성된 세분화된 CoT 질문들로 구성되어 있으며, 인간의 인지를 모방하기 위해 명시적인 추론 체인을 포함하고 있습니다. 14개의 Video-LLM을 대상으로 한 V-STaR 실험 결과, 현재의 Video-LLM과 견고하고 일관된 시공간 추론 요구 사항 간에 상당한 격차가 있음이 드러났습니다.
사람의 지시에 따라 복잡한 물건 더미에서 로봇 그리핑을 수행하는 것은 자유 형식 언어의 미묘한 차이와 물체 간 공간적 관계를 모두 이해해야 하기 때문에 매우 도전적인 과제입니다. GPT-4o와 같은 웹 규모 데이터로 학습된 비전-언어 모델(VLMs)은 텍스트와 이미지 모두에서 놀라운 추론 능력을 보여왔습니다. 하지만 이러한 모델이 제로샷 설정에서 이 과제에 실제로 사용될 수 있을까요? 그리고 그 한계는 무엇일까요? 본 논문에서는 자유 형식 언어 기반 로봇 그리핑 과제를 통해 이러한 연구 질문을 탐구하고, 사전 학습된 VLMs의 세계 지식을 활용하여 사람의 지시와 물체의 공간적 배열을 추론하는 새로운 방법인 FreeGrasp를 제안합니다. 우리의 방법은 모든 물체를 키포인트로 감지하고 이러한 키포인트를 사용하여 이미지에 주석을 달아 GPT-4o의 제로샷 공간 추론을 용이하게 합니다. 이를 통해 요청된 물체가 직접 그리핑 가능한지, 아니면 다른 물체를 먼저 그리핑하고 제거해야 하는지를 판단할 수 있습니다. 이 과제를 위해 특별히 설계된 기존 데이터셋이 없기 때문에, 우리는 MetaGraspNetV2 데이터셋을 확장하여 사람이 주석을 단 지시와 실제 그리핑 시퀀스를 포함한 합성 데이터셋 FreeGraspData를 소개합니다. FreeGraspData를 사용한 광범위한 분석과 그리퍼가 장착된 로봇 암을 이용한 실제 환경 검증을 통해, 우리는 그리핑 추론과 실행에서 최첨단 성능을 입증합니다. 프로젝트 웹사이트: https://tev-fbk.github.io/FreeGrasp/.
복잡한 텍스트 프롬프트와 인간의 선호도에 맞춰 생성된 이미지를 정렬하는 것은 인공지능 생성 콘텐츠(AIGC) 분야의 핵심 과제입니다. 보상 강화 확산 증류(reward-enhanced diffusion distillation)가 텍스트-이미지 모델의 제어 가능성과 충실도를 향상시키는 유망한 접근법으로 부상함에 따라, 우리는 근본적인 패러다임 전환을 확인했습니다: 조건이 더 구체적이고 보상 신호가 강해질수록, 보상 자체가 생성 과정에서 지배적인 힘으로 작용하게 됩니다. 이와 대조적으로, 확산 손실은 지나치게 비용이 많이 드는 정규화 형태로 작용합니다. 우리의 가설을 철저히 검증하기 위해, 우리는 정규화된 보상 최대화를 통한 새로운 조건부 생성 접근법인 R0를 소개합니다. R0는 까다로운 확산 증류 손실에 의존하는 대신, 이미지 생성을 데이터 공간에서의 최적화 문제로 간주하는 새로운 관점을 제안합니다. 이는 높은 구성적 보상을 가지는 유효한 이미지를 탐색하는 것을 목표로 합니다. 생성기 매개변수화의 혁신적인 설계와 적절한 정규화 기술을 통해, 우리는 R0를 사용하여 최첨단의 소수 단계 텍스트-이미지 생성 모델을 대규모로 학습시켰습니다. 우리의 결과는 복잡한 조건이 있는 시나리오에서 보상이 지배적인 역할을 한다는 것을 입증함으로써, 확산 사후 학습과 조건부 생성에 대한 기존의 통념에 도전합니다. 우리는 이러한 발견이 AIGC 전반에 걸친 인간 중심 및 보상 중심 생성 패러다임에 대한 추가 연구에 기여할 수 있기를 바랍니다. 코드는 https://github.com/Luo-Yihong/R0에서 확인할 수 있습니다.
비디오 인페인팅은 비디오 내의 특정 영역을 수정하면서 공간적 및 시간적 일관성을 유지하는 작업을 포함합니다. 기존의 대부분의 방법들은 주로 장면 완성(즉, 누락된 영역을 채우는 작업)에 초점을 맞추고 있으며, 새로운 객체를 장면에 삽입하는 작업을 제어 가능한 방식으로 수행하는 능력이 부족합니다. 다행히 최근 텍스트-투-비디오(T2V) 확산 모델의 발전으로 텍스트 기반 비디오 인페인팅이 가능해졌습니다. 그러나 T2V 모델을 직접 인페인팅에 적용하는 것은 완성과 삽입 작업을 통합하는 데 한계가 있으며, 입력 제어성이 부족하고 긴 비디오를 처리하는 데 어려움을 겪어 적용 범위와 유연성이 제한됩니다. 이러한 문제를 해결하기 위해, 우리는 전통적인 장면 완성과 새로운 객체 삽입 작업을 모두 처리할 수 있는 통합 다중 작업 비디오 인페인팅 프레임워크인 MTV-Inpaint를 제안합니다. 이러한 서로 다른 작업을 통합하기 위해, 우리는 T2V 확산 U-Net 내에 이중 분기 공간 주의 메커니즘을 설계하여 단일 프레임워크 내에서 장면 완성과 객체 삽입을 원활하게 통합할 수 있도록 했습니다. 텍스트 기반 지침 외에도, MTV-Inpaint는 제안된 이미지-투-비디오(I2V) 인페인팅 모드를 통해 다양한 이미지 인페인팅 모델을 통합하여 다중 모드 제어를 지원합니다. 또한, 키프레임 인페인팅과 중간 프레임 전파를 결합한 두 단계 파이프라인을 제안하여 MTV-Inpaint가 수백 프레임의 긴 비디오를 효과적으로 처리할 수 있도록 했습니다. 광범위한 실험을 통해 MTV-Inpaint가 장면 완성과 객체 삽입 작업 모두에서 최첨단 성능을 달성함을 입증했습니다. 더 나아가, 다중 모드 인페인팅, 객체 편집, 제거, 이미지 객체 브러시 및 긴 비디오 처리 능력과 같은 파생 응용 프로그램에서도 다재다능함을 보여주었습니다. 프로젝트 페이지: https://mtv-inpaint.github.io/.
비디오-오디오 합성은 시각적 콘텐츠에 동기화된 오디오를 생성함으로써 영화 및 인터랙티브 미디어에서 시청자의 몰입감과 내러티브 일관성을 크게 향상시킵니다. 그러나 긴 형식의 콘텐츠에 대한 비디오-오디오 더빙은 동적 의미 변화, 시간적 불일치, 전용 데이터셋의 부재로 인해 여전히 해결되지 않은 과제로 남아 있습니다. 기존 방법들은 짧은 비디오에서는 뛰어난 성능을 보이지만, 장면 간 일관성 부족과 단편적인 합성으로 인해 영화와 같은 긴 시나리오에서는 제대로 작동하지 못합니다. 우리는 전문 더빙 워크플로우를 모방한 협업적 역할 분담을 통해 이를 해결하는 새로운 다중 에이전트 프레임워크인 LVAS-Agent를 제안합니다. 우리의 접근 방식은 장면 분할, 대본 생성, 사운드 디자인, 오디오 합성을 포함한 네 단계로 긴 비디오 합성을 분해합니다. 주요 혁신으로는 장면/대본 개선을 위한 토론-수정 메커니즘과 시간적-의미적 정렬을 위한 생성-검색 루프가 포함됩니다. 체계적인 평가를 위해, 우리는 다양한 시나리오를 아우르는 207개의 전문적으로 큐레이션된 긴 비디오로 구성된 최초의 벤치마크인 LVAS-Bench를 소개합니다. 실험 결과, LVAS-Agent는 기준 방법들보다 우수한 오디오-비주얼 정렬을 보여줍니다. 프로젝트 페이지: https://lvas-agent.github.io
종종 주석 작성자 그룹과 최종 사용자 그룹 간의 요구 사항과 시각적 능력이 다릅니다. 시각 장애 및 저시력(BLV) 사용자를 위한 상세한 다이어그램 설명을 생성하는 것은 이러한 도전적인 영역 중 하나입니다. 시력이 있는 주석 작성자들은 시각 자료를 쉽게 설명할 수 있지만, 기존 연구에 따르면 그들이 직접 생성한 설명은 비용이 많이 들고, 편향되기 쉬우며, BLV 기준으로는 다소 부족한 것으로 나타났습니다. 본 연구에서는 시력이 있는 개인들에게 다중 패스 추론을 통해 잠재적 감독을 받은 시각-언어 모델(VLM)이 생성한 다이어그램 설명을 생성하는 대신 평가하도록 요청했습니다. 시력이 있는 평가자들의 평가는 BLV이며 시각 장애 학습자를 가르치는 전문 교육자들에게 효과적이고 유용한 것으로 입증되었습니다. 우리는 Sightation을 공개했는데, 이는 5천 개의 다이어그램과 13만 7천 개의 샘플로 구성된 다이어그램 설명 데이터셋 컬렉션으로, 완성, 선호도, 검색, 질문 응답 및 추론 훈련 목적을 위해 사용되며, 다양한 하위 작업에서의 미세 조정 가능성을 입증합니다.
비디오 파운데이션 모델(VFMs)은 최근 실제 세계를 시뮬레이션하여 물리적 AI 시스템을 훈련시키고 창의적인 시각적 경험을 개발하는 데 사용되고 있습니다. 그러나 고품질 비디오를 생성할 수 있는 대규모, 고품질 VFM을 훈련시키는 데는 상당한 어려움이 있습니다. 우리는 NVIDIA NeMo를 활용한 확장 가능한 오픈소스 VFM 훈련 파이프라인을 제시하며, 이는 가속화된 비디오 데이터셋 큐레이션, 멀티모달 데이터 로딩, 병렬화된 비디오 확산 모델 훈련 및 추론을 제공합니다. 또한, 효율적인 VFM 훈련 및 추론을 위한 모범 사례를 강조하는 포괄적인 성능 분석도 제공합니다.
다양한 자동회귀 비디오 확산 모델(Auto-Regressive Video Diffusion Models, ARVDM)이 현실적인 장편 비디오 생성에서 놀라운 성과를 거두고 있습니다. 그러나 이러한 모델에 대한 이론적 분석은 여전히 부족한 상황입니다. 본 연구에서는 이러한 모델에 대한 이론적 기반을 구축하고, 이를 통해 기존 모델의 성능을 개선하는 데 활용합니다. 먼저, 기존의 대부분의 방법을 포괄하는 통합 프레임워크인 Meta-ARVDM을 개발합니다. Meta-ARVDM을 사용하여 Meta-ARVDM이 생성한 비디오와 실제 비디오 간의 KL-발산(KL-divergence)을 분석합니다. 이 분석을 통해 ARVDM에 내재된 두 가지 중요한 현상, 즉 오류 누적(error accumulation)과 메모리 병목(memory bottleneck)을 발견합니다. 정보 이론적 불가능성 결과를 도출함으로써, 메모리 병목 현상을 피할 수 없음을 보여줍니다. 메모리 병목을 완화하기 위해, 더 많은 과거 프레임을 명시적으로 사용하는 다양한 네트워크 구조를 설계합니다. 또한 프레임을 압축함으로써 메모리 병목 완화와 추론 효율성 간의 균형을 크게 개선합니다. DMLab과 Minecraft에서의 실험 결과는 우리의 방법의 효용성을 입증합니다. 또한, 다양한 방법 간에 오류 누적과 메모리 병목 간의 파레토 최적(Pareto-frontier)을 실험적으로 보여줍니다.
스테레오 이미지는 확장 현실(XR) 장치, 자율 주행, 로봇 공학 등 다양한 응용 분야에서 기본적인 역할을 합니다. 그러나 이중 카메라 설정의 정밀한 캘리브레이션 요구 사항과 정확하고 조밀한 시차 지도를 얻는 복잡성으로 인해 고품질 스테레오 이미지를 획득하는 것은 여전히 어려운 과제입니다. 기존의 스테레오 이미지 생성 방법은 일반적으로 시각적 품질(시청용) 또는 기하학적 정확도(매칭용) 중 하나에 초점을 맞추고 있으며, 둘 다를 동시에 달성하지는 못했습니다. 우리는 이러한 격차를 해소하기 위해 확산 기반 접근법인 GenStereo를 소개합니다. 이 방법은 두 가지 주요 혁신을 포함합니다: (1) 시차 인식 좌표 임베딩과 왜곡된 입력 이미지를 기반으로 확산 과정을 조절하여 이전 방법보다 더 정확한 스테레오 정렬을 가능하게 하고, (2) 확산 생성 이미지와 왜곡된 이미지를 지능적으로 결합하는 적응형 융합 메커니즘을 통해 현실감과 시차 일관성을 모두 개선합니다. 11개의 다양한 스테레오 데이터셋에 대한 광범위한 학습을 통해 GenStereo는 강력한 일반화 능력을 입증했습니다. GenStereo는 스테레오 이미지 생성과 비지도 스테레오 매칭 작업 모두에서 최첨단 성능을 달성합니다. 우리의 프레임워크는 복잡한 하드웨어 설정 없이도 고품질 스테레오 이미지 생성을 가능하게 하여 실제 응용 분야와 비지도 학습 시나리오 모두에서 가치가 있습니다. 프로젝트 페이지는 https://qjizhi.github.io/genstereo에서 확인할 수 있습니다.
최근 연구에서는 대형 언어 모델의 불확실성을 정량화하여 모델 제어를 용이하게 하고 사용자 신뢰를 조절하려는 시도가 이루어졌다. 기존 연구는 이론적으로 근거가 있거나 모델의 평균적인 외적 행동을 반영하는 불확실성 측정 방법에 초점을 맞추었다. 본 연구에서는 인간 집단 수준의 불확실성과 상관관계가 있는 측정 방법을 식별하기 위해 다양한 불확실성 측정 방법을 조사한다. 우리는 베이지안 측정 방법과 엔트로피 측정 방법의 변형인 상위-k 엔트로피가 모델 크기에 따른 함수로서 인간 행동과 일치하는 경향이 있음을 발견했다. 또한 일부 강력한 측정 방법은 모델 크기가 커짐에 따라 인간과의 유사성이 감소하지만, 다중 선형 회귀 분석을 통해 여러 불확실성 측정 방법을 결합하면 크기 의존성을 줄이면서도 인간과의 일치성을 유지할 수 있음을 확인했다.
LLM(대형 언어 모델)에 대한 적대적 공격을 생성하기 위한 전통적인 화이트박스 방법은 일반적으로 대상 모델의 그래디언트 계산에만 의존하며, 공격의 성공 또는 실패를 책임지는 내부 메커니즘을 무시합니다. 반면, 이러한 내부 메커니즘을 분석하는 해석 가능성 연구는 런타임 개입을 넘어서는 실질적인 응용이 부족합니다. 우리는 이 간극을 메우기 위해 기계적 해석 가능성 기법을 활용하여 실질적인 적대적 입력을 생성하는 새로운 화이트박스 접근 방식을 소개합니다. 구체적으로, 우리는 먼저 모델의 거부 메커니즘을 트리거하지 않는 특성 벡터 집합인 '수용 서브스페이스'를 식별한 다음, 그래디언트 기반 최적화를 사용하여 임베딩을 거부 서브스페이스에서 수용 서브스페이스로 재라우팅하여 효과적으로 '탈옥(jailbreak)'을 달성합니다. 이 표적화된 접근 방식은 계산 비용을 크게 줄이며, Gemma2, Llama3.2, Qwen2.5과 같은 최신 모델에서 80-95%의 공격 성공률을 몇 분 또는 몇 초 만에 달성합니다. 이는 기존 기술이 종종 실패하거나 수 시간의 계산을 요구하는 것과 대조적입니다. 우리는 이 접근 방식이 공격 연구와 방어 개발 모두에 새로운 방향을 제시한다고 믿습니다. 더 나아가, 이는 다른 방법들이 덜 효율적인 상황에서 기계적 해석 가능성의 실질적인 응용을 보여주며, 그 유용성을 강조합니다. 코드와 생성된 데이터셋은 https://github.com/Sckathach/subspace-rerouting에서 확인할 수 있습니다.
심리학 분야에서는 인간이 시각적 자극을 분류할 때 사용하는 기본적인 범주화 수준을 오랫동안 인식해 왔으며, 이는 1976년 로쉐(Rosch)가 처음 명명한 개념입니다. 이 기본 범주화 수준은 가장 빈번하게 사용되고, 더 높은 정보 밀도를 가지며, 프라이밍(priming)을 통해 인간의 시각 언어 작업을 돕는 것으로 밝혀졌습니다. 본 연구에서는 최근 공개된 두 가지 오픈소스 시각-언어 모델(VLMs)에서 이러한 기본 범주화 수준을 조사합니다. 이 논문은 Llama 3.2 Vision Instruct (11B)와 Molmo 7B-D가 모두 인간의 행동과 일치하는 기본 범주화를 선호한다는 것을 보여줍니다. 더 나아가, 이 모델들의 선호도는 생물학적 대 비생물학적 기본 범주 효과나 잘 알려진 전문가 기본 범주 전환과 같은 미묘한 인간 행동과도 일치하며, 이는 VLMs가 학습된 인간 데이터로부터 인지적 범주화 행동을 습득한다는 것을 추가적으로 시사합니다.
최근 SoRA와 Kling과 같은 텍스트-투-비디오(T2V) 생성 기술의 급속한 발전은 세계 시뮬레이터 구축에 큰 잠재력을 보여주고 있습니다. 그러나 현재의 T2V 모델들은 추상적인 물리 법칙을 이해하고 물리 법칙을 준수하는 비디오를 생성하는 데 어려움을 겪고 있습니다. 이 문제는 주로 추상적인 물리 법칙과 생성 모델 간의 상당한 간격으로 인해 물리 정보에 대한 명확한 지침이 부족하기 때문에 발생합니다. 이를 해결하기 위해, 우리는 물리 법칙을 분해하고 T2V 모델에 통합하는 효과적인 프레임워크인 World Simulator Assistant(WISA)를 소개합니다. 구체적으로, WISA는 물리 법칙을 텍스트 기반 물리 설명, 정성적 물리 범주, 그리고 정량적 물리 속성으로 분해합니다. 이러한 물리 속성을 생성 과정에 효과적으로 포함시키기 위해, WISA는 Mixture-of-Physical-Experts Attention(MoPA)과 Physical Classifier를 포함한 여러 주요 설계를 도입하여 모델의 물리 인식을 강화합니다. 또한, 기존 데이터셋 대부분은 물리 현상이 약하게 표현되거나 여러 동시 발생 과정과 얽혀 있는 비디오를 포함하고 있어, 명시적인 물리 법칙을 학습하기 위한 전용 리소스로서의 적합성이 제한적입니다. 우리는 정성적 물리 범주를 기반으로 수집된 새로운 비디오 데이터셋인 WISA-32K를 제안합니다. 이 데이터셋은 동역학, 열역학, 광학의 세 가지 물리 영역에 걸친 17가지 물리 법칙을 나타내는 32,000개의 비디오로 구성됩니다. 실험 결과는 WISA가 T2V 모델의 실제 물리 법칙과의 호환성을 효과적으로 향상시키며, VideoPhy 벤치마크에서 상당한 개선을 달성할 수 있음을 보여줍니다. WISA와 WISA-32K의 시각적 예시는 https://360cvgroup.github.io/WISA/에서 확인할 수 있습니다.