번역이 포함된 일일 선별된 AI 연구 논문
멀티모달 대형 언어 모델(MLLMs)은 정적 이미지에서 뛰어난 성능을 보이지만, 오늘날 디지털 환경에서 주류를 이루는 동적이고 정보가 밀집된 짧은 형식의 비디오를 이해하는 데는 종종 한계를 보입니다. 이러한 격차를 해소하기 위해, 우리는 짧은 비디오 이해에서 최첨단 성능을 발휘하면서도 일반적인 시각-언어 능력을 유지할 수 있는 80억 개의 파라미터를 가진 멀티모달 기반 모델인 Kwai Keye-VL을 소개합니다. Keye-VL의 개발은 두 가지 핵심 요소에 기반합니다: 비디오에 중점을 둔 6000억 개 이상의 토큰으로 구성된 대규모 고품질 데이터셋과 혁신적인 훈련 방법론입니다. 이 방법론은 견고한 시각-언어 정렬을 위한 4단계 사전 훈련 과정과 세심한 2단계 사후 훈련 과정으로 구성됩니다. 첫 번째 사후 훈련 단계는 명령 수행과 같은 기본 기능을 강화하고, 두 번째 단계는 고급 추론 능력을 자극하는 데 초점을 맞춥니다. 이 두 번째 단계에서 핵심 혁신은 '생각', '비-생각', '자동-생각', '이미지와 함께 생각', 그리고 고품질 비디오 데이터를 포함한 5가지 모드의 '콜드 스타트' 데이터 혼합입니다. 이 혼합은 모델이 언제, 어떻게 추론할지 결정하도록 가르칩니다. 이후의 강화 학습(RL)과 정렬 단계는 이러한 추론 능력을 더욱 강화하고 반복 출력과 같은 비정상적인 모델 행동을 수정합니다. 우리의 접근 방식을 검증하기 위해, 우리는 광범위한 평가를 수행하여 Keye-VL이 공개 비디오 벤치마크에서 최첨단 결과를 달성하고 일반적인 이미지 기반 작업에서도 높은 경쟁력을 유지함을 보여줍니다(그림 1). 또한, 우리는 실제 짧은 비디오 시나리오에 맞춘 새로운 벤치마크인 KC-MMBench를 개발하고 공개했으며, Keye-VL은 여기서도 상당한 우위를 보입니다.
애니메이션 채색은 실제 애니메이션 산업 생산에서 중요한 부분을 차지합니다. 긴 애니메이션 채색은 높은 인건비를 요구합니다. 따라서, 비디오 생성 모델을 기반으로 한 자동화된 긴 애니메이션 채색은 상당한 연구 가치가 있습니다. 기존 연구는 단기간 채색에 국한되어 있습니다. 이러한 연구는 로컬 패러다임을 채택하여 겹치는 특징을 융합함으로써 로컬 세그먼트 간의 원활한 전환을 달성합니다. 그러나 로컬 패러다임은 전역 정보를 간과하여 장기간 색상 일관성을 유지하지 못합니다. 본 연구에서는 이상적인 장기간 색상 일관성이 동적 전역-로컬 패러다임, 즉 현재 생성과 관련된 전역 색상 일관성 특징을 동적으로 추출함으로써 달성될 수 있다고 주장합니다. 구체적으로, 우리는 SketchDiT, 동적 전역-로컬 메모리(DGLM), 그리고 색상 일관성 보상을 포함하는 새로운 프레임워크인 LongAnimation을 제안합니다. SketchDiT는 DGLM 모듈을 지원하기 위해 하이브리드 참조 특징을 캡처합니다. DGLM 모듈은 긴 비디오 이해 모델을 사용하여 전역 역사적 특징을 동적으로 압축하고 현재 생성 특징과 적응적으로 융합합니다. 색상 일관성을 개선하기 위해 색상 일관성 보상을 도입합니다. 추론 과정에서 비디오 세그먼트 전환을 원활하게 하기 위해 색상 일관성 융합을 제안합니다. 단기간(14프레임) 및 장기간(평균 500프레임) 애니메이션에 대한 광범위한 실험은 LongAnimation이 오픈 도메인 애니메이션 채색 작업에서 단기간 및 장기간 색상 일관성을 유지하는 데 효과적임을 보여줍니다. 코드는 https://cn-makers.github.io/long_animation_web/에서 확인할 수 있습니다.
우리는 다양한 환경 조건을 처리할 수 있는 기초 단안 깊이 추정(Depth Anything at Any Condition, DepthAnything-AC) 모델을 제안합니다. 기존의 기초 단안 깊이 추정 모델들은 일반적인 장면에서 인상적인 성능을 보이지만, 조명 변화, 악천후, 센서 왜곡과 같은 도전적인 조건이 포함된 복잡한 개방형 환경에서는 잘 작동하지 않습니다. 데이터 부족과 손상된 이미지에서 고품질의 의사 레이블을 생성할 수 없는 문제를 극복하기 위해, 우리는 비교적 적은 양의 레이블 없는 데이터만 필요한 비지도 일관성 정규화 미세 조정 패러다임을 제안합니다. 또한, 패치 수준의 상대적 관계를 명시적으로 학습하도록 모델을 강제하는 공간 거리 제약(Spatial Distance Constraint)을 제안하여 더 명확한 의미 경계와 더 정확한 세부 사항을 얻을 수 있도록 합니다. 실험 결과는 DepthAnything-AC의 제로샷 능력을 다양한 벤치마크에서 입증하며, 이는 실제 악천후 벤치마크, 합성 손상 벤치마크, 일반 벤치마크를 포함합니다. 프로젝트 페이지: https://ghost233lism.github.io/depthanything-AC-page 코드: https://github.com/HVision-NKU/DepthAnythingAC
비전과 언어 기반 모델의 다중모달 이해, 추론 및 생성 분야에서의 놀라운 발전은 이러한 지능을 물리적 세계로 확장하려는 노력을 촉발시켜, 비전-언어-행동(VLA) 모델의 급속한 성장을 이끌고 있습니다. 겉보기에는 다양한 접근 방식이 존재하지만, 현재의 VLA 모델들은 단일 프레임워크로 통합될 수 있음을 관찰했습니다: 비전과 언어 입력은 일련의 VLA 모듈에 의해 처리되며, 점점 더 구체적이고 실행 가능한 정보를 인코딩하는 일련의 액션 토큰을 생성하여 최종적으로 실행 가능한 행동을 생성합니다. 우리는 VLA 모델을 구분하는 주요 설계 선택이 액션 토큰이 어떻게 형성되는지에 있다고 판단했으며, 이를 언어 설명, 코드, 어포던스, 궤적, 목표 상태, 잠재 표현, 원시 행동, 추론 등으로 분류할 수 있습니다. 그러나 액션 토큰에 대한 포괄적인 이해가 여전히 부족하여 효과적인 VLA 개발을 저해하고 미래 방향을 모호하게 만들고 있습니다. 따라서 본 조사는 액션 토큰화의 관점에서 기존 VLA 연구를 분류하고 해석하며, 각 토큰 유형의 강점과 한계를 도출하고 개선할 부분을 식별하는 것을 목표로 합니다. 이 체계적인 리뷰와 분석을 통해 우리는 VLA 모델의 더 넓은 진화에 대한 종합적인 전망을 제시하고, 아직 충분히 탐구되지 않았지만 유망한 방향을 강조하며, 미래 연구를 위한 지침을 제공함으로써 이 분야가 범용 지능에 한 걸음 더 다가가기를 기대합니다.
우리는 자기회귀적 이미지 생성을 가속화하기 위해 Locality-aware Parallel Decoding(LPD)를 제안한다. 전통적인 자기회귀적 이미지 생성은 메모리 제약이 심한 다음 패치 예측에 의존하며, 이는 높은 지연 시간을 초래한다. 기존 연구들은 다중 패치 예측으로 전환하여 다음 패치 예측을 병렬화하려 시도했지만, 제한된 병렬화만 달성했다. 높은 병렬화를 달성하면서도 생성 품질을 유지하기 위해, 우리는 두 가지 핵심 기술을 도입했다: (1) Flexible Parallelized Autoregressive Modeling은 임의의 생성 순서와 병렬화 정도를 가능하게 하는 새로운 아키텍처이다. 이는 학습 가능한 위치 쿼리 토큰을 사용하여 목표 위치에서의 생성을 안내하면서, 동시에 생성되는 토큰 간의 상호 가시성을 보장하여 일관된 병렬 디코딩을 가능하게 한다. (2) Locality-aware Generation Ordering은 그룹 내 의존성을 최소화하고 문맥적 지원을 극대화하여 생성 품질을 향상시키는 새로운 스케줄링 방법이다. 이러한 설계를 통해, ImageNet 클래스 조건부 생성에서 256×256 해상도에서는 생성 단계를 256에서 20으로, 512×512 해상도에서는 1024에서 48로 줄이면서도 품질을 저하시키지 않았으며, 이전의 병렬화된 자기회귀 모델 대비 최소 3.4배 낮은 지연 시간을 달성했다.
본 논문에서는 서로 다른 의미론(semantics) 또는 레이아웃을 가진 입력을 처리할 수 있는 최초의 튜닝 프리(tuning-free) 이미지 모핑(morphing) 방법인 FreeMorph를 소개한다. 기존 방법들은 사전 학습된 확산 모델(diffusion model)을 미세 조정(finetuning)하는 데 의존하며, 시간적 제약과 의미론/레이아웃 불일치로 인해 한계가 있었다. 반면, FreeMorph는 인스턴스별 학습 없이도 고품질의 이미지 모핑을 제공한다. 튜닝 프리 방법은 효율성과 잠재력에도 불구하고, 다단계 비선형 디노이징(denoising) 과정과 사전 학습된 확산 모델에서 상속된 편향으로 인해 고품질 결과를 유지하는 데 어려움을 겪는다. 본 논문에서는 이러한 문제를 해결하기 위해 두 가지 핵심 혁신을 통합한 FreeMorph를 제안한다. 첫째, 입력 이미지로부터 명시적 지침을 포함하는 가이던스 인식 구면 보간(guidance-aware spherical interpolation) 설계를 제안한다. 이를 위해 자기 주의(self-attention) 모듈을 수정하여 아이덴티티 손실(identity loss)을 해결하고 생성된 시퀀스 전반에 걸쳐 방향성 전환을 보장한다. 둘째, 각 입력 이미지에서 도출된 자기 주의 모듈을 혼합하여 두 입력을 모두 존중하는 제어된 일관된 전환을 달성하는 단계 지향 변동 경향(step-oriented variation trend)을 도입한다. 광범위한 평가를 통해 FreeMorph가 기존 방법들을 능가하며, 10배에서 50배 더 빠른 속도로 이미지 모핑 분야의 새로운 최첨단 기술을 확립함을 입증한다.
자동화된 방사선학 보고서 생성(RRG)은 컴퓨터 단층촬영(CT) 스캔과 같은 임상 영상으로부터 상세한 텍스트 보고서를 생성하여 진단의 정확성과 효율성을 향상시키고 관리 조언을 제공하는 것을 목표로 합니다. RRG는 두 가지 주요 과제로 인해 복잡합니다: (1) 자원 제약 하에서 영상 데이터로부터 관련 정보를 추출하는 데 있어 내재된 복잡성, (2) 모델 생성 보고서와 전문가 작성 보고서 간의 차이를 객관적으로 평가하는 데 어려움. 이러한 과제를 해결하기 위해, 우리는 RRG 작업을 위한 **mu**ltiscale **mu**ltimodal 대규모 언어 모델(mu^2LLM)을 제안합니다. 새로운 {mu}^2Tokenizer는 중간 계층으로서, 다중 스케일 시각 토크나이저와 텍스트 토크나이저로부터 다중 모달 특징을 통합하고, GREEN-RedLlama의 지도 하에 직접 선호 최적화(DPO)를 통해 보고서 생성 품질을 향상시킵니다. 네 개의 대규모 CT 영상-보고서 의료 데이터셋에 대한 실험 결과는 우리의 방법이 기존 접근법을 능가하며, 제한된 데이터에 대해 미세 조정된 mu^2LLM의 RRG 작업에서의 잠재력을 강조합니다.
머신러닝의 과학적 응용은 종종 특정 도메인에 맞춰 조정된 소규모의 전문 모델에 의존합니다. 이러한 모델은 뛰어난 성능을 달성하지만 유연성이 부족합니다. 파운데이션 모델은 다재다능성을 제공하지만, 특히 비전통적인 모달리티와 롱테일 도메인에서 전문적인 접근 방식에 비해 성능이 떨어지는 경우가 많습니다. 우리는 MARVIS(Modality Adaptive Reasoning over VISualizations)를 제안합니다. 이는 훈련이 필요 없는 방법으로, 작은 비전-언어 모델도 어떤 데이터 모달리티든 높은 정확도로 예측할 수 있게 합니다. MARVIS는 잠재 임베딩 공간을 시각적 표현으로 변환한 다음, VLM의 공간적 및 세밀한 추론 능력을 활용하여 이를 성공적으로 해석하고 활용합니다. MARVIS는 단일 3B 파라미터 모델을 사용하여 비전, 오디오, 생물학, 테이블 형식의 도메인에서 경쟁력 있는 성능을 달성하며, 평균적으로 Gemini를 16% 앞서고 전문적인 방법에 근접한 결과를 얻습니다. 이 과정에서 개인 식별 정보(P.I.I.)를 노출시키거나 도메인별 훈련을 요구하지 않습니다. 우리는 코드와 데이터셋을 https://github.com/penfever/marvis에서 오픈소스로 공개합니다.
대면 커뮤니케이션은 인간의 일반적인 활동으로서, 상호작용적 헤드 생성에 대한 연구를 촉진한다. 가상 에이전트는 다른 사용자와 자신의 오디오 또는 모션 신호를 기반으로 청취 및 발화 능력을 모두 갖춘 모션 응답을 생성할 수 있다. 그러나 기존의 클립 단위 생성 패러다임이나 명시적인 청취자/발화자 생성기 전환 방법은 미래 신호 획득, 맥락적 행동 이해, 전환의 부드러움에 있어 한계가 있어 실시간 및 현실감을 달성하기 어렵다. 본 논문에서는 더 나은 상호작용 현실감을 갖춘 실시간 생성을 구현하기 위해 ARIG라는 이름의 자기회귀(AR) 기반 프레임 단위 프레임워크를 제안한다. 실시간 생성을 달성하기 위해, 우리는 모션 예측을 비벡터 양자화된 AR 프로세스로 모델링한다. 이산 코드북 인덱스 예측과 달리, 우리는 확산 절차를 사용하여 모션 분포를 표현함으로써 연속 공간에서 더 정확한 예측을 달성한다. 상호작용 현실감을 향상시키기 위해, 우리는 상호작용 행동 이해(IBU)와 상세한 대화 상태 이해(CSU)를 강조한다. IBU에서는 듀얼 트랙 듀얼 모달 신호를 기반으로, 양방향 통합 학습을 통해 단기 행동을 요약하고 장기간에 걸친 맥락적 이해를 수행한다. CSU에서는 음성 활동 신호와 IBU의 맥락 특징을 사용하여 실제 대화에 존재하는 다양한 상태(중단, 피드백, 일시 정지 등)를 이해한다. 이들은 최종적인 점진적 모션 예측을 위한 조건으로 작용한다. 광범위한 실험을 통해 우리 모델의 효과성을 검증하였다.
얼굴 움직임과 음성 간의 본질적인 연결은 생성 모델링에서 종종 간과되곤 하며, 이는 일반적으로 말하는 머리 합성과 텍스트-음성 변환(TTS)을 별개의 작업으로 다루기 때문입니다. 본 논문은 JAM-Flow를 소개하며, 이는 얼굴 움직임과 음성을 동시에 합성하고 조건화할 수 있는 통합 프레임워크입니다. 우리의 접근 방식은 플로우 매칭(flow matching)과 새로운 다중 모달 디퓨전 트랜스포머(Multi-Modal Diffusion Transformer, MM-DiT) 아키텍처를 활용하며, 여기에는 특화된 Motion-DiT와 Audio-DiT 모듈이 통합되어 있습니다. 이 모듈들은 선택적 공동 주의(selective joint attention) 레이어를 통해 결합되며, 시간적으로 정렬된 위치 임베딩(temporally aligned positional embeddings)과 지역화된 공동 주의 마스킹(localized joint attention masking)과 같은 주요 아키텍처 선택을 포함하여 효과적인 교차 모달 상호작용을 가능하게 하면서도 각 모달리티의 특정 강점을 보존합니다. 인페인팅(inpainting) 스타일의 목적 함수로 학습된 JAM-Flow는 텍스트, 참조 오디오, 참조 움직임을 포함한 다양한 조건 입력을 지원하며, 텍스트에서 동기화된 말하는 머리 생성, 오디오 기반 애니메이션 등 다양한 작업을 단일 일관된 모델 내에서 수행할 수 있도록 합니다. JAM-Flow는 전체적인 오디오-비주얼 합성을 위한 실용적인 솔루션을 제공함으로써 다중 모달 생성 모델링을 크게 발전시킵니다. 프로젝트 페이지: https://joonghyuk.com/jamflow-web
다중 선택형 벤치마크는 채점이 객관적이고 자동화가 용이하다는 이유로 오랫동안 언어 모델 평가의 주력 도구로 사용되어 왔습니다. 그러나 우리는 인기 있는 벤치마크의 다중 선택형 문제들이 종종 질문을 보지 않고도 답할 수 있다는 점을 보여줍니다. 이러한 단점은 모델의 자유 형식 생성 답변 평가와는 달리 판별적 평가의 근본적인 한계에서 비롯됩니다. 최근까지는 다중 선택형 평가에 대한 실용적이고 확장 가능한 대안이 없어 보였지만, 우리는 이 상황이 바뀌었음을 보여줍니다. 우리는 '답변 매칭'이라는 방법을 통해 생성적 평가를 고려합니다: 후보 모델에 선택지를 제외한 질문을 제공하고, 자유 형식의 답변을 생성하도록 한 다음, 참조 답변과 함께 최신 언어 모델을 사용하여 생성된 답변이 참조 답변과 일치하는지 판단합니다. 다양한 평가 전략의 타당성을 비교하기 위해, 우리는 MMLU-Pro와 GPQA-Diamond에 주석을 달아 인간 평가 데이터를 수집하고 각 평가 접근법의 일치도를 측정했습니다. 우리는 최신 모델(심지어 작은 모델도)을 사용한 답변 매칭이 평가자 간 일치도 수준에 가까운 거의 완벽한 일치를 달성한다는 것을 발견했습니다. 반면, 다중 선택형 평가와 참조 답변 없이 LLM-as-a-judge를 사용하는 방법은 인간 평가와 잘 맞지 않았습니다. 답변 매칭을 통한 평가 개선은 단순히 개념적인 문제가 아닙니다: 여러 모델의 순위는 자유 형식 답변을 답변 매칭으로 평가할 때 상당히 달라집니다. 이러한 발견을 바탕으로, 우리는 평가 생태계를 다중 선택형에서 답변 매칭으로 전환하는 방법에 대해 논의합니다.
이전의 텍스트 기반 비디오 편집 방법들은 종종 시간적 불일치, 움직임 왜곡, 그리고 가장 두드러지게는 제한된 도메인 변환 문제를 겪곤 했습니다. 우리는 이러한 한계를 편집 과정에서 시공간적 픽셀 관련성의 불충분한 모델링으로 인한 것으로 파악했습니다. 이를 해결하기 위해, 우리는 STR-Match라는 학습이 필요 없는 비디오 편색 알고리즘을 제안합니다. 이 알고리즘은 우리의 새로운 STR 점수에 기반한 잠재적 최적화를 통해 시각적으로 매력적이고 시공간적으로 일관된 비디오를 생성합니다. 이 점수는 텍스트-투-비디오(T2V) 확산 모델에서 2D 공간적 주의 메커니즘과 1D 시간적 모듈을 활용하여 인접 프레임 간의 시공간적 픽셀 관련성을 포착하며, 계산 비용이 많이 드는 3D 주의 메커니즘을 사용하지 않습니다. 잠재적 마스크와 함께 잠재적 최적화 프레임워크에 통합된 STR-Match는 시간적으로 일관되고 시각적으로 충실한 비디오를 생성하며, 중요한 도메인 변환에서도 강력한 성능을 유지하면서 소스의 주요 시각적 속성을 보존합니다. 광범위한 실험을 통해 STR-Match가 시각적 품질과 시공간적 일관성 모두에서 기존 방법들을 꾸준히 능가함을 입증했습니다.