번역이 포함된 일일 선별된 AI 연구 논문
카메라 모션 이해를 평가하고 개선하기 위해 설계된 대규모 데이터셋 및 벤치마크인 CameraBench를 소개합니다. CameraBench는 약 3,000개의 다양한 인터넷 비디오로 구성되어 있으며, 엄격한 다단계 품질 관리 과정을 거쳐 전문가들이 주석을 달았습니다. 우리의 주요 기여 중 하나는 촬영 기사들과의 협업을 통해 설계된 카메라 모션 기본 요소의 분류 체계입니다. 예를 들어, "따라가기"(또는 트래킹)와 같은 일부 모션은 움직이는 피사체와 같은 장면 내용을 이해해야 합니다. 우리는 대규모 인간 연구를 통해 인간 주석 성능을 정량화했으며, 도메인 전문 지식과 튜토리얼 기반 훈련이 정확도를 크게 향상시킬 수 있음을 밝혔습니다. 예를 들어, 초보자는 줌인(내부 매개변수의 변화)과 전진 이동(외부 매개변수의 변화)을 혼동할 수 있지만, 이를 구별하도록 훈련될 수 있습니다. CameraBench를 사용하여 Structure-from-Motion(SfM)과 Video-Language Models(VLMs)을 평가한 결과, SfM 모델은 장면 내용에 의존하는 의미론적 기본 요소를 포착하는 데 어려움을 겪는 반면, VLMs은 궤적의 정확한 추정이 필요한 기하학적 기본 요소를 포착하는 데 어려움을 겪는 것으로 나타났습니다. 그런 다음 CameraBench에서 생성적 VLM을 미세 조정하여 두 가지의 장점을 모두 갖추고, 모션 보강 캡셔닝, 비디오 질문 응답, 비디오-텍스트 검색을 포함한 응용 사례를 보여줍니다. 우리의 분류 체계, 벤치마크, 튜토리얼이 어떤 비디오에서도 카메라 모션을 이해하려는 궁극적인 목표를 향한 미래의 노력을 이끌어가길 바랍니다.
우리는 차세대 멀티모달 추론 모델인 Skywork R1V2를 소개하며, 이는 이전 버전인 Skywork R1V에서 큰 도약을 이룬 모델입니다. R1V2의 핵심은 보상 모델 지도와 규칙 기반 전략을 조화롭게 통합한 하이브리드 강화 학습 패러다임을 도입함으로써, 정교한 추론 능력과 광범위한 일반화 사이의 오랜 문제를 해결했습니다. 또한, 훈련 효율성을 더욱 향상시키기 위해 선택적 샘플 버퍼(SSB) 메커니즘을 제안했습니다. 이 메커니즘은 그룹 상대 정책 최적화(GRPO)에서 발생하는 "소실된 이점" 딜레마를 해결하기 위해 최적화 과정에서 고가치 샘플을 우선적으로 처리합니다. 특히, 과도한 강화 신호가 시각적 환각을 유발할 수 있다는 점을 관찰했으며, 이를 훈련 과정 전반에 걸쳐 보정된 보상 임계값을 통해 체계적으로 모니터링하고 완화했습니다. 실험 결과는 R1V2의 탁월한 능력을 입증하며, OlympiadBench에서 62.6, AIME2024에서 79.0, LiveCodeBench에서 63.6, MMMU에서 74.0과 같은 벤치마크 선두 성적을 기록했습니다. 이러한 결과는 R1V2가 기존 오픈소스 모델을 뛰어넘는 우수성을 보여주며, Gemini 2.5 및 OpenAI o4-mini와 같은 주요 독점 시스템과의 성능 격차를 크게 좁혔음을 입증합니다. Skywork R1V2 모델 가중치는 공개되어 개방성과 재현성을 촉진합니다. https://huggingface.co/Skywork/Skywork-R1V2-38B.
1비트 대형 언어 모델(LLMs)의 효율적인 배치는 낮은 비트 폭으로의 양자화를 복잡하게 만드는 활성화 이상치(activation outliers)로 인해 어려움을 겪고 있습니다. 우리는 1비트 LLMs를 위한 네이티브 4비트 활성화 양자화를 가능하게 하는 새로운 프레임워크인 BitNet v2를 소개합니다. 어텐션 및 피드포워드 네트워크 활성화에서의 이상치를 해결하기 위해, 우리는 활성화 양자화 전에 온라인 Hadamard 변환을 적용하는 H-BitLinear 모듈을 제안합니다. 이 변환은 날카로운 활성화 분포를 더 가우시안 형태로 부드럽게 만들어, 낮은 비트 표현에 적합하게 합니다. 실험 결과, 8비트 활성화로 처음부터 학습된 BitNet v2는 BitNet b1.58의 성능과 일치함을 보여줍니다. 특히, BitNet v2는 네이티브 4비트 활성화로 학습할 때 최소한의 성능 저하를 달성하며, 배치 추론을 위한 메모리 사용량과 계산 비용을 크게 줄입니다.
다중모달 AI 시스템의 비디오 이해 능력을 평가하는 것은 해당 시스템의 이해와 추론 능력을 효과적으로 측정할 수 있는 방법입니다. 대부분의 비디오 평가 벤치마크는 단일 언어, 주로 영어로 제한되어 있으며, 서양 문화적 배경에 기반한 비디오가 주를 이루고 있습니다. 본 논문에서는 비디오 이해에서 문화적, 언어적, 도메인 간 격차를 해소하기 위해 설계된 최초의 비디오 평가 벤치마크인 VideoVista-CulturalLingo를 소개합니다. 우리의 작업은 기존 벤치마크와 다음과 같은 점에서 차별화됩니다: 1) 중국, 북미, 유럽의 문화적 다양성을 포함; 2) 중국어와 영어라는 두 가지 가장 널리 사용되는 언어로 질문을 제공; 3) 수백 개의 인간이 만든 도메인에서 추출한 비디오를 포함하는 광범위한 도메인. VideoVista-CulturalLingo는 1,389개의 비디오와 3,134개의 질문-답변 쌍을 포함하며, 최근의 24개 오픈소스 또는 상용 비디오 대형 모델을 평가했습니다. 실험 결과를 통해 다음과 같은 관찰을 얻었습니다: 1) 기존 모델들은 중국 중심 질문, 특히 중국 역사와 관련된 질문에서 서양 중심 질문보다 더 낮은 성능을 보임; 2) 현재의 오픈소스 모델들은 시간적 이해, 특히 이벤트 위치 파악 작업에서 여전히 한계를 보이며, 최대 점수가 45.2%에 그침; 3) 주류 모델들은 일반 과학 질문에서 강력한 성능을 보이는 반면, 오픈소스 모델들은 수학 관련 질문에서 약한 성능을 보임.
우리는 오디오 이해, 생성, 대화 분야에서 탁월한 성능을 보이는 오픈소스 오디오 기반 모델인 Kimi-Audio를 소개합니다. 본 논문에서는 Kimi-Audio의 구축 과정을 모델 아키텍처, 데이터 큐레이션, 학습 레시피, 추론 배포, 평가 등으로 상세히 설명합니다. 구체적으로, 12.5Hz 오디오 토크나이저를 활용하고, 연속적인 특징을 입력으로, 이산 토큰을 출력으로 하는 새로운 LLM 기반 아키텍처를 설계하며, 플로우 매칭 기반의 청크 단위 스트리밍 디토크나이저를 개발했습니다. 1,300만 시간 이상의 오디오 데이터로 구성된 사전 학습 데이터셋을 큐레이션하였으며, 이는 음성, 소리, 음악 등 다양한 모달리티를 포함합니다. 또한, 고품질이고 다양한 사후 학습 데이터를 구축하기 위한 파이프라인을 구축했습니다. 사전 학습된 LLM으로 초기화된 Kimi-Audio는 오디오와 텍스트 데이터를 대상으로 여러 신중하게 설계된 작업을 통해 지속적으로 사전 학습되었으며, 이후 다양한 오디오 관련 작업을 지원하기 위해 미세 조정되었습니다. 광범위한 평가 결과, Kimi-Audio는 음성 인식, 오디오 이해, 오디오 질의응답, 음성 대화 등 다양한 오디오 벤치마크에서 최첨단 성능을 달성함을 보여줍니다. 코드, 모델 체크포인트, 평가 툴킷을 https://github.com/MoonshotAI/Kimi-Audio에서 공개합니다.
다중모달 언어 분석은 인간 대화 발화의 고차원적 의미를 더 깊이 이해하기 위해 여러 모달리티를 활용하는 빠르게 발전하는 분야입니다. 그 중요성에도 불구하고, 다중모달 대형 언어 모델(MLLMs)이 인지 수준의 의미를 이해하는 능력을 조사한 연구는 거의 없습니다. 본 논문에서는 이러한 격차를 해소하기 위해 특별히 설계된 포괄적인 벤치마크인 MMLA를 소개합니다. MMLA는 연출된 시나리오와 실제 상황에서 추출한 61,000개 이상의 다중모달 발화로 구성되어 있으며, 의도, 감정, 대화 행위, 감정, 말투, 커뮤니케이션 행동이라는 다중모달 의미의 여섯 가지 핵심 차원을 다룹니다. 우리는 여덟 가지 주요 LLM 및 MLLM 분야를 제로샷 추론, 지도 미세 조정, 명령어 튜닝이라는 세 가지 방법으로 평가했습니다. 광범위한 실험 결과, 미세 조정된 모델조차도 약 60%~70%의 정확도만 달성하는 것으로 나타나, 현재의 MLLM이 복잡한 인간 언어를 이해하는 데 한계가 있음을 보여줍니다. 우리는 MMLA가 다중모달 언어 분석에서 대형 언어 모델의 잠재력을 탐구하는 데 견고한 기반이 되고, 이 분야를 발전시키는 데 유용한 자원을 제공할 것이라고 믿습니다. 데이터셋과 코드는 https://github.com/thuiar/MMLA에서 공개되었습니다.
사전 학습된 대형 언어 모델(LLM)의 수는 꾸준히 증가하고 있지만, 대부분은 주로 영어를 위해 설계되었습니다. 최첨단 LLM은 언어 오염이나 다국어 사전 학습 데이터의 어느 정도로 인해 다른 언어를 처리할 수 있지만, 비영어권 언어에 최적화되어 있지 않아 비효율적인 인코딩(높은 토큰 "생산성")과 느린 추론 속도를 초래합니다. 본 연구에서는 영어 LLM을 이탈리아어에 최적화하기 위한 다양한 어휘 적응 기법을 철저히 비교하고, 신경 매핑을 활용한 어휘 대체의 새로운 방법인 의미 정렬 어휘 적응(Semantic Alignment Vocabulary Adaptation, SAVA)을 제안합니다. SAVA는 다중 하위 작업에서 경쟁력 있는 성능을 달성하며, 근거 정렬 전략을 강화합니다. 우리는 두 가지 LLM을 적응시켰습니다: Mistral-7b-v0.1은 토큰 생산성을 25% 줄였고, Llama-3.1-8B는 어휘를 최적화하고 매개변수 수를 10억 개 줄였습니다. 어휘 적응 후, 이러한 모델들이 상대적으로 제한된 지속 학습 단계를 통해 목표 언어에서 성능을 회복할 수 있음을 보여줍니다. 마지막으로, 적응된 모델의 능력을 다양한 객관식 및 생성 작업에서 테스트합니다.
희소 주의(Sparse attention)는 Transformer 대형 언어 모델(LLM)의 장문맥 처리 능력을 확장하기 위한 유망한 전략을 제공하지만, 그 실행 가능성, 효율성-정확성 간의 상충 관계, 그리고 체계적인 스케일링 연구는 아직 탐구되지 않았습니다. 이러한 격차를 해소하기 위해, 우리는 다양한 모델 규모, 시퀀스 길이, 그리고 희소성 수준에서의 학습 없이 적용 가능한 희소 주의 방법들을 신중하게 비교 분석했습니다. 이 비교는 자연어를 기반으로 하면서도 통제 가능하고 평가가 쉬운 새로운 장문맥 작업들을 포함한 다양한 작업 집합에서 수행되었습니다. 우리의 실험을 바탕으로 다음과 같은 주요 발견들을 보고합니다: 1) isoFLOPS 분석 결과, 매우 긴 시퀀스의 경우 더 크고 높은 희소성을 가진 모델이 더 작고 밀도 높은 모델보다 선호됨을 확인했습니다. 2) 정확도 보존을 통계적으로 보장할 수 있는 희소성 수준은 디코딩 단계에서 프리필링 단계보다 높으며, 전자의 경우 모델 크기와 상관관계가 있습니다. 3) 모든 작업과 단계에서 최고의 성능을 보이는 명확한 전략은 없으며, 서로 다른 시나리오에서는 다른 희소화 단위나 예산 적응성이 필요합니다. 심지어 중간 수준의 희소성도 적어도 하나의 작업에서 상당한 성능 저하를 초래하는 경우가 많아, 희소 주의가 보편적인 해결책이 아님을 강조합니다. 4) 우리는 희소 주의에 특화된 새로운 스케일링 법칙을 소개하고 검증하여, 우리의 발견이 실험 범위를 넘어서도 유효할 가능성이 높음을 입증했습니다. 이러한 통찰을 통해, 희소 주의가 Transformer LLM의 장문맥 처리 능력을 향상시키는 핵심 도구임을 보여주지만, 성능에 민감한 애플리케이션에서는 상충 관계를 신중히 평가해야 함을 입증했습니다.
RAG, 검색, 소스 요약을 위한 새로운 세대의 소형 추론 모델을 소개합니다. Pleias-RAG-350m과 Pleias-RAG-1B는 Common Corpus의 다양한 다국어 오픈 소스 검색을 모방한 대규모 합성 데이터셋에서 중간 학습을 거쳤습니다. 이 모델들은 인용 및 문자 그대로의 인용문을 통한 근거 제시를 기본적으로 지원하며, 쿼리 라우팅, 쿼리 재구성, 소스 재순위 지정 등 RAG 워크플로우와 관련된 여러 기능을 통합합니다. Pleias-RAG-350m과 Pleias-RAG-1B는 표준화된 RAG 벤치마크(HotPotQA, 2wiki)에서 40억 파라미터 미만의 소형 언어 모델(SLM)을 능가하며, Qwen-2.5-7B, Llama-3.1-8B, Gemma-3-4B와 같은 대형 모델과도 경쟁력을 보입니다. 이들은 주요 유럽 언어에서 일관된 RAG 성능을 유지하고, 주장에 대한 체계적인 참조 근거를 보장하는 유일한 SLM입니다. 이 모델들은 크기가 작고 제한된 인프라에서의 배포가 용이하며, 설계상 높은 사실성을 갖추고 있어 생성형 AI의 새로운 사용 사례를 열어줍니다.
우리는 제로샷 설정에서 추가 튜닝 없이 주체 특정 학습과 시간적 동역학을 분리하여 주체 중심 맞춤형 비디오 생성 모델을 학습하는 방법을 제안한다. 튜닝이 필요 없는 기존의 비디오 맞춤화 방법은 대규모 주석이 달린 비디오 데이터셋에 의존하는 경우가 많으며, 이는 계산 비용이 많이 들고 광범위한 주석 작업이 필요하다. 이전 접근 방식과 달리, 우리는 이미지 맞춤화 데이터셋을 직접 사용하여 비디오 맞춤화 모델을 학습하는 방법을 도입함으로써 비디오 맞춤화를 두 가지로 분해한다: (1) 이미지 맞춤화 데이터셋을 통한 주체 주입과 (2) 이미지-비디오 학습 방법을 통해 소규모의 주석이 없는 비디오 집합을 사용한 시간적 모델링 보존. 또한, 이미지-비디오 미세 조정 중에 무작위 이미지 토큰 드롭과 무작위 이미지 초기화를 적용하여 복사-붙여넣기 문제를 완화한다. 더 나아가, 주체 특정 특징과 시간적 특징의 공동 최적화 과정에서 확률적 전환을 도입하여 치명적 망각(catastrophic forgetting)을 완화한다. 우리의 방법은 강력한 주체 일관성과 확장성을 달성하며, 제로샷 설정에서 기존의 비디오 맞춤화 모델을 능가하여 우리 프레임워크의 효과성을 입증한다.
효과적인 추론은 금융 도메인에서 대규모 언어 모델(LLMs)의 핵심 과제로 남아 있습니다. 이 도메인에서는 도메인 특화 지식, 정확한 수치 계산, 그리고 엄격한 규정 준수가 종종 요구됩니다. 우리는 이러한 과제를 해결하기 위해 추론 강화 감독과 강화 학습을 통해 설계된 DianJin-R1 프레임워크를 제안합니다. 우리의 접근 방식의 핵심은 CFLUE, FinQA, 그리고 독자적인 규정 준수 코퍼스(Chinese Compliance Check, CCC)로부터 구성된 고품질 데이터셋인 DianJin-R1-Data입니다. 이 데이터셋은 다양한 금융 추론 시나리오와 검증된 주석을 결합합니다. 우리의 모델인 DianJin-R1-7B와 DianJin-R1-32B는 Qwen2.5-7B-Instruct와 Qwen2.5-32B-Instruct로부터 미세 조정되었으며, 추론 단계와 최종 답변을 모두 생성하는 구조화된 형식을 사용합니다. 추론 품질을 더욱 개선하기 위해, 우리는 구조화된 출력을 장려하는 하나의 보상 신호와 답변 정확성을 보상하는 또 다른 신호를 통합한 강화 학습 방법인 Group Relative Policy Optimization(GRPO)을 적용합니다. 우리는 모델을 다섯 가지 벤치마크에서 평가합니다: 세 가지 금융 데이터셋(CFLUE, FinQA, CCC)과 두 가지 일반 추론 벤치마크(MATH-500, GPQA-Diamond). 실험 결과는 DianJin-R1 모델이 특히 복잡한 금융 작업에서 비추론 대응 모델을 지속적으로 능가함을 보여줍니다. 더욱이, 실제 CCC 데이터셋에서 우리의 단일 호출 추론 모델은 훨씬 더 많은 계산 비용을 요구하는 다중 에이전트 시스템의 성능을 따라잡거나 심지어 능가합니다. 이러한 결과는 DianJin-R1이 구조화된 감독과 보상 정렬 학습을 통해 금융 추론을 강화하는 데 효과적임을 보여주며, 실제 응용 프로그램을 위한 확장 가능하고 실용적인 솔루션을 제공합니다.
단일 레이블 예제가 주어졌을 때, 인-컨텍스트 세그멘테이션은 해당 객체를 분할하는 것을 목표로 합니다. 이 설정은 퓨샷 러닝에서 원샷 세그멘테이션으로 알려져 있으며, 세그멘테이션 모델의 일반화 능력을 탐구하며 장면 이해 및 이미지/비디오 편집을 포함한 다양한 비전 작업에 적용되어 왔습니다. 최근 세그먼트 애니씽 모델(Segment Anything Models, SAM)이 인터랙티브 세그멘테이션에서 최첨단 결과를 달성했지만, 이러한 접근 방식은 인-컨텍스트 세그멘테이션에 직접적으로 적용할 수 없습니다. 본 연구에서는 이미지와 비디오 모두에 대한 인-컨텍스트 세그멘테이션을 위해 SAM과 SAM2를 적응시키기 위해 프롬프트 튜닝 기반의 듀얼 일관성 SAM(DC-SAM) 방법을 제안합니다. 우리의 핵심 통찰은 고품질 시각적 프롬프트를 제공하여 SAM의 프롬프트 인코더의 특징을 강화하는 것입니다. 마스크 사전을 생성할 때, SAM 특징을 융합하여 프롬프트 인코더를 더 잘 정렬합니다. 그런 다음, 융합된 특징과 초기 시각적 프롬프트에 대해 순환 일관성 크로스-어텐션을 설계합니다. 다음으로, 프롬프트 인코더에서 판별적 긍정 및 부정 프롬프트를 사용하여 듀얼 브랜치 설계를 제공합니다. 또한, 우리는 제안된 듀얼 일관성 방법을 마스크 튜브에 적용하기 위해 간단한 마스크-튜브 훈련 전략을 설계합니다. 제안된 DC-SAM은 주로 이미지를 위해 설계되었지만, SAM2의 지원으로 비디오 도메인으로 원활하게 확장할 수 있습니다. 비디오 도메인에서 인-컨텍스트 세그멘테이션이 부재함에 따라, 우리는 기존 비디오 세그멘테이션 데이터셋에서 첫 번째 벤치마크를 수동으로 선별 및 구축하여, 모델의 인-컨텍스트 능력을 더 잘 평가하기 위해 인-컨텍스트 비디오 객체 세그멘테이션(In-Context Video Object Segmentation, IC-VOS)을 명명했습니다. 광범위한 실험을 통해 우리의 방법이 COCO-20i에서 55.5 (+1.4) mIoU, PASCAL-5i에서 73.0 (+1.1) mIoU, 그리고 제안된 IC-VOS 벤치마크에서 71.52의 J&F 점수를 달성함을 입증했습니다. 우리의 소스 코드와 벤치마크는 https://github.com/zaplm/DC-SAM에서 확인할 수 있습니다.