번역이 포함된 일일 선별된 AI 연구 논문
Qwen3-VL은 Qwen 시리즈 역대 가장 강력한 비전-언어 모델로, 다양한 멀티모달 벤치마크에서 최고 수준의 성능을 달성했습니다. 본 모델은 최대 256K 토큰의 텍스트, 이미지, 비디오가 혼합된 입력을 기본적으로 지원합니다. 모델 패밀리는 다양한 지연 시간-품질 트레이드오프를 수용하기 위해 Dense(2B/4B/8B/32B) 및 Mixture-of-Experts(30B-A3B/235B-A22B) 변종을 모두 포함합니다. Qwen3-VL은 세 가지 핵심 축을 제공합니다: (i) 순수 텍스트 이해 능력이 현저히 강화되어 여러 경우에 동등 규모의 텍스트 전용 백본 모델을 능가함, (ii) 텍스트 및 멀티모달 혼합 입력 모두에 대해 기본 256K 토큰 윈도우를 갖춘 강력한 장문 맥락 이해 능력으로 긴 문서와 비디오에 걸쳐 정확한 정보 보존, 검색 및 상호 참조가 가능함, (iii) 단일 이미지, 다중 이미지, 비디오 작업을 아우르는 고급 멀티모달 추론 능력으로 MMMU 및 시각-수학 벤치마크(MathVista, MathVision 등)와 같은 포괄적 평가에서 선도적인 성능을 보여줌. 아키텍처 측면에서 세 가지 주요 개선사항을 도입했습니다: (i) 이미지와 비디오에 걸친 강력한 시공간 모델링을 위한 향상된 Interleaved-MRoPE, (ii) 다중 수준 ViT 특징을 효과적으로 활용하여 비전-언어 정렬을 강화하는 DeepStack 통합, (iii) 비디오를 위한 텍스트 기반 시간 정렬로, T-RoPE에서 명시적 텍스트 타임스탬프 정렬 방식으로 발전하여 더 정밀한 시간 근거 설정이 가능함. 유사한 토큰 예산과 지연 시간 제약 하에서 Qwen3-VL은 Dense 및 MoE 구조 모두에서 우수한 성능을 달성합니다. 우리는 Qwen3-VL이 실제 워크플로우에서 이미지 기반 추론, 에이전트 의사 결정, 멀티모달 코드 인텔리전스를 위한 기초 엔진으로 역할할 것으로 기대합니다.
비전-언어-행동(Vision-Language-Action, VLA) 모델은 흐름 매칭(flow-matching) 또는 확산(diffusion) 목적 함수를 통해 훈련되어 대규모 다중 모달 데이터셋(예: 인간 원격 조작, 스크립트 정책)으로부터 복잡한 행동을 학습하는 데 탁월한 성능을 보입니다. 그러나 VLA는 사전 훈련 단계에서 다양한 데이터 모드를 통합하고, 파인튜닝 데이터셋에는 종종 운동학적으로 최적이 아니거나 바람직하지 않은 방식으로 수집된 데모 데이터가 포함되기 때문에, 하위 작업의 성공 행동 모드와 무관한 중복 행동 모드가 존재합니다. 특히, 우리는 사전 훈련된 VLA를 지도 파인튜닝(supervised finetuning)한 후 다양한 샘플링된 노이즈에서 중요한 추론 시 취약성을 관찰합니다. 본 논문에서는 이러한 불안정성을 VLA 정책과 하위 작업 데이터셋의 안정적인 성공 모드에 의해 유도된 정책 간의 분포 변화(distribution shift)로 귀인합니다. 따라서 우리는 경량의 가상 카운트(pseudo-count) 추정기를 행동 청크(action chunks)의 고충실도 검증기(verifier)로 적용하는 테스트 시간 스케일링(test-time-scaling, TTS) 프레임워크인 TACO를 제안합니다. TACO와 통합된 VLA 모델은 모든 샘플링된 행동 청크 중에서 가상 카운트가 최대인 행동을 실행할 수 있으므로, 제약이 추론 시에만 적용되기 때문에 VLA의 일반화 능력을 보존하면서 분포 변화를 방지합니다. 우리의 방법은 오프라인 강화 학습(RL)의 고전적 반-탐험(anti-exploration) 원칙과 유사하며, 그래디언트 프리(gradient-free) 방식이므로, 특히 디노이징(denoising) 과정으로 인해 RL 업데이트 수행이 어려운 흐름 또는 확산 기반 VLA에 대해 RL 업데이트 대비 상당한 계산상의 이점을 가집니다. 4개의 시뮬레이션 벤치마크(RoboTwin2.0, Robotwin, LIBERO, SimplerEnv)와 듀얼 암 플랫폼에서의 광범위한 실험을 통해 우리의 방법이 하위 작업 적응에서 추론 안정성과 성공률을 크게 향상시킴을 입증합니다.
인간의 행동을 모방하여 일반적인 경험으로부터 능동적으로 학습하고 인공 일반 지능(AGI)을 달성하는 것은 항상 인간의 꿈이었습니다. 최근 강화학습(RL) 기반 대규모 사고 모델들은 소프트웨어 및 수학 같은 특정 영역에서 인상적인 전문가 수준의 능력을 보여주지만, 여전히 특정 도메인의 검증 가능한 보상에 크게 의존하여 일반적인 추론 능력의 성능 한계를 확장하는 데 상당한 병목 현상을 초래하고 있습니다. 본 연구에서는 프리트레인 코퍼스 위에 구축된 강화 능동 학습 프레임워크인 PretrainZero를 제안하여 RL을 도메인 특화 사후 훈련에서 일반적인 프리트레인으로 확장합니다. PretrainZero는 다음과 같은 특징을 가집니다: 1) 능동적 프리트레인: 인간의 능동 학습 능력에서 영감을 받아 PretrainZero는 통합 추론 정책을 학습하여 프리트레인 코퍼스에서 합리적이고 유익한 콘텐츠를 능동적으로 식별하고, 이를 RL로 예측하기 위해 추론합니다. 2) 자기 지도 학습: 검증 가능한 레이블, 사전 훈련된 보상 모델 또는 지도 미세 조정 없이, 우리는 RL을 사용하여 일반 Wikipedia 코퍼스에서 3B에서 30B 기반 모델까지 리저너를 직접 프리트레인하여 일반 추론을 위한 검증 데이터 장벽을 크게 극복합니다. 3) 검증 스케일링: 점점 더 어려워지는 마스크된 스팬을 해결함으로써, PretrainZero는 프리트레인된 기반 모델의 일반 추론 능력을 실질적으로 향상시킵니다. 강화 프리트레인에서 PretrainZero는 Qwen3-4B-Base 모델의 MMLU-Pro, SuperGPQA 및 수학 평균 벤치마크에서 각각 8.43, 5.96, 10.60 점을 향상시켰습니다. 사후 훈련에서 프리트레인된 모델은 하류 RLVR 작업을 위한 추론 기반 모델로도 사용될 수 있습니다.
동적 장면 간의 시각적 차이를 이해하려면 구성적, 공간적, 시간적 변화에 대한 비교 인지 능력이 필요하나, 이는 기존 비전-언어 시스템에서 충분히 연구되지 않은 능력입니다. 기존의 이미지 차이 설명(IDC) 연구는 정적 이미지 간의 의미론적 변화를 기술하는 모델을 가능하게 했으나, 이러한 접근법은 시간에 따른 동작 연속성, 사건 진화 또는 편집 일관성을 포착하지 못합니다. 본 연구에서는 MLLM(멀티모달 대규모 언어 모델)이 비디오 쌍 간의 유사점과 차이점을 세밀하게 설명하는 능력을 평가하기 위해 설계된 ViDiC(비디오 차이 설명) 과제와 이에 상응하는 ViDiC-1K 데이터셋을 소개합니다. ViDiC-1K는 4,000개 이상의 비교 체크리스트 항목으로 주석 처리된 1,000개의 정제된 비디오 쌍으로 구성되며, 주체, 스타일, 배경, 촬영 기법, 동작, 장소, 재생 기술 등 7개 범주를 다룹니다. 신뢰할 수 있는 평가를 위해 LLM-as-a-Judge 프로토콜을 기반으로 유사성과 차이점의 정확도를 별도로 측정하는 이중 체크리스트 프레임워크를 제안합니다. 19개의 대표적인 멀티모달 모델에 대한 실험 결과, 이들의 비교 설명 및 차이 인지 능력에서 상당한 성능 격차가 확인되었습니다. ViDiC-1K가 멀티모달 인텔리전스의 비디오 이해, 편집 인식 및 비교 추론 능력 발전을 위한 견고한 기반을 마련하는 도전적인 벤치마크가 되기를 기대합니다.
강화학습(Reinforcement Learning, RL)은 최근 다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs) 내에서 시각적 추론 능력을 이끌어내는 데 있어 놀라운 성과를 거두었습니다. 그러나 기존 접근법들은 일반적으로 서로 다른 작업에 대해 별도의 모델을 훈련시키며, 이미지와 비디오 추론을 서로 분리된 영역으로 취급합니다. 이로 인해 다중모달 추론 전반에 걸쳐 일반적으로 적용 가능한 모델로의 확장성이 제한되며, 실제 활용의 다양성을 떨어뜨리고 작업 및 모달리티 간의 잠재적 지식 공유를 방해합니다. 이를 해결하기 위해, 우리는 질의응답, 캡션 생성, 공간 및 시간적 위치 특정, 추적, 분할 등 다양한 기본 시각 작업을 아우르는 이미지 및 비디오 이해를 통합한 올인원 추론 모델인 OneThinker를 제안합니다. 이를 위해 우리는 상기 모든 작업을 포함하는 OneThinker-600k 훈련 코퍼스를 구축하고 CoT(Chain-of-Thought) 주석 생성을 위해 상용 모델을 활용하여 SFT(Supervised Fine-Tuning) 콜드 스타트를 위한 OneThinker-SFT-340k 데이터셋을 생성했습니다. 더 나아가, 우리는 다중 작업 RL에서 발생하는 보상 이질성을 처리하기 위해 작업별 보상 표준 편차의 이동 평균을 추적하여 균형 잡힌 최적화를 달성하는 EMA-GRPO를 제안합니다. 다양한 시각 벤치마크에 대한 폭넓은 실험 결과, OneThinker는 10가지 기본 시각 이해 작업에 걸친 31개 벤치마크에서 강력한 성능을 보여주었습니다. 또한, 특정 작업 간 효과적인 지식 전이와 예비적인 제로샷 일반화 능력을 나타내며, 통합된 다중모달 추론 일반ist 모델로 나아가는 한 걸음을 내디뎠습니다. 모든 코드, 모델 및 데이터는 공개되었습니다.
비전 언어 모델(VLM)은 정성적인 시각 이해 능력이 뛰어나지만, 구현형 애플리케이션에 필요한 정량적으로 정밀한 공간 추론에는 어려움을 겪습니다. 에이전트 패러다임은 VLM이 깊이 추정기, 분할 모델, 포즈 추정기 등 이러한 능력을 보강할 다양한 도구를 활용할 수 있음을 시사합니다. 그러나 VLM의 최적 도구 사용 패턴 발견 능력을 제한하는 수동 프롬프트 전략이나 고정된 사전 정의 도구 파이프라인에만 의존하지 않고 이 비전을 실현하는 방법은 여전히 해결 과제로 남아 있습니다. 강화 학습은 이러한 격차를 극복할 수 있지만, 다중 도구 추론의 방대한 탐색 공간으로 인해 지금까지는 단일 시각 도구를 활용한 추론에 국한되어 왔습니다. 본 연구에서는 VLM이 상호작용적 탐색과 피드백을 통해 여러 도구를 조율하는 방법을 학습하는 2단계 훈련 프레임워크인 이중 상호작용 강화 학습(DIRL)을 소개합니다. 교수 단계에서는 상호작용 강화 학습으로 훈련된 단일 도구 전문가의 데모와 모든 도구를 사용하는 최첨단 모델의 추적을 결합합니다. 탐색 단계에서는 모델이 지속적인 강화 학습을 통해 다중 도구 조율을 더욱 정제합니다. 도구 강화 공간 추론 능력을 갖춘 우리의 모델 SpaceTools는 공간 이해 벤치마크(RoboSpatial-Home, BLINK, BOP-ASK)에서 최첨단 성능을 달성하고, 7자유도 로봇을 도구로 활용한 신뢰할 수 있는 실제 환경 조작 능력을 입증합니다. DIRL은 기본 SFT(RoboSpatial 기준 +12%) 및 강화 학습(RoboSpatial 기준 +16%) 기준선 대비 상당한 성능 향상을 제공합니다. 프로젝트 페이지: https://spacetools.github.io/.
사용자 의도와 생성된 시각적 결과물 간의 정확한 정렬을 달성하는 것은 텍스트-시각적 생성 분야의 핵심 과제로 남아 있으며, 단일 시도로는 종종 원하는 출력을 생성하지 못합니다. 이를 해결하기 위해 기존 접근법은 주로 시각적 생성 과정의 규모를 확장하지만(예: 샘플링 단계나 시드 수 증가), 이는 빠르게 품질 정체에 도달합니다. 이러한 한계는 생성 과정을 안내하는 핵심 요소인 프롬프트가 고정된 상태로 유지되기 때문에 발생합니다. 이를 해결하기 위해 우리는 추론 시점 규모 확장을 위한 프롬프트 재설계, 즉 PRIS라는 프레임워크를 제안합니다. PRIS는 확장된 시각적 생성물에 대응하여 추론 과정 중에 프롬프트를 적응적으로 수정합니다. PRIS의 핵심 아이디어는 생성된 시각적 결과물을 검토하고, 여러 결과물에서 반복적으로 나타나는 실패 패턴을 식별한 후, 수정된 프롬프트로 시각적 결과물을 재생성하기 전에 그에 맞게 프롬프트를 재설계하는 것입니다. 프롬프트 수정을 위한 정확한 정렬 피드백을 제공하기 위해 우리는 요소 수준 사실 보정이라는 새로운 검증기를 도입했습니다. 이는 프롬프트 속성과 생성된 시각적 결과물 간의 정렬을 세부 수준에서 평가하여 전체론적 측정보다 더 정확하고 해석 가능한 평가를 달성합니다. 텍스트-이미지 및 텍스트-비디오 벤치마크에서 진행한 폭넓은 실험을 통해 우리 접근법의 효과를 입증하였으며, VBench 2.0에서 15% 향상된 결과를 포함합니다. 이러한 결과는 추론 시점에서 규모의 법칙을 완전히 활용하기 위해서는 프롬프트와 시각적 요소를 함께 확장하는 것이 핵심임을 보여줍니다. 시각화 자료는 웹사이트(https://subin-kim-cv.github.io/PRIS)에서 확인할 수 있습니다.
진정으로 상호작용 가능한 세계 모델에는 세 가지 핵심 요소가 필요합니다: 실시간 장기간 스트리밍, 일관된 공간 메모리, 정밀한 사용자 제어입니다. 그러나 대부분의 기존 접근법은 이러한 측면 중 하나만 개별적으로 해결하는데, 세 가지를 동시에 달성하는 것은 매우 어렵기 때문입니다. 예를 들어 장기 기억 메커니즘은 실시간 성능을 저하시키는 경우가 많습니다. 본 연구에서는 이 세 가지 과제를 통합적으로 해결하는 RELIC 프레임워크를 제시합니다. 단일 이미지와 텍스트 설명을 입력받은 RELIC은 실시간으로 임의의 장면에 대한 메모리 인식 장기 탐색을 가능하게 합니다. 최근의 자기회귀 비디오 확산 증류 기술을 기반으로, 우리 모델은 KV 캐시 내 상대적 행동과 절대적 카메라 포즈를 함께 인코딩한 고도로 압축된 역사적 잠재 토큰을 사용하여 장기 기억을 표현합니다. 이 컴팩트하고 카메라 인식 메모리 구조는 암묵적인 3D 일관성 콘텐츠 검색을 지원하며 최소한의 계산 오버헤드로 장기적 일관성을 유지합니다. 동시에 양방향 교사 비디오 모델을 미세 조정하여 원래 5초 훈련 한계를 넘는 시퀀스를 생성하게 하고, 새로운 메모리 효율적 자기 강제 패러다임을 통해 인과적 학생 생성기로 변환합니다. 이는 장기간 교사 시퀀스와 학생 자기 롤아웃 모두에 걸친 전체 맥락 증류를 가능하게 합니다. 140억 파라미터 모델로 구현되고 선별된 언리얼 엔진 렌더링 데이터셋으로 훈련된 RELIC은 16 FPS의 실시간 생성 속도를 달성하면서 기존 연구 대비 더 정확한 행동 추종, 더 안정적인 장기 스트리밍, 더 강력한 공간 메모리 검색 성능을 보여줍니다. 이러한 능력들은 RELIC을 다음 세대 상호작용 세계 모델링을 위한 견고한 기반으로 확립합니다.
이미지를 통해 사고하는 다중모달 대규모 언어 모델(MLLMs)은 도구를 상호작용적으로 사용하여 시각적 입력을 추론할 수 있지만, 현재의 접근법은 실질적 필요성과 확장성이 제한된 소수의 도구 집합에 의존하는 경우가 많습니다. 본 연구에서는 먼저 중요하면서도 이전에 간과된 약점을 밝혀냅니다: 최첨단 MLLMs 조차도 단순한 방향 변화나 자연스러운 손상이 있는 이미지에서 성능이 현저히 저하되는 놀라울 정도의 취약성을 보여, 보다 강력한 도구 기반 추론의 필요성을 강조합니다. 이를 해결하기 위해 우리는 CodeVision을 제안합니다. 이는 모델이 고정된 도구 등록을 넘어서어 모든 이미지 연산을 호출하기 위한 범용 인터페이스로 코드를 생성하는 유연하고 확장 가능한 코드-아스-툴(code-as-tool) 프레임워크입니다. 우리는 두 단계 방법론을 사용하여 모델을 훈련시킵니다. 먼저 복잡한 다중 턴(multi-turn) 도구 구성 및 오류 복구를 위해 선별된 고품질 데이터셋에 대한 지도 미세 조정(SFT)으로 시작하고, 이후 전략적이고 효율적인 도구 사용을 장려하기 위해 새롭고 밀집된 프로세스 보상 함수를 활용한 강화 학습(RL)을 수행합니다. 이 연구를 촉진하기 위해 우리는 새로운 SFT 및 RL 데이터셋을 구축하고, 방향 변화에 대한 강건성과 다중 도구 추론을 엄격하게 평가하도록 설계된 새로운 도전적인 벤치마크 제품군을 소개합니다. Qwen2.5-VL 및 Qwen3-VL 시리즈에 대한 실험 결과, 우리의 접근 방식이 모델 성능을 크게 향상시키고 유연한 도구 구성, 효율적인 연쇄 실행, 런타임 피드백으로부터의 강건한 오류 복구와 같은 새로운 능력을 촉진함을 보여줍니다. 코드는 https://github.com/ByteDance-BandAI/CodeVision 에서 확인할 수 있습니다.
정규화 흐름(Normalizing Flows, NFs)은 수학적으로 가역적인 구조를 특징으로 하는 생성 모델 클래스로, 순방향 전파는 데이터를 잠재 공간으로 변환하여 밀도 추정을 수행하고, 역방향 전파는 이 공간에서 새로운 샘플을 생성합니다. 이러한 특성은 표현 학습과 데이터 생성 사이의 본질적인 시너지를 창출합니다. 그러나 기존 NFs의 생성 품질은 로그-우도 최적화로 인한 빈약한 의미론적 표현에 의해 제한됩니다. 이를 개선하기 위해, 우리는 NFs의 가역성을 창의적으로 활용한 새로운 정렬 전략을 제안합니다: 순방향 전파를 규제하는 대신, 생성(역방향) 과정의 중간 특징들을 강력한 비전 파운데이션 모델의 표현과 정렬하며, 이 단순한 정렬 방식보다 우수한 효과를 입증합니다. 또한 우리는 분류를 위한 새로운 훈련 불필요형 테스트-타임 최적화 알고리즘을 도입하여, NF에 내재된 의미론적 지식을 보다 본질적으로 평가할 수 있는 방법을 제공합니다. 포괄적인 실험을 통해 우리의 접근 방식이 NFs의 훈련 속도를 3.3배 이상 가속시키면서 동시에 생성 품질과 분류 정확도 모두에서 상당한 개선을 달성함을 입증합니다. ImageNet 64×64 및 256×256 데이터셋에서 NFs에 대한 새로운 최첨단 성능을 확립했습니다. 우리의 코드는 https://github.com/MCG-NJU/FlowBack에서 확인할 수 있습니다.
대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 작업은 일반적으로 외부 감독에 의존하는데, 이는 중요한 한계에 직면해 있습니다: 인간의 주해는 부족하고 주관적이며, 보상 모델은 보상 해킹에 취약하고, 자기 평가 방법은 프롬프트 민감성과 편향에 시달립니다. 본 연구에서는 모델 표현에서 도출된 내재적이며 주해가 필요 없는 품질 신호인 stable rank를 제안합니다. Stable rank는 전체 분산과 주 방향 분산의 비율을 계산하여 은닉 상태의 효과적 차원을 측정함으로써, 정보가 표현 차원에 걸쳐 어떻게 분포하는지를 통해 품질을 포착합니다. 실험적으로 stable rank는 RewardBench에서 84.04%의 정확도를 달성하고, Best-of-N 샘플링을 통한 탐욕적 디코딩보다 작업 정확도를 평균 11.3%p 향상시켰습니다. 이러한 통찰력을 활용하여, 강화 학습을 위한 보상 신호로 stable rank를 사용하는 Stable Rank Group Relative Policy Optimization(SR-GRPO)을 소개합니다. 외부 감독 없이 SR-GRPO는 Qwen2.5-1.5B-Instruct 모델의 STEM 성능을 10%, 수리 추론 성능을 19% 향상시켜, 학습된 보상 모델과 자기 평가 기준선을 모두 능가했습니다. 우리의 연구 결과는 품질 신호가 모델의 내부 기하학적 구조에서 추출될 수 있음을 보여주며, 외부 감독 없이 확장 가능한 정렬(alignment)을 위한 길을 제시합니다.
신경망 처리 장치(NPU)가 에지 AI에 대해 높은 이론적 효율성을 제공하지만, GPU용으로 최적화된 최신 시각-언어 모델(VLM)은 이러한 하드웨어 기반에서는 종종 성능이 저하됩니다. 이러한 하드웨어-모델 불일치는 주로 두 가지 요인에 기인합니다: Vision Transformer(ViT)의 양자화 취약성과 NPU의 높은 연산 처리량을 활용하지 못하는 자기회귀적 어텐션 메커니즘의 I/O 병목 현상입니다. 이러한 격차를 해소하기 위해 본 논문에서는 정수 연산 전용 추론을 위해 공동 설계된 NPU 네이티브 VLM 아키텍처인 AutoNeural을 제안합니다. 표준 ViT 인코더를 계층별 분리 가능 합성곱을 활용하는 MobileNetV5 스타일 백본으로 대체하여 안정적인 INT4/8/16 양자화를 위한 제한된 활성화 분포를 보장합니다. 이를 보완하기 위해 언어 백본은 상태 공간 모델(SSM) 원리를 Transformer 계층과 통합하여 선형 시간 복잡도를 달성하는 효율적인 게이트 합성곱을 채택합니다. 이 하이브리드 설계는 생성 과정에서 Key-Value 캐싱의 과도한 메모리 I/O 오버헤드를 제거합니다. 본 접근법은 기존 대비 비전 인코더의 양자화 오류를 최대 7배 감소시키고 종단 간 지연 시간을 14배 단축하는 상당한 효율 향상을 제공합니다. AutoNeural은 또한 기준 대비 3배 빠른 디코딩 속도와 4배 긴 컨텍스트 창을 지원합니다. 이러한 개선 사항을 Qualcomm SA8295P SoC에서 진행한 실제 자동차 사례 연구를 통해 검증하며, 콕핏 애플리케이션에 대한 실시간 성능을 입증합니다. 본 연구 결과는 NPU 제약 조건에 특화된 모델 토폴로지 재설계가 강력한 멀티모달 에지 인텔리전스의 필수 조건임을 강조합니다.
요리는 각각의 단계(썰기, 섞기, 볶기 등)가 절차적 논리와 시각적 의미를 모두 내포하는 순차적이고 시각적으로 근거 있는 활동입니다. 최근 디퓨전 모델이 텍스트-이미지 생성에서 강력한 능력을 보여주고 있지만, 레시피 일러스트레이션과 같은 구조화된 다단계 시나리오를 처리하는 데는 어려움을 겪고 있습니다. 또한 기존 레시피 일러스트레이션 방법들은 레시피 길이의 자연스러운 변동성에 적응하지 못하며, 실제 지시 구조와 관계없이 고정된 수의 이미지를 생성합니다. 이러한 한계를 해결하기 위해 우리는 임의 길이의 텍스트 요리 지침으로부터 일관성 있고 의미적으로 구분되는 이미지 시퀀스를 생성하는 유연한 디퓨전 기반 프레임워크인 CookAnything를 제안합니다. 본 프레임워크는 세 가지 핵심 구성 요소를 도입합니다: (1) 단일 노이즈 제거 과정 내에서 텍스트 단계와 해당 이미지 영역을 정렬하는 단계별 지역 제어(Step-wise Regional Control, SRC); (2) 시간적 일관성과 공간적 다양성을 모두 향상시키는 단계 인식 위치 인코딩 메커니즘인 유연한 RoPE(Flexible RoPE); (3) 단계 간 세부 재료 일관성을 유지하는 교차 단계 일관성 제어(Cross-Step Consistency Control, CSCC). 레시피 일러스트레이션 벤치마크에 대한 실험 결과는 CookAnything가 학습 기반 및 학습 없음 설정에서 기존 방법들보다 더 나은 성능을 보여줍니다. 제안된 프레임워크는 복잡한 다단계 지침의 확장 가능하고 고품질인 시각적 합성을 지원하며, 교육 매체 및 절차적 콘텐츠 생성 분야에서 광범위한 적용 가능성을 가지고 있습니다.
2019년 이후 허깅 페이스 모델 허브는 오픈 웨이트 AI 모델 공유의 주요 글로벌 플랫폼으로 자리잡았습니다. 주간 모델 다운로드 전체 기록(2020년 6월~2025년 8월) 데이터셋과 모델 메타데이터를 공개함으로써, 우리는 오픈 모델 경제에서의 집중도 변화와 진화하는 특성에 대해 지금까지 가장 엄밀한 분석을 제공합니다. 우리의 분석은 851,000개의 모델, 모델당 200개 이상의 종합 속성, 22억 건의 다운로드 데이터를 포괄합니다. 우리는 경제적 힘의 근본적인 재편을 확인했습니다: Google, Meta, OpenAI의 미국 오픈웨이트 업계 지배력은 소속 없는 개발자들과 커뮤니티 조직, 그리고 2025년 기준 중국 업계에 유리하게 급격히 감소했으며, DeepSeek과 Qwen 모델들이 시장 지배력의 새로운 집중화를 예고할 가능성이 있습니다. 우리는 모델 속성의 통계적으로 유의미한 변화, 평균 모델 크기의 17배 증가, 멀티모달 생성(3.4배), 양자화(5배), Mixture-of-Experts 아키텍처(7배)의 급속한 성장과 더불어 데이터 투명성의 우려스러운 감소를 확인했으며, 오픈 웨이트 모델이 2025년 처음으로 진정한 오픈 소스 모델을 추월했습니다. 우리는 효율성과 예술적 표현을 위해 기본 모델을 양자화하고 적용하는 데 주력하는 새로운 계층의 개발자 중개자들이 등장했음을 밝혀냅니다. 지속적인 연구와 감독을 가능하게 하기 위해, 우리는 오픈 모델 경제의 집중도 변화와 진화하는 속성을 실시간으로 모니터링할 수 있는 대시보드와 함께 완전한 데이터셋을 공개합니다.
저희는 2B 규모 오픈 VLM 중 다국어 시각 질의응답에서 최첨단 성능을 달성하는 2.4B 파라미터 규모의 비전-언어 모델인 Jina-VLM을 소개합니다. 이 모델은 SigLIP2 비전 인코더와 Qwen3 언어 백본을 어텐션 풀링 커넥터로 결합하여 임의 해상도 이미지를 토큰 효율적으로 처리할 수 있습니다. 표준 VQA 벤치마크와 다국어 평가 전반에서 Jina-VLM은 순수 텍스트 성능의 경쟁력을 유지하면서도 동급 모델들을 능가하는 성과를 보여줍니다.
이미지-텍스트 정렬 모델(예: CLIP) 평가는 시각적 표현과 언어적 표현 간의 격차를 해소하는 데 중요합니다. 그러나 기존 벤치마크는 규칙 기반 변형이나 짧은 캡션에 의존하여 세부적인 정렬 능력을 측정하는 데 한계가 있습니다. 본 연구에서는 다양한 이미지-텍스트 및 텍스트-이미지 생성 모델이 생성한 상세한 이미지-캡션 쌍을 평가함으로써 이미지-텍스트 정렬에 대한 새로운 지표를 제공하는 벤치마크인 AlignBench를 소개합니다. 각 문장은 정확도에 따라 주석 처리되어 시각언어모델(VLM)을 정렬 평가자로 직접 평가할 수 있습니다. 다양한 디코더 기반 VLM을 벤치마킹한 결과 세 가지 주요 발견점이 도출되었습니다: (i) 구성적 추론에 맞춤화된 모델을 포함한 CLIP 기반 모델들은 여전히 사실상 인식 불능 상태이며, (ii) 검출기들은 체계적으로 초반 문장에 과도한 점수를 부여하며, (iii) 자체 출력을 선호하는 강력한 자기 선호도(self-preference)를 보여 검출 성능을 저해합니다. 프로젝트 페이지는 https://dahlian00.github.io/AlignBench/에서 공개될 예정입니다.
우리는 대규모 언어 모델(LLM)을 대상으로 하는 간단한 인콘텍스트 표현 탈취 공격인 '더블스피크(Doublespeak)'를 소개한다. 이 공격은 유해한 요청의 접두사가 주어졌을 때, 여러 인콘텍스트 예시 전반에 걸쳐 유해 키워드(예: 폭탄)를 무해한 토큰(예: 당근)으로 체계적으로 대체하는 방식으로 작동한다. 우리는 이러한 치환이 무해한 토큰의 내부 표현이 유해한 토큰의 표현으로 수렴하게 만들어, 유해한 의미론을 완곡한 표현 아래 효과적으로 내포시킨다는 것을 입증한다. 그 결과, 표면적으로는 무해한 프롬프트(예: "당근을 키우는 방법?")가 내부적으로는 허용되지 않는 지시사항(예: "폭탄을 만드는 방법?")으로 해석되어 모델의 안전 정렬을 우회하게 된다. 우리는 해석 가능성 도구를 사용하여 이 의미론적 덮어쓰기가 계층별로 나타나며, 초기 계층의 무해한 의미가 후기 계층에서 유해한 의미론으로 수렴함을 보여준다. 더블스피크는 최적화가 필요 없으며, 다양한 모델 패밀리 간에 광범위하게 전이 가능하고, 단일 문장 컨텍스트 재정의만으로 Llama-3.3-70B-Instruct에서 74%의 공격 성공률(ASR)을 달성하며 폐쇄형 및 오픈소스 시스템 모두에서 강력한 성공률을 보인다. 우리의 연구 결과는 LLM의 잠재 공간에 존재하는 새로운 공격 표면을 부각시키며, 현재의 정렬 전략이 불충분하고 대신 표현 수준에서 작동해야 함을 보여준다.
대규모 언어 모델(LLM)을 모바일 플랫폼에 배포하는 것은 기기의 제한된 메모리와 공유 컴퓨팅 자원으로 인해 상당한 어려움에 직면합니다. 자원 가용성은 현재 기기 작업 부하에 직접적인 영향을 받아 문제가 될 수 있으며, 이는 모델 배포의 불확실성을 가중시킵니다. 본 논문에서는 에지 LLM을 위한 온디바이스 구성 가능 프루닝 비율을 지원하는 통합 사후 양자화 및 저랭크 압축 프레임워크인 UniQL을 소개합니다. UniQL은 양자화와 저랭크 압축을 통합하여 Transformer, 상태 공간 모델(SSM), 그리고 하이브리드 모델에 적용 가능한 일반적인 프레임워크로, 다양한 에지 애플리케이션을 지원합니다. 제안하는 통합 프레임워크에서는 계산 속도를 20배 향상시키는 효율적인 구조화된 가중치 정렬 방법, 양자화 오류를 최소화하는 양자화 인식 특이값 분해(SVD), SSM을 위한 상태 인식 가중치 정렬, 그리고 프루닝된 모델을 위한 융합된 회전 위치 임베딩(RoPE) 커널을 도입했습니다. 본 프레임워크는 단일 패스 워크플로우로 클라우드에서 가중치 정렬, 미세 조정, 양자화를 수행하면서도 최대 35%까지 온디바이스에서 구성 가능한 프루닝 비율을 지원합니다. 실험 결과, 양자화 및 프루닝된 모델은 Transformer(Llama3, Qwen2.5), SSM(Mamba2), 하이브리드 모델(Nemotron-H, Bamba-v2)에 걸쳐 4x-5.7x의 메모리 감소와 2.7x-3.4x의 토큰 처리량 향상을 달성했으며, 15% 프루닝 수준에서 원본 모델 대비 정확도를 5% 이내로 유지했습니다. 코드와 양자화된 모델은 https://github.com/enyac-group/UniQL 에서 이용 가능합니다.
긴 사고 사슬을 활용하는 추론 모델은 답변 검증, 역추적, 대체 방법 재시도 등 다양한 인지 기술을 사용합니다. 선행 연구에서는 기초 언어 모델이 이러한 기술을 보일 때 강화 학습(RL)을 통해 해당 모델을 추가 훈련하면 이러한 기술을 활용하는 방법을 학습할 수 있음이 입증되었습니다. 그렇다면 기초 모델에서 나타나지 않는 기술을 모델이 활용하도록 하는 방법은 무엇일까요? 본 연구인 SkillFactory는 강화 학습 이전의 지도 미세 조정(SFT) 단계에서 이러한 기술을 대략적으로 학습하도록 모델을 미세 조정하는 방법입니다. 우리의 접근 방식은 더 강력한 모델의 지식 증류에 의존하지 않고, 대신 해당 기술의 형식으로 훈련 데이터를 제공하기 위해 재구성된 모델 자체의 샘플을 사용합니다. 이러한 "실버" SFT 추적은 완벽하지 않을 수 있지만, 강화 학습 중에 모델이 기술을 습득하도록 준비시키는 데에는 효과적입니다. 우리의 평가 결과는 (1) SkillFactory SFT 초기화로 시작하면 강화 학습 전 성능은 낮더라도 강화 학습 후 과제의 더 어려운 변형으로 일반화하는 데 도움이 되며, (2) 모델이 실제로 인지 기술을 사용하며, (3) SkillFactory 모델을 강화 학습한 경우 기초 모델을 강화 학습한 것보다 도메인 외 과제에서의 성능 저하에 더 강건함을 보여줍니다. 본 연구는 강화 학습 전에 학습된 귀납적 편향이 모델이 강건한 인지 기술 사용을 학습하는 데 도움이 됨을 시사합니다.
대규모 멀티모달 모델(LMM)의 장편 영상 이해 적용은 제한된 컨텍스트 길이와 밀집된 영상 토큰 처리의 계산 비용 과다 문제로 인해 제약을 받습니다. 이에 따라 최근 연구는 질의 인식 프레임 선택 방식에 집중되어 왔으나, 이러한 방법들은 종종 상당한 계산 오버헤드를 수반합니다. 본 논문은 이러한 복잡한 검색 메커니즘이 항상 필요하다는 가정에 의문을 제기합니다. 우리는 먼저 전역 질의와 지역화 질의를 구분하는 질의 유형론을 규명하고 검증합니다. 전역 질의에는 균일 샘플링이 효과적이면서도 효율적인 반면, 지역화 질의에서는 최적의 성능을 위해 실제로 질의 인식 선택이 필요함을 입증합니다. 이러한 통찰을 바탕으로 우리는 질의 유형에 따라 전략을 적응적으로調整하는 학습 불필요 프레임 선택 프레임워크인 DIG를 제안합니다. 구체적으로 DIG는 전역 질의에는 효율적인 균일 샘플링을 사용하고, 지역화 질의에는 특화된 파이프라인을 활성화하여 질의 관련 프레임을 추출합니다. 3개의 장편 영상 이해 벤치마크에서의 실험 결과, DIG는 기존 기준선을 지속적으로 능가하며 입력 프레임 수를 256개로 확장하더라도 LMM 성능을 강건하게 향상시킴을 보여줍니다.
비전-언어 모델(VLM)은 시각 질의응답 과제에서 놀라운 성과를 거두었지만, 많은 수의 시각 토큰에 의존함으로써 상당한 계산 부담을 초래합니다. 기존의 효율적 VLM 접근법들은 고정 비율 압축을 통해 시각 토큰을 줄이지만, 수동적으로 작동하며 다양한 과제 요구사항에 적응하는 능력이 부족합니다. 이는 "VLM이 각 샘플에 필요한 최소 시각 토큰 수를 자율적으로 결정할 수 있을까?"라는 근본적인 질문을 제기합니다. 인간의 능동적 시각 메커니즘에서 영감을 받아, 우리는 coarse-to-fine 접근법을 통해 적응형 시각 토큰 획득을 가능하게 하는 효율적 VLM 패러다임인 AdaptVision을 제안합니다. 우리 모델은 저해상도 이미지에서 압축된 시각 토큰을 먼저 처리하고, 필요시 경계 상자 도구를 호출하여 핵심 영역을 크롭함으로써 추가 시각 정보를 선택적으로 획득합니다. 정확도와 효율성을 세심하게 균형 잡는 강화학습 프레임워크를 사용하여 AdaptVision을 학습합니다. 우리 접근법의 핵심은 학습 목표를 두 구성 요소로 분리하는 Decoupled Turn Policy Optimization(DTPO)입니다: (1) 올바른 도구 활용을 최적화하는 도구 학습, (2) 생성된 응답을 개선하여 답변 정확도를 높이는 정확도 향상. 이 공식을 바탕으로, 각 목표와 연관된 토큰에 대해 별도의 어드벤티지를 계산함으로써 어드벤티지 추정을 추가로 분리합니다. 이 공식은 기본 GRPO 대비 AdaptVision의 더 효과적인 최적화를 가능하게 합니다. 다양한 VQA 벤치마크에서의 포괄적 실험을 통해 AdaptVision이 최신 효율적 VLM 방법들보다 현저히 적은 수의 시각 토큰을 소모하면서도 우수한 성능을 달성함을 입증합니다.
디퓨전 모델은 동적 영상 디블러링에 유용한 가능성을 보여주지만, 기존 연구들은 종종 디퓨전 모델 내 블러 형성 과정의 본질적 특성을 충분히 활용하지 못해 그 잠재력이 제한되는 경우가 많습니다. 이를 해결하기 위해 우리는 블러 형성 과정을 디퓨전에 자연스럽게 통합한 블러 디퓨전 모델(BlurDM)을 제안합니다. 모션 블러가 연속적인 노출에서 비롯된다는 점에 착안하여, BlurDM은 이중 디퓨전 순방향 기법을 통해 노이즈와 블러를 동시에 선명한 영상에 확산시킴으로써 블러 형성 과정을 암묵적으로 모델링합니다. 역생성 과정에서는 순수 가우시안 노이즈를 블러 영상 조건으로 입력하여, BlurDM이 노이즈 제거와 디블러링을 동시에 수행하며 선명한 영상을 복원할 수 있는 이중 노이즈 제거 및 디블러링 공식을 도출했습니다. 또한 BlurDM을 디블러링 네트워크에 효율적으로 통합하기 위해 잠재 공간에서 BlurDM을 수행함으로써 유연한 사전 생성 네트워크를 구성합니다. 다양한 실험을 통해 BlurDM이 4개의 벤치마크 데이터셋에서 기존 디블러링 방법들을 지속적이고 현저히 향상시킴을 입증했습니다. 소스 코드는 https://github.com/Jin-Ting-He/BlurDM에서 확인할 수 있습니다.
어텐션 메커니즘은 파운데이션 모델의 핵심이지만, 그 이차적 복잡도는 확장성을 위한 중요한 병목 현상으로 남아 있습니다. 이러한 과제는 효율적인 어텐션 메커니즘의 개발을 촉진해 왔으며, 희소성(Sparsity)이 지배적인 패러다임으로 부상했습니다. 현재의 방법들은 일반적으로 이진 마스크(Binary Mask)를 사용해 키-값 블록 전체를 보유하거나 폐기하여, 높은 희소성 조건에서 상당한 정보 손실을 초래합니다. 이러한 격차를 완화하기 위해 우리는 비디오 이해 및 생성 작업 모두에 적용 가능한 다목적 모듈인 Pyramid Sparse Attention(PSA)을 제안합니다. PSA는 이진 마스킹 대신 다중 수준 풀링된 KV 표현을 도입하여 더 세분화된 마스크 단위를 가능하게 합니다. 구체적으로, 각 쿼리 블록은 중요한 KV 블록에는 낮은 풀링 수준을, 덜 중요한 블록에는 높은 수준을 동적으로 할당하여 완전 보유와 완전 제거 사이의 정보적 보간(Interpolation)을 생성합니다. 고정소수점 양자화 및 컴퓨터 비전의 고전적인 특징 피라미드 네트워크와 유사한 이 설계는 낮은 계산 예산 내에서 계산 효율성을 유지하면서 정보 손실을 효과적으로 완화합니다. PSA는 분리된 블록-타일 설계를 활용하는 기본적이고 하드웨어 친화적인 커널로 동작하여 효율적인 실행을 보장합니다. 다양한 비디오 이해 및 생성 벤치마크에서 PSA는 맥락 정보와 시각적 정확도를 보존하며, 우수한 효율성-품질 균형을 바탕으로 기존 희소 어텐션 기준선들을 일관되게 능가하거나 비슷한 성능을 달성합니다. 우리의 코드와 모델 가중치는 http://ziplab.co/PSA에서 공개되어 있습니다.
그래픽 디자인은 현대 시각 커뮤니케이션의 초석을 이루며 문화 및 상업 행사 홍보를 위한 핵심 매체 역할을 합니다. 최근 발전된 방법들은 대규모 멀티모달 모델(LMM)을 활용해 이 과정을 자동화하려는 시도를 하고 있으나, 기존 방법들은 기하학적으로 부정확한 레이아웃을 생성하거나 전문적인 워크플로우에서 요구되는 반복적이고 레이어별 수정 기능이 부족한 경우가 많습니다. 이러한 한계를 해결하기 위해 본 논문은 전문 그래픽 디자인을 위한 레이아웃 추론 및 제어 가능한 편집 기능을 향상시키는 프레임워크인 PosterCopilot을 제안합니다. 구체적으로, 레이아웃 설계를 위한 기하학적 이해와 미적 추론 능력을 LMM에 부여하는 점진적 3단계 학습 전략(교란 감독 미세 조정, 시각-현실 정렬을 위한 강화 학습, 미적 피드백 기반 강화 학습)을 도입합니다. 더불어, 학습된 LMM 기반 디자인 모델과 생성 모델을 결합한 완전한 워크플로우를 개발하여 전역적인 시각적 일관성을 유지하면서 정밀한 요소 정교화를 위한 레이어 제어 반복 편집이 가능하도록 합니다. 광범위한 실험을 통해 PosterCopilot이 기하학적으로 정확하고 미적으로 우수한 레이아웃을 달성하며 전문적인 반복 설계에 전례 없는 제어 기능을 제공함을 입증합니다.
본 논문에서는 멀티모달 대규모 언어 모델(MLLM)을 대상으로 하는 새로운 위협 유형인 적대적 혼란 공격을 소개한다. 이 공격은 재택탈출(jailbreak)이나 표적 오분류와 달리, 모델이 비일관적이거나 확신을 가지고 틀린 출력을 생성하도록 체계적으로 방해하는 것을 목표로 한다. 실제 적용 사례로는 이러한 적대적 이미지를 웹사이트에 삽입하여 MLLM 기반 AI 에이전트가 안정적으로 작동하지 못하게 하는 것이 있다. 제안된 공격은 소규모 오픈소스 MLLM 앙상블을 사용하여 다음 토큰의 엔트로피를 최대화한다. 화이트박스 설정에서 단일 적대적 이미지가 전체 이미지 및 적대적 CAPTCHA 설정에서 앙상블 내 모든 모델을 방해할 수 있음을 보인다. 기본적인 적대적 기법(PDG)을 사용함에도 불구하고, 이 공격으로 생성된 섭동은 보지 않은 오픈소스 모델(예: Qwen3-VL)과 사적 모델(예: GPT-5.1) 모두로 전이되는 특징을 보인다.