번역이 포함된 일일 선별된 AI 연구 논문
우리는 네이티브 해상도 시각 인식과 강력한 다중모달 추론을 위해 설계된 Ovis2의 후속 모델인 Ovis2.5를 소개합니다. Ovis2.5는 네이티브 해상도 비전 트랜스포머를 통합하여 이미지를 원본의 가변 해상도로 처리함으로써 고정 해상도 타일링으로 인한 품질 저하를 방지하고, 복잡한 차트와 같은 시각적으로 밀도 높은 콘텐츠에서 중요한 세부 사항과 전역 레이아웃을 보존합니다. 추론 능력을 강화하기 위해, 모델은 선형적인 사고의 연쇄를 넘어 반영(자기 점검 및 수정 포함)을 수행하도록 학습됩니다. 이 고급 기능은 추론 시 선택 가능한 "사고 모드"로 제공되어, 사용자가 어려운 입력에 대해 정확도를 높이기 위해 지연 시간을 희생할 수 있도록 합니다. 모델은 다섯 단계의 포괄적인 커리큘럼을 통해 점진적으로 기술을 구축하며 학습됩니다. 이 과정은 기본적인 시각 및 다중모달 사전 학습으로 시작하여 대규모 지시 튜닝을 거쳐, DPO와 GRPO를 사용한 정렬 및 추론 강화로 마무리됩니다. 이러한 업그레이드를 효율적으로 확장하기 위해 다중모달 데이터 패킹과 하이브리드 병렬화를 사용하여 엔드투엔드 속도를 크게 향상시켰습니다. 우리는 두 가지 오픈소스 모델인 Ovis2.5-9B와 Ovis2.5-2B를 공개합니다. 후자는 Ovis2의 "작은 모델, 큰 성능" 철학을 이어받아 자원이 제한된 온디바이스 시나리오에 이상적입니다. OpenCompass 다중모달 리더보드에서 Ovis2.5-9B는 평균 78.3점을 기록하여 전작인 Ovis2-8B를 크게 앞질렀으며, 40B 미만 파라미터 범위의 오픈소스 MLLM 중 최신 기술을 달성했습니다. Ovis2.5-2B는 73.9점을 기록하여 동급 크기에서 SOTA를 확립했습니다. 종합 점수 외에도, Ovis2.5는 STEM 벤치마크에서 선두를 달리고, 그라운딩 및 비디오 작업에서 강력한 능력을 보이며, 복잡한 차트 분석에서 해당 규모의 오픈소스 SOTA를 달성했습니다.
긴 이야기와 소설에 대한 서사적 이해는 복잡한 플롯과 등장인물 및 개체 간의 얽히고 변하는 관계로 인해 도전적인 영역으로 여겨져 왔습니다. 대형 언어 모델(LLM)이 확장된 맥락에 대한 추론 능력이 제한적이고 계산 비용이 높기 때문에, 실제로는 검색 기반 접근 방식이 중요한 역할을 하고 있습니다. 그러나 전통적인 RAG(Retrieval-Augmented Generation) 방법은 상태를 유지하지 않는 단일 단계 검색 프로세스로 인해 장거리 맥락 내에서 상호 연결된 관계를 포착하는 동적인 특성을 종종 간과할 수 있습니다. 본 연구에서는 서사적 추론이 일회성 과정이 아니라 새로운 증거 획득과 과거 지식 통합 간의 동적이고 진화하는 상호작용이라는 원칙을 기반으로 ComoRAG를 제안합니다. 이는 인간이 뇌의 기억 관련 신호를 활용해 추론할 때의 인지 과정과 유사합니다. 구체적으로, ComoRAG는 추론의 막다른 길에 부딪혔을 때 동적 메모리 작업 공간과 상호작용하며 반복적인 추론 주기를 거칩니다. 각 주기에서 탐색적 경로를 설계하기 위한 탐색 쿼리를 생성한 후, 새로운 측면의 검색된 증거를 전역 메모리 풀에 통합하여 쿼리 해결을 위한 일관된 맥락의 형성을 지원합니다. 200,000 토큰 이상의 도전적인 장거리 서사 벤치마크 네 가지에서 ComoRAG는 강력한 RAG 베이스라인 대비 최대 11%의 일관된 상대적 성능 향상을 보였습니다. 추가 분석 결과, ComoRAG는 전역적 이해가 필요한 복잡한 쿼리에 특히 유리하며, 상태를 유지하는 추론을 위한 검색 기반 장거리 맥락 이해에 대한 원칙적이고 인지적으로 동기 부여된 패러다임을 제공합니다. 우리의 코드는 https://github.com/EternityJune25/ComoRAG에서 공개되었습니다.
단일 이미지로부터 4D(즉, 동적 3D) 장면 표현을 생성하는 최초의 피드포워드 프레임워크인 4DNeX를 소개합니다. 기존 방법들이 계산 집약적인 최적화에 의존하거나 다중 프레임 비디오 입력을 요구하는 것과 달리, 4DNeX는 사전 학습된 비디오 확산 모델을 미세 조정함으로써 효율적인 엔드투엔드 이미지-투-4D 생성을 가능하게 합니다. 구체적으로, 1) 4D 데이터의 부족 문제를 완화하기 위해, 고급 재구성 기법을 사용해 생성된 고품질 4D 주석이 포함된 대규모 데이터셋인 4DNeX-10M을 구축했습니다. 2) RGB와 XYZ 시퀀스를 공동으로 모델링하는 통합 6D 비디오 표현을 도입하여 외관과 기하학 구조를 체계적으로 학습할 수 있도록 했습니다. 3) 사전 학습된 비디오 확산 모델을 4D 모델링에 활용하기 위한 간단하지만 효과적인 적응 전략 세트를 제안했습니다. 4DNeX는 새로운 시점 비디오 합성을 가능하게 하는 고품질 동적 포인트 클라우드를 생성합니다. 광범위한 실험을 통해 4DNeX가 기존 4D 생성 방법들보다 효율성과 일반화 능력에서 우수함을 입증했으며, 이미지-투-4D 모델링을 위한 확장 가능한 솔루션을 제공하고 동적 장면 진화를 시뮬레이션하는 생성적 4D 세계 모델의 기반을 마련했습니다.
본 논문에서는 이미지를 구조화된 시퀀스로 분해하여 각 시퀀스 요소가 동일한 공간 해상도를 공유하지만, 사용된 고유 토큰의 수가 달라 서로 다른 수준의 시각적 세부 정보를 포착하는 새로운 이미지 생성 접근법을 제안한다. 이미지 생성은 우리가 새롭게 도입한 Next Visual Granularity(NVG) 생성 프레임워크를 통해 수행되며, 이 프레임워크는 빈 이미지에서 시작하여 전역 레이아웃에서 세부 사항까지 구조화된 방식으로 점진적으로 시각적 세부 정보 시퀀스를 생성한다. 이 반복적인 과정은 다중 세부 정보 수준에 걸쳐 생성 과정을 세밀하게 제어할 수 있는 계층적, 레이어드 표현을 인코딩한다. 우리는 ImageNet 데이터셋에서 클래스 조건부 이미지 생성을 위해 일련의 NVG 모델을 학습시키고 명확한 스케일링 행동을 관찰했다. VAR 시리즈와 비교했을 때, NVG는 FID 점수(3.30 -> 3.03, 2.57 -> 2.44, 2.09 -> 2.06) 측면에서 지속적으로 더 나은 성능을 보였다. 또한 NVG 프레임워크의 능력과 잠재력을 보여주기 위해 광범위한 분석을 수행했다. 우리의 코드와 모델은 공개될 예정이다.
대규모 언어 모델(LLMs)은 언어 이해, 생성, 추론 분야에서 인상적인 성과를 보여주며, 멀티모달 모델의 능력 한계를 넓혀가고 있습니다. 현대 LLMs의 기반이 되는 트랜스포머 모델은 우수한 확장성을 갖춘 강력한 기준선을 제공합니다. 그러나 전통적인 트랜스포머 아키텍처는 상당한 계산량을 요구하며, 대규모 학습과 실제 배포에 있어 상당한 장애물로 작용합니다. 본 조사에서는 트랜스포머의 고유한 한계를 해결하고 효율성을 높이는 혁신적인 LLM 아키텍처를 체계적으로 검토합니다. 언어 모델링을 시작으로, 이 조사는 선형 및 희소 시퀀스 모델링 방법, 효율적인 전체 어텐션 변형, 희소 전문가 혼합, 위 기술들을 통합한 하이브리드 모델 아키텍처, 그리고 새롭게 부상하는 확산 LLMs에 대한 배경 및 기술적 세부 사항을 다룹니다. 또한, 이러한 기술들이 다른 모달리티에 적용되는 사례를 논의하고, 확장 가능하며 자원을 고려한 기반 모델 개발에 대한 광범위한 함의를 고찰합니다. 최근 연구들을 위 범주로 그룹화함으로써, 본 조사는 현대적이고 효율적인 LLM 아키텍처의 청사진을 제시하며, 이를 통해 더 효율적이고 다재다능한 AI 시스템을 향한 미래 연구를 촉진할 수 있기를 기대합니다.
대규모 언어 모델(LLMs)은 프롬프트의 문구와 형식에서 발생하는 미묘하고 비의미론적인 변화에 매우 민감합니다. 본 연구에서는 통일된 실험 프레임워크 내에서 프롬프트 견고성을 개선하기 위한 5가지 방법에 대한 첫 번째 체계적인 평가를 제시합니다. 우리는 Llama, Qwen 및 Gemma 계열의 8개 모델을 대상으로 Natural Instructions 데이터셋의 52개 작업에 대해 이러한 기술을 벤치마킹했습니다. 이 평가는 미세 조정(fine-tuned) 및 문맥 학습(in-context learning) 패러다임에서의 견고성 방법을 모두 포함하며, 다양한 유형의 분포 변화에 대한 일반화 능력을 테스트합니다. 마지막으로, GPT-4.1과 DeepSeek V3에 대한 분석을 확장하여 최첨단 모델들이 형식 변동에 대해 현재 얼마나 견고한지를 평가했습니다. 우리의 연구 결과는 이러한 견고성 방법들의 상대적 효과에 대한 실질적인 통찰을 제공함으로써, 실생활 애플리케이션에서 안정적이고 신뢰할 수 있는 LLM 성능을 목표로 하는 실무자들이 정보에 기반한 결정을 내릴 수 있도록 돕습니다. 코드: https://github.com/AIRI-Institute/when-punctuation-matters.
Classifier-free Guidance(CFG)는 현대 확산 모델에서 샘플 품질과 프롬프트 준수를 향상시키기 위해 널리 사용되는 기술입니다. 그러나 폐쇄형 해를 갖는 가우시안 혼합 모델링에 대한 실증적 분석을 통해, 우리는 CFG가 생성하는 차선의 결과와 실제 정답 간의 불일치를 관찰했습니다. 모델이 이러한 차선의 예측에 과도하게 의존하는 경우, 의미적 비일관성과 낮은 품질의 출력을 초래하는 경우가 많습니다. 이 문제를 해결하기 위해, 우리는 먼저 모델의 차선의 예측이 모델 자체의 서브 네트워크를 사용하여 효과적으로 개선될 수 있음을 실증적으로 입증합니다. 이러한 통찰을 바탕으로, 우리는 순방향 과정에서 확률적 블록 드롭을 활용하여 확률적 서브 네트워크를 구성함으로써, 모델이 잠재적인 낮은 품질의 예측에서 벗어나 고품질의 출력으로 이끌 수 있는 새로운 방법인 S^2-Guidance를 제안합니다. 텍스트-이미지 및 텍스트-비디오 생성 작업에 대한 광범위한 정성적 및 정량적 실험을 통해, S^2-Guidance가 우수한 성능을 제공하며 CFG 및 기타 고급 가이던스 전략을 지속적으로 능가함을 입증합니다. 우리의 코드는 공개될 예정입니다.
최근 멀티모달 모델은 눈부신 발전을 이루었습니다. 그럼에도 불구하고, 이들은 여전히 공간 이해와 추론이라는 인공 일반 지능 달성을 위한 기본적인 능력에서 뚜렷한 한계를 보이고 있습니다. 최근 출시된 GPT-5는 현재까지 가장 강력한 AI 모델로 알려져 있으며, 이제는 선도적인 모델들이 공간 지능을 향한 여정에서 어디에 위치하는지 살펴볼 적절한 시기입니다. 먼저, 우리는 기존 벤치마크를 통합하는 포괄적인 공간 작업 분류 체계를 제안하고 공정한 평가를 보장하기 위한 과제들을 논의합니다. 그런 다음, 총 10억 개 이상의 토큰을 소비하며 8개의 주요 벤치마크에서 최첨단 독점 및 오픈소스 모델을 평가합니다. 우리의 실증 연구는 (1) GPT-5가 공간 지능에서 전례 없는 강점을 보이지만, (2) 여전히 다양한 작업에서 인간의 성능에 미치지 못함을 밝혀냅니다. 또한, 우리는 (3) 멀티모달 모델에게 더 도전적인 공간 지능 문제들을 식별하고, (4) 가장 어려운 문제에 직면했을 때 독점 모델이 결정적인 우위를 보이지 않음을 확인했습니다. 추가적으로, 우리는 인간에게는 직관적이지만 가장 발전된 멀티모달 모델조차 실패하는 다양한 시나리오에 대한 질적 평가를 수행합니다.
대규모 언어 모델(LLMs)은 수학 및 프로그래밍과 같은 단계별 추론 작업에서 뛰어난 능력을 보여왔지만, 상호 의존적인 행동의 긴 구조적 시퀀스를 요구하는 장기 계획(planning) 분야에서의 숙련도는 아직 충분히 탐구되지 않았습니다. 기존 벤치마크들은 주로 추상적이거나 저차원의 알고리즘 작업을 통해 LLMs를 평가하며, 현실적인 계획 환경의 복잡성을 포착하지 못하고 있습니다. 우리는 복잡한 RPG 스타일의 가상 세계 내에서 장기 계획과 구조적 추론을 평가하기 위해 특별히 설계된 새로운 벤치마크인 HeroBench를 소개합니다. HeroBench는 다양한 난이도를 아우르는 엄격하게 구성된 작업 데이터셋, 에이전트 계획을 실행하고 검증할 수 있는 시뮬레이션 환경, 그리고 모델 성능을 평가하기 위한 상세한 분석 도구를 제공합니다. 이 작업들은 모델이 전략적 계획을 수립하고, 자원을 효율적으로 수집하며, 필요한 기술을 습득하고, 장비를 제작하며, 적을 물리치는 능력을 요구함으로써 실제 시나리오의 계층적 의존성과 제약 조건을 반영합니다. GPT-5 계열을 포함한 오픈소스 및 독점 모델을 아우르는 25개의 최신 LLMs에 대한 광범위한 평가를 통해, 기존 추론 벤치마크에서는 드물게 관찰되는 상당한 성능 격차를 확인했습니다. 상세한 오류 분석은 현재 모델들이 견고한 고수준 계획을 생성하고 구조화된 행동을 안정적으로 실행하는 능력에서의 특정 약점을 추가로 밝혀냈습니다. 따라서 HeroBench는 LLM 추론 평가를 크게 발전시킬 뿐만 아니라, 가상 환경에서의 고급 자율 계획 연구를 위한 유연하고 확장 가능한 기반을 제공합니다.
최근 인터랙티브 비디오 생성 분야의 발전은 확산 모델이 복잡한 물리적 역학과 상호작용 행동을 포착함으로써 세계 모델로서의 잠재력을 입증했습니다. 그러나 기존의 인터랙티브 세계 모델은 양방향 주의 메커니즘과 긴 추론 단계에 의존하기 때문에 실시간 성능이 심각하게 제한됩니다. 결과적으로, 이러한 모델들은 역사적 맥락과 현재 행동에 기반하여 결과가 즉시 업데이트되어야 하는 실제 세계의 역학을 시뮬레이션하기 어렵습니다. 이를 해결하기 위해, 우리는 Matrix-Game 2.0을 제안합니다. 이 인터랙티브 세계 모델은 몇 단계의 자기회귀적 확산을 통해 즉석에서 긴 비디오를 생성합니다. 우리의 프레임워크는 세 가지 주요 구성 요소로 이루어져 있습니다: (1) Unreal Engine과 GTA5 환경을 위한 확장 가능한 데이터 생산 파이프라인으로, 다양한 상호작용 주석이 포함된 대량의 비디오 데이터(약 1200시간)를 효과적으로 생성합니다; (2) 프레임 단위의 마우스 및 키보드 입력을 상호작용 조건으로 활성화하는 액션 주입 모듈; (3) 실시간 및 스트리밍 비디오 생성을 위한 인과적 아키텍처 기반의 몇 단계 증류. Matrix Game 2.0은 다양한 장면에서 초고속 25 FPS로 고품질의 분 단위 비디오를 생성할 수 있습니다. 우리는 인터랙티브 세계 모델링 연구를 발전시키기 위해 모델 가중치와 코드베이스를 오픈소스로 공개합니다.
우리는 인간의 청각 처리 계층 구조에서 영감을 받은 2단계 프레임워크를 통해 음성을 인코딩하는 생물학적으로 영감을 받은 모델인 AuriStream을 소개합니다. 첫 번째 단계에서는 인간의 달팽이관을 기반으로 원시 오디오를 시간-주파수 표현으로 변환하고, 여기서 이산적인 달팽이관 토큰을 추출합니다. 두 번째 단계에서는 달팽이관 토큰에 대해 자기회귀 시퀀스 모델을 적용합니다. AuriStream은 의미 있는 음소 및 단어 표현과 최신의 어휘 의미론을 학습합니다. AuriStream은 다양한 하위 SUPERB 음성 작업에서 경쟁력 있는 성능을 보여줍니다. AuriStream의 강력한 표현 능력을 보완하여, 이 모델은 스펙트로그램 공간에서 시각화되고 다시 오디오로 디코딩될 수 있는 오디오의 연속을 생성함으로써 모델의 예측에 대한 통찰을 제공합니다. 요약하면, 우리는 더 인간과 같은 모델의 개발을 촉진하고 다양한 음성 기반 작업을 효율적으로 처리하기 위한 음성 표현 학습을 위한 2단계 프레임워크를 제시합니다.
비디오 재조명은 비디오의 배경을 교체하면서 전경의 조명을 조화롭게 조정하여 자연스럽게 혼합하는 것을 목표로 하는 도전적이면서도 가치 있는 작업입니다. 번역 과정에서는 전경의 원래 속성(예: 알베도)을 보존하고 시간적 프레임 간 일관된 재조명을 전파하는 것이 중요합니다. 본 논문에서는 대규모 비디오 생성 모델을 기반으로 개발된 종단 간(end-to-end) 비디오 재조명 프레임워크인 Lumen을 제안합니다. Lumen은 조명과 배경을 제어하기 위한 유연한 텍스트 설명을 입력받습니다. 다양한 조명 조건에서 동일한 전경을 가진 고품질의 짝을 이루는 비디오 데이터가 부족한 점을 고려하여, 우리는 현실적 비디오와 합성 비디오를 혼합한 대규모 데이터셋을 구축했습니다. 합성 도메인의 경우, 커뮤니티에서 풍부한 3D 자산을 활용하여 다양한 환경에서 비디오 쌍을 생성하기 위해 고급 3D 렌더링 엔진을 사용했습니다. 현실적 도메인의 경우, 짝을 이루는 야외 비디오의 부족을 보완하기 위해 HDR 기반 조명 시뮬레이션을 적용했습니다. 앞서 언급한 데이터셋을 기반으로, 우리는 각 도메인의 강점(합성 비디오의 물리적 일관성과 현실적 비디오의 일반화된 도메인 분포)을 효과적으로 활용하기 위한 공동 훈련 커리큘럼을 설계했습니다. 이를 구현하기 위해, 모델에 도메인 인식 어댑터를 주입하여 재조명 학습과 도메인 외관 분포 학습을 분리했습니다. 우리는 Lumen과 기존 방법을 전경 보존 및 비디오 일관성 평가 관점에서 평가하기 위한 포괄적인 벤치마크를 구축했습니다. 실험 결과는 Lumen이 입력 비디오를 일관된 조명과 엄격한 전경 보존을 갖춘 영화적 재조명 비디오로 효과적으로 편집함을 보여줍니다. 프로젝트 페이지: https://lumen-relight.github.io/
우리는 사전 정보를 통합하여 CUT3R 모델을 개선한 새로운 피드포워드 방식의 3D 장면 재구성 방법인 G-CUT3R을 소개합니다. 기존의 피드포워드 방법들이 입력 이미지에만 의존하는 것과 달리, 우리의 방법은 실제 시나리오에서 흔히 사용 가능한 깊이 정보, 카메라 캘리브레이션, 또는 카메라 위치와 같은 보조 데이터를 활용합니다. 우리는 CUT3R에 경량화된 수정을 제안하며, 각 모달리티별로 전용 인코더를 도입하여 특징을 추출하고, 이를 제로 컨볼루션을 통해 RGB 이미지 토큰과 융합합니다. 이 유연한 설계는 추론 과정에서 어떤 조합의 사전 정보라도 원활하게 통합할 수 있게 합니다. 3D 재구성 및 기타 다중 뷰 작업을 포함한 다양한 벤치마크에서 평가한 결과, 우리의 접근법은 다양한 입력 모달리티와의 호환성을 유지하면서도 사용 가능한 사전 정보를 효과적으로 활용하여 성능을 크게 향상시킬 수 있음을 보여줍니다.
복잡한 높은 자유도(DoF) 상호작용의 동영상 생성과 도메인 간 전이 가능한 시각적 역학을 유지하기 위한 통합된 액션 표현인 시각적 액션 프롬프트를 제안합니다. 액션 기반 동영상 생성은 정밀성과 일반성 간의 트레이드오프에 직면해 있습니다: 기존의 텍스트, 기본 액션, 또는 거친 마스크를 사용하는 방법들은 일반성을 제공하지만 정밀성이 부족한 반면, 에이전트 중심의 액션 신호는 정밀성을 제공하지만 도메인 간 전이 가능성이 떨어집니다. 액션의 정밀성과 역학적 전이 가능성의 균형을 맞추기 위해, 우리는 액션을 정확한 시각적 프롬프트로 "렌더링"하여 복잡한 액션에 대한 기하학적 정밀성과 도메인 간 적응성을 모두 보존하는 도메인-불특정 표현으로 제안합니다; 특히, 일반성과 접근성을 고려하여 시각적 스켈레톤을 선택했습니다. 우리는 인간-객체 상호작용(HOI)과 민첩한 로봇 조작이라는 두 가지 상호작용이 풍부한 데이터 소스로부터 스켈레톤을 구성하는 강력한 파이프라인을 제안하여, 액션 기반 생성 모델의 도메인 간 학습을 가능하게 합니다. 사전 학습된 동영상 생성 모델에 시각적 스켈레톤을 경량 미세 조정을 통해 통합함으로써, 복잡한 상호작용의 정밀한 액션 제어를 가능하게 하면서도 도메인 간 역학 학습을 보존합니다. EgoVid, RT-1 및 DROID에 대한 실험을 통해 우리가 제안한 접근 방식의 효과를 입증합니다. 프로젝트 페이지: https://zju3dv.github.io/VAP/.
기존의 다중모달 학습 접근법은 시각과 언어 모달리티를 연결하기 위해 비용이 많이 드는 정렬 사전 학습을 필요로 하며, 일반적으로 시각적 특징을 이산적인 텍스트 토큰 공간으로 투영합니다. 우리는 이 패러다임의 근본적인 가정에 도전하며, 정렬 사전 학습을 완전히 제거하고 기존의 매핑 방향을 역전시키는 새로운 접근법인 Inverse-LLaVA를 제안합니다. 시각적 특징을 텍스트 공간으로 투영하는 대신, 우리의 방법은 텍스트 임베딩을 연속적인 시각적 표현 공간으로 매핑하고 트랜스포머 중간 레이어 내에서 융합을 수행합니다. 주의 메커니즘에서 선택적 가산 요소를 통해, 대규모 이미지-텍스트 정렬 데이터셋 없이도 시각적 및 텍스트 표현의 동적 통합을 가능하게 합니다. 9개의 다중모달 벤치마크에 걸친 포괄적인 실험은 미묘한 성능 트레이드오프를 보여줍니다: Inverse-LLaVA는 추론 집약적 및 인지적 작업에서 주목할 만한 개선을 달성했으며(MM-VET: +0.2%, VizWiz: +1.8%, ScienceQA: +0.2%, 인지 추론: +27.2%), 기억된 시각-텍스트 연관을 요구하는 지각 작업에서는 예상된 감소를 보였습니다(유명인 인식: -49.5%, OCR: -21.3%). 이러한 결과는 특히 복잡한 추론 작업에서 효과적인 다중모달 학습을 위해 정렬 사전 학습이 필요하지 않다는 첫 번째 실증적 증거를 제공합니다. 우리의 작업은 계산 요구 사항을 45% 줄이고, 모달리티 융합에 대한 기존의 통념에 도전하며, 모달리티 특정 특성을 보존하는 효율적인 다중모달 아키텍처에 대한 새로운 연구 방향을 열어줍니다. 코드 및 추가 리소스가 포함된 프로젝트 웹사이트는 https://inverse-llava.github.io에서 확인할 수 있습니다.
검증 가능한 보상 기반 강화 학습(RLVR)은 OpenAI의 o-시리즈의 성공 사례에서 볼 수 있듯이, 대규모 언어 모델(LLM)을 향상시키는 강력한 패러다임으로 부상했습니다. RLVR에서는 코드 생성에서의 단위 테스트 통과나 수학적 추론에서의 정답 일치와 같은 검증 가능한 신호로부터 보상이 도출됩니다. 이 방법은 효과적이지만, 이러한 요구 사항은 RLVR을 자동으로 확인 가능한 결과가 있는 영역으로 크게 제한합니다. 이를 극복하기 위해, 우리는 RLVR 패러다임을 개방형 작업으로 확장하기 위해 루브릭 기반 보상을 통합합니다. 여기서 신중하게 설계된 루브릭은 주관적 출력물에 대한 자동 점수 매기기를 위한 구조화된, 모델이 해석 가능한 기준으로 작용합니다. 우리는 현재까지 가장 큰 규모의 루브릭 보상 시스템을 구축했으며, 인간, LLM 또는 인간-LLM 협업을 통해 10,000개 이상의 루브릭을 생성했습니다. 루브릭 기반 RL을 구현하는 것은 도전적이지만, 우리는 명확한 프레임워크로 이러한 문제를 해결하고, 주목할 만한 성과를 보인 오픈소스 Qwen-30B-A3B 모델을 공개합니다: 1) 5,000개 이상의 샘플만으로도 우리 시스템은 개방형 벤치마크(특히 인문학 분야)에서 +5.2%의 향상을 보이며, 671B DeepSeek-V3 모델을 +2.4% 앞서면서 일반적이고 추론적인 능력을 유지합니다. 2) 우리의 방법은 세밀한 스타일 제어를 제공하며, 루브릭을 앵커로 사용하여 "AI 같은" 어조를 완화하고 더 인간적이고 표현력 있는 응답을 생성합니다. 우리는 루브릭 구축, 데이터 선택, 훈련에서의 주요 교훈을 공유하고, 한계와 향후 출시에 대해 논의합니다.
머신 언러닝(Machine Unlearning, MU)은 훈련된 모델에서 특정 훈련 데이터를 제거하여 제거된 데이터가 더 이상 모델의 동작에 영향을 미치지 않도록 하는 것을 목표로 합니다. 이는 데이터 개인정보 보호법상 "잊혀질 권리" 의무를 이행하기 위한 것입니다. 그러나 이 급속히 부상하는 분야의 연구자들은 정확성, 효율성, 개인정보 보호라는 MU의 세 가지 기본 원칙 측면에서 다양한 MU 방법의 동작을 분석하고 이해하는 데 어려움을 겪고 있습니다. 결과적으로, 그들은 종종 집계 지표와 임시 평가에 의존하게 되며, 이는 방법 간의 트레이드오프를 정확히 평가하기 어렵게 만듭니다. 이러한 격차를 메우기 위해, 우리는 MU 방법의 체계적인 평가를 용이하게 하기 위해 설계된 시각적 분석 시스템인 언러닝 비교기(Unlearning Comparator)를 소개합니다. 우리의 시스템은 평가 과정에서 두 가지 중요한 작업을 지원합니다: 모델 비교와 공격 시뮬레이션입니다. 먼저, 이 시스템은 사용자가 특정 방법으로 생성된 모델과 재훈련된 기준 모델과 같은 두 모델의 동작을 클래스, 인스턴스, 레이어 수준에서 비교하여 언러닝 후의 변화를 더 잘 이해할 수 있도록 합니다. 둘째, 우리의 시스템은 멤버십 추론 공격(Membership Inference Attacks, MIAs)을 시뮬레이션하여 특정 데이터 샘플이 원래 훈련 세트의 일부였는지를 판단하려는 공격자의 시도를 통해 방법의 개인정보 보호 수준을 평가합니다. 우리는 주요 MU 방법을 시각적으로 분석하는 사례 연구를 통해 시스템을 평가하고, 이 시스템이 사용자가 모델 동작을 이해할 뿐만 아니라 MU 방법의 개선에 대한 통찰을 얻는 데 도움이 된다는 것을 입증합니다.
대규모 추론 모델(Large Reasoning Models, LRMs)은 기존 벤치마크를 통해 잘 정의된 문제들에 대해 뛰어난 문제 해결 능력을 보여왔습니다. 그러나 이러한 평가 방식은 중요한 한계를 지니고 있습니다. 진정한 지능형 에이전트는 단순히 문제를 해결하는 것(수학 퀴즈 해결사로서의 역할)뿐만 아니라, 문제에 충분한 정보가 부족할 때 추가 정보를 요청할 수 있어야 하며, 이를 통해 사용자 요청에 능동적으로 대응할 수 있어야 합니다. 이러한 격차를 해소하기 위해, 우리는 다양한 맥락을 가진 두 가지 유형의 불완전한 문제로 구성된 새로운 데이터셋을 제안합니다. 이 데이터셋을 기반으로 LRMs에 대한 체계적인 평가를 수행한 결과, 이들이 능동적으로 정보를 요청하는 능력이 부족함을 확인했습니다. 또한, LRMs의 과도한 사고(overthinking)와 환각(hallucination)과 관련된 행동을 발견했으며, 이러한 능력을 학습하기 위한 지도 미세 조정(supervised fine-tuning)의 잠재력과 과제를 강조했습니다. 우리는 단순히 문제를 해결하는 것을 넘어 진정한 지능을 갖춘 LRMs 개발에 새로운 통찰을 제공하고자 합니다.
다중모드 대형 언어 모델(MLLMs)이 0도, 90도, 180도, 270도로 회전된 입력 이미지의 방향을 얼마나 정확하게 식별할 수 있는지 조사합니다. 이 작업은 이미지의 방향에 관계없이 회전 단서를 감지하고 공간적 관계를 맥락화하는 강력한 시각적 추론 능력을 요구합니다. 이러한 능력을 평가하기 위해, 우리는 생활, 초상, 풍경 이미지로 구성된 350장의 수동 필터링된 벤치마크인 RotBench을 소개합니다. 이 작업이 비교적 단순함에도 불구하고, GPT-5, o3, Gemini-2.5-Pro를 포함한 여러 최첨단 오픈 및 독점 MLLMs가 입력 이미지의 회전을 신뢰성 있게 식별하지 못함을 보여줍니다. 모델에 캡션, 깊이 맵 등의 보조 정보를 제공하거나 사고 연쇄 프롬프팅을 사용하는 것은 작고 일관성 없는 개선만을 제공합니다. 우리의 결과는 대부분의 모델이 정상 방향(0도) 이미지를 신뢰성 있게 식별할 수 있는 반면, 일부 모델은 거꾸로 된(180도) 이미지를 식별할 수 있음을 나타냅니다. 그러나 90도와 270도를 신뢰성 있게 구분할 수 있는 모델은 없습니다. 동시에 다른 방향으로 회전된 이미지를 보여주는 것은 추론 모델에게 중간 정도의 성능 향상을 가져오는 반면, 투표를 사용한 수정된 설정은 약한 모델의 성능을 개선합니다. 또한, 미세 조정이 90도와 270도 회전을 구분하는 모델의 능력을 개선하지 못하는 반면, 180도 이미지 식별은 상당히 개선됨을 보여줍니다. 이러한 결과들은 MLLMs의 공간적 추론 능력과 인간의 회전 인식 간에 상당한 격차가 있음을 드러냅니다.