번역이 포함된 일일 선별된 AI 연구 논문
인공지능(AI)은 과학 연구 패러다임의 변혁을 가속화하며, 연구 효율성을 향상시킬 뿐만 아니라 혁신을 주도하고 있습니다. 우리는 다양한 과학 연구 분야에서 자율적 과학 연구(Autonomous Scientific Research, ASR)를 수행하기 위한 통합형 폐쇄 루프 다중 에이전트 프레임워크인 NovelSeek를 소개합니다. 이를 통해 연구자들은 이전에 없던 속도와 정밀도로 복잡한 문제를 해결할 수 있습니다. NovelSeek는 세 가지 주요 장점을 강조합니다: 1) 확장성: NovelSeek는 12가지 과학 연구 과제에서 다재다능함을 입증했으며, 베이스라인 코드의 성능을 향상시키는 혁신적인 아이디어를 생성할 수 있습니다. 2) 상호작용성: NovelSeek는 자동화된 엔드투엔드 프로세스에서 인간 전문가 피드백과 다중 에이전트 상호작용을 위한 인터페이스를 제공하여, 도메인 전문가 지식을 원활하게 통합할 수 있습니다. 3) 효율성: NovelSeek는 인간의 노력에 비해 상당히 적은 시간 비용으로 여러 과학 분야에서 유망한 성능 향상을 달성했습니다. 예를 들어, 반응 수율 예측에서는 단 12시간 만에 27.6%에서 35.4%로 증가했으며, 인핸서 활동 예측에서는 4시간의 처리로 정확도가 0.52에서 0.79로 상승했습니다. 또한 2D 시맨틱 세그멘테이션에서는 30시간 만에 정밀도가 78.8%에서 81.0%로 향상되었습니다.
명령어 준수는 대규모 언어 모델(LLM)을 사용자 의도에 맞추는 데 필수적입니다. 최근 추론 중심 모델들이 복잡한 수학 문제에서 인상적인 성능을 보여주고 있지만, 자연어 명령어를 따르는 능력은 아직 충분히 탐구되지 않았습니다. 본 연구에서는 수학적 추론 과제에서의 명령어 준수를 평가하기 위한 전용 벤치마크인 MathIF를 소개합니다. 우리의 실증적 분석은 추론 능력을 확장하는 것과 제어 가능성을 유지하는 것 사이의 지속적인 긴장을 보여주며, 더 효과적으로 추론하는 모델들이 사용자 지시를 따르는 데 어려움을 겪는 경향이 있음을 밝혔습니다. 우리는 정제된 긴 사고 사슬(chain-of-thought)로 튜닝되거나 추론 중심 강화 학습으로 훈련된 모델들이 특히 생성 길이가 증가할 때 명령어 준수 능력이 저하되는 것을 발견했습니다. 더 나아가, 간단한 개입만으로도 순응도를 부분적으로 회복할 수 있지만, 이는 추론 성능의 희생을 대가로 한다는 것을 보여줍니다. 이러한 발견들은 현재 LLM 훈련 패러다임의 근본적인 긴장을 강조하며, 더 많은 명령어 인식 추론 모델의 필요성을 촉구합니다. 코드와 데이터는 https://github.com/TingchenFu/MathIF에서 공개합니다.
최근 대규모 언어 모델(LLM)은 대규모 강화 학습(RL)을 통해 놀라운 추론 능력을 보여주고 있습니다. 그러나 LLM에서 효과적인 다중 도구 협업 추론을 가능하게 하기 위해 RL 알고리즘을 활용하는 것은 여전히 해결해야 할 과제로 남아 있습니다. 본 논문에서는 단계별 추론 과정에서 LLM이 여러 외부 도구를 자율적으로 호출할 수 있도록 설계된 RL 기반 프레임워크인 Tool-Star를 소개합니다. Tool-Star는 6가지 유형의 도구를 통합하고 데이터 합성 및 훈련에 체계적인 설계를 포함합니다. 도구 사용 데이터의 부족 문제를 해결하기 위해, 우리는 도구 통합 프롬프트와 힌트 기반 샘플링을 결합하여 도구 사용 궤적을 자동적이고 확장 가능하게 생성하는 일반적인 도구 통합 추론 데이터 합성 파이프라인을 제안합니다. 이후 품질 정규화 및 난이도 인식 분류 과정을 통해 저품질 샘플을 걸러내고 데이터셋을 쉬운 것부터 어려운 순으로 구성합니다. 더 나아가, 우리는 다중 도구 협업 추론을 강화하기 위해 두 단계의 훈련 프레임워크를 제안합니다: (1) 콜드 스타트 미세 조정을 통해 도구 호출 피드백을 통해 LLM이 추론 패턴을 탐색하도록 유도하고, (2) 계층적 보상 설계를 포함한 다중 도구 자기 비판 RL 알고리즘을 통해 보상 이해를 강화하고 효과적인 도구 협업을 촉진합니다. 10개 이상의 도전적인 추론 벤치마크에 대한 실험적 분석은 Tool-Star의 효과성과 효율성을 입증합니다. 코드는 https://github.com/dongguanting/Tool-Star에서 확인할 수 있습니다.
사고의 연쇄(Chain-of-thought) 추론은 다양한 영역에서 대규모 언어 모델(LLMs)의 성능을 크게 향상시켰습니다. 그러나 이러한 추론 과정은 텍스트 공간에만 국한되어 시각적 작업에서의 효과가 제한적이었습니다. 이러한 한계를 해결하기 위해, 우리는 픽셀 공간에서의 추론 개념을 도입합니다. 이 새로운 프레임워크 내에서, 시각-언어 모델(VLMs)은 확대 및 프레임 선택과 같은 시각적 추론 연산 도구를 갖추게 됩니다. 이러한 연산을 통해 VLMs은 시각적 증거를 직접 검사, 질문 및 추론할 수 있어 시각적 작업에 대한 추론의 정확도를 향상시킵니다. VLMs에 이러한 픽셀 공간 추론 능력을 배양하는 것은 모델의 초기 불균형 능력과 새로 도입된 픽셀 공간 연산에 대한 저항과 같은 상당한 도전 과제를 제시합니다. 우리는 이러한 도전 과제를 두 단계의 학습 접근법으로 해결합니다. 첫 번째 단계에서는 합성된 추론 흔적에 대한 명령어 튜닝을 통해 모델이 새로운 시각적 연산에 익숙해지도록 합니다. 이후, 강화 학습(RL) 단계에서는 호기심 기반 보상 체계를 활용하여 픽셀 공간 추론과 텍스트 추론 간의 탐색 균형을 맞춥니다. 이러한 시각적 연산을 통해 VLMs은 정보가 풍부한 이미지나 비디오와 같은 복잡한 시각적 입력과 상호작용하며 필요한 정보를 능동적으로 수집할 수 있습니다. 우리는 이 접근법이 다양한 시각적 추론 벤치마크에서 VLM 성능을 크게 향상시킨다는 것을 입증합니다. 우리의 7B 모델, \model은 V* 벤치에서 84%, TallyQA-Complex에서 74%, InfographicsVQA에서 84%를 달성하여 현재까지 오픈소스 모델 중 가장 높은 정확도를 기록했습니다. 이러한 결과는 픽셀 공간 추론의 중요성과 우리 프레임워크의 효과를 강조합니다.
최근 멀티모달 생성 모델의 발전으로 지시 기반 이미지 편집 분야에서 상당한 진전이 이루어졌습니다. 그러나 이러한 모델들이 시각적으로 그럴듯한 결과물을 생성하는 반면, 지식 기반 추론 편집 작업에 대한 능력은 아직 충분히 탐구되지 않았습니다. 본 논문에서는 인지적으로 정보화된 관점에서 모델을 평가하기 위해 설계된 진단 벤치마크인 KRIS-Bench(Knowledge-based Reasoning in Image-editing Systems Benchmark)를 소개합니다. 교육 이론에서 영감을 받은 KRIS-Bench는 편집 작업을 사실적(Factual), 개념적(Conceptual), 절차적(Procedural)이라는 세 가지 기본 지식 유형으로 분류합니다. 이 분류 체계를 바탕으로 7개의 추론 차원에 걸친 22개의 대표적인 작업을 설계하고, 1,267개의 고품질 주석이 달린 편집 인스턴스를 공개합니다. 세밀한 평가를 지원하기 위해, 지식 힌트로 강화되고 인간 연구를 통해 보정된 새로운 지식 타당성(Knowledge Plausibility) 메트릭을 포함한 포괄적인 프로토콜을 제안합니다. 10개의 최신 모델에 대한 실험 결과는 추론 성능에서 상당한 격차를 보여주며, 지식 중심 벤치마크가 지능형 이미지 편집 시스템의 발전을 촉진하는 데 필요함을 강조합니다.
장시간 비디오 이해는 비디오 감시, 회의 요약, 교육 강의 분석, 스포츠 방송과 같은 실제 애플리케이션에서 중요한 능력으로 부상하고 있습니다. 그러나 VideoLLM(비디오 언어 모델)에게는 여전히 계산적으로 부담스러운 작업으로 남아있는데, 이는 주로 두 가지 병목 현상 때문입니다: 1) 순차적 비디오 디코딩, 즉 원시 비트 스트림을 RGB 프레임으로 변환하는 과정이 시간이 오래 걸리는 문제와 2) LLM(대형 언어 모델) 추론을 위한 수백만 개의 토큰을 미리 채우는 비용이 높아서 발생하는 높은 지연 시간과 메모리 사용 문제입니다. 이러한 문제를 해결하기 위해, 우리는 QuickVideo를 제안합니다. QuickVideo는 시스템-알고리즘 공동 설계로, 실시간 다운스트림 애플리케이션을 지원하기 위해 장시간 비디오 이해를 크게 가속화합니다. 이는 세 가지 주요 혁신으로 구성됩니다: QuickDecoder는 병렬화된 CPU 기반 비디오 디코더로, 비디오를 키프레임 정렬된 구간으로 분할하여 동시에 처리함으로써 2-3배의 속도 향상을 달성합니다; QuickPrefill은 KV 캐시 프루닝을 사용하여 GPU 메모리를 절약하면서 더 많은 프레임을 지원하는 메모리 효율적인 미리 채우기 방법입니다; 그리고 CPU 비디오 디코딩과 GPU 추론을 중첩시키는 오버래핑 기법입니다. 이러한 구성 요소들이 함께 작동하여 장시간 비디오 입력에 대한 추론 시간을 1분 단축시켜, 제한된 하드웨어에서도 확장 가능하고 고품질의 비디오 이해를 가능하게 합니다. 실험 결과, QuickVideo는 다양한 지속 시간과 샘플링 속도에 걸쳐 일반화되어, 장시간 비디오 처리를 실질적으로 가능하게 만드는 것을 보여줍니다.
Diffusion Transformer는 비전 생성 모델의 기반으로 부상했지만, 대규모에서의 하이퍼파라미터(HP) 튜닝 비용이 높아 확장성이 제한적입니다. 최근, 일반적인 Transformer를 위한 Maximal Update Parametrization(muP)이 제안되었으며, 이는 소규모에서 대규모 언어 모델로의 안정적인 HP 전이를 가능하게 하고 튜닝 비용을 크게 줄입니다. 그러나 일반적인 Transformer의 muP가 아키텍처와 목적이 다른 diffusion Transformer에도 적용될 수 있는지는 여전히 불분명합니다. 본 연구에서는 표준 muP를 diffusion Transformer로 일반화하고 대규모 실험을 통해 그 효과를 검증합니다. 먼저, DiT, U-ViT, PixArt-alpha, MMDiT를 포함한 주류 diffusion Transformer의 muP가 일반적인 Transformer와 일치함을 엄밀히 증명하여, 기존 muP 방법론을 직접 적용할 수 있음을 보입니다. 이를 활용하여 DiT-muP가 강력한 HP 전이성을 갖는다는 것을 체계적으로 입증합니다. 특히, 전이된 학습률을 사용한 DiT-XL-2-muP는 원래의 DiT-XL-2보다 2.9배 빠른 수렴 속도를 달성합니다. 마지막으로, PixArt-alpha를 0.04B에서 0.61B로, MMDiT를 0.18B에서 18B로 확장하면서 텍스트-이미지 생성에서 muP의 효과를 검증합니다. 두 경우 모두, muP를 적용한 모델이 각각의 기준선을 능가하면서도 적은 튜닝 비용만을 요구합니다. PixArt-alpha의 경우 한 번의 학습 실행 비용의 5.5%, MMDiT-18B의 경우 인간 전문가가 소비하는 비용의 3%만 필요했습니다. 이러한 결과는 muP가 diffusion Transformer를 확장하기 위한 원칙적이고 효율적인 프레임워크임을 입증합니다.
본 연구에서는 현재 다중모달 접근법에서 주류를 이루는 자기회귀적 패러다임에서 벗어나, 시각적 지시 튜닝과 마스크된 확산 모델을 통합한 순수 확산 기반 다중모달 대형 언어 모델(MLLM)인 LLaDA-V를 소개합니다. 대표적인 대형 언어 확산 모델인 LLaDA를 기반으로 구축된 LLaDA-V는 시각 인코더와 MLP 커넥터를 통합하여 시각적 특징을 언어 임베딩 공간으로 투영함으로써 효과적인 다중모달 정렬을 가능하게 합니다. 우리의 실험적 연구는 몇 가지 흥미로운 결과를 보여줍니다: 첫째, LLaDA-V는 순수 텍스트 작업에서는 LLaMA3-8B 및 Qwen2-7B와 같은 모델에 비해 언어 모델의 성능이 약함에도 불구하고 다중모달 작업에서 유망한 성능을 보입니다. 동일한 지시 데이터로 학습할 경우, LLaDA-V는 LLaMA3-V와 비교하여 다중모달 작업에서 높은 경쟁력을 보이며 더 나은 데이터 확장성을 보입니다. 또한 Qwen2-VL과의 성능 격차를 줄이는 것으로 보아, 다중모달 작업을 위한 LLaDA-V의 아키텍처가 효과적임을 시사합니다. 둘째, LLaDA-V는 기존의 하이브리드 자기회귀-확산 모델 및 순수 확산 기반 MLLM과 비교하여 다중모달 이해 작업에서 최첨단 성능을 달성합니다. 우리의 연구 결과는 대형 언어 확산 모델이 다중모달 맥락에서 유망하며, 향후 연구에서 더 깊이 탐구할 가치가 있음을 시사합니다. 프로젝트 페이지 및 코드: https://ml-gsai.github.io/LLaDA-V-demo/.
최근 대규모 강화 학습(RL)을 통한 추론 분야에서의 진전에도 불구하고, 고성능 추론 모델을 구축하기 위한 훈련 방법론은 여전히 명확하지 않다. DeepSeek-R1과 같은 최첨단 모델의 주요 구현 세부 사항, 예를 들어 데이터 큐레이션 전략과 RL 훈련 방법론 등은 종종 생략된다. 또한, 최근 연구에 따르면 소규모 모델의 경우 증류(distillation)가 RL보다 여전히 더 효과적인 것으로 나타난다. 본 연구에서는 대규모 RL이 강력한 소규모 및 중간 규모 모델의 추론 능력을 크게 향상시킬 수 있으며, 이를 통해 최첨단 증류 기반 모델을 능가하는 결과를 달성할 수 있음을 보여준다. 우리는 광범위한 절제 실험(ablation study)을 통해 RL 훈련 과정을 체계적으로 연구하고, 수학 전용 프롬프트로 먼저 훈련한 후 코드 전용 프롬프트로 훈련하는 간단하지만 효과적인 접근 방식을 제안한다. 특히, 수학 전용 RL은 강력한 증류 모델의 수학 벤치마크 성능을 크게 향상시킬 뿐만 아니라(예: 7B / 14B 모델에서 AIME 2025 기준 +14.6% / +17.2%), 코드 추론 작업에서도 성능을 향상시키는 것으로 나타났다(예: 7B / 14B 모델에서 LiveCodeBench 기준 +6.8% / +5.8%). 또한, 확장된 코드 전용 RL 반복은 코드 벤치마크에서의 성능을 더욱 개선시키면서 수학 결과의 저하를 최소화하거나 전혀 발생시키지 않았다. 우리는 두 도메인에서 검증 기반 RL을 가능하게 하기 위해 고품질의 검증 가능한 답변과 테스트 케이스가 포함된 도전적인 프롬프트를 수집하는 견고한 데이터 큐레이션 파이프라인을 개발했다. 마지막으로, 점진적으로 증가하는 응답 길이를 통한 커리큘럼 학습과 온-정책(on-policy) 파라미터 업데이트의 안정화 효과를 포함한 주요 실험적 통찰을 도출했다. 우리는 RL이 사전 훈련과 지도 미세 조정(예: 증류) 동안 획득한 기본 추론 능력을 이끌어낼 뿐만 아니라, 모델의 추론 능력의 한계를 넘어 이전에 해결할 수 없었던 문제를 해결할 수 있게 한다는 것을 발견했다.
시각 생성 모델은 텍스트 프롬프트에서 사실적인 이미지를 생성하는 데 있어 놀라운 진전을 이루었지만, 정확한 공간적 관계와 속성을 가진 여러 객체를 지정하는 복잡한 프롬프트를 처리하는 데는 어려움을 겪고 있습니다. 이러한 프롬프트를 효과적으로 처리하기 위해서는 의미적 내용과 공간적 레이아웃에 대한 명시적인 추론이 필요합니다. 우리는 GoT-R1이라는 프레임워크를 제시하며, 이는 시각 생성에서 의미-공간적 추론을 강화하기 위해 강화 학습을 적용합니다. Generation Chain-of-Thought 접근법을 기반으로, GoT-R1은 모델이 미리 정의된 템플릿을 넘어 효과적인 추론 전략을 자율적으로 발견할 수 있도록 신중하게 설계된 강화 학습을 통해 이를 가능하게 합니다. 이를 위해, 우리는 MLLM(Multi-modal Large Language Models)을 활용하여 추론 과정과 최종 출력을 모두 평가하는 이중 단계 다차원 보상 프레임워크를 제안하며, 이는 전체 생성 파이프라인에 걸쳐 효과적인 감독을 가능하게 합니다. 이 보상 시스템은 의미적 정렬, 공간적 정확도, 그리고 시각적 품질을 통합적으로 평가합니다. 실험 결과는 T2I-CompBench 벤치마크에서 특히 정확한 공간적 관계와 속성 바인딩을 포함하는 구성 작업에서 상당한 개선을 보여줍니다. GoT-R1은 정교한 추론 능력을 시각 생성 영역으로 성공적으로 전이함으로써 이미지 생성의 최신 기술을 발전시킵니다. 향후 연구를 촉진하기 위해, 우리는 코드와 사전 학습된 모델을 https://github.com/gogoduan/GoT-R1에서 공개적으로 제공합니다.
위험 회피형 강화 학습은 다양한 고위험 분야에서 응용되고 있습니다. 기대 수익을 극대화하는 것을 목표로 하는 고전적 강화 학습과 달리, 위험 회피형 에이전트는 위험을 최소화하는 정책을 선택하며, 때로는 기대 가치를 희생하기도 합니다. 이러한 선호도는 효용 이론을 통해 설명될 수 있습니다. 본 연구에서는 지수 효용 함수의 특정 사례에 초점을 맞추어, 벨만 방정식을 유도하고 다양한 강화 학습 알고리즘을 약간의 수정만으로 적용할 수 있음을 보여줍니다. 그러나 이러한 방법들은 과정 전반에 걸쳐 지수 계산이 필요하기 때문에 수치적 불안정성을 겪는 문제가 있습니다. 이를 해결하기 위해, 우리는 Itakura-Saito 발산을 기반으로 한 수치적으로 안정적이고 수학적으로 타당한 손실 함수를 제안하여 상태-가치 함수와 행동-가치 함수를 학습합니다. 우리는 제안된 손실 함수를 기존의 대안들과 이론적 및 실증적으로 비교 평가합니다. 실험 섹션에서는 여러 금융 시나리오를 탐구하며, 일부는 알려진 해석적 해법이 있는 경우를 포함하여, 우리의 손실 함수가 대안들을 능가함을 보여줍니다.
강력한 검색 및 리랭커 모델을 훈련시키는 것은 일반적으로 대규모 검색 데이터셋에 의존합니다. 예를 들어, BGE 컬렉션은 다양한 데이터 소스에서 수집된 160만 개의 쿼리-패시지 쌍을 포함하고 있습니다. 그러나 특정 데이터셋이 모델의 효과성에 부정적인 영향을 미칠 수 있음을 발견했습니다. BGE 컬렉션에서 15개 데이터셋 중 8개를 제거하면 훈련 세트 크기가 2.35배 감소하고 BEIR에서 nDCG@10이 1.0포인트 증가합니다. 이는 훈련 데이터 품질에 대한 보다 깊은 검토를 촉진하며, 특히 "거짓 부정(false negatives)"에 초점을 맞춥니다. 여기서 관련된 패시지가 잘못적으로 관련 없음으로 레이블링되는 경우를 말합니다. 우리는 계단식 LLM 프롬프트를 사용하여 어려운 부정 샘플을 식별하고 재레이블링하는 간단하고 비용 효율적인 접근 방식을 제안합니다. 실험 결과, 거짓 부정을 진짜 긍정(true positives)으로 재레이블링하면 E5 (base)와 Qwen2.5-7B 검색 모델이 BEIR에서 0.7-1.4 nDCG@10, 제로샷 AIR-Bench 평가에서 1.7-1.8 nDCG@10으로 개선됨을 보여줍니다. 재레이블링된 데이터로 미세 조정된 리랭커들, 예를 들어 BEIR에서의 Qwen2.5-3B도 유사한 성능 향상을 보입니다. 계단식 설계의 신뢰성은 인간 주석 결과에서도 추가로 입증되며, GPT-4o의 판단이 GPT-4o-mini보다 인간과 훨씬 더 높은 일치율을 보임을 발견했습니다.
생성형 AI(GenAI)는 일상적인 이미지 편집 작업을 자동화하는 데 있어 상당한 가능성을 가지고 있으며, 특히 2025년 3월 25일 GPT-4o의 최근 출시 이후 더욱 주목받고 있습니다. 그러나 사람들이 가장 자주 편집하고 싶어하는 주제는 무엇일까요? 그들은 어떤 종류의 편집 작업(예: 주체 제거 또는 스타일화)을 원할까요? 사람들은 예측 가능한 결과를 보장하는 정밀한 편집을 선호할까요, 아니면 매우 창의적인 편집을 원할까요? 프리랜서 사진 편집 전문가들이 수행한 실제 요청과 해당 편집의 특성을 이해함으로써, AI 기반 편집기를 개선하고 현재 AI 편집기가 성공적으로 처리할 수 있는 요청 유형을 결정하는 데 도움이 되는 교훈을 얻을 수 있을까요? 본 논문에서는 이러한 질문에 답하기 위해 Reddit 커뮤니티에서 지난 12년간(2013-2025) 수집된 83,000개의 요청과 305,000개의 PSR 전문가 편집을 분석한 독창적인 연구를 제시합니다. 인간 평가에 따르면, 최고의 AI 편집기(GPT-4o, Gemini-2.0-Flash, SeedEdit 포함)가 처리할 수 있는 요청은 약 33%에 불과합니다. 흥미롭게도, AI 편집기는 창의성이 낮고 정밀한 편집이 필요한 요청에서 더 개방적인 작업보다 성능이 떨어지는 것으로 나타났습니다. AI는 사람과 동물의 정체성을 유지하는 데 어려움을 겪으며, 종종 요청되지 않은 보정을 하는 경우가 많습니다. 반면, VLM 판단자(예: o1)는 인간 판단자와 다르게 행동하며, 인간 편집보다 AI 편집을 더 선호할 수 있습니다. 코드와 질적 예시는 https://psrdataset.github.io에서 확인할 수 있습니다.
대형 언어 모델(LLMs)은 사고의 연쇄(Chain-of-Thought, CoT) 추론을 통해 수학적 과제에서 놀라운 진전을 이루었습니다. 그러나 기존의 수학적 CoT 데이터셋은 전문가들이 중간 단계를 생략함으로써 발생하는 '사고 도약(Thought Leaps)' 문제로 인해 모델 학습과 일반화에 부정적인 영향을 미치는 경우가 많습니다. 우리는 이러한 사고 도약을 자동으로 감지하고 누락된 중간 추론 단계를 생성하여 CoT의 완전성과 일관성을 회복하는 'CoT 사고 도약 연결 과제(CoT Thought Leap Bridge Task)'를 제안합니다. 이를 위해 구조화된 ScaleQuestMath 데이터셋을 기반으로 한 특화된 학습 데이터셋인 ScaleQM+를 구축하고, 사고 도약을 연결하는 CoT-Bridge를 학습시켰습니다. 수학적 추론 벤치마크에 대한 포괄적인 실험을 통해, 우리는 연결된 데이터셋으로 미세 조정된 모델이 원본 데이터셋으로 학습된 모델보다 지속적으로 우수한 성능을 보이며, NuminaMath에서 최대 +5.87%의 성능 향상을 달성함을 입증했습니다. 우리의 접근 방식은 증류된 데이터를 효과적으로 개선(+3.02%)하고, 강화 학습을 위한 더 나은 출발점을 제공하며(+3.1%), 기존 최적화 기술과 호환되는 플러그 앤 플레이 모듈로 기능합니다. 또한, CoT-Bridge는 도메인 외 논리적 추론 과제에서도 향상된 일반화 능력을 보여주어, 추론의 완전성을 강화하는 것이 광범위한 이점을 제공함을 확인했습니다.
OpenAI o1 및 DeepSeek-R1과 같은 대규모 추론 모델(LRMs)은 더 긴 사고 사슬을 생성함으로써 추론 능력을 크게 향상시켰으며, 다양한 작업에서 뛰어난 성능을 보여주고 있습니다. 그러나 이러한 성능 향상은 생성 과정에서 상당한 수준의 중복 추론이 증가하는 대가를 치르게 되며, 이는 높은 계산 비용을 초래하고 과도한 사고(overthinking) 문제를 악화시킵니다. 기존의 많은 접근법들이 과도한 사고 문제를 해결하려고 시도했지만, 이들은 종종 외부 개입에 의존합니다. 본 논문에서는 모델이 스스로 추론 과정을 조절할 수 있도록 함으로써 외부 제어 메커니즘에 대한 의존을 없애는 새로운 프레임워크인 Self-Braking Tuning(SBT)을 제안합니다. 우리는 표준 답변을 기반으로 과도한 사고 식별 지표 세트를 구성하고, 중복 추론을 감지하기 위한 체계적인 방법을 설계합니다. 이 방법은 추론 궤적 내에서 불필요한 단계를 정확히 식별하고, 자기 조절 행동을 학습하기 위한 훈련 신호를 생성합니다. 이를 바탕으로, 적응형 추론 길이를 가진 데이터를 구성하기 위한 완전한 전략을 개발하고, 모델이 적절한 시점에서 추론을 종료할 시기를 자연스럽게 학습할 수 있도록 하는 혁신적인 브레이킹 프롬프트 메커니즘을 도입합니다. 수학 벤치마크(AIME, AMC, MATH500, GSM8K)에서의 실험 결과, 우리의 방법은 제약 없는 모델과 비슷한 정확도를 유지하면서 토큰 소비를 최대 60%까지 줄이는 것으로 나타났습니다.
비디오 Diffusion Transformer(DiT) 모델의 뛰어난 생성 품질에도 불구하고, 이들의 실제 배포는 방대한 계산 요구 사항으로 인해 심각하게 제한되고 있습니다. 이러한 비효율성은 두 가지 주요 문제에서 비롯됩니다: 토큰 길이에 대한 자기 주의(self-attention)의 이차 복잡성과 확산 모델의 다단계 특성입니다. 이러한 한계를 해결하기 위해, 우리는 동적 주의 조각화(dynamic attention carving)와 점진적 해상도 생성(progressive resolution generation)을 결합한 새로운 추론 파이프라인인 Jenga를 제안합니다. 우리의 접근 방식은 두 가지 핵심 통찰을 활용합니다: (1) 초기 노이즈 제거 단계에서는 고해상도 잠재 공간이 필요하지 않으며, (2) 후기 단계에서는 밀집된 주의가 필요하지 않다는 점입니다. Jenga는 3D 공간 채우기 곡선(space-filling curves)을 사용하여 관련 토큰 상호작용을 동적으로 선택하는 블록 단위 주의 메커니즘과, 생성 과정에서 잠재 해상도를 점진적으로 증가시키는 전략을 도입합니다. 실험 결과는 Jenga가 여러 최신 비디오 확산 모델에서 상당한 속도 향상을 달성하면서도 비슷한 생성 품질을 유지함을 보여줍니다(VBench에서 8.83배 속도 향상과 0.01% 성능 하락). 플러그 앤 플레이 솔루션으로서, Jenga는 모델 재훈련 없이도 추론 시간을 분 단위에서 초 단위로 줄여 현대 하드웨어에서 실용적이고 고품질의 비디오 생성을 가능하게 합니다. 코드: https://github.com/dvlab-research/Jenga
본 연구에서는 이산 확산(Discrete Diffusion) 기반의 첫 번째 멀티모달 대형 언어 모델(DMLLM)인 Dimple을 제안합니다. 순수 이산 확산 방식으로 학습을 진행할 경우 심각한 학습 불안정성, 최적 성능 미달, 그리고 길이 편향 문제가 발생함을 관찰했습니다. 이러한 문제를 해결하기 위해, 우리는 초기 자기회귀(autoregressive) 단계와 후속 확산 단계를 결합한 새로운 학습 패러다임을 설계했습니다. 이 접근법을 통해 LLaVA-NEXT와 동일한 데이터셋과 유사한 학습 파이프라인을 사용하여 학습된 Dimple-7B 모델을 개발하였으며, 이 모델은 LLaVA-NEXT를 3.9% 앞서는 성능을 보여 DMLLM이 자기회귀 모델과 비슷한 성능을 달성할 수 있음을 입증했습니다. 추론 효율성을 개선하기 위해, 우리는 각 단계에서 생성되는 토큰 수를 동적으로 조정하여 생성 반복 횟수를 크게 줄이는 '확신 디코딩(confident decoding)' 전략을 제안합니다. 자기회귀 모델에서는 생성 시 순방향 반복 횟수가 응답 길이와 동일하지만, 확신 디코딩을 사용할 경우 Dimple은 응답 길이의 1/3 수준의 반복만으로도 충분합니다. 또한, 우리는 자기회귀 모델의 프리필링(prefilling) 기법을 재구현하여 대부분의 벤치마크 평가에서 성능에 큰 영향을 미치지 않으면서도 1.5배에서 7배의 속도 향상을 제공함을 입증했습니다. 추가적으로, 우리는 Dimple이 구조적 사전 정보(structure priors)를 사용하여 응답을 정밀하게 제어할 수 있는 능력을 탐구했습니다. 이러한 사전 정보는 명령 기반이나 사고 연쇄(chain-of-thought) 프롬프트와는 다른 방식으로 구조화된 응답을 가능하게 하며, 자기회귀 모델에서는 달성하기 어려운 응답 형식과 길이에 대한 세밀한 제어를 허용합니다. 전반적으로, 본 연구는 DMLLM의 실현 가능성과 장점을 검증하고, 추론 효율성과 제어 가능성을 향상시켰습니다. 코드와 모델은 https://github.com/yu-rp/Dimple에서 확인할 수 있습니다.
비디오 게임이 이제 엔터테인먼트 산업에서 가장 높은 수익을 창출함에 따라, 게임 개발 워크플로우를 최적화하는 것은 이 산업의 지속 가능한 성장을 위해 필수적이 되었습니다. 최근 비전-언어 모델(Vision-Language Models, VLMs)의 발전은 게임 개발의 다양한 측면, 특히 자동화 옵션이 제한적이며 여전히 노동 집약적인 프로세스인 품질 보증(Quality Assurance, QA)을 자동화하고 개선할 수 있는 상당한 잠재력을 제공합니다. 비디오 게임 QA 작업에서 VLMs의 성능을 정확하게 평가하고 실제 시나리오를 처리하는 데 있어 그 효과를 판단하기 위해서는, 이 도메인의 특정 요구 사항을 충족시키기에는 기존 벤치마크가 부족하므로 표준화된 벤치마크가 명확히 필요합니다. 이러한 격차를 해소하기 위해, 우리는 다양한 게임의 이미지와 비디오에 대한 시각적 단위 테스트, 시각적 회귀 테스트, 바늘 찾기 작업, 결함 감지, 버그 리포트 생성 등 광범위한 게임 QA 활동을 포괄하는 종합적인 벤치마크인 VideoGameQA-Bench를 소개합니다. 코드와 데이터는 https://asgaardlab.github.io/videogameqa-bench/에서 확인할 수 있습니다.
강화 학습(RL)이 대규모 언어 모델(LLM)의 성능을 향상시키는 데 있어 놀라운 성과를 보여왔지만, 주로 수학 문제 해결과 같은 단일 턴 작업에 초점을 맞추어 왔습니다. 동적인 웹 인터페이스에서 장기적인 의사결정의 복잡성으로 인해 다중 턴 상호작용을 위한 효과적인 웹 에이전트를 훈련하는 것은 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 웹 에이전트를 훈련하기 위한 간단하면서도 효과적인 종단 간 다중 턴 RL 프레임워크인 WebAgent-R1을 제안합니다. 이 프레임워크는 웹 환경과의 온라인 상호작용에서 직접 학습하며, 비동기적으로 다양한 궤적을 생성하고, 작업 성공 여부에 따라 결정되는 이진 보상에 전적으로 의존합니다. WebArena-Lite 벤치마크에서의 실험 결과, WebAgent-R1은 Qwen-2.5-3B의 작업 성공률을 6.1%에서 33.9%로, Llama-3.1-8B의 작업 성공률을 8.5%에서 44.8%로 크게 향상시켜 기존의 최신 방법들과 OpenAI o3와 같은 강력한 독점 모델들을 크게 능가하는 성과를 보였습니다. 심층 분석을 통해 사고 기반 프롬프트 전략과 테스트 시간 확장을 통한 상호작용 증가가 웹 작업에 효과적임을 확인했습니다. 또한, WebAgent-R1-Zero와 WebAgent-R1-CoT라는 두 가지 변형을 도입하여 다양한 RL 초기화 정책을 조사함으로써 웜업 훈련 단계(즉, 행동 복제)의 중요성을 강조하고, 웹 에이전트에 긴 사고의 연쇄(CoT) 추론을 통합하는 방법에 대한 통찰을 제공했습니다.
멀티모달 대형 언어 모델(MLLMs)은 최근 사용자가 제출한 데이터셋으로 다운스트림 작업에 맞게 일반 목적 모델을 적응시키는 파인튜닝-서비스(FTaaS) 환경에서 점점 더 많이 배포되고 있습니다. 그러나 이러한 유연성은 심각한 보안 위험을 초래할 수 있는데, 악의적인 파인튜닝으로 MLLMs에 백도어를 쉽게 심을 수 있기 때문입니다. 본 논문에서는 백도어 트리거가 비의미적 영역에 비정상적인 주의 집중을 유발하여 크로스모달 처리를 체계적으로 방해하는 현상, 즉 '주의 붕괴(attention collapse)'를 관찰했습니다. 이러한 통찰을 바탕으로, 우리는 주의 엔트로피 패턴을 자기 지도 신호로 활용하여 백도어 샘플을 식별하고 필터링하는 데이터 필터링 프레임워크인 Believe Your Eyes(BYE)를 제안합니다. BYE는 세 단계의 파이프라인으로 작동합니다: (1) 파인튜닝된 모델을 사용하여 주의 맵을 추출, (2) 엔트로피 점수를 계산하고 이중 모드 분리를 통해 민감한 레이어를 프로파일링, (3) 비지도 클러스터링을 수행하여 의심스러운 샘플을 제거. 기존 방어 기법과 달리, BYE는 깨끗한 감독 데이터, 보조 레이블, 또는 모델 수정이 필요하지 않습니다. 다양한 데이터셋, 모델, 그리고 다양한 트리거 유형에 걸친 광범위한 실험을 통해 BYE의 효과성을 검증했습니다: BYE는 공격 성공률을 거의 0%로 낮추면서도 깨끗한 작업 성능을 유지하여 MLLMs의 백도어 위협에 대한 강력하고 일반화 가능한 솔루션을 제공합니다.
최근 연구들은 결과 보상을 기반으로 한 규칙 기반 강화 학습(RL)을 통해 멀티모달 대형 언어 모델(MLLMs)에서 강력한 추론 능력을 이끌어내는 데 성공을 거두었습니다. 그러나 이러한 패러다임은 일반적으로 최종 결과에 이르는 사고 과정에 대한 감독이 부족합니다. 그 결과, 모델이 최적이 아닌 추론 전략을 학습할 수 있으며, 이는 모델의 일반화 능력을 저해할 수 있습니다. 이를 고려하여, 우리는 SophiaVL-R1을 제안하며, 이 패러다임에 사고 과정에 대한 보상 신호를 추가하려는 시도입니다. 이를 위해, 우리는 먼저 전체 사고 과정의 품질을 평가하는 사고 보상 모델을 학습합니다. 사고 보상이 특정 샘플에 대해 보상 해킹으로 인해 신뢰할 수 없을 수 있다는 점을 고려하여, 우리는 Trust-GRPO 방법을 제안합니다. 이 방법은 학습 중에 사고 보상에 신뢰도 가중치를 부여하며, 이 가중치는 정답과 오답으로 이어지는 응답 간의 사고 보상 비교를 기반으로 계산되어 잠재적으로 신뢰할 수 없는 사고 보상의 영향을 완화합니다. 또한, 우리는 시간이 지남에 따라 사고 보상을 점진적으로 감소시키는 어닐링 학습 전략을 설계하여, 모델이 후기 학습 단계에서 정확한 규칙 기반 결과 보상에 더 의존할 수 있도록 합니다. 실험 결과, 우리의 SophiaVL-R1은 다양한 벤치마크(예: MathVisita, MMMU)에서 일련의 추론 MLLMs를 능가하며, 강력한 추론 및 일반화 능력을 보여줍니다. 특히, 우리의 SophiaVL-R1-7B는 매개변수가 10배 더 많은 LLaVA-OneVision-72B를 대부분의 벤치마크에서 능가합니다. 모든 코드, 모델 및 데이터셋은 https://github.com/kxfan2002/SophiaVL-R1에서 공개되었습니다.
강화 학습(Reinforcement Learning, RL)은 보상 신호를 통해 정책을 최적화함으로써 대규모 언어 모델(Large Language Models, LLMs)의 추론 능력을 향상시키는 강력한 도구로 자리 잡았습니다. 그러나 RL의 성공은 검증자(verifier)가 제공하는 보상의 신뢰성에 달려 있습니다. 본 논문에서는 검증자가 올바른 모델 출력을 잘못 거부하는 '거짓 부정(false negatives)'이라는 보편적인 문제를 밝히고 분석합니다. Big-Math-RL-Verified 데이터셋에 대한 심층 연구를 통해 모델이 생성한 응답의 38% 이상이 거짓 부정으로 인해 올바른 답변을 인식하지 못하는 것으로 나타났습니다. 우리는 실험적 및 이론적으로 이러한 거짓 부정이 유익한 기울기 신호를 박탈하고 수렴 속도를 늦춤으로써 RL 학습에 심각한 악영향을 미친다는 것을 보여줍니다. 이를 완화하기 위해 기존 규칙 기반 방법을 보완하는 경량 LLM 기반 검증자인 TinyV를 제안합니다. TinyV는 동적으로 잠재적인 거짓 부정을 식별하고 유효한 응답을 복구하여 더 정확한 보상 추정치를 생성합니다. 여러 수학 추론 벤치마크에서 TinyV를 통합함으로써 통과율을 최대 10%까지 향상시키고 기준선 대비 수렴 속도를 가속화했습니다. 우리의 연구 결과는 검증자의 거짓 부정 문제를 해결하는 것이 얼마나 중요한지 강조하며, LLM의 RL 기반 미세 조정을 개선하기 위한 실용적인 접근 방식을 제시합니다. 코드는 https://github.com/uw-nsl/TinyV에서 확인할 수 있습니다.
멀티모달 대형 언어 모델(MLLMs)은 질의응답 작업에서 인상적인 성과를 거두었지만, 공간 이해 능력에 대한 연구는 상대적으로 덜 진행되었습니다. 본 연구는 기존 MLLMs가 3D 공간 인식 및 이해 능력을 갖추고 있는지에 대한 중요한 질문을 탐구합니다. 구체적으로, 본 논문에서는 다음과 같은 기여를 합니다: (i) 시각적 기하학 인식(예: 카메라 포즈 및 모션 추정)을 평가하기 위해 특별히 설계된 벤치마크인 VGBench를 소개합니다; (ii) VGBench와 기존 11개 데이터셋의 관련 데이터를 통합한, 가장 포괄적이고 다양한 멀티모달 공간 이해 벤치마크인 SpatialScore를 제안합니다. 이 벤치마크는 다양한 공간 이해 작업, 모달리티, 질의응답 형식에 걸친 28K 샘플과 신중하게 선별된 도전적인 하위 집합인 SpatialScore-Hard로 구성됩니다; (iii) Plan-Execute 및 ReAct 추론 패러다임을 모두 지원하는 9개의 전문 도구를 통합한 새로운 다중 에이전트 시스템인 SpatialAgent를 개발합니다; (iv) 공간 추론에서 지속적인 도전 과제를 밝히고 SpatialAgent의 효과성을 입증하기 위한 광범위한 평가를 수행합니다. 우리는 SpatialScore가 MLLMs의 다음 진화를 위한 엄격한 벤치마크로써 가치 있는 통찰을 제공할 것이라 믿습니다.
현대의 시각-언어 모델(VLMs)은 시각적 추론이 필요한 다양한 작업을 해결할 수 있습니다. 실제 시나리오에서 VLMs에 바람직한 특성으로는 빠른 추론과 제어 가능한 생성(예: 원하는 형식에 맞춰 출력을 제한하는 것)이 있습니다. 그러나 LLaVA와 같은 기존의 자기회귀적(AR) VLMs은 이러한 측면에서 어려움을 겪습니다. 이산 확산 모델(DMs)은 더 빠른 추론을 위한 병렬 디코딩과 텍스트 채우기를 통한 제어 가능한 생성을 위한 양방향 컨텍스트를 가능하게 하는 유망한 대안을 제공합니다. 언어 전용 설정에서는 효과적이지만, DMs의 다중 모달 작업에 대한 잠재력은 충분히 탐구되지 않았습니다. 우리는 DMs를 기반으로 구축된 VLMs 패밀리인 LaViDa를 소개합니다. LaViDa는 DMs에 비전 인코더를 장착하고 다중 모달 명령어 수행을 위해 결합된 부분을 공동으로 미세 조정하여 구축합니다. 직면한 문제를 해결하기 위해 LaViDa는 효과적인 학습을 위한 상호 보완적 마스킹, 효율적인 추론을 위한 접두사 KV 캐시, 고품질 샘플링을 위한 타임스텝 시프팅과 같은 새로운 기술을 통합합니다. 실험 결과, LaViDa는 MMMU와 같은 다중 모달 벤치마크에서 AR VLMs에 비해 경쟁력 있거나 우수한 성능을 달성하면서도 유연한 속도-품질 트레이드오프, 제어 가능성, 양방향 추론과 같은 DMs의 고유한 장점을 제공합니다. COCO 캡셔닝에서 LaViDa는 Open-LLaVa-Next-8B 대비 +4.1 CIDEr 점수를 달성하며 1.92배의 속도 향상을 보였습니다. 양방향 작업에서는 Constrained Poem Completion에서 +59%의 개선을 달성했습니다. 이러한 결과는 LaViDa가 AR VLMs의 강력한 대안임을 보여줍니다. 코드와 모델은 카메라 준비 버전에서 공개될 예정입니다.
최근 연구들은 최종 답변을 생성하기 전에 사고의 연쇄를 명확히 표현하는 추론 모델을 구축하는 데 강화 학습(Reinforcement Learning, RL)을 사용하는 것의 효용성을 입증했습니다. 그러나 비전-언어 작업을 위한 추론 능력을 향상시키려는 지속적인 발전에도 불구하고, 기존의 오픈소스 시각적 추론 모델들은 일반적으로 순수 자연어로 추론 내용을 생성하며, 시각적 정보를 명시적으로 통합하지 못하고 있습니다. 이는 명확하게 표현되고 시각적으로 근거가 있는 추론 연쇄를 생성하는 데 한계를 초래합니다. 이를 해결하기 위해, 우리는 이미지와 텍스트를 활용한 근거 기반 추론(Grounded Reasoning with Images and Texts, GRIT)이라는 새로운 방법을 제안합니다. GRIT은 모델이 추론 과정에서 참조하는 입력 이미지의 영역을 가리키는 명시적인 바운딩 박스 좌표와 자연어를 교차하여 추론 연쇄를 생성하는 근거 기반 추론 패러다임을 도입합니다. 또한, GRIT은 GRPO 알고리즘을 기반으로 한 강화 학습 접근법인 GRPO-GR을 갖추고 있습니다. GRPO-GR은 최종 답변의 정확성과 근거 기반 추론 출력의 형식에 초점을 맞춘 강력한 보상을 사용하여, 추론 연쇄 주석이나 명시적인 바운딩 박스 레이블이 있는 데이터의 필요성을 제거합니다. 그 결과, GRIT은 기존 데이터셋에서 단 20개의 이미지-질문-답변 삼중항만으로도 탁월한 데이터 효율성을 달성합니다. 포괄적인 평가를 통해 GRIT은 다중 모달 언어 모델(MLLM)이 일관적이고 시각적으로 근거가 있는 추론 연쇄를 생성하도록 효과적으로 훈련시키며, 추론과 근거 기반 능력을 성공적으로 통합함을 보여줍니다.
강화 학습(Reinforcement Learning, RL)은 시각-언어 모델(Vision-Language Models, VLMs)의 추론 능력을 향상시키는 효과적인 사후 학습 전략으로 입증되어 왔습니다. 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)는 모델이 답변하기 전에 완전한 추론 과정을 생성하도록 유도하는 최근의 주목받는 방법으로, 이는 토큰 사용량과 계산 비용을 증가시킵니다. 인간과 유사한 사고 과정—쉬운 질문에는 추론을 건너뛰지만 필요할 때는 신중히 생각하는—에서 영감을 받아, 우리는 VLMs가 먼저 추론이 필요한 시점을 결정할 수 있도록 하는 방법을 탐구합니다. 이를 실현하기 위해 우리는 TON이라는 두 단계의 학습 전략을 제안합니다: (i) 간단하지만 효과적인 '생각 드롭아웃(thought dropout)' 연산을 포함한 지도 미세 조정(Supervised Fine-Tuning, SFT) 단계로, 추론 과정이 무작위로 빈 생각으로 대체됩니다. 이는 선택적 추론을 위한 콜드 스타트로 작용하는 '생각할지 말지(think-or-not)' 형식을 도입합니다; (ii) 모델이 언제 생각할지 말지를 자유롭게 탐색하면서 작업 인식 결과 보상을 극대화하는 GRPO 단계입니다. 실험 결과는 TON이 기본 GRPO에 비해 완료 길이를 최대 90%까지 줄이면서도 성능을 희생하지 않거나 오히려 개선할 수 있음을 보여줍니다. 3B 및 7B 모델 하에서 다양한 시각-언어 작업에 걸친 추가 평가는 모델이 학습이 진행됨에 따라 불필요한 추론 단계를 점차 우회하는 것을 일관되게 보여줍니다. 이러한 발견들은 강화 학습 접근법에서 인간과 유사한 추론 패턴을 향한 길을 밝혀줍니다. 우리의 코드는 https://github.com/kokolerk/TON에서 확인할 수 있습니다.
최근, 추론 기반 MLLM(Multimodal Large Language Model)은 장문의 텍스트 추론 체인 생성에서 어느 정도 성공을 거두었습니다. 그러나 시각적 증거에 대한 정확한 텍스트 추론의 근거를 마련하기 위해 시각적 영역에 동적이고 반복적으로 초점을 맞추고 재검토해야 하는 복잡한 작업에는 여전히 어려움을 겪고 있습니다. 우리는 VLM-R^3(Visual Language Model with Region Recognition and Reasoning)을 소개합니다. 이 프레임워크는 MLLM에게 (i) 추가적인 시각적 증거가 필요한 시점을 결정하고, (ii) 이미지 내에서 어디에 근거를 둘지 결정하며, (iii) 관련 하위 이미지 내용을 인터리브된 사고 체인에 원활하게 통합하는 능력을 부여합니다. 우리 방법의 핵심은 Region-Conditioned Reinforcement Policy Optimization(R-GRPO)으로, 이는 정보가 풍부한 영역을 선택하고, 적절한 변환(예: 자르기, 확대)을 공식화하며, 결과적인 시각적 맥락을 후속 추론 단계에 통합하는 모델을 보상하는 훈련 패러다임입니다. 이 정책을 부트스트랩하기 위해, 우리는 영역 선택과 텍스트적 정당화에 대한 단계별 감독을 제공하는 소규모이지만 신중하게 선별된 Visuo-Lingual Interleaved Rationale(VLIR) 코퍼스를 구축했습니다. MathVista, ScienceQA 및 기타 벤치마크에서의 광범위한 실험은 VLM-R^3이 제로샷 및 퓨샷 설정에서 새로운 최첨단 기술을 설정하며, 미묘한 공간 추론이나 세밀한 시각적 단서 추출을 요구하는 질문에서 가장 큰 성과를 보임을 나타냅니다.
강화 학습(Reinforcement Learning, RL)은 대규모 언어 모델(Large Language Models, LLMs)의 다운스트림 작업 성능과 인간 가치와의 정렬에서 상당한 개선을 가져옵니다. 놀랍게도, 이러한 큰 성과는 전체 파라미터 중 단지 5%에서 30%에 해당하는 작은 서브네트워크만 업데이트함으로써 달성되며, 나머지 파라미터는 사실상 변경되지 않습니다. 우리는 이러한 현상을 RL에 의해 유도된 파라미터 업데이트 희소성(parameter update sparsity)이라고 부릅니다. 이 현상은 우리 실험에서 사용된 7가지의 널리 알려진 RL 알고리즘(예: PPO, GRPO, DPO)과 10가지의 서로 다른 계열의 LLM 모두에서 관찰되었습니다. 이 희소성은 본질적이며, 명시적인 희소성 촉진 정규화나 아키텍처 제약 없이 발생합니다. 서브네트워크만 미세 조정(finetuning)해도 테스트 정확도가 회복되며, 놀랍게도 전체 미세 조정을 통해 얻은 모델과 거의 동일한 모델이 생성됩니다. 서로 다른 랜덤 시드, 훈련 데이터, 심지어 RL 알고리즘에서 얻은 서브네트워크는 우연에 의한 것보다 훨씬 더 큰 중첩을 보입니다. 우리의 분석에 따르면, 이 희소성은 특정 계층만 업데이트하기 때문이 아니라, 거의 모든 파라미터 행렬이 유사한 희소 업데이트를 받기 때문입니다. 더욱이, 거의 모든 파라미터 행렬에 대한 업데이트는 거의 완전한 랭크(full-rank)를 가지며, 이는 RL이 파라미터 행렬이 표현할 수 있는 거의 전체 부분공간을 아우르는 작은 파라미터 집합을 업데이트함을 시사합니다. 우리는 이러한 업데이트 희소성이 주로 정책 분포(policy distribution)에 가까운 데이터에 대한 훈련에 기인한다고 추측하며, KL 정규화(KL regularization)와 그래디언트 클리핑(gradient clipping)과 같이 사전 훈련된 모델에 가까운 정책을 유도하는 기법의 영향은 제한적이라고 판단합니다.
최근 추론 대형 언어 모델(LLM, 예: DeepSeek-R1 및 OpenAI-o1)의 발전은 강화 학습을 통해 인상적인 추론 능력을 보여주었습니다. 그러나 이러한 능력을 다중모달 대형 언어 모델(MLLM)로 확장하는 것은 재훈련의 과도한 비용과 고품질의 검증 가능한 다중모달 추론 데이터셋의 부족으로 인해 어려움을 겪고 있습니다. 본 논문은 FRANK 모델을 소개합니다. 이는 기존의 MLLM에 어떠한 그래디언트 업데이트나 추가 감독 없이도 추론 및 반성 능력을 부여하는 훈련이 필요 없는 r1과 유사한 MLLM입니다. 우리의 핵심 통찰은 MLLM 디코더 계층 간의 인지와 추론을 분리하는 것입니다. 구체적으로, 우리는 깊은 디코더 계층에 비해 얕은 디코더 계층이 시각적 토큰에 더 많은 주의를 할당하는 반면, 깊은 디코더 계층은 텍스트 의미에 집중한다는 것을 관찰했습니다. 이 관찰은 시각적으로 사전 훈련된 MLLM과 추론에 특화된 LLM을 결합하는 계층적 가중치 병합 접근법을 동기 부여합니다. 이를 위해, 우리는 깊은 디코더 계층에 추론 능력을 통합하면서 얕은 디코더 계층에서 시각적 기반을 보존하는 테일러 도출 폐쇄형 융합 메커니즘을 제안합니다. 도전적인 다중모달 추론 벤치마크에 대한 광범위한 실험은 우리의 접근법의 효과를 입증합니다. MMMU 벤치마크에서, 우리의 모델 FRANK-38B는 69.2의 정확도를 달성하여 가장 강력한 베이스라인인 InternVL2.5-38B를 +5.3점 앞섰으며, 심지어 독점 모델인 GPT-4o를 능가했습니다. 우리의 프로젝트 홈페이지는 http://iip.whu.edu.cn/frank/index.html에서 확인할 수 있습니다.
대규모 시각-언어 모델(LVLMs)은 여전히 환각(hallucination)에 취약하며, 시각적 입력과 일치하지 않는 내용을 생성하는 경우가 많습니다. 최근 접근법들은 환각을 완화하기 위해 다중 모달 직접 선호 최적화(DPO)를 발전시켰지만, 이들은 일반적으로 사전 정의되거나 무작위로 편집된 부정 샘플에 의존하여 실제 모델 오류를 반영하지 못함으로써 훈련 효과를 제한합니다. 본 연구에서는 모델 자체의 환각 출력을 기반으로 대조 훈련 데이터를 동적으로 구성하는 온라인 시각-언어 선호 학습(OViP) 프레임워크를 제안합니다. 샘플링된 응답 쌍 간의 의미적 차이를 식별하고 확산 모델을 사용하여 부정 이미지를 합성함으로써, OViP는 실시간으로 더 관련성 있는 감독 신호를 생성합니다. 이러한 실패 기반 훈련은 텍스트 및 시각적 선호의 적응적 정렬을 가능하게 합니다. 또한, 환각 억제와 표현력 간의 균형을 더 잘 포착하기 위해 기존 평가 프로토콜을 개선했습니다. 환각 및 일반 벤치마크에 대한 실험 결과, OViP가 핵심 다중 모달 능력을 유지하면서도 환각을 효과적으로 감소시키는 것을 확인했습니다.
다중 모달 대형 언어 모델(MLLMs)은 시각적 작업에서 빠르게 발전해 왔지만, 그들의 공간 이해 능력은 여전히 단일 이미지에 국한되어 있어, 다중 프레임 추론이 필요한 로보틱스 및 기타 실제 응용 분야에 적합하지 않습니다. 본 논문에서는 깊이 지각, 시각적 대응, 동적 지각을 통합하여 MLLMs에 강력한 다중 프레임 공간 이해 능력을 부여하는 프레임워크를 제안합니다. 우리의 접근 방식의 핵심은 다양한 3D 및 4D 장면을 아우르는 2,700만 개 이상의 샘플로 구성된 새로운 대규모 데이터셋인 MultiSPA입니다. MultiSPA와 함께, 우리는 균일한 메트릭 하에서 다양한 공간 작업을 테스트하는 포괄적인 벤치마크를 소개합니다. 결과적으로 개발된 모델인 Multi-SpatialMLLM은 베이스라인 및 독점 시스템 대비 상당한 성능 향상을 달성하며, 확장 가능하고 일반화 가능한 다중 프레임 추론 능력을 입증합니다. 또한, 우리는 다중 작업에서의 이점과 도전적인 시나리오에서의 초기 능력 발현 징후를 관찰하고, 우리의 모델이 로보틱스를 위한 다중 프레임 보상 주석자로 어떻게 활용될 수 있는지를 보여줍니다.
대형 언어 모델(LLMs)은 현실 세계의 에이전트 응용 프로그램에서 고급 능력을 보여주고 있습니다. 실질적인 수요를 해결하기 위해 LLM 기반 에이전트를 개발하려는 연구 노력이 증가하면서 새로운 과제가 대두되었습니다: 에이전트 시나리오는 종종 긴 지시문과 복잡한 제약 조건을 포함하며, 이는 확장된 시스템 프롬프트와 상세한 도구 명세와 같은 요소를 포함합니다. 이러한 지시문을 준수하는 것은 에이전트 응용 프로그램에 있어 매우 중요하지만, LLM이 이를 신뢰성 있게 따를 수 있는지에 대한 연구는 아직 미흡한 상태입니다. 본 논문에서는 에이전트 시나리오에서 LLM의 지시문 준수 능력을 체계적으로 평가하기 위한 첫 번째 벤치마크인 AgentIF를 소개합니다. AgentIF는 세 가지 주요 특징을 가지고 있습니다: (1) 현실적, 50개의 실제 에이전트 응용 프로그램에서 구성됨. (2) 길다, 평균 1,723단어, 최대 15,630단어. (3) 복잡, 지시문당 평균 11.9개의 제약 조건, 도구 명세 및 조건 제약과 같은 다양한 제약 유형을 포함. AgentIF를 구성하기 위해, 산업용 에이전트 및 오픈소스 에이전트 시스템에서 50개의 에이전트 작업에 걸쳐 707개의 인간 주석이 달린 지시문을 수집했습니다. 각 지시문에 대해 관련된 제약 조건과 해당 평가 지표를 주석으로 달았으며, 이는 코드 기반 평가, LLM 기반 평가, 그리고 하이브리드 코드-LLM 평가를 포함합니다. 우리는 AgentIF를 사용하여 기존의 고급 LLM을 체계적으로 평가했습니다. 현재의 모델들은 일반적으로 복잡한 제약 구조와 도구 명세를 처리하는 데 있어서 특히 낮은 성능을 보였습니다. 우리는 추가적으로 오류 분석과 지시문 길이 및 메타 제약 조건에 대한 분석 실험을 수행하여 기존 LLM의 실패 모드에 대한 몇 가지 발견을 제공했습니다. 향후 연구를 위해 코드와 데이터를 공개했습니다.
인간 피드백을 통한 강화 학습(RLHF)은 대규모 언어 모델을 인간의 선호도에 맞추는 강력한 사후 훈련 패러다임으로 자리 잡았습니다. RLHF의 핵심 과제는 정확한 보상 신호를 구성하는 것인데, 기존의 브래들리-테리 보상 모델(BT RM)은 데이터 크기와 범위에 대한 민감성과 보상 해킹에 대한 취약성으로 인해 어려움을 겪습니다. 생성적 보상 모델(GenRM)은 최종 보상에 이르는 사고의 연쇄(CoT)를 생성함으로써 더 견고한 대안을 제공합니다. 그러나 기존의 GenRM은 얕고 수직적으로 확장된 추론에 의존하여, 미묘하거나 복잡한(예: 추론 집약적인) 작업을 처리하는 능력이 제한적입니다. 또한, 이들의 쌍별 선호도 출력은 점수 기반 보상 신호를 요구하는 표준 RLHF 알고리즘과 호환되지 않습니다. 본 연구에서는 내부 사고 과정을 모델링함으로써 GenRM에서 장기적 추론을 가능하게 하는 Think-RM 훈련 프레임워크를 소개합니다. Think-RM은 구조화된 외부 제공 근거를 생성하는 대신, 자기 반성, 가설적 추론, 발산적 추론과 같은 고급 기능을 지원하는 유연하고 자기 주도적인 추론 흔적을 생성합니다. 이러한 추론 능력을 유도하기 위해, 먼저 장기 CoT 데이터에 대한 지도 미세 조정(SFT)을 통해 모델을 준비시킵니다. 그런 다음 규칙 기반 강화 학습(RL)을 통해 모델의 장기적 능력을 더욱 향상시킵니다. 또한, 점수 기반 보상 변환의 필요성을 없애고 Think-RM 출력을 더 효과적으로 활용할 수 있는 새로운 쌍별 RLHF 파이프라인을 제안합니다. 실험 결과, Think-RM은 RM-Bench에서 최첨단 성과를 달성하며 BT RM과 수직적으로 확장된 GenRM을 8% 앞섭니다. 우리의 쌍별 RLHF 파이프라인과 결합했을 때, 전통적인 접근 방식에 비해 우수한 최종 정책 성능을 보여줍니다.
대형 추론 모델(Large Reasoning Models, LRMs)은 답변 전에 명시적으로 추론하는 새로운 세대의 패러다임을 도입하여 복잡한 작업에서 뛰어난 성능 향상을 이끌어냈습니다. 그러나 이러한 모델은 유해한 질의와 적대적 공격에 대해 큰 안전성 위험을 안고 있습니다. 최근 LRM의 안전성을 개선하기 위한 주류 접근 방식인 지도 미세 조정(Supervised Fine-Tuning, SFT)은 안전성 성능을 향상시키지만, SFT로 정렬된 모델은 보이지 않는 탈옥 프롬프트(jailbreak prompt)에 일반화하는 데 어려움을 겪는 것으로 나타났습니다. LRM의 생성 과정을 철저히 조사한 결과, 안전 추론을 활성화하고 안전한 응답으로 이어질 수 있는 '안전성 통찰 순간(safety aha moment)'을 발견했습니다. 이 통찰 순간은 일반적으로 모델의 질의 이해 과정을 따르는 '핵심 문장(key sentence)'에서 나타나며, 모델이 안전하게 진행할지 여부를 나타낼 수 있습니다. 이러한 통찰을 바탕으로, 우리는 핵심 문장에서 안전성 통찰 순간을 더 잘 활성화하기 위해 두 가지 상호 보완적인 목표를 포함한 SafeKey를 제안합니다: (1) 핵심 문장 이전에 모델의 내부 표현에서 안전 신호를 강화하는 이중 경로 안전 헤드(Dual-Path Safety Head), (2) 질의 이해에 대한 모델의 주의를 개선하여 중요한 안전성 힌트를 제공하는 질의 마스크 모델링(Query-Mask Modeling) 목표입니다. 여러 안전성 벤치마크에서의 실험 결과, 우리의 방법은 다양한 탈옥 공격과 분포 외 유해 프롬프트(out-of-distribution harmful prompt)에 대한 안전성 일반화를 크게 개선하여 평균 유해성 비율을 9.6% 낮추면서도 일반적인 능력을 유지하는 것으로 나타났습니다. 우리의 분석은 SafeKey가 내부 주의를 재구성하고 숨겨진 표현의 품질을 개선함으로써 안전성을 어떻게 강화하는지를 보여줍니다.
프로세스 보상 모델(PRMs)은 대형 언어 모델(LLMs)이 생성한 추론 과정에 대해 단계별 피드백을 제공하는 모델로, 최근 주목받고 있습니다. 그러나 두 가지 주요 연구 격차가 남아 있습니다: 정확한 단계별 오류 레이블을 수집하기 위해서는 일반적으로 비용이 많이 드는 인간 주석이 필요하며, 기존 PRMs는 수학적 추론 문제에만 제한되어 있습니다. 이러한 격차에 대응하기 위해, 본 논문은 자동 데이터셋 생성의 어려움과 PRMs의 다양한 추론 작업으로의 일반화 문제를 해결하고자 합니다. 이를 위해 우리는 FoVer를 제안합니다. FoVer는 Z3(형식 논리)와 Isabelle(정리 증명)과 같은 형식 검증 도구를 통해 자동으로 주석 처리된 단계별 오류 레이블을 사용하여 PRMs를 훈련하는 접근 방식입니다. 이러한 도구들은 기호 작업에 대해 자동적이고 정확한 검증을 제공합니다. 이 접근 방식을 사용하여, 우리는 인간 주석 없이 형식 논리와 정리 증명 작업에 대한 LLM 응답의 오류 레이블이 포함된 훈련 데이터셋을 합성합니다. 이 데이터 합성은 형식 검증과 호환되는 작업에만 가능하지만, 우리는 이 데이터셋으로 훈련된 LLM 기반 PRMs가 다양한 추론 작업에서 교차 작업 일반화를 보이며 검증 성능이 향상됨을 관찰했습니다. 구체적으로, FoVer로 훈련된 PRMs는 원본 LLMs를 기반으로 한 기준 PRMs를 크게 능가하며, 인간이나 더 강력한 모델에 의해 주석 처리된 레이블로 훈련된 최첨단 PRMs와 비교하여 경쟁력 있거나 우수한 결과를 달성했습니다. 이는 ProcessBench의 단계별 검증과 MATH, AIME, ANLI, MMLU, BBH를 포함한 12개의 추론 벤치마크에서의 Best-of-K 성능을 통해 측정되었습니다. 데이터셋, 모델, 코드는 https://github.com/psunlpgroup/FoVer에서 제공됩니다.
대규모 언어 모델(LLM) 기반의 고품질 기계 번역 시스템은 특정 스타일적 제약을 반영한 맞춤형 번역 생산을 간소화했습니다. 그러나 이러한 시스템은 스타일적 요구사항이 덜 명시적이고 프롬프팅을 통해 전달하기 어려운 환경에서는 여전히 어려움을 겪고 있습니다. 본 연구는 자원이 부족한 환경에서 LLM 생성 번역을 개인화하기 위한 다양한 전략을 탐구하며, 특히 도전적인 문학 번역 분야에 초점을 맞춥니다. 우리는 맞춤형 스타일로 모델 생성물을 유도하기 위한 프롬프팅 전략과 추론 시점 개입을 탐구하고, 희소 오토인코더에서 추출된 잠재 개념을 활용하여 두드러진 개인화 특성을 식별하는 대조적 프레임워크를 제안합니다. 연구 결과에 따르면, 유도 전략은 번역 품질을 유지하면서 강력한 개인화를 달성합니다. 또한, 우리는 유도가 LLM 표현에 미치는 영향을 추가로 검토하여, 개인화에 관련된 영향을 미치는 모델 계층이 멀티샷 프롬프팅과 우리의 유도 방법에 의해 유사하게 영향을 받는다는 것을 발견했습니다. 이는 유사한 메커니즘이 작용하고 있음을 시사합니다.
대규모 언어 모델(LLM)의 텍스트 생성 능력을 평가하는 것은 특히 직접적인 평가 방법이 부족한 저자원 언어의 경우 어려운 과제입니다. 우리는 MUG-Eval이라는 새로운 프레임워크를 제안하며, 이는 기존 벤치마크를 대화형 작업으로 변환하고 해당 작업에서 LLM의 정확도를 측정함으로써 LLM의 다국어 생성 능력을 평가합니다. 우리는 이러한 대화형 작업을 특정 언어에서 효과적인 의사소통을 요구하도록 설계했습니다. 그런 다음, 단순히 작업 성공률을 성공적인 대화 생성을 대리 지표로 사용합니다. 우리의 접근 방식은 두 가지 주요 장점을 제공합니다: 대부분의 언어에서 제한적인 언어별 NLP 도구나 주석이 달린 데이터셋에 의존하지 않으며, 소수의 고자원 언어 외에서는 평가 품질이 저하되는 LLM-as-judges에 의존하지 않습니다. 우리는 고자원, 중간자원, 저자원 범주에 걸친 30개 언어에서 8개의 LLM을 평가했으며, MUG-Eval이 기존 벤치마크와 강한 상관관계(r > 0.75)를 보이면서도 언어와 모델 간의 표준화된 비교를 가능하게 한다는 것을 발견했습니다. 우리의 프레임워크는 수천 개의 언어로 확장 가능한 다국어 생성 평가를 위한 견고하고 자원 효율적인 솔루션을 제공합니다.
우리는 디퓨전 트랜스포머를 위한 학습이 필요 없는 비디오 모션 전이 방법인 RoPECraft를 제안한다. 이 방법은 회전 위치 임베딩(RoPE)만을 수정하여 동작한다. 먼저 참조 비디오에서 조밀한 광학 흐름을 추출하고, 그 결과로 얻은 모션 오프셋을 사용하여 RoPE의 복소 지수 텐서를 왜곡함으로써 생성 과정에 모션을 효과적으로 인코딩한다. 이러한 임베딩은 디노이징 단계에서 예측된 속도와 목표 속도 간의 궤적 정렬을 통해 플로우 매칭 목적 함수를 사용하여 추가로 최적화된다. 출력이 텍스트 프롬프트에 충실하도록 하고 중복 생성을 방지하기 위해, 참조 비디오의 푸리에 변환 위상 성분을 기반으로 한 정규화 항을 도입하여 위상 각을 매끄러운 매니폴드에 투영함으로써 고주파 아티팩트를 억제한다. 벤치마크 실험 결과, RoPECraft는 최근 발표된 모든 방법을 질적 및 양적으로 능가하는 성능을 보여준다.
이미지에서의 은유적 이해는 AI 시스템에게 여전히 중요한 과제로 남아 있습니다. 기존 모델들은 시각적 콘텐츠에 내재된 미묘한 문화적, 감정적, 맥락적 함의를 파악하는 데 어려움을 겪고 있습니다. 다중모달 대형 언어 모델(MLLMs)이 기본적인 시각적 질문 응답(VQA) 작업에서는 뛰어난 성능을 보이지만, 이미지 함의 작업에서는 근본적인 한계를 드러냅니다. 바로 서로 다른 시각적 요소들과 그들의 추상적 의미 간의 관계를 가리는 맥락적 격차입니다. 인간의 인지 과정에서 영감을 받아, 우리는 이미지 함의 이해와 추론을 위한 새로운 프레임워크인 Let Androids Dream(LAD)을 제안합니다. LAD는 세 단계의 프레임워크를 통해 맥락적 결여를 해결합니다: (1) 지각: 시각 정보를 풍부하고 다층적인 텍스트 표현으로 변환, (2) 탐색: 모호성을 해결하기 위해 교차 도메인 지식을 반복적으로 탐색 및 통합, (3) 추론: 명시적 추론을 통해 맥락에 맞는 이미지 함의를 생성. 우리의 프레임워크는 경량화된 GPT-4o-mini 모델을 사용하여 영어 이미지 함의 벤치마크에서 15개 이상의 MLLMs 대비 SOTA 성능을 달성했으며, 중국어 벤치마크에서도 큰 개선을 보였습니다. 또한, 객관식 질문(MCQ)에서는 GPT-4o 모델과 비슷한 성능을 보였고, 주관식 질문(OSQ)에서는 36.7% 더 우수한 성능을 보였습니다. 추가적으로, 우리의 연구는 AI가 이미지 함의를 더 효과적으로 해석할 수 있는 방법에 대한 새로운 통찰을 제공하며, 시각-언어 추론 및 인간-AI 상호작용 분야를 발전시킵니다. 우리의 프로젝트는 https://github.com/MING-ZCH/Let-Androids-Dream-of-Electric-Sheep에서 공개적으로 이용 가능합니다.
대규모 언어 모델(LLM)은 잘못을 인정할 수 있을까? 본 연구에서는 이전에 생성한 답변에서 오류를 인정하는 행위를 "철회(retraction)"로 정의하고, LLM이 언제 그리고 왜 철회를 선택하는지 이해하고자 한다. 먼저, 모델이 자신의 파라미터적 지식과 모순되는 잘못된 답변을 철회할지 평가하기 위해 모델별 데이터셋을 구축한다. LLM은 철회가 가능하지만, 이를 드물게만 수행한다. 우리는 철회가 모델의 내적 신념을 나타내는 이전에 확인된 지표와 밀접하게 연관되어 있음을 보인다: 모델은 사실적으로 옳다고 "믿는" 잘못된 답변을 철회하지 못한다. 조정 실험은 내적 신념이 모델의 철회에 인과적으로 영향을 미친다는 것을 추가로 입증한다. 특히, 모델이 자신의 답변을 믿지 않을 때, 이는 모델이 답변을 검증하려는 시도를 촉진할 뿐만 아니라 자기 검증 과정에서의 주의 행동도 변화시킨다. 마지막으로, 간단한 지도 미세 조정(supervised fine-tuning)이 모델이 더 정확한 내적 신념을 학습하도록 도와 철회 성능을 크게 향상시킨다는 것을 보인다. 코드와 데이터셋은 https://github.com/ayyyq/llm-retraction에서 확인할 수 있다.
비전-언어 모델(VLMs)은 인터넷 규모의 이미지-텍스트 코퍼스를 통해 실세계 지식과 일반적인 추론 능력을 습득합니다. 이러한 모델은 장면 이해와 작업 계획을 통해 로봇 시스템을 강화하고, 로봇 궤적 데이터로 훈련된 시각운동 정책을 지원할 수 있습니다. 본 연구에서는 반대의 패러다임을 탐구합니다. 즉, 풍부하고 실제적인 다중 모달 로봇 궤적 데이터를 사용하여 VLMs을 향상시키고 평가하는 것입니다. 이 논문에서는 VLMs을 위한 시각 질의 응답(VQA) 데이터셋 생성 프레임워크인 Robo2VLM을 소개합니다. 인간이 원격으로 조작한 로봇 궤적이 주어지면, Robo2VLM은 엔드 이펙터 포즈, 그리퍼 개폐, 힘 센싱과 같은 비시각적이고 비서술적인 감각 모달리티로부터 실측값을 도출합니다. 이러한 모달리티를 기반으로 로봇 궤적을 조작 단계의 시퀀스로 분할합니다. 각 단계에서 Robo2VLM은 장면 및 상호작용 이해를 통해 로봇의 3D 속성, 작업 목표, 그리고 대상 물체를 식별합니다. 이러한 속성들은 공간적, 목표 조건적, 상호작용 추론 질문 템플릿을 기반으로 대표적인 VQA 쿼리(이미지와 텍스트 다중 선택 질문)를 생성하는 데 사용됩니다. 우리는 176,000개의 실제 로봇 궤적에서 463개의 독특한 장면과 3,396개의 로봇 조작 작업을 포함하는 684,710개의 질문으로 구성된 대규모 실세계 데이터셋인 Robo2VLM-1을 구축했습니다. 결과는 Robo2VLM-1이 공간 및 상호작용 추론에서 VLM의 능력을 벤치마킹하고 개선할 수 있음을 시사합니다.
대규모 시각 언어 모델(Large Vision Language Models, LVLMs)의 상당한 발전에도 불구하고, 특히 모델의 해석 가능성과 이미지 내 텍스트 정보를 어떻게 찾고 해석하는지에 관한 격차가 여전히 존재합니다. 본 논문에서는 이미지에서 텍스트를 인식하는 데 관여하는 특정 헤드를 식별하기 위해 다양한 LVLM을 탐구하며, 이를 광학 문자 인식 헤드(Optical Character Recognition Head, OCR 헤드)로 명명합니다. 이러한 헤드에 관한 우리의 연구 결과는 다음과 같습니다: (1) 덜 희소성: 이전의 검색 헤드와 달리, 이미지에서 텍스트 정보를 추출하기 위해 많은 수의 헤드가 활성화됩니다. (2) 질적으로 구별됨: OCR 헤드는 일반적인 검색 헤드와 크게 다른 특성을 가지며, 그 특성 간 유사도가 낮습니다. (3) 정적으로 활성화됨: 이러한 헤드의 활성화 빈도는 OCR 점수와 밀접하게 일치합니다. 우리는 이러한 발견을 다운스트림 작업에서 검증하기 위해 OCR 헤드와 기존 검색 헤드에 Chain-of-Thought(CoT)를 적용하고, 이러한 헤드를 마스킹합니다. 또한 OCR 헤드 내 싱크 토큰(sink-token) 값을 재분배함으로써 성능이 향상됨을 보여줍니다. 이러한 통찰은 LVLM이 이미지에 내재된 텍스트 정보를 처리하는 내부 메커니즘에 대한 더 깊은 이해를 제공합니다.
비전-언어 모델(VLMs)이 일상생활에 점점 더 통합됨에 따라 정확한 시각 문화 이해의 필요성이 중요해지고 있습니다. 그러나 이러한 모델들은 문화적 뉘앙스를 효과적으로 해석하는 데 자주 부족함을 보입니다. 기존 연구에서는 텍스트 전용 환경에서 문화적 이해를 향상시키는 데 검색 증강 생성(Retrieval-Augmented Generation, RAG)의 효과를 입증했지만, 다중모달 시나리오에서의 적용은 아직 충분히 탐구되지 않았습니다. 이러한 격차를 해소하기 위해, 우리는 검색을 통해 시각 문화 이해를 발전시키기 위한 새로운 벤치마크인 RAVENEA(Retrieval-Augmented Visual culturE uNdErstAnding)를 소개합니다. RAVENEA는 문화 중심 시각 질의응답(cVQA)과 문화 정보를 반영한 이미지 캡셔닝(cIC)이라는 두 가지 작업에 초점을 맞춥니다. RAVENEA는 인간 주석자가 선별하고 순위를 매긴 10,000개 이상의 위키피디아 문서를 통합하여 기존 데이터셋을 확장합니다. RAVENEA를 통해 각 이미지 쿼리에 대해 7개의 다중모달 검색기를 훈련하고 평가하며, 14개의 최첨단 VLM에 걸쳐 검색 증강 입력의 하류 영향을 측정합니다. 우리의 결과는 문화 인식 검색으로 증강된 경량 VLM이 증강되지 않은 대조군보다 우수한 성능을 보임을 나타냅니다(cVQA에서 최소 3.2%, cIC에서 최소 6.2% 절대적 향상). 이는 다중모달 이해를 위한 검색 증강 방법과 문화적으로 포용적인 벤치마크의 가치를 강조합니다.
현대의 BPE 토크나이저는 종종 달력 날짜를 의미 없는 조각으로 분할합니다. 예를 들어, 20250312를 202, 503, 12로 나누어 토큰 수를 부풀리고 강건한 시간적 추론에 필요한 내재적 구조를 흐리게 만듭니다. 본 연구에서는 (1) 토크나이저가 다자리 날짜 구성 요소를 얼마나 충실히 보존하는지 측정하는 단순하면서도 해석 가능한 지표인 날짜 분할 비율(date fragmentation ratio)을 소개하고, (2) 세 가지 시간적 추론 과제 (문맥 기반 날짜 해석, 형식 불변 퍼즐, 역사적, 현대적, 미래적 영역에 걸친 날짜 산술)를 포함한 6500개의 예제로 구성된 DateAugBench를 공개하며, (3) 계층별 프로빙(layer-wise probing)과 인과적 주의 홉(causal attention-hop) 분석을 통해 대규모 언어 모델이 월, 일, 년 구성 요소의 조각을 시간적 추론을 위해 연결하는 날짜 추상화 메커니즘이 발생함을 밝혀냅니다. 우리의 실험은 과도한 분할이 역사적 및 미래적 날짜와 같은 드문 날짜에서 최대 10포인트의 정확도 하락과 상관관계가 있음을 보여줍니다. 또한, 모델이 클수록 날짜 조각을 치유하는 날짜 추상화가 더 빠르게 이루어짐을 발견했습니다. 마지막으로, LLM이 날짜 조각을 조립하기 위해 따르는 추론 경로가 일반적으로 인간의 해석(년 → 월 → 일)과 다르다는 점을 관찰했습니다.
우리는 토폴로지 최적화를 기반으로 대규모 언어 모델(LLM)의 물리적 및 공간적 추론 능력을 벤치마킹하기 위해 설계된 새로운 데이터셋을 소개합니다. 토폴로지 최적화는 주어진 하중과 지지 조건 하에서 설계 공간 내 최적의 재료 분포를 계산하는 방법입니다. 이 데이터셋에서 LLM은 2D 경계, 적용된 힘 및 지지 조건과 같은 정보를 제공받고, 그 결과로 나오는 최적의 재료 분포에 대해 추론해야 합니다. 데이터셋은 부분 구조 내 마스킹된 영역을 채우는 작업부터 완전한 재료 분포를 예측하는 작업까지 다양한 과제를 포함합니다. 이러한 과제를 해결하기 위해서는 주어진 제약 조건 하에서 힘의 흐름과 필요한 재료 분포를 이해해야 하며, 시뮬레이션 도구나 명시적인 물리적 모델에 접근하지 않고도 구조적 안정성과 공간적 조직에 대해 추론해야 합니다. 우리의 데이터셋은 2D 설정에서 공간적 및 물리적 추론 능력을 평가하는 데 초점을 맞추며, 전통적인 언어 및 논리 벤치마크에 보완적인 관점을 제공합니다.
교란된 입력에서 일관된 이미지를 합성하도록 사전 학습함으로써, 생성 모델은 객체 경계와 장면 구성을 이해하는 능력을 본질적으로 학습합니다. 이러한 생성적 표현을 일반적인 지각 조직화 작업에 어떻게 재활용할 수 있을까요? 우리는 Stable Diffusion과 MAE(인코더+디코더)를 카테고리 불문 인스턴스 분할을 위해 미세 조정했으며, 이때 실내 가구와 자동차라는 제한된 객체 유형에 대해서만 인스턴스 색상화 손실을 사용했습니다. 놀랍게도, 우리의 모델은 미세 조정 과정에서 보지 못한(그리고 많은 경우 MAE의 ImageNet-1K 사전 학습에서도 보지 못한) 유형과 스타일의 객체를 정확하게 분할하는 강력한 제로샷 일반화 능력을 보여주었습니다. 우리의 최고 성능 모델은 보지 못한 객체 유형과 스타일을 평가할 때 강력한 감독을 받은 SAM에 근접한 성능을 보였으며, 미세한 구조와 모호한 경계를 분할할 때는 이를 능가했습니다. 반면, 기존의 프롬프트 가능한 분할 아키텍처나 판별적으로 사전 학습된 모델은 일반화에 실패했습니다. 이는 생성 모델이 카테고리와 도메인을 넘나드는 본질적인 그룹화 메커니즘을 학습하며, 인터넷 규모의 사전 학습 없이도 이를 전이할 수 있음을 시사합니다. 코드, 사전 학습된 모델, 데모는 우리 웹사이트에서 확인할 수 있습니다.
대형 오디오-언어 모델(LALMs)은 대형 언어 모델을 음성, 오디오 등 다중 모달리티 이해로 확장한 모델이다. 이 모델들의 음성 및 오디오 처리 작업에 대한 성능은 광범위하게 연구되었으나, 그들의 추론 능력은 아직 충분히 탐구되지 않았다. 특히, 다중 단계 추론, 즉 여러 사실을 기억하고 통합하는 능력에 대한 체계적인 평가가 부족하다. 기존 벤치마크는 일반적인 음성 및 오디오 처리 작업, 대화 능력, 공정성에 초점을 맞추고 있으나 이 측면을 간과하고 있다. 이러한 격차를 해소하기 위해, 우리는 음성 및 오디오 정보를 기반으로 LALMs의 다중 단계 추론 능력을 평가하는 벤치마크인 SAKURA를 소개한다. 결과에 따르면, LALMs는 관련 정보를 정확히 추출하더라도 다중 단계 추론을 위해 음성/오디오 표현을 통합하는 데 어려움을 겪으며, 이는 다중 모달리티 추론에서의 근본적인 문제를 드러낸다. 우리의 연구 결과는 LALMs의 중요한 한계를 밝히고, 향후 연구를 위한 통찰과 자원을 제공한다.