번역이 포함된 일일 선별된 AI 연구 논문
OpenAI의 o1 모델 출시와 함께, 느린 사고 전략을 채택한 추론 모델들이 점차 등장하고 있습니다. 이러한 모델들이 생성하는 응답에는 복잡한 추론, 중간 단계, 그리고 자기 반성이 포함되는 경우가 많기 때문에, 기존의 평가 방법들은 종종 부적절합니다. 이러한 방법들은 LLM 출력이 참조 답변과 진정으로 동등한지 여부를 판단하기 어려울 뿐만 아니라, 길고 복잡한 응답에서 최종 답변을 식별하고 추출하는 데에도 어려움을 겪습니다. 이 문제를 해결하기 위해, 우리는 추론 모델 평가를 위한 효율적인 답변 검증기인 xVerify를 제안합니다. xVerify는 동등성 판단에서 강력한 능력을 보여주며, 다양한 유형의 객관식 질문에 대해 추론 모델이 생성한 답변이 참조 답변과 동등한지 여부를 효과적으로 판단할 수 있습니다. xVerify를 훈련하고 평가하기 위해, 우리는 여러 LLM이 다양한 데이터셋에서 생성한 질문-답변 쌍을 수집하고, 여러 추론 모델과 추론 모델 평가를 위해 특별히 설계된 도전적인 평가 세트를 활용하여 VAR 데이터셋을 구축했습니다. 라벨 정확성을 보장하기 위해 다중 라운드 주석 프로세스를 사용했습니다. VAR 데이터셋을 기반으로, 우리는 다양한 규모의 xVerify 모델들을 훈련했습니다. 테스트 세트와 일반화 세트에서 수행된 평가 실험에서, 모든 xVerify 모델들은 전체 F1 점수와 정확도가 95%를 초과하는 성과를 보였습니다. 특히, 가장 작은 변형인 xVerify-0.5B-I은 GPT-4o를 제외한 모든 평가 방법을 능가했으며, xVerify-3B-Ib는 전반적인 성능에서 GPT-4o를 능가했습니다. 이러한 결과들은 xVerify의 효과성과 일반화 가능성을 검증합니다.
우리는 고성능 중영 이중 언어 이미지 생성 기반 모델인 Seedream 3.0을 소개합니다. Seedream 2.0에서 존재하던 문제점들을 해결하기 위해 여러 기술적 개선을 도입하였습니다. 이는 복잡한 프롬프트와의 정렬, 세밀한 타이포그래피 생성, 미흡한 시각적 미학과 충실도, 그리고 제한된 이미지 해상도 등을 포함합니다. 구체적으로, Seedream 3.0의 발전은 데이터 구성부터 모델 배포에 이르는 전체 파이프라인 전반에 걸친 개선에서 비롯됩니다. 데이터 계층에서는 결함 인식 훈련 패러다임과 이중 축 협업 데이터 샘플링 프레임워크를 통해 데이터셋을 두 배로 확장했습니다. 또한, 혼합 해상도 훈련, 교차 모달리티 RoPE, 표현 정렬 손실, 해상도 인식 타임스텝 샘플링 등 여러 효과적인 기법을 사전 훈련 단계에서 채택했습니다. 사후 훈련 단계에서는 SFT에서 다양한 미학적 캡션을 활용하고, 스케일링이 적용된 VLM 기반 보상 모델을 사용함으로써 인간의 선호도와 잘 맞는 출력을 달성했습니다. 더 나아가, Seedream 3.0은 새로운 가속 패러다임을 선도합니다. 일관된 노이즈 기대치와 중요도 인식 타임스텝 샘플링을 통해 이미지 품질을 유지하면서 4~8배의 속도 향상을 달성했습니다. Seedream 3.0은 Seedream 2.0 대비 전반적인 능력이 크게 향상되었으며, 특히 전문 타이포그래피 생성에 중요한 복잡한 한자 텍스트 렌더링에서 두드러진 개선을 보입니다. 또한, 최대 2K까지의 네이티브 고해상도 출력을 제공하여 높은 시각적 품질의 이미지를 생성할 수 있습니다.
LLM(대형 언어 모델)의 추론 능력 향상은 광범위한 관심을 끌고 있습니다. 그러나 현재의 사후 훈련 기법은 결과 감독 또는 보조 보상 모델과 같은 감독 신호에 크게 의존하고 있어, 확장성 문제와 높은 주석 비용이라는 한계에 직면해 있습니다. 이는 외부 감독 없이도 LLM의 추론 능력을 강화할 필요성을 제기합니다. 우리는 이를 위해 일반화 가능하고 순수하게 비지도 학습 방식의 자기 훈련 프레임워크인 Genius를 소개합니다. Genius는 외부 보조 없이도 단계별로 최적의 응답 시퀀스를 탐색하고 LLM을 최적화합니다. 잠재적 단계를 탐색하고 최적의 단계를 활용하기 위해, Genius는 단계별 전망 재샘플링 전략을 도입하여 미래 결과를 시뮬레이션함으로써 단계 값을 샘플링하고 추정합니다. 또한, 비지도 학습 설정이 필연적으로 내재적 노이즈와 불확실성을 유발한다는 점을 인식하고, 이를 해결하기 위해 추정 불일치를 완화하는 이점 보정 최적화(ACO) 손실 함수를 제안합니다. 이러한 기술들을 결합함으로써, Genius는 일반적인 질의와 감독 없이도 LLM의 추론 능력을 자기 개선하는 데 있어 초기 단계를 제공하며, 일반 질의의 방대한 가용성을 고려할 때 추론 스케일링 법칙에 혁신을 가져옵니다. 코드는 https://github.com/xufangzhi/Genius에서 공개될 예정입니다.
대규모 언어 모델(LLM)의 사후 훈련이 지시 따르기에서 복잡한 추론 과제로 발전함에 따라, 다양한 데이터가 미세 조정 동역학에 미치는 영향을 이해하는 것은 여전히 크게 탐구되지 않은 상태입니다. 본 논문에서는 LLM 사후 훈련을 위해 저품질/고품질 지시 및 추론 데이터에 의해 유도된 계층별 그래디언트의 스펙트럼 분석을 제시합니다. 우리의 분석은 데이터 평가를 위해 널리 연구된 지표들(예: IFD, InsTag, Difficulty, Reward)이 그래디언트의 특이값 분해(SVD)로부터 계산된 스펙트럼 특성으로 설명되고 통합될 수 있음을 보여줍니다. 특히, 고품질 데이터는 일반적으로 더 낮은 핵 노름(nuclear norm)과 더 높은 유효 랭크(effective rank)와 연관됩니다. 주목할 만한 점은, 유효 랭크가 미묘한 품질 차이를 포착하는 데 있어 핵 노름보다 더 나은 견고성과 해상도를 보인다는 것입니다. 예를 들어, 추론 데이터는 지시 데이터보다 훨씬 더 높은 유효 랭크를 달성하며, 이는 더 복잡한 과제에서 더 풍부한 그래디언트 구조를 암시합니다. 우리의 실험은 또한 동일한 계열 내의 모델들은 크기에 관계없이 유사한 그래디언트 패턴을 공유하는 반면, 서로 다른 모델 계열들은 크게 차이가 난다는 점을 강조합니다. 지시 및 추론 데이터 전반에 걸친 데이터 품질의 영향을 통합적으로 조명함으로써, 이 연구는 데이터 품질과 훈련 안정성 간의 상호작용을 밝히고, 사후 훈련을 위한 더 나은 데이터 탐색 전략 개발에 새로운 통찰을 제공합니다.
AI 시스템은 스스로 그 지식을 검증할 수 있는 범위 내에서만 지식을 생성하고 유지할 수 있습니다. 최근 장기 사고 사슬(Chain-of-Thought) 추론에 대한 연구는 대형 언어 모델(LLM)이 경쟁적인 문제를 해결하는 데 있어 큰 잠재력을 보여주었지만, 그들의 검증 능력은 여전히 약하며 충분히 연구되지 않았습니다. 본 논문에서는 해결책의 정확성을 정확히 판단할 수 있는 장기 사고 사슬 검증 LLM인 Heimdall을 제안합니다. 순수 강화 학습을 통해 경쟁 수학 문제에서 검증 정확도를 62.5%에서 94.5%로 향상시켰습니다. 반복 샘플링을 통해 확장함으로써 정확도는 더욱 97.5%로 증가했습니다. 인간 평가를 통해 Heimdall은 훈련 중 포함되지 않았던 유형의 도전적인 수학 증명에서 대부분의 문제를 성공적으로 감지하는 인상적인 일반화 능력을 보여주었습니다. 또한, Heimdall의 기능을 확장하여 문제 해결을 확장하기 위해 비관적 검증(Pessimistic Verification)을 제안합니다. 이는 Heimdall을 호출하여 솔버 모델의 해결책을 판단하고, 비관적 원칙에 따라 가장 정확할 가능성이 높고 불확실성이 가장 적은 해결책을 선택합니다. DeepSeek-R1-Distill-Qwen-32B를 솔버 모델로 사용할 때, 비관적 검증은 AIME2025에서 해결책 정확도를 54.2%에서 16배의 계산 예산으로 70.0%로, 더 많은 계산 예산으로 83.3%로 향상시켰습니다. 더 강력한 솔버인 Gemini 2.5 Pro를 사용할 경우, 점수는 93.0%에 도달했습니다. 마지막으로, 질문을 제기하는 하나의 구성 요소, 해결책을 제공하는 다른 구성 요소, 그리고 해결책을 검증하는 세 번째 구성 요소로 이루어진 삼원 시스템인 자동 지식 발견 시스템의 프로토타입을 제작했습니다. 처음 두 구성 요소에 NuminaMath의 데이터 합성 작업을 사용하여 Heimdall은 데이터셋 내의 문제가 있는 기록을 효과적으로 식별하고, 데이터의 거의 절반이 결함이 있음을 밝혀냈는데, 이는 흥미롭게도 NuminaMath의 최근 제거 연구와 일치합니다.
TextArena는 대규모 언어 모델(LLM)의 에이전트 행동을 훈련하고 평가하기 위한 경쟁 기반 텍스트 게임의 오픈소스 컬렉션입니다. 이 플랫폼은 57개 이상의 독특한 환경(단일 플레이어, 2인 플레이어, 다중 플레이어 설정 포함)을 포괄하며, 온라인 플레이 시스템(인간 및 제출된 다른 모델과 대전 가능)과 실시간 TrueSkill 점수를 통해 모델의 능력을 쉽게 평가할 수 있도록 합니다. 전통적인 벤치마크는 협상, 마음 이론, 속임수와 같은 동적 사회적 기술을 거의 평가하지 않아, 이러한 격차를 TextArena가 해소합니다. 연구, 커뮤니티, 확장성을 고려하여 설계된 TextArena는 새로운 게임 추가, 프레임워크 적응, 모델 테스트, 모델과 대전, 모델 훈련의 용이성을 강조합니다. 환경, 게임, 리더보드, 예제에 대한 상세한 문서는 https://github.com/LeonGuertler/TextArena와 https://www.textarena.ai/에서 확인할 수 있습니다.
멀티모달 대형 언어 모델(MLLMs)은 세밀한 픽셀 수준의 이해 작업에서 뛰어난 성능을 달성합니다. 그러나 모든 연구는 비전 인코더(CLIP), 세분화 전문가와 같은 추가 구성 요소에 크게 의존하여 시스템 복잡성을 높이고 모델 확장을 제한합니다. 본 연구에서는 추가 구성 요소를 도입하지 않고도 고도로 단순화된 MLLM을 탐구하는 것을 목표로 합니다. 우리의 연구는 단일 트랜스포머를 통합 비전-언어 모델(SAIL)로 설계한 최근 연구들에서 영감을 받았으며, 이러한 연구들은 트랜스포머 내에서 비전 토큰과 텍스트 토큰을 공동으로 학습합니다. 우리는 픽셀 단위 MLLM 작업을 위한 단일 트랜스포머인 Pixel-SAIL을 제안합니다. 특히, 우리는 기본 베이스라인에 세 가지 기술적 개선을 적용했습니다. 첫째, 시각적 토큰 특징을 정제하기 위해 학습 가능한 업샘플링 모듈을 설계했습니다. 둘째, 단일 트랜스포머가 시각적 프롬프트 입력을 이해하고 시각적 프롬프트 임베딩과 비전 토큰의 초기 융합으로부터 이점을 얻을 수 있도록 새로운 시각적 프롬프트 주입 전략을 제안했습니다. 셋째, 단일 트랜스포머의 세밀한 특징 추출 능력을 효율적으로 향상시키기 위해 비전 전문가 지식 증류 전략을 도입했습니다. 또한, 우리는 수동 검사를 통해 포괄적인 픽셀 이해 벤치마크(PerBench)를 수집했습니다. 이 벤치마크는 세부 객체 설명, 시각적 프롬프트 기반 질의응답, 시각-텍스트 참조 세분화 등 세 가지 작업을 포함합니다. 네 가지 참조 세분화 벤치마크, 하나의 시각적 프롬프트 벤치마크, 그리고 우리의 PerBench에 대한 광범위한 실험을 통해 Pixel-SAIL이 훨씬 더 간단한 파이프라인으로도 비슷하거나 더 나은 결과를 달성함을 보여줍니다. 코드와 모델은 https://github.com/magic-research/Sa2VA에서 공개될 예정입니다.
표면 법선 추정은 다양한 컴퓨터 비전 애플리케이션의 초석 역할을 합니다. 정적 이미지 시나리오에 대한 수많은 연구가 진행되었지만, 비디오 기반 법선 추정에서 시간적 일관성을 보장하는 것은 여전히 큰 도전 과제로 남아 있습니다. 기존 방법에 단순히 시간적 요소를 추가하는 대신, 우리는 비디오 확산 모델의 고유한 시간적 사전 정보를 활용하는 NormalCrafter를 제안합니다. 시퀀스 전반에 걸쳐 고품질의 법선 추정을 보장하기 위해, 우리는 확산 특징을 의미론적 단서와 정렬시켜 모델이 장면의 본질적인 의미에 집중하도록 유도하는 의미론적 특징 정규화(Semantic Feature Regularization, SFR)를 제안합니다. 또한, 공간적 정확도를 유지하면서 긴 시간적 맥락을 보존하기 위해 잠재 공간과 픽셀 공간 학습을 모두 활용하는 두 단계 학습 프로토콜을 도입했습니다. 광범위한 평가를 통해 우리의 방법이 다양한 비디오에서 복잡한 디테일을 포함한 시간적으로 일관된 법선 시퀀스를 생성하는 데 있어 우수한 성능을 보임을 입증했습니다.
강화 학습(Reinforcement Learning, RL)은 복잡한 추론 작업에서 대규모 언어 모델(Large Language Models, LLMs)을 미세 조정하기 위한 주류 접근법으로 자리 잡았습니다. 최근 방법론 중 GRPO는 DeepSeek-R1과 같은 모델 훈련에서 실질적인 성공을 거두었으나, 그 효과의 근원은 여전히 잘 이해되지 않고 있습니다. 본 연구에서는 GRPO를 강화 학습 유사 알고리즘의 관점에서 재조명하고 그 핵심 구성 요소를 분석합니다. 놀랍게도, 긍정적으로 보상된 샘플만을 훈련에 사용하는 간단한 거부 샘플링 기반 방법인 RAFT가 GRPO와 PPO에 비해 경쟁력 있는 성능을 보이는 것을 발견했습니다. 우리의 제거 연구(ablation study)는 GRPO의 주요 이점이 보상 정규화에서 기인하는 것이 아니라, 완전히 잘못된 응답을 포함한 프롬프트를 제거하는 데서 비롯됨을 보여줍니다. 이러한 통찰을 바탕으로, 우리는 완전히 잘못된 샘플과 완전히 정확한 샘플을 모두 필터링하는 정책 경사(policy gradient)의 최소한의 확장인 Reinforce-Rej를 제안합니다. Reinforce-Rej는 KL 효율성과 안정성을 개선하며, 더 복잡한 RL 알고리즘에 비해 가볍고 효과적인 대안으로서의 역할을 합니다. 우리는 RAFT를 강력하고 해석 가능한 기준선으로 제안하며, 향후 연구에서는 부정적인 샘플을 무분별하게 사용하기보다는 이를 통합하는 더 원칙적인 설계에 초점을 맞출 것을 제안합니다. 본 연구의 결과는 보상 기반 LLM 사후 훈련(post-training)을 위한 미래 연구에 지침을 제공합니다.
추론 모델들은 최종 답변에 도달하기 전에 확장된 사고의 연쇄(Chain-of-Thoughts, CoTs)를 생성함으로써 복잡하고 논리 집약적인 과제를 해결하는 데 있어서 놀라운 진전을 보여주었습니다. 그러나 이러한 "느린 사고" 패러다임의 등장과 함께 순차적으로 생성되는 수많은 토큰들은 필연적으로 상당한 계산 오버헤드를 초래합니다. 이에 따라 효과적인 가속화의 필요성이 절실히 부각되고 있습니다. 본 조사는 효율적인 추론 분야의 최근 발전을 포괄적으로 개관하는 것을 목표로 합니다. 기존 연구를 세 가지 주요 방향으로 분류하였습니다: (1) 더 짧게 - 긴 CoTs를 간결하면서도 효과적인 추론 체인으로 압축; (2) 더 작게 - 지식 증류, 기타 모델 압축 기술, 강화 학습 등을 통해 강력한 추론 능력을 가진 소형 언어 모델 개발; (3) 더 빠르게 - 추론을 가속화하기 위한 효율적인 디코딩 전략 설계. 본 조사에서 논의된 논문들의 선별된 모음은 GitHub 저장소에서 확인할 수 있습니다.
대규모 언어 모델을 다양한 데이터셋에 대해 사전 학습하는 데는 비용이 많이 들기 때문에, 데이터를 결정하기 위해 소규모 실험을 활용하는 것은 비용 절감에 있어 매우 중요합니다. 소규모에서 관찰된 성능을 바탕으로 어떤 벤치마크와 의사 결정 방법이 가장 큰 모델을 얻을 수 있는 최적의 데이터셋을 가장 정확하게 예측할까요? 이 질문에 대한 개방적 탐구를 가능하게 하기 위해, 우리는 DataDecide를 공개합니다. 이는 데이터와 규모 차이에 걸친 가장 포괄적인 오픈 모델 및 평가 도구 모음입니다. 우리는 25개의 다양한 출처, 중복 제거, 필터링이 적용된 코퍼스에 대해 최대 100B 토큰, 최대 1B 파라미터의 모델 크기, 그리고 3개의 랜덤 시드를 사용하여 통제된 사전 학습 실험을 수행했습니다. 우리는 단일 소규모 모델(예: 150M 파라미터)의 순위가 더 큰 목표 규모(1B)에서 최고의 모델을 예측하는 데 강력한 기준선이 된다는 것을 발견했습니다(~80%의 비교에서 정확). 8개의 기준선 중 어떤 스케일링 법칙 방법도 단일 규모 예측의 계산-의사 결정 한계를 넘지 못했지만, DataDecide는 향후 스케일링 법칙의 개선을 측정할 수 있습니다. 또한, 소규모 실험에서 연속적인 가능도 메트릭을 대리 지표로 사용하면 MMLU, ARC, HellaSwag, MBPP, HumanEval과 같은 벤치마크가 목표 1B 규모에서 단 0.01%의 계산으로도 80% 이상 예측 가능하다는 것을 확인했습니다.
검색 강화 생성(Retrieval-Augmented Generation, RAG)은 지식 집약적 작업에서 대규모 언어 모델(Large Language Model, LLM)의 성능을 향상시키지만, 초기 검색 질의의 품질에 크게 의존합니다. 현재의 방법들은 주로 강화 학습(Reinforcement Learning, RL)을 사용하여 질의 구성이나 결과에 대한 추론에 초점을 맞추며, 실패한 검색 후의 지속성을 명시적으로 장려하지 않습니다. 우리는 ReZero(Retry-Zero)라는 새로운 RL 프레임워크를 소개합니다. 이 프레임워크는 초기 검색 시도가 실패한 후 검색 질의를 재시도하는 행위에 직접 보상을 제공함으로써, LLM이 조기에 중단하는 대신 대안 질의를 탐색하도록 유도합니다. ReZero는 25%의 기준선에 비해 46.88%의 정확도를 달성하며 상당한 개선을 보여줍니다. 지속성을 보상함으로써, ReZero는 초기 질의가 불충분할 수 있는 복잡한 정보 탐색 시나리오에서 LLM의 견고성을 강화합니다.
본 논문은 단일 트랜스포머 아키텍처 내에서 원시 픽셀 인코딩과 언어 디코딩을 통합한 통합 멀티모달 대형 언어 모델(MLLM)인 SAIL을 소개합니다. 기존의 모듈식 MLLM들이 사전 학습된 비전 트랜스포머(ViT)에 의존하는 것과 달리, SAIL은 별도의 비전 인코더가 필요 없이 더욱 미니멀한 아키텍처 설계를 제시합니다. SAIL은 새로운 아키텍처 구성 요소를 도입하기보다는, 혼합 어텐션 메커니즘과 멀티모달 위치 인코딩을 적응시켜 시각 및 텍스트 양상의 독특한 특성에 더 잘 부합하도록 합니다. 우리는 SAIL의 확장성, 크로스모달 정보 흐름 패턴, 시각적 표현 능력 등의 특성을 모듈식 MLLM들과 체계적으로 비교합니다. 학습 데이터와 모델 크기를 동시에 확장함으로써, SAIL은 모듈식 MLLM과 비슷한 성능을 달성합니다. 특히, 사전 학습된 ViT 구성 요소를 제거함으로써 SAIL의 확장성이 향상되고 크로스모달 정보 흐름 패턴이 크게 달라집니다. 또한, SAIL은 시맨틱 세그멘테이션과 같은 비전 작업에서 ViT-22B와 동등한 결과를 보이며 강력한 시각적 표현 능력을 입증합니다. 코드와 모델은 https://github.com/bytedance/SAIL에서 확인할 수 있습니다.
본 연구는 복잡한 아키텍처 수정 없이도 동작하는 기본적인 자기회귀(autoregressive) 시각 생성 프레임워크인 SimpleAR을 소개합니다. 학습 및 추론 최적화에 대한 세심한 탐구를 통해 다음과 같은 결과를 입증했습니다: 1) 단 0.5B 파라미터만으로도 1024x1024 해상도의 고품질 이미지를 생성할 수 있으며, GenEval에서 0.59, DPG에서 79.66 점을 기록하는 등 도전적인 텍스트-이미지 벤치마크에서 경쟁력 있는 성능을 달성했습니다; 2) 지도 미세조정(SFT)과 그룹 상대 정책 최적화(GRPO) 학습 모두 생성 미학과 프롬프트 정렬에서 상당한 개선을 이끌어냈습니다; 3) vLLM과 같은 추론 가속 기술을 적용할 경우, SimpleAR이 1024x1024 이미지를 생성하는 데 걸리는 시간을 약 14초까지 단축할 수 있었습니다. 이러한 발견을 공유하고 코드를 오픈소스로 제공함으로써, 우리는 자기회귀 시각 생성의 잠재력을 드러내고 이 연구 분야에 더 많은 참여를 독려하고자 합니다. 코드는 https://github.com/wdrink/SimpleAR에서 확인할 수 있습니다.
복잡한 수학적 추론 능력은 인공지능의 핵심 평가 기준 중 하나입니다. 대규모 언어 모델(LLM)에 강화 학습(RL)을 적용하는 것은 유망하지만, 충분히 도전적이며 RL에 적합한 검증 가능한 답변 형식을 갖추고 평가 벤치마크와의 오염이 없는 대규모 학습 데이터의 부재로 인해 진전이 크게 저해되고 있습니다. 이러한 한계를 해결하기 위해, 우리는 약 103,000개의 수학 문제로 구성된 새로운 대규모 데이터셋인 DeepMath-103K를 소개합니다. 이 데이터셋은 RL을 통해 고급 추론 모델을 훈련하기 위해 특별히 설계되었습니다. DeepMath-103K는 소스 분석, 다양한 벤치마크에 대한 엄격한 오염 제거, 그리고 높은 난이도(주로 레벨 5-9)를 위한 필터링을 포함한 엄격한 파이프라인을 통해 선별되었으며, 기존의 공개 리소스를 크게 뛰어넘는 도전성을 제공합니다. 각 문제는 규칙 기반 RL을 가능하게 하는 검증 가능한 최종 답변과 지도 미세 조정 또는 증류와 같은 다양한 훈련 패러다임에 적합한 세 가지 독립적인 R1 생성 솔루션을 포함합니다. 광범위한 수학 주제를 아우르는 DeepMath-103K는 일반화 가능한 추론 능력의 개발을 촉진합니다. 우리는 DeepMath-103K로 훈련된 모델이 도전적인 수학 벤치마크에서 상당한 개선을 달성함으로써 그 효과성을 입증했습니다. 더 나은 AI 추론 시스템 구축을 위한 커뮤니티의 진전을 돕기 위해 DeepMath-103K를 공개합니다: https://github.com/zwhe99/DeepMath.
프로세스 보상 모델(PRMs)은 대규모 언어 모델(LLMs)에 단계별 감독을 제공하지만, 학습 데이터 주석 작업의 확장은 인간과 LLMs 모두에게 여전히 도전적인 과제입니다. 이러한 한계를 해결하기 위해, 우리는 적극적으로 가장 불확실한 샘플을 선택하여 학습하는 능동 학습 접근법인 ActPRM을 제안합니다. 이 방법은 라벨링 비용을 상당히 줄여줍니다. 학습 과정에서, PRM은 순방향 전파 후 불확실성을 추정하여 매우 불확실한 데이터만을 유지합니다. 그런 다음, 비용이 많이 드는 추론 모델이 이 데이터에 라벨을 붙입니다. 이후 라벨에 대한 손실을 계산하고 PRM의 가중치를 업데이트합니다. 우리는 ActPRM과 기본 미세 조정을 풀 기반 능동 학습 설정에서 비교하여, ActPRM이 주석 작업을 50% 줄이면서도 동등하거나 더 나은 성능을 달성함을 보여줍니다. 주석 효율성 외에도, 우리는 ActPRM을 사용하여 100만 개 이상의 수학 추론 궤적을 필터링하여 데이터의 60%를 유지함으로써 능동적으로 훈련된 PRM을 더욱 발전시켰습니다. 이 선택된 데이터셋에 대한 후속 훈련은 동일한 크기의 모델과 비교하여 ProcessBench(75.0%)와 PRMBench(65.5%)에서 새로운 최첨단(SOTA) PRM을 달성했습니다.
확산 모델(Diffusion models)은 고차원 데이터 생성에 뛰어나지만, 자기 지도 학습(self-supervised) 방법들에 비해 학습 효율성과 표현 품질에서 뒤처집니다. 우리는 이러한 문제의 핵심 병목 현상을 발견했습니다: 학습 과정에서 고품질의 의미론적으로 풍부한 표현이 충분히 활용되지 않아 수렴 속도가 크게 느려지는 것입니다. 체계적인 분석을 통해, 생성이 이루어지기 전에 의미론적 및 구조적 패턴 학습이 일어나는 중요한 표현 처리 영역(representation processing region) — 주로 초기 층에서 — 을 확인했습니다. 이를 해결하기 위해, 우리는 임베디드 표현 워밍업(Embedded Representation Warmup, ERW)이라는 플러그 앤 플레이 프레임워크를 제안합니다. 이 프레임워크의 첫 번째 단계에서 ERW 모듈은 워밍업 역할을 하며, 확산 모델의 초기 층을 고품질의 사전 학습된 표현으로 초기화합니다. 이 워밍업은 처음부터 표현을 학습해야 하는 부담을 최소화함으로써 수렴 속도를 가속화하고 성능을 향상시킵니다. 우리의 이론적 분석은 ERW의 효과가 신경망의 특정 층 — 표현 처리 영역이라고 명명된 — 에 정확히 통합될 때 가장 크게 나타남을 보여줍니다. 이 영역은 모델이 후속 생성을 위해 주로 특징 표현을 처리하고 변환하는 곳입니다. 또한, ERW가 학습 수렴 속도를 가속화할 뿐만 아니라 표현 품질도 향상시킴을 입증했습니다: 실험적으로, 우리의 방법은 현재 최신 기술인 REPA에 비해 학습 속도에서 40배의 가속을 달성했습니다. 코드는 https://github.com/LINs-lab/ERW에서 확인할 수 있습니다.
디퓨전 모델은 고해상도 이미지 생성 능력으로 널리 알려져 있습니다. 디퓨전 트랜스포머(DiT) 아키텍처의 우수한 성능과 확장성에도 불구하고, 이 모델은 디퓨전 과정에서 이미지의 다양한 영역에 고정된 압축을 적용하여 각 영역의 자연스럽게 변화하는 정보 밀도를 고려하지 않습니다. 그러나 과도한 압축은 지역적 현실감을 제한하고, 작은 압축은 계산 복잡성을 증가시키며 전역적 일관성을 저해하여 최종적으로 생성된 이미지의 품질에 영향을 미칩니다. 이러한 한계를 해결하기 위해, 우리는 다양한 이미지 영역의 중요성을 인식하여 동적으로 압축하는 방법을 제안하고, 이미지 생성의 효과성과 효율성을 향상시키기 위한 새로운 2단계 프레임워크를 소개합니다: (1) 첫 번째 단계의 동적 VAE(DVAE)는 계층적 인코더를 사용하여 각 이미지 영역의 정보 밀도에 맞춰 다른 다운샘플링 비율로 인코딩함으로써, 디퓨전 과정을 위해 더 정확하고 자연스러운 잠재 코드를 제공합니다. (2) 두 번째 단계의 동적 디퓨전 트랜스포머(D^2iT)는 동적 그레인 트랜스포머와 동적 콘텐츠 트랜스포머의 새로운 조합을 통해, 거친 그레인(매끄러운 영역에서는 적은 잠재 코드)과 세밀한 그레인(디테일이 많은 영역에서는 더 많은 잠재 코드)으로 구성된 다중 그레인 노이즈를 예측하여 이미지를 생성합니다. 노이즈의 대략적인 예측과 세밀한 영역 보정을 결합하는 이 전략은 전역적 일관성과 지역적 현실감의 통합을 달성합니다. 다양한 생성 작업에 대한 포괄적인 실험을 통해 우리의 접근 방식의 효과성을 검증하였습니다. 코드는 https://github.com/jiawn-creator/Dynamic-DiT에서 공개될 예정입니다.
현재의 다중모달 벤치마크들은 종종 추론 능력과 도메인 특화 지식을 혼동하여, 비전문가 환경에서의 일반적인 추론 능력을 분리하고 평가하기 어렵게 만듭니다. 이를 해결하기 위해, 우리는 시각적 추론을 목표로 하면서도 특수 지식에 대한 의존도를 의도적으로 최소화한 벤치마크인 VisualPuzzles를 소개합니다. VisualPuzzles는 알고리즘적, 유추적, 연역적, 귀납적, 공간적 추론 등 다섯 가지 범주에 걸친 다양한 질문들로 구성되어 있습니다. 우리의 질문 중 상당수는 중국 공무원 시험의 논리적 추론 문제를 수동으로 번역한 것입니다. 실험 결과, VisualPuzzles는 MMMU와 같은 벤치마크에 비해 훨씬 적은 도메인 특화 지식을 요구하면서도 더 복잡한 추론을 필요로 하여, 진정한 다중모달 추론 능력을 더 잘 평가할 수 있음을 보여줍니다. 평가 결과, 최첨단 다중모달 대형 언어 모델들은 VisualPuzzles에서 인간의 성능에 지속적으로 뒤처지는 것으로 나타났으며, 지식 집약적 벤치마크에서의 강력한 성능이 반드시 추론 중심의 지식 경량화 작업에서의 성공으로 이어지지는 않음을 확인했습니다. 또한, 추론 향상 기법(예: "생각" 모드를 통한 추론 계산 확장)은 모델과 작업 유형에 따라 일관되지 않은 성능 향상을 보였으며, 모델 크기와 성능 간의 명확한 상관관계는 관찰되지 않았습니다. 또한, 모델들은 VisualPuzzles에서 지식에 더 중점을 둔 벤치마크와는 다른 추론 및 답변 패턴을 보이는 것으로 나타났습니다. VisualPuzzles는 사실 기억과 도메인 지식을 넘어서는 추론 능력을 평가할 수 있는 더 명확한 렌즈를 제공합니다.
소비자 대상 애플리케이션에서의 언어 모델 배포는 수많은 위험을 초래합니다. 이러한 애플리케이션의 해악과 위험에 대한 기존 연구는 규제 프레임워크와 이론적 분석에서 도출된 상향식 접근 방식을 따르지만, 실제 세계에서 발생하는 실패 사례에 대한 실증적 증거는 여전히 충분히 탐구되지 않고 있습니다. 본 연구에서는 공개적으로 보고된 사건들을 체계적으로 검토하여 구축된 AI 에이전트와의 문제 있는 상호작용을 주석 처리한 RealHarm 데이터셋을 소개합니다. 배포자의 관점에서 해악, 원인 및 위험을 분석한 결과, 평판 손상이 주요 조직적 해악으로 나타났으며, 잘못된 정보가 가장 흔한 위험 범주로 나타났습니다. 최첨단 안전 장치 및 콘텐츠 조정 시스템을 실증적으로 평가하여 이러한 시스템이 사건을 방지했을지 여부를 탐구한 결과, AI 애플리케이션의 보호에 있어 상당한 격차가 있음이 드러났습니다.
어텐션(Attention)과 상태 공간 모델(State Space Models, SSMs)을 결합한 하이브리드 LLM 아키텍처는 최첨단 정확도와 런타임 성능을 달성합니다. 최근 연구에서는 어텐션만 사용하는 모델에 압축과 지식 증류를 적용함으로써 훈련 비용의 일부로 더 작으면서도 더 정확한 모델을 얻을 수 있음을 보여주었습니다. 본 연구에서는 하이브리드 아키텍처의 압축 효과를 탐구합니다. 우리는 SSM 블록의 구조적 무결성과 시퀀스 모델링 능력을 보존하는 새로운 그룹 인식 프루닝 전략을 소개합니다. 더 나아가, 기존 접근 방식에 비해 향상된 정확도와 추론 속도를 달성하기 위해 이러한 SSM 프루닝이 필수적임을 입증합니다. 우리의 압축 방법은 SSM, FFN, 임베딩 차원, 그리고 레이어 프루닝을 결합한 후, MINITRON 기법과 유사한 지식 증류 기반 재훈련을 수행합니다. 이 접근법을 통해 우리는 Nemotron-H 8B 하이브리드 모델을 최대 40배 적은 훈련 토큰으로 4B 매개변수까지 압축했습니다. 결과 모델은 유사한 크기의 모델들을 정확도에서 능가하면서도 2배 빠른 추론 속도를 달성하여 파레토 프론티어를 크게 발전시켰습니다.
우리는 강사들의 교수 스타일에 맞춰 조정 가능한 AI 기반 강의 콘텐츠 전달 프레임워크인 AI 대학(AI-U)을 소개합니다. AI-U의 핵심은 대형 언어 모델(LLM)을 검색 증강 생성(RAG) 기법으로 미세 조정하여 강의 동영상, 노트, 교재로부터 강사와 일치하는 응답을 생성하는 것입니다. 대학원 수준의 유한 요소법(FEM) 강좌를 사례 연구로 활용하여, 우리는 체계적으로 훈련 데이터를 구축하고, Low-Rank Adaptation(LoRA)을 통해 오픈소스 LLM을 미세 조정하며, RAG 기반 합성을 통해 응답을 최적화하는 확장 가능한 파이프라인을 제시합니다. 코사인 유사도, LLM 기반 평가, 전문가 리뷰를 결합한 평가 결과, 우리의 모델은 강의 자료와 강력한 일치성을 보여주었습니다. 또한, 우리는 https://my-ai-university.com에서 확인할 수 있는 프로토타입 웹 애플리케이션을 개발하여, AI 생성 응답을 관련 강의 자료의 특정 섹션 및 오픈 액세스 강의 동영상의 타임스탬프와 연결함으로써 추적성을 강화했습니다. 우리의 전문가 모델은 테스트 케이스의 86%에서 참조 자료와 더 높은 코사인 유사도를 보였습니다. 또한, LLM 판정자는 우리의 전문가 모델이 기본 Llama 3.2 모델을 약 5번 중 4번 정도 더 우수한 성능을 보인다고 평가했습니다. AI-U는 AI 지원 교육을 위한 확장 가능한 접근 방식을 제공하며, 고등 교육에서의 광범위한 채택을 위한 길을 열어줍니다. 여기서 우리의 프레임워크는 공학 과학 분야의 박사 및 석사 과정 학생들을 훈련하는 데 핵심적인 주제인 FEM 강좌의 맥락에서 제시되었습니다. 그러나 이 설정은 과학 연구 콘텐츠에 대한 LLM 미세 조정이라는 더 넓은 맥락의 특정 사례에 불과합니다.
본 보고서는 CVPR 2025와 함께 개최된 제4회 Pixel-level Video Understanding in the Wild(PVUW) 챌린지에 대한 포괄적인 개요를 제공합니다. 이 보고서는 챌린지 결과, 참가 방법론, 그리고 향후 연구 방향을 요약합니다. 이번 챌린지는 복잡한 장면의 비디오 객체 분할에 초점을 맞춘 MOSE 트랙과, 모션 기반 언어 비디오 분할을 목표로 하는 MeViS 트랙으로 구성됩니다. 두 트랙 모두 실제 세계 시나리오를 더 잘 반영하기 위해 새롭고 더 도전적인 데이터셋을 도입했습니다. 상세한 평가와 분석을 통해, 이 챌린지는 복잡한 비디오 분할 분야의 최신 기술 동향과 신흥 트렌드에 대한 유용한 통찰을 제공합니다. 더 많은 정보는 워크숍 웹사이트(https://pvuw.github.io/)에서 확인할 수 있습니다.
3D LiDAR 장면 완성을 위한 확산 모델의 적용은 확산 모델의 느린 샘플링 속도로 인해 제한적입니다. 점수 증류는 확산 샘플링을 가속화하지만 성능 저하가 발생하며, 직접 정책 최적화(DPO)를 통한 사후 학습은 선호 데이터를 사용하여 성능을 향상시킵니다. 본 논문은 선호 정렬을 통한 LiDAR 장면 완성을 위한 새로운 확산 증류 프레임워크인 Distillation-DPO를 제안합니다. 첫째, 학생 모델은 서로 다른 초기 노이즈를 사용하여 쌍을 이루는 완성 장면을 생성합니다. 둘째, LiDAR 장면 평가 메트릭을 선호도로 사용하여 승리 및 패배 샘플 쌍을 구성합니다. 이러한 구성은 대부분의 LiDAR 장면 메트릭이 정보를 제공하지만 직접 최적화하기에는 미분 불가능하기 때문에 합리적입니다. 셋째, Distillation-DPO는 쌍을 이루는 완성 장면에서 교사 모델과 학생 모델 간의 점수 함수 차이를 활용하여 학생 모델을 최적화합니다. 이러한 절차는 수렴할 때까지 반복됩니다. 광범위한 실험을 통해, 최신 LiDAR 장면 완성 확산 모델과 비교하여 Distillation-DPO가 더 높은 품질의 장면 완성을 달성하면서 완성 속도를 5배 이상 가속화함을 입증했습니다. 우리의 방법은 지식 범위 내에서 증류에 선호 학습을 도입한 첫 번째 시도이며, 선호 정렬 증류에 대한 통찰을 제공합니다. 우리의 코드는 https://github.com/happyw1nd/DistillationDPO에서 공개적으로 이용 가능합니다.
동료 평가는 과학 출판의 품질 관리를 위한 핵심 요소입니다. 점점 증가하는 업무량으로 인해 '빠른' 휴리스틱의 의도치 않은 사용, 즉 게으른 사고(lazy thinking)가 평가 품질을 저해하는 반복적인 문제로 대두되고 있습니다. 이러한 휴리스틱을 탐지하기 위한 자동화된 방법은 동료 평가 프로세스를 개선하는 데 도움을 줄 수 있습니다. 그러나 이 문제에 대한 자연어 처리(NLP) 연구는 제한적이며, 탐지 도구 개발을 지원할 실제 데이터셋도 존재하지 않습니다. 이 연구에서는 세분화된 게으른 사고 범주로 주석이 달린 동료 평가 문장 데이터셋인 LazyReview를 소개합니다. 우리의 분석에 따르면, 대규모 언어 모델(LLMs)은 제로샷 설정에서 이러한 사례를 탐지하는 데 어려움을 겪습니다. 그러나 우리의 데이터셋을 기반으로 한 지시 기반 미세 조정(fine-tuning)은 성능을 10-20포인트 크게 향상시켜, 고품질 학습 데이터의 중요성을 강조합니다. 또한, 통제된 실험을 통해 게으른 사고 피드백으로 수정된 평가가 그러한 피드백 없이 작성된 평가보다 더 포괄적이고 실행 가능하다는 것을 입증했습니다. 우리는 커뮤니티에서 초보 평가자를 교육하는 데 사용할 수 있는 데이터셋과 개선된 가이드라인을 공개할 예정입니다. (코드는 여기에서 확인할 수 있습니다: https://github.com/UKPLab/arxiv2025-lazy-review)
대규모 언어 모델(LLMs)의 최근 발전은 비디오 이해 분야에서 상당한 돌파구를 마련했습니다. 그러나 기존 모델들은 LLM의 컨텍스트 길이 제약과 비디오 내 방대한 정보량으로 인해 긴 비디오 처리에 어려움을 겪고 있습니다. 최근 일부 방법론들이 긴 비디오 이해를 위해 설계되었지만, 토큰 압축 과정에서 중요한 정보를 잃거나 오디오와 같은 추가 모달리티를 처리하는 데 어려움을 겪는 경우가 많습니다. 본 연구에서는 프레임 간의 시간적 관계를 활용한 동적 긴 비디오 인코딩 방법인 Temporal Dynamic Context(TDC)를 제안합니다. 첫째, 프레임 간 유사성을 기반으로 비디오를 의미론적으로 일관된 장면으로 분할한 후, 비주얼-오디오 인코더를 사용하여 각 프레임을 토큰으로 인코딩합니다. 둘째, 각 세그먼트 내 토큰 수를 줄이기 위한 새로운 시간적 컨텍스트 압축기를 제안합니다. 구체적으로, 쿼리 기반 Transformer를 사용하여 비디오, 오디오, 명령어 텍스트 토큰을 제한된 수의 시간적 컨텍스트 토큰으로 집계합니다. 마지막으로, 정적 프레임 토큰과 시간적 컨텍스트 토큰을 LLM에 입력하여 비디오 이해를 수행합니다. 또한, 극단적으로 긴 비디오를 처리하기 위해 훈련이 필요 없는 사고의 연쇄(chain-of-thought) 전략을 제안합니다. 이 전략은 여러 비디오 세그먼트에서 점진적으로 답을 추출하며, 이러한 중간 답변은 추론 과정의 일부로 작용하여 최종 답변에 기여합니다. 일반 비디오 이해 및 오디오-비디오 이해 벤치마크에서 광범위한 실험을 수행한 결과, 우리의 방법이 강력한 성능을 보였습니다. 코드와 모델은 https://github.com/Hoar012/TDC-Video에서 확인할 수 있습니다.
비전-언어 모델(VLMs)은 텍스트, 이미지, 텍스트와 이미지가 혼합된 형태, 심지어 시간 단위의 긴 영상까지 다양한 형식의 시각 및 텍스트 정보를 처리할 수 있습니다. 본 연구에서는 다양한 표현을 입력으로 사용하여 다중모달 프레젠테이션의 자동 요약에 대한 세밀한 정량적 및 정성적 분석을 수행합니다. 이를 통해 텍스트가 많은 다중모달 문서에서 입력 길이 예산에 따라 요약을 생성하는 비용 효율적인 전략을 제안합니다. 실험 결과, 비디오 스트림에서 추출한 슬라이드를 원본 비디오 대신 입력으로 사용하는 것이 유리하며, 슬라이드와 대본이 혼합된 구조화된 표현이 최고의 성능을 보임을 확인했습니다. 마지막으로, 다중모달 프레젠테이션에서의 교차모달 상호작용의 특성을 고찰하고, 이러한 유형의 문서를 이해하기 위한 VLMs의 능력을 향상시키기 위한 제안을 공유합니다.
최근 제안된 포게팅 트랜스포머(FoX)는 소프트맥스 어텐션에 포겟 게이트를 통합하여 표준 RoPE 기반 트랜스포머와 비교해 일관되게 우수하거나 동등한 성능을 보여주었습니다. 특히, FoX의 많은 어텐션 헤드는 빠르게 포게팅되는 경향이 있어, 각 타임스텝에서의 출력이 주로 로컬 컨텍스트에 의존하게 됩니다. 이러한 관찰을 바탕으로, 우리는 FoX를 위한 적응형 계산 프루닝(ACP)을 제안합니다. 이 방법은 포겟 게이트에 의해 강하게 감쇠된 입력-출력 의존성을 포함하는 계산을 동적으로 프루닝합니다. 이는 프루닝된 어텐션 가중치가 무시할 수 있을 정도로 작아지도록 동적으로 설정된 프루닝 임계값을 사용하여 달성됩니다. 우리는 FoX를 사용한 언어 모델 사전 학습에 ACP를 적용하고, 다양한 모델 크기와 컨텍스트 길이에서 소프트맥스 어텐션의 FLOP 수를 약 70% 감소시켜 훈련 처리량을 약 10%에서 35% 개선함을 보여줍니다. 또한, 더 긴 컨텍스트 길이는 더 큰 계산 절약을 가져옵니다. 이러한 모든 속도 개선은 성능 저하 없이 달성되었습니다. 우리는 또한 프루닝 패턴을 검토하고, 다양한 어텐션 헤드 간의 FLOP 절감 분포를 분석하는 등 우리의 방법에 대한 더 깊은 통찰을 제공하기 위해 여러 분석을 수행했습니다. 우리의 코드는 https://github.com/zhixuan-lin/arctic-fox에서 확인할 수 있습니다.
이미지 생성의 성공과 함께, 생성적 확산 모델은 픽셀 생성이 통합된 인식 인터페이스를 제공하기 때문에 판별적 작업에 점점 더 많이 채택되고 있습니다. 그러나 생성적 노이즈 제거 프로세스를 판별적 목적으로 직접 재사용하는 것은 이전에 거의 다루어지지 않은 중요한 격차를 드러냅니다. 생성 모델은 최종 분포가 그럴듯하다면 중간 샘플링 오류를 허용하지만, 판별적 작업은 참조 이미지 분할과 같은 도전적인 다중 모달 작업에서 볼 수 있듯이 전체 과정에서 엄격한 정확도를 요구합니다. 이러한 격차에 동기를 부여받아, 우리는 생성적 확산 프로세스와 인식 작업 간의 정렬을 분석하고 강화하며, 노이즈 제거 과정 중 인식 품질이 어떻게 진화하는지에 초점을 맞춥니다. 우리는 다음과 같은 사실을 발견했습니다: (1) 초기 노이즈 제거 단계가 인식 품질에 불균형적으로 큰 기여를 하여, 다양한 시간 단계의 기여를 반영한 맞춤형 학습 목표를 제안하게 되었습니다; (2) 후기 노이즈 제거 단계에서 예상치 못한 인식 품질 저하가 나타나며, 이는 훈련-노이즈 제거 분포 변화에 대한 민감성을 강조하며, 이를 해결하기 위해 확산 모델에 맞춤화된 데이터 증강을 제안합니다; (3) 생성적 프로세스는 상호작용성을 독특하게 가능하게 하여, 다중 라운드 상호작용에서 수정 프롬프트에 적응 가능한 제어 가능한 사용자 인터페이스 역할을 합니다. 우리의 통찰력은 아키텍처 변경 없이도 확산 기반 인식 모델을 크게 개선하여, 깊이 추정, 참조 이미지 분할, 그리고 일반적인 인식 작업에서 최첨단 성능을 달성했습니다. 코드는 https://github.com/ziqipang/ADDP에서 확인할 수 있습니다.
변화 탐지를 위해 자주 사용되지만, ConvNets와 Vision Transformers(ViT) 모두 잘 알려진 한계를 가지고 있습니다. 전자는 장거리 의존성을 모델링하는 데 어려움을 겪는 반면, 후자는 계산 비효율성으로 인해 대규모 데이터셋에서의 학습이 어려운 문제가 있습니다. 이러한 한계를 해결하기 위해 State Space Models에 기반한 Vision Mamba 아키텍처가 대안으로 등장했으며, 원격 감지 변화 탐지에 이미 적용되었습니다. 그러나 대부분 특징 추출 백본으로 사용되었습니다. 이 논문에서는 이중 시점 이미지 간의 관련 변화에 초점을 맞춰 불필요한 정보를 효과적으로 걸러내도록 특별히 설계된 Change State Space Model을 소개합니다. 변화된 특징에만 집중함으로써 네트워크 매개변수 수가 줄어들어 계산 효율성이 크게 향상되면서도 높은 탐지 성능과 입력 열화에 대한 강건성을 유지합니다. 제안된 모델은 세 가지 벤치마크 데이터셋을 통해 평가되었으며, ConvNets, ViTs 및 Mamba 기반 모델들을 훨씬 낮은 계산 복잡도로 능가하는 성능을 보였습니다. 구현은 논문 승인 후 https://github.com/Elman295/CSSM에서 공개될 예정입니다.