번역이 포함된 일일 선별된 AI 연구 논문
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 모델의 수학적 추론 능력 향상을 위한 강력한 메커니즘을 제공합니다. 그러나 기존 방법론에서는 미흡한 능력 정교화에 중요함에도 불구하고 알고리즘과 데이터 측면 모두에서 더 도전적인 문제에 대한 체계적인 강조가 부족함을 확인했습니다. 알고리즘적으로 널리 사용되는 그룹 상대 정책 최적화(GRPO)는 어려운 문제일수록 정책 업데이트 규모가 작아지는 암묵적 불균형 문제를 안고 있습니다. 데이터 측면에서 증강 접근법은 주로 다양성 향상을 위해 문제를 재구성할 뿐, 본질적 난이도를 체계적으로 높이지 않습니다. 이러한 문제를 해결하기 위해 우리는 두 가지 관점에서 어려운 문제를 대상으로 수학적 추론을 개선하는 이중 MathForge 프레임워크를 제안합니다. 이는 난이도 인식 그룹 정책 최적화(DGPO) 알고리즘과 다중 측면 문제 재구성(MQR) 전략으로 구성됩니다. 구체적으로 DGPO는 난이도 균형 그룹 어드밴티지 추정을 통해 GRPO의 암묵적 불균형을 먼저 시정하고, 난이도 인식 문제 수준 가중치를 통해 어려운 문제를 추가로 우선시합니다. 한편 MQR은 원래의 정답을 유지하면서 난이도를 높이기 위해 여러 측면에서 문제를 재구성합니다. 전체적으로 MathForge는 상호 시너지 순환을 형성합니다. MQR은 데이터 프론티어를 확장하고 DGPO는 증강된 데이터로부터 효과적으로 학습합니다. 광범위한 실험을 통해 MathForge가 다양한 수학적 추론 과제에서 기존 방법론을 크게 능가함을 입증했습니다. 코드와 증강 데이터는 https://github.com/AMAP-ML/MathForge에서 확인할 수 있습니다.
LingBot-World는 비디오 생성 기술에서 파생된 오픈소스 세계 시뮬레이터를 소개합니다. 최상위 세계 모델로 자리매김한 LingBot-World는 다음과 같은 특징을 갖춥니다. (1) 현실적 환경, 과학적 맥락, 카툰 스타일 등 광범위한 영역에서 높은 정확도와 견고한 동역학을 유지합니다. (2) "장기 기억"으로도 알려진 시간에 걸친 맥락 일관성을 보존하면서 분 단위의 예측 지평을 가능하게 합니다. (3) 초당 16프레임 생성 시 1초 미만의 지연 시간으로 실시간 상호작용을 지원합니다. 오픈소스와 클로즈드소스 기술 간의 격차를 좁히고자 코드와 모델을 공개합니다. 본 공개가 콘텐츠 제작, 게임, 로봇 학습 등 다양한 분야에서 실용적인 응용을 통해 커뮤니티에 기여할 것으로 기대합니다.
우리는 다양한 과학 분야에서의 이해와 추론 능력을 향상시키면서도 일반 비전 과제에서도 탁월한 성능을 유지하는 과학 멀티모달 대규모 언어 모델인 Innovator-VL을 소개한다. 방대한 도메인 특화 사전 학습과 불투명한 파이프라인에 의존하는 최근 경향과 달리, 본 연구는 체계적인 학습 설계와 투명한 방법론이 데이터 요구량을 대폭 줄이면서도 강력한 과학적 지능을 구현할 수 있음을 입증한다. (i) 첫째, 데이터 수집, 정제, 전처리, 지도 미세 조정, 강화 학습, 평가에 이르는 완전히 투명하고 종단 간 재현 가능한 학습 파이프라인과 상세한 최적화 방법을 제공하여 커뮤니티의 체계적인 확장을 용이하게 한다. (ii) 둘째, Innovator-VL은 대규모 사전 학습 없이 5백만 개 미만의 정제된 샘플만으로 다양한 과학 과제에서 경쟁력 있는 성능을 달성하는 놀라운 데이터 효율성을 보여준다. 이러한 결과는 무분별한 규모 확장보다는 체계적인 데이터 선택을 통해 효과적인 추론이 가능함을 강조한다. (iii) 셋째, Innovator-VL은 일반 비전, 멀티모달 추론, 과학 벤치마크에서 모두 경쟁력 있는 성능을 발휘하는 강력한 일반화 능력을 입증한다. 이는 과학적 정렬이 일반 목적 능력을 저해하지 않으면서 통합 모델에 통합될 수 있음을 시사한다. 우리의 실천은 대규모 데이터 없이도 효율적이고 재현 가능하며 고성능의 과학 멀티모달 모델 구축이 가능함을 보여주며, 향후 연구를 위한 실용적인 기반을 제공한다.
이미지 의미론에 따라 시각적 토큰을 동적으로 재정렬할 수 있는 새로운 인코더인 DeepEncoder V2의 가능성을 탐구하기 위해 DeepSeek-OCR 2를 제안한다. 기존 시각-언어 모델(VLM)은 LLM에 입력될 때 시각적 토큰을 고정된 위치 인코딩과 함께 엄격한 래스터 스캔 순서(좌상단에서 우하단)로 처리한다. 그러나 이는 고유한 논리적 구조에 의해 주도되는 유연하면서도 의미론적으로 일관된 스캐닝 패턴을 따르는 인간의 시각 인식과 상충된다. 특히 복잡한 레이아웃을 가진 이미지의 경우 인간의 시각은 인과관계를 고려한 순차적 처리를 보인다. 이러한 인지 메커니즘에서 영감을 받아 DeepEncoder V2는 인코더에 인과 추론 능력을 부여하도록 설계되어, LLM 기반 내용 해석 전에 시각적 토큰을 지능적으로 재정렬할 수 있다. 본 연구는 2D 이미지 이해가 두 개의 계단식 1D 인과 추론 구조를 통해 효과적으로 달성될 수 있는지 여부를 탐구하는 새로운 패러다임을 제시함으로써, 진정한 2D 추론을 달성할 잠재력을 가진 새로운 아키텍처 접근법을 제공한다. 코드와 모델 가중치는 http://github.com/deepseek-ai/DeepSeek-OCR-2에서 공개적으로 접근 가능하다.
강화 학습은 대규모 언어 모델이 지능형 에이전트로 작동할 수 있게 했으나, 고품질 궤적의 부족으로 인해, 특히 제한된 자원 하에서 장기간 과업을 위한 학습은 여전히 어려운 과제입니다. 기존 방법론은 일반적으로 롤아웟 규모를 확장하고 중간 단계들에 계산 자원을 무분별하게 할당합니다. 이러한 시도는 사소한 단계에 상당한 계산 예산을 낭비하는 본질적 한계가 있으며 표본 품질을 보장하지 못합니다. 이를 해결하기 위해 우리는 자원 효율적 탐색을 위해 핵심 의사 결정 상태에서 선택적으로 분기하는 새로운 프레임워크인 Spark(전략적 정책 인식 핵심 상태 동적 분기 탐색)를 제안합니다. 우리의 핵심 통찰은 유망한 궤적을 탐색하기 위해 중요한 의사 결정 지점에서 적응형 분기 탐색을 활성화함으로써, 무분별한 포괄성보다 표본 품질을 우선시하는 정밀한 자원 할당을 달성하는 것입니다. 이 설계는 에이전트의 내재적 의사 결정 신호를 활용하여 인간 사전 지식에 대한 의존도를 줄이고, 에이전트가 자율적으로 탐색을 확장하며 강력한 일반화를 달성할 수 있게 합니다. 다양한 과업(예: 구체화된 계획 수립)에 대한 실험을 통해 Spark가 훨씬 적은 학습 표본으로 우수한 성공률을 달성하며, 보이지 않는 시나리오에서도 견고한 일반화 능력을 보임을 입증했습니다.
언어 모델의 표현에는 종종 높은 수준의 개념에 해당하는 선형 방향이 포함됩니다. 본 연구에서는 이러한 표현의 역학, 즉 (시뮬레이션된) 대화 맥락 내에서 이러한 차원을 따라 표현이 어떻게 진화하는지를 탐구합니다. 우리는 선형 표현이 대화 중에 극적으로 변화할 수 있음을 발견했습니다. 예를 들어, 대화 초반에는 사실로 표현된 정보가 대화 말미에는 비사실적으로 표현되거나 그 반대의 경우도 발생합니다. 이러한 변화는 내용에 의존적입니다. 대화와 관련된 정보의 표현은 변화할 수 있지만, 일반적인 정보는 대체로 보존됩니다. 이러한 변화는 사실성과 더 피상적인 응답 패턴을 분리하는 차원에서도 강건하게 나타나며, 다양한 모델 패밀리와 모델 계층에 걸쳐 발생합니다. 이러한 표현 변화는 온-정책 대화를 필요로 하지 않습니다. 완전히 다른 모델이 작성한 대화 스크립트를 재생하는 것만으로도 유사한 변화를 일으킬 수 있습니다. 그러나 단순히 명시적으로 SF 이야기라는 틀이 주어진 맥락을 제공하는 것에서는 적응 효과가 훨씬 약합니다. 또한, 표현적 방향을 따라 조정하는 것이 대화의 다른 시점에서 극적으로 다른 효과를 낼 수 있음을 보여줍니다. 이러한 결과는 모델이 대화에 의해 유발된 특정 역할을 수행함에 따라 표현이 진화할 수 있다는 아이디어와 일관됩니다. 우리의 발견은 해석 가능성과 조정에 도전 과제를 제시할 수 있습니다. 특히, 특징이나 방향에 대한 정적 해석을 사용하거나 특정 특징 범위가 일관되게 특정 실제 값에 해당한다고 가정하는 프로브를 사용하는 것은 오해의 소지가 있을 수 있음을 시사합니다. 그러나 이러한 유형의 표현 역학은 모델이 맥락에 적응하는 방식을 이해하기 위한 새로운 흥미로운 연구 방향을 제시하기도 합니다.
대규모 언어 모델은 코드나 수학과 같이 검증 가능한 영역에서 강화 학습을 통한 사후 훈련이 점차 확대되고 있습니다. 그러나 검증 가능한 보상을 활용한 강화 학습(RLVR)의 현재 방법론은 시도마다 단일 스칼라 결과 보상만을 학습하여 심각한 크레딧 할당 병목 현상을 초래합니다. 많은 검증 가능한 환경은 실제로 런타임 오류나 평가자 판정과 같은 풍부한 텍스트 피드백을 제공하여 시도가 실패한 이유를 설명해줍니다. 우리는 이러한 환경을 풍부한 피드백을 활용한 강화 학습으로 공식화하고, 외부 교사나 명시적 보상 모델 없이 토큰화된 피드백을 밀집된 학습 신호로 변환하는 자기 지식 증류 정책 최적화(SDPO)를 제안합니다. SDPO는 피드백을 조건으로 한 현재 모델을 자기 교사로 간주하고, 피드백이 반영된 다음 토큰 예측을 정책으로 다시 증류합니다. 이를 통해 SDPO는 모델의 문맥 내 자기 오류 식별 능력을 활용합니다. 과학적 추론, 도구 사용, LiveCodeBench v6의 경쟁적 프로그래밍 영역에서 SDPO는 강력한 RLVR 기준선 대비 샘플 효율성과 최종 정확도를 향상시켰습니다. 주목할 만하게, SDPO는 스칼라 피드백만 제공하는 표준 RLVR 환경에서도 성공한 롤아웃을 실패한 시도의 암묵적 피드백으로 활용하여 기준선을 능가했습니다. 마지막으로, 테스트 시점에 개별 문제에 SDPO를 적용하면 어려운 이진 보상 과제에서의 발견 속도를 가속화하여, 최대-k 샘플링이나 다중 회차 대화와 동일한 발견 확률을 3배 적은 시도로 달성합니다.
대규모 언어 모델(LLM)의 구문적 유창성에도 불구하고, 높은 위험을 수반하는 영역에서 논리적 정확성을 보장하는 것은 근본적인 과제로 남아 있습니다. 본 연구에서는 LLM과 SMT Solver를 결합하여 반복적 정제를 통해 검증 기반 답변을 생성하는 신경-기호론적(neurosymbolic) 프레임워크를 제시합니다. 우리의 접근법은 LLM 출력을 원자적 주장으로 분해하고, 이를 1차 술어 논리로 자동 형식화하며, 자동 정리 증명을 사용하여 논리적 일관성을 검증합니다. 본 연구는 세 가지 핵심 혁신을 도입합니다: (1) 후보 답변 간 논리 수준 정렬을 보장하기 위한 형식적 의미 동등성 검증을 통한 다중 모델 합의로, 표층 형태 지표의 구문적 편향을 제거합니다. (2) 논리적 주장에는 기호론적 Solver를, 상식 추론에는 LLM 앙상블을 활용하는 적절한 검증 전략으로 주장 유형을 안내하는 의미 기반 라우팅입니다. (3) 최소 수정 부분집합(MCS)을 통한 정밀한 논리 오류 지역화로, 수정이 필요한 정확한 주장 하위 집합을 특정하여 이분법적 실패 신호를 실행 가능한 피드백으로 전환합니다. 우리의 프레임워크는 주장을 논리적 상태에 따라 분류하고 여러 검증 신호를 분산 기반 패널티와 함께 통합 점수로 집계합니다. 이 시스템은 구조화된 피드백을 사용하여 수용 기준이 충족되거나 수렴에 도달할 때까지 답변을 반복적으로 정제합니다. 이러한 하이브리드 접근법은 가능한 경우 형식적 보장을 제공하고 그 외에는 합의 검증을 수행하여 신뢰할 수 있는 AI를 발전시킵니다. GPT-OSS-120B 모델을 사용한 VERGE는 단일 패스 접근법 대비 일련의 추론 벤치마크에서 수렴 시 평균 18.7%의 성능 향상을 보여줍니다.
그래픽 사용자 인터페이스(GUI) 에이전트는 파운데이션 모델이 현실 세계의 작업을 수행할 수 있도록 함으로써 인간-컴퓨터 상호작용에 혁신을 가져오고 인간의 생산성을 향상시킬 큰 잠재력을 보여줍니다. 본 보고서에서는 컴퓨터 사용과 휴대폰 사용 시나리오를 모두 지원하며, 모바일 및 데스크톱 플랫폼에서 자율적인 작업 실행을 위한 범용 GUI 에이전트 모델인 OmegaUse를 소개합니다. 효과적인 GUI 에이전트 모델 구축은 (1) 고품질 데이터와 (2) 효과적인 훈련 방법이라는 두 가지 요소에 의존합니다. 이를 해결하기 위해 저희는 정교하게 설계된 데이터 구축 파이프라인과 분리된 훈련 패러다임을 도입합니다. 데이터 구축을 위해 저희는 엄격하게 선별된 오픈소스 데이터셋을 활용하고, 하향식 분류 체계 기반 생성과 상향식 자율 탐색을 통합하여 높은 정확도의 합성 데이터를 생성하는 새로운 자동화된 합성 프레임워크를 소개합니다. 훈련 측면에서는 이러한 데이터를 더 잘 활용하기 위해 두 단계 전략을 채택합니다: 기본적인 상호작용 구문을 확립하는 지도 미세 조정(SFT) 단계와 공간 기반 및 순차적 계획 능력을 향상시키는 그룹 상대 정책 최적화(GRPO) 단계입니다. 계산 효율성과 에이전트 추론 능력 사이의 균형을 맞추기 위해 OmegaUse는 MoE(Mixture-of-Experts) 백본을 기반으로 구축되었습니다. 오프라인 환경에서의 크로스 플랫폼 능력을 평가하기 위해 여러 운영 체제를 아우르는 벤치마크 제품군인 OS-Nav를 도입했습니다. 여기에는 중국어 안드로이드 모바일 환경을 대상으로 하는 ChiM-Nav와 Ubuntu에서의 일상적인 데스크톱 상호작용에 초점을 맞춘 Ubu-Nav가 포함됩니다. 대규모 실험 결과, OmegaUse는 기존 GUI 벤치마크에서 매우 경쟁력 있는 성능을 보였으며, ScreenSpot-V2에서 96.3%의 SOTA(State-of-the-Art) 점수, AndroidControl에서 79.1%의 선도적인 단계 성공률을 달성했습니다. 또한 OmegaUse는 OS-Nav에서도 강력한 성능을 보여 ChiM-Nav에서 74.24%의 단계 성공률, Ubu-Nav에서 55.9%의 평균 성공률을 기록했습니다.
오픈 웨이트 코딩 에이전트는 폐쇄형 시스템에 비해 근본적인 이점을 가져야 합니다: 바로 프라이빗 코드베이스에 특화될 수 있으며, 저장소별 정보를 가중치에 직접 인코딩할 수 있다는 점입니다. 그러나 훈련의 비용과 복잡성으로 인해 이 이점은 이론적으로만 남아 있었습니다. 우리는 이제 이것이 실용적임을 보여줍니다. 우리는 비공개 코드베이스에 특화된 에이전트를 빠르고 저렴하게 생성할 수 있는 효율적인 코딩 에이전트 훈련 방법인 SERA(Soft-Verified Efficient Repository Agents)를 제시합니다. 지도 미세 조정(SFT)만을 사용하는 SERA는 완전 오픈소스(오픈 데이터, 방법론, 코드) 모델 중에서 최첨단 성능을 달성하면서도 Devstral-Small-2와 같은 최신 오픈 웨이트 모델의 성능에 맞섭니다. SERA 모델 생성 비용은 동등한 성능에 도달하기 위해 강화 학습보다 26배, 기존 합성 데이터 방법보다 57배 저렴합니다. 우리의 방법론인 SVG(Soft Verified Generation)는 단일 코드 저장소에서 수천 개의 트라젝토리를 생성합니다. 이는 비용 효율성과 결합되어 프라이빗 코드베이스로의 특화를 가능하게 합니다. 저장소 특화를 넘어, 우리는 SVG를 더 큰 규모의 코드베이스 집합에 적용하여 20만 개 이상의 합성 트라젝토리를 생성했습니다. 우리는 이 데이터셋을 사용하여 코딩 에이전트 훈련을 위한 스케일링 법칙, 애블레이션 및 교란 요인에 대한 상세한 분석을 제공합니다. 전반적으로, 우리의 연구가 오픈 코딩 에이전트 연구를 크게 가속화하고 프라이빗 코드베이스에 특화될 수 있는 오픈소스 모델의 장점을 보여줄 것이라고 믿습니다. 우리는 연구 커뮤니티를 지원하기 위해 SERA를 Ai2의 Open Coding Agents 시리즈의 첫 번째 모델로, 모든 코드, 데이터 및 Claude Code 통합과 함께 공개합니다.
작업 독립적인 특징 업샘플링 분야는 사전 학습된 시각적 백본으로부터 효율적으로 더 밀집된 특징을 생성하기 위한 유망한 연구 영역으로 부상했습니다. 이러한 방법들은 저해상도 특징을 고해상도 버전으로 매핑하는 방법을 학습함으로써 훨씬 낮은 비용으로 밀집 특징을 달성하는 지름길 역할을 합니다. 해당 분야의 초기 연구들은 반복적 업샘플링 접근법을 사용했으나, 최근 연구들은 교차 주의 기반 방법으로 전환되었으며, 이는 업샘플링 대상 백본과 동일한 효율성 확장 문제에 빠질 위험이 있습니다. 본 연구에서는 반복적 업샘플링 방법이 여전히 교차 주의 기반 방법과 경쟁할 수 있음을 입증하고, 더 나아가 더 낮은 추론 비용으로 최첨단 성능을 달성할 수 있음을 보여줍니다. 우리는 범용 픽셀 밀집 경량 특징 변환 아키텍처인 UPLiFT를 제안합니다. 또한 기존 반복적 특징 업샘플링 방법의 한계를 극복하기 위한 효율적인 지역 주의 연산자(Local Attender)를 제안합니다. 이 연산자는 완전히 지역적으로 정의된 대체 주의 풀링 공식을 사용합니다. 우리의 지역 주의 연산자가 UPLiFT가 업샘플링 전반에 걸쳐 안정적인 특징을 유지하도록 하여, 기존 픽셀 밀집 특징 업샘플러보다 낮은 추론 비용으로 최첨단 성능을 가능하게 함을 보여줍니다. 또한 UPLiFT를 생성형 하위 작업에 적용하여 VAE 특징 업샘플링을 위한 최첨단 결합 흐름 매칭 모델들과 경쟁력 있는 성능을 달성함을 확인합니다. 종합적으로, UPLiFT는 더 밀집된 특징을 생성하는 다목적이면서 효율적인 접근법을 제공합니다.
수십 년간의 잔향 음성 연구에도 불구하고, 대부분의 코퍼스가 파일별 음향 주해를 포함하지 않거나 재현을 위한 문서가 제한적으로 제공되어 방법론 비교가 어려운 상황입니다. 본 논문에서는 LibriSpeech 발화를 RIR-Mega 컬렉션의 약 5,000개 시뮬레이션 실음향 임펄스 응답과 합성하여 생성한 약 117.5시간 규모의 RIR-Mega-Speech 코퍼스를 제안합니다. 모든 파일에는 원본 RIR로부터 명확히 정의된 재현 가능한 절차로 계산된 RT60, 직접음-잔향음 비율(DRR), 명료도 지수(C_{50})가 포함됩니다. 또한 데이터셋 재구성 및 모든 평가 결과 재현을 위한 스크립트를 제공합니다. 1,500개의 대응 발화에 대해 Whisper small을 사용하여 측정한 결과, 잡음 없는 음성의 WER은 5.20%(95% 신뢰구간: 4.69-5.78), 잔향 음성은 7.70%(7.04-8.35)로 나타나 대응 증가분 2.50%p(2.06-2.98)에 해당하며, 이는 48%의 상대적 성능 저하를 의미합니다. WER은 RT60 증가에 따라 단조 증가하고 DRR 증가에 따라 감소하여 기존 지각 연구 결과와 일치합니다. 잔향이 인식 성능을 저하시킨다는 핵심 결과는 잘 알려져 있으나, 본 연구는 음향 조건이 투명하고 결과가 독립적으로 검증 가능한 표준화된 자원을 커뮤니티에 제공하는 것을 목표로 합니다. 저장소에는 Windows와 Linux 환경 모두에서 원클릭 재구성이 가능한 지침이 포함되어 있습니다.
다중모드 비꼼 감지(MSD)는 다양한 모드 간의 의미론적 불일치를 모델링하여 이미지-텍스트 쌍 내에서 비꼼을 식별하는 것을 목표로 합니다. 기존 방법들은 모드 간 임베딩 불일치를 활용하여 비일관성을 탐지하지만, 시각적 및 텍스트적 내용이 느슨하게 연관되거나 의미론적으로 간접적인 경우에는 어려움을 겪습니다. 최근 접근법들은 대규모 언어 모델(LLM)을 활용하여 비꼼 신호를 생성하지만, 이러한 생성물의 내재적 다양성과 주관성은 종종 노이즈를 유입시킵니다. 이러한 한계를 해결하기 위해 우리는 생성적 불일치 비교 네트워크(GDCNet)를 제안합니다. 이 프레임워크는 다중모드 LLM(MLLM)에 의해 생성된 사실에 기반한 객관적 이미지 설명을 안정적인 의미론적 정착점으로 활용하여 모드 간 충돌을 포착합니다. 구체적으로, GDCNet은 생성된 객관적 설명과 원본 텍스트 간의 의미론적 및 감정적 불일치를 계산함과 동시에 시각-텍스트 정확도를 측정합니다. 이러한 불일치 특징들은 게이트 모듈을 통해 시각적 및 텍스트적 표현과 융합되어 모달리티 기여도를 적응적으로 균형 잡습니다. MSD 벤치마크에 대한 광범위한 실험을 통해 GDCNet이 우수한 정확도와 강건성을 보여주며, MMSD2.0 벤치마크에서 새로운 최첨단 성능을确立함을 입증했습니다.
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 크게 향상시켰지만, 문제가 포화 상태에 이르면 학습이 자주 정체됩니다. 우리는 핵심적인 어려움을 정보적 실패(informative failures)의 낮은 접근성으로 파악했습니다. 즉, 학습 신호는 존재하지만 표준 롤아웃 과정에서는 거의 발생하지 않는다는 점입니다. 이를 해결하기 위해 우리는 포화된 문제에서도 학습할 수 있는 간단하면서 효과적인 방법인 실패 접두어 조건화(failure-prefix conditioning)를 제안합니다. 원래 질문에서 시작하는 대신, 흔치 않은 오류 추론 궤적에서 도출된 접두어를 조건으로 하여 훈련을 재배치함으로써 모델이 실패하기 쉬운 상태에 노출되도록 합니다. 우리는 실패 접두어 조건화가 중간 난이도 문제로 훈련하는 것과 맞먹는 성능 향상을 가져오면서도 토큰 효율성을 유지한다는 것을 관찰했습니다. 더 나아가 모델의 강건성을 분석한 결과, 우리의 방법이 올바른 초기 추론에 대한 adherence가 약간 희생되기는 하지만, 오해의 소지가 있는 실패 접두어 하에서의 성능 저하를 줄인다는 사실을 확인했습니다. 마지막으로, 훈련 중 실패 접두어를 갱신하는 반복적 접근법이 성능 정체기 이후 추가적인 향상을 이끌어낸다는 점을 입증했습니다. 전반적으로, 우리의 결과는 실패 접두어 조건화가 포화된 문제에 대한 RLVR 훈련을 확장하는 효과적인 경로를 제공함을 시사합니다.
다중 화자 환경에서 화자 귀속 자동 음성 인식(ASR)은 여전히 주요 과제로 남아 있습니다. 특정 도메인에 대해 미세 조정 시 일부 접근법이 강력한 성능을 달성하지만, 도메인 외 데이터셋에서 잘 일반화되는 시스템은 거의 없습니다. 우리의 기존 연구인 Diarization-Conditioned Whisper(DiCoW)는 화자 분할 결과를 조건 정보로 활용하며, 최소한의 미세 조정으로도 강력한 다국어 및 다중 도메인 성능을 입증했습니다. 본 논문에서는 DiCoW의 주요 한계점, 즉 두 명 이상의 화자가 완전히 중첩되어 전사 내용이 다름에도 불구하고 거의 동일한 조건 정보를 갖게 되는 Silence-Target-Non-target-Overlap(STNO) 마스크의 모호성을 해결합니다. 우리는 화자 분할 결과를 활용하여 대상 화자가 가장 활발히 활동하는 대화 세그먼트를 등록 구간으로 지정하는 SE-DiCoW(Self-Enrolled Diarization-Conditioned Whisper)를 소개합니다. 이 등록 구간은 각 인코더 레이어에서 교차 주의력을 통해 고정 조건 정보로 사용됩니다. 또한 개선된 데이터 분할, 모델 초기화 및 증강 기법을 통해 DiCoW를 더욱 정제합니다. 이러한 발전을 종합하여 SE-DiCoW는 EMMA MT-ASR 벤치마크에서 기존 DiCoW 대비 매크로 평균 tcpWER을 52.4% 상대적으로 크게 개선했습니다.
대규모 언어 모델(LLM)의 추론 분야 최근 발전은 사후 훈련 손실 함수 및 정렬 전략의 정교화에 의해 주도되고 있습니다. 그러나 GRPO(Group Relative Policy Optimization)와 같은 표준 강화 학습(RL) 패러다임은 여전히 정적 균일성, 즉 균일한 프롬프트 샘플링과 프롬프트당 고정된 롤아웟 수에 의해 제약을 받습니다. 이질적이고 두꺼운 꼬리 분포를 보이는 추론 데이터의 경우, 이는 구조적 비효율성을 초래하여 이미 해결된 패턴에 대한 계산 자원을 낭비하는 동시에 어려운 문제들의 긴 꼬리 부분을 충분히 훈련하지 못하게 합니다. 이를 해결하기 위해 우리는 균일 추론 모델을 넘어서 훈련 분포를 동적으로 조정하는 최적화 중심 프레임워크인 Multi-Adversary Group Distributionally Robust Optimization(GDRO)을 제안합니다. 우리는 프롬프트를 동적 pass@k 난이도 그룹으로 분할하는 온라인 난이도 분류기(Online Difficulty Classifier)를 도입했습니다. 그런 다음 사후 훈련을 위한 두 가지 독립적인 GDRO 게임을 제안합니다: (1) 집중적인 난이도 마진을 목표로 하고 빈도 편향 없이 지속적으로 어려운 그룹의 가중치를 높이는 EMA-편향 제거 승법 가중치 밴딧 샘플러(EMA-debiased multiplicative-weights bandit sampler)를 사용하는 Prompt-GDRO와, (2) 고정된 평균 예산(계산량 중립) 하에서 어려운 과제에 대한 그래디언트 분산 감소를 극대화하기 위해 그룹 간 롤아웟을 재배분하는 섀도우 가격 컨트롤러(shadow-price controller)를 사용하는 Rollout-GDRO입니다. 우리는 두 컨트롤러에 대해 무감회(no-regret) 보장을 제공하고, 추가적으로 Rollout-GDRO를 위한 제곱근 최적 롤아웟 할당을 유도하는 분산 프록시(variance-proxy) 분석을 제시합니다. 우리는 Qwen3-Base 모델을 사용하여 DAPO 14.1k 데이터셋에서 우리 프레임워크를 검증했습니다. Prompt-GDRO와 Rollout-GDRO는 GRPO 기준선 대비 1.7B, 4B, 8B 규모에서 pass@8 정확도 기준 평균 각각 +10.6%, +10.1%의 상대적 향상을 달성했습니다. 정성적 분석은 적대자(adversaries)가 자원을 진화하는 추론 최전선(frontier)으로 이동시켜 추론 모델의 성능을 향상시키는 발현적 커리큘럼(emergent curriculum)을 보여줍니다.
사회적으로 민감한 혐오 발화 탐지와 같은 과제에서 대규모 언어 모델(LLM)이 제공하는 설명의 질은 사용자 신뢰 및 모델 정렬과 같은 요소에 있어 중요합니다. 페르소나 프롬프팅(PP)은 모델을 사용자 맞춤형 생성으로 유도하는 방법으로 점차 활용되고 있으나, 모델의 근거 생성에 미치는 영향은 아직 충분히 연구되지 않았습니다. 본 연구는 서로 다른 인구통계학적 페르소나를 시뮬레이션하여 조건을 부여했을 때 LLM이 생성하는 근거가 어떻게 변화하는지 조사합니다. 단어 수준 근거가 주석 처리된 데이터셋을 사용하여 서로 다른 인구통계학적 집단의 인간 주석과의 일치도를 측정하고, PP가 모델 편향 및 인간 정렬에 미치는 영향을 평가합니다. 세 가지 LLM에 대한 평가 결과 세 가지 주요 발견을 확인했습니다: (1) PP는 가장 주관적인 과제(혐오 발화)에서 분류 성능은 향상시키지만 근거의 질은 저하시킵니다. (2) 시뮬레이션된 페르소나는 실제 인구통계학적 집단과 정렬되지 않으며, 높은 페르소나 간 일치도는 모델이 의미 있는 유도에 저항함을 보여줍니다. (3) 모델은 PP 적용 여부와 관계없이 일관된 인구통계학적 편향과 콘텐츠를 유해하다고 과도하게 판단하는 강한 경향을 나타냅니다. 본 연구의 결과는 중요한 상충 관계를 드러냅니다: PP가 사회적으로 민감한 과제에서 분류 성능을 향상시킬 수는 있지만, 이는 종종 근거 질의 저하를 수반하며 근본적인 편향을 완화하지 못하므로 적용 시 주의를 촉구합니다.
스케치는 애니메이션 제작에서 동적 의도(즉, 요소가 시간과 공간에 따라 어떻게 변화하는지)를 직관적으로 전달하는 방법을 제공하여 자동 콘텐츠 생성에 자연스러운 매체 역할을 합니다. 그러나 기존 접근법들은 스케치를 고정된 명령 토큰이나 미리 정의된 시각적 형태로 제한하는 경우가 많아, 스케치의 자유로운 특성과 의도를 형성하는 데 있어 인간의 중심적인 역할을 간과합니다. 이를 해결하기 위해 우리는 사용자가 자유형 스케치를 통해 시각-언어 모델에 동적 의도를 전달하는 상호작용 패러다임을 소개하며, 이를 스케치 스토리보드에서 모션 그래픽으로의 워크플로우로 구체화합니다. 우리는 인터페이스를 구현하고 24명의 참가자를 대상으로 3단계 연구를 통해 개선했습니다. 연구 결과는 스케치가 최소한의 입력으로 동작을 어떻게 전달하는지, 그 고유의 모호함이 명확화를 위해 사용자의 참여를 어떻게 요구하는지, 그리고 스케치가 비디오 정제를 시각적으로 어떻게 안내할 수 있는지를 보여줍니다. 우리의 연구 결과는 스케치와 AI의 상호작용이 의도와 결과 사이의 간극을 메우는 잠재력을 보여주며, 3D 애니메이션 및 비디오 생성에 대한 적용 가능성을 입증합니다.
실시간 로봇 적용에 대한 수요 증가로 인해 시각-언어-행동(VLA) 모델의 빠른 온디바이스 추론이 필요해졌습니다. VLA 연구에서 효율성은 시각 토큰 프루닝과 같은 토큰 수준에서 광범위하게 연구되어 왔습니다. 이와 대조적으로 체계적인 트랜스포머 계층 축소는 상대적으로 주목을 받지 못했으며, 저자들이 아는 한 지식 증류 하에서 흐름 기반 VLA 모델에 적용된 사례는 없었습니다. 본 연구에서는 VLM 백본과 흐름 기반 행동 헤드의 트랜스포머 깊이를 18개 계층에서 6개 계층으로 공격적으로 줄이는 체계적인 지식 증류 프레임워크인 Shallow-pi를 제안합니다. Shallow-pi는 표준 매니퓰레이션 벤치마크에서 성공률이 1% 미만의 절대적 하락만으로 추론 속도를 두 배 이상 향상시켜, 경량화된 VLA 모델 중 최첨단 성능을 입증했습니다. 특히, 우리는 Jetson Orin과 Jetson Thor를 활용한 인간형 시스템을 포함한 다양한 로봇 플랫폼에서 복잡하고 동적인 매니퓰레이션 시나리오에 대한 산업 규모의 실제 실험을 통해 접근법의 타당성을 검증했습니다.