번역이 포함된 일일 선별된 AI 연구 논문
강화 학습(RL)을 통한 사후 학습 언어 모델(LMs)은 지도 미세 조정 없이도 복잡한 추론 능력을 향상시킬 수 있으며, 이는 DeepSeek-R1-Zero에서 입증되었습니다. 그러나 LMs에 RL을 효과적으로 활용하기 위해서는 추론을 확장하기 위해 상당한 병렬화가 필요하며, 이는 지속적으로 증가하는 재정적 비용과 함께 (예: 지연 시간, 메모리, 신뢰성과 같은) 사소하지 않은 기술적 도전 과제를 야기합니다. 우리는 완전히 분산되고 비동기적인 RL 사후 학습 알고리즘인 Swarm sAmpling Policy Optimization(SAPO)을 제시합니다. SAPO는 이질적인 컴퓨팅 노드로 구성된 분산 네트워크를 위해 설계되었으며, 각 노드는 자체 정책 모델을 관리하면서 네트워크 내 다른 노드들과 롤아웃을 "공유"합니다. 지연 시간, 모델 동질성 또는 하드웨어에 대한 명시적인 가정이 필요하지 않으며, 원한다면 노드가 독립적으로 운영될 수도 있습니다. 결과적으로, 이 알고리즘은 RL 사후 학습의 확장에서 흔히 발생하는 병목 현상을 피할 뿐만 아니라 새로운 가능성을 허용(심지어 장려)합니다. 네트워크 전반에 "공유"된 롤아웃을 샘플링함으로써, "아하 순간"이 전파되어 학습 과정을 부트스트랩할 수 있게 합니다. 본 논문에서 우리는 SAPO가 통제된 실험에서 최대 94%의 누적 보상 증가를 달성했음을 보여줍니다. 또한, Gensyn 커뮤니티 멤버들이 기여한 수천 개의 노드로 구성된 네트워크에서 다양한 하드웨어와 모델을 사용하여 알고리즘을 실행한 오픈소스 데모 테스트에서 얻은 통찰도 공유합니다.
병렬 사고(Parallel thinking)는 다중 추론 경로를 동시에 탐색함으로써 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 새로운 접근법으로 등장했습니다. 그러나 이러한 능력을 훈련을 통해 활성화하는 것은 여전히 어려운 과제로 남아 있습니다. 기존 방법들은 주로 합성 데이터에 대한 지도 미세 조정(SFT)에 의존하며, 이는 탐색과 일반화보다는 교사 강제 모방을 장려하기 때문입니다. 이와 달리, 우리는 복잡한 실세계 추론 작업에 대해 병렬 사고 행동을 가능하게 하는 최초의 강화 학습(RL) 프레임워크인 Parallel-R1을 제안합니다. 우리의 프레임워크는 RL을 사용한 병렬 사고 훈련에서의 콜드 스타트 문제를 명시적으로 해결하는 점진적 커리큘럼을 채택합니다. 먼저, 더 쉬운 작업에서 프롬프트 생성 궤적에 SFT를 적용하여 병렬 사고 능력을 주입한 후, 더 어려운 문제에서 이 기술을 탐색하고 일반화하기 위해 RL로 전환합니다. MATH, AMC23, AIME 등 다양한 수학 벤치마크에서의 실험 결과, Parallel-R1은 병렬 사고를 성공적으로 주입하여, 도전적인 작업에 대해 RL로 직접 훈련된 순차적 사고 모델보다 8.4%의 정확도 향상을 이끌어냈습니다. 추가 분석은 모델의 사고 행동에서 명확한 변화를 보여줍니다: 초기 단계에서는 병렬 사고를 탐색 전략으로 사용하고, 후기 단계에서는 동일한 능력을 다중 관점 검증에 사용합니다. 가장 중요한 것은, 우리는 병렬 사고가 훈련 중간의 탐색 비계(scaffold)로 검증되었으며, 이 임시 탐색 단계가 RL 이후 더 높은 성능 한계를 열어 AIME25에서 기준선 대비 42.9%의 개선을 가져왔다는 점입니다. 우리의 모델, 데이터, 코드는 https://github.com/zhengkid/Parallel-R1에서 오픈소스로 공개될 예정입니다.
시각적 지시 튜닝으로 학습된 다중모달 대형 언어 모델(MLLMs)은 다양한 작업에서 강력한 성능을 달성했지만, 객체 카운팅이나 공간 추론과 같은 시각 중심 작업에서는 여전히 한계를 보입니다. 우리는 이러한 격차가 주로 텍스트 전용 감독 패러다임에서 비롯된다고 보고 있습니다. 이 패러다임은 시각적 경로에 간접적인 지침만 제공하며, 종종 MLLMs가 학습 과정에서 세밀한 시각적 세부 사항을 버리게 만듭니다. 본 논문에서는 VIsual Representation ALignment(VIRAL)을 제안합니다. 이는 MLLMs의 내부 시각적 표현을 사전 학습된 시각 기반 모델(VFMs)의 표현과 정렬하는 간단하지만 효과적인 정규화 전략입니다. 이러한 정렬을 명시적으로 강제함으로써, VIRAL은 모델이 입력 시각 인코더로부터 중요한 시각적 세부 사항을 유지할 뿐만 아니라 VFMs로부터 추가적인 시각적 지식을 보완할 수 있게 하여, 복잡한 시각적 입력에 대한 추론 능력을 향상시킵니다. 우리의 실험은 널리 사용되는 다중모달 벤치마크에서 모든 작업에 걸쳐 일관된 개선을 보여줍니다. 또한, 우리는 프레임워크의 핵심 설계 선택을 검증하기 위해 포괄적인 절제 연구를 수행했습니다. 우리는 이 간단한 발견이 MLLMs 학습에서 시각적 정보의 효과적인 통합을 위한 중요한 방향을 열어준다고 믿습니다.
최근 대규모 멀티모달 모델의 발전은 강화 학습과 결합된 이미지 기반 도구를 활용하여 시각적 문제를 해결하고 있습니다. 그러나 기존의 오픈소스 접근법들은 단조로운 추론 패턴을 보이고 상호작용 횟수가 제한적이어서 시행착오 탐색이 필요한 어려운 작업에는 적합하지 않습니다. 본 연구에서는 이러한 한계를 극복하기 위해 도구 기반 상호작용을 확장하고, 수십 단계에 걸친 깊은 다중 턴 추론을 실행하며 도전적인 시각적 탐색 작업에서 최첨단 성능을 달성하는 Mini-o3 시스템을 소개합니다. OpenAI o3 스타일의 행동을 재현하기 위한 우리의 방법론은 세 가지 핵심 요소로 구성됩니다. 첫째, 탐색적 추론을 위해 설계된 수천 개의 도전적인 시각적 탐색 문제로 구성된 Visual Probe Dataset을 구축합니다. 둘째, 깊이 우선 탐색, 시행착오, 목표 유지 등 다양한 추론 패턴을 보이는 콜드 스타트 궤적을 얻기 위한 반복적 데이터 수집 파이프라인을 개발합니다. 셋째, 강화 학습 중 최대 턴 수에 도달한 응답에 대한 패널티를 방지하는 오버 턴 마스킹 전략을 제안하여 훈련 시간 효율성과 테스트 시간 확장성 사이의 균형을 맞춥니다. 단 6회의 상호작용 턴 상한으로 훈련했음에도 불구하고, 우리의 모델은 추론 시 자연스럽게 수십 턴으로 확장되는 궤적을 생성하며, 턴 수가 증가함에 따라 정확도가 향상됩니다. 광범위한 실험을 통해 Mini-o3가 풍부한 추론 패턴과 깊은 사고 경로를 생성하며 도전적인 시각적 탐색 문제를 효과적으로 해결함을 입증합니다.
통합 멀티모달 모델(UMMs)은 시각적 이해와 생성을 단일 아키텍처 내에서 통합합니다. 그러나 기존의 학습은 일반적으로 희소하고 세밀한 시각적 세부 사항을 놓치는 이미지-텍스트 쌍(또는 시퀀스)에 의존합니다. 이는 단순한 이미지를 설명하기 위해 수백 단어를 사용하는 경우에도 마찬가지입니다. 우리는 시각적 이해 인코더 임베딩을 밀집된 "텍스트 프롬프트"로 활용하여 캡션 없이도 풍부한 지도를 제공하는 자원 효율적인 사후 학습 방법인 재구성 정렬(RecA)을 소개합니다. 구체적으로, RecA는 UMM을 자체 시각적 이해 임베딩에 조건화하고 자기 지도 재구성 손실을 통해 입력 이미지를 재구성하도록 최적화함으로써 이해와 생성을 재정렬합니다. RecA는 단순함에도 불구하고 광범위하게 적용 가능합니다: 자기회귀, 마스크된 자기회귀, 그리고 확산 기반 UMM들에 걸쳐 일관되게 생성 및 편집 충실도를 향상시킵니다. 단 27 GPU-시간의 사후 학습으로, RecA는 GenEval(0.73→0.90)과 DPGBench(80.93→88.15)에서 이미지 생성 성능을 크게 개선하며, 편집 벤치마크(ImgEdit 3.38→3.75, GEdit 6.94→7.25)도 향상시킵니다. 특히, RecA는 훨씬 더 큰 오픈소스 모델들을 능가하며 다양한 UMM 아키텍처에 광범위하게 적용 가능하여, UMM을 위한 효율적이고 일반적인 사후 학습 정렬 전략으로 자리매김합니다.
최근 이미지 커스터마이징 기술의 발전은 더 강력한 커스터마이징 능력으로 인해 다양한 응용 가능성을 보여주고 있습니다. 그러나 인간은 얼굴에 더 민감하기 때문에, 다중 참조 이미지와의 정체성 혼동을 피하면서 일관된 정체성을 유지하는 것은 여전히 중요한 과제로 남아 있으며, 이는 커스터마이징 모델의 정체성 확장성을 제한합니다. 이를 해결하기 위해, 우리는 고충실도 정체성 보존을 유지하고 확장성을 통해 정체성 혼동을 완화하기 위해 설계된 통합 다중 정체성 최적화 프레임워크인 UMO를 제안합니다. UMO는 "다중 대 다중 매칭" 패러다임을 통해 다중 정체성 생성을 전역 할당 최적화 문제로 재구성하고, 확산 모델에 대한 강화 학습을 통해 기존 이미지 커스터마이징 방법에 일반적으로 적용 가능한 다중 정체성 일관성을 제공합니다. UMO의 학습을 용이하게 하기 위해, 우리는 합성된 부분과 실제 부분으로 구성된 다중 참조 이미지를 포함한 확장 가능한 커스터마이징 데이터셋을 개발했습니다. 또한, 정체성 혼동을 측정하기 위한 새로운 지표를 제안합니다. 광범위한 실험을 통해 UMO가 정체성 일관성을 크게 개선할 뿐만 아니라 여러 이미지 커스터마이징 방법에서 정체성 혼동을 줄이는 것을 입증하며, 정체성 보존 측면에서 오픈소스 방법 중 새로운 최첨단 기술을 설정합니다. 코드와 모델: https://github.com/bytedance/UMO
동적 시각 환경에서 언어 조건화 작업을 실행하는 것은 구현형 AI의 핵심 과제로 남아 있습니다. 기존의 Vision-Language-Action (VLA) 모델은 주로 반응적인 상태-행동 매핑을 채택하여, 종종 근시안적인 행동과 동적 장면에서의 낮은 견고성을 초래합니다. 본 논문에서는 시각적 예측 생성을 의사결정 파이프라인에 통합한 사전 학습된 VLA 프레임워크인 F1을 소개합니다. F1은 인지, 예측 생성, 제어를 위한 전용 모듈을 갖춘 Mixture-of-Transformer 아키텍처를 채택함으로써 이해, 생성, 행동을 연결합니다. F1의 핵심은 목표 조건화된 시각적 예측을 명시적 계획 목표로 합성하기 위한 다음 스케일 예측 메커니즘을 사용합니다. 가능한 미래 시각 상태를 예측함으로써, F1은 행동 생성을 예측 기반 역동 역학 문제로 재구성하여, 시각적 목표를 암묵적으로 달성하는 행동을 가능하게 합니다. F1에 견고하고 일반화 가능한 능력을 부여하기 위해, 136가지 다양한 작업에 걸친 33만 개 이상의 궤적을 포함한 광범위한 데이터셋에서 3단계 학습 레시피를 제안합니다. 이 학습 방식은 모듈형 추론을 강화하고, 복잡하고 동적인 환경에 필수적인 전이 가능한 시각적 예측 능력을 모델에 제공합니다. 실제 작업과 시뮬레이션 벤치마크에 대한 광범위한 평가를 통해 F1이 기존 접근법을 지속적으로 능가하며, 작업 성공률과 일반화 능력 모두에서 상당한 향상을 달성함을 입증합니다.
강화 학습(Reinforcement Learning, RL)은 대규모 언어 모델(Large Language Models, LLMs)의 복잡한 추론 능력을 향상시키는 데 매우 효과적인 것으로 입증되었지만, 이러한 성공을 이끄는 근본적인 메커니즘은 여전히 대부분 불투명합니다. 우리의 분석에 따르면, "아하 순간", "길이 스케일링", 엔트로피 역학과 같은 수수께끼 같은 현상들은 서로 무관한 사건들이 아니라, 인간 인지에서 고차원 전략적 계획과 저차원 절차적 실행이 분리되는 것과 유사한, 발생적 추론 계층 구조의 특징입니다. 우리는 두 단계의 역동성을 발견했습니다: 초기에는 모델이 절차적 정확성에 제약을 받으며 저수준 기술을 개선해야 합니다. 그런 다음 학습 병목 현상이 결정적으로 이동하며, 성능 향상은 고차원 전략적 계획의 탐색과 숙달에 의해 주도됩니다. 이러한 통찰은 GRPO와 같은 기존 RL 알고리즘의 핵심 비효율성을 드러냅니다. 이 알고리즘들은 최적화 압력을 무차별적으로 적용하고 모든 토큰에 걸쳐 학습 신호를 희석시킵니다. 이를 해결하기 위해, 우리는 HIerarchy-Aware Credit Assignment(HICRA)를 제안합니다. 이 알고리즘은 고영향 전략 토큰에 최적화 노력을 집중시킵니다. HICRA는 강력한 베이스라인을 크게 능가하며, 이 전략적 병목 현상에 초점을 맞추는 것이 고급 추론을 해제하는 데 핵심임을 보여줍니다. 또한, 우리는 토큰 수준 엔트로피와 같은 오해의 소지가 있는 지표보다 전략적 탐색을 측정하는 데 더 우수한 나침반으로서 의미론적 엔트로피를 검증합니다.
대형 언어 모델(LLM)은 규모, 풍부한 고품질 학습 데이터, 그리고 강화 학습의 발전에 힘입어 최근 몇 년 동안 빠르게 진보해 왔습니다. 그러나 이러한 발전은 근본적인 병목 현상에 직면해 있습니다: 모델이 계속 학습할 수 있도록 점점 더 많은 데이터가 필요하다는 점입니다. 본 연구에서는 추가 데이터 없이도 모델이 개선될 수 있도록 하는 강화 학습 접근법을 제안합니다. 우리의 방법은 게임 이론적 프레임워크인 자기 대결(self-play)을 활용하며, 여기서 모델의 능력은 경쟁 게임에서의 성능으로 간주되고, 모델이 스스로와 대결함으로써 더 강력한 정책이 등장합니다. 우리는 이 과정을 언어 자기 대결(Language Self-Play, LSP)이라고 부릅니다. Llama-3.2-3B-Instruct 모델을 사용한 지시 따르기 벤치마크 실험에서, 사전 학습된 모델이 자기 대결만을 통해 어려운 작업에서 성능을 향상시킬 수 있을 뿐만 아니라, 데이터 기반 기준선보다 더 효과적으로 이를 달성할 수 있음을 보여줍니다.
AI 지원 방사선학적 해석은 주로 단일 작업에 특화된 좁은 범위의 모델에 기반하고 있습니다. 이러한 접근 방식은 다양한 영상 방식, 질병, 그리고 방사선학적 소견을 포괄하기에는 비현실적입니다. 파운데이션 모델(FMs)은 다양한 영상 방식과 데이터가 부족한 환경에서도 광범위한 일반화를 가능케 할 잠재력을 가지고 있습니다. 그러나 이러한 잠재력은 방사선학 분야에서 아직 크게 실현되지 못했습니다. 우리는 주요 병원에서 수년간 축적된 전체 단면 영상 데이터를 기반으로 훈련된 파운데이션 모델인 Curia를 소개합니다. 이는 우리가 아는 한 실제 세계 데이터 중 가장 큰 규모로, 150,000건의 검사(130TB)를 포함합니다. 새롭게 구성된 19개 작업의 외부 검증 벤치마크에서 Curia는 장기를 정확히 식별하고, 뇌출혈 및 심근경색과 같은 상태를 감지하며, 종양 병기 예측에서 결과를 예측합니다. Curia는 방사선 전문의와 최근의 파운데이션 모델의 성능을 능가하거나 동등한 수준을 보이며, 교차 모달리티 및 데이터가 부족한 환경에서 임상적으로 중요한 새로운 특성을 나타냅니다. 연구의 가속화를 위해 우리는 기본 모델의 가중치를 https://huggingface.co/raidium/curia에서 공개합니다.
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 데 있어서 주목할 만한 성과를 거두었습니다. 그러나 기존의 RLVR 방법들은 학습 데이터의 난이도와 모델의 능력 간의 불일치로 인해 탐색 효율성이 떨어지는 문제를 자주 겪습니다. 문제가 지나치게 어려울 경우 LLM은 실행 가능한 추론 경로를 발견하지 못하고, 문제가 너무 쉬울 경우에는 새로운 능력을 거의 학습하지 못합니다. 본 연구에서는 문제 난이도의 영향을 손실 감소 속도와 롤아웃 정확도 간의 관계를 정량화함으로써 공식화합니다. 이 분석을 바탕으로, 우리는 SEELE라는 새로운 지도 학습 지원 RLVR 프레임워크를 제안합니다. SEELE는 각 학습 샘플에 원래 문제 뒤에 힌트(전체 해결책의 일부)를 추가하여 확장함으로써 문제 난이도를 동적으로 조정하여 고효율 영역 내에 유지합니다. 기존의 힌트 기반 접근법과 달리, SEELE는 각 문제에 대해 의도적으로 적응적으로 힌트 길이를 조정하여 최적의 난이도를 달성합니다. 최적의 힌트 길이를 결정하기 위해 SEELE는 다중 라운드 롤아웃 샘플링 전략을 사용합니다. 각 라운드에서, 이전 라운드에서 수집된 정확도-힌트 쌍에 대해 항목 반응 이론 모델을 피팅하여 다음 라운드에 필요한 힌트 길이를 예측합니다. 이러한 인스턴스 수준의 실시간 난이도 조정은 문제 난이도를 진화하는 모델 능력과 일치시켜 탐색 효율성을 향상시킵니다. 실험 결과, SEELE는 그룹 상대 정책 최적화(GRPO)와 지도 미세 조정(SFT)을 각각 +11.8점과 +10.5점으로 능가하며, 여섯 가지 수학 추론 벤치마크에서 평균적으로 이전 최고의 지도 학습 지원 접근법보다 +3.6점 높은 성능을 보였습니다.
표준 인과적 어텐션(causal attention)에서 각 토큰의 쿼리(query), 키(key), 값(value)(QKV)는 정적이며 선행 컨텍스트만을 인코딩합니다. 우리는 컨텍스트가 전개됨에 따라 각 토큰의 키를 지속적으로 업데이트하는 어텐션 메커니즘인 CAuSal aTtention with Lookahead kEys(CASTLE)를 소개합니다. 우리는 이러한 업데이트된 키를 룩어헤드 키(lookahead keys)라고 명명하는데, 이는 이전 위치에 속하지만 해당 위치에 상대적으로 나중에 나타나는 토큰들의 정보를 통합하면서도 엄격하게 자기회귀적 속성을 보존하기 때문입니다. 이 메커니즘이 순차적으로 보이지만, 우리는 각 위치에서 룩어헤드 키를 명시적으로 구현하지 않고도 효율적인 병렬 학습을 가능하게 하는 수학적 동등성을 도출했습니다. 언어 모델링 벤치마크에서 CASTLE은 모델 규모에 걸쳐 표준 인과적 어텐션을 지속적으로 능가하며, 검증 퍼플렉서티(validation perplexity)를 감소시키고 다양한 다운스트림 작업에서 성능을 향상시켰습니다.
최근 연구들은 미분 가능한 보상을 사용하여 확산 모델을 인간의 선호도와 직접 정렬하는 방법의 효과성을 입증했습니다. 그러나 이러한 접근법은 두 가지 주요 문제점을 보입니다: (1) 보상 점수를 계산하기 위해 다단계 노이즈 제거와 그래디언트 계산에 의존하므로 계산 비용이 높아 최적화를 소수의 확산 단계로만 제한하고, (2) 사진 같은 현실감이나 정확한 조명 효과와 같은 원하는 미적 품질을 달성하기 위해 지속적인 오프라인 보상 모델 적응이 필요합니다. 다단계 노이즈 제거의 한계를 해결하기 위해, 우리는 Direct-Align 방법을 제안합니다. 이 방법은 미리 정의된 노이즈를 사용하여 모든 시간 단계에서 원본 이미지를 효과적으로 복구하며, 확산 상태가 노이즈와 대상 이미지 사이의 보간이라는 방정식을 활용함으로써 후기 시간 단계에서의 과도한 최적화를 효과적으로 방지합니다. 더불어, 우리는 Semantic Relative Preference Optimization(SRPO)을 도입했습니다. 이 방법에서는 보상이 텍스트 조건 신호로 공식화되며, 긍정적 및 부정적 프롬프트 증강에 대한 온라인 보상 조정을 가능하게 하여 오프라인 보상 미세 조정에 대한 의존도를 줄입니다. 최적화된 노이즈 제거와 온라인 보상 조정을 통해 FLUX.1.dev 모델을 미세 조정함으로써, 인간 평가에서의 현실감과 미적 품질을 3배 이상 향상시켰습니다.
OpenAI의 SimpleQA를 기반으로 대규모 언어 모델(LLM)의 단문 사실성 평가를 위한 1,000개 프롬프트 벤치마크인 SimpleQA Verified를 소개합니다. 이 벤치마크는 OpenAI의 벤치마크에서 발견되는 노이즈 및 잘못된 레이블, 주제 편향, 질문 중복 등의 중요한 한계를 해결합니다. SimpleQA Verified는 중복 제거, 주제 균형 조정, 소스 조정을 포함한 엄격한 다단계 필터링 과정을 통해 더 신뢰할 수 있고 도전적인 평가 세트를 생성했으며, 자동 평가 프롬프트도 개선했습니다. 이 새로운 벤치마크에서 Gemini 2.5 Pro는 55.6의 최첨단 F1 점수를 달성하며 GPT-5를 포함한 다른 최신 모델들을 능가했습니다. 이 연구는 파라메트릭 모델의 사실성에서 진정한 진전을 추적하고 환각 현상을 완화하기 위한 더 높은 충실도의 도구를 연구 커뮤니티에 제공합니다. 벤치마크 데이터셋, 평가 코드, 리더보드는 다음에서 확인할 수 있습니다: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
텍스트-이미지 확산 모델은 계산 집약적이며, 대형 트랜스포머 백본을 통해 수십 번의 순방향 전파를 요구합니다. 예를 들어, Stable Diffusion XL은 26억 개의 파라미터를 가진 모델을 50회 평가하여 고품질 이미지를 생성하지만, 이는 단일 배치에 대해서도 비용이 많이 드는 과정입니다. 소수 단계 확산 모델은 이를 2-8개의 디노이징 단계로 줄이지만, 여전히 대형의 압축되지 않은 U-Net 또는 확산 트랜스포머 백본에 의존하며, 이는 데이터센터 GPU 없이 완전 정밀도 추론을 수행하기에는 너무 비용이 많이 듭니다. 이러한 요구 사항은 완전 정밀도 보정에 의존하는 기존의 학습 후 양자화 방법들도 제한합니다. 우리는 Q-Sched를 소개합니다. 이는 모델 가중치 대신 확산 모델 스케줄러를 수정하는 새로운 학습 후 양자화 패러다임입니다. 소수 단계 샘플링 궤적을 조정함으로써, Q-Sched는 모델 크기를 4배 줄이면서도 완전 정밀도 정확도를 달성합니다. 양자화 인지 사전 조건 계수를 학습하기 위해, 우리는 JAQ 손실을 제안합니다. 이는 텍스트-이미지 호환성과 이미지 품질 메트릭을 결합하여 세밀한 최적화를 수행합니다. JAQ는 참조가 필요 없으며, 단 몇 개의 보정 프롬프트만 필요로 하여 보정 중 완전 정밀도 추론을 피합니다. Q-Sched는 상당한 성능 향상을 제공합니다: FP16 4단계 Latent Consistency Model 대비 15.5%의 FID 개선과 FP16 8단계 Phased Consistency Model 대비 16.6%의 개선을 보여주며, 양자화와 소수 단계 증류가 고충실도 생성을 위해 상호 보완적임을 입증합니다. 80,000개 이상의 주석을 포함한 대규모 사용자 연구는 Q-Sched가 FLUX.1[schnell]과 SDXL-Turbo 모두에서 효과적임을 추가로 확인합니다.
검증 가능한 보상을 활용한 강화 학습(RLVR)에서 동적 생성 길이의 특성에 맞춰 설계된 간단하지만 효과적인 손실 집계 방법인 Delta L 정규화를 제안합니다. 최근 RLVR은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 데 강력한 잠재력을 보여주었지만, 훈련 중 응답 길이의 큰 변동성으로 인해 높은 그래디언트 분산과 불안정한 최적화 문제가 발생하는 주요한 과제가 있습니다. GRPO, DAPO, Dr. GRPO와 같은 기존 방법들은 이 문제를 해결하기 위해 다양한 손실 정규화 항을 도입했지만, 편향된 추정치를 생성하거나 여전히 높은 그래디언트 분산 문제를 겪었습니다. 우리는 이론적 및 실증적으로 다양한 길이가 정책 손실에 미치는 영향을 분석하여 이 문제를 최소 분산 불편 추정량을 찾는 문제로 재구성했습니다. 제안된 Delta L 정규화는 실제 정책 손실에 대한 불편 추정치를 제공할 뿐만 아니라 이론적으로 그래디언트 분산을 최소화합니다. 다양한 모델 크기, 최대 길이 및 작업에 걸친 광범위한 실험을 통해 이 방법이 일관되게 우수한 결과를 달성함을 보여줍니다. 우리의 코드는 https://github.com/zerolllin/Delta-L-Normalization에서 공개될 예정입니다.
대규모 언어 모델(LLM)은 텍스트 기반 작업에 있어 놀랍고 다재다능한 도구로, 이전에는 상상할 수 없었던 수많은 응용 프로그램을 가능하게 했습니다. 반면, 검색 모델은 아직까지 그러한 수준의 범용 모델이 등장하지 못했습니다. 이러한 목표를 달성하기 위해서는 검색 모델이 자연어로 구성된 여러 부분, 제약 조건 또는 요구 사항을 포함하는 복잡한 검색 작업을 수행할 수 있어야 합니다. 이러한 작업은 기존의 대부분의 평가 데이터셋에서 사용되는 단순한 단일 측면 쿼리에서 자연스럽게 진화한 형태입니다. 복잡한 쿼리는 사람들이 검색 시스템이 더 구체적이고 종종 야심 찬 정보 요청을 처리할 것을 기대함에 따라 자연스럽게 발생하며, 이는 LLM 기반 정보 시스템을 사용하는 방식에서도 확인할 수 있습니다. 검색 모델이 복잡한 검색 작업에서의 능력을 확장하려는 요구가 증가함에도 불구하고, 다양한 복잡한 작업에 대한 검색 모델의 능력을 평가할 수 있는 포괄적인 자원은 제한적입니다. 존재하는 몇몇 자원도 범위가 제한적이고 종종 현실적인 설정이 부족하여 복잡한 실제 검색 작업에서 검색 모델의 진정한 능력을 파악하기 어렵습니다. 이러한 단점을 해결하고 차세대 검색 모델의 혁신을 촉진하기 위해, 우리는 다양한 현실적인 복잡한 검색 작업 세트를 구성하고 대표적인 최신 검색 모델들을 벤치마크했습니다. 또한, LLM 기반 쿼리 확장 및 재작성이 검색 품질에 미치는 영향을 탐구했습니다. 우리의 결과는 가장 우수한 모델조차도 모든 작업에서 평균 nDCG@10이 0.346, R@100이 0.587에 불과한 높은 품질의 검색 결과를 생성하는 데 어려움을 겪는 것을 보여줍니다. LLM 증강은 약한 모델에는 도움이 될 수 있지만, 가장 강력한 모델은 모든 재작성 기법에서 모든 지표에서 성능이 감소했습니다.
생성형 AI 시스템이 과학, 비즈니스, 정부 분야에서 역량을 갖추고 보편화됨에 따라, 이들의 실패 모드에 대한 보다 깊은 통찰이 시급한 필요로 대두되고 있습니다. 트랜스포머 모델이 환각(hallucination)을 일으키는 경향과 같은 이들의 간헐적인 불안정성은 고위험 영역에서의 신규 AI 솔루션에 대한 신뢰와 채택을 저해합니다. 본 연구에서는 실험적으로 통제된 입력 공간의 불확실성 시나리오 하에서, 희소 오토인코더(sparse autoencoder)에 의해 포착된 개념 표현을 통해 사전 학습된 트랜스포머 모델에서 환각이 어떻게 그리고 언제 발생하는지를 규명합니다. 우리의 체계적인 실험은 입력 정보가 점점 더 비구조화될수록 트랜스포머 모델이 사용하는 의미론적 개념의 수가 증가함을 보여줍니다. 입력 공간의 불확실성이 증가함에 따라, 트랜스포머 모델은 일관성 있지만 입력에 둔감한 의미론적 특징을 활성화하기 쉬워져, 환각된 출력을 초래합니다. 극단적으로 순수 노이즈 입력의 경우, 우리는 사전 학습된 트랜스포머 모델의 중간 활성화에서 강력하게 유발되고 의미 있는 다양한 개념들을 확인하였으며, 이들의 기능적 무결성을 표적 조정(targeted steering)을 통해 검증하였습니다. 또한 트랜스포머 모델의 출력에서 발생하는 환각은 트랜스포머 계층 활성화에 내재된 개념 패턴으로부터 신뢰성 있게 예측될 수 있음을 보여줍니다. 트랜스포머의 내부 처리 메커니즘에 대한 이러한 통찰의 집합은 AI 모델을 인간의 가치에 정렬시키는 것, AI 안전성, 잠재적 적대적 공격(adversarial attack)에 대한 공격 표면 개방, 그리고 모델의 환각 위험을 자동으로 정량화하는 기반을 제공하는 데 즉각적인 영향을 미칩니다.