번역이 포함된 일일 선별된 AI 연구 논문
학술 발표 동영상은 연구 커뮤니케이션의 필수 매체로 자리 잡았지만, 이를 제작하는 것은 여전히 매우 노동 집약적이며, 단 2~10분 길이의 동영상을 위해 슬라이드 디자인, 녹화, 편집 등 수 시간이 소요됩니다. 자연스러운 동영상과 달리, 발표 동영상 생성은 독특한 도전 과제를 포함합니다: 연구 논문에서의 입력, 밀도 높은 다중 모달 정보(텍스트, 그림, 표), 그리고 슬라이드, 자막, 음성, 발표자 등 여러 정렬된 채널을 조율해야 하는 필요성 등이 그것입니다. 이러한 도전 과제를 해결하기 위해, 우리는 저자가 직접 제작한 발표 동영상, 슬라이드, 발표자 메타데이터와 함께 101편의 연구 논문을 짝지은 최초의 벤치마크인 PaperTalker를 소개합니다. 또한, 동영상이 논문의 정보를 청중에게 얼마나 효과적으로 전달하는지를 측정하기 위해 네 가지 맞춤형 평가 지표--메타 유사성(Meta Similarity), PresentArena, PresentQuiz, IP Memory--를 설계했습니다. 이를 기반으로, 우리는 학술 발표 동영상 생성을 위한 최초의 다중 에이전트 프레임워크인 PaperTalker를 제안합니다. 이 프레임워크는 슬라이드 생성과 함께 새로운 효과적인 트리 탐색 시각적 선택, 커서 그라운딩, 자막 생성, 음성 합성, 그리고 발표자 영상 렌더링을 통합하며, 효율성을 위해 슬라이드 단위 생성을 병렬화합니다. Paper2Video에 대한 실험 결과, 우리의 접근 방식으로 생성된 발표 동영상은 기존의 베이스라인보다 더 정확하고 정보가 풍부한 것으로 나타났으며, 자동화되고 바로 사용할 수 있는 학술 동영상 생성을 위한 실질적인 한 걸음을 내디뎠습니다. 우리의 데이터셋, 에이전트, 코드는 https://github.com/showlab/Paper2Video에서 확인할 수 있습니다.
에이전트 및 도메인 특화 추론과 같은 대형 언어 모델(LLM) 애플리케이션은 점점 더 가중치 업데이트 대신 지침, 전략 또는 증거를 통해 입력을 수정하는 컨텍스트 적응에 의존하고 있습니다. 기존 접근 방식은 사용성을 개선했지만 종종 간결성 편향(brevity bias)으로 인해 도메인 통찰력을 간략한 요약으로 축소하거나, 반복적인 재작성으로 인해 시간이 지남에 따라 세부 사항이 소실되는 컨텍스트 붕괴(context collapse) 문제를 겪었습니다. Dynamic Cheatsheet에서 소개된 적응형 메모리를 기반으로, 우리는 컨텍스트를 생성, 반영, 정리라는 모듈식 프로세스를 통해 전략을 축적, 개선, 조직화하는 진화하는 플레이북으로 취급하는 ACE(Agentic Context Engineering) 프레임워크를 제안합니다. ACE는 구조화된 점진적 업데이트를 통해 붕괴를 방지하고, 세부 지식을 보존하며, 장기 컨텍스트 모델과 함께 확장 가능합니다. 에이전트 및 도메인 특화 벤치마크에서 ACE는 오프라인(예: 시스템 프롬프트) 및 온라인(예: 에이전트 메모리) 컨텍스트를 최적화하며, 강력한 베이스라인을 일관되게 능가합니다: 에이전트에서 +10.6%, 금융에서 +8.6%의 성능 향상을 보였으며, 적응 지연 시간과 롤아웃 비용을 크게 줄였습니다. 특히, ACE는 레이블된 감독 없이 자연스러운 실행 피드백을 활용하여 효과적으로 적응할 수 있었습니다. AppWorld 리더보드에서 ACE는 전체 평균에서 최고 수준의 프로덕션급 에이전트와 동등한 성능을 보였으며, 더 어려운 테스트-챌린지 분할에서는 이를 능가했는데, 이는 더 작은 오픈소스 모델을 사용했음에도 불구하고 가능했습니다. 이러한 결과는 포괄적이고 진화하는 컨텍스트가 낮은 오버헤드로 확장 가능하고 효율적이며 자기 개선이 가능한 LLM 시스템을 가능하게 함을 보여줍니다.
비디오 이해는 컴퓨터 비전 분야에서 가장 도전적인 과제로, 모델이 복잡한 시공간적 관계, 장기적 의존성, 그리고 다중모달 증거에 대해 추론할 것을 요구합니다. 최근 비디오-대형 다중모달 모델(Video-LMMs)의 등장은 비디오 이해 작업에서 놀라운 능력을 보여주었습니다. 이 모델들은 시각적 인코더와 강력한 디코더 기반 언어 모델을 통합하여 개발되었습니다. 그러나 이러한 모델들을 기본적인 인지 시스템에서 정교한 추론 엔진으로 변환하는 중요한 단계인 사후 훈련(post-training)은 문헌에 걸쳐 단편적으로만 다뤄져 왔습니다. 본 조사는 Video-LMMs의 사후 훈련 방법론을 처음으로 포괄적으로 검토하며, 세 가지 기본 기둥을 포함합니다: 사고의 연쇄(chain-of-thought)를 통한 지도 미세 조정(supervised fine-tuning, SFT), 검증 가능한 목표로부터의 강화 학습(reinforcement learning, RL), 그리고 향상된 추론 계산을 통한 테스트 시간 스케일링(test-time scaling, TTS). 우리는 이러한 기술들의 역할, 상호 연결, 그리고 비디오 특화적 적응을 명확히 하는 구조적 분류체계를 제시하며, 시간적 위치 지정, 시공간적 근거, 긴 비디오 효율성, 다중모달 증거 통합과 같은 고유한 도전 과제를 다룹니다. 대표적인 방법들에 대한 체계적인 분석을 통해 주요 설계 원칙, 통찰, 평가 프로토콜을 종합하고, 보상 설계, 확장성, 비용-성능 최적화와 같은 중요한 미해결 과제를 식별합니다. 또한, 사후 훈련 효과의 엄격한 평가를 용이하게 하기 위해 필수적인 벤치마크, 데이터셋, 메트릭을 정리합니다. 본 조사는 연구자와 실무자들에게 Video-LMM 능력을 발전시키기 위한 통합된 프레임워크를 제공하고자 합니다. 추가 자료와 업데이트는 https://github.com/yunlong10/Awesome-Video-LMM-Post-Training에서 유지됩니다.
트리 탐색은 대규모 언어 모델(LLM)을 활용한 테스트 시간 추론의 대표적인 프레임워크로 자리 잡았으며, Tree-of-Thought 및 몬테카를로 트리 탐색과 같은 방법이 여러 추론 경로를 탐색하는 예로 잘 알려져 있습니다. 그러나 중간 추론 단계의 품질을 즉각적이고 신뢰할 수 있는 양적 평가로 제공하는 것은 여전히 어려우며, 광범위한 경로 탐색은 계산 비용이 많이 듭니다. 이를 해결하기 위해, 우리는 정보 이론적 원칙에 기반한 새로운 프레임워크인 상호 정보 트리 탐색(MITS)을 제안합니다. MITS는 점별 상호 정보(PMI)를 기반으로 한 효과적인 점수 함수를 도입하여, 비용이 많이 드는 미리 보기 시뮬레이션 없이도 빔 탐색을 통해 추론 경로의 단계별 평가와 탐색 트리 확장을 가능하게 하여, 계산 효율성을 유지하면서도 우수한 추론 성능을 달성합니다. 이 프레임워크는 엔트로피 기반의 동적 샘플링 전략으로 보완되어, 탐색이 가장 유익한 불확실한 추론 단계에 계산 자원을 적응적으로 할당합니다. 최종 예측을 위해, MITS는 PMI 점수와 예측 합의를 결합한 가중 투표 방식을 사용합니다. 다양한 추론 벤치마크에 대한 포괄적인 실험을 통해, MITS는 기준 방법들을 일관적으로 능가하며, LLM 추론을 위한 원칙적이고 효율적인 프레임워크를 확립합니다.
최근의 비디오 생성 모델은 부드럽고 시각적으로 매력적인 클립을 생성할 수 있지만, 종종 일관된 결과의 연쇄를 가진 복잡한 역학을 합성하는 데 어려움을 겪습니다. 시간에 따른 시각적 결과와 상태 전환을 정확하게 모델링하는 것은 여전히 핵심적인 과제로 남아 있습니다. 반면, 대규모 언어 및 멀티모달 모델(예: GPT-4o)은 강력한 시각적 상태 추론 및 미래 예측 능력을 보여줍니다. 이러한 강점을 결합하기 위해, 우리는 VChain이라는 새로운 추론 시각적 사고 연쇄(chain-of-visual-thought) 프레임워크를 소개합니다. VChain은 멀티모달 모델로부터 시각적 추론 신호를 비디오 생성에 주입하는 전용 파이프라인을 포함합니다. 구체적으로, VChain은 대규모 멀티모달 모델을 활용하여 중요한 키프레임의 희소 집합을 스냅샷으로 생성한 다음, 이 키프레임을 사용하여 사전 훈련된 비디오 생성기의 희소 추론 시점 튜닝을 이 순간에만 유도합니다. 우리의 접근 방식은 튜닝 효율적이며, 최소한의 오버헤드를 도입하고 밀집된 감독을 피합니다. 복잡한 다단계 시나리오에 대한 광범위한 실험을 통해 VChain이 생성된 비디오의 품질을 크게 향상시킨다는 것을 보여줍니다.
비전 모달리티에 대한 탈옥(jailbreaking) 공격은 일반적으로 지각할 수 없는 적대적 섭동에 의존하는 반면, 텍스트 모달리티에 대한 공격은 일반적으로 가시적인 수정(예: 비의미적 접미사)이 필요하다고 가정됩니다. 본 논문에서는 변형 선택자(variation selector)라는 유니코드 문자 클래스를 활용한 지각할 수 없는 탈옥 기법을 소개합니다. 악성 질문에 보이지 않는 변형 선택자를 추가함으로써, 탈옥 프롬프트는 화면상에서 원본 악성 질문과 시각적으로 동일하게 보이지만, 토큰화는 "비밀스럽게" 변경됩니다. 우리는 유해한 응답을 유도하기 위해 이러한 적대적 접미사를 생성하는 검색 연쇄(chain-of-search) 파이프라인을 제안합니다. 실험 결과, 우리의 지각할 수 없는 탈옥 기법은 네 가지 정렬된 대형 언어 모델(LLM)에 대해 높은 공격 성공률을 달성하며, 프롬프트 주입 공격으로도 일반화될 수 있음을 보여줍니다. 이 모든 과정에서 작성된 프롬프트에는 어떠한 가시적인 수정도 발생하지 않습니다. 우리의 코드는 https://github.com/sail-sg/imperceptible-jailbreaks에서 확인할 수 있습니다.
최근 대규모 언어 모델의 발전은 자기 주의 메커니즘(self-attention mechanism)과 Mamba와 같은 구조화된 상태 공간 모델(structured state space model)을 결합한 하이브리드 아키텍처가, 특히 장문맥 작업에서 모델링 품질과 계산 효율성 사이의 매력적인 균형을 달성할 수 있음을 보여주었습니다. 이러한 하이브리드 모델은 유망한 성능을 보여주지만, 하이브리드화 전략에 대한 체계적인 비교와 그 효과성의 핵심 요인에 대한 분석은 아직 명확하게 공유되지 않았습니다. 본 연구에서는 층간(순차적) 또는 층내(병렬) 융합을 기반으로 한 하이브리드 아키텍처에 대한 종합적인 평가를 제시합니다. 우리는 이러한 설계를 언어 모델링 성능, 장문맥 처리 능력, 확장성 분석, 그리고 학습 및 추론 효율성 등 다양한 관점에서 평가합니다. 이들의 계산 기본 요소의 핵심 특성을 조사함으로써, 각 하이브리드화 전략에 있어 가장 중요한 요소를 식별하고, 두 하이브리드 모델에 대한 최적의 설계 레시피를 추가로 제안합니다. 우리의 포괄적인 분석은 하이브리드 언어 모델 개발을 위한 실용적인 지침과 가치 있는 통찰을 제공하며, 아키텍처 구성의 최적화를 촉진합니다.
모델과 데이터셋 크기 조정에 따른 최적 하이퍼파라미터 전이에 관한 최근의 진전에도 불구하고, 이를 설명하는 통일된 원리는 아직 확립되지 않았습니다. Scion 옵티마이저를 사용하여, 우리는 모델과 데이터셋 크기에 걸친 공동 최적 스케일링이 단일 불변량, 즉 출력 레이어의 연산자 노름(operator norm)에 의해 지배된다는 사실을 발견했습니다. 최대 13억 개의 파라미터를 가진 모델과 최대 1380억 개의 토큰으로 학습된 데이터셋에서, 최적 학습률/배치 크기 쌍(eta^{ast}, B^{ast})은 항상 동일한 연산자 노름 값을 가지는 현상을 관찰했으며, 이를 노름 전이(norm transfer)라고 명명했습니다. 이 상수 노름 조건은 필요조건이지만 충분조건은 아닙니다: 각 데이터셋 크기에 대해 여러 (eta, B)가 최적 노름에 도달할 수 있지만, 오직 하나의 (eta^{ast}, B^{ast})만이 최적의 손실을 달성합니다. 충분조건으로서, 우리는 Scion에 대한 (eta^{ast}, B^{ast})의 데이터셋 크기별 스케일링을 처음으로 측정했으며, 이 스케일링 규칙이 Adam 옵티마이저의 규칙과 일관적임을 발견했습니다. 레이어 그룹별 학습률 조정 또한 모델 성능을 향상시키는데, 출력 레이어가 가장 민감하고 은닉 레이어는 더 낮은 학습률에서 이점을 얻는 것으로 나타났습니다. 우리는 노름 기반 최적 스케일링에 대한 실용적인 통찰을 제공하고, 대규모 언어 모델(LLM) 학습 역학 연구를 지원하기 위해 2천 회 이상의 실행 로그와 함께 분산 Scion(Disco) 구현을 공개합니다.
트랜스포머(Transformer) 아키텍처는 대규모 언어 모델(Large Language Models, LLMs)의 사실상 표준으로 자리 잡았으며, 언어 이해 및 생성 분야에서 뛰어난 능력을 입증해 왔다. 그러나 대화형 인공지능(Conversational AI)에서의 적용은 본질적으로 상태를 유지하지 않는 특성과 시퀀스 길이 L에 대한 2차 계산 복잡도(O(L^2))로 인해 제약을 받고 있다. 현재의 모델들은 각 대화 턴마다 점점 확장되는 대화 기록을 재처리함으로써 메모리를 모방하고 있으나, 이는 긴 대화에서 과도한 비용과 지연을 초래한다. 본 논문은 이러한 한계를 극복하기 위해 데이터 주도(data-driven) 패러다임에서 이벤트 주도(event-driven) 패러다임으로 전환한 새로운 아키텍처인 반응형 트랜스포머(Reactive Transformer, RxT)를 소개한다. RxT는 각 대화 턴을 실시간으로 개별 이벤트로 처리하며, 통합된 고정 크기의 단기 메모리(Short-Term Memory, STM) 시스템에서 컨텍스트를 유지한다. 이 아키텍처는 생성기-디코더(generator-decoder)가 현재 질의와 이전 메모리 상태를 기반으로 응답을 생성한 후, 메모리-인코더(memory-encoder)와 전용 메모리 어텐션 네트워크(Memory Attention network)가 비동기적으로 STM을 전체 상호작용의 표현으로 업데이트하는 독특한 운영 주기를 특징으로 한다. 이 설계는 스케일링 역학을 근본적으로 변화시켜, 대화의 총 사용자 대면 비용을 상호작용 횟수 N에 대해 2차(O(N^2 cdot T))에서 선형(O(N cdot T))으로 감소시킨다. 응답 생성과 메모리 업데이트를 분리함으로써 RxT는 낮은 지연 시간을 달성하며, 진정한 실시간, 상태 유지, 경제적으로 실행 가능한 장기 대화를 가능하게 한다. 우리는 합성 데이터를 사용한 일련의 개념 검증 실험을 통해 이 아키텍처를 검증하였으며, 비슷한 크기의 상태 비저장 모델과 비교하여 우수한 성능과 일정한 시간의 추론 지연 시간을 입증하였다.
LLM(대형 언어 모델)의 추론 능력을 향상시키기 위한 현재의 주요 패러다임은 고품질의 추론 집약적 데이터에 대한 사후 학습(post-training)에 초점을 맞추고 있습니다. 최근 연구들은 추론 데이터가 중간 학습 단계에서도 점점 더 통합되고 있다고 제안하지만, 이러한 관행은 상대적으로 독점적이며 공개적으로 명확히 설명되지 않는 경우가 많습니다. 특히, 대부분의 최첨단 모델에서 사전 학습(pre-training) 코퍼스의 불투명성으로 인해, 사전 학습 및/또는 사후 학습의 다양한 단계에서 도입된 추론 데이터의 효과는 과학적 문헌에서 상대적으로 덜 보고되고 있습니다. 이는 몇 가지 중요한 질문을 제기합니다: 사전 학습 초기에 추론 데이터를 추가하는 것이 사후 학습 중에 도입하는 것보다 더 나은가? 초기 포함이 과적합을 유발하고 일반화를 해칠 위험이 있는가, 아니면 나중에 미세 조정(fine-tuning)으로는 복구할 수 없는 견고한 기반을 마련할 수 있는가? 우리는 규모, 다양성, 품질이 다른 추론 데이터가 학습의 다양한 단계에서 도입될 때 LLM 성능에 미치는 영향을 체계적으로 연구한 첫 번째 연구를 수행했습니다. 우리는 추론 데이터를 사전 학습에 앞서 도입하는 것이 매우 중요하며(평균 19% 향상), 이는 나중 단계의 SFT(Supervised Fine-Tuning)로는 완전히 복제할 수 없는 기초 능력을 확립한다는 것을 발견했습니다. 우리는 최적의 데이터 할당을 위한 비대칭 원칙을 발견했습니다: 사전 학습은 추론 패턴의 광범위한 다양성에서 가장 큰 이점을 얻는 반면(평균 11% 향상), SFT는 데이터 품질에 더 민감합니다(평균 15% 향상). 우리는 고품질의 사전 학습 데이터가 SFT 이후에만 활성화되는 잠재 효과를 가지고 있으며, SFT 데이터를 무작정 확장하는 것은 초기 추론 주입의 이점을 상쇄시킬 수 있다는 것을 보여줍니다. 우리의 결과는 언어 모델링과 추론의 전통적인 분리를 도전하며, 더 능력 있는 모델을 구축하기 위해 전체 학습 파이프라인에 걸쳐 데이터를 전략적으로 할당하는 원칙적인 가이드를 제공합니다.
현대 시각 생성 모델은 미학적으로 매력적인 자연 이미지를 생성하는 데 뛰어나지만, 구성 계획, 텍스트 렌더링, 사실적 정확성을 위한 다중모달 추론이 요구되는 차트, 다이어그램, 수학적 도표와 같은 구조화된 시각 자료를 생성하거나 편집하는 데는 어려움을 겪습니다. 이를 해결하기 위해, 우리는 데이터 구축, 모델 학습, 평가 벤치마크를 포괄하는 이 분야의 첫 번째 종합적이고 체계적인 연구를 제시합니다. 먼저, 실행 가능한 드로잉 프로그램에서 파생된 130만 개의 고품질 구조화된 이미지 쌍으로 구성된 대규모 데이터셋을 구축하고, 이를 사고 연쇄 추론 주석으로 보강합니다. 이를 바탕으로, 경량 커넥터를 통해 VLM과 FLUX.1 Kontext를 통합한 통합 모델을 학습시킵니다. 3단계 학습 커리큘럼은 점진적인 특징 정렬, 지식 주입, 추론 강화 생성을 가능하게 하며, 추론 시 외부 추론기를 통해 더욱 향상됩니다. 마지막으로, 1,700개 이상의 도전적인 인스턴스로 구성된 생성 및 편집을 위한 새로운 벤치마크인 StructBench와 이를 평가하기 위한 StructScore 메트릭을 소개합니다. StructScore는 다중 라운드 Q&A 프로토콜을 사용하여 세부적인 사실적 정확성을 평가합니다. 15개 모델에 대한 평가 결과, 선도적인 클로즈드 소스 시스템조차도 만족스러운 수준에 이르지 못하는 것으로 나타났습니다. 우리의 모델은 강력한 편집 성능을 보여주며, 추론 시 추론은 다양한 아키텍처에서 일관된 성능 향상을 가져옵니다. 데이터셋, 모델, 벤치마크를 공개함으로써, 우리는 구조화된 시각 자료를 위한 통합 다중모달 기반을 발전시키고자 합니다.
명령어 튜닝(instruction-tuning)은 대규모 언어 모델(LLMs)의 과제 해결 능력을 향상시키고 다양한 작업에서 유용한 응답을 생성하는 데 있어 그 활용성을 개선하는 데 중요한 역할을 합니다. 그러나 선행 연구에서는 이러한 모델들이 명령어 표현의 사소한 변화에 민감하다는 점이 입증되었습니다. 본 논문에서는 명령어 튜닝 데이터에 섭동(perturbation)을 도입함으로써 LLMs가 노이즈가 포함된 명령어에 대해 더 강인한 저항성을 갖출 수 있는지 탐구합니다. 특히, 불용어 제거나 단어 순서 섞기와 같은 섭동을 적용한 명령어 튜닝이 널리 사용되는 벤치마크(MMLU, BBH, GSM8K)의 원본 및 섭동 버전에서 LLMs의 성능에 미치는 영향을 분석합니다. 더 나아가 학습 동학과 모델 행동의 잠재적 변화를 평가합니다. 흥미롭게도, 연구 결과는 섭동이 가해진 명령어로 튜닝을 수행하는 경우, 일부 상황에서 하류 작업(downstream task) 성능이 개선될 수 있음을 시사합니다. 이러한 발견은 명령어 튜닝 과정에 섭동이 포함된 명령어를 포함시키는 것이 LLMs가 노이즈가 포함된 사용자 입력에 대해 더 강인해지는 데 중요함을 강조합니다.
음성 대화 시스템은 종종 음성을 전사, 처리, 재합성하는 연속적인 파이프라인에 의존합니다. 이러한 설계는 효과적이지만, 부언어적 단서를 버리고 표현력을 제한합니다. 최근의 종단 간(end-to-end) 방법은 지연 시간을 줄이고 이러한 단서를 더 잘 보존하지만, 여전히 텍스트 중간 단계에 의존함으로써 근본적인 병목 현상을 야기합니다. 우리는 텍스트 지침 없이 직접 음성을 이해하고 생성할 수 있는 진정한 음성-대-음성 대형 언어 모델인 MOSS-Speech를 제안합니다. 우리의 접근 방식은 모달리티 기반의 레이어 분할 아키텍처와 고정된 사전 훈련 전략을 결합하여, 사전 훈련된 텍스트 LLM의 추론 능력과 지식을 유지하면서도 기본적인 음성 기능을 추가합니다. 실험 결과, 우리의 모델은 음성 질의응답에서 최첨단 성능을 달성하고, 기존의 텍스트 지도 시스템에 비해 비슷한 음성-대-음성 성능을 제공하면서도 여전히 경쟁력 있는 텍스트 성능을 유지합니다. 텍스트 지도와 직접 음성 생성 간의 격차를 좁힘으로써, 우리의 연구는 표현력 있고 효율적인 종단 간 음성 상호작용을 위한 새로운 패러다임을 확립합니다.
추론 작업을 위해 대규모 언어 모델(LLM)에 강화 학습을 적용할 때, 프롬프트 전반에 걸쳐 고정적이고 균일한 응답 샘플링으로 인해 불안정한 그래디언트 추정이 병목 현상을 일으키는 경우가 많습니다. GVM-RAFT와 같은 기존 연구는 예산 제약 하에서 확률적 그래디언트 분산을 최소화하기 위해 프롬프트별로 추론 예산을 동적으로 할당함으로써 이 문제를 해결했습니다. 이러한 통찰에 영감을 받아, 우리는 Reinforce-Ada를 제안합니다. 이는 LLM의 온라인 RL 사후 훈련을 위한 적응형 샘플링 프레임워크로, 가장 불확실성이 크거나 학습 잠재력이 높은 프롬프트에 샘플링 노력을 지속적으로 재할당합니다. 기존의 두 단계 할당 방법과 달리, Reinforce-Ada는 온라인 연속 제거 프로세스에서 추정과 샘플링을 교차적으로 수행하며, 충분한 신호가 수집되면 자동으로 해당 프롬프트에 대한 샘플링을 중단합니다. 업데이트를 안정화하기 위해, 우리는 강제된 보상 다양성을 가진 고정 크기 그룹을 형성하고, 적응형 샘플링 단계에서 집계된 전역 통계를 사용하여 이점 기준선을 계산합니다. 다양한 모델 아키텍처와 추론 벤치마크에서의 실험 결과는 Reinforce-Ada가 GRPO에 비해 수렴 속도를 가속화하고 최종 성능을 향상시키며, 특히 균형 잡힌 샘플링 변형을 사용할 때 더 큰 효과를 보임을 보여줍니다. 우리의 연구는 추론 능력을 갖춘 LLM을 위한 효율적이고 신뢰할 수 있는 강화 학습을 가능하게 하는 데 있어 분산 인식적이고 적응형 데이터 큐레이션의 중심적인 역할을 강조합니다. 코드는 https://github.com/RLHFlow/Reinforce-Ada에서 확인할 수 있습니다.
대규모 언어 모델(LLM)을 인간의 가치와 조율하는 데 있어 다른 LLM을 자동 평가자 또는 "자동 평가기"로 활용하는 비중이 점차 증가하고 있습니다. 그러나 이러한 자동 평가기의 신뢰성은 근본적인 문제로 인해 제한적입니다. 이들은 이산적인 선호도 레이블에 대해 훈련되어, 주관적이거나 모호하며 미묘한 차이가 있는 작업에 대해 단일한 정답을 강제하게 됩니다. 우리는 신뢰할 수 있는 자동 평가기가 목표 집단에 의해 정의된 선호도의 전체 분포를 모델링할 수 있어야 한다고 주장합니다. 본 논문에서는 주어진 선호도 분포에 대해 확률적 자동 평가기를 보정하기 위한 일반적인 프레임워크를 제안합니다. 문제를 공식화하고, 서로 다른 데이터 조건에 맞춘 두 가지 학습 방법을 제시합니다: 1) 밀집된 확률적 레이블에 대한 직접적인 지도 미세조정, 2) 희소한 이진 레이블에 대한 강화 학습 접근법. 실험 결과, 분포 일치 목표로 자동 평가기를 미세조정하면 목표 선호도 분포와 더 잘 조율된 언어화된 확률 예측이 가능해지며, 보정이 개선되고 위치 편향이 크게 감소하는 동시에 객관적 작업에서의 성능을 유지할 수 있음을 보여줍니다.
강화 학습은 최근 대규모 언어 모델 추론의 발전에서 핵심적인 역할을 해왔지만, 대부분의 알고리즘은 매 업데이트마다 새로운 롤아웃을 요구하는 온-정책(on-policy) 훈련에 의존하여 효율성과 확장성이 제한된다. 비동기식 강화 학습 시스템은 롤아웃 생성과 훈련을 분리함으로써 이를 완화하지만, 그 효과는 롤아웃 데이터의 큰 지연(staleness)을 허용하는 데 달려 있으며, 이는 기존 방법들이 성능 저하를 겪거나 붕괴되는 상황이다. 우리는 이 문제를 재검토하고, 적절히 활용된다면 지연된 데이터가 온-정책 데이터만큼 유익할 수 있는 "붕괴 전 번영(prosperity-before-collapse)" 현상을 발견했다. 이러한 통찰을 바탕으로, 우리는 중요도 가중치의 두 번째 모멘트를 제한하여 극단적인 이상치만 억제하면서 유익한 업데이트를 보존하는 M2PO(Second-Moment Trust Policy Optimization)를 제안한다. 특히, M2PO는 높은 지연 상황에서 클리핑된 토큰의 비율을 크게 감소시켰으며(훈련 중 1.22%에서 0.06%로), 고분산 토큰을 정확히 마스킹하면서 안정적인 최적화를 유지했다. 1.7B에서 32B까지의 6개 모델과 8개 벤치마크에 걸친 광범위한 평가 결과, M2PO는 최소 256번의 모델 업데이트로 지연된 데이터를 사용하더라도 안정적인 오프-정책(off-policy) 훈련을 제공하며 온-정책 성능과 일치하는 것으로 나타났다.
최근 연구에 따르면, 자연어의 경계에 의해 제한되는 명시적인 사고의 연쇄 단계를 통한 이산적 추론을 넘어, 대규모 언어 모델(LLM)은 잠재 공간에서도 연속적으로 추론할 수 있으며, 이는 단계당 더 풍부한 정보를 제공함으로써 토큰 효율성을 향상시킨다. 이러한 가능성에도 불구하고, 잠재적 추론은 특히 훈련이 필요 없는 설정에서 두 가지 도전에 직면한다: 1) 순수한 잠재적 추론은 여러 암묵적 경로를 유지함으로써 탐색 분포를 확장하고, 이는 확률 질량을 분산시켜 노이즈를 유발하며, 단일 고신뢰도 솔루션으로의 수렴을 방해하여 정확도를 저하시킨다; 2) 명시적인 텍스트 없이도 과도한 사고가 지속되어 토큰을 낭비하고 효율성을 저하시킨다. 이러한 문제를 해결하기 위해, 우리는 SwiReasoning이라는 훈련이 필요 없는 LLM 추론 프레임워크를 소개한다. 이 프레임워크는 두 가지 주요 혁신을 특징으로 한다: 1) SwiReasoning은 다음 토큰 분포의 엔트로피 추세로부터 추정된 블록별 신뢰도를 기반으로 명시적 추론과 잠재적 추론 사이를 동적으로 전환하여 탐색과 활용의 균형을 맞추고 적시에 수렴을 촉진한다. 2) SwiReasoning은 사고 블록 전환의 최대 횟수를 제한함으로써 과도한 사고를 억제하고 다양한 문제 난이도에 걸쳐 토큰 효율성을 향상시킨다. 널리 사용되는 수학 및 STEM 벤치마크에서, SwiReasoning은 다양한 모델 패밀리와 규모의 추론 LLM에 걸쳐 평균 정확도를 1.5%~2.8% 일관적으로 향상시켰다. 또한, 제한된 예산 하에서 SwiReasoning은 평균 토큰 효율성을 56%~79% 향상시켰으며, 예산이 더욱 제한될수록 더 큰 이득을 얻었다.
대규모 생성 모델의 최근 발전은 이미지 편집과 문맥 내 이미지 생성 분야를 크게 진전시켰지만, 편집된 객체가 일관성을 유지해야 하는 물리적 일관성을 보장하는 데 있어 중요한 격차가 여전히 존재합니다. 이러한 능력은 특히 세계 시뮬레이션 관련 작업에서 매우 중요합니다. 본 논문에서는 이미지 편집을 비디오 생성 문제로 재구성하는 ChronoEdit 프레임워크를 제안합니다. 먼저, ChronoEdit은 입력 이미지와 편집된 이미지를 비디오의 첫 번째와 마지막 프레임으로 간주하여, 객체의 외관뿐만 아니라 학습된 시간적 일관성을 통해 움직임과 상호작용의 암묵적인 물리학을 포착하는 대규모 사전 학습된 비디오 생성 모델을 활용할 수 있게 합니다. 둘째, ChronoEdit은 추론 시점에서 명시적으로 편집을 수행하는 시간적 추론 단계를 도입합니다. 이 설정에서 목표 프레임은 추론 토큰과 함께 공동으로 노이즈 제거되어, 물리적으로 가능한 변환으로 해결 공간을 제한하는 그럴듯한 편집 궤적을 상상합니다. 그런 다음 추론 토큰은 몇 단계 후에 제거되어 전체 비디오를 렌더링하는 데 드는 높은 계산 비용을 피합니다. ChronoEdit을 검증하기 위해, 물리적 일관성이 필요한 문맥을 위한 새로운 벤치마크인 PBench-Edit을 소개하고, ChronoEdit이 시각적 충실도와 물리적 타당성 모두에서 최첨단 기준선을 능가함을 보여줍니다. ChronoEdit의 14B 및 2B 변형에 대한 코드와 모델은 프로젝트 페이지에서 공개될 예정입니다: https://research.nvidia.com/labs/toronto-ai/chronoedit
대형 언어 모델(LLMs)은 점점 더 긴 사고의 연쇄를 통해 복잡한 추론 과제를 해결하고 있지만, 이들의 순방향 자동회귀 생성 과정은 취약하다. 초기 토큰 오류가 연쇄적으로 발생할 수 있어, 자기 반성 메커니즘의 필요성이 명확히 대두되고 있다. 그러나 기존의 자기 반성은 전체 초안에 대한 수정을 수행하거나 비용이 많이 드는 학습을 통해 자기 수정을 배우는 방식으로, 근본적으로 반응적이고 비효율적이다. 이를 해결하기 위해, 우리는 테스트 시간에 자기 반성적 생성을 수행하는 경량 프레임워크인 SRGen(Self-Reflective Generation at Test Time)을 제안한다. 토큰 생성 과정에서 SRGen은 동적 엔트로피 임계값을 활용하여 높은 불확실성을 가진 토큰을 식별한다. 식별된 각 토큰에 대해, SRGen은 특정 수정 벡터를 학습하여 이미 생성된 문맥을 최대한 활용하여 토큰 확률 분포를 수정하는 자기 반성적 생성을 수행한다. 부분 출력을 회고적으로 분석함으로써, 이 자기 반성은 더 신뢰할 수 있는 결정을 가능하게 하여, 높은 불확실성 지점에서의 오류 확률을 크게 줄인다. 도전적인 수학적 추론 벤치마크와 다양한 LLMs에 대해 평가한 결과, SRGen은 모델 추론을 일관되게 강화할 수 있음을 보여준다: 단일 패스 품질의 개선은 더 강력한 자기 일관성 투표로도 이어진다. 특히, AIME2024에서 DeepSeek-R1-Distill-Qwen-7B를 사용한 경우, SRGen은 Pass@1에서 +12.0%, Cons@5에서 +13.3%의 절대적 개선을 달성했다. 또한, 우리의 연구 결과는 SRGen을 생성 과정에 반성을 통합하여 신뢰할 수 있는 LLM 추론을 가능하게 하는 플러그 앤 플레이 방식으로 위치시킨다. 이는 일관된 성과를 유지하면서도 제한된 오버헤드와 다른 학습 시간(예: RLHF) 및 테스트 시간(예: SLOT) 기법과의 광범위한 조합성을 달성한다.
컴퓨터 사용 에이전트(CUAs)는 다양하고 끊임없이 변화하는 애플리케이션과 환경에 기반한 작업 워크플로를 계획해야 하지만, 대상 애플리케이션에서 대규모 고품질 학습 데이터의 부족으로 인해 학습이 방해받고 있습니다. 기존 데이터셋은 도메인 특화적이며 정적이고 주석을 달기 위한 비용이 많이 드는 반면, 현재의 합성 데이터 생성 방법은 단순하거나 잘못 정렬된 작업 데모를 생성하는 경우가 많습니다. 이러한 한계를 해결하기 위해, 우리는 인터넷에서 쉽게 구할 수 있는 인간 데모 비디오를 대규모로 실행 가능한 UI 궤적으로 변환하는 Watch & Learn(W&L) 프레임워크를 소개합니다. 궤적을 직접 생성하거나 임시 추론 휴리스틱에 의존하는 대신, 우리는 이 문제를 역역학 목표로 재구성합니다: 연속적인 화면 상태에서 사용자의 행동을 예측하는 것입니다. 이 공식화는 수동 엔지니어링을 줄이고 학습을 더 쉽게 하며 애플리케이션 간에 더 강력하게 일반화합니다. 구체적으로, 우리는 작업 인식 비디오 검색을 포함한 역역학 라벨링 파이프라인을 개발하고, 원시 웹 비디오에서 53,000개 이상의 고품질 궤적을 생성하며, 이러한 궤적이 CUAs를 컨텍스트 내 데모와 지도 학습 데이터로 개선한다는 것을 보여줍니다. 도전적인 OSWorld 벤치마크에서, W&L로 추출된 UI 궤적은 일반 목적 및 최첨단 프레임워크의 컨텍스트 내 성능을 지속적으로 향상시키고, 지도 학습 하에서 오픈소스 모델에 더 큰 이점을 제공합니다. 이러한 결과는 웹 규모의 인간 데모 비디오가 CUAs를 실제 배포로 나아가게 하는 실용적이고 확장 가능한 기반으로서의 잠재력을 강조합니다.
소프트웨어 개발에서 AI 기반 코드 완성 도구의 채택이 크게 증가했음에도 불구하고, 이러한 시스템에서 생성된 사용자 상호작용 데이터는 대기업 내에서 독점적으로 보유되고 있습니다. 이는 학계에 장벽으로 작용하며, 연구자들은 인간-AI 상호작용 연구를 수행하기 위해 전용 플랫폼을 개발해야 하는 경우가 많아 재현 가능한 연구와 대규모 데이터 분석을 어렵게 만듭니다. 본 연구에서는 이러한 한계를 해결하기 위해 JetBrains IDE용 연구 지향적 오픈소스 코드 완성 플러그인인 Code4MeV2를 소개합니다. Code4MeV2는 클라이언트-서버 아키텍처로 설계되었으며, 인라인 코드 완성과 컨텍스트 인식 채팅 어시스턴트 기능을 갖추고 있습니다. 이 도구의 핵심 기여는 연구자들이 원격 측정 및 컨텍스트 수집에 대해 세밀한 제어를 할 수 있는 모듈식이고 투명한 데이터 수집 프레임워크입니다. Code4MeV2는 코드 완성 측면에서 산업계 수준의 성능을 달성하며, 평균 지연 시간은 200ms입니다. 우리는 전문가 평가와 8명의 참가자를 대상으로 한 사용자 연구를 통해 이 도구를 평가했습니다. 연구자와 일상 사용자 모두로부터 정보 제공과 유용성에 대한 긍정적인 피드백을 받았습니다. 우리는 커뮤니티가 이 도구를 채택하고 기여할 것을 권장합니다. 도구에 대한 자세한 정보는 https://app.code4me.me에서 확인할 수 있습니다.
미스터 빈이 톰과 제리 속으로 들어가는 상상을 해보자—서로 다른 세계의 캐릭터들이 자연스럽게 상호작용하는 영상을 생성할 수 있을까? 우리는 텍스트-투-비디오 생성에서 캐릭터 간 상호작용을 연구하며, 여기서 핵심 과제는 각 캐릭터의 정체성과 행동을 보존하면서도 다양한 맥락 간의 일관된 상호작용을 가능하게 하는 것이다. 이는 캐릭터들이 서로 공존한 적이 없을 수 있고, 스타일을 혼합할 경우 현실적인 캐릭터가 만화처럼 보이거나 그 반대의 현상인 스타일 혼동(style delusion)이 발생할 수 있기 때문에 어려운 문제이다. 우리는 이러한 문제를 해결하기 위해 크로스-캐릭터 임베딩(Cross-Character Embedding, CCE)과 크로스-캐릭터 증강(Cross-Character Augmentation, CCA)을 도입한 프레임워크를 제안한다. CCE는 다중 모달 소스에서 정체성과 행동 논리를 학습하며, CCA는 합성된 공존 데이터와 혼합 스타일 데이터를 통해 학습을 풍부하게 한다. 이러한 기법들은 이전에 공존하지 않았던 캐릭터들 간의 자연스러운 상호작용을 가능하게 하면서도 스타일 충실도를 유지한다. 만화와 실사 시리즈의 10개 캐릭터로 구성된 벤치마크에서의 실험은 정체성 보존, 상호작용 품질, 스타일 혼동에 대한 강건성에서 명확한 개선을 보여주며, 새로운 형태의 생성적 스토리텔링을 가능하게 한다. 추가 결과와 영상은 프로젝트 페이지(https://tingtingliao.github.io/mimix/)에서 확인할 수 있다.
자연어 처리(NLP)의 사회적 영향력은 점점 더 중요해지고 있으며, NLP를 활용한 사회적 선(NLP4SG)과 관련된 이니셔티브에 대한 커뮤니티의 관심도 높아지고 있습니다. 실제로 최근 몇 년간 ACL 앤솔로지에 게재된 논문의 거의 20%가 UN 지속가능발전목표(SDGs)에 정의된 사회적 선과 관련된 주제를 다루고 있습니다(Adauto et al., 2023). 본 연구에서는 저자 및 학회 수준의 관점에서 NLP4SG의 현황을 파악하고, ACL 커뮤니티 내외에서 사회적 선 문제를 다루는 연구의 비율을 정량화하며, ACL 핵심 기여자와 비 ACL 저자 모두를 포함하여 분석합니다. 이러한 접근을 통해 우리는 NLP4SG 현황에 관한 두 가지 놀라운 사실을 발견했습니다. 첫째, ACL 저자들은 ACL 외부 학회에 논문을 게재할 때 사회적 선 문제를 다루는 연구를 수행할 가능성이 현저히 높습니다. 둘째, NLP 기술을 활용하여 사회적 선 문제를 다루는 대부분의 논문은 비 ACL 저자들이 ACL 외부 학회에서 발표하고 있습니다. 우리는 이러한 발견이 ACL 커뮤니티의 NLP4SG 관련 의제 설정에 미치는 함의에 대해 논의합니다.
형식적 정리 증명을 위한 대형 언어 모델(LLMs)은 상당한 가능성을 보여주었지만, 종종 일반화 능력이 부족하고 문제 진술의 사소한 변형에도 취약한 경우가 많습니다. 이러한 한계를 해결하기 위해, 우리는 모델의 견고성을 두 가지 관점(대칭성과 난이도)에서 강화하기 위한 새로운 데이터 증강 파이프라인을 소개합니다. 대칭성 관점에서, 우리는 두 가지 상호 보완적인 방법을 제안합니다: EvolAST는 구문적 대칭성을 목표로 의미적으로 동등한 문제 변형을 생성하기 위한 추상 구문 트리(AST) 기반 접근법이며, EvolDomain은 LLMs를 활용하여 수학적 도메인 간 정리를 번역함으로써 의미적 대칭성을 다룹니다. 난이도 관점에서, 우리는 EvolDifficulty를 제안하며, 이는 신중하게 설계된 진화적 지침을 사용하여 LLMs가 더 넓은 범위의 난이도를 가진 새로운 정리를 생성하도록 유도합니다. 그런 다음, 우리는 진화된 데이터를 사용하여 7B 파라미터의 비추론적 정리 증명기인 EvolProver를 학습시킵니다. EvolProver는 FormalMATH-Lite에서 53.8%의 pass@32 비율로 모든 유사 크기의 모델(추론 기반 모델 포함)을 능가하며 새로운 최첨단(SOTA) 기록을 세웁니다. 또한, MiniF2F-Test(69.8% pass@32), Ineq-Comp-Seed(52.2% pass@32), Ineq-Comp-Transformed(34.0% pass@32)에서 비추론적 모델을 위한 새로운 SOTA 기록을 세웁니다. 추가 연구는 여러 벤치마크에서 우리의 데이터 증강 파이프라인의 효과를 더욱 확인시켜 줍니다.
4D 가우시안 스플래팅은 복잡한 동작을 포함한 장면의 실시간 렌더링을 가능하게 하는 동적 장면 표현의 새로운 패러다임으로 부상하였다. 그러나 고충실도 재구성을 위해 수백만 개의 가우시안이 필요하기 때문에 저장 오버헤드라는 주요 문제에 직면해 있다. 여러 연구에서 이러한 메모리 부담을 완화하려 시도했지만, 압축률이나 시각적 품질 측면에서 여전히 한계가 있다. 본 연구에서는 4D 가우시안 모델을 충실히 표현할 수 있는 간결한 중요 가우시안 집합을 구성하는 OMG4(Optimized Minimal 4D Gaussian Splatting) 프레임워크를 제안한다. 우리의 방법은 세 단계에 걸쳐 가우시안을 점진적으로 정제한다: (1) 재구성 충실도에 중요한 기본 요소를 식별하는 가우시안 샘플링, (2) 중복성을 제거하는 가우시안 가지치기, (3) 유사한 특성을 가진 기본 요소를 융합하는 가우시안 병합. 또한, 암묵적 외관 압축과 4D 표현에 일반화된 서브-벡터 양자화(SVQ)를 통합하여 품질을 유지하면서 저장 공간을 더욱 줄인다. 표준 벤치마크 데이터셋에 대한 광범위한 실험을 통해 OMG4가 최신 최첨단 방법들을 크게 능가하며, 모델 크기를 60% 이상 줄이면서도 재구성 품질을 유지함을 입증하였다. 이러한 결과는 OMG4를 간결한 4D 장면 표현의 중요한 진전으로 위치시키며, 다양한 응용 분야에 새로운 가능성을 열어준다. 소스 코드는 https://minshirley.github.io/OMG4/에서 확인할 수 있다.
대규모 텍스트-이미지 확산 모델은 현대 이미지 편집의 핵심이 되었지만, 텍스트 프롬프트만으로는 편집 과정에 대한 충분한 제어를 제공하지 못합니다. 특히 두 가지 속성이 매우 바람직합니다: 분리성(disentanglement), 즉 하나의 속성을 변경할 때 다른 속성이 의도치 않게 변경되지 않는 것, 그리고 연속적 제어(continuous control), 즉 편집의 강도를 부드럽게 조절할 수 있는 것입니다. 우리는 텍스트 임베딩의 토큰 수준 조작을 통해 분리적이고 연속적인 편집을 가능하게 하는 방법을 소개합니다. 편집은 신중하게 선택된 방향을 따라 임베딩을 조작함으로써 적용되며, 이 방향은 대상 속성의 강도를 제어합니다. 이러한 방향을 식별하기 위해, 우리는 희소 자동 인코더(Sparse Autoencoder, SAE)를 사용하며, 이의 희소 잠재 공간은 의미적으로 격리된 차원을 드러냅니다. 우리의 방법은 확산 과정을 수정하지 않고 텍스트 임베딩에 직접 작용하므로, 모델에 구애받지 않으며 다양한 이미지 합성 백본에 광범위하게 적용 가능합니다. 실험 결과, 이 방법은 다양한 속성과 도메인에 걸쳐 직관적이고 효율적인 조작을 연속적 제어와 함께 가능하게 함을 보여줍니다.
대규모 언어 모델(LLMs)은 최근 오디오-비주얼 음성 인식(AVSR)에서 강력한 잠재력을 보여주었지만, 높은 계산 요구량과 토큰 세분화에 대한 민감도로 인해 자원이 제한된 환경에서의 실용성이 제한되고 있습니다. 토큰 압축 방법은 추론 비용을 줄일 수 있지만, 사전에 압축률을 고정해야 하고 단일 고정 길이 출력을 생성하기 때문에 추론 시 정보 밀도와 효율성 간의 균형을 유연하게 조정할 수 없습니다. 마트료시카 표현 학습(MRL)은 이를 해결하기 위해 단일 모델이 여러 토큰 세분화 수준에서 작동할 수 있도록 하여 압축률을 동적으로 조정할 수 있게 합니다. 그러나 현재의 MRL 기반 방법은 훈련 중 각 스케일을 독립적으로 처리하기 때문에 스케일 간 일반화, 높은 압축에서의 견고성, 그리고 해석 가능성이 제한됩니다. 이러한 한계를 극복하기 위해, 우리는 AVSR을 위한 MRL 기반 LLM에 희소 Mixture-of-Experts(MoE)를 통합한 새로운 프레임워크인 MoME(Mixture of Matryoshka Experts)를 제안합니다. MoME는 고정된 LLM에 top-k 라우팅 및 공유 전문가를 추가하여 스케일과 모달리티 간 동적 용량 할당을 가능하게 합니다. 공유 라우터는 세분화 수준 간 일관된 전문가 활성화를 촉진하여 압축된 시퀀스가 낮은 압축에서 학습된 표현의 이점을 얻을 수 있도록 합니다. LRS2와 LRS3에 대한 실험 결과, MoME는 AVSR, ASR, VSR 작업에서 최첨단 성능을 달성하면서도 상당히 적은 매개변수를 요구하고 노이즈 하에서도 견고성을 유지함을 보여줍니다. MoME는 MRL의 적응성과 MoE의 효율성을 통합하여 자원 인식 음성 인식을 위한 확장 가능하고 해석 가능한 솔루션을 제공합니다.
강화 학습(Reinforcement Learning, RL)은 대규모 언어 모델(Large Language Models, LLMs)의 추론 능력을 향상시키는 데 핵심적인 역할을 하고 있습니다. 그러나 Group Relative Policy Optimization(GRPO)과 같은 온-정책(on-policy) 알고리즘은 초기 학습 단계에서 어려움을 겪는 경우가 많습니다: 저품질 롤아웃(rollout)으로 인한 노이즈가 포함된 그래디언트는 불안정한 업데이트와 비효율적인 탐색을 초래합니다. 본 연구에서는 이러한 한계를 해결하기 위해 Slow-Fast Policy Optimization(SFPO)이라는 간단하면서도 효율적인 프레임워크를 제안합니다. SFPO는 각 단계를 세 단계로 분해합니다: 동일한 배치에 대한 짧은 빠른 내부 단계 트래젝토리, 오프-정책 드리프트(off-policy drift)를 제어하기 위한 재배치 메커니즘, 그리고 최종적인 느린 보정 단계입니다. 이 '업데이트 전 재배치' 설계는 목적 함수와 롤아웃 프로세스를 변경하지 않고 유지하므로, SFPO는 기존의 정책 그래디언트 파이프라인과 플러그-호환 가능합니다. 광범위한 실험을 통해 SFPO가 안정성을 개선하고, 롤아웃 횟수를 줄이며, 추론 RL 학습의 수렴 속도를 가속화함을 입증했습니다. 특히, 수학 추론 벤치마크에서 SFPO는 GRPO 대비 평균 2.80점 더 높은 성능을 보였습니다. 또한 GRPO의 최고 정확도에 도달하기 위해 최대 4.93회 적은 롤아웃과 4.19배 단축된 실제 시간을 달성했습니다.
유창한 음성 간 상호작용을 위해서는 사용자가 말을 마쳤을 때를 신뢰할 수 있고 낮은 지연 시간으로 탐지하는 것이 필요합니다. 기존의 오디오 무음 종료 탐지기는 수백 밀리초의 지연을 추가하며, 망설임이나 언어 특수 현상에서 실패합니다. 우리는 실시간 에이전트를 위한 태국어 텍스트 전용 턴 종료(EOT) 탐지에 대한 첫 체계적인 연구를 제시합니다. 우리는 컴팩트한 LLM의 제로샷 및 퓨샷 프롬프팅과 경량 트랜스포머의 지도 미세 조정을 비교합니다. YODAS 코퍼스의 자막과 태국어 특유의 언어적 단서(예: 문장 종결 어미)를 사용하여, EOT를 토큰 경계에 대한 이진 결정으로 공식화합니다. 우리는 정확도와 지연 시간 간의 명확한 트레이드오프를 보고하며, 공개 가능한 구현 계획을 제공합니다. 이 연구는 태국어 기준선을 확립하고, 소형 미세 조정 모델이 온디바이스 에이전트에 적합한 즉각적인 EOT 결정을 제공할 수 있음을 입증합니다.
다국어 자동 음성 인식(ASR)의 발전에도 불구하고, 일상 대화에서 흔히 관찰되는 언어 간 혼용(code-switching, CS)은 여전히 심각하게 연구가 부족한 과제로 남아 있습니다. 본 논문에서는 한국어-영어 코드 스위칭을 위한 첫 번째 글로벌 평가 프레임워크인 HiKE(Hierarchical Korean-English code-switching benchmark)를 소개합니다. HiKE는 다국어 ASR 모델의 정밀한 평가 수단을 제공하고 해당 분야의 연구를 촉진하기 위해 설계되었습니다. 제안된 프레임워크는 다양한 주제에 걸친 고품질의 자연스러운 CS 데이터를 포함할 뿐만 아니라, 세심한 외래어 레이블과 계층적 CS 수준(단어, 구, 문장) 레이블링 체계를 제공하여 모델이 각각의 코드 스위칭 수준을 처리하는 능력을 체계적으로 평가할 수 있도록 합니다. 다양한 다국어 ASR 모델의 평가와 미세 조정(fine-tuning) 실험을 통해, 대부분의 다국어 ASR 모델이 초기에는 CS-ASR에 어려움을 겪지만, CS 데이터를 사용한 미세 조정을 통해 이 능력을 활성화할 수 있음을 입증합니다. HiKE는 https://github.com/ThetaOne-AI/HiKE에서 이용 가능할 예정입니다.
자연어 질문을 SQL 쿼리로 변환하는 작업(Text-to-SQL)은 비전문가 사용자들이 관계형 데이터베이스와 상호작용할 수 있게 해주며, 데이터에 대한 자연어 인터페이스의 핵심 과제로 오랫동안 자리 잡아 왔습니다. WikiSQL 데이터셋은 초기 NL2SQL 연구에서 중요한 역할을 했지만, 대소문자 불일치, 데이터 타입 불일치, 구문 오류, 그리고 답변이 없는 질문 등의 구조적 및 주석 문제로 인해 사용이 줄어들었습니다. 우리는 LLM 시대를 위해 설계된 WikiSQL의 체계적인 개정 및 변환인 LLMSQL을 소개합니다. 이러한 오류들을 분류하고, 자동화된 방법을 통해 정리 및 재주석 작업을 수행했습니다. 이러한 개선의 영향을 평가하기 위해, Gemma 3, LLaMA 3.2, Mistral 7B, gpt-oss 20B, Phi-3.5 Mini, Qwen 2.5, OpenAI o4-mini, DeepSeek R1 등을 포함한 여러 대형 언어 모델(LLM)을 평가했습니다. LLMSQL은 단순한 업데이트가 아닌, LLM에 최적화된 벤치마크로 소개됩니다: 원래의 WikiSQL이 입력에서 토큰을 선택하는 포인터 네트워크 모델을 위해 설계된 반면, LLMSQL은 깔끔한 자연어 질문과 완전한 SQL 쿼리를 일반 텍스트로 제공함으로써, 현대의 자연어-to-SQL 모델을 위한 직관적인 생성과 평가를 가능하게 합니다.
확산 기반 대형 언어 모델(dLLMs)은 데이터 분포 내의 극단적인 의존성을 유연하게 모델링하도록 학습되지만, 추론 시점에 이 정보를 최적으로 활용하는 방법은 여전히 미해결 문제로 남아 있습니다. 본 연구에서 우리는 이러한 모델의 흥미로운 특성을 발견했습니다: 텍스트 데이터로 학습된 dLLMs는 암묵적으로 준자기회귀 전문가들의 혼합을 학습하며, 서로 다른 생성 순서가 각기 다른 특화된 행동 양상을 드러냅니다. 우리는 일반적으로 사용되는 단일 고정 추론 스케줄에 의존하는 것이 이 잠재 앙상블을 활용하지 못해 성능을 저하시킨다는 것을 보여줍니다. 이를 해결하기 위해, 우리는 HEX(테스트 시점 스케일링을 위한 숨겨진 준자기회귀 전문가)라는 훈련이 필요 없는 추론 방법을 제안합니다. HEX는 다양한 블록 크기의 생성 경로에 대해 다수결 투표를 수행함으로써, 단일 고정 스케줄과 관련된 실패 모드를 견고하게 피합니다. GSM8K와 같은 추론 벤치마크에서 HEX는 정확도를 최대 3.56배(24.72%에서 88.10%로) 향상시키며, top-K 마진 추론 및 GRPO와 같은 특화된 미세 조정 방법을 추가 훈련 없이 능가합니다. HEX는 MATH 벤치마크에서도 16.40%에서 40.00%로, ARC-C의 과학적 추론에서 54.18%에서 87.80%로, TruthfulQA에서 28.36%에서 57.46%로 상당한 성능 향상을 보여줍니다. 우리의 결과는 확산 기반 LLMs(dLLMs)에서 테스트 시점 스케일링을 위한 새로운 패러다임을 제시하며, 마스킹이 수행되는 순서가 추론 중 성능을 결정하는 데 중요한 역할을 한다는 것을 밝혀냅니다.
대형 언어 모델(LLM) 에이전트가 실세계 상호작용을 통해 전략을 적응하고 개선하는 자기 진화 능력을 점점 더 많이 갖추게 됨에 따라, 그들의 장기적 신뢰성은 중요한 문제로 대두되고 있습니다. 우리는 자기 진화형 LLM 에이전트에 고유한 배포 후 위험인 '정렬 전이 과정(Alignment Tipping Process, ATP)'을 식별합니다. 훈련 시점의 실패와 달리, ATP는 지속적인 상호작용이 에이전트가 훈련 중에 확립된 정렬 제약을 버리고 강화된 자기 이익 전략을 선호하도록 유도할 때 발생합니다. 우리는 ATP를 두 가지 상호보완적인 패러다임을 통해 정형화하고 분석합니다: 반복적인 높은 보상 편차가 개별 행동 표류를 유도하는 '자기 이익 탐색(Self-Interested Exploration)'과, 이탈 행동이 다중 에이전트 시스템 전반에 확산되는 '모방 전략 확산(Imitative Strategy Diffusion)'입니다. 이러한 패러다임을 바탕으로, 우리는 제어 가능한 테스트베드를 구축하고 Qwen3-8B 및 Llama-3.1-8B-Instruct를 벤치마킹합니다. 우리의 실험은 정렬 이점이 자기 진화 하에서 빠르게 침식되며, 초기에 정렬된 모델이 비정렬 상태로 수렴하는 것을 보여줍니다. 다중 에이전트 설정에서는 성공적인 위반이 빠르게 확산되어 집단적 비정렬로 이어집니다. 또한, 현재의 강화 학습 기반 정렬 방법은 정렬 전이에 대해 취약한 방어만을 제공합니다. 이러한 결과들은 LLM 에이전트의 정렬이 정적 특성이 아니라 취약하고 동적인 특성이며, 배포 중 피드백에 의해 촉진되는 쇠퇴에 취약함을 보여줍니다. 우리의 데이터와 코드는 https://github.com/aiming-lab/ATP에서 확인할 수 있습니다.
전문가 혼합(Mixture-of-Experts, MoE) 아키텍처는 현대의 대규모 언어 모델(LLM)을 확장하는 데 핵심적인 역할을 하고 있지만, 이들의 희소 라우팅 동작이 다국어 데이터에 어떻게 반응하는지에 대해서는 거의 알려져 있지 않습니다. 본 연구에서는 병렬 다국어 데이터셋을 사용하여 전문가 라우팅 패턴을 분석하고, 계층별로 매우 해석 가능한 현상을 제시합니다. 우리는 MoE 모델이 초기 및 후기 디코더 계층에서는 언어별로 토큰을 라우팅하지만, 중간 계층에서는 상당한 교차 언어 라우팅 정렬을 보이며, 이는 밀집 LLM에서 관찰된 매개변수 공유 경향을 반영한다는 것을 발견했습니다. 특히, 특정 언어에서 모델의 성능과 해당 언어의 토큰이 영어와 유사하게 라우팅되는 정도 사이에 명확하고 강력한 상관관계가 있음을 밝혔습니다. 상관관계를 넘어, 우리는 추론 시 교차 언어 라우팅 정렬을 유도하는 개입을 탐구합니다. 우리는 영어에서 자주 활성화되는 중간 계층 작업 전문가를 촉진하여 라우터를 조종하는 방법을 소개하고, 이를 통해 다국어 성능을 성공적으로 향상시켰습니다. 이러한 1-2%의 성능 향상은 두 가지 평가 작업, 세 가지 모델, 그리고 15개 이상의 언어에서 매우 일관되게 나타났으며, 특히 이러한 간단한 개입이 철저히 훈련된 최첨단 LLM의 라우터를 재정의한다는 점을 고려할 때 주목할 만합니다. 반면, 중간 계층 외부에서의 개입이나 다국어 전문가를 대상으로 한 개입은 오히려 성능 저하를 초래했습니다. 종합적으로, 우리는 MoE가 비영어 텍스트를 처리하는 방식을 설명하는 여러 발견을 제시하고, 모든 언어에서 언어-보편적 전문가를 활용하는 모델의 능력이 일반화를 제한한다는 것을 입증했습니다.
인간은 업무를 수행하면서 학습하는 데 능숙합니다: 우리는 직면한 과제를 해결하는 방법을 진행하면서 배웁니다. 모델도 같은 방식으로 학습할 수 있을까요? 우리는 특정 과제에 맞춘 커리큘럼을 구성하고, 이를 테스트 시간 커리큘럼(Test-Time Curriculum, TTC-RL)이라 명명하며, 강화 학습을 적용하여 모델을 대상 과제에 대해 계속 훈련시키는 에이전트를 제안합니다. 테스트 시간 커리큘럼은 대규모의 사용 가능한 훈련 데이터 풀에서 가장 과제와 관련된 데이터를 자동으로 선택함으로써 시간이 많이 소요되는 인간의 데이터 큐레이션을 피합니다. 우리의 실험은 테스트 시간 커리큘럼을 통한 강화 학습이 다양한 평가와 모델에 걸쳐 대상 과제에서 모델의 성능을 꾸준히 향상시킨다는 것을 보여줍니다. 특히, 도전적인 수학 및 코딩 벤치마크에서 TTC-RL은 Qwen3-8B의 pass@1을 AIME25에서 약 1.8배, CodeElo에서 2.1배 향상시켰습니다. 또한, TTC-RL은 초기 모델에 비해 성능 상한선을 크게 높였으며, AIME25에서 pass@8을 40%에서 62%로, CodeElo에서 28%에서 43%로 증가시켰습니다. 우리의 연구 결과는 테스트 시간 커리큘럼이 테스트 시간 스케일링 패러다임을 테스트 시간 동안 수천 개의 과제 관련 경험에 대한 지속적인 훈련으로 확장하는 데 있어 잠재력을 보여줍니다.
시스템이 초지능으로 나아가는 추세 속에서, 에이전트가 자신의 설계의 모든 측면에서 자기 개선을 이룰 수 있다는 것은 자연스러운 모델링 전제로 여겨진다. 우리는 이를 다섯 가지 축으로 분해하고 의사결정 계층을 통해 인센티브와 학습 행동을 분리하여 각 축을 독립적으로 분석함으로써 공식화한다. 우리의 주요 결과는 유틸리티와 학습 간의 긴장, 즉 자기 수정 시스템에서의 구조적 갈등을 식별하고 소개한다. 이 갈등은 즉각적이거나 기대되는 성능을 개선하는 유틸리티 주도의 변화가 신뢰할 수 있는 학습과 일반화를 위한 통계적 전제 조건을 훼손할 수도 있다는 점에서 발생한다. 우리의 연구 결과는 정책 도달 가능 모델 패밀리가 균일하게 용량 제한을 받는 경우에만 분포 독립적 보장이 유지됨을 보여준다. 용량이 무한히 증가할 수 있는 경우, 유틸리티 합리적인 자기 변화는 학습 가능한 작업을 학습 불가능하게 만들 수 있다. 실무에서 일반적으로 사용되는 표준 가정 하에서, 이러한 축들은 동일한 용량 기준으로 축약되어 안전한 자기 수정을 위한 단일 경계를 제공한다. 여러 축에 걸친 수치 실험은 학습 가능성을 보존하는 우리가 제안한 이중 게이트 정책과 파괴적인 유틸리티 정책을 비교함으로써 이론을 검증한다.
대형 언어 모델(LLMs)은 어휘적, 의미적, 그리고 문체적으로 동질화된 텍스트를 생성하는 경향이 있다. 이는 시간이 지남에 따라 접근 가능한 정보의 범위가 축소되는 지식 붕괴(knowledge collapse)의 위험을 초래한다. 기존의 동질화 연구는 폐쇄형 객관식 설정이나 모호한 의미적 특징에 초점을 맞추는 데 한계가 있으며, 시간과 문화적 맥락에 따른 추세를 살펴보지 않는다. 이를 극복하기 위해, 우리는 LLM 출력에서 실제 세계 주장의 변이를 측정하는 새로운 방법론을 제시하며, 이를 통해 LLM 지식 붕괴에 대한 광범위한 실증 연구를 수행한다. 우리는 27개의 LLM, 12개 국가를 아우르는 155개 주제, 그리고 실제 사용자 채팅에서 수집한 200개의 프롬프트 변형을 테스트한다. 연구 주제에 대해, 우리는 최신 모델이 더 다양한 주장을 생성하는 경향이 있지만 거의 모든 모델이 기본 웹 검색보다 인식론적 다양성이 낮다는 것을 보여준다. 모델 크기는 인식론적 다양성에 부정적인 영향을 미치는 반면, 검색 증강 생성(RAG)은 긍정적인 영향을 미치지만, RAG의 개선 효과는 문화적 맥락에 따라 다르다는 것을 발견했다. 마지막으로, 전통적인 지식 소스(위키백과)와 비교했을 때, 국가별 주장은 현지 언어보다 영어를 더 많이 반영하며, 이는 인식론적 표현의 격차를 강조한다.
우리는 완전히 분산된 컴퓨팅을 통해 사전 학습된 최초의 공개 확산 모델인 Paris를 소개합니다. Paris는 중앙 집중식 인프라 없이도 고품질의 텍스트-이미지 생성을 달성할 수 있음을 입증합니다. Paris는 연구 및 상업적 사용을 위해 공개되었습니다. Paris를 구현하기 위해 우리는 분산 확산 학습 프레임워크를 처음부터 구축해야 했습니다. 이 모델은 8개의 전문 확산 모델(각각 129M-605M 파라미터)로 구성되어 있으며, 그레이디언트, 파라미터 또는 중간 활성화 동기화 없이 완전히 독립적으로 학습되었습니다. 수천 개의 GPU 간에 동기화된 그레이디언트 업데이트를 요구하는 대신, 데이터를 의미적으로 일관된 클러스터로 분할하여 각 전문가가 자신의 부분 집합을 독립적으로 최적화하면서 전체 분포를 근사하도록 했습니다. 경량 트랜스포머 라우터는 추론 시 적절한 전문가를 동적으로 선택하여 중앙 집중식 기준선과 비슷한 생성 품질을 달성합니다. 동기화를 제거함으로써 특수 상호 연결 없이도 이기종 하드웨어에서 학습이 가능합니다. 실증적 검증을 통해 Paris의 분산 학습이 대규모 확산 모델을 위한 전용 GPU 클러스터 요구 사항을 제거하면서도 생성 품질을 유지함을 확인했습니다. Paris는 이전의 분산 기준선보다 14배 적은 학습 데이터와 16배 적은 컴퓨팅 자원을 사용하여 이를 달성했습니다.
대규모 언어 모델(LLM)의 프라이버시 위험에 대한 논의는 훈련 데이터의 문자 그대로의 암기(verbatim memorization)에 지나치게 초점을 맞추는 반면, 더 즉각적이고 확장 가능한 다양한 프라이버시 위협들은 여전히 충분히 탐구되지 않고 있습니다. 이 포지션 페이퍼는 LLM 시스템의 프라이버시 문제가 훈련 데이터 추출을 훨씬 넘어서, 데이터 수집 관행, 추론 시점의 컨텍스트 유출, 자율 에이전트 기능, 그리고 딥 추론 공감을 통한 감시의 민주화 등 다양한 위험을 포함한다고 주장합니다. 우리는 데이터 수집부터 배포까지 LLM 생명주기 전반에 걸친 프라이버시 위험의 포괄적인 분류체계를 제시하고, 사례 연구를 통해 현재의 프라이버시 프레임워크가 이러한 다면적인 위협을 해결하지 못하는 방식을 보여줍니다. 2016년부터 2025년까지 주요 학회에서 발표된 1,322편의 AI/ML 프라이버시 논문에 대한 종단적 분석을 통해, 기술 연구에서 암기가 과도한 관심을 받는 반면, 가장 시급한 프라이버시 피해는 다른 곳에 있으며, 현재의 기술적 접근 방식이 거의 효과를 보지 못하고 실현 가능한 해결책이 여전히 불분명하다는 사실을 밝혔습니다. 우리는 연구 커뮤니티가 LLM 프라이버시를 접근하는 방식에 근본적인 전환을 요구하며, 현재의 기술적 해결책에 대한 좁은 초점을 넘어서 이러한 신흥 위협의 사회기술적 특성을 다루는 학제간 접근 방식을 채택할 것을 촉구합니다.
LLM 기반 다중 에이전트 시스템은 계획 수립, 도구 사용, 역할 조정에서 뛰어난 성능을 보이지만, 개방성과 상호작용 복잡성으로 인해 탈옥(jailbreak), 프롬프트 주입(prompt-injection), 적대적 협업(adversarial collaboration) 등의 위험에 노출됩니다. 기존의 방어 기법은 두 가지 접근 방식으로 나뉩니다: (i) 각 에이전트가 실행 전에 안전하지 않은 명령을 사전 필터링하는 자기 검증(self-verification)과 (ii) 행동을 감시하는 외부 가드 모듈(external guard modules). 전자는 단독 에이전트가 에이전트 간의 안전하지 않은 연쇄 행위와 위임으로 인한 위험을 탐지하기에 충분한 역량이 부족하여 종종 성능이 떨어지며, 후자는 시스템 오버헤드를 증가시키고 단일 장애점(single-point-of-failure)을 생성합니다. 일단 침해되면 시스템 전체의 안전이 무너지며, 더 많은 가드를 추가하면 비용과 복잡성이 악화됩니다. 이러한 문제를 해결하기 위해, 우리는 안전성을 작업 에이전트 내부에 내재화하는 공진화 다중 에이전트 강화 학습(co-evolutionary multi-agent reinforcement learning) 프레임워크인 AdvEvo-MARL을 제안합니다. AdvEvo-MARL은 외부 가드에 의존하지 않고, 적대적 학습 환경에서 진화하는 탈옥 프롬프트를 합성하는 공격자와 자신의 임무를 수행하면서 공격에 저항하도록 훈련된 방어자(작업 에이전트)를 공동으로 최적화합니다. 학습 안정화와 협력을 촉진하기 위해, 우리는 이점 추정(advantage estimation)을 위한 공공 기준선(public baseline)을 도입합니다: 동일한 기능 그룹 내의 에이전트는 그룹 수준의 평균 수익 기준선을 공유하여, 더 낮은 분산의 업데이트와 강력한 그룹 내 조정을 가능하게 합니다. 대표적인 공격 시나리오에서 AdvEvo-MARL은 공격 성공률(ASR)을 20% 이하로 유지한 반면, 기준선은 최대 38.33%에 달했으며, 작업 정확도는 유지되거나 때로는 개선되었습니다(추론 작업에서 최대 +3.67%). 이러한 결과는 추가적인 가드 에이전트나 시스템 오버헤드 없이도 안전성과 유용성을 동시에 개선할 수 있음을 보여줍니다.
멀티모달 LLM 기반 에이전트가 자율성과 일반화 능력에서 계속 발전함에 따라, 정적 데이터셋 기반 평가는 동적 환경과 다양한 작업에서의 진정한 역량을 적절히 평가하기에 더 이상 충분하지 않습니다. 기존의 LLM 기반 합성 데이터 방법은 주로 LLM 훈련과 평가를 위해 설계되었으며, 따라서 도구 사용과 상호작용 능력이 필요한 에이전트 작업에 직접 적용할 수 없습니다. 최근 연구에서 LLM을 이용한 자동 에이전트 작업 생성을 탐구했지만, 대부분의 노력은 텍스트나 이미지 분석에 국한되어 있으며, 웹 환경에서의 다단계 상호작용을 체계적으로 모델링하지 못했습니다. 이러한 문제를 해결하기 위해, 우리는 Graph2Eval을 제안합니다. 이는 지식 그래프 기반 프레임워크로, 멀티모달 문서 이해 작업과 웹 상호작용 작업을 자동으로 생성하여 에이전트의 추론, 협업, 상호작용 능력을 포괄적으로 평가할 수 있게 합니다. 우리의 접근 방식에서는 다중 소스 외부 데이터로부터 구축된 지식 그래프가 작업 공간으로 사용되며, 서브그래프 샘플링, 작업 템플릿, 메타 경로를 통해 의미 관계를 구조화된 멀티모달 작업으로 변환합니다. 노드 도달 가능성, LLM 점수화, 유사성 분석을 기반으로 한 다단계 필터링 파이프라인을 적용하여 생성된 작업의 품질과 실행 가능성을 보장합니다. 또한, Graph2Eval은 단일 에이전트, 다중 에이전트, 웹 에이전트와 같은 다양한 에이전트 유형에 대한 종단 간 평가를 지원하며, 추론, 협업, 상호작용 능력을 측정합니다. 우리는 이 프레임워크를 Graph2Eval-Bench로 구체화했는데, 이는 문서 이해와 웹 상호작용 시나리오를 아우르는 1,319개의 작업으로 구성된 정제된 데이터셋입니다. 실험 결과, Graph2Eval은 에이전트와 모델의 성능을 구분하는 작업을 효율적으로 생성하며, 다양한 설정에서의 추론, 협업, 웹 상호작용 격차를 드러내고 에이전트 평가에 대한 새로운 관점을 제공합니다.
거듭제곱 변환(Power transform)은 데이터를 더 가우시안 분포에 가깝게 만들기 위해 널리 사용되는 파라미터 기반 기법으로, 통계 분석과 머신러닝의 전처리 단계에서 광범위하게 활용됩니다. 그러나 우리는 거듭제곱 변환의 직접적인 구현이 심각한 수치적 불안정성을 겪으며, 이로 인해 잘못된 결과나 심지어 시스템 충돌을 초래할 수 있음을 발견했습니다. 본 논문에서는 이러한 불안정성의 원인을 포괄적으로 분석하고 효과적인 해결 방안을 제안합니다. 또한, 우리는 거듭제곱 변환을 연합 학습(Federated Learning) 환경으로 확장하여, 이러한 맥락에서 발생하는 수치적 및 분포적 문제를 해결합니다. 실제 데이터셋에 대한 실험을 통해 우리의 방법이 기존 접근법에 비해 안정성을 크게 개선하면서도 효과적이고 견고함을 입증합니다.
Receiver Operating Characteristic(ROC) 및 Precision-Recall(PR) 곡선은 머신러닝 분류기의 성능을 평가하는 데 있어 기본적인 도구로, 진양성률 대 위양성률(ROC) 또는 정밀도 대 재현율(PR) 간의 상충 관계에 대한 세부적인 통찰력을 제공합니다. 그러나 데이터가 여러 클라이언트에 분산되어 있는 연합 학습(Federated Learning, FL) 시나리오에서는, 프라이버시 및 통신 제약으로 인해 이러한 곡선을 계산하는 것이 어려운 문제로 대두됩니다. 특히, 서버는 중앙 집중식 환경에서 ROC 및 PR 곡선을 계산하는 데 사용되는 원시 예측 점수와 클래스 레이블에 접근할 수 없습니다. 본 논문에서는 분산 차등 프라이버시 하에서 예측 점수 분포의 분위수를 추정하여 연합 학습 환경에서 ROC 및 PR 곡선을 근사하는 새로운 방법을 제안합니다. 우리는 실제 곡선과 추정 곡선 간의 면적 오차(Area Error, AE)에 대한 이론적 한계를 제공하며, 근사 정확도, 프라이버시, 통신 비용 간의 상충 관계를 입증합니다. 실제 데이터셋에 대한 실험 결과는 우리의 방법이 최소한의 통신과 강력한 프라이버시 보장을 통해 높은 근사 정확도를 달성함으로써, 연합 시스템에서 프라이버시 보존 모델 평가를 실용적으로 수행할 수 있음을 보여줍니다.
우리는 코드 생성 연구를 세계 모델(World Model)과 함께 발전시키기 위해 320억 개의 파라미터를 가진 오픈 가중치 대형 언어 모델(LLM)인 Code World Model(CWM)을 공개합니다. 정적 코드만으로 학습하는 것을 넘어 코드 이해를 개선하기 위해, 우리는 CWM을 Python 인터프리터와 에이전트 기반 Docker 환경에서 수집된 대량의 관찰-행동 궤적 데이터로 미드 트레이닝(mid-train)하고, 검증 가능한 코딩, 수학, 다중 턴 소프트웨어 엔지니어링 환경에서 광범위한 다중 작업 추론 강화 학습(RL)을 수행했습니다. CWM은 연구자들이 계산 환경에서 추론과 계획을 통해 코드 생성을 개선하기 위해 세계 모델링이 제공하는 기회를 탐구할 수 있는 강력한 테스트베드를 제공합니다. 우리는 세계 모델이 에이전트 기반 코딩에 어떻게 도움을 줄 수 있는지, Python 코드 실행을 단계별로 시뮬레이션하는 방법을 가능하게 하는지, 그리고 이러한 시뮬레이션이 추론에 어떻게 이점을 제공할 수 있는지에 대한 초기 결과를 제시합니다. CWM은 최대 131,000 토큰의 컨텍스트 크기로 학습된 밀집(dense) 디코더 전용 LLM입니다. 세계 모델링 능력과 별개로, CWM은 일반적인 코딩 및 수학 작업에서 강력한 성능을 보입니다: SWE-bench Verified에서 테스트 시간 스케일링을 적용한 pass@1 점수 65.8%, LiveCodeBench에서 68.6%, Math-500에서 96.6%, AIME 2024에서 76.0%를 달성했습니다. 코드 세계 모델링에 대한 추가 연구를 지원하기 위해, 우리는 미드 트레이닝, SFT(Supervised Fine-Tuning), RL 이후의 모델 체크포인트를 공개합니다.