번역이 포함된 일일 선별된 AI 연구 논문
검증 가능한 보상을 활용한 강화 학습(RLVR)은 일반적으로 이점을 추정하고 정책 업데이트를 안정화하기 위해 그룹 샘플링에 기반합니다. 실제로는 계산적 한계로 인해 큰 그룹 크기를 사용하는 것이 불가능하며, 이는 학습이 이미 발생 확률이 높은 궤적에 편향되게 만듭니다. 작은 그룹은 혼합된 보상을 포함하면서도 희귀 정답 궤적을 놓치는 경우가 많아, 확률을 일반적인 해결책에 집중시키게 됩니다. 우리는 업데이트가 희귀 정답 모드를 놓칠 확률을 그룹 크기의 함수로 유도하여 비단조적 행동을 보여주고, 업데이트가 정답 집합 내에서 질량을 어떻게 재분배하는지 특성화합니다. 이를 통해 샘플링되지 않은 정답 질량이 전체 정답 질량이 증가함에도 줄어들 수 있음을 밝힙니다. 이러한 분석에 동기를 부여하여, 우리는 Focal loss에서 영감을 받아 높은 성공률을 보이는 프롬프트에 대한 업데이트 가중치를 낮추는 난이도 인식 이점 스케일링 계수를 제안합니다. 이 경량 수정 사항은 GRPO, DAPO, CISPO와 같은 그룹 상대적 RLVR 알고리즘에 직접 통합될 수 있습니다. Qwen2.5-7B 모델을 대상으로 인-도메인 및 아웃-오브-도메인 벤치마크에서 우리의 방법은 그룹 크기나 계산 비용을 증가시키지 않으면서 pass@1 성능을 유지하거나 개선하고, pass@256을 GRPO 기준 64.1 → 70.3, DAPO 기준 69.3 → 72.5, CISPO 기준 73.2 → 76.8로 향상시켰습니다.
희소 오토인코더(SAE)는 신경망 표현을 해석하는 강력한 도구이지만, 오디오 분야에서의 활용은 아직 충분히 연구되지 않았습니다. 우리는 Whisper와 HuBERT의 모든 인코더 레이어에 걸쳐 SAE를 학습시키고, 그 안정성과 해석 가능성에 대한 포괄적인 평가를 제공하며 실제 활용 가능성을 보여줍니다. 무작위 시드에 관계없이 50% 이상의 특징이 일관되게 유지되며 재구성 품질도 보존됩니다. SAE 특징은 일반적인 음향 및 의미 정보와 환경噪音, 발화 외 소리(예: 웃음, 속삭임) 같은 특정 사건들을 효과적으로 포착 및 분리하며, 특정 개념을 삭제하는 데 19-27%의 특징만 제거하면 됩니다. 특징 조정을 통해 Whisper의 오류 음성 감지를 70% 줄이면서 WER 증가는 미미하여 실제 적용 가능성을 입증했습니다. 마지막으로, SAE 특징이 음성 인식 중 인간의 뇌파(EEG) 활동과 상관관계를 보여 인간의 신경 처리 과정과 일치함을 확인했습니다. 코드와 체크포인트는 https://github.com/audiosae/audiosae_demo에서 이용할 수 있습니다.
우리는 수동적 질의응답에서 능동적이고 임상 수준의 의사결정 지원으로 패러다임을 전환하기 위해 설계된 의료 강화 대규모 언어 모델 Baichuan-M3를 소개한다. 기존 시스템의 개방형 상담에서 나타나는 한계를 해결하기 위해 Baichuan-M3는 의사의 체계적인 업무 흐름을 모델링하기 위한 전문화된 훈련 파이프라인을 활용한다. 주요 능력으로는 (i) 모호함 해결을 위한 능동적 정보 획득, (ii) 흩어진 증거를 일관된 진단으로 통합하는 장기적 추론, (iii) 사실적 신뢰성을 보장하기 위한 적응형 환각 억제가 있다. 실증 평가 결과, Baichuan-M3는 새로 도입된 HealthBench, HealthBench-Hallu 및 ScanBench에서 최첨단 성능을 달성하며, 임상 문의, 자문 및 안전성 측면에서 GPT-5.2를 크게 능가하는 것으로 나타났다. 해당 모델은 https://huggingface.co/collections/baichuan-inc/baichuan-m3에서 공개적으로 이용 가능하다.
대규모 언어 모델(LLM)의 급속한 발전은 복잡한 환경을 탐색할 수 있는 자율 에이전트의 개발을 촉진해 왔습니다. 그러나 기존 평가는 주로 연역적 패러다임을 채택하고 있으며, 에이전트는 제한된 계획 범위 내에서 명시적으로 제공된 규칙과 정적 목표에 따라 작업을 실행합니다. 중요한 것은, 이 방식은 에이전트가 경험으로부터 잠재적인 전이 법칙을 자율적으로 발견해야 하는 귀납적 필요성을 간과한다는 점이며, 이는 에이전트의 예견 능력을 가능하게 하고 전략적 일관성을 유지하는 초석이 됩니다. 이러한 격차를 해소하기 위해 우리는 에이전트 평가를 장기적, 능동적, 귀납적 상호작용에 재초점을 맞춘 OdysseyArena를 소개합니다. 우리는 추상적인 전이 역학을 구체적인 상호작용 환경으로 변환하는 네 가지 기본 요소를 공식화하고 구현합니다. 이를 기반으로 표준화된 벤치마킹을 위한 OdysseyArena-Lite를 구축하여 에이전트의 귀납적 효율성과 장기적 발견 능력을 측정하는 120개의 과제 세트를 제공합니다. 더 나아가 극단적인 상호작용 범위(예: 200단계 초과)에서 에이전트 안정성을 집중적으로 검증하는 OdysseyArena-Challenge를 도입합니다. 15개 이상의 주요 LLM에 대한 광범위한 실험을 통해 최첨단 모델조차 귀납적 시나리오에서 부족함을 보여주며, 복잡한 환경에서 자율적 발견을 추구하는 데 있어 중요한 병목 현상을 확인했습니다. 우리의 코드와 데이터는 https://github.com/xufangzhi/Odyssey-Arena에서 확인할 수 있습니다.
엔트로피는 대규모 언어 모델(LLM)이 생성하는 출력의 다양성을 측정하는 핵심 지표로 작동하며, 모델의 탐색 능력에 대한 유용한 통찰력을 제공합니다. 최근 연구들은 강화학습 미세 조정(RFT) 과정에서 탐색과 활용의 균형을 더 잘 맞추기 위해 엔트로피를 모니터링하고 조정하는 데 점차 초점을 맞추고 있지만, 이 과정에서의 엔트로피 역학에 대한 원칙적인 이해는 아직 충분히 연구되지 않았습니다. 본 논문에서는 RFT 과정에서의 엔트로피 역학을 분석하기 위한 이론적 프레임워크를 구축합니다. 이 프레임워크는 단일 로짓 업데이트 하에서 엔트로피 변화를 정량화하는 판별식으로부터 시작됩니다. 이 기초를 바탕으로 엔트로피 변화에 대한 1차 근사 표현식을 유도하며, 이는 그룹 상대 정책 최적화(GRPO)의 업데이트 공식으로 더 확장될 수 있습니다. 이론적 분석에서 도출된 추론과 통찰은 엔트로피 제어 방법의 설계에 영감을 주고, 기존 연구의 다양한 엔트로피 기반 방법을 해석하는 통합된 관점을 제공합니다. 우리는 분석의 주요 결론을 뒷받침하는 경험적 증거를 제시하고, 유도된 엔트로피-판별자 클리핑 방법의 효과성을 입증합니다. 본 연구는 RFT 훈련 역학에 대한 새로운 통찰을 제공함으로써 LLM 미세 조정 중 탐색-활용 균형을 최적화하기 위한 이론적 지원과 실용적인 전략을 마련합니다.
다양한 환경에서 행동의 결과를 시뮬레이션할 수 있는 능력은 규모 있는 일반 지능 에이전트 개발에 혁명을 일으킬 것입니다. 그러나 이러한 세계 역학, 특히 정밀 로봇 공학 작업을 모델링하는 것은 제한된 데이터 범위와 부족한 행동 레이블로 인해 상당한 어려움을 제기합니다. 이를 위해 우리는 44,000시간의 1인칭 인간 비디오로부터 다양한 상호작용과 정밀 제어를 학습하는 기초 세계 모델인 DreamDojo를 소개합니다. 우리의 데이터 조합은 일상적인 다양한 시나리오와 객체, 기술을 아우르는 세계 모델 사전 학습을 위한 역대 최대 규모의 비디오 데이터셋을 구성합니다. 행동 레이블 부족 문제를 해결하기 위해 우리는 연속 잠재 행동을 통합 프록시 행동으로 도입하여 레이블 없는 비디오로부터의 상호작용 지식 전이를 강화합니다. 소규모 목표 로봇 데이터에 대한 사후 학습 후, DreamDojo는 물리학에 대한 강력한 이해와 정밀한 행동 제어 능력을 입증합니다. 또한 우리는 DreamDojo를 10.81 FPS의 실시간 속도로 가속화하고 컨텍스트 일관성을 추가로 개선하는 증류 파이프라인을 고안했습니다. 우리의 연구는 실시간 원격 조작, 정책 평가, 모델 기반 계획을 포함하여 생성형 세계 모델 기반의 여러 중요한 응용 분야를 가능하게 합니다. 여러 까다로운 분포 외 벤치마크에 대한 체계적인 평가는 개방형 세계의 접촉이 풍부한 작업을 시뮬레이션하는 우리 방법의 중요성을 입증하며, 범용 로봇 세계 모델을 위한 길을 열어줍니다.
본 연구는 과학자와 언론인을 위한 음성-텍스트 변환 시스템 "Pisets"를 소개한다. 이 시스템은 Whisper 모델과 관련된 오인식과 허구적 생성(hallucination)을 최소화하면서 음성 인식 정확도를 향상시키기 위해 설계된 3단계 구성 요소 아키텍처를 기반으로 한다. 해당 아키텍처는 Wav2Vec2를 이용한 1차 인식, Audio Spectrogram Transformer(AST)를 통한 오인식 필터링, 그리고 Whisper를 활용한 최종 음성 인식으로 구성된다. 커리큘럼 학습 방법의 도입과 다양한 러시아어 음성 코퍼스의 활용으로 시스템의 성능이 크게 향상되었다. 또한, 향상된 불확실성 모델링 기법이 도입되어 음성 기록 품질의 추가 개선에 기여하였다. 제안된 접근법은 WhisperX와 일반 Whisper 모델 대비 다양한 음향 환경에서 긴 오디오 데이터의 강건한 기록 생성을 보장한다. "Pisets" 시스템의 소스 코드는 GitHub(https://github.com/bond005/pisets)에서 공개되어 있다.
대규모 언어 모델(LLM) 사전 학습에서 훈련 불안정성은 여전히 중요한 과제로 남아 있으며, 종종 갑작스러운 그래디언트 폭발로 나타나 상당한 계산 자원을 낭비하게 됩니다. 본 연구에서는 μP를 통해 확장된 5M 매개변수 NanoGPT 모델에서의 훈련 실패를 분석하며, 붕괴에 선행하는 두 가지 주요 현상을 확인했습니다: (1) 가중치 행렬의 안정성 계수(프로베니우스 놈의 제곱과 스펙트럴 놈의 제곱의 비율)의 급격한 감소, (2) 인접 계층 야코비안 간의 정렬도 증가. 우리는 이 두 조건이 함께 네트워크 깊이에 따른 기하급수적 그래디언트 놈 성장을 유발한다는 것을 이론적으로 증명합니다. 이러한 불안정성 메커니즘을 차단하기 위해, 안정성 계수를 복원하기 위해 주기적으로 행렬 부호 연산을 적용하는 새로운 옵티마이저인 MSign을 제안합니다. 5M에서 3B 매개변수에 이르는 모델을 대상으로 한 실험에서 MSign이 7.0% 미만의 계산 오버헤드로 훈련 실패를 효과적으로 방지함을 입증했습니다.
세계의 내부 모델링 — 이전 상태 X와 다음 상태 Y 간의 행동 Z 하에서의 전이를 예측하는 것 — 은 LLM과 VLM의 추론 및 계획 수립에 필수적입니다. 이러한 모델 학습에는 일반적으로 비용이 많이 드는 행동 레이블이 지정된 궤적이 필요합니다. 본 연구에서는 행동을 잠재 변수로 간주하고 순방향 세계 모델링(FWM) P_θ(Y|X,Z)과 역역학 모델링(IDM) Q_φ(Z|X,Y)을 교대로 수행함으로써 상태만으로 구성된 시퀀스로부터 학습하는 자기 개선 프레임워크인 SWIRL을 제안합니다. SWIRL은 두 단계를 반복합니다: (1) **변분 정보 최대화**: FWM을 업데이트하여 이전 상태가 주어졌을 때 잠재 행동과의 조건부 상호 정보를 최대화하는 다음 상태를 생성하며, 이는 식별 가능한 일관성을 촉진합니다. (2) **ELBO 최대화**: 관찰된 전이를 설명하도록 IDM을 업데이트하며, 효과적으로 좌표 상승을 수행합니다. 두 모델은 강화 학습(구체적으로 GRPO)을 통해 훈련되며, 고정된 반대 모델의 로그 확률을 보상 신호로 사용합니다. 우리는 두 업데이트에 대한 이론적 학습 가능성 보장을 제공하고, SWIRL을 여러 환경(단일 턴 및 다중 턴 오픈 월드 시각 역학 환경, 그리고 물리, 웹, 도구 호출을 위한 합성 텍스트 환경)에서 LLM과 VLM에 대해 평가합니다. SWIRL은 AURORABench에서 16%, ByteMorph에서 28%, WorldPredictionBench에서 16%, StableToolBench에서 14%의 성능 향상을 달성했습니다.
최근 추론 모델의 발전에 따라 연구 수준의 수학 문제에 대한 그럴듯한 해법 시도를 생성하는 것이 가능해질 수 있으나, 검증 과정은 여전히 병목 현상으로 작용하며 부족한 전문가 시간을 소모하고 있습니다. 우리는 의미 있는 해법이 충분한 방법론 수준의 정보를 포함해야 하며, 이를 관련 질문군에 적용했을 때 잘못된 해법보다 더 나은 하류 작업 성능을 산출해야 한다는 가설을 세웠습니다. 이 아이디어를 바탕으로 우리는 Consequence-Based Utility를 제안합니다. 이는 오라클이 없는 평가자로, 각 후보 해법을 검증 가능한 관련 문제를 해결하는 데 컨텍스트 내 예시로 활용했을 때의 가치를 테스트하여 점수를 매깁니다. 우리의 접근 방식은 연구 수준의 수학 문제로 구성된 새로운 데이터셋에서 평가되었으며, 각 문제에는 전문가가 작성한 해법 하나와 LLM이 생성한 아홀 개의 해법이 짝을 이룹니다. 주목할 점은 Consequence-Based Utility가 순위 지정 품질에서 보상 모델, 생성적 보상 모델, LLM 판단 모델을 지속적으로 능가했다는 것입니다. 구체적으로, GPT-OSS-120B의 경우 Acc@1이 67.2에서 76.3으로, AUC가 71.4에서 79.6으로 향상되었으며, GPT-OSS-20B에서도 유사하게 큰 AUC 향상(69.0에서 79.2로)을 보였습니다. 더 나아가, LLM 판단 모델과 비교했을 때 더 큰 솔버-평가자 간 성능 차이를 보였으며, 기본 솔버가 해결에 자주 실패하는 인스턴스에서도 더 강력한 정답-오답 구분 능력을 유지했습니다.
긴 추론 모델은 다국어 환경에서 종종 어려움을 겪습니다. 비영어 질문에 대해 영어로 추론하는 경향이 있으며, 질문 언어로 추론하도록 제약할 경우 정확도가 현저히 떨어집니다. 이러한 어려움은 다국어 질문 이해와 다국어 추론 모두에 대한 제한된 능력에서 비롯됩니다. 두 문제를 동시에 해결하기 위해 우리는 번역 훈련을 다국어 추론에 통합하는 자가 향상 프레임워크인 TRIT(번역-추론 통합 훈련)를 제안합니다. 외부 피드백이나 추가 다국어 데이터 없이도 우리의 방법은 다국어 질문 이해와 응답 생성을 함께 향상시킵니다. MMATH에서 우리 방법은 여러 기준선을 평균 7%p 앞지르며 답변의 정확성과 언어 일관성을 모두 개선했습니다. 추가 분석 결과, 번역 훈련 통합은 교차 언어 질문 정렬을 10%p 이상 향상시키고 수학 질문 및 일반 영역 텍스트의 번역 품질을 FLORES-200에서 최대 8.4 COMET 점수까지 향상시키는 것으로 나타났습니다.
비전-언어 모델의 급속한 발전은 GUI 에이전트의 출현을 촉진했으며, 온라인 쇼핑부터 항공권 예약에 이르기까지 복잡한 작업을 자동화함으로써 반복적인 디지털 워크플로우 부담을 완화할 막대한 잠재력을 지니고 있습니다. 핵심 기반 능력으로서 GUI 그라운딩은 일반적으로 종단간 작업 실행을 위한 전제 조건으로 확립됩니다. 이는 모델이 텍스트 및 아이콘과 같은 인터페이스 요소를 정확히 위치시켜 클릭 및 입력과 같은 정확한 조작을 수행할 수 있게 합니다. 강력한 공간 인식을 이미 갖춘 모델(예: Qwen3-VL)을 미세 조정한 기존 연구와 달리, 우리는 POINTS-1.5와 같이 최소한의 그라운딩 능력을 가진 기본 모델부터 시작하여 전체 기술 파이프라인을 숙달하는 것을 목표로 합니다. 우리는 ScreenSpot-Pro에서 59.9점, OSWorld-G에서 66.0점, ScreenSpot-v2에서 95.7점, UI-Vision에서 49.9점이라는 최첨단 성능을 달성한 POINTS-GUI-G-8B를 소개합니다. 우리 모델의 성공은 세 가지 핵심 요소에 기인합니다: (1) 다양한 오픈소스 데이터셋 형식의 통합과 정교한 증강, 필터링, 난이도 등급 지정 전략을 포함한 정제된 데이터 엔지니어링; (2) 지각 정확도 향상을 위한 비전 인코더의 지속적 미세 조정과 훈련 및 추론 간 해상도 일관성 유지를 포함한 개선된 훈련 전략; (3) 검증 가능한 보상을 활용한 강화 학습(RL). 강화 학습은 전통적으로 추론 능력 강화에 사용되지만, 우리는 이가 지각 집약적인 GUI 그라운딩 작업에서 정밀도를 크게 향상시킴을 입증합니다. 더 나아가 GUI 그라운딩은 보상이 쉽게 검증 가능하고 매우 정확하기 때문에 강화 학습에 자연스러운 이점을 제공합니다.
대규모 언어 모델(LLM)의 규모 확장으로 인해 수렴 효율성 때문에 행렬 기반 최적화 도구(예: Shampoo, Muon, SOAP)에 대한 관심이 높아지고 있습니다. 그러나 이들 최적화 도구가 요구하는 전체적 업데이트 방식은 Megatron과 같은 분산 프레임워크의 텐서 분할 방식과 상충됩니다. 기존 해결책은 최적이 아닙니다: 동기식 접근법은 계산 중복 문제가 있고, 계층별 분할 방식은 효율적인 통신 기본 요소의 기하학적 제약 조건을 위반하지 않고는 이 상충을 해결하지 못합니다. 이러한 격차를 해소하기 위해 우리는 논리적 최적화 도구 할당과 물리적 매개변수 분배를 분리하는 통합적이고 비동기적이며 부하 균형을 이룬 프레임워크인 Canzona를 제안합니다. 데이터 병렬화를 위해 원자성을 보장하면서 부하 불균형을 해소하는 알파 균형 정적 분할 전략을 도입합니다. 텐서 병렬화를 위해 분할된 업데이트를 일괄 처리하고 재구성 오버헤드를 숨기기 위해 마이크로 그룹 스케줄링을 활용한 비동기 컴퓨트 파이프라인을 설계합니다. 256개의 GPU에서 Qwen3 모델 패밀리(최대 320억 매개변수)에 대한 폭넓은 평가를 통해 우리의 접근 방식이 기존 병렬 아키텍처의 효율성을 유지하면서, 기준 대비 종단 간 반복 시간에서 1.57배의 속도 향상을 달성하고 최적화 도구 단계 지연 시간을 5.8배 줄이는 것을 입증했습니다.
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 필수 패러다임으로 부상했습니다. 그러나 GRPO(Group Relative Policy Optimization)와 같은 표준 정책 최적화 방법은 종종 낮은 엔트로피 정책으로 수렴하여 심각한 모드 붕괴와 제한된 출력 다양성을 초래합니다. 본 연구는 표준 목적 함수가 최대 가능도 경로를 지나치게 강화하여 유효한 대체 추론 체인을 억제한다는 점을 표본 확률 역학 관점에서 분석합니다. 이를 해결하기 위해 모든 정답 응답 간 신뢰도 수준을 균형 있게 조정하는 새로운 ARM(Advantage Re-weighting Mechanism)을 제안합니다. 프롬프트 복잡도와 답변 신뢰도를 advantage 추정에 통합함으로써, 우리의 방법은 과도하게 확신된 추론 경로의 경사 업데이트를 감쇠하는 동시에 충분히 탐색되지 않은 정답으로 확률 질량을 재분배하도록 보상 신호를 동적으로 재구성합니다. 실험 결과, 우리의 접근법이 경쟁력 있는 정확도를 유지하면서 생성 다양성과 응답 엔트로피를 크게 향상시켜 추론 과제에서 탐사와 활용 간 우수한 균형을 효과적으로 달성함을 보여줍니다. 수학 및 코딩 벤치마크에서 Qwen2.5 및 DeepSeek 모델을 대상으로 한 실험 결과, ProGRPO가 엔트로피 붕괴를 현저히 완화합니다. 구체적으로 Qwen2.5-7B에서 우리 방법은 Pass@1 기준 GRPO 대비 5.7%, 특히 Pass@32 기준으로는 13.9% 우수한 성능을 보여 다양한 정답 추론 경로 생성 능력의 우수성을 입증했습니다.
대규모 추론 모델은 추론 시점 체인 오브 씽킹(chain-of-thought)의 규모를 확장하여 강력한 성능을 달성하지만, 이 패러다임은 2차 비용 증가, 컨텍스트 길이 제한, 그리고 중간 정보 손실 효과(lost-in-the-middle effects)로 인한 추론 성능 저하라는 문제점을 안고 있습니다. 반복적 추론(iterative reasoning)은 중간 생각을 주기적으로 요약함으로써 이러한 문제를 완화하지만, 기존 방법들은 지도 학습이나 고정 휴리스틱에 의존하여 언제 요약할지, 무엇을 보존할지, 어떻게 추론을 재개할지 최적화하지 못합니다. 우리는 모델이 제어하는 반복 경계와 명시적 요약을 바탕으로 전체 반복 추론 궤적을 최적화하는 종단 간 강화 학습 프레임워크인 InftyThink+를 제안합니다. InftyThink+는 지도 학습을 통한 콜드 스타트 후 궤적 수준의 강화 학습을 수행하는 2단계 학습 방식을 채택하여 모델이 전략적 요약 및 추론 재개 결정을 학습할 수 있게 합니다. DeepSeek-R1-Distill-Qwen-1.5B 모델을 이용한 실험에서 InftyThink+는 AIME24에서 정확도를 21% 향상시켰으며, 기존의 장기 체인 오브 씽킹 강화 학습 방법을 명확한 차이로 능가하는 동시에 분포 외 벤치마크에서도 더 나은 일반화 성능을 보였습니다. 더불어 InftyThink+는 추론 지연 시간을 현저히 줄이고 강화 학습 훈련 속도를 가속화하여 향상된 추론 효율성과 더불어 강화된 성능을 입증했습니다.
현재 모바일 GUI 에이전트 벤치마크는 메모리 능력을 체계적으로 평가하지 못하고 있으며, 메모리 관련 작업은 5.2~11.8%에 불과하고 세션 간 학습 평가는 전혀 이루어지지 않고 있습니다. 본 논문에서는 포괄적인 메모리 중심 벤치마크인 MemGUI-Bench를 pass@k 및 단계별 LLM-as-judge 평가 방식과 함께 소개합니다. 본 논문의 주요 기여는 다음과 같습니다: (1) 5가지 아키텍처의 11개 에이전트를 분석하는 체계적인 메모리 분류 체계, (2) 26개 애플리케이션에 걸친 128개 작업 중 89.8%가 시간적·공간적 보존을 통해 메모리를 평가함, (3) Progressive Scrutiny 및 7가지 계층적 메트릭을 포함한 자동화 평가 파이프라인 MemGUI-Eval, (4) 11개의 최첨단 에이전트에 대한 연구 문제 기반 평가. 실험 결과 평가된 모든 시스템에서 심각한 메모리 결함이 발견되었으며, 5가지 뚜렷한 실패 모드를 식별하고 5가지 실행 가능한 설계 시사점을 종합하였습니다. 코드, 벤치마크, 평가 결과를 포함한 모든 자원은 https://lgy0404.github.io/MemGUI-Bench/에서 \textit{완전한 오픈소스로 지속적으로 관리될 예정}입니다.
자기 중심적 비디오 이해는 구현형 인텔리전스에 있어 핵심적인 역할을 합니다. 최근 다중 모달 대규모 언어 모델(MLLM)은 시각 및 청각 입력을 모두 처리할 수 있지만, 일관된 결합 모달리티 정보를 포함한 텍스트 레이블 획득의 어려움으로 인해 MLLM이 자기 중심적 비디오에서 양쪽 모달리티를 통합적으로 이해할 수 있는지 여부는 충분히 연구되지 않았습니다. 이 문제를 해결하기 위해 우리는 자기 중심적 오디오-비디오 내레이션, 질문 및 답변을 자동 생성하는 확장 가능한 데이터 엔진인 EgoAVU를 소개합니다. EgoAVU는 인간 내레이션을 다중 모달 컨텍스트로 풍부하게 하고 교차 모달 상관관계 모델링을 통해 오디오-비디오 내레이션을 생성합니다. 토큰 기반 비디오 필터링과 모듈식 그래프 기반 정제 과정을 통해 데이터 다양성과 품질을 모두 보장합니다. EgoAVU를 활용하여 300만 개의 샘플로 구성된 대규모 훈련 데이터셋 EgoAVU-Instruct와 다양한 작업을 포괄하는 수동 검증 평가 세트 EgoAVU-Bench를 구축했습니다. EgoAVU-Bench는 기존 MLLM의 한계를 명확히 보여줍니다. 즉, 이들은 시각 신호에 지나치게 편향되어 오디오 단서를 종종 간과하거나 오디오와 시각 출처를 연관 짓지 못하는 경우가 많습니다. EgoAVU-Instruct로 MLLM을 미세 조정하면 이 문제를 효과적으로 해결하여 EgoAVU-Bench에서 최대 113%의 성능 향상을 달성할 수 있습니다. 이러한 이점은 EgoTempo 및 EgoIllusion과 같은 다른 벤치마크로도 전이되어 최대 28%의 상대적 성능 향상을 이루었습니다. 코드는 커뮤니티에 공개될 예정입니다.
생성적 보상 모델(GenRM)과 LLM-as-a-Judge는 결과 정확도(Outcome Accuracy)를 우선시하도록 훈련 및 평가됨에 따라 잘못된 이유로 올바른 판단을 생산하는 '기만적 정렬(deceptive alignment)'을 보입니다. 이는 RLHF 과정에서의 일반화 능력을 저해합니다. 본 연구에서는 모델의 추론 과정과 인간의 판단 간 정렬 정도를 정량화하는 세분화된 지표인 '근거 일관성(Rationale Consistency)'을 제안합니다. 최첨단 모델에 대한 평가 결과, 근거 일관성은 최신 모델들을 효과적으로 구분하고 기만적 정렬을 탐지하는 반면, 결과 정확도는 두 측면 모두에서 한계를 보였습니다. 이러한 격차를 해결하기 위해 근거 일관성과 결과 정확도를 결합한 하이브리드 신호를 GenRM 훈련에 도입했습니다. 우리의 훈련 방법은 RM-Bench(87.1%)와 JudgeBench(82%)에서 최첨단 성능을 달성하여 결과 정확도만 사용한 기준선보다 평균 5% 향상되었습니다. RLHF 과정에서 우리의 방법을 적용한 결과, Arena Hard v2에서 증명된 바와 같이 성능이 효과적으로 개선되었으며, 특히 창의적 글쓰기 작업에서 7%의 향상을 보였습니다. 추가 분석을 통해 우리의 방법이 기만적 정렬 함정에서 벗어나, 결과 정확도만 사용한 훈련에서 관찰되던 근거 일관성 저하를 효과적으로 역전시킴을 확인했습니다.
MoE(Mixture-of-Experts) 아키텍처는 파라미터 효율성을 향상시키기 위해 더 세분화된 단위로 발전하고 있습니다. 그러나 기존 MoE 설계는 전문가 전문화의 세분화 정도와 하드웨어 실행 효율성 사이의 본질적 트레이드오프에 직면해 있습니다. 본 연구에서는 전문가 세분화를 논리적 극한까지 끌어올린 시스템-알고리즘 공동 설계 프레임워크인 OmniMoE를 제안합니다. OmniMoE는 벡터 수준의 원자적 전문가(Atomic Experts)를 도입하여 단일 MoE 계층 내에서 확장 가능한 라우팅 및 실행을 가능하게 하면서, 범용 처리를 위한 공유 조밀 MLP(Dense MLP) 분기를 유지합니다. 이러한 원자적 설계는 용량을 극대화하지만, 라우팅 복잡도와 메모리 접근에 심각한 문제를 제기합니다. 이를 해결하기 위해 OmniMoE는 시스템-알고리즘 공동 설계를 채택합니다: (i) 방대한 인덱스 공간을 분해하여 라우팅 복잡도를 O(N)에서 O(√N)으로 감소시키는 데카르트 곱 라우터(Cartesian Product Router), (ii) 실행 순서를 반전시켜 흩어져 있고 메모리 대역에 제한된 조회 작업을 효율적인 조밀 행렬 연산으로 전환하는 전문가 중심 스케줄링(Expert-Centric Scheduling). 7개 벤치마크에서 검증된 결과, OmniMoE(활성 파라미터 1.7B)는 7개 벤치마크에서 평균 50.9%의 제로샷 정확도를 달성하며, 거친 단위(coarse-grained, 예: DeepSeekMoE) 및 세밀한 단위(fine-grained, 예: PEER) 기준 모델들을 능가했습니다. 중요한 것은 OmniMoE가 PEER 대비 추론 지연 시간을 73ms에서 6.7ms로(10.9배 가속) 단축하여 대규모 세밀한 단위 MoE가 빠르고 정확할 수 있음을 입증했다는 점입니다. 본 코드는 https://github.com/flash-algo/omni-moe 에 공개되어 있습니다.
인간이 주변 환경을 종합적으로 이해하기 위해 상호 시너지적으로 작용하는 다양한 양식으로 세계를 인지하는 것과는 대조적으로, 기존의 올니비디오 모델은 여전히 시청각 이해 과제에서 상당한 어려움에 직면해 있습니다. 본 논문에서는 혼합 양식 추론 능력을 향상시키는 새로운 강화 프레임워크인 OmniVideo-R1을 제안합니다. OmniVideo-R1은 두 가지 핵심 전략을 통해 모델이 "올니모달 단서로 사고"할 수 있도록 합니다: (1) 자기 지도 학습 패러다임 기반의 질의 집중 기초화; (2) 대조 학습 패러다임 위에 구축된 양식 주의적 융합. 다양한 벤치마크에서 수행한 폭넓은 실험을 통해 OmniVideo-R1이 강력한 기준 모델들을 지속적으로 능가하며, 그 효과성과 강력한 일반화 능력을 입증하였습니다.
대규모 언어 모델(LLM)은 광범위한 과제에서 인상적인 성과를 보이며 뛰어난 추론 능력을 보여주고 있습니다. 그러나 이러한 발전에도 불구하고, 겉보기에 단순한 시나리오에서조차 상당한 추론 실패가 지속적으로 발생하고 있습니다. 이러한 결함을 체계적으로 이해하고 해결하기 위해, 본 논문은 LLM의 추론 실패에 초점을 맞춘 첫 번째 포괄적인 조사 연구를 제시합니다. 우리는 추론을 비실체적(non-embodied) 추론과 실체적(embodied) 추론으로 구분하고, 비실체적 추론을 다시 비형식적(직관적) 추론과 형식적(논리적) 추론으로 세분화하는 새로운 분류 체계를 도입합니다. 동시에 추론 실패는 상호 보완적인 축을 따라 세 가지 유형, 즉 하위 작업 전반에 영향을 미치는 LLM 아키텍처의 본질적 결함인 근본적 실패, 특정 영역에서 나타나는 응용 분야 한계, 사소한 변화에 따라 성능이 일관되지 않는 강건성 문제로 분류합니다. 각 추론 실패 유형에 대해 명확한 정의를 제공하고, 기존 연구를 분석하며, 근본 원인을 탐구하고, 완화 전략을 제시합니다. 분산된 연구 노력을 통합함으로써, 본 조사 연구는 LLM 추론의 체계적 약점에 대한 구조화된 관점을 제공하여 강력하고 신뢰할 수 있으며 견고한 추론 능력을 구축하는 미래 연구에 유용한 통찰과 방향을 제시합니다. 또한 해당 분야에 쉽게 접근할 수 있도록 LLM 추론 실패에 관한 연구 논문들을 종합적으로 모은 GitHub 저장소(https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures)를 공개합니다.
개방형 자기 개선 에이전트는 사전 정의된 아키텍처의 한계를 극복하고 능력을 발전시키기 위해 자율적으로 자신의 구조적 설계를 수정함으로써 인간의 개입에 대한 의존도를 줄일 수 있습니다. 본 논문에서는 그룹 에이전트를 기본 진화 단위로 삼아 진화 과정 전반에 걸쳐 명시적인 경험 공유와 재사용을 가능하게 하는 새로운 개방형 자기 개선 패러다임인 그룹 진화 에이전트(GEA)를 소개합니다. 기존의 트리 구조 진화 방식을 채택한 개방형 자기 진화 패러다임과 달리, GEA는 고립된 진화 분기로 인한 탐색 다양성의 비효율적 활용 한계를 극복합니다. GEA를 도전적인 코딩 벤치마크에서 평가한 결과, 최첨단 자기 진화 방법을 크게 능가하고(SWE-bench Verified에서 71.0% 대 56.7%, Polyglot에서 88.3% 대 68.3%), 인간이 설계한 최고 수준의 에이전트 프레임워크와 비슷하거나 그 성능을 넘어섰습니다(각각 두 벤치마크에서 71.8% 및 52.0%). 분석 결과, GEA는 초기 탐색 다양성을 지속적인 장기 발전으로 더 효과적으로 전환하여 동일한 수의 진화된 에이전트 하에서 더 강력한 성능을 달성하는 것으로 나타났습니다. 더 나아가 GEA는 서로 다른 코딩 모델 간에 일관된 전이성을 보였으며, 프레임워크 수준 버그를 자기 진화 방법이 5회 소요되는 것에 비해 평균 1.4회 반복만에 수정하는 더 큰 견고성을 나타냈습니다.
가중치 전용 양자화는 대규모 언어 모델(LLM)을 압축하는 데 중요합니다. 기존의 크기 기반 가지치기 방법에서 영감을 받아, 우리는 추론 유인 미세 조정 과정에서 발생하는 가중치 업데이트의 크기가 대규모 추론 모델(LRM) 양자화에 유의미한 신호를 제공할 수 있는지 연구합니다. 우리는 미세 조정 중 가장 작고 가장 큰 가중치 업데이트가 중간 크기의 업데이트보다 더 중요하다는 가설을 세웠으며, 이를 "양극단 보호" 현상으로 명명합니다. 이 가설을 검증한 후, 미세 조정 신호를 통한 LRM의 가중치 양자화를 의미하는 QuantLRM을 제안합니다. 우리는 양극단을 보호하기 위해 가중치 업데이트에 간단한 제한 이차 함수를 적합시킵니다. 채널별 평균 이차 함수 값과 제로 가중치 업데이트 빈도를 곱하여 활성화나 2차 정보를 사용하는 것보다 더 효과적인 채널 중요도를 계산합니다. QuantLRM을 사용하여 다양한 미세 조정 모델(지도 학습, 직접 선호도 최적화, 강화 학습 미세 조정 포함)을 4개의 추론 벤치마크(AIME-120, FOLIO, 시간 순서, GPQA-Diamond)에서 양자화한 결과, QuantLRM이 LRM 양자화에 대해 일관된 성능 향상을 제공하며, 강화 학습 미세 조정 모델에서 평균 6.55%의 향상을 보였습니다. 또한 미세 조정되지 않은 LRM을 지원하기 위해 QuantLRM은 가상 미세 조정을 통해 효과적인 신호를 수집하여 적용성을 크게 확장합니다.
대규모 언어 모델(LLM)의 효율적인 배포를 위해서는 극단적인 양자화가 필요하며, 이는 저비트 효율성과 성능 사이의 중요한 트레이드오프를 강제합니다. 잔여 이진화는 이진(pm1) 레이어를 중첩하여 하드웨어 친화적이고 행렬 곱셈이 불필요한 추론을 가능하게 하지만, 병리적인 특징 공동 적응 문제가 발생합니다. 본 연구에서는 양자화 인지 학습(QAT) 과정에서 병렬 잔여 이진 경로들이 중복된 특징을 학습하여 오류 보상 구조를 저하시키고 모델의 표현 능력을 제한하는 주요 실패 모드, 즉 경로 간 적응을 규명합니다. 기존 연구는 해결 공간을 제한하는 경험적 우회 방법(예: 경로 고정)에 의존하는 반면, 본 연구에서는 알고리즘적으로 잔여 계층 구조를 강제하여 공동 적응 문제를 해결하는 새로운 양자화 프레임워크인 RaBiT를 제안합니다. 이의 핵심 메커니즘은 단일 공유 전체 정밀도 가중치로부터 각 이진 경로를 순차적으로 도출함으로써 모든 경로가 선행 경로의 오류를 수정하도록 보장합니다. 이 과정은 단순한 가중치 근사가 아닌 기능 보존을 우선하는 강력한 초기화 방법으로 안정화됩니다. RaBiT는 2비트 정확도-효율성 경계를 재정의합니다: 이는 최첨단 성능을 달성하고, 하드웨어 집약적인 벡터 양자화(VQ) 방법과도 경쟁하며, RTX 4090에서 전체 정밀도 모델 대비 4.49배의 추론 속도 향상을 제공합니다.
대규모 언어 모델(LLM)은 비영어권 언어에서 성능, 문화적 정렬, 안전성 견고성이 종종 저하되는 모습을 보이는데, 이는 부분적으로 영어가 사전 학습 데이터와 인간 선호도 정렬 데이터셋을 지배하기 때문입니다. 인간 피드백 강화 학습(RLHF) 및 직접 선호도 최적화(DPO)와 같은 훈련 방법은 인간 선호도 데이터를 필요로 하지만, 영어 이외의 많은 언어에 대해 이러한 데이터는 여전히 부족하고 대부분 공개되지 않은 상태입니다. 이러한 격차를 해결하기 위해, 우리는 프랑스 정부 내에서 개발된 오픈소스 디지털 공공 서비스인 compar:IA를 소개합니다. 이 플랫폼은 주로 프랑스어를 사용하는 일반 대중으로부터 대규모 인간 선호도 데이터를 수집하도록 설계되었습니다. 해당 플랫폼은 블라인드 쌍별 비교 인터페이스를 사용하여 다양한 언어 모델에 걸쳐 제약 없는 실제 프롬프트와 사용자 판단을 포착함과 동시에 낮은 참여 장벽과 개인정보 보호 자동 필터링을 유지합니다. 2026년 2월 7일 기준으로, compar:IA는 60만 개 이상의 자유 형식 프롬프트와 25만 개의 선호도 투표를 수집했으며, 데이터의 약 89%가 프랑스어로 구성되어 있습니다. 우리는 대화, 투표, 반응이라는 세 가지 상호 보완적인 데이터셋을 오픈 라이선스로 공개하고, 프랑스어 모델 순위표 및 사용자 상호작용 패턴을 포함한 초기 분석을 제시합니다. 프랑스 맥락을 넘어, compar:IA는 국제적인 디지털 공공재로 진화하고 있으며, 다국어 모델 훈련, 평가 및 인간-AI 상호작용 연구를 위한 재사용 가능한 인프라를 제공합니다.
우리는 대규모 언어 모델(LLM)의 다중 목표 얼라인먼트에서 지속적으로 관찰되는 실패 모드를 연구한다: 훈련이 일부 목표의 성능은 향상시키지만 다른 목표들의 성능은 저하시키는 현상이다. 우리는 이 현상을 **교차 목표 간섭**으로 형식화하고 고전적 스칼라화 알고리즘들을 대상으로 첫 체계적 연구를 수행하여, 간섭이 광범위하게 존재하며 강한 모델 의존성을 보인다는 점을 확인한다. 이 현상을 설명하기 위해, 우리는 목표의 보상이 스칼라화된 점수와 양의 공분산을 보일 때 1차 근사에서 해당 목표가 개선된다는 **국소 공분산 법칙**을 유도한다. 우리는 이 분석을 현대 얼라인먼트에서 사용되는 클리핑된 대리 목표로 확장하여, 클리핑이 적용되더라도 경미한 조건 하에서 공분산 법칙이 유효함을 입증한다. 이 분석을 바탕으로, 우리는 목표 보상과 훈련 신호 간의 양의 공분산을 유지하여 교차 목표 간섭을 효과적으로 완화하는 플러그앤플레이 방식인 **공분산 대상 가중치 적응(CTWA)**을 제안한다. 마지막으로, 우리는 이러한 국소 개선 조건을 Polyak–Łojasiewicz 조건 하에서의 **전역 수렴 분석**으로 보완하여, 비볼록 스칼라화 최적화가 언제 전역 수렴을 달성하는지, 그리고 교차 목표 간섭이 특정 모델의 기하학적 속성에 어떻게 의존하는지를 규명한다.
멀티턴 재킹은 안전 정렬 챗봇에 대한 실제 위협 모델을 포착하며, 단일턴 공격은 이의 특수한 경우에 불과합니다. 그러나 기존 접근법은 탐색 복잡성과 의도 이탈로 인해 효과가 떨어집니다. 우리는 기존 전략이나 외부 데이터에 의존하지 않고 멀티턴 공격자를 훈련시키는 간단하면서 효과적인 프레임워크인 SEMA를 제안합니다. SEMA는 두 단계로 구성됩니다. 프리필링 자기 튜닝은 최소한의 접두사로 자체 생성된 비거부적, 구조화된, 멀티턴 적대적 프롬프트에 대해 미세 조정을 통해 사용 가능한 롤아웃을 가능하게 하여 후속 학습을 안정화합니다. 의도 이탈 인식 보상 강화 학습은 공격자가 동일한 유해한 목적을 유지하면서 유효한 멀티턴 적대적 프롬프트를 이끌어내도록 훈련시킵니다. 우리는 의도 정렬, 준수 위험, 상세 수준을 결합한 의도 이탈 인식 보상을 통해 멀티턴 재킹에서 유해 의도를 고정합니다. 우리의 개방형 루프 공격 체계는 피드백 피해자에 대한 의존성을 피하고, 단일턴 및 멀티턴 설정을 통일하며, 탐색 복잡성을 줄입니다. 여러 데이터셋, 피해자 모델, 재킹 판단 기준에 걸쳐 우리의 방법은 최첨단 공격 성공률을 달성하여 모든 단일턴 기준선, 수동 스크립트 및 템플릿 기반 멀티턴 기준선, 그리고 우리의 지도 미세 조정 및 직접 선호 최적화 변형을 능가합니다. 예를 들어, SEMA는 AdvBench의 세 가지 폐쇄형 및 오픈소스 피해자 모델에서 평균 80.1%의 ASR@1을 보여주며, 이는 최첨단 대비 33.9% 높은 수치입니다. 이 접근법은 간결하고 재현 가능하며 대상 간 이전이 가능하여 대규모 언어 모델 안전성에 대한 더 강력하고 현실적인 스트레스 테스트를 제공하며, 자동 레드팀링을 통해 실패 모드를 노출하고 위치를 특정할 수 있게 합니다. 우리의 코드는 https://github.com/fmmarkmq/SEMA에서 확인할 수 있습니다.
강화학습(RL)은 대규모 언어 모델(LLM) 기반 AI 에이전트 훈련을 위한 주요 패러다임으로 부상했습니다. 그러나 기존의 핵심 RL 알고리즘들은 에이전트 시나리오, 특히 다중 턴 설정에서 검증된 수렴 보장이 부족하여 훈련 불안정성과 최적 정책으로의 수렴 실패를 초래할 수 있습니다. 본 논문에서는 단일/다중 턴 시나리오에서 정책 업데이트 메커니즘과 어드밴티지 추정 방법의 다양한 조합이 수렴 특성에 미치는 영향을 체계적으로 분석합니다. 우리는 Group Relative Advantage Estimation(GRAE)을 적용한 REINFORCE가 할인되지 않은 조건에서 전역 최적점으로 수렴할 수 있지만, PPO와 GRAE의 조합은 PPO의 원래 단조 개선 특성을 깨뜨린다는 사실을 발견했습니다. 더 나아가, 주류 핵심 RL 알고리즘들은 다중 턴 시나리오에서 비판사(critic-free)와 수렴 보장을 동시에 달성할 수 없음을 입증합니다. 이를 해결하기 위해 우리는 다중 턴 상호작용을 위한 수렴 보장이 있는 비판사 접근법인 SeeUPO(Sequence-level Sequential Update Policy Optimization)를 제안합니다. SeeUPO는 다중 턴 상호작용을 순차적으로 실행되는 다중 에이전트 bandit 문제로 모델링합니다. 역실행 순서로 턴별 순차적 정책 업데이트를 통해, 역진 귀납법(backward induction)을 통한 단조 개선과 전역 최적 해로의 수렴을 보장합니다. AppWorld 및 BFCL v4에서의 실험은 SeeUPO가 기존 핵심 알고리즘 대비 상당한 향상을 보여줍니다: Qwen3-14B 기준 43.3%-54.6%, Qwen2.5-14B 기준 24.1%-41.9%의 상대적 성능 향상(벤치마크 평균)과 더불어 우수한 훈련 안정성을 확인했습니다.
대규모 언어 모델(LLM)의 표준 학습 파이프라인은 일반적으로 사전 학습에서 사후 학습으로 이어지는 단방향 과정을 따릅니다. 그러나 사후 학습 과정에서 얻은 통찰이 사전 학습된 기초 모델을 역으로 개선하는 양방향 과정의 가능성은 아직 탐구되지 않았습니다. 우리는 강화 학습(RL)으로 조정된 모델이 기본 모델을 강화하고, 이렇게 강화된 기본 모델이 다시 향후 사후 학습 성능을 향상시키는, 특별히 훈련된 교사 모델이나 참조 모델이 필요 없는 자기 강화형 플라이휠(flywheel) 구축을 목표로 합니다. 이를 실현하기 위해 우리는 학습 동역학을 분석하고 모델 능력에 있어 중간 학습(annealing) 단계가 중요한 전환점임을 확인했습니다. 이 단계는 일반적으로 사전 학습 말기에 발생하며, 급격히 감소하는 학습률 하에서 고품질 코퍼스를 활용합니다. 이러한 통찰을 바탕으로 우리는 ReMiT(Reinforcement Learning-Guided Mid-Training)를 제안합니다. 구체적으로 ReMiT는 RL 조정 모델의 추론 사전 지식(priors)을 활용하여 중간 학습 단계에서 토큰을 동적으로 재가중함으로써 추론에 핵심적인 토큰을 우선시합니다. 실험적으로 ReMiT는 수학, 코드, 일반 추론을 아우르는 10개의 사전 학습 벤치마크에서 평균 3%의 성능 향상을 달성했으며, 이러한 향상된 효과가 사후 학습 파이프라인 전반에 걸쳐 2% 이상 유지됨을 확인했습니다. 이러한 결과는 LLM의 지속적이고 자기 강화적인 진화를 가능하게 하는 반복적 피드백 루프의 타당성을 입증합니다.
통합 멀티모달 모델(UMM)은 자연스러운 이미지 생성과 멀티모달 추론 지원에서 인상적인 능력을 보여주고 있습니다. 그러나 일상생활과 밀접한 관련이 있는 컴퓨터 사용 계획 수립 작업을 지원하는 잠재력은 아직 충분히 탐구되지 않았습니다. 컴퓨터 사용 작업에서의 이미지 생성 및 편집은 공간 추론 및 절차적 이해와 같은 능력을 요구하며, UMM이 이러한 작업을 완수할 만한 능력을 지니고 있는지는 여전히 알려지지 않았습니다. 이에 우리는 컴퓨터 사용 작업을 위한 이미지 생성 및 편집 성능을 평가하기 위해 새로운 벤치마크인 PlanViz를 제안합니다. 평가 목표를 달성하기 위해 우리는 일상에서 빈번히 발생하고 계획 단계를 필요로 하는 하위 작업에 집중합니다. 구체적으로 경로 계획, 작업 다이어그램 작성, 웹 및 UI 표시라는 세 가지 새로운 하위 작업을 설계하였습니다. 인간이 주석을 단 질문과 참조 이미지를 선별하고 품질 관리 과정을 통해 데이터 품질 보장의 어려움을 해결합니다. 포괄적이고 정확한 평가의 과제를 위해 작업 적응형 점수인 PlanScore를 제안합니다. 이 점수는 생성된 이미지의 정확성, 시각적 품질 및 효율성 이해에 도움을 줍니다. 실험을 통해 이 주제에 대한 향후 연구의 주요 한계점과 기회를 부각합니다.
트랜스포머 아키텍처의 평활성(smoothness)은 일반화 성능, 학습 안정성, 적대적 강건성(adversarial robustness)과 관련하여 광범위하게 연구되어 왔습니다. 그러나 전이 학습에서의 역할은 아직 잘 이해되지 않고 있습니다. 본 논문에서는 비전 트랜스포머 구성 요소들이 입력의 변화에 대해 출력을 적응시키는 능력, 즉 가소성(plasticity)을 분석합니다. 이는 평균 변화율로 정의되며, 입력 섭동(input perturbation)에 대한 민감도를 포착합니다. 특히, 높은 가소성은 낮은 평활성을 의미합니다. 우리는 이 관점이 전이 적응 과정에서 우선적으로 수정해야 할 구성 요소를 선택하는 데 원칙적인 지침을 제공한다는 것을 이론적 분석과 포괄적인 실험을 통해 입증합니다. 실무자들에게 중요한 시사점은 어텐션 모듈과 피드포워드 계층의 높은 가소성이 일관되게 더 나은 미세 조정(finetuning) 성능으로 이어진다는 것입니다. 우리의 연구 결과는 평활성이 바람직하다는 기존의 가정과는 차별화되며, 트랜스포머의 기능적 특성에 대한 새로운 시각을 제시합니다. 코드는 https://github.com/ambroiseodt/vit-plasticity에서 확인할 수 있습니다.
고밀도 트랜스포머 언어 모델은 대체로 일관된 아키텍처 형태를 고수해왔습니다: 각 계층은 어텐션 모듈과 이어지는 피드-포워드 네트워크(FFN)로 구성되며, FFN은 좁은-넓은-좁은(narrow-wide-narrow) 구조의 MLP를 갖추고 대부분의 매개변수를 MLP에 할당합니다(일반적으로 확장 비율은 2~4 사이). 최근 잔차 연결을 사용한 넓은-좁은-넓은(모래시계형) MLP가 우수한 함수 근사 능력을 제공한다는 연구 결과에 동기를 받아, 우리는 트랜스포머의 오랜 MLP 구조 관례를 재검토하며 좁은-넓은-좁은 설계의 필요성에 의문을 제기합니다. 이를 연구하기 위해 우리는 기존 FFN을 더 깊은 모래시계 형태의 FFN으로 대체한 트랜스포머 변형 모델을 개발했습니다. 이 FFN은 잔차 경로로 연결된 여러 개의 모래시계형 서브-MLP를 쌓아 구성됩니다. 우리는 더 깊지만 가벼운 모래시계형 FFN이 기존 FFN에 대한 경쟁력 있는 대안이 될 수 있으며, 가벼운 모래시계형 FFN 사용으로 절약된 매개변수는 고정된 예산 내에서 모델의 은닉 차원을 확대하는 등 더 효과적으로 활용될 수 있다고 가정합니다. 우리는 다양한 모델 규모에 대한 실증적 검증을 통해 이를 확인했습니다: 모래시계형 FFN은 4억 매개변수 규모까지 기존 FFN을 능가하며, 10억 매개변수에 이르는 더 큰 규모에서도 비슷한 성능을 달성했습니다; FFN 매개변수를 줄이고 어텐션 매개변수를 증가시킨 모래시계형 FFN 변형 모델들은 동일 예산 대비 기존 구성보다 일관되게 향상된 성능을 보여주었습니다. 이러한 결과들은 최근 연구에 새로운 시각을 제공하며, 효율적이고 표현력이 풍부한 현대적 언어 모델을 위해 좁은-넓은-좁은 MLP 관례와 어텐션 및 FFN 간의 균형에 대한 재고를 촉구합니다.
전체 슬라이드 이미지(WSI) 전처리는 일반적으로 조직 검출과 패치 추출로 구성되며, AI 기반 계산 병리학 워크플로우의 기초를 이룹니다. 이 과정은 여전히 주요 계산 병목 현상으로 남아있는데, 기존 도구들은 조직 검출을 위해 부정확한 경험적 임계값 처리에 의존하거나, 제한된 다양성의 데이터로 훈련된 패치 수준 AI 접근법을 채택하여 상당한 계산 복잡성을 초래하기 때문입니다. 본 연구에서는 정확한 조직 검출과 최소한의 계산 오버헤드로 높은 처리량의 패치 추출을 가능하게 하는 효율적이고 확장 가능한 슬라이드 전처리 프레임워크인 AtlasPatch를 제안합니다. AtlasPatch의 조직 검출 모듈은 약 30,000개의 WSI 썸네일로 구성된 이질적이고 반자동 주석이 달린 데이터셋을 사용하여 Segment-Anything 모델을 효율적으로 미세 조정하여 훈련되었습니다. 이 도구는 썸네일에서 추정된 조직 마스크를 전체 해상도 슬라이드로 확장하여 사용자가 지정한 배율에서 패치 좌표를 추출하며, 패치를 일반 이미지 인코더로 직접 스트리밍하여 임베딩을 생성하거나 패치 이미지를 저장할 수 있는 옵션을 제공합니다. 이 모든 과정은 CPU와 GPU에서 효율적으로 병렬 처리됩니다. 우리는 AtlasPatch를 분할 정확도, 계산 복잡도, 하위 다중 인스턴스 학습 성능 측면에서 평가하였으며, 최첨단 성능을 유지하면서 그들의 계산 비용의 일부만으로 운영됨을 확인했습니다. AtlasPatch는 오픈소스이며 https://github.com/AtlasAnalyticsLab/AtlasPatch에서 이용 가능합니다.
대규모 언어 모델은 오픈 도메인 대화에서 뛰어난 능력을 입증해왔습니다. 그러나 서비스 대화 영역에서는 현재 방법론들이 노이즈가 많고 저품질의 인간 대화 데이터에 의존함에 따라 최적의 성능을 발휘하지 못하고 있습니다. 이러한 한계는 데이터 부족과 실제 목표 지향적 사용자 행동을 시뮬레이션하는 데 따른 어려움에서 기인합니다. 이러한 문제를 해결하기 위해 우리는 대규모 인간 주석 없이도 에이전트가 효과적인 전략을 학습할 수 있는 프레임워크인 SEAD(Self-Evolving Agent for Service Dialogue)를 제안합니다. SEAD는 사용자 모델링을 두 가지 구성 요소로 분리합니다: 훈련 커리큘럼을 관리하기 위해 다양한 사용자 상태를 생성하는 프로필 컨트롤러와 현실적인 역할 수행에 중점을 두는 사용자 역할 수행 모델입니다. 이러한 설계는 환경이 불공정한 적대자가 아닌 적응형 훈련 시나리오를 제공하도록 보장합니다. 실험 결과, SEAD가 오픈소스 기반 모델과 클로즈드소스 상용 모델을 크게 능가하며, 작업 완료율을 17.6%, 대화 효율성을 11.1% 향상시키는 것으로 나타났습니다. 코드는 https://github.com/Da1yuqin/SEAD에서 확인할 수 있습니다.
최근 성과에도 불구하고, 시각-언어 모델(VLM)에 대한 추론 시 동적 토큰 예산 확장(test-time scaling)은 여전히 취약한 실정이다. 이미지에 대한 비구조화된 사고 연쇄(chain-of-thought)는 인지와 추론을 뒤섞어, 사소한 인지 오류가 완전히 잘못된 답변으로 이어질 수 있는 길고 산만한 문맥을 초래한다. 또한 우수한 성능을 달성하려면 수작업으로 설계된 보상을 활용한 고비용 강화 학습이 필요하다. 본 논문에서는 시각 인지와 추론을 명시적으로 분리하는 모듈식 프레임워크인 SPARC(Separating Perception And Reasoning Circuits)를 소개한다. 뇌의 순차적 감각-인지 처리 과정에서 영감을 받은 SPARC는 모델이 먼저 명시적 시각 탐색을 수행하여 질문 관련 영역을 파악한 후, 해당 영역을 기반으로 추론을 진행하여 최종 답변을 도출하는 2단계 파이프라인을 구현한다. 이러한 분리는 비대칭 계산 자원 할당(예: 분포 변화 시 인지 처리 우선순위 지정)을 통한 독립적인 추론 시 확장을 가능하게 하며, 선택적 최적화(예: 종단간 성능의 병목 현상이 인지 단계일 경우 해당 단계만 개선)를 지원한다. 또한 전역 탐색은 낮은 이미지 해상도로 수행하고 선택된 영역에만 고해상도 처리를 할당함으로써 문맥을 압축하여 전체 시각 토큰 수와 계산량을 줄인다. 다양한 까다로운 시각 추론 벤치마크에서 SPARC는 일체형(monolithic) 기준 모델과 강력한 시각 기반(visual-grounding) 접근법을 능가했다. 예를 들어, SPARC는 V^* VQA 벤치마크에서 Qwen3VL-4B의 정확도를 6.7%p 향상시켰으며, 어려운 OOD 과제에서 "thinking with images" 방법보다 토큰 예산을 200분의 1만 사용하면서도 정확도가 4.6%p 높았다.
기존의 신경망 활성화 분석 방법(PCA 및 희소 오토인코더 등)은 강력한 구조적 가정에 의존합니다. 생성 모델은 대안을 제공합니다. 이러한 가정 없이 구조를 발견할 수 있으며, 개입 정확도를 향상시키는 사전 분포(prior) 역할을 할 수 있습니다. 우리는 10억 개의 잔차 스트림 활성화에 대해 확산 모델을 훈련하여 네트워크의 내부 상태 분포를 학습하는 "메타모델"을 생성함으로써 이 방향을 탐구합니다. 확산 손실은 컴퓨팅 자원 증가에 따라 부드럽게 감소하며 하류 작업 유용성을 안정적으로 예측하는 것을 확인했습니다. 특히, 메타모델이 학습한 사전 분포를 조향(steering) 개입에 적용하면 유창성이 향상되며, 손실이 감소할수록 향상 폭이 커집니다. 더 나아가 메타모델의 뉴런들은 개념을 점차 개별 단위로 분리하며, 손실 감소에 따라 희소 프로빙 점수가 선형적으로 증가합니다. 이러한 결과는 생성적 메타모델이 제한적인 구조적 가정 없이 해석 가능성으로 나아가는 확장 가능한 경로를 제공함을 시사합니다. 프로젝트 페이지: https://generative-latent-prior.github.io.
현재 정보 탐색(InfoSeeking) 에이전트는 장기적인 탐색 과정에서 집중력과 일관성을 유지하는 데 어려움을 겪습니다. 이는 계획 절차와 대량의 탐색 결과를 포함한 검색 상태를 일반 텍스트 컨텍스트 내에서 추적하는 것이 본질적으로 취약하기 때문입니다. 이를 해결하기 위해 우리는 정보 탐색 작업을 테이블 완성 작업으로 재구성하는 구조화된 계획 프레임워크인 Table-as-Search(TaS)를 소개합니다. TaS는 각 쿼리를 외부 데이터베이스에 유지되는 구조화된 테이블 스키마로 매핑하며, 여기서 행은 검색 후보를 나타내고 열은 제약 조건이나 필수 정보를 나타냅니다. 이 테이블은 검색 상태를 정밀하게 관리합니다. 채워진 셀은 이력과 검색 결과를 엄격히 기록하고, 빈 셀은 명시적인 검색 계획 역할을 합니다. 중요한 것은 TaS가 심층 탐색(Deep Search), 광역 탐색(Wide Search), 그리고 어려운 심층-광역 탐색(DeepWide Search)이라는 세 가지 별개의 정보 탐색 작업을 통합한다는 점입니다. 대규모 실험을 통해 TaS가 다중 에이전트 프레임워크와 상용 시스템을 포함한 세 종류의 벤치마크에서 수많은 최첨단 기준 모델들을 크게 능가함을 입증했습니다. 더 나아가, 우리의 분석은 TaS의 장기 정보 탐색에서의 우수한 강건성과 효율성, 확장성 및 유연성을 검증합니다. 코드와 데이터셋은 https://github.com/AIDC-AI/Marco-Search-AI 에 공개되어 있습니다.
언어 기반 분할은 컴퓨터 비전 분야에서 꾸준히 주목받아 온 주제입니다. 최근 멀티모달 대규모 언어 모델(MLLM)의 발전으로 분할 시스템에 추론 능력이 부여되었지만, 이러한 노력은 MLLM의 고정된 내부 지식에 한정되어 최신 정보나 도메인 특화 개념을 포함하는 실제 시나리오 적용에 한계가 있습니다. 본 연구에서는 기존 접근법의 지식 병목 현상을 극복하는 새로운 분할 패러다임인 Seg-ReSearch를 제안합니다. Seg-ReSearch는 교차 추론과 외부 검색을 가능하게 함으로써 MLLM의 고정된 지식 범위를 넘어서는 동적이고 개방된 세계의 질의를 처리할 수 있는 분할 시스템을 구현합니다. 이러한 능력을 효과적으로 학습시키기 위해 초기 지도와 점진적 인센티브를 조화시키는 계층적 보상 설계를 도입하여 희소한 결과 신호와 경직된 단계별 감독 간의 딜레마를 완화합니다. 평가를 위해 외부 지식이 명시적으로 요구되는 비디오 객체 분할용 벤치마크인 OK-VOS를 구축했습니다. OK-VOS와 기존 추론 분할 벤치마크 두 가지에 대한 실험을 통해 본 연구의 Seg-ReSearch가 최첨단 접근법을 크게 개선함을 입증합니다. 코드와 데이터는 https://github.com/iSEE-Laboratory/Seg-ReSearch에서 공개될 예정입니다.
지식 증류는 강력한 대규모 언어 모델(LLM)의 지식을 더 작고 효율적인 모델로 전달하는 핵심 기술로 부상했습니다. 그러나 기존 증류 방식은 특히 다수의 교사 모델을 활용할 경우 지식 충돌 및 높은 자원 요구와 관련된 과제에 직면해 있습니다. 본 논문에서는 다수의 교사 LLM의 근거를 단일 근거로 통합하여 충돌을 완화하고 효율성을 향상시키는 '지식 정제' 개념을 소개합니다. 지식 정제의 효과를 검증하기 위해 우리는 다양한 관점에서 다섯 가지 정제 방법을 추가로 제안합니다. 실험 결과, 이 방법들이 증류된 모델의 성능을 향상시킬 뿐만 아니라 지식 충돌을 효과적으로 완화하는 것으로 나타났습니다. 또한 라우터 기반 방법은 강력한 일반화 능력을 보여주며, 혁신적인 정제 기술이 다중 교사 증류 최적화와 강력하면서도 경량화된 모델의 실용적 배포에 기여할 잠재력을 강조합니다.
진정한 자기 진화는 에이전트가 새로운 경험을 내재화하여 미래 문제를 해결하는 평생 학습자로 행동할 것을 요구합니다. 그러나 이러한 기초 능력을 엄격하게 측정하는 데는 두 가지 장애가 존재합니다: 사전 지식의 혼재(즉, '새로운' 지식이 사전 학습 데이터에 포함되어 있을 수 있음)와 추론 복잡성의 혼재(즉, 실패가 학습된 지식을 회상하지 못하는 것보다 문제 난이도에서 비롯될 수 있음)입니다. 본 연구에서는 NumPy 라이브러리와 그 API 문서를 무작위 식별자를 가진 유사-새로운 패키지로 난독화하는 진단 환경인 SE-Bench를 소개합니다. 에이전트는 이 패키지를 내재화하도록 훈련되며, 문서에 접근하지 못한 상태에서 간단한 코딩 과제로 평가됩니다. 이를 통해 새로운 API 문서가 있으면 과제가 사소해지지만, 해당 문서 없이는 기본 모델이 해결할 수 없는 깔끔한 실험 환경을 조성합니다. 우리의 연구를 통해 세 가지 통찰을 얻었습니다: (1) 참조 문서와 함께 훈련하면 기억 억제가 발생하여 지식을 가중치로 압축시키기 위해 '폐쇄형 훈련'이 필요하다는 '개방형 교과서 역설', (2) PPO 클리핑과 음의 기울기로 인해 표준 강화 학습이 새로운 지식을 완전히 내재화하지 못한다는 'RL 격차', (3) 자기 생성된 노이즈가 있는 과제와 SFT를 결합할 경우 모델이 내재화를 학습할 수 있으나 RL에서는 불가능하다는 '자기 대결의 실현 가능성'입니다. 전체적으로 SE-Bench는 지식 내재화를 통한 자기 진화를 위한 엄격한 진단 플랫폼을 구축합니다. 코드와 데이터셋은 https://github.com/thunlp/SE-Bench에서 확인할 수 있습니다.
미분 가능 매칭 계층과 잔차 연결 패러다임은 일반적으로 엔트로피 정규화 최적 수송(OT)을 통해 구현되며, 구조 예측 및 아키텍처 확장에서 핵심 메커니즘으로 작동합니다. 그러나 이산 순열을 복구하거나 ε을 0으로 서냉(annealing)하여 항등 매핑을 유지하는 것은 악명 높게 불안정합니다. 본 연구에서는 이러한 실패의 근본적 메커니즘인 '조기 모드 붕괴(Premature Mode Collapse)'를 규명합니다. 싱크호른 고정점 맵의 비정규 동역학을 분석함으로써 표준 지수 냉각이 추론 연산자의 수축율을 초과하는 이론적 열역학적 속도 한계를 밝혀내며, 이 수축율은 O(1/ε)로 저하됩니다. 이를 해결하기 위해 우리는 추론 과정의 안정성을 모니터링하는 적응형 스케줄링 알고리즘인 EPH-ASC(Efficient Piecewise Hybrid Adaptive Stability Control)를 제안합니다. 우리는 EPH-ASC가 FineWeb-Edu 데이터셋에 대한 대규모 학습 동안 매니폴드-제약 초연결(mHC)을 안정화하고 선형 안정성 법칙을 적용하여 후반기 그래디언트 폭발을 효과적으로 방지하는 데 필수적임을 입증합니다.
기후 위험 요소들은 주택 자산을 손상시키고, 인프라를 악화시키며, 네트워크 접근성을 감소시킴으로써 도시 교통 및 긴급 대응 운영을 점차 더 방해하고 있습니다. 본 논문은 Skjold-DiT라는 확산-트랜스포머(diffusion-transformer) 프레임워크를 제시합니다. 이 프레임워크는 이질적인 시공간 도시 데이터를 통합하여 건물 수준의 기후 위험 지표를 예측함과 동시에 지능형 차량(예: 긴급 도달 가능성, 대피 경로 제약)과 관련된 교통 네트워크 구조 및 접근성 신호를 명시적으로 포함합니다. 구체적으로, Skjold-DiT는 지능형 차량 경로 설정 및 긴급 파견 시스템에서 활용 가능한 보정된 불확실성 인식 접근성 레이어(도달 가능성, 통행 시간 증가율, 경로 중복성)를 생성하여 위험 조건 기반 경로 제약을 가능하게 합니다. Skjold-DiT는 다음 세 가지 요소를 결합합니다: (1) 도시 간 전이를 지원하도록 설계된 프롬프트 기반 조건부 인터페이스인 Fjell-Prompt; (2) 위험 지도/이미지, 건물 속성, 인구 통계, 교통 인프라를 공통 잠재 표현으로 통일하는 교차 모드 주의 메커니즘인 Norrland-Fusion; (3) 개입 프롬프트 하에서 확률적 위험 궤적을 생성하는 반사실 시뮬레이터인 Valkyrie-Forecast. 우리는 6개 도시에 걸친 847,392개의 건물 수준 관측치, 다중 위험 주석(예: 홍수 및 열파 지표), 교통 접근성 특징을 포함하는 Baltic-Caspian Urban Resilience(BCUR) 데이터셋을 소개합니다. 실험을 통해 예측 품질, 도시 간 일반화 성능, 보정 정확도, 그리고 반사실적 개입 하에서의 도달 가능성 및 위험 조건 기반 통행 시간을 포함한 하위 교통 관련 결과들을 평가합니다.
훈련 후 양자화는 대규모 언어 모델의 계산 비용을 줄이지만, 집계 지표로는 포착할 수 없는 방식으로 사회적 편향을 근본적으로 변화시킵니다. 본 연구는 13개의 폐쇄형 및 개방형 편향 데이터셋으로 구성된 통합 벤치마크인 PostTrainingBiasBench를 통해 평가된 50개의 양자화 모델에 대한 첫 대규모 연구를 제시합니다. 우리는 집계 편향 점수에는 변화가 없음에도 불구하고 양자화 후 응답의 최대 21%가 편향적 상태와 비편향적 상태 사이에서 전환되는 '양자화 유발 마스크 편향 반전' 현상을 확인했습니다. 이러한 반전은 모델 불확실성에 의해 강력하게 주도되며, 높은 불확실성을 보이는 응답은 확신 있는 응답보다 변화할 가능성이 3~11배 더 높았습니다. 양자화 강도는 이 효과를 증폭시켜, 4비트 양자화 모델이 8비트 양자화 모델보다 4~6배 더 많은 행동 변화를 보였습니다. 중요한 것은 이러한 변화가 인구통계학적 그룹 간 비대칭적 영향을 만들어내며, 일부 그룹의 편향은 최대 18.6% 악화되는 동시에 다른 그룹은 14.1% 개선되어 오해의 소지가 있는 중립적인 집계 결과를 초래한다는 점입니다. 더 큰 모델이 일관된 견고성 이점을 보이지 않았으며, 그룹별 변화는 모델 계열에 따라 예측 불가능하게 다양했습니다. 우리의 연구 결과는 압축이 편향 패턴을 근본적으로 변화시켜 실전 신뢰성을 보장하기 위해 중요한 사후 양자화 평가와 개입이 필요함을 입증합니다.