번역이 포함된 일일 선별된 AI 연구 논문
본 보고서에서는 텍스트, 이미지, 비디오, 오디오에 걸쳐 통합된 멀티모달 이해와 생성을 위해 설계된 기본 자동회귀 기반 모델인 ERNIE 5.0을 소개한다. 모든 모달리티는 모달리티 독립적 전문가 라우팅을 적용한 초희소 전문가 혼합 구조를 기반으로, 통합된 다음 토큰 그룹 예측 목표 하에 처음부터 훈련되었다. 다양한 자원 제약 조건 하의 대규모 배포에서 발생하는 실질적인 문제를 해결하기 위해 ERNIE 5.0은 새로운 탄력적 훈련 패러다임을 채택했다. 단일 사전 훈련 실행 내에서 모델은 다양한 깊이, 전문가 용량 및 라우팅 희소성을 지닌 하위 모델 군을 학습하여, 메모리 또는 시간 제약 시나리오에서 성능, 모델 크기, 추론 지연 시간 간의 유연한 균형을 가능하게 한다. 더 나아가 통합 기반 모델로의 강화학습 확장 과제를 체계적으로 해결함으로써, 초희소 전문가 혼합 구조와 다양한 멀티모달 환경 하에서 효율적이고 안정적인 사후 훈련을 보장한다. 광범위한 실험을 통해 ERNIE 5.0이 여러 모달리티 전반에 걸쳐 강력하고 균형 잡힌 성능을 달성함을 입증한다. 공개된 모델 중 ERNIE 5.0은 멀티모달 이해와 생성을 모두 지원하는 최초의 조 단위 매개변수 규모 통합 자동회귀 모델의 생산 수준 구현체로 알려져 있다. 향후 연구를 촉진하기 위해 통합 모델 내 모달리티 독립적 전문가 라우팅의 상세 시각화 자료와 탄력적 훈련에 대한 포괄적인 실증 분석을 제시하며, 이는 해당 분야에 깊은 통찰력을 제공하고자 한다.
대규모 언어 모델(LLM)의 배포는 긴 입력을 처리할 때 키-값(KV) 캐시의 과도한 메모리 사용량이라는 중요한 병목 현상에 직면합니다. 이러한 병목 현상을 해결하기 위해 토큰 프루닝 패러다임은 어텐션 희소성을 활용하여 중요 토큰의 작은 부분집합만을 선택적으로 보존합니다. 그러나 기존 방법들은 한계가 있습니다. 정적 방법은 되돌릴 수 없는 정보 손실의 위험을 내포하고, 동적 전략은 토큰 중요도의 질의 의존적 특성을 충분히 포착하지 못하는 휴리스틱을 사용합니다. 본 논문에서는 토큰 중요도를 동적으로 예측하여 질의 인식 토큰 제거를 달성하는 새로운 프레임워크인 FASA를 제안합니다. FASA는 RoPE에 대한 새로운 통찰, 즉 주파수 청크(FC) 수준에서의 기능적 희소성 발견에서 비롯되었습니다. 우리의 핵심 발견은 소수이며 식별 가능한 "지배적" FC들의 부분집합이 전체 어텐션 헤드와 지속적으로 높은 맥락적 일치를 보인다는 것입니다. 이는 중요한 토큰을 식별하기 위한 강력하면서도 계산 비용이 들지 않는 프록시를 제공합니다. 이러한 통찰을 바탕으로 FASA는 먼저 지배적 FC들을 사용하여 중요한 토큰 집합을 식별한 다음, 이렇게 프루닝된 부분집합에 대해서만 집중적인 어텐션 계산을 수행합니다. KV 캐시의 극히 일부만 접근하므로 FASA는 메모리 대역폭 요구 사항과 계산 비용을 크게 절감합니다. 시퀀스 모델링부터 복잡한 CoT 추론에 이르는 다양한 장문 맥락 작업에서 FASA는 모든 토큰 제거 기준선을 일관되�게 능가하고 제한된 예산 하에서도 놀라운 견고성을 보이며 준-오라클 정확도에 근접하는 성능을 달성합니다. 특히 LongBench-V1에서 FASA는 단 256개의 토큰만 유지할 때 전체 KV 성능의 거의 100%에 도달했으며, AIME24에서 캐시의 18.9%만 사용하여 2.56배의 속도 향상을 달성했습니다.
최근 대규모 언어 모델(LLM)의 발전은 주로 단일 에이전트가 다중 단계 추론과 도구 사용을 통해 장기적 문제를 해결하는 심화 확장에 집중되어 왔습니다. 그러나 과업의 범위가 넓어짐에 따라 핵심 병목 현상은 개별 역량에서 조직적 역량으로 이동하고 있습니다. 본 연구에서는 광범위한 정보 탐색을 해결하기 위해 다중 에이전트 시스템을 통한 보완적 차원인 폭 확장을 탐구합니다. 기존 다중 에이전트 시스템은 종종 수작업으로 설계된 워크플로우와 순차적 상호작용에 의존하여 작업을 효과적으로 병렬화하지 못합니다. 이러한 격차를 해결하기 위해 우리는 확장 가능한 오케스트레이션과 병렬 실행을 조화시키기 위해 다중 에이전트 강화 학습(MARL)을 통해 훈련된 주 에이전트-하위 에이전트 프레임워크인 WideSeek-R1을 제안합니다. 공유 LLM과 분리된 컨텍스트, 특화된 도구를 활용하여 WideSeek-R1은 20k개의 정제된 광범위 정보 탐색 과업 데이터셋에서 주 에이전트와 병렬 하위 에이전트를 공동으로 최적화합니다. 광범위한 실험 결과, WideSeek-R1-4B는 WideSearch 벤치마크에서 40.0%의 항목 F1 점수를 달성하며, 이는 단일 에이전트 DeepSeek-R1-671B의 성능에 버금가는 수준입니다. 더 나아가 WideSeek-R1-4B는 병렬 하위 에이전트 수가 증가함에 따라 일관된 성능 향상을 보여 폭 확장의 효과성을 입증합니다.
멀티모달 프로세스 보상 모델(MPRM)은 MLLM의 시각적 추론을 위한 단계별 감독의 핵심 요소입니다. MPRM 학습에는 일반적으로 대규모 몬테카를로(MC) 주석 코퍼스가 필요하며, 이는 상당한 학습 비용을 수반합니다. 본 논문은 MPRM 학습의 데이터 효율성을 연구합니다. 예비 실험 결과, MPRM 학습은 훈련 데이터를 무작위로 하위 샘플링할 경우 빠르게 포화되는 것으로 나타나, 기존 MC 주석 코퍼스 내에 상당한 중복성이 있음을 시사합니다. 이를 설명하기 위해 우리는 이론적 프레임워크를 정형화하고 정보성 있는 그래디언트 업데이트가 두 가지 요인(양/음성 단계의 라벨 혼합 비율과 라벨 신뢰도(양성 단계의 평균 MC 점수))에 의존함을 밝혔습니다. 이러한 통찰을 바탕으로, 우리는 별도의 비용 없이 롤아웃 수준의 기존 MC 신호를 기반으로 혼합 비율과 신뢰도를 모두 우선순위에 두는 균형 정보 점수(BIS)를 제안합니다. VisualProcessBench에서 두 백본(InternVL2.5-8B 및 Qwen2.5-VL-7B)에 걸쳐, BIS로 선별된 부분 집합은 극히 일부의 데이터만으로도 전체 데이터 성능을 일관되게 달성하거나 심지어 능가했습니다. 특히 BIS 부분 집합은 훈련 데이터의 10%만 사용하여 전체 데이터 성능에 도달했으며, 이는 무작위 하위 샘플링 대비 4.1% 상대적 성능 향상에 해당합니다.
Omni-modal 대규모 언어 모델(Omni-LLM)은 오디오-비디오 이해 작업에서 강력한 능력을 입증했습니다. 그러나 긴 멀티모달 토큰 시퀀스에 대한 의존도는 상당한 계산 오버헤드를 초래합니다. 이러한 어려움에도 불구하고 Omni-LLM을 위해 설계된 토큰 압축 방법은 여전히 제한적입니다. 이러한 격차를 해소하기 위해 우리는 Omni-LLM에 맞춤화된 모달리티 비대칭 토큰 압축 프레임워크인 OmniSIFT(Omni-modal Spatio-temporal Informed Fine-grained Token compression)를 제안합니다. 구체적으로 OmniSIFT는 두 단계의 압축 전략을 채택합니다: (i) 프레임 내 구조와 프레임 간 중복으로 인해 발생하는 비디오 중복성을 제거하는 시공간 비디오 프루닝 모듈과 (ii) 오디오 토큰을 필터링하는 비전 기반 오디오 선택 모듈입니다. 전체 프레임워크는 미분 가능한 스트레이트-스루 추정기를 통해 end-to-end로 최적화됩니다. 5개의 대표적인 벤치마크에 대한 광범위한 실험을 통해 OmniSIFT의 효율성과 견고성을 입증했습니다. 특히 Qwen2.5-Omni-7B의 경우, OmniSIFT는 OmniZip과 같은 훈련 없는 베이스라인보다 낮은 지연 시간을 유지하면서 4.85M개의 매개변수만 추가합니다. 원본 토큰 컨텍스트의 25%만 사용하여 OmniSIFT는 모든 압축 베이스라인을 꾸준히 능가하며 여러 작업에서 전체 토큰 모델의 성능을 넘어서기도 합니다.
본 연구에서는 각 전체 어텐션 계층을 여러 개의 희소 어텐션 계층과 교차 배치하는 새로운 아키텍처인 Hybrid Sparse Attention(HySparse)을 제안한다. 개념적으로 단순하지만 HySparse는 선행하는 전체 어텐션 계층으로부터 각 희소 계층의 토큰 선택과 KV 캐시를 전략적으로 도출한다. 이 아키텍처는 기존 희소 어텐션 방식의 두 가지 근본적인 한계를 해결한다. 첫째, 기존 접근법은 일반적으로 토큰 중요도를 예측하기 위해 추가적인 프록시에 의존하여 복잡성을 증가시키고 최적이 아닌 성능을 초래할 수 있다. 반면 HySparse는 전체 어텐션 계층을 정확한 오라클로 활용하여 중요한 토큰을 식별한다. 둘째, 기존 희소 어텐션 설계는 종종 KV 캐시를 절약하지 않은 채 계산량만 감소시킨다. HySparse는 희소 어텐션 계층이 전체 어텐션의 KV 캐시를 재사용할 수 있게 하여 계산량과 메모리 사용을 동시에 줄인다. 우리는 HySparse를 7B Dense 모델과 80B MoE 모델에서 평가하였다. 모든 설정에서 HySparse는 전체 어텐션과 하이브리드 SWA 베이스라인을 일관되게 능가했다. 특히 총 49개 계층으로 구성된 80B MoE 모델에서 단 5개의 계층만 전체 어텐션을 사용함에도 불구하고, HySparse는 KV 캐시 저장 공간을 약 10배 가까이 줄이면서도 상당한 성능 향상을 달성했다.
휴머노이드 로봇을 실제 환경에 배치하는 것은 부분적 정보 관측과 동적으로 변화하는 환경 속에서 인지, 이동, 조작의 긴밀한 통합을 요구하므로 근본적으로 어려운 과제입니다. 또한 서로 다른 유형의 하위 작업 간의 견고한 전환도 필요합니다. 이러한 문제를 해결하기 위해 우리는 높은 수준의 지시를 다양하고 정밀하며 공간 인식이 가능한 휴머노이드 동작으로 직접 연결하는 새로운 과제인 EgoActing을 제안합니다. 우리는 이 과제를 더욱 구체화하기 위해 이동 기본 동작(걷기, 회전, 옆으로 이동, 높이 변경 등), 머리 움직임, 조작 명령, 그리고 인지와 실행을 실시간으로 조율하기 위한 인간-로봇 상호작용을 예측할 수 있는 통합적이고 확장 가능한 비전-언어 모델(VLM)인 EgoActor를 소개합니다. 우리는 실제 데모에서 얻은 에고센트릭 RGB 단일 데이터, 공간 추론 질의응답, 그리고 시뮬레이션 환경 데모에 대한 광범위한 지도를 활용하여 EgoActor가 맥락을 인지한 견고한 결정을 내리고, 8B 및 4B 매개변수 모델 모두에서 원활한 동작 추론(1초 미만)을 수행할 수 있도록 합니다. 시뮬레이션과 실제 환경에서의 광범위한 평가를 통해 EgoActor가 추상적인 작업 계획과 구체적인 모터 실행을 효과적으로 연결하면서도 다양한 작업과 보지 않은 환경에 대해 일반화 성능을 보임을 입증합니다.
자동회귀 비디오 확산 모델의 급속한 발전에도 불구하고, 배포 가능성과 생성 능력을 모두 제한하는 새로운 시스템 알고리즘 병목 현상이 대두되고 있습니다: KV 캐시 메모리 문제입니다. 자동회귀 비디오 생성 모델에서 KV 캐시는 생성 기록에 따라 증가하며 GPU 메모리를 빠르게 점유하여 종종 30GB를 초과하여 널리 보급된 하드웨어에서의 배포를 방해합니다. 더 중요한 것은, 제한된 KV 캐시 예산이 효과적인 작업 메모리를 제약함으로써 장기간 일관성(신원, 레이아웃, 모션)을 직접적으로 저하시킨다는 점입니다. 이러한 과제를 해결하기 위해 우리는 자동회귀 비디오 확산 모델을 위한 학습 불필요형 KV 캐시 양자화 프레임워크인 Quant VideoGen(QVG)을 제안합니다. QVG는 의미 인식 평활화를 통해 비디오 시공간 중복성을 활용하여 낮은 크기의 양자화에 적합한 잔차를 생성합니다. 또한 양자화 오류를 줄이면서 원활한 품질-메모리 트레이드오프를 가능하게 하는 coarse-to-fine 다단계 방식인 점진적 잔차 양자화를 도입합니다. LongCat Video, HY WorldPlay 및 Self Forcing 벤치마크에서 QVG는 품질과 메모리 효율성 사이의 새로운 파레토 최적선을确立하며, KV 캐시 메모리를 최대 7.0배까지 줄이면서 end-to-end 지연 시간 오버헤드는 4% 미만에 그치며 생성 품질에서도 기존 베이스라인을 지속적으로 능가합니다.
최신 자율 LLM 에이전트는 환경과의 반복적 상호작용을 통해 성능을 향상시킬 수 있는 능력을 보여주고 있습니다. 우리는 이러한 패러다임을 시험 시간 향상(TTI)으로 정의합니다. 그러나 TTI가 성공하거나 실패하는 메커니즘에 대한 이해는 여전히 부족하며, 기존 평가 지표는 TTI의 작업 최적화 효율성, 오작동 후 행동 적응, 작업 완성을 위한 작업 기억의 구체적 유용성을 제대로 포착하지 못하고 있습니다. 이러한 격차를 해결하기 위해 우리는 TTI를 세 가지 포괄적이고 상호 연결된 차원으로 분해하는 에이전트 및 환경 중립적 프레임워크인 시험 시간 향상 진단 평가(TIDE)를 제안합니다. 이 프레임워크는 (1) 작업 완성의 전반적인 시간적 역학을 측정하고, (2) 성능이 주로 순환적 반복 행동에 의해 제약되는지, 아니면 (3) 부담스러운 누적 메모리에 의해 제약되는지를 식별합니다. 다양한 에이전트와 환경을 대상으로 한 광범위한 실험을 통해 TIDE는 에이전트 성능 향상을 위해 내부 추론 확장 이상의 것이 필요하며, 에이전트와 환경 간 상호작용 역학을 명시적으로 최적화할 필요가 있음을 보여줍니다.
풍부한 상호작용 환경에서의 변형체 객체 시뮬레이션은 환경 효과와 로봇 동작에 의해 복합적으로 구동되는 역학으로 인해 실제-시뮬레이션 로봇 조작의 근본적인 과제로 남아 있습니다. 기존 시뮬레이터는 로봇 조건부 제어 없이 사전 정의된 물리 법칙이나 데이터 기반 역학에 의존하여 정확도, 안정성 및 일반화 성능이 제한됩니다. 본 논문은 소프트 바디 조작을 위한 3D 가우시안 스플랏 기반 시뮬레이터 SoMA를 제안합니다. SoMA는 변형체 역학, 환경 힘 및 로봇 관절 동작을 통합 잠재 신경망 공간에 결합하여 종단간 실제-시뮬레이션을 구현합니다. 학습된 가우시안 스플랏 상의 상호작용을 모델링함으로써 관측된 궤적을 넘어서는 제어 가능하고 안정적인 장기간 조작 및 일반화가 사전 정의된 물리 모델 없이 가능합니다. SoMA는 실제 로봇 조작 작업에서 재현 정확도와 일반화 성능을 20% 향상시키며, 장기간 옷감 접기와 같은 복잡한 작업의 안정적인 시뮬레이션을 가능하게 합니다.
확산 대형 언어 모델(dLLM)은 여러 토큰을 병렬로 디코딩할 수 있어 순수 자동회귀 언어 모델의 유망한 대안으로 부상했습니다. 그러나 최첨단 블록 단위 dLLM은 가장 확신이 높은 토큰만 디코딩하고 나머지는 버리는 "재마스킹" 메커니즘에 의존하여 효과적으로 계산 자원을 낭비합니다. 우리는 버려진 토큰들의 계산을 재활용하는 것이 유익함을 입증합니다. 이러한 토큰들이 후속 디코딩 단계에 유용한 문맥 정보를 보유하고 있기 때문입니다. 이를 바탕으로, 우리는 버려진 토큰 표현을 문맥 잔차로 변환하여 다음 잡음 제거 단계에 다시 주입하는 모듈인 잔차 문맥 확산(RCD)을 제안합니다. RCD는 역전파와 관련된 메모리 병목 현상을 우회하기 위해 분리된 2단계 학습 파이프라인을 사용합니다. 우리는 긴 CoT 추론(SDAR)과 짧은 CoT 지시 따르기(LLaDA) 모델 모두에서 우리의 방법을 검증합니다. 표준 dLLM이 약 10억 토큰만으로도 RCD 패러다임으로 효율적으로 변환될 수 있음을 보여줍니다. RCD는 다양한 벤치마크에서 최소한의 추가 계산 오버헤드로 최신 dLLM의 정확도를 5-10포인트 지속적으로 향상시킵니다. 특히 가장 어려운 AIME 작업에서 RCD는 기준선 정확도를 거의 두 배로 높이며 동등한 정확도 수준에서 잡음 제거 단계를 최대 4-5배까지 줄입니다.
강화 학습(RL)은 대규모 언어 모델(LLM)의 미세 조정을 위한 핵심 기술로 자리 잡았으며, Proximal Policy Optimization(PPO)이 사실상 표준 알고리즘으로 사용되고 있습니다. 그러나 이러한 보편성에도 불구하고, PPO의 핵심 비율 클리핑 메커니즘은 LLM에 내재된 큰 어휘 집합 구조에 부적합하다고 주장합니다. PPO는 샘플링된 토큰의 확률 비율을 기반으로 정책 업데이트를 제한하는데, 이는 실제 정책 발산의 잡음이 포함된 단일 샘플 몬테카를로 추정치 역할을 합니다. 이는 최적이 아닌 학습 역학을 생성합니다: 낮은 확률 토큰에 대한 업데이트는 과도하게 제약되는 반면, 높은 확률 토큰에서 발생 가능한 치명적 변화는 제약이 충분하지 않아 학습 효율성과 안정성을 저해합니다. 이를 해결하기 위해 우리는 휴리스틱 클리핑을 정책 발산(예: 총 변동 또는 KL 발산)의 직접 추정치를 기반으로 한 보다 원칙적인 제약으로 대체하는 Divergence Proximal Policy Optimization(DPPO)을 제안합니다. 큰 메모리 사용량을 방지하기 위해, 우리는 최소한의 오버헤드로 핵심 발산을 포착하는 효율적인 Binary 및 Top-K 근사법을 도입합니다. 광범위한 실증 평가를 통해 DPPO가 기존 방법 대비 향상된 학습 안정성과 효율성을 달성하여 RL 기반 LLM 미세 조정을 위한 더욱 견고한 기반을 제공함을 입증합니다.
최근 DiT 기반 텍스트-이미지 변환 모델들은 LLM을 텍스트 인코더로 채택하는 추세이지만, LLM 계층 간의 뚜렷한 의미론적 위계와 확산 시간 및 네트워크 깊이에 따른 비정적 노이즈 제거 역동성에도 불구하고, 텍스트 조건화는 대체로 정적이며 단일 LLM 계층만 활용되는 경우가 많습니다. DiT 생성의 동적 과정을 더 잘 맞추어 확산 모델의 생성 능력을 향상시키기 위해, 우리는 경량화된 게이트를 장착한 통합 정규화 볼록 융합 프레임워크를 도입하여 시간별, 깊이별, 그리고 통합적 융합을 통해 다중 계층 LLM 은닉 상태를 체계적으로 구성합니다. 실험 결과 깊이별 의미론적 라우팅이 가장 우수한 조건화 전략으로 확인되었으며, 텍스트-이미지 정렬 및 구성적 생성 능력을 지속적으로 향상시켰습니다(예: GenAI-Bench Counting 작업에서 +9.97). 반대로, 순수한 시간별 융합은 오히려 시각적 생성 충실도를 저하시킬 수 있음을 발견했습니다. 우리는 이를 훈련-추론 궤적 불일치로 귀인합니다. 즉, 분류자 없는 guidance 하에서 명목상의 시간 단계는 효과적인 SNR을 추적하지 못하여 추론 중 의미론적으로 시점이 어긋난 특징 주입을 초래하기 때문입니다. 전반적으로, 우리의 결과는 깊이별 라우팅을 강력하고 효과적인 기준선으로 자리매김하며, 강건한 시간 의존적 조건화를 가능하게 하기 위해 궤적 인식 신호의 중요성을 강조합니다.
신경망 표현과 생성 모델의 최근 발전이 3D 콘텐츠 제작에 혁명을 가져왔음에도 불구하고, 해당 분야는 여전히 상당한 데이터 처리 병목 현상에 제약을 받고 있습니다. 이를 해결하기 위해 본 논문은 3D 생성 연구를 위한 통합적이고 고품질의 기반을 마련하기 위해 설계된 오픈소스 생태계인 HY3D-Bench를 소개합니다. 우리의 기여는 세 가지로 요약됩니다: (1) 대규모 저장소로부터 정제한 25만 개의 고충실도 3D 객체 라이브러리를 구축하여, 수밀 메쉬(watertight mesh) 및 다중 시점 렌더링 등 학습 준비가 완료된 결과물을 엄격한 파이프라인을 통해 제공합니다; (2) 세분화된 인식과 제어 가능한 편집에 필수적인 단위를 제공하는 구조화된 부품 수준 분해(part-level decomposition)를 도입합니다; (3) 확장 가능한 AIGC(인공지능 생성 콘텐츠) 합성 파이프라인을 통해 현실 세계의 분포 격차를 해소하며, 롱테일(long-tail) 범주의 다양성 향상을 위해 12만 5천 개의 합성 자산을 추가합니다. Hunyuan3D-2.1-Small 모델 학습을 통해 실증적으로 검증된 HY3D-Bench는 강력한 데이터 자원에 대한 접근성을 확대하여 3D 인식, 로봇공학, 디지털 콘텐츠 제작 전반의 혁신을 촉진하는 것을 목표로 합니다.
고품질 과학 일러스트레이션은 복잡한 과학 및 기술 개념을 효과적으로 전달하는 데 핵심적이지만, 이를 수동으로 제작하는 작업은 학계와 산업계 모두에서 널리 인정된 병목 현상으로 남아 있습니다. 본 연구에서는 장문의 과학 텍스트로부터 과학 일러스트레이션을 생성하기 위한 최초의 대규모 벤치마크인 FigureBench을 소개합니다. FigureBench은 3,300개의 고품질 과학 텍스트-일러스트레이션 쌍을 포함하며, 과학 논문, 총설, 블로그, 교재에 이르기까지 다양한 텍스트-일러스트레이션 변환 작업을 포괄합니다. 더 나아가, 장문의 과학 텍스트를 기반으로 고품질 과학 일러스트레이션을 자동 생성하는 최초의 에이전트 기반 프레임워크인 AutoFigure를 제안합니다. 구체적으로, AutoFigure는 최종 결과물을 렌더링하기 전에 집중적인 사고, 재조합 및 검증 과정을 거쳐 구조적으로 견고하고 미적으로 정제된 레이아웃을 생성함으로써, 구조적 완전성과 미적 매력을 모두 갖춘 과학 일러스트레이션을 출력합니다. FigureBench의 고품질 데이터를 활용하여 AutoFigure의 성능을 다양한 기준 방법들과 비교하는 폭넓은 실험을 수행했습니다. 결과에 따르면 AutoFigure는 모든 기준 방법들을 일관되게 능가하며, 출판 가능한 수준의 과학 일러스트레이션을 생성하는 것으로 나타났습니다. 코드, 데이터셋 및 허깅페이스 스페이스는 https://github.com/ResearAI/AutoFigure에서 공개되었습니다.
Group Relative Policy Optimization(GRPO)은 검증 가능한 목표에 대형 언어 모델을 정렬시키기 위한 실용적인 방법론으로 최근 주목받고 있습니다. 그러나 희소한 종단 보상 상황에서 GRPO는 그룹 내 롤아웃이 동일한 보상을 받는 경우가 빈번하여 상대적 이점이 무의미해지고 업데이트가 사라지는 문제로 인해 종종 정체됩니다. 본 연구에서는 훈련 중 특권 정보인 힌트를 주입하여 동일한 종단 검증기 보상 하에서 롤아웃 분포를 재구성하는 온-폴리시 강화 학습 프레임워크인 자기 힌트 정렬 GRPO(Privileged Supervision)를 제안합니다. 각 프롬프트 x에 대해 모델은 간결한 힌트 h(예: 계획 또는 분해)를 샘플링한 후 (x,h) 조건 하에서 해결책 τ를 생성합니다. 핵심적으로 과제 보상 R(x,τ)은 변경되지 않으며, 힌트는 유한 샘플링 하에서 그룹 내 결과 다양성만을 증가시켜 희소 보상 조건에서 GRPO의 이점이 무너지는 것을 방지합니다. 테스트 시점에는 h=varnothing으로 설정하여 특권 정보 없이 무힌트 정책을 배포합니다. 더 나아가 다양한 자기 힌트를 샘플링하는 것은 초기 정책이나 더 강력한 외부 모델의 고정된 힌트보다 학습자의 병목 현상을 더 효과적으로 추적하는 적응형 커리큘럼 역할을 합니다. 3가지 LLM을 활용한 6개 벤치마크 실험 결과, SAGE는 GRPO를 지속적으로 능가하며 Llama-3.2-3B-Instruct 기준 평균 +2.0, Qwen2.5-7B-Instruct 기준 +1.2, Qwen3-4B-Instruct 기준 +1.3의 성능 향상을 보였습니다. 코드는 https://github.com/BaohaoLiao/SAGE에서 확인할 수 있습니다.
현재 언어 모델(LM)은 사전 학습된 지식을 활용한 프롬프트 추론에서 뛰어난 성능을 보입니다. 그러나 현실 세계의 과업은 훨씬 더 복잡하고 문맥 의존적입니다: 모델은 과업 특정 문맥으로부터 학습하고, 사전 학습 과정에서 습득한 범위를 넘어선 새로운 지식을 활용하여 과업을 추론하고 해결해야 합니다. 우리는 이러한 능력을 '문맥 학습'이라고 명명하며, 이는 인간이 당연히 가지고 있지만 지금껏 크게 간과되어 온 핵심 능력입니다. 이를 위해 우리는 경험 많은 도메인 전문가들이 정성들여 구성한 500개의 복잡한 문맥, 1,899개의 과업, 31,607개의 검증 기준으로 이루어진 현실 세계 벤치마크인 CL-bench를 소개합니다. 각 과업은 이를 해결하는 데 필요한 새로운 내용이 해당 문맥 내에 포함되도록 설계되었습니다. CL-bench의 과업 해결에는 모델이 사전 학습에서는 접할 수 없는, 새로운 도메인 특화 지식, 규칙 체계, 복잡한 절차, 경험적 데이터에서 도출된 법칙 등에 이르기까지 문맥으로부터 학습하는 것이 요구됩니다. 이는 주로 정보 검색이나 독해력을 테스트하는 장문맥 과업이나, 모델이 지시문과 예시를 통해 단순한 과업 패턴을 학습하는 인컨텍스트 러닝 과업을 훨씬 넘어서는 것입니다. 10개의 최첨단 LM을 평가한 결과, 모델들은 평균적으로 과업의 17.2%만 해결했습니다. 가장 성능이 뛰어난 모델인 GPT-5.1조차 23.7%만 해결하여, LM이 효과적인 문맥 학습을 아직 달성하지 못했음을 보여주며, 이는 현실 세계의 복잡한 문맥 의존적 과업을 해결하는 데 있어 심각한 병목 현상으로 작용하고 있습니다. CL-bench는 이러한 근본적인 능력을 갖춘 LM을 구축하여 보다 지능적으로 만들고 현실 세계 시나리오에서의 활용을 앞당기기 위한 한 걸음입니다.
지난 10년간 생성형 인공지능(AI)의 발전 궤적은 규모 확장 법칙(scaling laws)에 의해 주도되는 모델 중심 패러다임이 지배해왔습니다. 시각적 충실도에서의 큰 도약에도 불구하고, 이 접근법은 '사용성 한계'(usability ceiling)에 부딪혔으며, 이는 의도-실행 간극(Intent-Execution Gap), 즉 창작자의 높은 수준의 의도와 현재의 단일 샷(single-shot) 모델들이 가진 확률적, 블랙박스 특성 사이의 근본적인 괴리로 나타납니다. 본 논문에서는 Vibe Coding에서 영감을 받아, 계층적 다중 에이전트 워크플로의 자율적 합성을 의미하는 에이전트 조정(agentic orchestration)을 통한 콘텐츠 생성의 새로운 패러다임인 Vibe AIGC를 소개합니다. 이 패러다임 아래에서 사용자의 역할은 기존의 프롬프트 엔지니어링을 넘어서, 미적 선호도, 기능적 논리 등을 포괄하는 높은 수준의 표현인 'Vibe'를 제공하는 지휘관(Commander)으로 진화합니다. 중앙 집중형 메타 플래너(Meta-Planner)는 시스템 설계자 역할을 하며, 이 'Vibe'를 실행 가능하고, 검증 가능하며, 적응적인 에이전트 파이프라인으로 해체합니다. 확률적 추론에서 논리적 조정으로의 전환을 통해 Vibe AIGC는 인간의 상상력과 기계 실행 간의 간극을 메꿉니다. 우리는 이러한 변화가 인간-AI 협력 경제를 재정의하고, AI를 취약한 추론 엔진이 아닌 복잡하고 장기적인 디지털 자산 생성을 민주화하는 견고한 시스템 수준의 엔지니어링 파트너로 변모시킬 것이라고 주장합니다.
사전 훈련된 확산 또는 흐름 정합 정책이 동일한 작업이 장애물 근처에서, 이동된 지지면 위에서, 또는 약간의 주변 물체 속에서 수행될 때 실패하는 이유는 무엇일까? 이러한 실패는 대부분 운동 기술의 부재를 반영하지 않는다. 오히려 이는 훈련-테스트 차이 하에서의 모방 학습 한계를 드러내며, 행동 생성이 훈련 특정 공간 구성 및 작업 명세에 긴밀하게 결합되어 있기 때문이다. 이러한 실패를 해결하기 위한 재훈련이나 미세 조정은 비용이 많이 들 뿐만 아니라 개념적으로도 일치하지 않는다. 필요한 행동들은 이미 존재하지만 테스트 시점에 선택적으로 적용할 수 없기 때문이다. 우리는 고정된 생성형 로봇 정책의 추론 시점 적응을 위한 훈련 불필요 프레임워크인 Vision-Language Steering(VLS)을 제안한다. VLS는 적응을 추론 시점 제어 문제로 취급하여, 정책 매개변수를 수정하지 않고 분포 외 관측-언어 입력에 대응하여 사전 훈련된 확산 또는 흐름 정합 정책의 샘플링 과정을 조종한다. VLS는 시각-언어 모델을 활용하여 궤적 미분 가능 보상 함수를 합성함으로써, 테스트 시점의 공간 및 작업 요구사항을 충족하는 행동 궤적으로의 노이즈 제거 과정을 유도한다. 시뮬레이션과 실제 환경 평가 전반에 걸쳐 VLS는 기존 조종 방법들을 일관되게 능가하며, CALVIN에서 31%, LIBERO-PRO에서 13%의 성능 향상을 달성했다. Franka 로봇에서의 실제 환경 배치는 테스트 시점 공간 및 의미론적 변화 하에서도 강력한 추론 시점 적응 능력을 추가로 입증한다. 프로젝트 페이지: https://vision-language-steering.github.io/webpage/
최신 언어 모델은 강력한 추론 능력과 장기적인 도구 사용 능력을 보여주고 있습니다. 그러나 기존 RAG 시스템은 이러한 능력을 충분히 활용하지 못하고 있습니다. 여전히 두 가지 패러다임에 의존하는데, (1) 단일 단계로 문서를 검색하여 모델 입력에 연결하는 알고리즘을 설계하거나, (2) 사전에 워크플로를 정의하고 모델이 단계별로 실행하도록 프롬프팅하는 방식입니다. 두 패러다임 모두 모델이 검색 결정 과정에 참여할 수 없게 하여 모델 성능 향상에 따른 효율적인 확장을 방해합니다. 본 논문에서는 계층적 검색 인터페이스를 모델에 직접 제공하는 에이전트 기반 RAG 프레임워크인 A-RAG를 소개합니다. A-RAG는 키워드 검색, 의미 검색, 청크 읽기라는 세 가지 검색 도구를 제공하여 에이전트가 다양한 세분화 수준에서 적응적으로 정보를 탐색하고 검색할 수 있도록 합니다. 여러 오픈 도메인 질의응답 벤치마크에서의 실험 결과, A-RAG는 유사하거나 더 적은 수의 검색 토큰을 사용하면서도 기존 접근법들을 지속적으로 능가하는 것으로 나타나, A-RAG가 모델의 능력을 효과적으로 활용하고 다양한 RAG 작업에 동적으로 적응함을 입증했습니다. 또한 모델 크기와 테스트 시 연산량에 따른 A-RAG의 확장성을 체계적으로 연구했습니다. 향후 연구를 위해 코드와 평가 도구 세트를 공개할 예정입니다. 코드와 평가 도구 세트는 https://github.com/Ayanami0730/arag에서 확인할 수 있습니다.
검색 에이전트는 지식 베이스(또는 웹)를 추론하고 검색하여 질문에 답변하는 언어 모델(LM)입니다. 최근 방법들은 검증 가능한 보상을 활용한 강화 학습(RLVR)을 통해 최종 답변 정확도만을 지도합니다. 대부분의 RLVR 검색 에이전트는 일반 도메인 질의응답(QA)을 다루는데, 이는 과학, 공학, 의학 분야의 기술적 AI 시스템에 대한 관련성을 제한합니다. 본 연구에서는 과학 논문을 검색하고 추론하도록 에이전트를 훈련시키는 방법을 제안합니다. 이는 기술적 질의응답 능력을 평가하며, 실제 과학자들에게 직접적으로 관련되고, 이러한 능력은 미래 AI 과학자 시스템에 핵심적일 것입니다. 구체적으로, 우리는 1,600만 개의 생의학 논문 초록으로 구성된 검색 코퍼스를 공개하고, 이 코퍼스에서 답변이 가능한 6만 개의 샘플을 포함한 PaperSearchQA라는 도전적인 사실형 QA 데이터셋과 벤치마크를 구축했습니다. 우리는 이 환경에서 검색 에이전트를 훈련시켜 비-RL 검색 기준 모델들을 능가하도록 했으며, 추가적인 정량적 분석을 수행하고 계획, 추론, 자기 검증과 같은 흥미로운 에이전트 행동을 관찰했습니다. 우리의 코퍼스, 데이터셋 및 벤치마크는 RLVR 훈련을 위한 인기 있는 Search-R1 코드베이스와 호환되며 https://huggingface.co/collections/jmhb/papersearchqa 에서 공개되었습니다. 마지막으로, 우리의 데이터 생성 방법은 확장 가능하며 다른 과학 분야로 쉽게 확장할 수 있습니다.
대규모 언어 모델(LLM)의 급속한 성장은 단일 GPU 하드웨어의 진화 속도를 앞지르며, 모델 규모가 점차 연산 능력이 아닌 메모리 용량에 의해 제약받게 되었습니다. 현대의 학습 시스템은 분산 병렬화 및 CPU와 스토리지 계층을 통한 오프로딩을 통해 GPU 메모리를 확장하지만, 근본적으로 GPU가 지속적인 모델 복제본과 완전한 autograd 그래프를 호스팅하는 GPU 중심 실행 패러다임을 유지하고 있습니다. 그 결과, 대규모 모델 확장은 다중 GPU 클러스터, 복잡한 분산 런타임, 예측 불가능한 호스트 메모리 소비와 밀접하게 결합되어 지시 튜닝, 정렬, 도메인 적응과 같은 노드 규모의 학습 후 작업에 상당한 장벽을 만들어냅니다. 본 논문에서는 대규모 모델 최적화를 위해 CPU와 GPU의 역할을 재정의하는 메모리 중심 학습 시스템인 Horizon-LM을 제시합니다. Horizon-LM은 호스트 메모리를 권위 있는 파라미터 저장소로 간주하고 GPU는 CPU-마스터, GPU-템플릿 실행 모델을 통해 일시적인 컴퓨팅 엔진으로만 사용합니다. 지속적인 GPU 상주 모듈과 autograd 그래프를 제거하고, 수동 기울기 전파를 통한 명시적 재계산을 채택하며, 파이프라인된 이중 버퍼 실행 엔진을 도입함으로써, Horizon-LM은 모델 규모를 GPU 개수에서 분리하고 메모리 사용량을 이론적 파라미터 용량으로 제한합니다. 1.5TB 호스트 RAM을 갖춘 단일 H200 GPU에서 Horizon-LM은 120B 파라미터 규모의 모델을 안정적으로 학습합니다. 표준 단일 A100 머신에서 Horizon-LM은 수치적 정확도를 유지하면서 CPU 오프로딩을 사용하는 DeepSpeed ZeRO-3 대비 최대 12.2배 높은 학습 처리량을 달성합니다. 다양한 플랫폼과 규모에서 Horizon-LM은 높은 장치 활용률과 예측 가능한 메모리 증가를 유지하며, 노드 규모의 대규모 모델 학습에 대한 진정한 실현 가능성 경계를 정의하는 것은 GPU 메모리가 아닌 호스트 메모리임을 입증합니다.
소프트웨어 공학(Software Engineering, SWE)을 위한 대규모 언어 모델(Large Language Model, LLM) 에이전트의 발전은 다양한 프로그래밍 언어에 걸쳐 실행 가능한 환경을 구축하는 복잡성에서 비롯된 검증 가능 데이터셋의 부족이라는 병목 현상에 의해 제약을 받고 있습니다. 이를 해결하기 위해 우리는 검증 가능한 작업 인스턴스의 확장적 생성을 용이하게 하는 자동화된 환경 구축을 위한 다중 언어 프레임워크인 MEnvAgent를 소개합니다. MEnvAgent는 구축 실패를 자율적으로 해결하기 위해 다중 에이전트 기반 계획-실행-검증(Planning-Execution-Verification) 아키텍처를 채택하고, 기존 환경을 점진적으로 패치하여 계산 오버헤드를 줄이는 새로운 환경 재사용 메커니즘(Environment Reuse Mechanism)을 통합합니다. 10개 언어에 걸친 1,000개 작업으로 구성된 새로운 벤치마크인 MEnvBench에서의 평가 결과, MEnvAgent가 기준 모델들을 능가하며 실패-대-성공(Fail-to-Pass, F2P) 비율을 8.6% 향상시키고 시간 비용을 43% 절감하는 것으로 나타났습니다. 또한, 우리는 MEnvAgent의 유용성을 입증하기 위해 현재까지 가장 큰 규모의 오픈소스 다중 언어 현실적 검증 가능 Docker 환경 데이터셋인 MEnvData-SWE와 다양한 모델들에 걸쳐 SWE 작업에서 일관된 성능 향상을 가능하게 하는 솔루션 궤적(Solution Trajectories)을 함께 구축했습니다. 우리의 코드, 벤치마크 및 데이터셋은 https://github.com/ernie-research/MEnvAgent 에서 이용할 수 있습니다.
대규모 언어 모델(LLM)은 명시적 단서나 악성 콘텐츠 없이도 겉보기에는 무해한 훈련 데이터로부터 의도치 않은 편향을 학습할 수 있습니다. 기존 방법론은 미세 조정 전에 이러한 위험을 탐지하는 데 어려움을 겪어 사후 평가가 비용이 많이 들고 비효율적입니다. 이러한 문제를 해결하기 위해 우리는 훈련 전에 의도하지 않은 모델 행동을 예측하는 새로운 과제인 Data2Behavior를 소개합니다. 또한 경량 접근법인 MDF(Manipulating Data Features)를 제안합니다. MDF는 후보 데이터를 평균 표현으로 요약하여 기본 모델의 순전파 과정에 주입함으로써, 데이터 내 잠재적 통계적 신호가 모델 활성화를 형성하도록 하여 매개변수 업데이트 없이도 잠재적 편향과 안전 위험을 드러냅니다. MDF는 미세 조정에 필요한 GPU 자원의 약 20%만 소비하면서도 신뢰할 수 있는 예측 성능을 달성합니다. Qwen3-14B, Qwen2.5-32B-Instruct, Gemma-3-12b-it 모델에 대한 실험을 통해 MDF가 의도하지 않은 행동을 예측하고 사전 훈련 취약점에 대한 통찰력을 제공할 수 있음을 확인했습니다.
다중 턴 에이전트-환경 상호작용 동안 에이전트의 사고와 관찰을 관리하는 것은 에이전트 효율성을 향상시키기 위한 새로운 전략으로 부상하고 있습니다. 그러나 기존 연구들은 전체 상호작용 궤적을 동등하게 취급하여, 턴마다 사고 필요성과 관찰 효용성이 다르다는 점을 간과했습니다. 이를 위해 우리는 먼저 사고와 관찰이 에이전트의 효과성과 효율성에 미치는 영향을 정량적으로 분석합니다. 이러한 분석 결과를 바탕으로, 우리는 LLM 에이전트가 중복된 사고와 관찰을 적응적으로 생략하도록 하는 통합 훈련 프레임워크인 Agent-Omit을 제안합니다. 구체적으로, 우리는 먼저 단일 턴 및 다중 턴 생략 시나리오를 모두 포함한 소량의 콜드스타트 데이터를 합성하여 에이전트가 생략 행동을 학습하도록 미세 조정합니다. 더 나아가, 이중 샘플링 메커니즘과 맞춤형 생략 보상을 통합하여 에이전트의 적응형 생략 능력을 강화하는 생략 인식 강화 학습 접근법을 도입합니다. 이론적으로, 우리의 생략 정책의 편차가 KL-발산에 의해 상한이 설정됨을 증명합니다. 5가지 에이전트 벤치마크에 대한 실험 결과는 우리가 구축한 Agent-Omit-8B가 7개의 최첨단 LLM 에이전트와 비슷한 성능을 얻을 수 있으며, 7개의 효율적인 LLM 에이전트 방법론보다 최고의 효과성-효율성 균형을 달성함을 보여줍니다. 우리의 코드와 데이터는 https://github.com/usail-hkust/Agent-Omit에서 확인할 수 있습니다.
효율적인 도구 활용과 추론 능력은 대규모 추론 모델(LRM)이 복잡한 현실 문제를 해결하기 위한 핵심 역량입니다. 실증 분석을 통해 우리는 현재 LRM이 복잡한 도구 사용 시나리오에서 하위 작업 분해 능력이 부족하여 '게으른 추론(Lazy Reasoning)'이 발생함을 확인했습니다. 이를 해결하기 위해 우리는 두 단계의 학습 프레임워크 D-CORE(작업 분해 및 추론 과정 구성)를 제안합니다. 이는 먼저 자기 지식 증류를 통해 LRM의 작업 분해 추론 능력을 강화한 후, 다양성 인지 강화 학습을 통해 LRM의 성찰적 추론 능력을 회복시키는 방식입니다. D-CORE는 다양한 벤치마크와 모델 규모에서 견고한 도구 사용 성능 향상을 달성했습니다. BFCLv3에서의 실험 결과는 우리 방법의 우수성을 입증했습니다: D-CORE-8B는 77.7%의 정확도로 최고 성능의 8B 모델을 5.7% 능가했으며, D-CORE-14B는 79.3%의 정확도로 새로운 최첨단 기록을 세워 규모가 5배 큰 70B 모델보다 뛰어난 성능을 보였습니다. 소스 코드는 https://github.com/alibaba/EfficientAI에서 확인할 수 있습니다.
최근 통합 멀티모달 모델(UMM)의 발전은 이해와 생성 과제 모두에서 놀라운 진전을 보여주고 있습니다. 그러나 이 두 가지 능력이 단일 모델 내에서 진정으로 조화되고 통합되었는지는 여전히 불분명합니다. 이러한 의문을 탐구하기 위해 우리는 이해와 생성 능력 간의 격차를 정량화하고, 두 "통합" 방향의 인지적 일관성을 측정하기 위한 양방향 벤치마크인 GapEval을 소개합니다. 각 질문은 이미지와 텍스트 양쪽 양식으로 답변할 수 있어 모델의 양방향 추론 능력과 교차 모달 일관성을 대칭적으로 평가할 수 있습니다. 실험 결과, 다양한 아키텍처를 가진 광범위한 UMM에서 두 방향 간의 지속적인 격차가 나타나며, 이는 현재 모델들이 두 능력의 깊은 인지적 융합이 아닌 표면적인 통합에 그치고 있음을 시사합니다. 근본적인 메커니즘을 추가로 탐색하기 위해 우리는 잠재적 한계를 설명하기 위해 지식 조작의 관점에서 실증적 연구를 수행합니다. 우리의 연구 결과는 UMM 내의 지식이 종종 분리된 상태로 남아 있음을 지적합니다. 능력의 출현과 다양한 양식 간의 지식이 동기화되지 않아 향후 추가 탐구의 길을 열어줍니다.
공간 추론은 인간 인지의 기본적인 측면이지만, 현대 시각-언어 모델(VLM)에게는 여전히 주요 과제로 남아 있습니다. 기존 연구는 주로 합성 또는 LLM 생성 환경에 의존하여 제한된 작업 설계와 퍼즐 형태의 구성을 보였으며, VLM이 마주하는 현실 세계의 복잡성, 시각적 노이즈, 다양한 공간 관계를 제대로 포착하지 못했습니다. 이를 해결하기 위해 우리는 현실적이고 제약이 없는 맥락에서 VLM의 공간 추론 능력을 평가하는 포괄적인 벤치마크인 SpatiaLab을 소개합니다. SpatiaLab은 상대적 위치 지정, 깊이 & 폐색, 방향, 크기 & 규모, 공간 탐색, 3D 기하학이라는 6가지 주요 범주에 걸쳐 1,400개의 시각 질문-답변 쌍으로 구성되어 있으며, 각 주요 범주는 5개의 하위 범주를 가져 총 30개의 distinct한 작업 유형을 제공합니다. 각 하위 범주에는 최소 25개의 질문이, 각 주요 범주에는 최소 200개의 질문이 포함되어 객관식 및 주관식 평가를 모두 지원합니다. 오픈소스 및 클로즈드소스 모델, 추론 중심 모델, 특화된 공간 추론 모델을 포함한 다양한 최첨단 VLM에 대한 실험 결과, 인간에 비해 공간 추론 능력에서 상당한 격차가 있음이 드러났습니다. 객관식 설정에서 InternVL3.5-72B는 54.93%의 정확도를 기록한 반면 인간은 87.57%의 정확도를 보였습니다. 주관식 설정에서는 모든 모델의 성능이 약 10-25% 하락했으며, GPT-5-mini가 40.93%로 가장 높은 점수를 기록했지만 이는 인간의 64.93%에 미치지 못했습니다. 이러한 결과는 복잡한 공간 관계, 깊이 지각, 탐색, 3D 기하학 처리에 있어 핵심적인 한계를 부각시킵니다. 다양하고 현실적인 평가 프레임워크를 제공함으로써 SpatiaLab은 VLM의 공간 추론 능력 향상을 위한 중요한 과제와 기회를 드러내며, 강력하고 인간 수준의 공간 이해를 지향하는 미래 연구를 안내하는 벤치마크를 제시합니다. SpatiaLab은 https://spatialab-reasoning.github.io/에서 이용 가능합니다.
코드 관련 작업을 위한 대규모 언어 모델(LLM) 학습은 일반적으로 고품질 코드-문서 쌍에 의존하는데, 이러한 데이터는 수집 비용이 높으며 특히 니치 프로그래밍 언어의 경우 흔히 부족한 실정입니다. 본 연구에서는 코드 생성과 문서 생성을 공동으로 최적화하도록 설계된 자기 지도 강화 학습 프레임워크인 BatCoder를 소개합니다. BatCoder는 역번역 전략을 활용합니다. 먼저 코드에서 문서를 생성한 다음, 생성된 문서를 사용하여 원본 코드를 재구성합니다. 원본 코드와 재구성된 코드 간의 의미론적 유사도는 암시적 보상으로 작용하여, 강화 학습을 통해 문서에서 코드를 생성하는 작업과 그 반대 작업 모두에서 모델 성능을 향상시킵니다. 이 접근법을 통해 코드만으로 모델을 학습시킬 수 있어 활용 가능한 학습 예시를 크게 증가시킬 수 있습니다. 7B 매개변수 모델을 사용하여 HumanEval과 MBPP에서 평가한 결과, BatCoder는 각각 83.5%와 81.0%의 pass@1 성능을 달성하여 강력한 오픈소스 기준 모델들을 능가했습니다. 더불어, 해당 프레임워크는 학습 데이터 규모와 모델 용량 측면에서 모두 일관된 성능 확장성을 보여주었습니다.
대규모 언어 모델(LLM)을 추론 벤치마크에 대해 강화 학습으로 미세 조정할 때는 각 벤치마크마다 주로 이진 형태의 특정 보상 함수가 필요합니다. 이에는 두 가지 잠재적 한계가 따릅니다: 보상 함수 설계의 필요성과 이진 보상의 희소성 가능성입니다. 본 연구에서는 참조 답변(또는 데이터에 존재하는 다른 프롬프트 연속)을 생성할 확률 또는 로그 확률에서 도출된 보상 함수를 체계적으로 연구합니다. 이러한 보상은 특정 검증기에 의존하지 않으며 대규모로 활용 가능하다는 장점이 있습니다. 여러 최근 연구(예: VeriFree, JEPO, RLPR, NOVER)에서 유사한 보상 사용을 제안했습니다. 우리는 가능도 기반 보상의 변형들을 표준 기준 모델과 체계적으로 비교하며, 표준 수학적 추론 벤치마크와 외부 검증기가 없는 장문 형식 답변 설정에서 성능을 테스트합니다. 참조 답변의 로그 확률을 사고 연쇄(CoT) 학습의 보상으로 사용하는 것이 모든 설정에서 우수한 성능을 보인 유일한 방법임을 발견했습니다. 이 보상은 사전 학습 시 사용된 다음 토큰 로그 가능도 손실과도 일관성이 있습니다. 검증 가능한 설정에서는 로그 확률 보상이 표준 이진 보상을 사용한 강화 학습과 비교하여 동등하거나 더 높은 성공률을 보였으며, 훨씬 더 나은 퍼플렉서티를 달성했습니다. 검증이 불가능한 설정에서는 SFT(지도 미세 조정)와 유사한 성능을 보였습니다. 반면, VeriFree와 같은 확률 기반 방법들은 정답을 얻을 확률이 소실되어 검증 불가능한 설정에서 성능이 정체되었습니다. 전반적으로, 이 연구는 로그 확률 보상이 CoT 미세 조정을 위한 실용적인 방법으로, 짧은 검증 가능 답변과 긴 검증 불가능 답변 설정을 연결하는 역할을 함을 입증합니다.
현재 구현된 VLM 평가는 심각한 중복성과 커버리지 불균형을 보이는 정적이고 전문가 정의 방식의 수동 주석 벤치마크에 의존하고 있습니다. 이러한 노동 집약적 패러다임은 컴퓨팅 및 주석 리소스를 고갈시키고 비용을 증가시키며 모델 순위 왜곡을 초래하여 궁극적으로 반복적 개발을 저해합니다. 이를 해결하기 위해 우리는 두 개의 협업 에이전트를 통해 벤치마크 구축과 평가를 자동화하는 최초의 에이전트 기반 프레임워크인 Agentic Automatic Evaluation(A2Eval)을 제안합니다. 데이터 에이전트는 능력 차원을 자율적으로 도출하고 균형 잡힌 컴팩트 평가 세트를 구성하는 반면, 평가 에이전트는 실행 가능한 평가 파이프라인을 종합 및 검증하여 완전 자율적이고 고충실도의 평가를 가능하게 합니다. 10개 벤치마크와 13개 모델에서 평가된 A2Eval은 평가 세트를 85% 압축하고 전체 컴퓨팅 비용을 77% 절감하며 평가 품질을 유지한 채 4.6배의 속도 향상을 제공합니다. 무엇보다 A2Eval은 체계적 순위 편향을 교정하고 Spearman's rho=0.85로 인간 정렬도를 향상시키며 높은 순위 충실도(Kendall's tau=0.81)를 유지하여 고충실도·저비용 구현 평가의 새로운 표준을 제시합니다. 우리의 코드와 데이터는 곧 공개될 예정입니다.
접지된 다중모달 개체명 인식(GMNER)은 텍스트 기반 개체를 추출하고 의미 범주를 할당하며 해당 시각적 영역에 접지하는 것을 목표로 합니다. 본 연구에서는 다중모달 대규모 언어 모델(MLLM)이 계단식 파이프라인 내 보조 도구 역할을 넘어 엔드투엔드 방식으로 GMNER를 수행할 수 있는 잠재력을 탐구합니다. 중요한 것은 우리의 연구에서 MLLM이 모달리티 편향(시각적 편향 및 텍스트 편향)을 보인다는 근본적인 과제를 발견했다는 점입니다. 이는 모델이 엄격한 교차 모달 검증보다는 단일 모달 단축 경로를 취하는 경향에서 비롯됩니다. 이를 해결하기 위해 우리는 구조화된 교차 모달 추론을 강제하는 모달리티 인식 일관성 추론(MCR)을 제안합니다. MCR은 다중 스타일 추론 체계 주입(MRSI)과 제약 기반 검증 가능 최적화(CVO)로 구성됩니다. MRSI는 추상적 제약 조건을 실행 가능한 추론 체인으로 변환하는 반면, CVO는 모델이 그룹 상대 정책 최적화(GRPO)와 추론 궤적을 동적으로 정렬할 수 있도록 합니다. GMNER 및 시각적 접지 작업에 대한 실험을 통해 MCR이 모달리티 편향을 효과적으로 완화하고 기존 베이스라인 대비 우수한 성능을 달성함을 입증했습니다.
자동회귀 비디오 확산 모델은 인과적 모델링과 반복적 노이즈 제거 특성으로 인해 최근 상당한 연구 관심을 받고 있습니다. 본 연구에서는 이러한 모델들의 다중 헤드 자기 주의 메커니즘이 과거 프레임을 충분히 활용하지 못함을 발견했습니다: 약 25%의 헤드들이 현재 프레임에만 집중하며, 이들의 KV 캐시를 제거해도 성능 저하는 미미합니다. 이를 바탕으로 우리는 다양한 헤드 간 컨텍스트 접근성을 제어하는 간단하면서 효과적인 방법인 Dummy Forcing을 제안합니다. 구체적으로, 제안된 이질적 메모리 할당 기법은 헤드별 컨텍스트 중복성을 줄이고, 동적 헤드 프로그래밍을 통해 헤드 유형을 적응적으로 분류합니다. 더 나아가 더 적극적인 캐시 압축을 위한 컨텍스트 패킹 기법을 개발했습니다. 추가 학습 없이도 우리의 Dummy Forcing은 기준 모델 대비 최대 2.0배의 속도 향상을 제공하며, 0.5% 미만의 품질 저하로 24.3 FPS의 비디오 생성을 지원합니다. 프로젝트 페이지는 https://csguoh.github.io/project/DummyForcing/에서 확인할 수 있습니다.
우리는 다섯 튀르크어 언어 쌍에 대한 기계 번역을 탐구한다: 러시아어-바시키르어, 러시아어-카자흐어, 러시아어-키르기스어, 영어-타타르어, 영어-추바시어. 합성 데이터에 대해 LoRA를 사용하여 nllb-200-distilled-600M을 미세 조정한 결과 카자흐어는 chrF++ 49.71, 바시키르어는 46.94를 달성했다. 유사한 예시를 검색하여 DeepSeek-V3.2를 프롬프팅한 방법은 추바시어에서 chrF++ 39.47을 달성했다. 타타르어의 경우 제로샷 또는 검색 기반 접근법으로 chrF++ 41.6을, 키르기스어의 경우 제로샷 접근법으로 45.6을 달성했다. 우리는 데이터셋과 획득한 가중치를 공개한다.
최근 다중 에이전트 토론(MAD)이 점차 주목받고 있으며, 여러 LLM 인스턴스가 구조화된 토론을 통해 협력적으로 문제를 해결하는 방식입니다. 그러나 기존 MAD 방법론은 개별 에이전트 간 컨텍스트 불일치로 인해 논의 일관성이 쉽게 저하되고 LLM이 일관된 해결책에 도달하지 못하는 한계가 있습니다. 본 논문에서는 자동 정보 구성 및 정제를 통해 각 토론 라운드별로 동적으로 컨텍스트 지시문을 생성할 수 있는 컨텍스트 생성기를 각 에이전트에 학습시키는 다중 LLM 컨텍스트 학습 방법(M2CL)을 제안합니다. 구체적으로, 컨텍스트 지시문에 대한 이론적 통찰을 바탕으로 M2CL은 자기 조정 메커니즘을 통해 컨텍스트 일관성과 출력 차이를 제어하도록 생성기를 학습합니다. 이를 통해 LLM이 다수 의견의 잡음에 대한 조기 수렴을 방지하고 점차적으로 올바른 합의에 도달할 수 있습니다. M2CL은 학술적 추론, 구현 과제, 모바일 제어 등 복잡한 과제에서 평가되었으며, 기존 방법론 대비 20%~50% 우수한 성능을 보였을 뿐만 아니라 우수한 전이성과 계산 효율성을 확인하였습니다.
생성적 3D 모델의 급속한 확산은 애니메이션 파이프라인에서 리깅이라는 중요한 병목 현상을 야기했습니다. 기존 자동화 방법은 스키닝을 비정형적인 고차원 회귀 문제로 접근하는 근본적 한계로 인해 최적화가 비효율적이며, 일반적으로 골격 생성과 분리되어 있습니다. 우리는 이것이 표현 방식의 문제라고 보고 스키닝 가중치를 위한 학습된 간결하고 이산적인 표현인 SkinTokens를 제안합니다. FSQ-CVAE를 활용하여 스키닝의 내재적 희소성을 포착함으로써, 과제를 연속 회귀 문제에서 더 다루기 쉬운 토큰 시퀀스 예측 문제로 재구성합니다. 이 표현은 전체 리그를 골격 매개변수와 SkinTokens의 단일 시퀀스로 모델링하여 골격과 스킨 변형 간의 복잡한 의존 관계를 학습하는 통합 자기회귀 프레임워크인 TokenRig를 가능하게 합니다. 이 통합 모델은 맞춤형 기하학적 및 의미론적 보상을 통해 복잡한 분포 외 자산에 대한 일반화를 개선하는 강화 학습 단계에 적용 가능합니다. 정량적으로 SkinTokens 표현은 최신 방법 대비 스키닝 정확도에서 98%~133%의 향상을 가져왔으며, RL로 정제된 전체 TokenRig 프레임워크는 뼈 예측 정확도를 17%~22% 향상시켰습니다. 우리의 연구는 더 높은 정확도와 강건성을 제공하는 통합 생성적 리깅 접근법을 제시하며, 3D 콘텐츠 제작의 오랜 난제에 확장 가능한 해결책을 제시합니다.
본 연구에서는 마스크 확산 언어 모델(MDLM)의 효과적인 샘플링을 가능하게 하는 추론 시간 스케일링 알고리즘인 자기 보상 순차 몬테카를로(SMC)를 제안한다. 우리의 알고리즘은 기존 MDLM 대부분이 각 단계에서 예측 신뢰도가 가장 높은 토큰만을 보존하는 신뢰도 기반 샘플링 전략에 의존한다는 관찰에서 출발한다. 이는 생성 과정을 노이즈에 민감한 탐욕적 디코딩 패러다임으로 제한하여 가능한 경로의 다양성이 필연적으로 붕괴되는 결과를 초래한다. 우리는 이러한 문제를 해결하기 위해 궤적 탐색을 위해 여러 상호작용 확산 과정(입자)을 병렬로 실행하는 방법을 제안한다. 특히 궤적 수준 신뢰도를 자기 보상 신호로 도입하여 입자 중요도 가중치를 할당한다. 샘플링 과정에서 입자는 반복적으로 가중치가 부여되고 재샘플링되어 생성 과정을 전역적으로 신뢰도가 높은 고품질 샘플로 체계적으로 유도한다. 우리의 자기 보상 SMC는 다양한 마스크 확산 언어 모델과 벤치마크에서 추가 학습이나 보상 지도 없이도 상당한 성능 향상을 달성하며, 병렬 추론 능력을 향상된 샘플링 품질로 효과적으로 전환함을 입증하였다. 코드는 https://github.com/Algolzw/self-rewarding-smc에서 확인할 수 있다.
우리는 거시적 접근에서 미시적 예측으로의 다중 규모 자동회귀 프레임워크인 단백질 자동회귀 모델링(PAR)을 제안합니다. PAR은 단백질의 계층적 특성을 활용하여 조각상을 세밀하게 다듬는 방식과 유사하게, 먼저 전체적인 토폴로지를 형성한 후 점차 구조적 디테일을 정교화합니다. 이를 구현하기 위해 PAR은 세 가지 핵심 구성 요소로 이루어집니다: (i) 학습 과정에서 단백질 구조를 다중 규모로 표현하는 다중 규모 다운샘플링 연산, (ii) 다중 규모 정보를 인코딩하고 구조 생성을 안내하는 조건부 임베딩을 생성하는 자동회귀 트랜스포머, (iii) 이러한 임베딩을 조건으로 백본 원자 구조를 생성하는 흐름 기반 백본 디코더. 또한 자동회귀 모델은 학습과 생성 과정의 불일치로 인한 노출 편향 문제로 인해 구조 생성 품질이 크게 저하됩니다. 우리는 노이즈 컨텍스트 학습과 예약 샘플링을 도입하여 이 문제를 효과적으로 완화하며 견고한 백본 생성을 가능하게 합니다. 특히 PAR은 파인튜닝 없이도 강력한 제로샷 일반화 성능을 보여주며, 유연한 인간 주도 조건부 생성 및 모티프 스캐폴딩을 지원합니다. 무조건 생성 벤치마크에서 PAR은 단백질 분포를 효과적으로 학습하고 높은 설계 품질의 백본을 생성하며 우수한 확장성을 나타냅니다. 이러한 특성들은 PAR을 단백질 구조 생성 분야의 유망한 프레임워크로 입증합니다.
영상의학 분석에서는 다양한 영상 양식에 걸친 이질적 하위 작업을 지원할 수 있는 사전 훈련된 시각적 표현의 이점이 점점 더 중요해지고 있다. 본 연구에서는 표현 재사용 및 작업 간 전이 가능성을 강조하는 영상의학 기반 원리에 따라 설계되고 120만 장의 의료 영상으로 사전 훈련된 자기 지도 학습 방식의 영상의학 기초 모델인 OmniRad를 소개한다. 우리는 분류를 위한 고정 백본과 경량화된 작업별 어댑터 사용부터 완전한 종단 간 미세 조정에 이르기까지 다양한 하위 작업 적용 방식을 통해 사전 훈련된 인코더를 평가하여 표현 품질과 작업별 성능을 종합적으로 분석했다. OmniRad는 여러 양식을 아우르는 분류 및 분할 공개 벤치마크를 대상으로 평가되었다. MedMNISTv2 데이터셋 군에서 OmniRad는 경쟁 기초 모델 대비 분류 F1 점수를 최대 2.05% 향상시켰다. 조밀 예측 작업에서는 고정 표현을 사용할 때 6개 MedSegBench 데이터셋에 걸쳐 평균 Dice 점수 향상을 달성했다. 정성적 분석과 잠재 공간 시각화를 통해 특징 클러스터링 및 양식 관련 분리 성능이 개선되었음을 확인하였다.
최근 연구에서는 최적화(PPO)가 RLHF의 RL 부분에 대한 표준적인 방법으로 자리매김했습니다. PPO는 실증적으로 우수한 성능을 보이지만 휴리스틱에 기반한 동기를 가지며, LM-RLHF에서 사용되는 KL-발산 제약을 임시적인 방식으로 처리합니다. 또한 보상 진동, 엔트로피 붕괴, 가치 함수 변동, 그리고 갑작스러운 정책 발산 등의 문제가 발생하여 빈번한 재시작과 광범위한 하이퍼파라미터 조정이 필요합니다. 본 논문에서는 LM-RLHF 환경을 위한 새로운 순수 온-정책 액터-크리틱 RL 방법을 개발합니다. 우리는 SAFE(엔트로피 인식 제어를 통한 안정적 조정 미세조정)를 제안합니다. 이는 비관적 가치 추정을 위한 이중 소프트-민 크리틱과 엔트로피 기반 KL 규제, PID 제어 적응형 임계값을 결합한 새로운 다층 안정화 프레임워크를 결합한 혁신적인 RLHF 알고리즘입니다. 기존 PPO의 대칭적 KL 패널티와 달리, SAFE는 높은 엔트로피 탐색과 낮은 엔트로피 모드 붕괴를 구분하며 보상 속도를 기반으로 동적으로 패널티를 조정합니다. 30억 파라미터 모델에서의 실험 결과, SAFE는 PPO 대비 훈련 평균 보상에서 +5.15%(0.725 대 0.689)의 향상을 달성했으며, 미미한 보상 급감과 PPO보다 우수한 KL 제어 성능을 보였습니다. 우리의 방법은 최소한의 계산 오버헤드만 추가하며, 공격적인 학습 속도를 유지하면서도 실제 제품 배포에 적합한 안정적인 장기간 최적화를 보장하는 해석 가능하고 급감에 강건한 RLHF 프레임워크를 제공합니다. 코드는 https://github.com/ryyzn9/SAFE에서 확인할 수 있습니다.
현대 언어 모델은 거의 전적으로 고정 토크나이저(UTF-8 바이트 시퀀스 기반의 외부 무손실 압축기)가 생성한 토큰 시퀀스로 훈련되어 모델이 해당 압축기에 의존하게 됩니다. 본 연구는 프록시 압축을 소개하며, 이는 추론 시 엔드투엔드 원시 바이트 인터페이스를 제공하면서도 압축된 입력의 효율성 이점을 보존하는 대안적 훈련 방식입니다. 훈련 과정에서 하나의 언어 모델이 원시 바이트 시퀀스와 외부 압축기가 생성한 압축된 뷰를 함께 학습하며, 이를 통해 모델은 압축된 시퀀스와 원시 바이트를 내부적으로 정렬하는 방법을 습득합니다. 이러한 정렬은 주로 훈련 시 사용되었으나 추론 시에는 폐기되는 압축된 입력으로 학습하더라도 두 형식 간의 강력한 전이를 가능하게 합니다. 코드 언어 모델링에 대한 광범위한 실험을 통해 프록시 압축이 훈련 효율을 크게 향상시키고, 고정된 컴퓨팅 예산 내에서 순수 바이트 수준 기준 모델을 크게 능가함을 입증했습니다. 모델 규모가 커질수록 이러한 이점은 더욱 두드러지며, 프록시 훈련된 모델은 결국 토크나이저 접근법과 동등하거나 그 이상의 성능을 달성합니다. 이는 전적으로 원시 바이트만을 사용하면서도 바이트 수준 모델링의 고유한 견고성을 유지합니다.
4D 생성 기술은 입력된 텍스트, 이미지 또는 비디오로부터 동적인 3D 객체를 합성하는 분야에서 눈에 띄는 진전을 보여왔습니다. 그러나 기존 방법들은 모션을 암묵적인 변형 필드로 표현하는 경우가 많아 직접적인 제어와 편집이 제한됩니다. 이러한 문제를 해결하기 위해, 우리는 단안 비디오 입력으로부터 편집 가능한 동적 3D 가우시안을 생성하는 새로운 프레임워크인 SkeletonGaussian을 제안합니다. 우리의 접근 방식은 모션을 스켈레톤에 의해 명시적으로 구동되는 희소 강체 운동과 세분화된 비강체 운동으로 분해하는 계층적 관절 표현을 도입합니다. 구체적으로, 우리는 강력한 스켈레톤을 추출하고 선형 블렌드 스키닝을 통해 강체 운동을 구동한 뒤, 비강체 변형을 위한 헥스플레인 기반 정제 과정을 거쳐 해석 가능성과 편집성을 향상시킵니다. 실험 결과는 SkeletonGaussian이 생성 품질에서 기존 방법들을 능가하는 동시에 직관적인 모션 편집을 가능하게 하여, 편집 가능한 4D 생성의 새로운 패러다임을 정립함을 보여줍니다. 프로젝트 페이지: https://wusar.github.io/projects/skeletongaussian/
대규모 언어 모델(LLM) 기반 다중 에이전트 시스템은 반복적 논의를 통해 우수한 추론 성능을 달성하지만, 높은 계산 비용과 오류 전파로 인해 실제 적용에는 한계가 있습니다. 본 논문은 다중 에이전트 동역학을 단일 모델의 가중치로 응축하여 명시적인 실행 시 상호작용을 암묵적인 모델 능력으로 효과적으로 전환하는 새로운 프레임워크인 AgentArk를 제안합니다. 이를 통해 단일 에이전트가 계산 효율성을 유지하면서 다중 에이전트 시스템의 지능을 갖추도록 합니다. 구체적으로, 우리는 다양한 모델, 과제, 규모 및 시나리오에서 세 가지 계층적 응축 전략(추론 강화 미세 조정, 궤적 기반 증강, 과정 인식 응축)을 연구합니다. 계산 부담을 추론 단계에서 학습 단계로 전환함으로써, 응축된 모델은 단일 에이전트의 효율성을 유지하면서 다중 에이전트의 강력한 추론 및 자기 수정 성능을 나타냅니다. 또한 다양한 추론 과제에서 향상된 견고성과 일반화 능력을 보여줍니다. 본 연구가 효율적이고 견고한 다중 에이전트 개발에 관한 향후 연구에 통찰을 제공하기를 바랍니다. 코드는 https://github.com/AIFrontierLab/AgentArk 에서 확인할 수 있습니다.
대규모 언어 모델(LLM)의 추론 실패는 일반적으로 생성 결과의 최종 단계에서만 측정되지만, 많은 실패는 과정 수준의 붕괴로 나타납니다. 즉, 모델이 추론 중간에 "논리의 흐름을 잃는" 현상이 발생합니다. 본 연구에서는 이러한 붕괴 현상이 사전 학습이나 미세 조정 없이도 표준 API에서 제공하는 추론 시 관측 가능한 지표(토큰 로그 확률)만으로 탐지 가능한지 분석합니다. 우리는 연속적 단계 간 분포 변화(JSD)와 불확실성(엔트로피)을 결합한 간단한 불안정성 신호를 정의하고, 각 추적 경로를 최고 불안정성 강도로 요약하며, 이 신호가 실패를 신뢰성 있게 예측함을 입증합니다. GSM8K와 HotpotQA 데이터셋 전반에 걸쳐 불안정성 강도는 AUC 기준 우연 수준 이상으로 오답을 예측하며, 다양한 모델 규모에서 버킷 수준 정확도가 단조롭게 하락하는 패턴을 대규모로 보여줍니다. 중요한 것은 불안정성이 항상 해롭지만은 않다는 점입니다: 초기 불안정성은 이후 안정화와 정답 도출로 이어지는 경우(수정적 불안정성)가 있는 반면, 후기 불안정성은 비슷한 최고 강도에서도 실패로 연결되는 경우(파괴적 불안정성)가 더 많아, 회복 가능성은 분포 변화의 강도뿐만 아니라 남은 디코딩 과정 대비 변화 발생 시점에도 의존함을 시사합니다. 본 방법론은 모델 독립적, 학습 불필요, 재현 가능하며, 교정이나 제어 메커니즘이 아닌 진단적 관점으로 제시됩니다.
직접 정렬 방법은 대규모 언어 모델(LLM)을 인간 선호도에 맞추기 위해 점점 더 많이 사용되고 있습니다. 그러나 많은 실제 정렬 문제는 상충되는 다중 목표를 포함하며, 단순한 선호도 집계는 불안정한 학습과 미흡한 균형(trade-off)을 초래할 수 있습니다. 특히, 가중 손실 방법은 모든 목표를 동시에 개선하는 업데이트 방향을 찾지 못할 수 있으며, 기존 다중 목표 접근법은 명시적 보상 모델에 의존하여 추가적인 복잡성을 도입하고 사용자가 지정한 선호도를 왜곡하는 경우가 많습니다. 본 논문의 기여는 두 가지입니다. 첫째, 우리는 쌍별(pairwise) 선호도 데이터를 직접 활용하고 새로운 클리핑(clipping) 변형을 적용한 갈등 회피 기울기 하강법을 통해 기울기 충돌을 해결하는 RACO(보상 없는 갈등 목표 정렬) 프레임워크를 제안합니다. 우리는 사용자가 지정한 목표 가중치를 존중하는 파레토 임계점(Pareto-critical point)으로의 수렴을 보장하며, 클리핑이 두 목표 설정에서 수렴 속도를 엄밀히 개선할 수 있음을 추가로 보여줍니다. 둘째, 우리는 몇 가지 휴리스틱을 사용하여 우리 방법을 개선하고 제안된 프레임워크의 LLM 정렬 적용 가능성을 입증하기 위한 실험을 수행합니다. 여러 LLM 패밀리(Qwen 3, Llama 3, Gemma 3)에 대한 다중 목표 요약 및 안전성 정렬 작업에 대한 정성적 및 정량적 평가 결과, 우리 방법이 기존 다중 목표 정렬 기준선(baseline) 대비 일관되게 더 나은 파레토 균형을 달성함을 보여줍니다.
우리는 단일 단기 영상에 기반한 시각-언어 모델이 장기 영상 주석 없이도 초장기 영상을 강건하게 이해할 수 있도록 하는 새로운 2단계 직접 선호도 최적화(DPO) 프레임워크인 LongVPO를 제안한다. 1단계에서는 질문을 개별 단일 클립에 고정하고, 이를 방해 요소들과 교차 배치하며, 시각적 유사도 및 질문 특이성 필터링을 적용하여 위치 편향을 완화하고 명확한 지도를 보장하는 방식으로 선호도 삼항 데이터를 합성한다. 또한 기준 모델의 장기 문맥 점수 평가를 고정 클립만으로 근사화하여 계산 부담을 줄인다. 2단계에서는 장기 영상에 대해 재귀적 캡션 생성 파이프라인을 적용하여 장면 수준 메타데이터를 생성한 후, 대규모 언어 모델을 활용하여 다중 세그먼트 추론 질의와 비선호 응답을 생성함으로써 다중 세그먼트 추론 과제를 통해 모델의 선호도를 정렬한다. 단 16K개의 합성 예시와 값비싼 인간 주석 없이도 LongVPO는 여러 장기 영상 벤치마크에서 최첨단 오픈소스 모델들을 능가하며, 강력한 단기 영상 성능(예: MVBench 기준)을 유지함으로써 효율적인 장편 영상 이해를 위한 확장 가능한 패러다임을 제시한다.
저희는 프랑스 국립지리원(IGN France)이 제공하는 권위 있는 프랑스 정사영상과 지형 건물 데이터에서 파생된 대규모 건물 변화 탐지 데이터셋인 FOTBCD를 소개합니다. 단일 도시나 제한된 지역에 국한된 기존 벤치마크와 달리, FOTBCD는 프랑스 본토 전역 28개 주에 걸쳐 있으며, 그중 25개 주는 훈련에, 지리적으로 격리된 3개 주는 평가를 위해 따로 확보되었습니다. 본 데이터셋은 0.2m/픽셀의 해상도로 도시, 교외, 농촌 등 다양한 환경을 포괄합니다. 우리는 약 28,000개의 전/후 이미지 쌍과 픽셀 단위 이진 건물 변화 마스크, 그리고 각각에 대한 패치 수준 공간 메타데이터로 구성된 FOTBCD-Binary 데이터셋을 공개합니다. 이 데이터셋은 지리적 도메인 변화 하에서의 대규모 벤치마킹 및 평가를 위해 설계되었으며, 검증 및 테스트 샘플은 확보된 평가용 주에서 추출되고 라벨 품질을 보장하기 위해 수동으로 검증되었습니다. 추가적으로, 우리는 FOTBCD의 전체 인스턴스 수준 버전에서 사용된 완전한 주석 체계를 보여주는 수천 개의 이미지 쌍으로 구성된 공개 인스턴스 수준 주석 하위 집합인 FOTBCD-Instances를 공개합니다. 고정된 참조 기준을 사용하여 FOTBCD-Binary를 LEVIR-CD+ 및 WHU-CD와 벤치마크한 결과, 데이터셋 수준의 지리적 다양성이 건물 변화 탐지의 교차 도메인 일반화 성능 향상과 관련이 있다는 강력한 경험적 증거를 제시합니다.
인코더 전용 트랜스포머는 지연 시간, 안정성, 비용이 가장 중요한 검색, 분류, 순위 지정 시스템에서 여전히 필수적입니다. 그러나 대부분의 범용 인코더는 특수 분야의 Coverage가 제한적인 일반 코퍼스로 학습됩니다. 본 논문에서는 전자상거래 의미 체계에 특화되도록 설계된 BERT 스타일 인코더 패밀리인 RexBERT를 소개합니다. 우리는 세 가지 기여를 합니다. 첫째, 다양한 리테일 및 쇼핑 소스에서 선별된 3,500억 개의 토큰으로 구성된 코퍼스인 Ecom-niverse를 공개합니다. FineFineWeb 및 기타 오픈 웹 리소스에서 전자상거래 콘텐츠를 분리 및 추출하는 모듈형 파이프라인을 설명하고, 결과적인 도메인 분포를 특성화합니다. 둘째, ModernBERT의 구조적 발전을 기반으로 재현 가능한 사전 학습 방법을 제시합니다. 이 방법은 일반 사전 학습, 컨텍스트 확장, 어닐링 도메인 특화의 세 단계로 구성됩니다. 셋째, 17M에서 400M 매개변수에 이르는 RexBERT 모델을 학습하고, 전자상거래 데이터셋을 사용하여 토큰 분류, 의미적 유사성, 일반 자연어 이해 작업에서 이를 평가합니다. 매개변수 수가 2-3배 적음에도 불구하고, RexBERT는 더 큰 범용 인코더를 능가하며 도메인 특화 벤치마크에서 현대적인 장문 컨텍스트 모델과 동등하거나 더 나은 성능을 보입니다. 우리의 결과는 무분별한 규모 확장 alone보다 고품질의 도메인 내 데이터와 원칙에 입각한 학습 접근법의 결합이 전자상거래 애플리케이션에 더 강력한 기반을 제공함을 입증합니다.
대규모 언어 모델(LLM)은 여전히 그럴듯하게 들리지만 사실적 근거가 없는 주장을 생성하는 문제가 있으며, 이는 다중 회기 대화에서 맥락이 확장되고 초기 오류가 누적됨에 따라 악화됩니다. 본 연구에서는 950개의 시드 질문으로 구성된 4개의 고위험 분야(법률 사례, 연구 질문, 의료 지침, 코딩)를 아우르는 도전적인 다중 회기 환각 벤치마크인 HalluHard를 소개합니다. 우리는 사실적 주장에 대한 인라인 인용을 요구함으로써 근거성(groundedness)을 운영화합니다. 개방형 설정에서 신뢰할 수 있는 평가를 지원하기 위해, 웹 검색을 통한 증거 반복 검색이 가능한 판단 파이프라인을 제안합니다. 이 파이프라인은 전체 텍스트 원본(PDF 포함)을 가져오고, 필터링하며, 구문 분석하여 인용된 자료가 생성된 내용을 실제로 지지하는지 평가할 수 있습니다. 다양한 최첨단 독점 및 오픈-가중치 모델을 대상으로 한 실험에서, 웹 검색을 사용하더라도 환각 현상은 상당히 지속되었으며(가장 강력한 구성인 Opus-4.5 + 웹 검색의 경우 약 30%), 내용-근거 연결 오류는 높은 비율로 관찰되었습니다. 마지막으로, 환각 현상이 모델 성능, 회기 내 위치, 효과적 추론, 요구되는 지식 유형에 따라 영향을 받음을 보여줍니다.