Qingxiu Dong, Li Dong, Yao Tang, Tianzhu Ye, Yutao Sun, Zhifang Sui, Furu Wei
18615
본 연구에서는 대규모 언어 모델과 강화 학습(RL)을 위한 새로운 확장 패러다임으로서 강화 사전 학습(Reinforcement Pre-Training, RPT)을 소개합니다. 구체적으로, 다음 토큰 예측을 RL을 통해 학습되는 추론 작업으로 재구성하여, 주어진 문맥에서 다음 토큰을 정확히 예측할 때 검증 가능한 보상을 제공합니다. RPT는 도메인 특화된 주석 답변에 의존하는 대신, 방대한 양의 텍스트 데이터를 일반적인 목적의 RL에 활용할 수 있는 확장 가능한 방법을 제공합니다. 다음 토큰 추론 능력을 강화함으로써, RPT는 다음 토큰 예측의 언어 모델링 정확도를 크게 향상시킵니다. 또한, RPT는 추가적인 강화 미세 조정을 위한 강력한 사전 학습 기반을 제공합니다. 확장 곡선은 훈련 계산량이 증가함에 따라 다음 토큰 예측 정확도가 지속적으로 개선됨을 보여줍니다. 이러한 결과는 RPT를 언어 모델 사전 학습을 발전시키는 효과적이고 유망한 확장 패러다임으로 자리매김합니다.
LASA Team, Weiwen Xu, Hou Pong Chan, Long Li, Mahani Aljunied, Ruifeng Yuan, Jianyu Wang, Chenghao Xiao, Guizhen Chen, Chaoqun Liu, Zhaodonghui Li, Yu Sun, Junao Shen, Chaojun Wang, Jie Tan, Deli Zhao, Tingyang Xu, Hao Zhang, Yu Rong
943
다중모드 대형 언어 모델(MLLMs)은 대규모 데이터셋과 고급 훈련 전략 덕분에 일반적인 시각 요소를 이해하는 데 있어 인상적인 능력을 보여주고 있다. 그러나 의료 응용 분야에서의 효과성은 의료 시나리오와 일반 도메인 간의 데이터 및 작업에서 발생하는 본질적인 차이로 인해 여전히 제한적이다. 구체적으로, 기존의 의료 MLLMs는 다음과 같은 중요한 한계에 직면해 있다: (1) 영상 이외의 의료 지식에 대한 제한된 커버리지, (2) 최적화되지 않은 데이터 큐레이션 프로세스로 인한 환각 현상에 대한 높은 취약성, (3) 복잡한 의료 시나리오에 맞춤화된 추론 능력의 부족. 이러한 문제를 해결하기 위해, 우리는 먼저 (1) 의료 영상뿐만 아니라 광범위한 의료 텍스트 및 일반 도메인 데이터에서 풍부한 의료 지식 데이터를 효율적으로 획득하고, (2) 정확한 의료 캡션, 시각적 질의응답(VQA), 그리고 추론 샘플을 합성하는 포괄적인 데이터 큐레이션 절차를 제안한다. 이를 통해 광범위한 의료 지식이 풍부하게 포함된 다중모드 데이터셋을 구축한다. 큐레이션된 데이터를 기반으로, 우리는 의료 전문 MLLM인 Lingshu를 소개한다. Lingshu는 의료 전문 지식을 내재화하고 작업 해결 능력을 점진적으로 강화하기 위해 다단계 훈련을 거친다. 또한, 우리는 검증 가능한 보상 패러다임을 적용한 강화 학습의 잠재력을 예비적으로 탐구하여 Lingshu의 의료 추론 능력을 향상시킨다. 추가적으로, 우리는 표준화되고 공정하며 효율적인 모델 평가를 위해 선도적인 다중모드 및 텍스트 기반 의료 벤치마크를 통합한 통합 평가 프레임워크인 MedEvalKit을 개발한다. 우리는 Lingshu의 성능을 다중모드 QA, 텍스트 기반 QA, 그리고 의료 보고서 생성이라는 세 가지 기본 의료 작업에서 평가한다. 결과는 Lingshu가 대부분의 작업에서 기존의 오픈소스 다중모드 모델들을 꾸준히 능가함을 보여준다...
본 논문은 엔드 사이드 디바이스를 위해 특별히 설계된 고효율 대규모 언어 모델(LLM)인 MiniCPM4를 소개한다. 우리는 모델 아키텍처, 훈련 데이터, 훈련 알고리즘, 추론 시스템이라는 네 가지 핵심 차원에서의 체계적인 혁신을 통해 이러한 효율성을 달성했다. 구체적으로, 모델 아키텍처 측면에서는 장문맥 처리 시 프리필링(prefilling) 및 디코딩(decoding) 단계를 모두 가속화하는 훈련 가능한 희소 주의 메커니즘인 InfLLM v2를 제안한다. 훈련 데이터 측면에서는 효율적이고 정확한 사전 훈련 데이터 필터링 및 생성 전략인 UltraClean과 포괄적인 지도 미세 조정 데이터셋인 UltraChat v2를 제안한다. 이러한 데이터셋은 단 8조 개의 훈련 토큰만으로도 만족스러운 모델 성능을 달성할 수 있게 한다. 훈련 알고리즘 측면에서는 효율적인 사전 훈련 전략 탐색을 위한 ModelTunnel v2를 제안하고, 부하 균형 강화 학습을 위한 청크 단위 롤아웃(chunk-wise rollout)과 데이터 효율적인 삼진 LLM인 BitCPM을 도입하여 기존의 사후 훈련 방법을 개선했다. 추론 시스템 측면에서는 희소 주의, 모델 양자화, 추측 샘플링(speculative sampling)을 통합하여 효율적인 프리필링과 디코딩을 달성하는 CPM.cu를 제안한다. 다양한 온디바이스 요구 사항을 충족하기 위해 MiniCPM4는 각각 0.5B와 8B 파라미터를 가진 두 가지 버전으로 제공된다. 충분한 평가 결과는 MiniCPM4가 여러 벤치마크에서 유사한 크기의 오픈소스 모델들을 능가하며, 그 효율성과 효과성을 입증한다. 특히, MiniCPM4-8B는 장문 시퀀스 처리 시 Qwen3-8B 대비 상당한 속도 개선을 보여준다. 추가적인 적응을 통해 MiniCPM4는 신뢰할 수 있는 설문 생성 및 모델 컨텍스트 프로토콜을 활용한 도구 사용 등 다양한 애플리케이션을 성공적으로 구동하며, 그 광범위한 활용 가능성을 명확히 보여준다.
기존의 안전성 보장 연구는 주로 안전한 행동을 대형 언어 모델(LLM)에 내재화하기 위한 훈련 단계의 정렬에 초점을 맞추어 왔다. 그러나 최근 연구들은 이러한 방법들이 다양한 탈옥 공격에 취약하다는 점을 드러냈다. 동시에, 추론 확장은 LLM의 추론 능력을 크게 향상시켰지만, 안전성 보장 맥락에서는 아직 탐구되지 않았다. 이러한 격차를 해소하기 위해, 본 연구는 새로운 위협에 대항하여 강력하고 효과적인 LLM 안전성을 위한 추론 확장을 선도적으로 탐구한다. 우리는 기존의 추론 확장 기술이 추론 작업에서는 성공적이었지만, 안전성 맥락에서는 성능이 저조하며, 심지어 Best-of-N 샘플링과 같은 기본적인 접근법에도 미치지 못한다는 점을 밝혔다. 이러한 비효율성은 빈번한 프로세스 보상 모델(PRM) 평가와 관련된 높은 계산 오버헤드로 인해 발생하는 탐색-효율성 딜레마라는 새로운 도전 과제에 기인한다. 이 딜레마를 극복하기 위해, 우리는 안전성 보장을 위해 특별히 설계된 새로운 추론 확장 패러다임인 SAFFRON을 제안한다. 우리의 접근법의 핵심은 필요한 보상 모델 평가 횟수를 크게 줄이는 다분화 보상 모델(MRM)의 도입이다. 이 패러다임을 실행하기 위해, 우리는 더 나아가 (i) MRM을 위한 부분 감독 훈련 목표, (ii) 분포 외 탐색을 방지하기 위한 보수적 탐색 제약, 그리고 (iii) 트리 탐색 중 시퀀스 간 캐시 공유를 용이하게 하는 Trie 기반 키-값 캐싱 전략을 제안한다. 광범위한 실험을 통해 우리 방법의 효과성을 검증하였다. 또한, 우리는 훈련된 다분화 보상 모델(Saffron-1)과 토큰 수준의 안전성 보상 데이터셋(Safety4M)을 공개하여 LLM 안전성 연구의 가속화를 도모한다. 우리의 코드, 모델, 데이터는 https://github.com/q-rz/saffron에서 공개되어 있으며, 프로젝트 홈페이지는 https://q-rz.github.io/p/saffron에서 확인할 수 있다.
텍스트-이미지(T2I) 모델은 텍스트 프롬프트와 일치하는 고품질 이미지를 생성하는 데 있어 상당한 관심을 받고 있다. 그러나 T2I 모델의 급속한 발전은 초기 벤치마크의 한계를 드러내며, 예를 들어 추론, 텍스트 렌더링 및 스타일 평가와 같은 포괄적인 평가가 부족하다는 점을 보여준다. 특히, 최신 최첨단 모델들은 풍부한 지식 모델링 능력으로 강력한 추론 능력이 필요한 이미지 생성 문제에서 유망한 결과를 보여주고 있지만, 기존 평가 시스템은 이러한 최전선을 충분히 다루지 못하고 있다. 이러한 격차를 체계적으로 해결하기 위해, 우리는 OneIG-Bench를 소개한다. 이는 프롬프트-이미지 정렬, 텍스트 렌더링 정확도, 추론 생성 콘텐츠, 스타일화 및 다양성 등 다차원에 걸친 T2I 모델의 세밀한 평가를 위한 신중하게 설계된 포괄적인 벤치마크 프레임워크이다. 이 벤치마크는 평가를 구조화함으로써 모델 성능에 대한 심층적인 분석을 가능하게 하여, 연구자와 실무자가 이미지 생성의 전체 파이프라인에서 강점과 병목 현상을 정확히 파악할 수 있도록 돕는다. 구체적으로, OneIG-Bench는 사용자가 특정 평가 하위 집합에 집중할 수 있도록 유연한 평가를 가능하게 한다. 전체 프롬프트 세트에 대한 이미지를 생성하는 대신, 사용자는 선택한 차원과 관련된 프롬프트에 대해서만 이미지를 생성하고 그에 따라 해당 평가를 완료할 수 있다. 우리의 코드베이스와 데이터셋은 이제 T2I 연구 커뮤니티 내에서 재현 가능한 평가 연구 및 교차 모델 비교를 용이하게 하기 위해 공개적으로 이용 가능하다.
SpatialLM은 3D 포인트 클라우드 데이터를 처리하고 구조화된 3D 장면 이해 출력을 생성하도록 설계된 대규모 언어 모델입니다. 이러한 출력에는 벽, 문, 창과 같은 건축 요소와 의미론적 카테고리가 포함된 방향성 객체 박스가 포함됩니다. 이전 방법들이 작업별 네트워크 설계를 활용한 것과 달리, 우리 모델은 표준 다중모달 LLM 아키텍처를 준수하며 오픈소스 LLM에서 직접 미세 조정되었습니다.
SpatialLM을 학습시키기 위해, 우리는 12,328개의 실내 장면(54,778개의 방)의 포인트 클라우드와 정확한 3D 주석으로 구성된 대규모 고품질 합성 데이터셋을 수집하고, 다양한 모델링 및 학습 결정에 대한 신중한 연구를 수행했습니다. 공개 벤치마크에서, 우리 모델은 레이아웃 추정에서 최첨단 성능을 보였으며 3D 객체 탐지에서도 경쟁력 있는 결과를 보여주었습니다. 이를 통해, 증강 현실, 구현된 로보틱스 등에서 현대 LLM의 공간 이해 능력을 향상시키는 실현 가능한 경로를 제시합니다.
Eduard Allakhverdov, Dmitrii Tarasov, Elizaveta Goncharova, Andrey Kuznetsov
282
비전 인코더는 비전 전용 모델부터 비전-언어 모델과 같은 멀티모달 시스템에 이르기까지 현대 애플리케이션에서 점점 더 많이 사용되고 있습니다. 이러한 아키텍처가 내부적으로 특징을 어떻게 표현하는지는 놀라운 성공에도 불구하고 여전히 명확하지 않습니다. 본 연구에서는 이미지 재구성을 통해 비전 특징을 해석하는 새로운 접근 방식을 제안합니다. 우리는 훈련 목표만 다른 두 가지 관련 모델 패밀리인 SigLIP과 SigLIP2를 비교하고, 이미지 기반 작업에서 사전 훈련된 인코더가 대조 학습과 같은 비이미지 작업에서 훈련된 인코더보다 훨씬 더 많은 이미지 정보를 보유한다는 것을 보여줍니다. 또한, 이 방법을 다양한 비전 인코더에 적용하여 특징 표현의 정보성을 기준으로 순위를 매깁니다. 마지막으로, 특징 공간을 조작하면 재구성된 이미지에서 예측 가능한 변화가 발생하며, 이는 공간 변환이 아닌 직교 회전이 색상 인코딩을 제어한다는 것을 보여줍니다. 우리의 접근 방식은 모든 비전 인코더에 적용할 수 있으며, 그 특징 공간의 내부 구조를 밝히는 데 도움을 줍니다. 실험을 재현하기 위한 코드와 모델 가중치는 GitHub에서 제공됩니다.
Sheng Chen, Peiyu He, Jiaxin Hu, Ziyang Liu, Yansheng Wang, Tao Xu, Chi Zhang, Chongchong Zhang, Chao An, Shiyu Cai, Duo Cao, Kangping Chen, Shuai Chu, Tianwei Chu, Mingdi Dan, Min Du, Weiwei Fang, Pengyou Fu, Junkai Hu, Xiaowei Jiang, Zhaodi Jiang, Fuxuan Li, Jun Li, Minghui Li, Mingyao Li, Yanchang Li, Zhibin Li, Guangming Liu, Kairui Liu, Lihao Liu, Weizhi Liu, Xiaoshun Liu, Yufei Liu, Yunfei Liu, Qiang Lu, Yuanfei Luo, Xiang Lv, Hongying Ma, Sai Ma, Lingxian Mi, Sha Sa, Hongxiang Shu, Lei Tian, Chengzhi Wang, Jiayu Wang, Kaijie Wang, Qingyi Wang, Renwen Wang, Tao Wang, Wei Wang, Xirui Wang, Chao Wei, Xuguang Wei, Zijun Xia, Zhaohao Xiao, Tingshuai Yan, Liyan Yang, Yifan Yang, Zhikai Yang, Zhong Yin, Li Yuan, Liuchun Yuan, Chi Zhang, Jinyang Zhang, Junhui Zhang, Linge Zhang, Zhenyi Zhang, Zheyu Zhang, Dongjie Zhu, Hang Li, Yangang Zhang
272
현대 로봇 내비게이션 시스템은 다양하고 복잡한 실내 환경에서 어려움을 겪고 있다. 전통적인 접근 방식은 작은 모델이나 규칙 기반 시스템을 사용하는 다중 모듈에 의존하므로 새로운 환경에 대한 적응력이 부족하다. 이를 해결하기 위해 우리는 모바일 로봇 내비게이션을 위한 포괄적인 이중 모델 아키텍처인 Astra-Global과 Astra-Local로 구성된 Astra를 개발했다. Astra-Global은 다중 모드 LLM으로, 시각 및 언어 입력을 처리하여 하이브리드 토폴로지-의미 그래프를 전역 지도로 사용하여 자기 및 목표 위치 파악을 수행하며, 기존의 시각적 장소 인식 방법을 능가한다. Astra-Local은 다중 작업 네트워크로, 지역 경로 계획 및 오도메트리 추정을 처리한다. 자기 지도 학습을 통해 훈련된 4D 시공간 인코더는 하류 작업을 위한 강력한 4D 특징을 생성한다. 계획 헤드는 흐름 매칭과 새로운 마스크된 ESDF 손실을 활용하여 지역 궤적 생성을 위한 충돌 위험을 최소화하며, 오도메트리 헤드는 트랜스포머 인코더를 통해 다중 센서 입력을 통합하여 로봇의 상대적 자세를 예측한다. 실제 내부 모바일 로봇에 배포된 Astra는 다양한 실내 환경에서 높은 종단 간 임무 성공률을 달성한다.
Yijia Dai, Zhaolin Gao, Yahya Satter, Sarah Dean, Jennifer J. Sun
193
히든 마코프 모델(Hidden Markov Models, HMMs)은 잠재적 마코프 구조를 가진 순차적 데이터를 모델링하는 데 있어 기초적인 도구이지만, 실제 데이터에 이를 적합시키는 것은 여전히 계산적으로 어려운 과제로 남아 있다. 본 연구에서는 사전 훈련된 대형 언어 모델(Large Language Models, LLMs)이 프롬프트 내 예시로부터 패턴을 추론하는 능력인 인컨텍스트 학습(In-Context Learning, ICL)을 통해 HMMs에 의해 생성된 데이터를 효과적으로 모델링할 수 있음을 보여준다. 다양한 합성 HMMs 데이터셋에서 LLMs는 이론적 최적치에 근접한 예측 정확도를 달성했다. 우리는 HMM 특성에 영향을 받는 새로운 스케일링 경향성을 발견하고, 이러한 실험적 관찰에 대한 이론적 가설을 제시한다. 또한 과학자들이 복잡한 데이터를 진단하는 도구로 ICL을 활용할 수 있는 실용적인 가이드라인을 제공한다. 실제 동물 의사결정 과제에서 ICL은 인간 전문가가 설계한 모델과 경쟁력 있는 성능을 보였다. 우리가 아는 한, 이는 ICL이 HMM 생성 시퀀스를 학습하고 예측할 수 있다는 첫 번째 실증으로, LLMs의 인컨텍스트 학습에 대한 이해를 심화시키고 복잡한 과학 데이터에서 숨겨진 구조를 발견하는 강력한 도구로서의 잠재력을 입증한다.
비전-언어-행동(Vision-Language-Action, VLA) 모델은 다양한 로봇 조작 작업에서 인상적인 성능을 보여주고 있습니다. 그러나 이들의 모델 크기가 점점 커지면서 자원이 제한된 로봇 시스템에 배포하는 데 상당한 어려움이 발생하고 있습니다. 1비트 사전 학습은 대규모 언어 모델의 추론 효율성을 최소한의 성능 손실로 향상시키는 데 효과적임이 입증되었지만, VLA 모델에 대한 적용은 아직 충분히 탐구되지 않았습니다. 본 연구에서는 모든 파라미터가 삼항 값({-1, 0, 1})을 가지는 최초의 1비트 VLA 모델인 BitVLA를 제안합니다. 비전 인코더의 메모리 사용량을 더욱 줄이기 위해, 우리는 1.58비트 가중치로 완전 정밀도 인코더를 압축하는 지식 증류 기반 학습 전략을 제안합니다. 이 과정에서 완전 정밀도 인코더는 교사 모델로 작용하여 잠재 표현을 더 잘 정렬합니다. 대규모 로봇 사전 학습이 부족함에도 불구하고, BitVLA는 LIBERO 벤치마크에서 4비트 사후 학습 양자화를 적용한 최신 모델인 OpenVLA-OFT와 비슷한 성능을 달성하면서 메모리 사용량은 단 29.8%만 소모합니다. 이러한 결과는 BitVLA가 메모리가 제한된 에지 디바이스에 배포하기에 매우 유망함을 보여줍니다. 우리는 코드와 모델 가중치를 https://github.com/ustcwhy/BitVLA에서 공개합니다.
Zhengyao Lv, Tianlin Pan, Chenyang Si, Zhaoxi Chen, Wangmeng Zuo, Ziwei Liu, Kwan-Yee K. Wong
162
멀티모달 디퓨전 트랜스포머(MM-DiT)는 텍스트 기반 시각적 생성 분야에서 놀라운 진전을 이루어냈습니다. 그러나 FLUX와 같은 최첨단 MM-DiT 모델들조차도 텍스트 프롬프트와 생성된 콘텐츠 간의 정확한 정렬을 달성하는 데 어려움을 겪고 있습니다. 우리는 MM-DiT의 어텐션 메커니즘에서 두 가지 주요 문제를 확인했습니다: 1) 시각적 및 텍스트 모달리티 간의 토큰 불균형으로 인한 크로스모달 어텐션의 억제, 그리고 2) 시간 단계를 고려한 어텐션 가중치 부재로 인한 정렬 저해입니다. 이러한 문제를 해결하기 위해, 우리는 온도 조정을 통한 크로스모달 어텐션(TACA)을 제안합니다. 이는 파라미터 효율적인 방법으로, 온도 스케일링과 시간 단계에 따른 조정을 통해 멀티모달 상호작용을 동적으로 재조정합니다. LoRA 미세 조정과 결합할 경우, TACA는 T2I-CompBench 벤치마크에서 텍스트-이미지 정렬을 최소한의 계산 오버헤드로 크게 향상시킵니다. 우리는 FLUX와 SD3.5와 같은 최첨단 모델에서 TACA를 테스트하여, 객체 외형, 속성 바인딩, 공간 관계 측면에서 이미지-텍스트 정렬을 개선할 수 있음을 입증했습니다. 우리의 연구 결과는 텍스트-이미지 디퓨전 모델에서 의미론적 충실도를 향상시키기 위해 크로스모달 어텐션의 균형을 맞추는 것의 중요성을 강조합니다. 우리의 코드는 https://github.com/Vchitect/TACA에서 공개되어 있습니다.
긴 사고 사슬(Long Chain-of-Thought, CoT) 감독은 언어 모델의 추론 능력을 향상시키기 위한 일반적인 전략으로 자리 잡았습니다. 그러나 대형 모델에서는 효과적이지만, 우리는 소형 언어 모델(SLMs; <=3B 파라미터)이 제한된 긴 CoT 데이터로 학습할 때 성능이 크게 저하되는 현상을 발견하였으며, 이를 '긴 CoT 성능 저하(Long CoT Degradation)'라고 명명했습니다. Qwen2.5, LLaMA3, Gemma3 계열 모델을 대상으로 한 광범위한 실험을 통해, 이러한 성능 저하가 SLMs 전반에 걸쳐 널리 나타남을 확인했습니다. 일부 설정에서는 단 8,000개의 긴 CoT 예제로 학습한 모델이 미세 조정 전 성능의 최대 75%까지 하락하는 것으로 나타났습니다. 더욱 놀라운 점은, 특히 작은 모델의 경우 220,000개의 긴 CoT 예제로 학습하더라도 미세 조정 전 성능을 회복하거나 초과하지 못하는 경우가 관찰되었다는 것입니다. 우리의 분석은 이러한 현상을 오류 누적 효과로 설명합니다: 더 긴 응답은 다단계 추론 능력을 확장시키지만, 동시에 오류가 누적될 위험도 증폭시킵니다. 또한, 긴 CoT 성능 저하는 하위 강화 학습(RL)에도 부정적인 영향을 미칠 수 있으나, 충분히 확장된 감독 미세 조정(SFT)을 통해 이를 완화할 수 있음을 발견했습니다. 이 연구 결과는 SLMs에 대한 긴 CoT 학습의 이점에 대한 일반적인 가정에 의문을 제기하며, 더 효과적인 소규모 추론 모델 구축을 위한 실용적인 지침을 제공합니다.
Nick Jiang, Amil Dravid, Alexei Efros, Yossi Gandelsman
142
우리는 Vision Transformers에서 이전에 확인된 현상, 즉 노이즈가 많은 어텐션 맵을 초래하는 고노름(norm) 토큰의 발생 메커니즘을 연구합니다. 여러 모델(예: CLIP, DINOv2)에서 소수의 뉴런이 아웃라이어(outlier) 토큰에 고노름 활성화를 집중시키며, 이는 불규칙한 어텐션 패턴을 유발하고 다운스트림 시각 처리 성능을 저하시키는 것을 관찰했습니다. 기존의 아웃라이어 제거 방법은 추가 학습된 레지스터(register) 토큰을 사용해 모델을 처음부터 재학습시키는 것이었지만, 우리는 이러한 발견을 바탕으로 학습이 필요 없는 접근법을 개발하여 이러한 아티팩트를 완화합니다. 우리가 발견한 레지스터 뉴런에서 고노름 활성화를 추가로 학습되지 않은 토큰으로 이동시킴으로써, 레지스터 토큰 없이 학습된 모델에서도 레지스터 토큰의 효과를 모방할 수 있습니다. 우리의 방법이 더 깔끔한 어텐션 및 특징 맵을 생성하고, 다양한 다운스트림 시각 작업에서 기본 모델 대비 성능을 향상시키며, 레지스터 토큰을 명시적으로 학습한 모델과 비슷한 결과를 달성함을 입증합니다. 또한, 테스트 시점 레지스터를 즉시 사용 가능한 시각-언어 모델에 확장하여 해석 가능성을 개선합니다. 우리의 결과는 테스트 시점 레지스터가 테스트 시점에서 레지스터 토큰의 역할을 효과적으로 수행하며, 이를 포함하지 않고 출시된 사전 학습 모델에 대해 학습이 필요 없는 솔루션을 제공함을 시사합니다.
다중모달 대형 언어 모델(MLLMs)에서 일반화 가능한 추론 능력을 개발하는 것은 여전히 어려운 과제로 남아 있다. 인지과학 문헌에서 게임 플레이가 전이 가능한 인지 기술을 촉진한다는 점에 착안하여, 우리는 새로운 사후 훈련 패러다임인 시각적 게임 학습(Visual Game Learning, ViGaL)을 제안한다. 이 패러다임에서는 MLLMs가 아케이드 스타일 게임을 통해 다중모달 추론의 도메인 외 일반화 능력을 개발한다. 구체적으로, 우리는 7B 파라미터 MLLM을 Snake와 같은 간단한 아케이드 스타일 게임에서 강화 학습(RL)을 통해 사후 훈련함으로써, MathVista와 같은 다중모달 수학 벤치마크와 MMMU와 같은 다학제적 질문에서의 하류 작업 성능이 크게 향상됨을 보여준다. 이는 RL 과정에서 해결 방법, 방정식, 또는 다이어그램을 전혀 보지 않고도 전이 가능한 추론 기술을 포착했음을 시사한다. 특히, 우리의 모델은 다중모달 추론 데이터에 맞춰진 전문가 모델을 다중모달 추론 벤치마크에서 능가하면서도, 일반 시각 벤치마크에서 기본 모델의 성능을 유지한다. 이는 전문가 모델들이 종종 실패하는 과제이다. 우리의 연구 결과는 합성적이고 규칙 기반의 게임이 MLLMs에서 일반화 가능한 다중모달 추론 능력을 해제할 수 있는 통제 가능하고 확장 가능한 사전 텍스트 작업으로서 새로운 사후 훈련 패러다임을 제시한다.
Noy Sternlicht, Ariel Gera, Roy Bar-Haim, Tom Hope, Noam Slonim
132
우리는 LLM(대형 언어 모델) 평가를 위한 새로운 도전적인 벤치마크로 토론 발표 평가를 소개한다. 토론 발표를 평가하기 위해서는 발표의 논증 강도와 관련성, 발표의 일관성과 구성, 스타일과 어조의 적절성 등 다양한 수준에서 발표를 깊이 있게 이해해야 한다. 이 작업은 이전의 체계적인 LLM 벤치마킹에서 제한적으로 다뤄진 독특한 인지 능력 집합을 필요로 한다. 이러한 능력을 탐구하기 위해, 우리는 600개 이상의 세심하게 주석이 달린 토론 발표 데이터셋을 활용하고, 최첨단 LLM이 이 작업에서 인간 평가자와 어떻게 비교되는지에 대한 첫 번째 심층 분석을 제시한다. 우리의 연구 결과는 미묘한 차이를 보여준다: 더 큰 모델은 일부 측면에서 개별 인간 판단을 근사할 수 있지만, 전반적인 판단 행동에서는 상당히 다르다. 또한, 우리는 최첨단 LLM이 설득력 있고 의견이 담긴 발표를 생성하는 능력을 조사하며, 이 작업에서 모델이 인간 수준의 성능을 보일 수 있음을 보여준다.
광학적 화학 구조 인식(OCSR)은 분자 이미지를 기계가 읽을 수 있는 형식으로 변환함으로써 화학 지식의 디지털화에 있어 매우 중요합니다. 최근 비전-언어 모델(VLMs)이 이 작업에서 잠재력을 보여주고 있지만, 이미지 캡셔닝 접근 방식은 복잡한 분자 구조와 일관되지 않은 주석에서 어려움을 겪는 경우가 많습니다. 이러한 문제를 극복하기 위해, 우리는 두 가지 주요 혁신을 특징으로 하는 GTR-Mol-VLM이라는 새로운 프레임워크를 소개합니다: (1) 인간의 추론을 모방하여 순차적인 원자-결합 예측을 통해 분자 그래프를 점진적으로 파싱하는 그래프 순회 시각적 사고 체인(Visual Chain of Thought) 메커니즘, 그리고 (2) 이미지에서의 축약된 구조와 확장된 주석 간의 불일치를 해결하는 데이터 중심 원칙인 "본 것을 충실히 인식하라(Faithfully Recognize What You've Seen)". 모델 개발을 지원하기 위해, 우리는 정밀하게 수정된 주석을 포함한 대규모 지침 튜닝 데이터셋인 GTR-CoT-1.3M을 구축하고, OCSR에서 그래프 파싱 정확도를 세밀하게 평가하기 위한 최초의 벤치마크인 MolRec-Bench를 도입했습니다. 포괄적인 실험 결과, GTR-Mol-VLM은 전문가 모델, 화학 도메인 VLMs, 그리고 상용 범용 VLMs에 비해 우수한 성능을 달성함을 보여줍니다. 특히, 기능 그룹 축약이 포함된 분자 이미지 시나리오에서 GTR-Mol-VLM은 SMILES 기반 및 그래프 기반 지표 모두에서 두 번째로 우수한 베이스라인을 약 14% 포인트 앞섰습니다. 우리는 이 연구가 OCSR 기술이 현실 세계의 요구를 더 효과적으로 충족하도록 이끌어, 화학정보학과 과학을 위한 AI 분야를 발전시키기를 바랍니다. GTR-CoT는 https://github.com/opendatalab/GTR-CoT에서 공개될 예정입니다.
최근 세대의 언어 모델은 답변을 제공하기 전에 상세한 사고 과정을 생성하는 대형 추론 모델(Large Reasoning Models, LRMs)을 도입했습니다. 이러한 모델들은 추론 벤치마크에서 향상된 성능을 보여주지만, 그들의 기본적인 능력, 스케일링 특성 및 한계는 여전히 충분히 이해되지 않고 있습니다. 현재의 평가는 주로 수학 및 코딩 벤치마크에 초점을 맞추며 최종 답변의 정확성을 강조합니다. 그러나 이러한 평가 패러다임은 종종 오염 문제를 겪으며 추론 흔적에 대한 통찰을 제공하지 못합니다. 본 연구에서는 일관된 논리 구조를 유지하면서 복잡성을 정밀하게 조작할 수 있는 제어 가능한 퍼즐 환경을 통해 이러한 격차를 체계적으로 조사합니다. 이 설정은 최종 답변뿐만 아니라 내부 추론 흔적을 분석할 수 있게 하여 LRMs가 어떻게 사고하는지에 대한 통찰을 제공합니다. 광범위한 실험을 통해 우리는 LRMs가 특정 복잡성을 넘어서면 완전한 정확도 붕괴를 겪는다는 것을 보여줍니다. 또한, 그들은 직관에 반하는 스케일링 한계를 보입니다: 문제 복잡성이 증가함에 따라 추론 노력이 어느 정도까지는 증가하지만, 남은 토큰 예산이 있음에도 불구하고 이후에는 감소합니다. 동일한 추론 계산 하에서 LRMs와 표준 LLM을 비교함으로써, 우리는 세 가지 성능 영역을 확인했습니다: (1) 표준 모델이 LRMs를 능가하는 낮은 복잡성 작업, (2) LRMs가 우위를 보이는 중간 복잡성 작업, (3) 두 모델 모두 완전한 붕괴를 겪는 높은 복잡성 작업. 우리는 LRMs가 정확한 계산에 있어 한계가 있음을 발견했습니다: 그들은 명시적인 알고리즘을 사용하지 못하며 스케일 간에 일관되지 않게 추론합니다. 또한, 우리는 추론 흔적을 더 깊이 조사하여 탐색된 솔루션의 패턴을 연구하고 모델의 계산적 행동을 분석함으로써 그들의 강점과 한계를 밝히고, 그들의 추론 능력에 대한 질문을 제기합니다.
Yifu Qiu, Yftah Ziser, Anna Korhonen, Shay B. Cohen, Edoardo M. Ponti
112
비전-언어 기반 모델이 언어로 표현된 행동을 통해 현실 세계 모델(관찰 × 행동 → 관찰)과 역학 모델(관찰 × 관찰 → 행동)을 어느 정도로 보유하고 있는가? 오픈소스 기반 모델은 두 가지 모두에서 어려움을 겪지만, 역학 모델을 지도 학습을 통해 획득하도록 미세 조정하는 것이 세계 모델을 획득하는 것보다 훨씬 쉬운 것으로 나타났다. 이어서 역학 모델은 두 가지 주요 전략을 통해 세계 모델을 부트스트랩하는 데 사용될 수 있다: 1) 합성 데이터를 통한 약한 지도 학습과 2) 추론 시간 검증. 첫째, 역학 모델은 레이블이 없는 비디오 프레임 관찰 쌍에 대해 행동을 주석 처리하여 훈련 데이터를 확장할 수 있다. 또한, 우리는 인식 모델에 의해 예측된 중요도에 따라 관찰 쌍의 이미지 토큰에 가중치를 부여하는 새로운 목적 함수를 제안한다. 둘째, 역학 모델은 세계 모델의 여러 샘플에 보상을 할당하여 점수를 매김으로써 추론 시간에 탐색을 효과적으로 안내할 수 있다. 우리는 Aurora-Bench에서 행동 중심 이미지 편집 작업을 통해 두 전략에서 도출된 세계 모델을 평가한다. 우리의 최고 모델은 최첨단 이미지 편집 모델과 경쟁력 있는 성능을 달성하며, GPT4o-as-judge에 따르면 실제 세계 하위 집합에서 15%의 차이로 개선되었고, Aurora-Bench의 모든 하위 집합에서 최고의 평균 인간 평가를 달성했다.
Yin Huang, Yifan Ethan Xu, Kai Sun, Vera Yan, Alicia Sun, Haidar Khan, Jimmy Nguyen, Mohammad Kachuee, Zhaojiang Lin, Yue Liu, Aaron Colak, Anuj Kumar, Wen-tau Yih, Xin Luna Dong
92
대형 언어 모델(LLM)이 사실적 진술을 허구로 만들어내지 않도록 가르칠 수 있을까? 본 논문에서는 ConfQA라는 미세 조정 전략을 제시하며, 이를 통해 다수의 사실성 벤치마크에서 허구 생성률을 20-40%에서 5% 미만으로 감소시킬 수 있음을 보여준다. 핵심 아이디어는 간단하다: LLM이 질문에 올바르게 답변할 경우, 해당 답변을 계속하도록 학습시키고, 그렇지 않을 경우 "확실하지 않습니다"라고 인정하도록 학습시킨다. 그러나 이 학습이 매우 효과적이도록 만드는 두 가지 핵심 요소가 있다. 첫째, "확신할 때만 답변하라"는 완화 프롬프트를 도입하여 행동을 명시적으로 유도하며, 이를 사용하지 않을 경우 허구 생성률은 15%-25%로 높게 유지된다. 둘째, 지식 그래프에서 추출한 단순한 사실적 진술, 특히 속성 값을 활용하여 LLM이 자신감을 조정하도록 돕고, 이를 통해 도메인과 질문 유형에 걸쳐 견고한 일반화를 달성한다. 이러한 통찰을 바탕으로, 우리는 ConfQA의 자신감을 기반으로 내부적으로 파라미터화된 신경 지식과 외부적으로 기록된 상징적 지식 간의 원활한 선택을 가능하게 하는 Dual Neural Knowledge 프레임워크를 제안한다. 이 프레임워크는 잠재적 정확도를 95% 이상으로 향상시키는 동시에 불필요한 외부 검색을 30% 이상 줄일 수 있다.
Guang Liu, Liangdong Wang, Jijie Li, Yang Yu, Yao Xu, Jiabei Chen, Yu Bai, Feng Liao, Yonghua Lin
82
우리는 우수한 데이터 품질과 다양한 인간과 유사한 추론 경로를 위해 설계된 대규모 이중 언어 사전 학습 데이터셋인 CCI4.0을 소개한다. CCI4.0은 약 35TB의 디스크 공간을 차지하며, CCI4.0-M2-Base와 CCI4.0-M2-CoT 두 개의 하위 데이터셋으로 구성된다. CCI4.0-M2-Base는 5.2TB의 신중하게 선별된 중국어 웹 코퍼스, Nemotron-CC에서 추출한 22.5TB의 영어 서브셋, 그리고 수학, 위키, arXiv, 코드 등 다양한 소스의 데이터를 결합한다. 이 데이터는 대부분 잘 처리된 데이터셋에서 가져왔지만, 다양한 도메인의 품질 기준은 동적이며 이를 처리하기 위해서는 광범위한 전문가 경험과 노력이 필요하다. 따라서 우리는 두 단계의 중복 제거, 다중 분류기 품질 점수화, 도메인 인식 유창성 필터링을 주로 기반으로 데이터 품질을 검증하는 새로운 파이프라인을 제안한다. 우리는 45억 개의 CoT(Chain-of-Thought) 템플릿을 추출하여 CCI4.0-M2-CoT로 명명했다. 더 큰 모델에서 CoT를 증류하는 방식과 달리, 우리가 제안한 단계적 CoT 추출은 다양한 추론 패턴을 보여주고 환각 가능성을 크게 줄인다. 실험적 평가는 CCI4.0에서 사전 학습된 LLM(Large Language Models)이 더 깨끗하고 신뢰할 수 있는 학습 신호로부터 이점을 얻으며, 특히 수학 및 코드 반영 작업에서 일관된 성능 향상을 보여준다는 것을 입증한다. 우리의 결과는 엄격한 데이터 큐레이션과 인간의 사고 템플릿이 LLM 성능을 향상시키는 데 중요한 역할을 한다는 것을 강조하며, 사전 학습 코퍼스를 자동으로 처리하는 데 대한 통찰을 제공한다.
Jie Ruan, Inderjeet Nair, Shuyang Cao, Amy Liu, Sheza Munir, Micah Pollens-Dempsey, Tiffany Chiang, Lucy Kates, Nicholas David, Sihan Chen, Ruxin Yang, Yuqian Yang, Jasmine Gump, Tessa Bialek, Vivek Sankaran, Margo Schlanger, Lu Wang
82
본 논문은 전문가 수준의 워크플로우와 애플리케이션을 반영한 9개 도메인의 11개 작업을 포함하는 ExpertLongBench 벤치마크를 소개합니다. 질의응답을 넘어, ExpertLongBench의 애플리케이션 중심 작업은 5,000 토큰을 초과할 수 있는 장문의 출력과 도메인별 요구사항의 엄격한 준수를 요구합니다. 특히, ExpertLongBench의 각 작업은 도메인 전문가가 설계하거나 검증한 루브릭을 포함하여 작업 요구사항을 명시하고 출력 평가를 안내합니다. 더불어, 우리는 벤치마크 내 장문 모델 출력의 정확한 평가를 지원하는 CLEAR 평가 프레임워크를 제안합니다. 세분화되고 전문가와 일치하는 평가를 달성하기 위해, CLEAR는 작업별 루브릭의 항목에 해당하는 정보를 추출하여 모델 출력과 참조 출력으로부터 체크리스트를 도출합니다. 모델 출력에 대한 체크리스트 항목은 참조 출력의 해당 항목과 비교되어 정확성을 평가하며, 이는 근거 기반 평가를 가능하게 합니다. 우리는 11개의 대형 언어 모델(LLM)을 벤치마크하고 CLEAR의 구성 요소를 분석하여 다음을 보여줍니다: (1) 최고 성능 모델이 26.8%의 F1 점수를 달성하는 등, 기존 LLM은 전문가 수준 작업에 대해 상당한 개선이 필요함; (2) 모델은 필요한 측면에 해당하는 내용을 생성할 수 있지만, 종종 정확하지 않음; (3) CLEAR에서 정확한 체크리스트 추출 및 비교는 오픈 웨이트 모델로도 달성 가능하여 확장성과 저비용 사용이 가능함.
Amber Yijia Zheng, Cedar Site Bai, Brian Bullins, Raymond A. Yeh
82
모델 면역화는 유해 작업에 대해 미세 조정하기 어렵도록 사전 학습된 모델을 목표로 하면서, 다른 비유해 작업에서의 유용성을 유지하는 것을 목표로 한다. 비록 선행 연구에서 텍스트-이미지 모델의 면역화에 대한 경험적 증거를 보여주었지만, 면역화가 가능한 조건에 대한 핵심 이해와 면역화된 모델의 정확한 정의는 여전히 불분명하다. 본 연구에서는 선형 모델에 대한 모델 면역화를 분석하기 위해 헤세 행렬의 조건수를 기반으로 한 프레임워크를 제안한다. 이 프레임워크를 바탕으로, 사전 학습 후 결과적인 조건수를 제어하기 위해 정규화 항을 포함한 알고리즘을 설계한다. 선형 모델과 비선형 딥넷에 대한 실험 결과는 제안된 알고리즘의 모델 면역화 효과를 입증한다. 코드는 https://github.com/amberyzheng/model-immunization-cond-num에서 확인할 수 있다.
Penghao Wu, Shengnan Ma, Bo Wang, Jiaheng Yu, Lewei Lu, Ziwei Liu
72
멀티모달 대형 언어 모델(MLLMs)은 그래픽 사용자 인터페이스(GUI) 자동화를 혁신할 수 있는 큰 잠재력을 보여주고 있습니다. 그러나 기존의 GUI 모델들은 대부분 오류가 거의 없는 오프라인 궤적 데이터를 학습하는 데 의존하고 있어, 반성과 오류 복구 능력이 부족합니다. 이러한 격차를 해소하기 위해, 우리는 GUI-Reflection이라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 GUI 특화 사전 학습, 오프라인 지도 미세 조정(SFT), 그리고 온라인 반성 튜닝이라는 전용 학습 단계를 통해 자기 반성과 오류 수정 능력을 엔드투엔드 멀티모달 GUI 모델에 명시적으로 통합합니다. GUI-Reflection은 인간의 주석 없이도 완전히 자동화된 데이터 생성과 학습 과정을 통해 자기 반성 행동의 출현을 가능하게 합니다. 구체적으로, 1) 우리는 먼저 기존의 성공적인 궤적 데이터로부터 반성 및 오류 수정 데이터를 자동으로 구성하는 확장 가능한 데이터 파이프라인을 제안합니다. 기존 GUI 모델들이 주로 기반화 및 UI 이해 능력에 초점을 맞추는 반면, 우리는 GUI-Reflection Task Suite를 제안하여 반성 지향 능력을 명시적으로 학습하고 평가합니다. 2) 또한, 모바일 기기에서 GUI 모델의 온라인 학습 및 데이터 수집을 위한 다양하고 효율적인 환경을 구축했습니다. 3) 우리는 제안된 환경을 활용한 반복적인 온라인 반성 튜닝 알고리즘을 제시하여, 모델이 지속적으로 반성 및 오류 수정 능력을 향상시킬 수 있도록 합니다. 우리의 프레임워크는 GUI 에이전트에 자기 반성 및 수정 능력을 부여함으로써, 더 강력하고 적응적이며 지능적인 GUI 자동화의 길을 열어줍니다. 모든 데이터, 모델, 환경 및 도구는 공개될 예정입니다.
대규모 비디오 생성 모델은 동적인 세계 창조를 위해 다양하고 사실적인 시각적 콘텐츠를 합성할 수 있지만, 종종 요소 단위의 제어 가능성이 부족하여 장면 편집 및 구체화된 AI 에이전트 훈련에 사용하기 어렵습니다. 우리는 물리 기반 시뮬레이터의 세밀한 제어와 대규모 사전 학습된 생성 모델의 사실적인 콘텐츠 출력을 결합한 하이브리드 세계 생성 프레임워크인 Dreamland를 제안합니다. 특히, 우리는 픽셀 수준과 객체 수준의 의미론 및 기하학을 중간 표현으로 인코딩하는 계층화된 세계 추상화를 설계하여 시뮬레이터와 생성 모델을 연결합니다. 이 접근 방식은 제어 가능성을 강화하고, 실제 세계 분포와의 초기 정렬을 통해 적응 비용을 최소화하며, 기존 및 미래의 사전 학습된 생성 모델의 즉시 사용을 지원합니다. 또한, 우리는 하이브리드 생성 파이프라인의 훈련 및 평가를 용이하게 하기 위해 D3Sim 데이터셋을 구축했습니다. 실험 결과, Dreamland는 기존 기준선 대비 50.8% 향상된 이미지 품질과 17.9% 강화된 제어 가능성을 보여주며, 구체화된 에이전트 훈련을 크게 개선할 잠재력이 있음을 입증했습니다. 코드와 데이터는 공개될 예정입니다.
대형 언어 모델(LLMs)은 공격적이거나 거짓된, 또는 무의미한 콘텐츠를 생성하지 않도록 인간의 선호도와 정렬(alignment)이 필요합니다. 최근에는 적은 자원을 사용하여 LLM 정렬을 수행하는 방법들이 주목받고 있지만, 여전히 고품질이면서 정렬된 콘텐츠를 얻는 데는 어려움이 있습니다. 디코딩 초기에 정렬된 응답을 생성하는 것이 특히 어렵다는 관찰에 기반하여, 우리는 작은 정렬된 모델의 지도를 통해 기본 모델의 정렬 능력을 향상시키는 새로운 프레임워크인 약한-강한 디코딩(Weak-to-Strong Decoding, WSD)을 제안합니다. 이 프레임워크에서는 작은 모델이 먼저 잘 정렬된 시작 부분을 초안으로 작성한 후, 대형 기본 모델이 나머지 부분을 이어가도록 하며, 이 과정은 잘 설계된 자동 전환 메커니즘에 의해 제어됩니다. 또한, 우리는 새로운 데이터셋인 GenerAlign을 수집하여 소형 Pilot-3B 모델을 초안 모델로 미세 조정하였으며, 이는 WSD 프레임워크 하에서 다양한 기본 모델을 효과적으로 강화하여 모든 기준 방법을 능가하는 동시에, 하위 작업에서의 성능 저하(alignment tax)를 방지합니다. 다양한 실험을 통해 서로 다른 설정과 시간 효율성의 영향을 검토하고, WSD의 내재적 메커니즘에 대한 심층 분석을 수행하였습니다.
Michael J Ryan, Omar Shaikh, Aditri Bhagirath, Daniel Frees, William Held, Diyi Yang
62
최근 대형 언어 모델(LLMs)의 다원적 정렬(pluralistic alignment)에 대한 요구가 증가하면서, 모델을 다양한 사용자 선호도에 맞게 조정하는 것이 중요해졌습니다. 그러나 기존의 개인화된 보상 모델 연구 대부분은 인구통계학적 세부 정보나 사전 정의된 선호도 카테고리와 같은 추가적인 신원 정보에 크게 의존해 왔습니다. 이를 위해 우리는 사용자 상호작용에서 합성 사용자 페르소나를 유도하여 개인화된 보상 모델링을 수행하는 SynthesizeMe 접근법을 소개합니다. SynthesizeMe는 먼저 사용자 선호도를 설명하기 위한 추론을 생성하고 검증한 후, 해당 추론에서 합성 사용자 페르소나를 유도합니다. 마지막으로 특정 사용자를 위한 개인화된 프롬프트를 구축하기 위해 정보가 풍부한 이전 사용자 상호작용을 필터링합니다. 우리는 SynthesizeMe로 유도된 프롬프트를 사용함으로써 Chatbot Arena에서 개인화된 LLM-as-a-judge 정확도가 4.4% 향상됨을 보여줍니다. 또한 SynthesizeMe에서 도출된 프롬프트와 보상 모델을 결합하면, Chatbot Arena와 PRISM의 854명 사용자로부터 수집된 챗봇과의 사용자 계층화 상호작용을 새롭게 구성한 PersonalRewardBench에서 최고 성능을 달성합니다.
대규모 언어 모델(LLM)과 시각-언어 모델(VLM)의 최근 발전은 복잡한 추론과 다중 모드 도구 사용이 가능한 강력한 자율 에이전트를 가능하게 했습니다. 그러나 이러한 능력이 증가함에도 불구하고, 현재의 에이전트 프레임워크는 여전히 취약하며, 안전한 정보 흐름, 신뢰성, 다중 에이전트 조정을 위한 원칙적인 메커니즘이 부족합니다. 본 연구에서는 신뢰할 수 있는 LLM/VLM 기반 에이전트를 구축하기 위한 새로운 프로토콜 수준의 프레임워크인 SAFEFLOW를 소개합니다. SAFEFLOW는 세분화된 정보 흐름 제어(IFC)를 강제하여 에이전트, 도구, 사용자, 환경 간에 교환되는 모든 데이터의 출처, 무결성, 기밀성을 정확하게 추적합니다. LLM 추론이 이러한 보안 라벨을 준수하도록 제약함으로써, SAFEFLOW는 신뢰할 수 없거나 적대적인 입력이 높은 무결성의 결정을 오염시키는 것을 방지합니다. 동시 다중 에이전트 환경에서의 견고성을 보장하기 위해, SAFEFLOW는 트랜잭션 실행, 충돌 해결, 공유 상태에 대한 안전한 스케줄링을 도입하여 에이전트 간의 전역적 일관성을 유지합니다. 또한, SAFEFLOW는 런타임 오류와 정책 위반에 대한 복원력을 더욱 강화하기 위해 사전 기록(write-ahead logging), 롤백, 안전한 캐시 등의 메커니즘을 추가합니다. 성능을 검증하기 위해, 우리는 적대적, 잡음이 있는, 동시 운영 조건에서 에이전트의 신뢰성을 평가하기 위한 포괄적인 벤치마크 스위트인 SAFEFLOWBENCH를 구축했습니다. 광범위한 실험을 통해 SAFEFLOW로 구축된 에이전트가 적대적인 환경에서도 인상적인 작업 성능과 보안 보장을 유지하며, 최신 기술을 크게 능가함을 입증했습니다. SAFEFLOW와 SAFEFLOWBENCH는 원칙적이고 견고하며 안전한 에이전트 생태계의 기반을 마련함으로써, 신뢰할 수 있는 자율성의 최전선을 나아가게 합니다.
대형 언어 모델은 작업을 수행하기 위해 문맥적 입력과 파라미터적 지식을 모두 자주 활용한다. 그러나 이러한 정보원은 특히 검색된 문서가 모델의 파라미터적 지식과 상충할 때 충돌을 일으킬 수 있다. 본 연구에서는 문맥 정보가 파라미터적 신념과 분기되는 상황에서의 LLM(대형 언어 모델) 행동을 체계적으로 평가하기 위한 진단 프레임워크를 제안한다. 이를 위해 이러한 충돌을 유발하는 진단 데이터를 구성하고, 다양한 작업 유형에 걸친 모델 성능을 분석하였다. 연구 결과는 다음과 같다: (1) 지식 활용이 필요하지 않은 작업에서는 지식 충돌의 영향이 미미하며, (2) 문맥적 지식과 파라미터적 지식이 일치할 때 모델 성능이 지속적으로 높고, (3) 모델은 지시를 받았을 때에도 내부 지식을 완전히 억제하지 못하며, (4) 충돌을 설명하는 근거를 제공할 경우 문맥에 대한 의존도가 증가한다. 이러한 통찰은 모델 기반 평가의 타당성에 대한 우려를 제기하며, LLM 배포 시 지식 충돌을 고려할 필요성을 강조한다.
Sabri Eyuboglu, Ryan Ehrlich, Simran Arora, Neel Guha, Dylan Zinsley, Emily Liu, Will Tennien, Atri Rudra, James Zou, Azalia Mirhoseini, Christopher Re
52
대형 언어 모델은 종종 대규모 텍스트 코퍼스(예: 코드베이스, 법률 문서, 채팅 기록 등)를 기반으로 한 질의에 답변하기 위해 사용되며, 이때 전체 코퍼스를 컨텍스트 창에 배치하고 컨텍스트 내 학습(ICL)을 활용합니다. 현재 모델은 100K-1M 토큰의 컨텍스트를 지원하지만, 이 설정은 KV 캐시의 메모리 소비가 입력 길이에 따라 증가하기 때문에 서비스 비용이 높습니다. 우리는 이를 대체할 방법으로, 각 코퍼스에 대해 더 작은 KV 캐시를 오프라인에서 훈련시키는 방식을 탐구합니다. 추론 시에는 이 훈련된 KV 캐시를 로드하여 응답을 디코딩하며, 이를 카트리지(Cartridge)라고 부릅니다. 중요한 점은, 동일한 코퍼스를 참조하는 모든 질의에 대해 카트리지 훈련 비용을 분산시킬 수 있다는 것입니다. 그러나 코퍼스에 대해 다음 토큰 예측으로 카트리지를 훈련하는 단순한 접근법은 ICL과 경쟁력이 없음을 발견했습니다. 대신, 우리는 코퍼스에 대한 합성 대화를 생성하고 컨텍스트 증류 목표로 카트리지를 훈련시키는 자기 학습(self-study)이라는 훈련 방법을 제안합니다. 자기 학습으로 훈련된 카트리지는 ICL의 기능을 복제하면서도 서비스 비용이 훨씬 저렴합니다. 도전적인 장문 컨텍스트 벤치마크에서, 자기 학습으로 훈련된 카트리지는 ICL 성능을 유지하면서 메모리 사용량을 38.6배 줄이고 처리량을 26.4배 높였습니다. 또한 자기 학습은 모델의 유효 컨텍스트 길이를 확장하며(예: MTOB에서 128k에서 484k 토큰으로), 놀랍게도 재훈련 없이 추론 시 카트리지를 조합할 수 있게 합니다.
Nikolas Belle, Dakota Barnes, Alfonso Amayuelas, Ivan Bercovich, Xin Eric Wang, William Wang
52
최근 대형 언어 모델(LLM)의 발전으로 다양한 작업에서 자율 에이전트로 활용할 수 있게 되었지만, 여전히 일관된 장기 전략을 수립하고 이를 준수하는 데 어려움을 겪고 있습니다. 본 논문에서는 전략적 계획 능력을 명시적으로 도전하는 환경에 LLM 에이전트를 배치했을 때 자기 개선이 가능한지 조사합니다. 오픈소스 Catanatron 프레임워크를 통해 접근 가능한 보드 게임 '캐탄의 정착자들(Settlers of Catan)'을 사용하여, 단순한 게임 플레이 에이전트부터 자체 프롬프트와 플레이어 에이전트의 코드를 자율적으로 재작성할 수 있는 시스템에 이르기까지 LLM 기반 에이전트의 발전을 벤치마크합니다. 특화된 역할(Analyzer, Researcher, Coder, Player)이 협력하여 게임 플레이를 반복적으로 분석하고 새로운 전략을 연구하며 에이전트의 로직이나 프롬프트를 수정하는 다중 에이전트 아키텍처를 소개합니다. 수동으로 제작된 에이전트와 LLM에 의해 완전히 진화된 에이전트를 비교함으로써, 이러한 시스템이 실패를 진단하고 시간에 따라 적응하는 데 얼마나 효과적인지 평가합니다. 우리의 결과는 Claude 3.7 및 GPT-4o와 같은 모델로 구동되는 자기 진화 에이전트가 정적 베이스라인을 능가하며, 전략을 자율적으로 채택하고 게임 플레이 에이전트에 샘플 행동을 전달하며 여러 반복에 걸쳐 적응적 추론을 보여준다는 것을 입증합니다.
본 연구에서는 단안 비디오로부터의 동적 뷰 합성을 훈련 없이 역문제로 접근합니다. 사전 훈련된 비디오 확산 모델의 노이즈 초기화 단계를 재설계함으로써, 가중치 업데이트나 보조 모듈 없이도 고품질의 동적 뷰 합성을 가능하게 합니다. 먼저, 제로-터미널 신호 대 잡음비(SNR) 스케줄로 인해 발생하는 결정론적 역변환의 근본적인 문제를 식별하고, 이를 해결하기 위해 K-차 재귀 노이즈 표현(K-order Recursive Noise Representation)이라는 새로운 노이즈 표현 방식을 도입합니다. 이 표현에 대한 폐쇄형 수식을 도출함으로써 VAE 인코딩된 잠재 변수와 DDIM 역변환된 잠재 변수 간의 정확하고 효율적인 정렬을 가능하게 합니다. 또한, 카메라 이동으로 인해 새롭게 보이는 영역을 합성하기 위해, 잠재 공간에서 가시성 인지 샘플링을 수행하여 가려진 영역을 완성하는 확률적 잠재 변조(Stochastic Latent Modulation)를 제안합니다. 포괄적인 실험을 통해 노이즈 초기화 단계에서 구조화된 잠재 변조를 통해 동적 뷰 합성이 효과적으로 수행될 수 있음을 입증합니다.
Victor Barres, Honghua Dong, Soham Ray, Xujie Si, Karthik Narasimhan
42
기존 대화형 AI 에이전트 벤치마크는 단일 제어 환경을 시뮬레이션하는데, 이는 AI 에이전트만이 도구를 사용해 세계와 상호작용할 수 있고 사용자는 수동적인 정보 제공자로 남아 있는 환경입니다. 이는 기술 지원과 같은 실제 시나리오와는 차이가 있습니다. 실제 시나리오에서는 사용자가 (공유된) 세계의 상태를 수정하기 위해 적극적으로 참여해야 합니다. 이러한 격차를 해결하기 위해 우리는 tau^2-bench를 소개하며, 네 가지 주요 기여를 제시합니다:
1) Dec-POMDP로 모델링된 새로운 통신 이중 제어 도메인. 여기서는 에이전트와 사용자 모두 도구를 사용해 공유되고 동적인 환경에서 행동하며, 이는 에이전트의 조정과 의사소통 능력을 시험합니다.
2) 원자적 구성 요소로부터 다양한, 검증 가능한 작업을 프로그래밍 방식으로 생성하는 구성적 작업 생성기. 이를 통해 도메인 커버리지와 통제된 복잡성을 보장합니다.
3) 환경과 긴밀하게 결합된 신뢰할 수 있는 사용자 시뮬레이터. 이 시뮬레이터의 행동은 도구와 관찰 가능한 상태에 의해 제약되며, 시뮬레이션의 충실도를 향상시킵니다.
4) 추론 대 의사소통/조정에서 발생하는 오류를 분리하는 등 다중 제거를 통해 에이전트 성능을 세밀하게 분석합니다.
특히, 우리의 실험은 에이전트가 사용자 없음에서 이중 제어로 전환할 때 성능이 크게 하락하는 것을 보여주며, 사용자를 안내하는 데 따른 도전 과제를 강조합니다. 전반적으로, tau^2-bench는 효과적으로 추론하고 사용자 행동을 안내해야 하는 에이전트를 위한 통제된 테스트베드를 제공합니다.
현재의 다중모달 대형 언어 모델(MLLMs)은 테스트 시점의 계산적 요구, 견고성 부족, 그리고 주로 피드포워드 처리 방식에서 기인하는 정확도 한계로 인해 길거나 복잡한 비디오를 이해하는 데 어려움을 겪을 수 있습니다. 이러한 한계는 매개변수가 적은 모델에서 더 심각할 수 있습니다. 이러한 한계를 해결하기 위해, 우리는 사이버네틱 원칙에서 영감을 받아 비디오 MLLMs를 추론 중에 자가 모니터링, 자가 수정, 그리고 동적 자원 할당이 가능한 적응형 시스템으로 재설계하는 새로운 프레임워크를 제안합니다. 우리의 접근 방식인 CyberV는 MLLM 추론 시스템, 센서, 그리고 컨트롤러로 구성된 사이버네틱 루프를 도입합니다. 구체적으로, 센서는 MLLM의 전방향 프로세스를 모니터링하고 주의력 이탈과 같은 중간 해석을 수집한 후, 컨트롤러는 자가 수정을 언제 어떻게 트리거할지 결정하고 다음 라운드를 안내하기 위한 피드백을 생성합니다. 이 테스트 시점 적응형 스케일링 프레임워크는 재훈련이나 추가 구성 요소 없이도 고정된 MLLMs를 향상시킵니다. 실험 결과, CyberV는 VideoMMMU에서 Qwen2.5-VL-7B를 8.3%, InternVL3-8B를 5.5% 향상시켜 경쟁력 있는 독점 모델 GPT-4o를 능가했습니다. Qwen2.5-VL-72B에 적용했을 때는 10.0%의 향상을 이루며 인간 전문가와도 비견할 만한 성능을 달성했습니다. 또한, 우리의 방법은 VideoMME와 WorldSense와 같은 일반 목적 벤치마크에서도 일관된 성능 향상을 보여주며, 동적 비디오 이해를 위해 MLLMs를 더 견고하고 정확하게 만드는 데 있어 그 효과성과 일반화 능력을 입증했습니다. 코드는 https://github.com/marinero4972/CyberV에서 공개되었습니다.
Teng Hu, Zhentao Yu, Zhengguang Zhou, Jiangning Zhang, Yuan Zhou, Qinglin Lu, Ran Yi
32
비디오 생성 분야의 최근 발전에도 불구하고, 기존 모델들은 여전히 세밀한 제어 가능성, 특히 일관된 정체성과 상호작용을 갖춘 다중 주체 맞춤화 측면에서 부족함을 보입니다. 본 논문에서는 유연하고 정체성 일관성을 유지한 생성을 가능하게 하는 다중 주체 비디오 맞춤화 프레임워크인 PolyVivid를 제안합니다. 주체 이미지와 텍스트 엔티티 간의 정확한 대응 관계를 설정하기 위해, 우리는 시각적 정체성을 텍스트 공간에 임베딩하여 정확한 그라운딩을 가능하게 하는 VLLM 기반 텍스트-이미지 융합 모듈을 설계했습니다. 또한, 정체성 보존과 주체 간 상호작용을 더욱 강화하기 위해, 텍스트와 이미지 임베딩 간의 구조화된 양방향 융합을 가능하게 하는 3D-RoPE 기반 강화 모듈을 제안합니다. 더 나아가, 융합된 정체성 특징을 비디오 생성 과정에 효과적으로 주입하여 정체성 드리프트를 완화하는 주의 상속 정체성 주입 모듈을 개발했습니다. 마지막으로, MLLM 기반 그라운딩, 세그멘테이션, 그리고 클리크 기반 주체 통합 전략을 결합한 MLLM 기반 데이터 파이프라인을 구축하여, 다운스트림 비디오 생성에서 주체 구분을 효과적으로 강화하고 모호성을 줄이는 고품질 다중 주체 데이터를 생성합니다. 광범위한 실험을 통해 PolyVivid가 정체성 충실도, 비디오 현실감, 주체 정렬 측면에서 우수한 성능을 달성하며, 기존의 오픈소스 및 상용 베이스라인을 능가함을 입증했습니다.
Michael K. Chen, Xikun Zhang, Jiaxing Huang, Dacheng Tao
32
대규모 언어 모델(LLMs)은 현대 인공지능의 초석이 되었습니다. 그러나 기존의 다음 토큰 예측 패러다임은 이들이 일관된 고차원 개념을 형성하는 능력을 근본적으로 제한하며, 이는 인간과 유사한 이해와 추론을 위한 중요한 장벽으로 작용합니다. 예를 들어, "리보핵산(ribonucleic acid)"이라는 구문을 살펴보면, LLM은 이를 먼저 토큰, 즉 인공적인 텍스트 조각("rib", "on", ...)으로 분해한 후 각 토큰을 순차적으로 학습합니다. 이는 구문을 통합적이고 일관된 의미론적 개체로 파악하는 대신, 단편적인 표현을 통해 더 깊은 개념적 이해와 궁극적으로 진정한 지능 시스템의 발전을 방해합니다. 이에 대응하여, 우리는 개념 인식 미세 조정(Concept-Aware Fine-Tuning, CAFT)이라는 새로운 다중 토큰 학습 방법을 소개합니다. 이 방법은 다중 토큰에 걸친 시퀀스 학습을 가능하게 함으로써 더 강력한 개념 인식 학습을 촉진합니다. 우리의 실험은 텍스트 요약과 같은 전통적인 응용 분야부터 데노보 단백질 설계와 같은 도메인 특화 작업에 이르기까지 다양한 작업에서 기존의 다음 토큰 미세 조정 방법에 비해 상당한 개선을 보여줍니다. 다중 토큰 예측은 이전에는 비용이 매우 많이 드는 사전 학습 단계에서만 가능했으나, CAFT는 우리가 아는 한 사후 학습 단계에 다중 토큰 설정을 도입한 최초의 방법으로, 이를 통해 더 넓은 실무자 및 연구자 커뮤니티가 그 혜택을 누릴 수 있게 합니다. 마지막으로, 우리가 제안한 방법의 예상치 못한 효과는 머신러닝 연구 커뮤니티에 더 넓은 함의를 시사합니다. 모든 코드와 데이터는 https://github.com/michaelchen-lab/caft-llm에서 확인할 수 있습니다.
대규모 언어 모델(LLM)의 추론 능력에 관한 최근 연구는 강화 학습(RL)을 통해 계획 및 자기 성찰과 같은 정교한 행동이 나타날 수 있음을 보여주었습니다. 그러나 이러한 성과에도 불구하고, 현재 형태의 RL은 기본 모델의 한계를 초과하는 능력을 유도하기에는 여전히 부족합니다. 이는 RL이 주로 모델의 기존 지식을 기반으로 최적화되며, 새로운 정보의 습득을 촉진하지 않기 때문입니다. 이러한 한계를 해결하기 위해, 우리는 RL이 학습할 수 없는 부분을 슈퍼바이즈드 파인튜닝(SFT)을 통해 학습함으로써 고품질 데모 데이터를 활용하여 새로운 지식과 추론 패턴을 통합할 수 있도록 합니다. 우리는 LLM 추론을 위한 RL과 SFT의 학습 역학을 분석한 결과, RL은 모델의 원래 능력 범위 내 질문에 대한 성능을 유지하고 개선하는 데 탁월한 반면, SFT는 모델의 현재 범위를 넘어서는 질문에 대한 진전을 가능하게 하는 데 더 효과적임을 발견했습니다. RL과 SFT의 상호 보완적 강점에 동기를 받아, 우리는 새로운 학습 접근법인 ReLIFT(Reinforcement Learning Interleaved with Online Fine-Tuning)를 제안합니다. ReLIFT에서는 모델이 주로 RL을 통해 학습되지만, 어려운 질문에 직면할 때 고품질 솔루션을 수집하여 파인튜닝을 진행하며, RL과 파인튜닝을 번갈아가며 모델의 추론 능력을 향상시킵니다. ReLIFT는 다섯 가지 경쟁 수준 벤치마크와 하나의 분포 외 벤치마크에서 다른 제로-RL 모델 대비 평균 +5.2점 이상의 개선을 달성했습니다. 또한, ReLIFT는 상세한 데모 데이터의 13%만 사용하면서도 RL과 SFT를 모두 능가하는 성능을 보여주어 확장성을 입증했습니다. 이러한 결과는 ReLIFT가 RL의 근본적인 한계를 극복하며 상당한 잠재력을 가지고 있음을 강력하게 시사합니다.
최근, 명시적 구조화된 추론과 같은 기법들이 모델의 내부 "사고" 과정과 최종 응답 간의 분리를 강제함으로써 강력한 테스트 시간 스케일링 행동을 보여주었다. 이러한 설정에서 답변 품질에 영향을 미치는 주요 요소는 사고 단계의 길이다. 추론이 너무 짧을 경우, 모델이 작업의 복잡성을 포착하지 못할 수 있다. 반대로 너무 길 경우, 모델이 과도하게 사고하여 불필요한 계산을 수행하고 성능이 저하될 수 있다. 본 논문은 대형 언어 모델(LLM)이 명시적 사고 과정 중 자신의 추론 길이를 이해하고 조절하는 근본적인 메커니즘을 탐구하고 활용한다. 첫째, LLM이 추론 과정을 통해 진행 상황을 인코딩함을 보이고, 이를 통해 모델의 계획 역학에 대한 통찰을 제공하는 인터랙티브 진행률 표시줄 시각화를 소개한다. 둘째, 추론 중 내부 진행 인코딩을 조작하여 불필요한 단계를 줄이고 더 간결하고 결정적인 사고 사슬을 생성한다. 우리의 실험 결과는 이러한 "오버클럭킹" 방법이 과도한 사고를 완화하고 답변 정확도를 향상시키며 추론 지연 시간을 줄임을 보여준다. 우리의 코드는 공개되어 있다.
대규모 언어 모델(LLMs)의 최근 발전은 다양한 분야, 특히 수학적 추론에서 놀라운 능력을 보여주었으며, 그 중에서도 기하학 문제 해결은 보조 구성이 핵심적인 역할을 하는 어려운 영역으로 남아 있습니다. 기존의 접근 방식은 최적의 성능을 달성하지 못하거나 GPT-4o와 같은 대규모 LLMs에 의존하여 막대한 계산 비용을 초래합니다. 우리는 검증 가능한 보상을 통한 강화 학습(예: GRPO)이 보조 구성과 견고한 기하학적 추론을 효과적으로 결합한 소규모 모델을 훈련하는 유망한 방향을 제시한다고 주장합니다. 그러나 GRPO를 기하학적 추론에 직접 적용하는 것은 무조건적인 보상에 의존하기 때문에 근본적인 한계를 가지고 있으며, 이는 무차별적이고 역효과를 일으키는 보조 구성을 초래합니다. 이러한 문제를 해결하기 위해 우리는 두 가지 주요 혁신을 특징으로 하는 새로운 강화 학습 프레임워크인 그룹 대조 정책 최적화(GCPO)를 제안합니다: (1) 문맥적 유용성에 기반하여 보조 구성에 대해 긍정적 또는 부정적 보상 신호를 적응적으로 제공하는 그룹 대조 마스킹, 그리고 (2) 더 긴 추론 체인을 촉진하는 길이 보상입니다. GCPO를 기반으로 우리는 보조 구성을 언제 사용할지 신중하게 결정하는 합리적인 크기의 기하학적 추론 모델인 GeometryZero 제품군을 개발했습니다. Geometry3K, MathVista와 같은 인기 있는 기하학 벤치마크에 대한 광범위한 실험적 평가를 통해 GeometryZero 모델이 기준선(예: GRPO)을 지속적으로 능가하며 모든 벤치마크에서 평균 4.29%의 개선을 달성함을 입증했습니다.
Calvin Luo, Zilai Zeng, Mingxi Jia, Yilun Du, Chen Sun
32
전문가 시연 데이터로 학습된 비디오 생성 모델은 로봇 과제 해결을 위한 텍스트 조건 시각적 플래너로 활용되어 왔습니다. 그러나 보이지 않는 과제로의 일반화는 여전히 과제로 남아 있습니다. 웹 규모의 비디오 데이터셋과 같은 추가로 사전 수집된 오프라인 데이터 소스에서 학습된 사전 지식을 활용함으로써 일반화를 개선할 수 있지만, 경험의 시대에서는 스스로 수집한 행동으로부터 온라인 방식으로 지속적으로 개선할 수 있는 에이전트를 설계하는 것을 목표로 합니다. 이 연구에서는 도메인 내 비디오 모델이 인터넷 규모로 사전 학습된 비디오 모델과의 적응을 통해 수집된 자체 생성 궤적에 대해 반복적으로 업데이트하며, 지정된 관심 과제에 대한 성능을 꾸준히 개선하는 자기 적응 개선 루프(Self-Adapting Improvement Loop, SAIL)를 제안합니다. 우리는 SAIL을 MetaWorld 과제들뿐만 아니라 실제 로봇 팔에서의 두 가지 조작 과제에 적용했으며, 원래 도메인 내 비디오 모델 학습 중에는 보이지 않았던 새로운 과제들에 대해 여러 반복을 거치며 지속적으로 성능 개선이 이루어짐을 발견했습니다. 또한, SAIL이 자체 수집된 경험의 필터링 여부 및 방법, 그리고 초기 도메인 내 시연의 품질에 대해 놀라울 정도로 강건함을 발견했습니다. 요약된 인터넷 규모 데이터와의 적응 및 온라인 경험을 통한 학습을 통해, 우리는 자기 개선을 통해 새로운 로봇 과제를 해결하기 위한 고성능 비디오 모델을 반복적으로 부트스트랩하는 방법을 입증했습니다.
Yajie Zhou, Jiajun Ruan, Eric S. Wang, Sadjad Fouladi, Francis Y. Yan, Kevin Hsieh, Zaoxing Liu
33
대규모 언어 모델(LLM)과 에이전트에 대한 도메인 특화 벤치마킹에 대한 관심이 증가하고 있음에도 불구하고, 현재의 평가는 특히 네트워크 운영과 같이 배포 시 신뢰성이 요구되는 고위험 작업에서 정적이고 소규모의 데이터셋에 국한되어 있습니다. 우리는 네트워크 애플리케이션에서 LLM 에이전트를 평가하기 위한 자동화된 벤치마크 생성 프레임워크인 NetPress를 소개합니다. NetPress는 상태와 동작을 통합한 추상화를 도입하여 다양한 쿼리 세트와 해당하는 정답을 동적으로 생성할 수 있게 합니다. 런타임에서 사용자는 벤치마크 구성을 지정하여 수백만 개의 쿼리를 즉시 생성할 수 있습니다. 동적 벤치마크 구성 외에도, NetPress는 네트워크 에뮬레이터와 통합되어 현실적인 환경 피드백을 제공함으로써 정확성, 안전성, 지연 시간에 걸친 포괄적인 평가를 지원합니다. 우리는 NetPress를 세 가지 대표적인 애플리케이션에 적용하여, 정적이고 정확성만을 평가하는 벤치마크가 종종 놓치는 에이전트 행동의 미세한 차이를 발견했습니다. NetPress는 LLM 평가를 인프라 중심 도메인에서 현실적이고 확장 가능한 테스트로 이동시켜, 벤치마크 성능과 실제 배포 준비 사이의 격차를 줄이는 데 기여합니다. 코드는 https://github.com/Froot-NetSys/NetPress에서 확인할 수 있습니다.
사전 학습된 대규모 언어 모델(LLM)에서 토크나이저를 이식하기 위한 훈련이 필요 없는 방법을 제안합니다. 이 방법은 직교 매칭 추적(Orthogonal Matching Pursuit, OMP)을 통해 보이지 않는 토큰 임베딩을 재구성합니다. 구체적으로, 각 어휘 외(out-of-vocabulary) 토큰을 공유 토큰의 희소 선형 조합으로 근사화하는 두 단계를 거칩니다: 먼저, 공유 앵커 토큰의 작은 사전을 사용하여 기증자 임베딩 공간에서 각 새 토큰의 표현을 계산한 다음, 동일한 희소 계수를 기본 모델의 임베딩 공간으로 전송합니다.
두 가지 도전적인 크로스 토크나이저 작업(LlamatoMistral NeMo (12B) 및 QwentoLlama (1B))에서 OMP가 여러 벤치마크에서 기본 모델의 성능을 최고의 제로샷(zero-shot) 보존을 달성하는 반면, 다른 제로샷 접근 방식은 크게 저하됨을 보여줍니다. 기준선(zero-init, mean-init 및 WECHSEL, FOCUS, ZETT와 같은 기존 접근 방식)과 비교했을 때, OMP는 일관되게 최고의 전반적인 성능을 달성하며, 그래디언트 업데이트 없이도 큰 토크나이저 불일치를 효과적으로 해결합니다. 우리의 분석은 수치 토큰화 방식의 불일치가 수학적 추론 능력을 보존하는 데 있어 중요한 과제임을 추가로 확인했습니다. 이 기술은 새로운 토크나이저와 함께 사전 학습된 모델 가중치를 직접 재사용할 수 있게 하여, 크로스 토크나이저 지식 증류, 스펙티브 디코딩, 앙상블, 병합 및 도메인 특화 어휘 적응을 용이하게 합니다. 우리는 이 방법을 오픈소스 mergekit-tokensurgeon 도구에 통합하여 사후 어휘 재조정을 가능하게 했습니다.
Yichi Zhang, Xin Luna Dong, Zhaojiang Lin, Andrea Madotto, Anuj Kumar, Babak Damavandi, Joyce Chai, Seungwhan Moon
22
최근 대화형 AI의 발전은 상당하지만, 지각적 작업 지도를 위한 실시간 시스템 개발은 여전히 도전적인 과제로 남아 있습니다. 이러한 시스템은 스트리밍 시각 입력을 기반으로 상호작용적이고 능동적인 지원을 제공해야 하지만, 데이터 수집 및 시스템 평가의 비용이 많이 들고 노동 집약적인 과정으로 인해 개발이 제한되고 있습니다. 이러한 한계를 해결하기 위해, 우리는 세 가지 주요 기여를 포함한 포괄적인 프레임워크를 제시합니다. 첫째, 주석이 달린 에고센트릭 비디오에서 대화를 합성하는 새로운 데이터 큐레이션 파이프라인을 소개하여, 여러 도메인에 걸친 대규모 합성 대화 데이터셋인 \dataset을 생성합니다. 둘째, 광범위한 인간 연구를 통해 검증된 자동 평가 메트릭 세트를 개발합니다. 셋째, 데이터 불균형과 장기간 비디오를 처리하기 위한 새로운 기술을 통합하여 스트리밍 비디오 입력을 처리하고 상황에 적절한 응답을 생성하는 종단 간 모델을 제안합니다. 이 작업은 다양한 작업을 통해 사용자를 안내할 수 있는 실시간 능동형 AI 어시스턴트 개발의 기반을 마련합니다. 프로젝트 페이지: https://pro-assist.github.io/
중국어와 문화의 기초를 이루는 한자는 매우 광범위하고 지속적으로 확장되는 범주를 포괄하며, 최신 중국 GB18030-2022 표준에는 87,887개의 범주가 포함되어 있습니다. 이 방대한 수의 한자를 정확하게 인식하는 것은 메가 카테고리 인식으로 불리며, 문화 유산 보존과 디지털 응용 분야에서 매우 중요하면서도 어려운 과제입니다. 광학 문자 인식(OCR) 기술이 크게 발전했음에도 불구하고, 메가 카테고리 인식은 포괄적인 데이터셋의 부재로 인해 아직 탐구되지 않은 상태이며, 기존의 가장 큰 데이터셋은 단 16,151개의 범주만을 포함하고 있습니다. 이러한 중요한 격차를 해소하기 위해, 우리는 전례 없는 97,455개의 한자 범주를 포함하는 메가 카테고리 대규모 데이터셋인 MegaHan97K를 소개합니다. 우리의 작업은 세 가지 주요 기여를 제공합니다: (1) MegaHan97K는 최신 GB18030-2022 표준을 완전히 지원하는 첫 번째 데이터셋으로, 기존 데이터셋보다 최소 6배 이상 많은 범주를 제공합니다; (2) 세 가지 독특한 하위 집합(필기체, 역사적, 합성 하위 집합)을 통해 모든 범주에 걸쳐 균형 잡힌 샘플을 제공함으로써 장기 꼬리 분포 문제를 효과적으로 해결합니다; (3) 포괄적인 벤치마킹 실험을 통해 메가 카테고리 시나리오에서의 새로운 도전 과제, 즉 저장 공간 요구 증가, 형태적으로 유사한 문자 인식, 제로샷 학습의 어려움 등을 밝히는 동시에 미래 연구를 위한 상당한 기회를 제공합니다. 우리가 아는 한, MetaHan97K는 OCR 분야뿐만 아니라 패턴 인식의 더 넓은 영역에서도 가장 큰 클래스를 가진 데이터셋일 가능성이 높습니다. 이 데이터셋은 https://github.com/SCUT-DLVCLab/MegaHan97K에서 이용 가능합니다.
Jie Sun, Junkang Wu, Jiancan Wu, Zhibo Zhu, Xingyu Lu, Jun Zhou, Lintao Ma, Xiang Wang
22
대규모 언어 모델(LLM)의 정렬은 실용적 응용에서의 안전성과 신뢰성을 보장하기 위해 중요합니다. 직접 선호 최적화(Direct Preference Optimization, DPO)는 선호 쌍을 사용하여 모델을 직접 최적화하는 효율적인 방법으로 등장하여 자원 요구를 크게 줄였습니다. 그러나 DPO의 효과는 데이터 품질에 크게 의존하며, 이는 잡음으로 인해 자주 저하됩니다. 본 연구에서는 쌍별 수준에서 보상 마진을 조정하는 동적 목표 마진 선호 최적화 알고리즘인 gamma-PO를 제안합니다. 인스턴스별 마진 보정을 도입함으로써, gamma-PO는 높은 신뢰도를 보이는 쌍(더 높은 보상 마진을 보이는 쌍)을 전략적으로 우선시하면서 모호한 쌍에서 발생할 수 있는 잡음을 억제합니다. 또한, gamma-PO는 선호 쌍 간의 보상 마진에 의존하는 DPO 변형과 호환되는 플러그 앤 플레이 방식입니다. AlpacaEval2 및 Arena-Hard와 같은 벤치마크에서 gamma-PO는 다른 기준선 대비 평균 4.4%의 성능 향상을 달성하며, 최신 기술 수준의 새로운 벤치마크를 설정합니다. 추가적으로, gamma-PO는 최소한의 코드 변경만 필요로 하며, 훈련 효율성에 미치는 영향이 미미하여 LLM 정렬 강화를 위한 견고한 솔루션으로 자리 잡고 있습니다. 저희 코드는 https://github.com/sunjie279/gammaPO{https://github.com/sunjie279/gammaPO}에서 확인할 수 있습니다.
Qianqi Yan, Hongquan Li, Shan Jiang, Yang Zhao, Xinze Guan, Ching-Chen Kuo, Xin Eric Wang
21
다중모달 대형 언어 모델(MLLMs)은 입력이 복잡하고 불완전하며 항상 신뢰할 수 없는 개방형 실세계 환경에서 점점 더 많이 배포되고 있다. 정제된 벤치마크와 달리, 이러한 환경에서는 누락된 객체나 모순된 사실을 참조하거나 모호한 참조에 의존하거나 실행 불가능한 행동을 요구하는 지시가 빈번히 발생한다. 이러한 경우, 성공은 단순히 작업 실행에만 달려 있는 것이 아니라, 무언가가 조용히 잘못되었음을 감지하는 모델의 능력에 달려 있다. 본 논문은 현재의 MLLMs가 이러한 암묵적 추론 시나리오, 즉 결함이 명시적으로 언급되지 않았지만 맥락에서 추론해야 하는 경우를 어떻게 처리하는지에 대한 체계적인 분석을 제시한다. 실세계 실패 모드의 네 가지 범주를 아우르는 정제된 진단 도구를 사용하여, o3와 GPT-4o를 포함한 여섯 가지 MLLMs를 평가한 결과, 모델들이 필요한 지각 및 추론 능력을 갖추고 있음에도 불구하고 숨겨진 문제를 자주 발견하지 못하는 것으로 나타났다. 명시적인 프롬프팅은 기본적인 능력이 존재하지만 사용자 준수를 우선시하여 종종 억제되고 있음을 보여준다. 또한, 신중한 페르소나 프롬프팅과 특히 명확한 질문을 요구하는 것과 같은 간단한 추론 시점 개입이 성능을 극적으로 회복시킬 수 있음을 보여준다. 본 연구 결과는 현재 MLLMs의 추론 능력과 행동적 준수 사이에 지속적인 격차가 있음을 강조하며, 제약이 적은 환경에서 이러한 모델을 더 신뢰할 수 있도록 만드는 실용적인 전략을 제안한다.
Xiaorui Wu, Xiaofeng Mao, Xin Zhang, Fei Li, Chong Teng, Yuxiang Peng, Li Zheng, Donghong Ji, Zhuang Li
22
대형 언어 모델(LLMs)은 종종 유사 악성 지시에 응답을 거부합니다: 보수적인 안전 정렬로 인해 의미론적으로 무해한 입력 질문이 불필요한 LLM 거부를 유발하여 사용자 경험을 크게 저하시킵니다. 이러한 지시를 수집하는 것은 과도한 거부를 평가하고 완화하는 데 중요하지만, 기존의 지시 수집 방법(예: 수동 생성 또는 지시 재작성)은 확장성이 부족하거나 충분히 다양하고 효과적인 거부 유발 프롬프트를 생성하지 못합니다. 이러한 한계를 해결하기 위해, 우리는 EVOREFUSE를 소개합니다. 이는 다양한 유사 악성 지시를 생성하여 LLMs에서 일관되게 확신에 찬 거부를 유발하는 프롬프트 최적화 접근법입니다. EVOREFUSE는 변이 전략과 재조합을 통해 기존 방법보다 더 다양한 방향으로 지시 공간을 탐색하는 진화 알고리즘을 사용하며, LLM 거부 확률에 대한 증거 하한을 최대화하기 위해 시드 지시를 반복적으로 진화시킵니다. EVOREFUSE를 사용하여, 우리는 두 가지 새로운 데이터셋을 생성했습니다: EVOREFUSE-TEST는 582개의 유사 악성 지시로 구성된 벤치마크로, 9개의 LLMs에서 평균 거부 유발률이 다음으로 우수한 벤치마크보다 140.41% 더 높고, 어휘 다양성이 34.86% 더 크며, LLM 응답 신뢰도 점수가 40.03% 개선되었습니다; 그리고 EVOREFUSE-ALIGN은 지도 학습 및 선호 기반 정렬 훈련을 위한 응답과 함께 3,000개의 유사 악성 지시를 제공합니다. EVOREFUSE-ALIGN에서 지도 학습으로 미세 조정된 LLAMA3.1-8B-INSTRUCT는 두 번째로 우수한 정렬 데이터셋에서 훈련된 모델보다 최대 14.31% 더 적은 과도한 거부를 보이면서도 안전성을 저해하지 않습니다. EVOREFUSE-TEST를 사용한 우리의 분석은 모델이 민감한 키워드에 지나치게 집중하면서 더 넓은 맥락을 무시함으로써 과도한 거부를 유발한다는 것을 보여줍니다.
Maciej Chrabąszcz, Katarzyna Lorenc, Karolina Seweryn
12
대규모 언어 모델(LLM)은 최근 몇 년 동안 다양한 자연어 처리(NLP) 작업에서 인상적인 성능을 보여주었다. 그러나 이러한 모델들은 탈옥(jailbreak) 및 교란(perturbation)에 취약하기 때문에 추가적인 평가가 필요하다. 많은 LLM이 다국어를 지원하지만, 안전 관련 훈련 데이터는 주로 영어와 같은 고자원 언어로 구성되어 있다. 이로 인해 폴란드어와 같은 저자원 언어에서의 교란에 취약할 수 있다. 본 연구에서는 단 몇 개의 문자를 변경하고 단어 중요도 계산을 위한 작은 프록시 모델을 사용하여 놀라울 정도로 강력한 공격을 저렴하게 생성할 수 있음을 보여준다. 이러한 문자 및 단어 수준의 공격이 다양한 LLM의 예측을 크게 변경함으로써, 내부 안전 메커니즘을 우회하는 데 활용될 수 있는 잠재적 취약점을 시사한다. 저자원 언어인 폴란드어를 대상으로 공격 구성 방법론을 검증하고, 이 언어에서의 LLM 잠재적 취약점을 발견하였다. 또한, 이를 다른 언어로 확장할 수 있는 방법을 제시한다. 본 연구에서는 생성된 데이터셋과 코드를 공개하여 추가 연구를 촉진한다.
대규모 멀티모달 모델(Large Multimodal Models, LMMs)은 최소한의 지도 하에 새로운 작업을 수행하기 위해 인컨텍스트 학습(In-Context Learning, ICL)에 의존하는 경우가 많습니다. 그러나 특히 더 작은 LMMs에서 ICL 성능은 일관적이지 않으며, 예시가 증가함에 따라 단조롭게 향상되지 않습니다. 우리는 이러한 현상이 LMM이 이미지 임베딩에 포함된 추가 정보로 인해 과부하 상태에 빠지기 때문이라고 가정합니다. 이는 다운스트림 작업에 필요하지 않은 정보입니다. 이를 해결하기 위해, 우리는 메타러닝 접근 방식을 제안합니다. 이 방식은 작업 관련 이미지 특징에서 추출된 고정된 소프트 프롬프트 세트를 사용하여 LMMs에 소수 샷(few-shot) 능력을 유도하는 대안을 제공하며, 테스트 시 몇 가지 예시를 사용하여 적응할 수 있습니다. 이러한 추출을 용이하게 하기 위해, 우리는 주의 매퍼(attention-mapper) 모듈을 도입했습니다. 이 모듈은 인기 있는 LLaVA v1.5 아키텍처와 쉽게 통합될 수 있으며, 소프트 프롬프트와 함께 공동 학습되어, 단 몇 번의 그래디언트 단계만으로도 저데이터 환경에서 LMMs의 작업 적응을 가능하게 합니다. VL-ICL 벤치에서의 평가 결과, 우리의 방법은 ICL 및 관련 프롬프트 튜닝 접근 방식을 일관적으로 능가하며, 이미지 왜곡 상황에서도 시각적 질의응답 작업에서의 작업 유도와 추론 능력을 향상시킵니다.