번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)의 최근 발전은 금융 자연어 처리(NLP) 및 응용 분야의 진전을 가속화했지만, 기존 벤치마크는 단일 언어 및 단일 모달리티 설정에 국한되어 있으며, 종종 단순한 과제에 지나치게 의존하여 실제 금융 커뮤니케이션의 복잡성을 반영하지 못하고 있다. 본 연구에서는 글로벌 금융 도메인에 맞춰 설계된 최초의 다국어 및 다중 모달리티 벤치마크인 MultiFinBen을 소개한다. 이 벤치마크는 텍스트, 비전, 오디오와 같은 다양한 모달리티와 단일 언어, 이중 언어, 다국어와 같은 언어 설정에서 도메인 특화 과제에 대해 LLM을 평가한다. 또한, 혼합 언어 입력에 대한 복잡한 추론을 요구하는 최초의 다국어 금융 벤치마크인 PolyFiQA-Easy와 PolyFiQA-Expert, 그리고 시각적 텍스트 금융 문서에서 정보를 추출하고 추론하는 능력을 시험하는 최초의 OCR 내장 금융 질의응답 과제인 EnglishOCR과 SpanishOCR을 도입한다. 더 나아가, 기존 데이터셋의 단순한 통합이 아닌 동적이고 난이도 인식 선택 메커니즘을 제안하며, 간결하고 균형 잡힌 벤치마크를 구성한다. 22개의 최첨단 모델에 대한 광범위한 평가 결과, 가장 강력한 모델들도 일반적인 다중 모달리티 및 다국어 능력에도 불구하고 금융 도메인의 복잡한 교차 언어 및 다중 모달리티 과제에 직면할 때 극심한 어려움을 겪는 것으로 나타났다. MultiFinBen은 금융 연구 및 응용 분야에서 투명하고 재현 가능하며 포용적인 진전을 촉진하기 위해 공개적으로 출시되었다.
테스트 시간 계산량 확장은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 데 있어 놀라운 성공을 거두었습니다. 본 연구에서는 언어 에이전트에 테스트 시간 확장 방법을 적용하는 첫 번째 체계적인 탐구를 수행하고, 이를 통해 그 효과가 얼마나 개선되는지 조사합니다. 구체적으로, 우리는 다양한 테스트 시간 확장 전략을 탐구하며, 이에는 (1) 병렬 샘플링 알고리즘, (2) 순차적 수정 전략, (3) 검증기 및 병합 방법, (4) 롤아웃 다양화 전략이 포함됩니다. 우리는 언어 에이전트에 테스트 시간 확장을 적용할 때 다양한 설계 전략의 영향을 신중하게 분석하고 다음과 같은 결과를 도출했습니다: 1. 테스트 시간 계산량 확장은 에이전트의 성능을 향상시킬 수 있습니다. 2. 에이전트가 언제 반영할지를 아는 것이 중요합니다. 3. 다양한 검증 및 결과 병합 접근법 중 리스트 방식이 가장 우수한 성능을 보입니다. 4. 롤아웃의 다양성을 증가시키는 것은 에이전트의 작업 성능에 긍정적인 영향을 미칩니다.
오디오-텍스트 대형 언어 모델(LLMs)의 최근 발전은 음악 이해 및 생성에 대한 새로운 가능성을 열어주었다. 그러나 기존 벤치마크는 단순화된 작업이나 다중 선택 평가에 의존하는 경우가 많아, 실제 음악 분석의 복잡성을 반영하지 못하는 한계가 있다. 우리는 다양한 전통적인 음악 정보 검색(MIR) 주석을 명령 수행 형식으로 재해석하고, CMI-Bench라는 포괄적인 음악 명령 수행 벤치마크를 소개한다. 이 벤치마크는 오디오-텍스트 LLMs를 다양한 MIR 작업에 대해 평가하도록 설계되었으며, 장르 분류, 감정 회귀, 감정 태깅, 악기 분류, 피치 추정, 키 감지, 가사 전사, 멜로디 추출, 보컬 기법 인식, 악기 연주 기법 감지, 음악 태깅, 음악 캡셔닝, (다운)비트 추적 등을 포함한다. 이는 MIR 연구의 핵심 과제를 반영한다. 이전 벤치마크와 달리, CMI-Bench는 이전 최첨단 MIR 모델과 일치하는 표준화된 평가 지표를 채택하여 지도 학습 접근법과의 직접적인 비교가 가능하도록 한다. 우리는 LTU, Qwen-audio, SALMONN, MusiLingo 등 모든 오픈소스 오디오-텍스트 LLMs를 지원하는 평가 툴킷을 제공한다. 실험 결과는 LLMs와 지도 모델 간의 상당한 성능 차이와 함께, 문화적, 연대적, 성별 편향을 드러내며, 현재 모델들이 MIR 작업을 해결하는 데 있어 잠재력과 한계를 강조한다. CMI-Bench는 음악 명령 수행 평가를 위한 통합된 기반을 마련함으로써, 음악 인식 LLMs의 발전을 촉진한다.
대규모 언어 확산 모델(Large Language Diffusion Models, 이하 확산 LLM)은 NLP 연구에서 중요한 주제로 부상하며, 이들의 확장성과 다운스트림 작업 성능에 대한 이해를 목표로 상당한 연구 노력이 집중되고 있습니다. 그러나 이들의 장문맥(long-context) 능력은 체계적인 분석이나 문맥 확장 방법이 부족하여 아직 탐구되지 않았습니다. 본 연구에서는 확산 LLM과 전통적인 자기회귀(auto-regressive) LLM의 장문맥 성능을 비교하는 첫 체계적인 조사를 제시합니다. 먼저, 확산 LLM이 자기회귀 LLM과 달리 직접적인 문맥 외삽(direct context extrapolation) 동안 놀랍도록 \textit{안정적인 복잡도(perplexity)}를 유지하는 독특한 특성을 확인했습니다. 또한, 사전 학습된 길이를 초과하는 문맥에서 '건초 더미 속 바늘 찾기(Needle-In-A-Haystack)' 작업 중 자기회귀 모델이 완전히 실패하는 반면, 확산 LLM은 최근 문맥 세그먼트에서 성공적인 검색을 가능하게 하는 독특한 \textit{지역적 인식(local perception)} 현상을 보임을 발견했습니다. 우리는 이 두 현상을 회전 위치 임베딩(Rotary Position Embedding, RoPE) 스케일링 이론을 통해 설명합니다. 이러한 관찰을 바탕으로, LLaDA와 NTK 기반 RoPE 외삽을 통합한 학습이 필요 없는 방법인 LongLLaDA를 제안합니다. 우리의 결과는 확산 LLM의 문맥 창을 확장하기 위해 기존의 외삽 스케일링 법칙이 여전히 유효함을 검증합니다. 또한, 확산 LLM이 자기회귀 LLM을 능가하는 장문맥 작업과 그렇지 못한 작업을 식별합니다. 결과적으로, 본 연구는 확산 LLM의 첫 문맥 외삽 방법을 확립함과 동시에 장문맥 확산 LLM 연구를 진전시키기 위한 필수적인 이론적 통찰과 실증적 벤치마크를 제공합니다.
복잡한 추론 분야에서 인상적인 진전을 이루었음에도 불구하고, 현재의 대형 언어 모델(LLM)은 일반적으로 고립된 상태로 작동합니다. 각 문제를 독립적인 시도로 취급하며, 경험적 지식을 축적하거나 통합하지 않습니다. 이와 대조적으로, 올림피아드나 프로그래밍 대회 팀과 같은 전문 문제 해결자들은 풍부한 경험의 망을 활용합니다: 코치로부터 멘토링을 받고, 과거 문제로부터 직관을 개발하며, 도구 사용 및 라이브러리 기능에 대한 지식을 활용하고, 동료의 전문성과 경험을 바탕으로 전략을 조정하며, 시행착오를 통해 추론을 지속적으로 개선하고, 경쟁 중에도 관련 문제로부터 배웁니다. 우리는 Xolver를 소개합니다. 이는 블랙박스 LLM에 전체적인 경험의 지속적이고 진화하는 메모리를 제공하는 훈련이 필요 없는 다중 에이전트 추론 프레임워크입니다. Xolver는 외부 및 자기 검색, 도구 사용, 협업적 상호작용, 에이전트 주도 평가, 반복적 개선 등 다양한 경험 양식을 통합합니다. 추론 시간에 관련 전략, 코드 조각, 추상적 추론 패턴을 학습함으로써, Xolver는 처음부터 해결책을 생성하는 것을 피합니다. 이는 고립된 추론에서 경험을 인지하는 언어 에이전트로의 전환을 의미합니다. 오픈 웨이트와 독점 모델 모두를 기반으로 구축된 Xolver는 특수화된 추론 에이전트를 꾸준히 능가합니다. 경량 백본(예: QWQ-32B)을 사용하더라도, Qwen3-235B, Gemini 2.5 Pro, o3, o4-mini-high와 같은 고급 모델을 종종 능가합니다. o3-mini-high를 사용하여 GSM8K(98.1%), AIME'24(94.4%), AIME'25(93.7%), Math-500(99.8%), LiveCodeBench-V5(91.6%)에서 새로운 최고 기록을 달성하며, 전문가 수준의 추론이 가능한 일반 에이전트로 나아가는 핵심 단계로서 전체적 경험 학습을 강조합니다. 코드와 데이터는 https://kagnlp.github.io/xolver.github.io/에서 확인할 수 있습니다.
검증 가능한 보상을 통한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 발전시키기 위한 유망한 패러다임으로 부상했습니다. 그러나 RLVR의 효용성에 대한 중요한 역설이 존재합니다: RLVR로 조정된 모델들은 종종 솔루션 탐색을 위한 Pass@K 지표에서 기본 모델보다 낮은 성능을 보이며, 이는 RLVR이 단순히 기존 추론 경로를 재가중함으로써 추론 다양성을 희생한다는 가설로 이어집니다. 본 연구에서는 이 모순을 해결하기 위해 문제의 근원을 규명했습니다: Pass@K 지표 자체가 추론을 측정하는 데 있어 결함이 있는데, 이는 부정확하거나 불완전한 사고의 연쇄(CoT)에서 비롯된 정답에도 점수를 부여하기 때문입니다. 이를 해결하기 위해, 우리는 더 정밀한 평가 지표인 CoT-Pass@K를 도입했습니다. 이 지표는 추론 경로와 최종 답변이 모두 정확해야 점수를 부여합니다. 또한, 우리는 RLVR이 기존의 강화 학습과 달리 논리적 정합성을 유도하도록 고유하게 구조화되어 있음을 형식화하는 새로운 이론적 기반을 제공합니다. 실험 결과는 이를 뒷받침합니다: CoT-Pass@K를 사용하여 RLVR이 모든 K 값에 대해 올바른 추론의 일반화를 유도할 수 있음을 관찰했습니다. 더 나아가, 학습 동역학을 분석한 결과, 이러한 향상된 추론 능력은 학습 과정 초기에 나타나며 부드럽게 일반화됨을 발견했습니다. 본 연구는 RLVR의 역할에 대한 명확한 관점을 제공하고, 이를 평가하기 위한 더 신뢰할 수 있는 방법을 제시하며, 기계 추론을 진정으로 발전시킬 수 있는 잠재력을 확인합니다.
GPT-4o와 같은 대규모 다중모달 모델(LMMs)의 등장은 텍스트, 시각, 음성 모달리티를 통합하여 더 유연한 다중모달 상호작용을 지원하기 위한 탐구를 촉진시켰다. 기존의 LMM들은 일반적으로 모달리티의 표현을 시퀀스 차원에서 연결하고 이를 대규모 언어 모델(LLM) 백본에 입력한다. 시퀀스 차원 연결은 모달리티 통합에 직관적이지만, 모달리티 정렬을 학습하기 위해 대규모 데이터에 크게 의존하는 경향이 있다. 본 논문에서는 모달리티 간의 관계를 보다 의도적으로 모델링함으로써 더 효율적이고 유연한 모달리티 정렬을 달성하고자 한다. 이를 위해 우리는 다양한 모달리티 조합에서의 상호작용을 동시에 지원할 수 있는 효율적인 모달리티 정렬을 갖춘 대규모 언어-시각-음성 모델인 Stream-Omni를 제안한다. Stream-Omni는 LLM을 백본으로 사용하며, 시각과 음성을 텍스트와의 관계에 기반하여 정렬한다. 텍스트와 의미적으로 보완적인 시각의 경우, Stream-Omni는 시퀀스 차원 연결을 사용하여 시각-텍스트 정렬을 달성한다. 텍스트와 의미적으로 일관된 음성의 경우, Stream-Omni는 CTC 기반의 레이어 차원 매핑을 도입하여 음성-텍스트 정렬을 달성한다. 이러한 방식으로 Stream-Omni는 더 적은 데이터(특히 음성)로 모달리티 정렬을 달성할 수 있으며, 텍스트 능력을 다른 모달리티로 전이할 수 있다. 다양한 벤치마크에서의 실험 결과, Stream-Omni는 시각 이해, 음성 상호작용, 시각 기반 음성 상호작용 과제에서 강력한 성능을 보여준다. 레이어 차원 매핑 덕분에 Stream-Omni는 음성 상호작용 중간에 ASR 전사 및 모델 응답과 같은 중간 텍스트 출력을 동시에 제공할 수 있어 사용자에게 포괄적인 다중모달 경험을 제공한다.
시각 정보 추출(Visual Information Extraction, VIE)은 구조화되지 않은 문서 이미지를 JSON과 같은 구조화된 형식으로 변환하며, 이는 보고서 분석 및 온라인 상담과 같은 의료 응용 분야에서 중요합니다. 전통적인 방법은 OCR(광학 문자 인식) 및 언어 모델에 의존하는 반면, 종단 간(end-to-end) 다중 모달 모델은 직접 JSON 생성을 제공합니다. 그러나 도메인 특화 스키마와 높은 주석 비용은 의료 VIE에서의 효과를 제한합니다. 우리는 이러한 문제를 해결하기 위해 검증 가능한 보상을 활용한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR) 프레임워크를 기반으로 접근하며, 단 100개의 주석 샘플만을 사용합니다. 우리의 접근 방식은 데이터셋 다양성을 보장하고, 환각(hallucination)을 줄이고 필드 커버리지를 향상시키기 위해 정밀도-재현율 균형 보상 메커니즘을 적용하며, 추론 능력을 강화하기 위한 혁신적인 샘플링 전략을 도입합니다. Qwen2.5-VL-7B 모델을 우리의 RLVR 방법으로 미세 조정하여, 의료 VIE 작업에서 최첨단 성능을 달성하고 F1, 정밀도, 재현율을 크게 개선했습니다. 우리의 모델은 의료 데이터셋과 유사한 작업에서 뛰어난 성능을 보이지만, 유사하지 않은 작업에서는 성능이 저하되어 도메인 특화 최적화의 필요성을 강조합니다. 사례 연구는 VIE를 위한 훈련 및 추론 과정에서의 추론 가치를 추가로 입증합니다.
탐색(exploration)과 활용(exploitation)의 균형은 강화 학습(reinforcement learning, RL)의 핵심 목표 중 하나이다. 최근 언어 모델(language model, LM)의 추론 능력을 향상시키는 데 있어 많은 진전이 있었음에도 불구하고, 대부분의 방법은 활용에 치우쳐 있으며 점점 더 성능 정체에 직면하고 있다. 본 연구에서는 RL에서 탐색의 신호로 사용되는 엔트로피(entropy)를 재조명하고, 이를 LM의 탐색적 추론과의 관계를 통해 분석한다. 실증적 분석을 통해, 우리는 높은 엔트로피 영역과 세 가지 유형의 탐색적 추론 행동 간에 강한 양의 상관관계가 있음을 발견하였다: (1) 논리적 단계를 결정하거나 연결하는 핵심 토큰(pivotal tokens), (2) 자기 검증 및 수정과 같은 반영적 행동(reflective actions), (3) 기본 LM에 의해 충분히 탐색되지 않은 희소한 행동(rare behaviors). 이를 바탕으로, 우리는 표준 RL에 단 한 줄의 코드만 추가하는 최소한의 수정을 제안한다: 이점 함수(advantage function)에 엔트로피 기반 항목을 추가하는 것이다. 기존의 최대 엔트로피 방법이 불확실성을 촉진함으로써 탐색을 장려하는 것과 달리, 우리는 더 길고 깊은 추론 사슬을 촉진함으로써 탐색을 장려한다. 특히, 우리의 방법은 LM의 추론 능력을 상한 추정하는 Pass@K 지표에서 상당한 성능 향상을 달성하며, 매우 큰 K 값에서도 평가될 때 LM 추론의 한계를 넓히는 결과를 보여준다.
현대 인공지능의 주요 과제는 주로 관찰을 통해 세계를 이해하고 행동하는 법을 배우는 것이다. 본 논문은 인터넷 규모의 비디오 데이터와 소량의 상호작용 데이터(로봇 궤적)를 결합하여 물리적 세계에서 이해, 예측, 계획을 수행할 수 있는 모델을 개발하는 자기 지도 학습 접근법을 탐구한다. 먼저, 우리는 100만 시간 이상의 인터넷 비디오로 구성된 비디오 및 이미지 데이터셋에서 동작이 없는 공통 임베딩 예측 아키텍처인 V-JEPA 2를 사전 학습한다. V-JEPA 2는 동작 이해(Something-Something v2에서 77.3의 top-1 정확도)와 인간 행동 예측(Epic-Kitchens-100에서 39.7의 recall-at-5)에서 강력한 성능을 달성하며, 이전의 작업 특화 모델들을 능가한다. 또한, V-JEPA 2를 대규모 언어 모델과 정렬한 후, 80억 파라미터 규모에서 여러 비디오 질의응답 작업(예: PerceptionTest에서 84.0, TempCompass에서 76.9)에서 최첨단 성능을 보여준다. 마지막으로, 우리는 Droid 데이터셋의 62시간 미만의 레이블 없는 로봇 비디오를 사용하여 잠재적 동작 조건부 세계 모델인 V-JEPA 2-AC를 사후 학습함으로써 자기 지도 학습이 로봇 계획 작업에 어떻게 적용될 수 있는지 보여준다. 우리는 V-JEPA 2-AC를 두 개의 다른 실험실에서 Franka 팔에 제로샷으로 배포하고 이미지 목표를 사용한 계획을 통해 물체를 집고 놓는 작업을 가능하게 한다. 특히, 이는 이러한 환경에서 로봇으로부터 데이터를 수집하지 않고도, 그리고 작업 특화 훈련이나 보상 없이도 달성되었다. 이 연구는 웹 규모의 데이터와 소량의 로봇 상호작용 데이터로부터의 자기 지도 학습이 물리적 세계에서 계획을 수행할 수 있는 세계 모델을 어떻게 얻을 수 있는지를 보여준다.
확산(Diffusion) 및 흐름(Flow) 기반 모델들은 최첨단 생성 모델링 접근법으로 자리 잡았지만, 많은 샘플링 단계를 필요로 합니다. 일관성(Consistency) 모델은 이러한 모델들을 효율적인 단일 단계 생성기로 증류할 수 있지만, 흐름 및 확산 기반 방법과 달리 단계 수를 증가시킬 때 성능이 필연적으로 저하됩니다. 이는 우리가 분석적 및 실증적으로 보여줍니다. 흐름 맵(Flow Map)은 이러한 접근법을 일반화하여 임의의 두 노이즈 레벨을 단일 단계로 연결하며, 모든 단계 수에서 효과적으로 작동합니다. 본 논문에서는 흐름 맵을 훈련하기 위한 두 가지 새로운 연속 시간 목적 함수와 추가적인 새로운 훈련 기법을 소개하며, 기존의 일관성 및 흐름 매칭 목적 함수를 일반화합니다. 또한, 자동 가이던스(Autoguidance)를 통해 성능을 향상시킬 수 있음을 보여주는데, 이는 증류 과정에서 저품질 모델을 가이드로 사용하며, 적대적 미세 조정(Adversarial Finetuning)을 통해 추가적인 성능 향상을 달성할 수 있고, 샘플 다양성의 최소한의 손실로 이를 가능하게 합니다. 우리는 Align Your Flow라고 명명한 흐름 맵 모델을 도전적인 이미지 생성 벤치마크에서 광범위하게 검증하고, ImageNet 64x64 및 512x512에서 소규모이면서도 효율적인 신경망을 사용하여 최첨단의 적은 단계 생성 성능을 달성합니다. 마지막으로, 텍스트-이미지 흐름 맵 모델을 보여주며, 이는 텍스트 조건 합성에서 기존의 모든 비적대적 훈련된 적은 단계 샘플러를 능가합니다.
최근 장기 사고 연쇄(Long Chain-of-Thought, CoT) 추론 모델의 발전으로 복잡한 과제에서의 성능이 향상되었지만, 특히 간단한 질문에 대해 불필요한 추론 단계를 생성하는 과도한 사고(overthinking) 문제가 발생하고 있다. 본 논문은 장기 및 단기 CoT 모델의 추론 패턴을 재검토하며, 단기 CoT 패턴이 간결하고 효율적인 추론을 제공하는 반면, 장기 CoT 패턴은 단기 CoT 패턴이 어려움을 겪는 도전적인 시나리오에서 뛰어난 성능을 보임을 관찰하였다. 두 패턴을 모두 활용할 수 있도록, 본 연구는 입력 질문을 제거하고 장기 CoT 응답만을 학습하는 미세 조정 접근법인 질문 없는 미세 조정(Question-Free Fine-Tuning, QFFT)을 제안한다. 이 접근법은 모델이 두 추론 패턴을 적응적으로 활용할 수 있도록 하며, 단기 CoT 패턴을 우선적으로 사용하고 필요할 때만 장기 CoT 패턴을 활성화한다. 다양한 수학적 데이터셋에서의 실험 결과, QFFT는 평균 응답 길이를 50% 이상 줄이면서도 지도 미세 조정(Supervised Fine-Tuning, SFT)과 비슷한 성능을 달성하였다. 또한, QFFT는 잡음이 있는 환경, 도메인 외 데이터, 그리고 저자원 시나리오에서 SFT보다 우수한 성능을 보였다.
테스트 케이스 생성에서 대규모 언어 모델(LLM)의 체계적인 평가를 위한 새로운 벤치마크인 TestCase-Eval을 소개한다. TestCase-Eval은 Codeforces 플랫폼에서 수집된 500개의 알고리즘 문제와 100,000개의 인간이 작성한 솔루션으로 구성되어 있다. 이 벤치마크는 두 가지 핵심 과제에 초점을 맞추고 있다: (1) 결함 커버리지(Fault Coverage)는 LLM이 생성한 테스트 세트가 다양한 입력 시나리오를 탐색하고 잠재적인 실패 모드를 광범위하게 커버하는지를 측정한다. (2) 결함 노출(Fault Exposure)은 LLM이 특정한 잘못된 코드 구현을 드러내는 맞춤형 테스트 입력을 작성할 수 있는지를 평가한다. 우리는 TestCase-Eval을 통해 19개의 최신 오픈소스 및 상용 LLM에 대한 포괄적인 평가를 제공하며, 알고리즘 문제에 대한 효과적인 테스트 케이스 생성에서 이들의 강점과 한계를 분석한다.
토큰화는 입력 텍스트에 고정된 세분성을 부과하여, 언어 모델이 데이터를 처리하고 미래를 예측하는 방식을 고정시킵니다. 바이트 페어 인코딩(BPE)과 유사한 방식은 텍스트를 한 번 분할하고 정적 어휘 사전을 구축한 후, 모델이 그 선택에 고정되도록 합니다. 우리는 이러한 경직성을 완화하기 위해, 학습 과정에서 자체 토큰을 임베딩하는 방법을 학습하는 자기회귀적 U-Net을 도입합니다. 이 네트워크는 원시 바이트를 읽고, 이를 단어로 묶은 다음, 단어 쌍으로, 그리고 최대 4개의 단어로 묶어 시퀀스에 대한 다중 스케일 뷰를 제공합니다. 더 깊은 단계에서 모델은 더 먼 미래를 예측해야 하므로, 다음 몇 단어를 예측하는 데 초점을 맞추며, 더 깊은 단계는 광범위한 의미론적 패턴에 집중하고 초기 단계는 세부 사항을 처리합니다. 사전 학습 계산을 신중하게 조정하고 제어할 때, 얕은 계층 구조는 강력한 BPE 기준선과 동등한 성능을 보이며, 더 깊은 계층 구조는 유망한 추세를 보입니다. 토큰화가 이제 모델 내부에 존재하기 때문에, 동일한 시스템이 문자 수준 작업을 처리하고 저자원 언어 간 지식을 전달할 수 있습니다.
하드웨어 생태계는 빠르게 진화하고 있으며, 기존 코드의 이식성과 장기적 사용성을 향상시키기 위해 다양한 명령어 집합 아키텍처(ISA) 간의 저수준 프로그램을 빠르고 유연하며 정확하게 변환하는 데 대한 관심이 증가하고 있다. 이러한 변환 문제 중 특히 복잡한(CISC) 및 축소된(RISC) 하드웨어 아키텍처 간의 변환은 명령어 복잡성, 메모리 모델 및 실행 패러다임의 근본적인 차이로 인해 매우 어려운 과제로 여겨진다. 본 연구에서는 사전 훈련된 대규모 언어 모델(LLM)의 번역 능력과 확립된 소프트웨어 테스트 구조의 엄격함을 결합한 ISA 중심의 변환 파이프라인인 GG(Guaranteed Guess)를 소개한다. 우리의 방법은 LLM을 사용하여 한 ISA에서 다른 ISA로의 후보 번역을 생성하고, 이러한 번역을 소프트웨어 테스트 프레임워크 내에 포함시켜 번역에 대한 정량적 신뢰를 구축한다. 우리는 GG 접근법을 두 가지 다양한 데이터셋에 대해 평가하고, 단위 테스트에서 높은 코드 커버리지(>98%)를 강제하며, HumanEval 프로그램에서 99%, BringupBench 프로그램에서 49%의 기능적/의미적 정확성을 달성했다. 또한, 우리의 접근법을 Apple Silicon의 최신 Rosetta 2 프레임워크와 비교하여, 변환된 코드가 1.73배 더 빠른 런타임 성능, 1.47배 더 나은 에너지 효율성 및 2.41배 더 나은 메모리 사용량을 보여주며, GG가 실제 CISC-to-RISC 변환 작업에 효과적임을 입증했다. 우리는 코드, 데이터, 모델 및 벤치마크를 오픈소스로 공개하여 ISA 수준의 코드 변환 연구를 위한 공통 기반을 마련할 것이다.
비전-언어-행동(Vision-Language-Action, VLA) 모델, 특히 확산 기반 아키텍처는 구현된 지능(embodied intelligence)에 있어 혁신적인 잠재력을 보여주지만, 광범위한 내재적 및 추론 시 중복성으로 인해 높은 계산 및 메모리 요구량에 심각하게 제약을 받고 있습니다. 기존의 가속화 노력은 종종 고립된 비효율성을 대상으로 하지만, 이러한 부분적 해결책은 일반적으로 전체 VLA 파이프라인에 걸친 다양한 계산 및 메모리 병목 현상을 종합적으로 해결하지 못하여 실제 배포 가능성을 제한합니다. 우리는 EfficientVLA를 소개합니다. 이는 구조화되고 훈련이 필요 없는 추론 가속화 프레임워크로, 다각적인 중복성을 종합적으로 활용하여 이러한 장벽을 체계적으로 제거합니다. EfficientVLA는 세 가지 목표 전략을 시너지적으로 통합합니다: (1) 언어 모듈에서 기능적으로 중요하지 않은 레이어를 제거하며, 이는 레이어 간 중복성 분석을 통해 안내됩니다; (2) 시각 처리 경로를 최적화하기 위해 작업 인식 전략을 사용하여, 작업 중요성과 정보 커버리지를 균형 있게 고려한 간결하고 다양한 시각 토큰 집합을 선택합니다; (3) 반복적인 확산 기반 행동 헤드 내의 시간적 계산 중복성을 완화하기 위해 주요 중간 특징을 전략적으로 캐싱하고 재사용합니다. 우리는 이 방법을 표준 VLA 모델인 CogACT에 적용하여, SIMPLER 벤치마크에서 성공률이 단 0.6% 하락하는 대신 추론 속도를 1.93배 향상시키고 FLOPs를 28.9%로 줄였습니다.
대규모 추론 모델(Large Reasoning Models, LRMs)은 놀라운 성과를 거두었지만, 종종 불필요하고 장황한 추론 과정을 생성하는 문제를 겪고 있습니다. 우리는 이러한 문제의 핵심적인 측면을 "무효 사고(invalid thinking)"로 규정했습니다. 이는 모델이 정답을 도출한 후에도 반복적으로 자신의 작업을 재확인하는 경향을 말합니다. 이러한 특정 비효율성을 해결하기 위해, 우리는 일반적인 효율성(Efficacy)과 경제성(Efficiency) 원칙을 넘어 두 가지 새로운 세분화된 원칙을 제안합니다: 첫째, 중복을 제거하는 간결성(Brevity) 원칙과 둘째, 핵심 추론 단계를 보존하는 충분성(Sufficiency) 원칙입니다. 이러한 원칙을 바탕으로, 우리는 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)에 기반한 사후 훈련 방법인 LC-R1을 소개합니다. LC-R1은 전체적인 간결성을 위한 길이 보상(Length Reward)과 사고 과정의 무효 부분을 제거하도록 특별히 설계된 압축 보상(Compress Reward)의 새로운 조합을 사용합니다. 여러 추론 벤치마크에서의 광범위한 실험을 통해, LC-R1은 정확도에서 약 2%의 미미한 하락만으로 시퀀스 길이를 약 50%까지 크게 줄이는 데 성공했으며, 높은 압축을 우선시하는 파레토 프론티어 상의 유리한 균형점을 달성했습니다. 우리의 분석은 LC-R1의 견고성을 추가로 검증하며, 더 강력하면서도 계산적으로 효율적인 LRMs 개발을 위한 귀중한 통찰을 제공합니다. 우리의 코드는 https://github.com/zxiangx/LC-R1에서 공개되었습니다.
우리는 AI 에이전트의 능력과 실제 업무 생산성 간의 격차를 해소하기 위해 설계된 동적이며 직업에 맞춘 평가 도구인 xbench를 소개합니다. 기존 벤치마크가 종종 고립된 기술적 능력에 초점을 맞추는 반면, 이들은 전문직 환경에서 에이전트가 제공하는 경제적 가치를 정확히 반영하지 못할 수 있습니다. 이를 해결하기 위해 xbench는 산업 전문가들이 정의한 평가 과제를 통해 상업적으로 중요한 분야를 대상으로 합니다. 우리의 프레임워크는 생산성 가치와 강한 상관관계를 가지는 지표를 생성하고, 기술-시장 적합성(TMF)을 예측할 수 있도록 하며, 시간에 따른 제품 역량 추적을 용이하게 합니다. 초기 구현으로, 우리는 리크루팅과 마케팅 두 가지 벤치마크를 제시합니다. 리크루팅의 경우, 실제 헤드헌팅 비즈니스 시나리오에서 50개의 과제를 수집하여 에이전트의 회사 매핑, 정보 검색, 인재 발굴 능력을 평가합니다. 마케팅의 경우, 에이전트가 광고주 요구에 맞는 인플루언서를 매칭하는 능력을 평가하며, 836명의 후보 인플루언서 풀을 사용하여 50개의 광고주 요구 사항에 대한 성능을 평가합니다. 우리는 최신 선도적인 에이전트에 대한 초기 평가 결과를 제시하여 이러한 전문 분야에 대한 기준을 설정합니다. 지속적으로 업데이트되는 평가 세트와 평가 결과는 https://xbench.org에서 확인할 수 있습니다.
대규모 언어 모델(LLM)이 외부 도구를 활용할 수 있는 능력은 점점 더 다양한 작업을 해결할 수 있게 해주었습니다. 그러나 작업이 더 복잡하고 장기적인 목표를 가지게 되면서, 정교한 도구 활용 과정에서 다양한 예기치 못한 오류가 발생할 수 있습니다. 따라서 이러한 오류를 효과적으로 처리하는 방법, 즉 오류를 식별하고 진단하며 복구하는 방법은 도구 학습을 발전시키기 위한 핵심 연구 방향으로 떠오르고 있습니다. 본 연구에서는 먼저 여러 경쟁력 있는 도구 평가 벤치마크에서 함수 호출 과정 중 발생하는 오류 유형을 광범위하게 분석합니다. 이를 바탕으로 도구 학습에 특화된 포괄적인 비평 평가 벤치마크인 CRITICTOOL을 소개합니다. 새로운 진화 전략을 기반으로 데이터셋을 구축한 CRITICTOOL은 다양한 복잡성을 가진 도구 사용 오류를 포함하고 있어 실제 시나리오를 더 잘 반영합니다. CRITICTOOL에 대한 광범위한 실험을 수행하고, 우리가 구축한 벤치마크 전략의 일반화와 효과성을 검증합니다. 또한 다양한 LLM의 도구 반영 능력에 대한 심층 분석을 제공하여 LLM의 도구 학습 분야에 새로운 관점을 제시합니다. 코드는 https://github.com/Shellorley0513/CriticTool{https://github.com/Shellorley0513/CriticTool}에서 확인할 수 있습니다.
우리는 저품질, 합성, 그리고 분포 외부 이미지를 활용하여 확산 모델의 품질을 개선하는 방법을 제시한다. 일반적으로 확산 모델은 웹 및 기타 출처에서 고도로 필터링된 데이터 풀에서 나온 정제된 데이터셋으로 훈련된다. 우리는 종종 폐기되는 저품질 이미지에도 상당한 가치가 있음을 보여준다. 우리는 훈련 중 사용 가능한 모든 이미지에서 신호를 추출할 수 있는 확산 모델을 훈련시키기 위한 간단하고 원칙적인 프레임워크인 Ambient Diffusion Omni를 제시한다. 우리의 프레임워크는 자연 이미지의 두 가지 특성, 즉 스펙트럼 파워 법칙 감쇠와 지역성을 활용한다. 먼저, 우리는 가우시안 블러, JPEG 압축, 모션 블러로 인위적으로 손상된 이미지로 확산 모델을 성공적으로 훈련시켜 프레임워크를 검증한다. 그런 다음, 우리의 프레임워크를 사용하여 ImageNet FID에서 최첨단 성능을 달성하고, 텍스트-이미지 생성 모델링에서 이미지 품질과 다양성 모두에서 상당한 개선을 보여준다. 핵심 통찰은 노이즈가 원하는 고품질 분포와 실제로 관찰되는 혼합 분포 사이의 초기 왜곡을 완화한다는 것이다. 우리는 확산 시간에 걸쳐 편향된 데이터로부터 학습하는 것과 제한된 편향되지 않은 데이터로부터 학습하는 것 사이의 균형을 분석함으로써 우리의 접근 방식에 대한 엄밀한 이론적 근거를 제공한다.
우리는 대규모 언어 모델(Large Language Models, LLMs)의 해석을 위해 희소 오토인코더(Sparse Autoencoders, SAEs)를 사용하여 이론적으로 근거 있는 특징 복원을 달성하는 문제를 연구한다. 기존의 SAE 학습 알고리즘은 엄격한 수학적 보장이 부족하며, 하이퍼파라미터 민감도와 불안정성과 같은 실용적 한계를 겪고 있다. 이러한 문제를 해결하기 위해, 우리는 먼저 다의적 특징(polysemantic features)을 기저 단의적 개념(monosemantic concepts)의 희소 혼합으로 모델링함으로써 특징 식별 가능성(feature identifiability)에 대한 새로운 개념을 포함한 특징 복원 문제를 위한 통계적 프레임워크를 제안한다. 이 프레임워크를 기반으로, 우리는 신경망의 바이어스 매개변수를 적응적으로 조정하여 적절한 활성화 희소성을 보장하는 "바이어스 적응(bias adaptation)" 기법을 활용한 새로운 SAE 학습 알고리즘을 소개한다. 우리는 이 알고리즘이 제안된 통계 모델에서 샘플링된 입력 데이터에 대해 모든 단의적 특징을 정확히 복원함을 이론적으로 증명한다. 또한, 우리는 개선된 경험적 변형인 그룹 바이어스 적응(Group Bias Adaptation, GBA)을 개발하고, 최대 15억 개의 매개변수를 가진 LLMs에 적용할 때 벤치마크 방법 대비 우수한 성능을 입증한다. 이 연구는 이론적 복원 보장을 제공하는 첫 번째 SAE 알고리즘을 제시함으로써 SAE 학습의 신비를 해체하는 기초적인 단계를 나타내며, 이를 통해 향상된 기계적 해석 가능성(mechanistic interpretability)을 통해 더 투명하고 신뢰할 수 있는 AI 시스템 개발을 진전시킨다.
다양한 대규모 언어 모델(LLM)의 급속한 등장은 사용자 쿼리를 가장 적합한 모델에 할당하는 LLM 라우터의 개발을 촉진시켰습니다. 그러나 기존의 LLM 라우터는 일반적으로 단일 라운드, 일대일 매핑(즉, 각 쿼리를 단일 모델에 독립적으로 할당)을 수행하므로, 여러 LLM의 상호 보완적인 강점을 요구하는 복잡한 작업을 처리하는 데 한계가 있습니다. 본 논문에서는 다중 LLM 라우팅 및 집계를 순차적 의사결정 과정으로 공식화하는 강화 학습(RL) 기반 프레임워크인 Router-R1을 소개합니다. Router-R1은 라우터 자체를 능력 있는 LLM으로 구현하여, 그 추론 능력을 활용해 "생각" 행동(내부 숙고)과 "라우팅" 행동(동적 모델 호출)을 교차시키고, 각 응답을 진화하는 컨텍스트에 통합합니다. 학습을 안내하기 위해 형식 보상, 최종 결과 보상, 그리고 성능과 비용의 균형을 최적화하기 위한 새로운 비용 보상을 포함한 경량 규칙 기반 보상을 사용하며, 이를 통해 RL을 통한 성능-비용 균형 최적화의 길을 열었습니다. Router-R1은 또한 가격, 지연 시간, 예시 성능과 같은 간단한 모델 설명자만을 조건으로 하여, 보이지 않는 모델 선택에 대한 강력한 일반화를 가능하게 합니다. 7개의 일반 및 다중 홉 QA 벤치마크에서의 실험은 Router-R1이 여러 강력한 베이스라인을 능가하며, 우수한 성능을 유지하면서도 강력한 일반화와 비용 관리를 달성함을 보여줍니다. 코드는 https://github.com/ulab-uiuc/Router-R1에서 확인할 수 있습니다.
시공간적 위치 파악은 생물학 연구부터 자율 주행 및 인터랙티브 인터페이스에 이르기까지 다양한 분야에서 정밀한 상호작용을 위해 필수적입니다. 현재의 비디오 기반 접근법은 추적 능력에서는 뛰어나지만, 대형 언어 모델의 정교한 추론 능력이 부족하여 문맥적 이해와 일반화에 한계가 있습니다. 우리는 텍스트 설명에 기반한 세밀한 시공간적 포인팅을 위해 특화된 대형 멀티모달 모델인 VideoMolmo를 소개합니다. Molmo 아키텍처를 기반으로, VideoMolmo는 이전 프레임에 기반하여 각 프레임을 조건화하는 주의 메커니즘을 활용한 시간적 모듈을 통합하여 시간적 일관성을 보장합니다. 또한, 우리의 새로운 시간적 마스크 융합 파이프라인은 SAM2를 사용하여 양방향 포인트 전파를 수행함으로써 비디오 시퀀스 전반에 걸친 일관성을 크게 향상시킵니다. 이 두 단계 분해, 즉 먼저 LLM을 사용하여 정확한 포인팅 좌표를 생성한 후 순차적 마스크 융합 모듈을 통해 일관된 세분화를 생성하는 방식은 언어 모델의 작업을 단순화할 뿐만 아니라 해석 가능성도 향상시킵니다. 적절한 데이터셋의 부재로 인해, 우리는 100k 개체 포인트가 주석 처리된 72k 비디오-캡션 쌍으로 구성된 포괄적인 데이터셋을 구축했습니다. VideoMolmo의 일반화 능력을 평가하기 위해, 우리는 세포 추적, 에고센트릭 비전, 자율 주행, 비디오-GUI 상호작용, 로보틱스 등 다섯 가지 실제 시나리오를 아우르는 도전적인 분포 외 벤치마크인 VPoS-Bench를 도입했습니다. 또한, 우리는 Referring Video Object Segmentation (Refer-VOS) 및 Reasoning VOS 작업에서도 모델을 평가했습니다. 기존 모델과 비교하여, VideoMolmo는 시공간적 포인팅 정확도와 추론 능력을 크게 개선했습니다. 우리의 코드와 모델은 https://github.com/mbzuai-oryx/VideoMolmo에서 공개적으로 이용 가능합니다.
우리는 범용 컴퓨터 사용 에이전트를 위한 고품질 작업 및 궤적 데이터셋을 자동으로 합성하기 위한 확장 가능하고 비용 효율적인 파이프라인인 AgentSynth를 소개한다. 정보 비대칭성을 활용하여, AgentSynth는 생성 시에는 단순하지만 장기적 작업으로 구성될 때 상당히 더 도전적인 하위 작업을 구성함으로써 6,000개 이상의 다양하고 현실적인 작업을 생성할 수 있다. 우리의 파이프라인은 페르소나에 의해 안내되는 LLM 기반 작업 제안자로 시작하며, 작업을 완료하고 궤적을 기록하는 실행 에이전트가 뒤따른다. 이 과정은 반복적으로 수행되어 일련의 하위 작업을 형성하며, 이는 별도의 에이전트에 의해 통합되어 난이도를 조절 가능한 복합 작업으로 요약된다. AgentSynth의 주요 강점은 하위 작업의 수를 조정하여 작업 복잡성을 정밀하게 조절할 수 있는 능력이다. 실험적 평가 결과, 최첨단 LLM 에이전트는 난이도 1에서 18%의 성공률을 보이다가 난이도 6에서는 단 4%로 급격히 성능이 하락하는 것으로 나타나, 벤치마크의 난이도와 판별력을 강조한다. 또한, 우리의 파이프라인은 궤적당 평균 \$0.60의 낮은 비용을 달성하여, 인간 주석에 비해 수십 배 더 저렴하다. 우리의 코드와 데이터는 https://github.com/sunblaze-ucb/AgentSynth에서 공개적으로 이용 가능하다.
우리는 강화 학습(RL)을 통해 최적화된 혼합 전문가(MoE) 기반의 대규모 언어 모델인 Ring-lite를 소개합니다. 이 모델은 효율적이고 견고한 추론 능력을 달성하기 위해 설계되었습니다. 공개된 Ling-lite 모델을 기반으로 구축된 이 모델은 168억 개의 파라미터 중 27억 5천만 개의 파라미터만 활성화된 상태에서도, 도전적인 벤치마크(예: AIME, LiveCodeBench, GPQA-Diamond)에서 최신 소규모 추론 모델의 성능을 따라잡습니다. 이를 위해 우리는 증류(distillation)와 RL을 통합한 공동 훈련 파이프라인을 도입하여, MoE RL 훈련에서 문서화되지 않은 문제점들을 밝혀냈습니다. 첫째, RL 훈련 중 최적화 불안정성을 식별하고, 이를 해결하기 위해 알고리즘-시스템 공동 설계 방법론을 통해 훈련 안정성을 향상시키고 계산 처리량을 개선하는 새로운 접근법인 Constrained Contextual Computation Policy Optimization(C3PO)을 제안합니다. 둘째, RL 훈련을 위해 검증 지표가 아닌 엔트로피 손실을 기반으로 증류 체크포인트를 선택하는 것이 후속 RL 훈련에서 더 나은 성능-효율성 균형을 가져온다는 것을 실증적으로 입증했습니다. 마지막으로, 다중 도메인 데이터 통합을 조화롭게 하기 위해 두 단계 훈련 패러다임을 개발하여, 혼합 데이터셋 훈련에서 발생하는 도메인 충돌 문제를 해결했습니다. 우리는 이 모델, 데이터셋 및 코드를 공개할 예정입니다.
인간 이동 시뮬레이션은 다양한 실제 응용 분야에서 중요한 역할을 합니다. 최근, 전통적인 데이터 기반 접근법의 한계를 해결하기 위해 연구자들은 대형 언어 모델(LLM)의 상식 지식과 추론 능력을 활용하여 인간 이동 시뮬레이션을 가속화하는 방법을 탐구해 왔습니다. 그러나 이러한 방법들은 도시 공간의 부적절한 모델링과 개별 이동 패턴 및 집단 이동 분포와의 통합 부족 등 여러 중요한 단점을 가지고 있습니다. 이러한 문제를 해결하기 위해, 우리는 도시 공간에서의 인간 이동을 시뮬레이션하기 위해 언어 기반 도시 기초 모델을 활용하는 에이전트 프레임워크인 CityGPT-Powered Agentic framework for Mobility Simulation (CAMS)를 제안합니다. CAMS는 사용자 프로필을 기반으로 템플릿 이동 패턴을 추출하고 새로운 패턴을 합성하는 MobExtractor, 집단 지식을 고려하여 앵커 포인트를 생성하고 향상된 버전의 CityGPT를 사용하여 후보 도시 지리 공간 지식을 생성하는 GeoGenerator, 이동 패턴을 기반으로 공간 지식을 검색하고 DPO를 통해 실제 이동 경로 선호도에 맞춰 경로를 생성하는 TrajEnhancer 등 세 가지 핵심 모듈로 구성됩니다. 실제 데이터셋에 대한 실험 결과, CAMS는 외부에서 제공된 지리 공간 정보에 의존하지 않고도 우수한 성능을 달성함을 보여줍니다. 또한, 개별 이동 패턴과 집단 이동 제약을 종합적으로 모델링함으로써 CAMS는 더 현실적이고 타당한 이동 경로를 생성합니다. 전반적으로, CAMS는 에이전트 프레임워크와 도시 지식을 갖춘 LLM을 통합하여 인간 이동 시뮬레이션을 위한 새로운 패러다임을 확립합니다.
우리는 대규모 언어 모델(LLMs)의 안전 정렬을 우회하기 위해 적대적 접미사를 최적화하는 강력한 공격 패밀리인 접미사 기반 제이브레이크(jailbreak)를 연구한다. 널리 사용되는 기초적인 GCG 공격(Zou et al., 2023)에 초점을 맞추어, 우리는 접미사들이 효능에 있어 차이를 보인다는 것을 관찰했다: 일부 접미사는 다른 것들보다 훨씬 더 보편적이며, 많은 보이지 않는 유해한 명령어들에 일반화된다. 우리는 먼저 GCG의 효과가 생성 전 최종 채팅 템플릿 토큰들로의 적대적 접미사에서의 정보 흐름에 기반한 얕지만 중요한 메커니즘에 의해 주도된다는 것을 보여준다. 생성 과정에서 이 메커니즘의 지배력을 정량화함으로써, 우리는 GCG가 문맥화 과정을 불규칙적이고 공격적으로 탈취한다는 것을 발견했다. 결정적으로, 우리는 이러한 탈취 현상을 보편성 현상과 연결지어, 더 보편적인 접미사일수록 더 강력한 탈취자임을 보였다. 이후, 우리는 이러한 통찰이 실질적인 함의를 가짐을 보여준다: GCG의 보편성은 추가적인 계산 비용 없이 효율적으로 향상될 수 있으며(일부 경우 최대 5배), 또한 수술적으로 완화될 수 있어 공격 성공률을 최소한 절반으로 줄이면서도 유틸리티 손실을 최소화할 수 있다. 우리는 코드와 데이터를 http://github.com/matanbt/interp-jailbreak에서 공개한다.
현대 머신러닝의 가장 심오한 과제 중 하나는 드물고 소외된 특징들로 이루어진 롱테일(long-tail)에서도 우수한 성능을 발휘하는 것입니다. 대규모 범용 모델은 다양한 작업을 위해 훈련되지만, 고빈도 사용 사례에서 가장 잘 작동합니다. 훈련 후에는 훈련 코퍼스에서 소외된 특정 사용 사례에 대해 모델을 적응시키는 것이 어렵습니다. 특정 테스트 케이스에서 출력 품질을 극대화하기 위해 프롬프트 엔지니어링이나 소수 샘플(few-shot) 예제에 의존하는 것은 모델이 작은 변화에 매우 민감하거나 예측 불가능한 방식으로 반응하거나 성능 유지를 위해 고정된 시스템 프롬프트에 의존할 수 있어 실망스러울 수 있습니다. 본 연구에서는 "추론 시점에서 소외된 사용 사례에 대한 제어성과 성능을 모두 개선하기 위해 훈련 프로토콜을 최적화할 수 있는가?"라는 질문을 던집니다. 우리는 훈련과 추론 기법 간의 경계를 재검토하여 롱테일 성능을 개선함과 동시에 사용자에게 모델이 반응하도록 훈련된 일련의 제어 레버를 제공합니다. 우리는 데이터 특성과 작업 출처에 대한 상세한 분류 체계를 만들어 생성 속성을 명시적으로 제어하고 추론 시점에서 생성물을 암묵적으로 조건화합니다. 기본 모델을 미세 조정하여 이러한 마커를 자동으로 추론하도록 하여, 추론 시점에서 이를 선택적으로 사용할 수 있게 합니다. 이 원칙적이고 유연한 접근 방식은 특히 훈련 분포의 롱테일에 속하는 예제에서 성능이 현저히 개선되는 결과를 가져옵니다. 우리의 마커를 사용하여 개방형 생성 품질에서 평균 5.7%의 승률 상승을 관찰한 반면, 소외된 도메인에서는 9.1% 이상의 성능 향상을 보였습니다. 또한 CodeRepair와 같은 소외된 작업에서는 최대 14.1%의 상대적 상승을, 길이 지시 따르기 평가에서는 35.3%의 절대적 개선을 관찰했습니다.
정렬(Alignment)은 더 이상 사치가 아니라 필수적 요소가 되었습니다. 대규모 언어 모델(LLMs)이 교육, 의료, 거버넌스, 법률 등과 같은 고위험 영역에 진입함에 따라, 이들의 행동은 인간과 조율된 가치와 안전 제약을 신뢰성 있게 반영해야 합니다. 그러나 현재의 평가는 거부율, G-Eval 점수, 유해성 분류기와 같은 행동적 대리 지표에 크게 의존하고 있으며, 이들 모두는 중요한 맹점을 가지고 있습니다. 정렬된 모델들은 종종 탈옥(jailbreaking), 생성의 확률적 변동성, 그리고 정렬 위조(alignment faking)에 취약합니다. 이 문제를 해결하기 위해, 우리는 정렬 품질 지수(Alignment Quality Index, AQI)를 소개합니다. 이 새로운 기하학적이고 프롬프트 불변적인 지표는 잠재 공간에서 안전한 활성화와 안전하지 않은 활성화의 분리를 분석함으로써 LLM의 정렬을 실증적으로 평가합니다. Davies-Bouldin 점수(DBS), Dunn 지수(DI), Xie-Beni 지수(XBI), 그리고 Calinski-Harabasz 지수(CHI)와 같은 다양한 측정 지표를 조합함으로써, AQI는 클러스터링 품질을 포착하여 출력이 규정을 준수하는 것처럼 보이는 경우에도 숨겨진 정렬 오류와 탈옥 위험을 탐지합니다. AQI는 또한 정렬 위조에 대한 조기 경보 신호로 작용하며, 디코딩 불변적인 도구로서 행동에 구애받지 않는 안전 감사를 제공합니다. 추가적으로, 우리는 이러한 도전적인 조건 하에서 견고한 평가를 용이하게 하기 위해 LITMUS 데이터셋을 제안합니다. DPO, GRPO, RLHF 조건 하에서 훈련된 다양한 모델들에 대한 LITMUS의 실증적 테스트는 AQI가 외부 평가자와의 상관관계를 보여주고, 거부 지표가 놓친 취약점을 드러내는 능력을 입증합니다. 우리는 이 분야의 미래 연구를 촉진하기 위해 구현을 공개적으로 제공합니다.
컨텍스트 내 강화 학습(In-context Reinforcement Learning, ICRL)은 프롬프트 조건화를 통해 다운스트림 작업에 RL 에이전트를 적응시키는 유망한 패러다임으로 부상했습니다. 그러나 RL 도메인 내에서 컨텍스트 내 학습을 완전히 활용하는 데는 두 가지 주요 과제가 남아 있습니다: 상태-행동-보상 데이터의 본질적인 다중 모달성과 다양한 이질적 특성을 가진 의사결정 작업들입니다. 이러한 과제를 해결하기 위해, 우리는 T2MIR(Token- and Task-wise MoE for In-context RL)라는 혁신적인 프레임워크를 제안합니다. 이 프레임워크는 트랜스포머 기반 의사결정 모델에 전문가 혼합(Mixture-of-Experts, MoE)의 아키텍처적 발전을 도입합니다. T2MIR는 피드포워드 레이어를 두 개의 병렬 레이어로 대체합니다: 입력 토큰의 다양한 모달리티 간의 독특한 의미를 포착하는 토큰 단위 MoE와, 다양한 작업을 특화된 전문가로 라우팅하여 광범위한 작업 분포를 관리하며 그래디언트 충돌을 완화하는 작업 단위 MoE입니다. 작업 단위 라우팅을 강화하기 위해, 우리는 작업과 라우터 표현 간의 상호 정보를 최대화하는 대조 학습 방법을 도입하여 작업 관련 정보를 더 정확하게 포착할 수 있도록 합니다. 두 MoE 구성 요소의 출력은 연결되어 다음 레이어로 전달됩니다. 포괄적인 실험 결과, T2MIR는 컨텍스트 내 학습 능력을 크게 촉진하고 다양한 유형의 베이스라인을 능가하는 것으로 나타났습니다. 우리는 MoE의 잠재력과 가능성을 ICRL에 가져와, 언어 및 비전 커뮤니티에서의 성과에 한 걸음 더 가까이 다가가는 간단하고 확장 가능한 아키텍처 개선을 제안합니다. 우리의 코드는 https://github.com/NJU-RL/T2MIR에서 확인할 수 있습니다.
모기 매개 질환은 전 세계적으로 주요 건강 위험 요인으로, 발병을 예방하기 위해 조기 탐지와 번식지에 대한 사전적 통제가 필요합니다. 본 논문에서는 모기 번식지 분석을 위한 자동화된 탐지, 분할 및 추론을 지원하기 위해 시각적 데이터와 텍스트 데이터를 통합한 다중모달 데이터셋인 VisText-Mosquito를 소개합니다. 이 데이터셋은 객체 탐지를 위한 1,828개의 주석이 달린 이미지, 수면 분할을 위한 142개의 이미지, 그리고 각 이미지와 연결된 자연어 추론 텍스트를 포함합니다. YOLOv9s 모델은 객체 탐지에서 0.92926의 최고 정밀도와 0.92891의 mAP@50을 달성했으며, YOLOv11n-Seg는 분할 정밀도 0.91587과 mAP@50 0.79795를 기록했습니다. 추론 생성에서는 미세 조정된 BLIP 모델이 최종 손실 0.0028, BLEU 점수 54.7, BERTScore 0.91, ROUGE-L 0.87을 달성했습니다. 이 데이터셋과 모델 프레임워크는 "예방이 치료보다 낫다"라는 주제를 강조하며, AI 기반 탐지가 모기 매개 질환 위험을 사전에 대처할 수 있는 방법을 보여줍니다. 데이터셋과 구현 코드는 GitHub에서 공개되어 있습니다: https://github.com/adnanul-islam-jisun/VisText-Mosquito
본 연구는 상대적 깊이를 미터법 깊이로 변환할 수 있는 일반화 가능한 프레임워크를 제시한다. 현재 단안 깊이 추정 방법은 주로 미터법 깊이 추정(MMDE)과 상대적 깊이 추정(MRDE)으로 나뉜다. MMDE는 미터법 스케일로 깊이를 추정하지만 특정 도메인에 제한되는 경우가 많다. MRDE는 다양한 도메인에서 잘 일반화되지만, 불확실한 스케일로 인해 다운스트림 애플리케이션에 방해가 된다. 이를 해결하기 위해, 우리는 스케일 불확실성을 해결하고 상대적 깊이를 미터법 깊이로 변환하는 프레임워크를 구축하고자 한다. 기존 방법들은 언어를 입력으로 사용하고 재조정을 위한 두 가지 요소를 추정했다. 우리의 접근법인 TR2M은 텍스트 설명과 이미지를 모두 입력으로 활용하고, 픽셀 수준에서 상대적 깊이를 미터법 깊이로 변환하기 위해 두 가지 재조정 맵을 추정한다. 두 모달리티의 특징은 크로스 모달리티 어텐션 모듈을 통해 융합되어 스케일 정보를 더 잘 포착한다. 또한, 더 포괄적인 감독을 위해 신뢰할 수 있는 의사 미터법 깊이를 구성하고 필터링하는 전략을 설계했다. 우리는 스케일 지향적 대조 학습을 개발하여 깊이 분포를 지침으로 활용하여 모델이 스케일 분포와 일치하는 내재적 지식을 학습하도록 강화했다. TR2M은 다양한 도메인의 데이터셋에서 학습하기 위해 소수의 학습 가능한 매개변수만을 활용하며, 실험 결과는 TR2M이 기존 데이터셋에서 뛰어난 성능을 보일 뿐만 아니라 다섯 가지 보이지 않는 데이터셋에서도 우수한 제로샷 능력을 보여준다. 우리는 언어 지원을 통해 픽셀 단위로 상대적 깊이를 미터법 깊이로 변환하는 데 있어 큰 잠재력을 보여준다. (코드는 https://github.com/BeileiCui/TR2M에서 확인할 수 있다.)
오픈소스 기반 모델은 다양한 분야에서 강력한 범용 능력을 제공하며 빠르게 채택되고 발전해 왔다. 그러나 대규모 기반 모델을 도메인 특화 또는 개인화된 작업에 맞게 미세 조정하는 것은 추론에 필요한 메모리 이상의 상당한 오버헤드로 인해 대부분의 사용자에게 비용이 너무 많이 든다. 본 연구에서는 추론에 필요한 메모리 예산 내에서 모델 미세 조정을 가능하게 하는 EMLoC(Emulator-based Memory-efficient fine-tuning framework with LoRA Correction)를 소개한다. EMLoC는 작은 다운스트림 캘리브레이션 세트에서 활성화 인식 특이값 분해(SVD)를 사용하여 작업 특화 경량 에뮬레이터를 구축한다. 그런 다음 이 경량 에뮬레이터에서 LoRA를 통해 미세 조정을 수행한다. 원본 모델과 압축된 에뮬레이터 간의 불일치를 해결하기 위해, 본 연구에서는 미세 조정된 LoRA 모듈을 보정하는 새로운 보상 알고리즘을 제안하여 이를 원본 모델에 병합하여 추론에 사용할 수 있게 한다. EMLoC는 유연한 압축 비율과 표준 학습 파이프라인을 지원하므로 다양한 응용 분야에 적응 가능하다. 광범위한 실험을 통해 EMLoC가 여러 데이터셋과 모달리티에서 다른 베이스라인을 능가함을 입증하였다. 또한, 양자화 없이도 EMLoC는 단일 24GB 소비자 GPU에서 38B 모델의 미세 조정을 가능하게 하여 개별 사용자에게 효율적이고 실용적인 모델 적응을 제공한다.
그래프 검색 증강 생성(Graph Retrieval Augmented Generation, GraphRAG)은 지식 관계를 명시적으로 모델링함으로써 외부 지식 통합 능력을 효과적으로 향상시켜, 특수 분야에서 대규모 언어 모델(Large Language Models, LLMs)의 사실적 정확성과 생성 품질을 개선합니다. 그러나 기존 방법들은 두 가지 본질적인 한계를 가지고 있습니다: 1) 비효율적인 정보 집계: 단일 에이전트와 고정된 반복 패턴에 의존하여 그래프 데이터 내의 다중 수준 텍스트, 구조 및 차수 정보를 적응적으로 포착하기 어렵습니다. 2) 경직된 추론 메커니즘: 사전 설정된 추론 방식을 사용하여 추론 깊이를 동적으로 조정하거나 정확한 의미 수정을 달성할 수 없습니다. 이러한 한계를 극복하기 위해, 우리는 다중 에이전트 협업을 기반으로 한 GraphRAG 방법인 Graph Counselor를 제안합니다. 이 방법은 적응형 그래프 정보 추출 모듈(Adaptive Graph Information Extraction Module, AGIEM)을 사용하며, 계획(Planning), 사고(Thought), 실행(Execution) 에이전트가 협력하여 복잡한 그래프 구조를 정밀하게 모델링하고 정보 추출 전략을 동적으로 조정함으로써 다중 수준 의존성 모델링과 적응형 추론 깊이의 문제를 해결합니다. 또한, 다중 관점을 통한 자기 반성(Self-Reflection with Multiple Perspectives, SR) 모듈은 자기 반성과 역방향 추론 메커니즘을 통해 추론 결과의 정확성과 의미 일관성을 향상시킵니다. 실험 결과, Graph Counselor는 여러 그래프 추론 작업에서 기존 방법들을 능가하며 더 높은 추론 정확도와 일반화 능력을 보여줍니다. 우리의 코드는 https://github.com/gjq100/Graph-Counselor.git에서 확인할 수 있습니다.
실제 세계에서 크고 복잡한 정책을 배치하려면 상황에 맞게 조정할 수 있는 능력이 필요합니다. 목표 조건화와 같은 가장 일반적인 조정 접근법은 테스트 시점 목표의 분포를 염두에 두고 로봇 정책을 훈련시켜야 합니다. 이러한 한계를 극복하기 위해, 우리는 확산 디노이징 과정에서 외부 동역학 모델의 지도를 사용하여 확산 정책을 조정하는 DynaGuide라는 방법을 제시합니다. DynaGuide는 동역학 모델을 기본 정책과 분리함으로써 여러 가지 장점을 제공합니다. 이는 다중 목표를 향해 조정할 수 있는 능력, 기본 정책의 미흡한 행동을 강화할 수 있는 능력, 그리고 낮은 품질의 목표에서도 견고성을 유지할 수 있는 능력을 포함합니다. 분리된 지도 신호는 DynaGuide가 사전 훈련된 확산 정책과도 함께 작동할 수 있게 합니다. 우리는 DynaGuide의 성능과 특징을 다른 조정 접근법과 비교하여 일련의 시뮬레이션 및 실제 실험에서 입증했습니다. 이는 CALVIN 관절 작업 세트에서 평균 70%의 조정 성공률을 보였으며, 낮은 품질의 목표로 조정되었을 때 목표 조건화보다 5.4배 더 나은 성능을 보였습니다. 또한, 우리는 사전 훈련된 실제 로봇 정책을 성공적으로 조정하여 특정 물체에 대한 선호도를 표현하고 심지어 새로운 행동을 창출할 수 있었습니다. 비디오 및 추가 정보는 프로젝트 웹사이트에서 확인할 수 있습니다: https://dynaguide.github.io