번역이 포함된 일일 선별된 AI 연구 논문
우리는 크로스 아키텍처 GPU 코드 변환을 위한 첫 번째 대규모 데이터셋 및 모델 제품군인 CASS를 소개합니다. 이는 소스 수준(CUDA ↔ HIP)과 어셈블리 수준(Nvidia SASS ↔ AMD RDNA3)의 번역을 모두 대상으로 합니다. 이 데이터셋은 호스트와 디바이스 간의 70,000개의 검증된 코드 쌍으로 구성되어 있으며, 저수준 GPU 코드 이식성의 중요한 격차를 해소합니다. 이 리소스를 활용하여 도메인 특화 언어 모델인 CASS 제품군을 학습시켜, 95%의 소스 번역 정확도와 37.5%의 어셈블리 번역 정확도를 달성했습니다. 이는 GPT-4o, Claude, Hipify와 같은 상용 베이스라인을 크게 능가하는 성과입니다. 우리가 생성한 코드는 85% 이상의 테스트 케이스에서 네이티브 성능을 유지하며, 런타임 및 메모리 동작을 보존합니다. 엄격한 평가를 지원하기 위해, 우리는 16개의 GPU 도메인을 아우르며 실제 실행을 포함한 CASS-Bench를 도입했습니다. 모든 데이터, 모델 및 평가 도구는 GPU 컴파일러 도구, 바이너리 호환성, 그리고 LLM 기반 하드웨어 번역의 발전을 촉진하기 위해 오픈 소스로 공개되었습니다. 데이터셋과 벤치마크는 https://huggingface.co/datasets/MBZUAI/cass{blue{HuggingFace}}에서 확인할 수 있으며, 코드는 https://github.com/GustavoStahl/CASS{blue{GitHub}}에서 제공됩니다.
우리는 양방향 아랍어-영어 번역을 위한 컴팩트하면서도 강력한 언어 모델인 Mutarjim을 소개한다. 대규모 언어 모델(LLM)이 기계 번역을 포함한 자연어 처리 작업에서 인상적인 진전을 보여왔지만, 더 작은 모델도 유망한 가능성을 보여준다. 이러한 통찰을 바탕으로, 우리는 아랍어와 영어에 특화된 언어 모델인 Kuwain-1.5B를 기반으로 Mutarjim을 개발했다. 상대적으로 작은 크기에도 불구하고, Mutarjim은 최적화된 2단계 학습 접근법과 신중하게 선별된 고품질 학습 코퍼스를 통해 여러 정립된 벤치마크에서 훨씬 더 큰 모델들을 능가한다. 실험 결과, Mutarjim은 최대 20배 더 큰 모델들과 견줄 만한 성능을 보이면서도 계산 비용과 학습 요구 사항을 크게 줄인다. 또한, 우리는 기존 아랍어-영어 벤치마크 데이터셋의 한계(예: 도메인의 협소성, 짧은 문장 길이, 영어 중심 편향)를 극복하기 위해 새로운 벤치마크인 Tarjama-25를 소개한다. Tarjama-25는 전문가 검토를 거친 5,000개의 문장 쌍으로 구성되어 있으며, 다양한 도메인을 포괄하여 더 포괄적이고 균형 잡힌 평가 프레임워크를 제공한다. 특히, Mutarjim은 Tarjama-25의 영어-아랍어 번역 작업에서 최첨단 성능을 달성하며, GPT-4o mini와 같은 훨씬 더 크고 독점적인 모델들도 능가한다. 우리는 Tarjama-25를 공개하여 향후 연구를 지원하고 아랍어-영어 번역 시스템의 평가를 발전시키고자 한다.
대규모 언어 모델(LLM)과 다중 모달 LLM(MLLM)의 급속한 발전은 역사적으로 수백만에서 수천억에 이르는 파라미터 수의 증가를 통해 모델 중심의 확장에 의존하며 성능 향상을 이끌어 왔다. 그러나 모델 크기에 대한 하드웨어 한계에 근접함에 따라, 지배적인 계산 병목 현상은 초장문 텍스트 컨텍스트, 고해상도 이미지, 그리고 확장된 비디오로 인해 장기간 토큰 시퀀스에 대한 자기 주의(self-attention)의 이차 비용으로 근본적으로 전환되었다. 본 포지션 논문에서 우리는 효율적인 AI 연구의 초점이 모델 중심의 압축에서 데이터 중심의 압축으로 전환되고 있음을 주장한다. 우리는 토큰 압축을 새로운 프론티어로 위치지으며, 이는 모델 학습 또는 추론 중 토큰 수를 줄임으로써 AI 효율성을 향상시킨다. 포괄적인 분석을 통해, 우리는 먼저 다양한 도메인에서의 장기 컨텍스트 AI의 최근 발전을 검토하고, 기존 모델 효율성 전략에 대한 통합된 수학적 프레임워크를 구축하여, 토큰 압축이 장기 컨텍스트 오버헤드를 해결하는 데 있어 중요한 패러다임 전환을 나타내는 이유를 입증한다. 이후, 우리는 토큰 압축의 연구 현황을 체계적으로 검토하며, 그 근본적인 이점을 분석하고 다양한 시나리오에서의 강력한 장점을 식별한다. 더 나아가, 우리는 토큰 압축 연구에서의 현재 도전 과제에 대한 심층 분석을 제공하고, 유망한 미래 방향을 제시한다. 궁극적으로, 우리의 작업은 AI 효율성에 대한 새로운 관점을 제공하고, 기존 연구를 종합하며, 증가하는 컨텍스트 길이가 AI 커뮤니티의 발전에 제기하는 도전 과제를 해결하기 위한 혁신적인 발전을 촉진하는 것을 목표로 한다.
사전 학습은 텍스트-이미지(T2I) 모델에 광범위한 세계 지식을 제공하지만, 이것만으로는 높은 미적 품질과 정렬을 달성하기에는 종종 부족합니다. 따라서 지도 미세 조정(SFT)은 추가적인 개선을 위해 필수적입니다. 그러나 그 효과는 미세 조정 데이터셋의 품질에 크게 의존합니다. 기존의 공개 SFT 데이터셋은 좁은 도메인(예: 애니메이션 또는 특정 예술 스타일)을 대상으로 하는 경우가 많으며, 고품질의 일반 목적 SFT 데이터셋을 만드는 것은 여전히 큰 과제입니다. 현재의 데이터셋 선별 방법은 비용이 많이 들고, 진정으로 영향력 있는 샘플을 식별하는 데 어려움을 겪습니다. 이 과제는 공개된 일반 목적 데이터셋의 부족으로 더욱 복잡해지는데, 주요 모델들이 대규모의 독점적이고 잘 문서화되지 않은 내부 데이터에 의존하기 때문에, 더 넓은 연구 진전이 방해받고 있습니다. 본 논문은 사전 학습된 생성 모델을 고영향 학습 샘플의 추정기로 활용하여 일반 목적 SFT 데이터셋을 만드는 새로운 방법론을 소개합니다. 우리는 이 방법론을 적용하여 Alchemist라는 컴팩트하지만(3,350개 샘플) 매우 효과적인 SFT 데이터셋을 구축하고 공개했습니다. 실험 결과, Alchemist는 다섯 가지 공개 T2I 모델의 생성 품질을 크게 향상시키면서도 다양성과 스타일을 보존하는 것으로 나타났습니다. 또한, 우리는 미세 조정된 모델의 가중치를 공개합니다.
대규모 언어 모델(LLM)은 일반적인 작업에서 뛰어난 성능을 보이지만, 금융, 법률, 의료와 같이 논리적 사고와 정밀성이 요구되는 분야에서의 신뢰성을 평가하는 것은 여전히 어려운 과제입니다. 이를 해결하기 위해, 우리는 실제 금융 애플리케이션에서 LLM을 평가하기 위해 특별히 설계된 첫 번째 벤치마크인 BizFinBench를 소개합니다. BizFinBench는 중국어로 작성된 6,781개의 잘 주석이 달린 질문으로 구성되어 있으며, 수치 계산, 추론, 정보 추출, 예측 인식, 지식 기반 질문 응답 등 다섯 가지 차원을 아우르며 아홉 개의 세부 카테고리로 분류됩니다. 이 벤치마크는 객관적 및 주관적 지표를 모두 포함합니다. 또한, 우리는 LLM이 객관적 지표에서 평가자로 사용될 때 편향을 줄이는 새로운 LLM 평가 방법인 IteraJudge를 도입했습니다. 우리는 독점 및 오픈소스 시스템을 포함한 25개의 모델을 벤치마크했습니다. 광범위한 실험 결과, 모든 작업에서 단일 모델이 우위를 점하지 않음을 확인했습니다. 우리의 평가는 다음과 같은 뚜렷한 능력 패턴을 보여줍니다: (1) 수치 계산에서 Claude-3.5-Sonnet(63.18)와 DeepSeek-R1(64.04)이 선두를 달렸고, Qwen2.5-VL-3B(15.92)와 같은 소형 모델은 크게 뒤처졌습니다; (2) 추론에서는 독점 모델이 우세했으며(ChatGPT-o3: 83.58, Gemini-2.0-Flash: 81.15), 오픈소스 모델은 최대 19.49점 차이로 뒤처졌습니다; (3) 정보 추출에서는 성능 편차가 가장 컸으며, DeepSeek-R1은 71.46점을 기록한 반면 Qwen3-1.7B는 11.23점을 기록했습니다; (4) 예측 인식에서는 성능 변동이 가장 적었으며, 상위 모델들은 39.16에서 50.00점 사이의 점수를 기록했습니다. 우리는 현재의 LLM이 일상적인 금융 질문을 능숙하게 처리하지만, 개념 간 추론이 필요한 복잡한 시나리오에서는 어려움을 겪는다는 것을 발견했습니다. BizFinBench는 향후 연구를 위한 엄격하고 비즈니스에 부합하는 벤치마크를 제공합니다. 코드와 데이터셋은 https://github.com/HiThink-Research/BizFinBench에서 확인할 수 있습니다.
현재의 대형 언어 모델(LLM)은 일반적으로 모든 질문에 대해 단순하거나 복잡한 고정된 추론 전략을 채택하며, 이는 질문의 난이도와 무관하게 적용됩니다. 이러한 작업 및 추론 과정의 복잡성 변화를 고려하지 않음으로써 성능과 효율성 간의 불균형이 발생합니다. 기존 방법들은 다양한 난이도의 문제를 처리하기 위해 학습 없이 빠른 사고와 느린 사고 시스템 간의 전환을 구현하려 시도했지만, 이는 대략적인 솔루션 수준의 전략 조정에 제한적입니다. 이 문제를 해결하기 위해, 우리는 새로운 추론 패러다임인 프로세스 수준 적응형 사고 모드 전환(PATS)을 제안합니다. 이는 LLM이 각 단계의 난이도에 따라 추론 전략을 동적으로 조정하여 정확성과 계산 효율성 간의 균형을 최적화할 수 있게 합니다. 우리의 접근 방식은 프로세스 보상 모델(PRM)과 빔 서치를 통합하며, 점진적인 모드 전환과 잘못된 단계에 대한 페널티 메커니즘을 포함합니다. 다양한 수학 벤치마크에서의 실험은 우리의 방법론이 높은 정확성을 유지하면서도 적절한 토큰 사용량을 유지함을 보여줍니다. 이 연구는 프로세스 수준에서 난이도를 인지한 추론 전략 적응의 중요성을 강조하며, LLM의 효율적인 추론에 대한 유용한 통찰을 제공합니다.
대규모 언어 모델(LLM)을 기반으로 한 구체화된 에이전트는 가정 내 물건 재배치 작업에서 강력한 성능을 보여왔다. 그러나 이러한 작업은 단순화된 지시사항과 단일 회차 상호작용에 주로 초점을 맞추고 있어, 사용자에게 의미 있는 지원을 제공하는 데 따른 진정한 도전 과제를 반영하지 못한다. 개인 맞춤형 지원을 제공하기 위해서는 구체화된 에이전트가 사용자가 물리적 세계에 부여하는 고유한 의미(예: 좋아하는 컵, 아침 루틴)를 이해해야 하며, 이를 위해 이전 상호작용 기록을 활용하여 동적인 실세계 지시사항을 해석할 수 있어야 한다. 그러나 구체화된 에이전트가 개인 맞춤형 지원을 위해 메모리를 활용하는 효과는 아직까지 충분히 탐구되지 않았다. 이러한 격차를 해결하기 위해, 우리는 개인 맞춤형 지원을 제공하기 위한 메모리 활용 능력을 종합적으로 평가할 수 있는 MEMENTO라는 개인 맞춤형 구체화된 에이전트 평가 프레임워크를 제안한다. 우리의 프레임워크는 메모리 활용이 작업 성능에 미치는 영향을 정량화할 수 있는 두 단계의 메모리 평가 프로세스 설계로 구성된다. 이 프로세스는 목표 해석에서 개인화된 지식의 역할에 초점을 맞춰 물건 재배치 작업에서 에이전트의 개인화된 지식 이해 능력을 평가할 수 있도록 한다: (1) 개인적인 의미를 기반으로 대상 물건을 식별하는 능력(물건 의미론), (2) 루틴과 같은 일관된 사용자 패턴에서 물건-위치 구성을 추론하는 능력(사용자 패턴). 다양한 LLM에 대한 우리의 실험은 메모리 활용에 있어 상당한 한계를 드러냈으며, 특히 사용자 패턴과 관련된 작업에서 GPT-4o와 같은 최첨단 모델도 다중 메모리를 참조해야 할 때 30.5%의 성능 하락을 경험했다. 이러한 발견과 함께 우리의 상세 분석 및 사례 연구는 더 효과적인 개인 맞춤형 구체화된 에이전트 개발을 위한 미래 연구에 유용한 통찰을 제공한다. 프로젝트 웹사이트: https://connoriginal.github.io/MEMENTO
대규모 추론 모델은 복잡한 작업에서 강력한 성능을 보여주지만, 작업 난이도에 따라 추론 토큰 사용량을 조정하는 능력이 부족합니다. 이로 인해 종종 "과도한 사고(overthinking)" 문제가 발생하는데, 이는 과도하고 불필요한 추론을 의미하며, 인간의 개입을 통해 토큰 예산을 통제함으로써 완화될 수는 있지만, 여전히 완전 자율적인 AI를 달성하려는 목표와 근본적으로 상충됩니다. 본 연구에서는 작업에 따라 적절한 추론 형식을 적응적으로 선택할 수 있는 Adaptive Reasoning Model(ARM)을 제안합니다. 이러한 형식에는 Direct Answer, Short CoT, Code와 같은 효율적인 세 가지 형식과 더 상세한 형식인 Long CoT가 포함됩니다. ARM을 학습시키기 위해, 기존 Group Relative Policy Optimization(GRPO)의 형식 붕괴 문제를 해결한 Ada-GRPO를 도입했습니다. Ada-GRPO는 ARM이 Long CoT에만 의존하는 모델과 비슷한 성능을 유지하면서도 평균 30%, 최대 70%까지 토큰 사용량을 줄이는 높은 토큰 효율성을 달성할 수 있게 합니다. 또한, 토큰 생성량 감소를 통해 추론 효율성을 개선할 뿐만 아니라, 학습 속도도 2배 가속화합니다. 기본적인 Adaptive Mode 외에도 ARM은 두 가지 추가 추론 모드를 지원합니다: 1) Instruction-Guided Mode: 사용자가 특수 토큰을 통해 추론 형식을 명시적으로 지정할 수 있도록 하며, 일괄 작업에 적합한 형식을 알고 있을 때 이상적입니다. 2) Consensus-Guided Mode: 세 가지 효율적인 형식의 출력을 집계하고, 불일치가 발생할 경우 Long CoT를 사용하여 더 높은 토큰 사용량을 감수하면서 성능을 우선시합니다.
OpenAI의 o1과 DeepSeek의 R1과 같은 대형 언어 모델(LLMs)은 검증 가능한 보상 강화 학습(RLVR)을 통해 수학 및 코딩과 같은 고급 추론 작업에서 뛰어난 성능을 보이지만, 도메인 지식 없이도 인간이 풀 수 있는 퍼즐에는 여전히 어려움을 겪습니다. 우리는 LLM의 퍼즐 추론 능력을 향상시키기 위해 특별히 설계된 첫 번째 포괄적인 도구인 Enigmata를 소개합니다. Enigmata는 7개 범주에 걸친 36개의 작업을 포함하며, 각 작업은 1) 난이도를 조절할 수 있는 무제한 예시를 생성하는 생성기와 2) 자동 평가를 위한 규칙 기반 검증기를 갖추고 있습니다. 이 생성기-검증기 설계는 확장 가능한 다중 작업 RL 훈련, 세분화된 분석, 원활한 RLVR 통합을 지원합니다. 또한, 엄격한 벤치마크인 Enigmata-Eval을 제안하고 최적화된 다중 작업 RLVR 전략을 개발했습니다. 우리가 훈련한 모델인 Qwen2.5-32B-Enigmata는 Enigmata-Eval, ARC-AGI(32.8%), ARC-AGI 2(0.6%)와 같은 퍼즐 추론 벤치마크에서 o3-mini-high와 o1을 꾸준히 능가합니다. 또한, 도메인 외 퍼즐 벤치마크와 수학적 추론에서도 잘 일반화되며, 다중 작업 간의 트레이드오프가 거의 없습니다. Seed1.5-Thinking(활성화된 매개변수 20B, 총 매개변수 200B)과 같은 더 큰 모델에서 Enigmata의 퍼즐 데이터를 훈련할 경우, AIME(2024-2025), BeyondAIME, GPQA(Diamond)와 같은 고급 수학 및 STEM 추론 작업에서 최신 기술(SoTA) 성능을 더욱 향상시키며, Enigmata의 우수한 일반화 이점을 보여줍니다. 이 연구는 LLM의 논리적 추론을 발전시키기 위한 통합적이고 제어 가능한 프레임워크를 제공합니다. 이 연구의 리소스는 https://seed-enigmata.github.io에서 확인할 수 있습니다.
우리는 메타러닝의 관점에서 대규모 언어 모델(LLM)의 추론 능력을 이해하기 위한 새로운 프레임워크를 제안한다. 추론 궤적을 LLM의 매개변수에 대한 의사 경사 하강법 업데이트로 개념화함으로써, LLM 추론과 다양한 메타러닝 패러다임 간의 유사성을 확인한다. 우리는 추론 과제의 학습 과정을 메타러닝 설정으로 공식화하며, 각 질문을 개별 과제로 간주하고 추론 궤적을 모델 매개변수를 적응시키기 위한 내부 루프 최적화로 활용한다. 다양한 질문 집합에 대해 학습을 마치면, LLM은 이전에 보지 못한 질문에도 일반화할 수 있는 기본적인 추론 능력을 개발한다. 광범위한 실험적 평가를 통해 LLM 추론과 메타러닝 간의 강력한 연결을 입증하며, 메타러닝 관점에서 중요한 여러 문제를 탐구한다. 우리의 연구는 LLM 추론에 대한 이해를 향상시킬 뿐만 아니라, 확립된 메타러닝 기법을 통해 이러한 모델을 개선하기 위한 실용적인 통찰을 제공한다.
대형 언어 모델(LLM)은 자연어 처리 작업에서 놀라운 성과를 거두었으며, 이를 특정 응용 분야에 적응시키는 데 강화 학습이 핵심적인 역할을 해왔다. 그러나 수학 문제 해결을 위한 LLM 훈련에서 정답 데이터를 확보하는 것은 종종 어렵고 비용이 많이 들며, 때로는 불가능하기까지 하다. 본 연구는 전통적인 정답 데이터의 필요성을 우회하여, 형식과 길이를 대리 신호로 활용하여 수학 문제 해결을 위한 LLM을 훈련시키는 방법을 탐구한다. 우리의 연구는 형식 정확성에 초점을 맞춘 보상 함수만으로도 초기 단계에서 표준 GRPO 알고리즘과 비슷한 성능 향상을 이끌어낼 수 있음을 보여준다. 후기 단계에서 형식만을 기반으로 한 보상의 한계를 인식하고, 길이 기반 보상을 추가로 통합하였다. 형식-길이 대리 신호를 활용한 GRPO 접근법은 특정 시나리오에서 정답 데이터에 의존하는 표준 GRPO 알고리즘의 성능을 능가하며, 7B 기본 모델로 AIME2024에서 40.0%의 정확도를 달성하였다. 체계적인 탐구와 실험을 통해, 본 연구는 수학 문제 해결을 위한 LLM 훈련과 광범위한 정답 데이터 수집에 대한 의존도를 줄이는 실용적인 해결책을 제시할 뿐만 아니라, 라벨 없는 접근법이 성공하는 본질을 밝혀냈다: 기본 모델은 수학적 및 논리적 추론 능력을 이미 마스터한 우수한 학생과 같지만, 시험지에서 성적이 좋지 않은 경우, 단지 좋은 답안 작성 습관을 개발하면 시험에서 우수한 결과를 얻을 수 있다는 것이다. 즉, 이미 가지고 있는 능력을 발휘할 수 있도록 하는 것이다.
대형 언어 모델(LLMs)은 종종 여성에 대한 편견이나 숫자 7에 대한 선호와 같은 강한 편향성을 보입니다. 우리는 LLMs가 다중 턴 대화에서 동일한 질문에 대한 이전 답변을 관찰할 수 있을 때, 덜 편향된 답변을 출력할 수 있는지 조사합니다. 어떤 유형의 질문이 더 편향된 답변을 유도하는지 이해하기 위해, 우리는 9개 주제를 아우르고 세 가지 유형((1) 주관적; (2) 무작위; (3) 객관적)에 속하는 질문 세트를 제안하고 LLMs를 테스트합니다. 흥미롭게도, LLMs는 무작위적이고 편향되지 않은 답변을 요구하는 질문에 대해 다중 턴 대화에서 스스로 "편향 제거"를 할 수 있습니다. 또한, 우리는 주관적, 무작위적, 쉬운, 어려운 질문에 대한 편향을 효과적으로 탐지할 수 있는 새로운 메트릭인 B-score를 제안합니다. MMLU, HLE, CSQA에서 B-score를 활용하면, 언어적 신뢰도 점수나 단일 턴 답변의 빈도만을 사용하는 것에 비해 LLM 답변의 검증 정확도(즉, LLM의 정답을 수용하고 오답을 거부하는 것)가 크게 향상됩니다. 코드와 데이터는 https://b-score.github.io에서 확인할 수 있습니다.
검증 가능한 보상을 활용한 강화 학습(RLVR)을 통해 복잡한 추론을 위한 대규모 언어 모델(LLM)을 훈련하는 것은 효과적이지만, 비용이 많이 들고 도메인 특화된 감독에 의존해야 한다는 한계가 있습니다. 우리는 외부 보상이나 레이블된 데이터 없이 내재적 신호로부터 학습할 수 있는 강화 학습 프레임워크인 RLIF(Reinforcement Learning from Internal Feedback)를 탐구합니다. 우리는 모델의 자신감, 즉 자기 확신(self-certainty)을 유일한 보상 신호로 사용하는 RLIF 방법인 Intuitor를 제안합니다. Intuitor는 그룹 상대 정책 최적화(GRPO)에서 외부 보상을 자기 확신 점수로 대체하여 완전히 비지도 학습을 가능하게 합니다. 실험 결과, Intuitor는 수학적 벤치마크에서 GRPO와 동등한 성능을 보이면서도 코드 생성과 같은 도메인 외 작업에서 더 우수한 일반화를 달성하며, 정답 솔루션이나 테스트 케이스가 필요하지 않음을 입증했습니다. 우리의 연구 결과는 내재적 모델 신호가 다양한 도메인에서 효과적인 학습을 이끌 수 있으며, 검증 가능한 보상을 사용할 수 없는 자율 AI 시스템을 위한 RLVR의 확장 가능한 대안을 제공함을 보여줍니다. 코드는 https://github.com/sunblaze-ucb/Intuitor에서 확인할 수 있습니다.
인간이 생성한 보상 신호는 생성 모델을 인간의 선호도에 맞추고, 훈련 및 추론 시점의 평가를 안내하는 데 있어 매우 중요합니다. 대형 언어 모델(LLMs)을 프록시 평가자로 사용하는, 즉 LLM-as-a-Judge 방식은 수동 주석과 관련된 비용을 크게 줄이지만, 일반적으로 방대한 양의 모달리티별 훈련 데이터를 필요로 하며 다양한 다중 모달 작업에서 잘 일반화하지 못합니다. 본 논문에서는 최소한의 텍스트 추론 데이터를 활용하여 여러 모달리티와 평가 형식에 걸쳐 견고하게 일반화할 수 있는 추론 기반 다중 모달 판단 모델인 Flex-Judge를 제안합니다. 우리의 핵심 직관은 구조화된 텍스트 추론 설명이 본질적으로 일반화 가능한 의사결정 패턴을 인코딩하여 이미지나 비디오와 같은 다중 모달 판단으로의 효과적인 전이를 가능하게 한다는 것입니다. 실험 결과는 Flex-Judge가 상당히 적은 텍스트 데이터로 훈련되었음에도 불구하고, 최신 상용 API와 광범위하게 훈련된 다중 모달 평가자들과 비교하여 경쟁력 있거나 우수한 성능을 달성함을 보여줍니다. 특히 Flex-Judge는 분자와 같은 모달리티에서 포괄적인 평가 벤치마크가 부족한 상황에서도 광범위한 영향을 미치며, 자원이 제한된 분야에서의 실용적 가치를 강조합니다. 우리의 프레임워크는 전통적인 주석 집약적 접근 방식에 비해 추론 기반 텍스트 감독을 강력하고 비용 효율적인 대안으로 제시함으로써, 확장 가능한 다중 모델-as-a-Judge를 크게 발전시킵니다.
대규모 언어 모델(LLMs)은 과학적 가설 생성을 자동화하는 데 있어 유망한 가능성을 보여주었으나, 기존 접근 방식은 주로 중요한 방법론적 및 실험적 세부 사항이 부족한 대략적인 수준의 가설을 생성하는 데 그쳤다. 본 연구에서는 세밀한 과학적 가설 발견이라는 새로운 과제를 소개하고 이를 공식적으로 정의한다. 이 과제는 초기의 대략적인 연구 방향에서 출발하여 실험적으로 실행 가능한 상세한 가설을 생성하는 것을 목표로 한다. 우리는 이를 조합 최적화 문제로 설정하고, LLMs의 능력을 최대한 활용하여 이를 해결할 수 있는 상한선을 탐구한다. 구체적으로, 우리는 네 가지 근본적인 질문을 탐구한다: (1) LLM의 내부 휴리스틱을 최적으로 활용하여 LLM 자체가 생성할 수 있는 모든 가능한 가설 중에서 가장 유망하다고 판단할 세밀한 가설을 어떻게 형성할 것인가—이를 통해 가설 공간에 대한 잠재적 보상 지형을 정의한다; (2) LLM이 판단한 더 나은 가설이 실제 가설과 더 강한 일치성을 보이는지 여부; (3) 유사한 능력을 가진 다양한 LLM 앙상블을 사용하여 보상 지형을 형성하는 것이 가장 강력한 LLM을 반복적으로 사용하여 정의하는 것보다 더 나은 결과를 가져오는지 여부; 그리고 (4) 동일한 LLM 앙상블이 단일 LLM보다 더 신뢰할 수 있는 보상 지형을 제공하는지 여부. 이러한 질문에 답하기 위해, 우리는 일반적인 개념에서 구체적인 실험 구성으로 점진적으로 진행하며 가설에 세부 사항을 제안하고 통합하는 계층적 탐색 방법을 제안한다. 이 계층적 과정이 보상 지형을 매끄럽게 하고 더 효과적인 최적화를 가능하게 함을 보여준다. 최근 화학 문헌에서 전문가가 주석을 단 세밀한 가설로 구성된 새로운 벤치마크에 대한 실험적 평가를 통해, 우리의 방법이 강력한 베이스라인을 일관되게 능가함을 입증한다.
LLM(대형 언어 모델)은 인상적인 발전을 이루었지만, 그 능력이 커짐에 따라 안전 정렬을 우회하도록 설계된 매우 유연한 탈옥(jailbreaking) 공격에 노출되기도 합니다. 기존의 많은 방어 기법들은 알려진 공격 유형에 초점을 맞추고 있지만, 실제 배포 과정에서 발생할 수 있는 미지의 공격에 대비하는 것이 더욱 중요합니다. 이를 해결하기 위해, 우리는 LLM이 새로운 탈옥 전략에 지속적으로 적응할 수 있도록 하는 평생 안전 정렬(lifelong safety alignment) 프레임워크를 제안합니다. 이 프레임워크는 두 가지 구성 요소 간의 경쟁 구조를 도입합니다: 새로운 탈옥 전략을 적극적으로 발견하도록 훈련된 메타 공격자(Meta-Attacker)와 이를 방어하도록 훈련된 방어자(Defender)입니다. 메타 공격자를 효과적으로 준비시키기 위해, 우리는 먼저 GPT-4o API를 활용하여 탈옥 관련 연구 논문 대량에서 핵심 통찰을 추출합니다. 반복적인 훈련을 통해, 첫 번째 반복에서 메타 공격자는 단일 턴 공격만으로 RR에서 73%의 공격 성공률(ASR)을, LAT에서 57%의 전이 공격 성공률을 달성했습니다. 한편, 방어자는 점점 더 견고해져 결국 메타 공격자의 성공률을 단 7%로 낮추어, 개방형 환경에서 LLM을 더 안전하고 신뢰할 수 있게 배포할 수 있게 합니다. 코드는 https://github.com/sail-sg/LifelongSafetyAlignment에서 확인할 수 있습니다.
최근 멀티모달 대형 언어 모델(MLLMs)은 시맨틱 장면 이해와 텍스트-이미지 정렬을 포함한 시각적 작업에서 상당한 진전을 이루었으며, 수학과 논리를 포함한 복잡한 작업에서의 성능을 향상시키는 추론 변형 모델들이 등장했습니다. 그러나 세밀한 시각적 이해를 요구하는 추론 작업에 대한 이들의 능력은 아직 충분히 평가되지 않았습니다. 이러한 격차를 해소하기 위해, 우리는 MLLMs의 세밀한 시각적 이해와 공간 추론 능력을 평가하기 위한 벤치마크인 ReasonMap를 소개합니다. ReasonMap는 13개국 30개 도시의 고해상도 대중교통 지도를 포함하며, 두 가지 질문 유형과 세 가지 템플릿으로 구성된 1,008개의 질문-답변 쌍을 제공합니다. 또한, 답변의 정확성과 질을 적절히 평가할 수 있는 두 단계의 평가 파이프라인을 설계했습니다. 베이스 모델과 추론 변형 모델을 포함한 15개의 인기 있는 MLLMs에 대한 포괄적인 평가 결과, 오픈소스 모델에서는 베이스 모델이 추론 모델을 능가하는 반면, 클로즈드소스 모델에서는 반대의 경향이 관찰되었습니다. 또한, 시각적 입력이 마스킹된 경우 일반적으로 성능이 저하되는데, 이는 MLLMs가 일부 질문에 대해 사전 지식을 활용하여 답변할 수 있지만, 세밀한 시각적 추론 작업에서는 강력한 성능을 위해 진정한 시각적 인식이 여전히 필요함을 시사합니다. 우리의 벤치마크 연구는 시각적 추론에 대한 새로운 통찰을 제공하며, 오픈소스와 클로즈드소스 모델 간의 격차를 조사하는 데 기여합니다.
디코더 전용 언어 모델의 두각에도 불구하고, 인코더는 여전히 자원이 제한된 애플리케이션에서 중요한 역할을 합니다. 우리는 ModernBERT의 아키텍처 혁신을 통합하여 처음부터 학습된 완전히 투명한 독일어 인코더 모델군인 ModernGBERT(134M, 1B)를 소개합니다. 또한 처음부터 인코더를 학습하는 실질적인 장단점을 평가하기 위해, LLM2Vec을 통해 독일어 디코더 전용 모델에서 파생된 인코더 모델군인 LL\"aMmlein2Vec(120M, 1B, 7B)을 제시합니다. 우리는 모든 모델을 자연어 이해, 텍스트 임베딩, 장문 맥락 추론 과제에서 벤치마킹하여 전용 인코더와 변환된 디코더 간의 통제된 비교를 가능하게 합니다. 우리의 결과는 ModernGBERT 1B가 성능과 파라미터 효율성 측면에서 이전의 최첨단 독일어 인코더와 LLM2Vec을 통해 적응된 인코더를 능가함을 보여줍니다. 모든 모델, 학습 데이터, 체크포인트 및 코드는 공개되어 투명하고 고성능의 인코더 모델로 독일어 NLP 생태계를 발전시킵니다.
시각적 생성과 이해는 인간 지능의 깊이 연결된 두 가지 측면이지만, 기계 학습에서는 전통적으로 별개의 작업으로 다뤄져 왔습니다. 본 논문에서는 이미지 도메인과 다중 레이블 도메인을 공동으로 모델링함으로써 시각적 생성과 이해를 통합하는 확산 프레임워크인 Jodi를 제안합니다. 구체적으로, Jodi는 선형 확산 트랜스포머와 역할 전환 메커니즘을 기반으로 구축되어, 다음과 같은 세 가지 특정 유형의 작업을 수행할 수 있습니다: (1) 공동 생성, 모델이 이미지와 다중 레이블을 동시에 생성하는 작업; (2) 제어 가능한 생성, 레이블의 조합에 따라 이미지를 생성하는 작업; (3) 이미지 인지, 주어진 이미지에서 다중 레이블을 한 번에 예측하는 작업. 또한, 공개 소스에서 수집된 200,000개의 고품질 이미지, 7개의 시각적 도메인에 대한 자동 레이블, 그리고 LLM 생성 캡션을 포함한 Joint-1.6M 데이터셋을 소개합니다. 광범위한 실험을 통해 Jodi가 생성 및 이해 작업 모두에서 탁월한 성능을 보이며, 더 넓은 범위의 시각적 도메인에 대한 강력한 확장성을 보여줌을 입증했습니다. 코드는 https://github.com/VIPL-GENUN/Jodi에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)이 소프트웨어 개발 워크플로우에 필수적인 요소로 자리 잡으면서, 구조화된 출력을 생성하는 능력이 매우 중요해졌다. 본 연구에서는 LLMs의 비렌더링 가능(JSON, YAML, CSV) 및 렌더링 가능(HTML, React, SVG) 구조화 형식 생성을 평가하기 위한 포괄적인 벤치마크인 StructEval을 소개한다. 기존 벤치마크와 달리, StructEval은 두 가지 패러다임을 통해 다양한 형식 간의 구조적 충실도를 체계적으로 평가한다: 1) 자연어 프롬프트에서 구조화된 출력을 생성하는 생성 작업, 2) 구조화된 형식 간 변환을 수행하는 변환 작업. 본 벤치마크는 18가지 형식과 44가지 유형의 작업을 포함하며, 형식 준수 및 구조적 정확성을 평가하기 위한 새로운 메트릭을 제안한다. 결과에 따르면, 최첨단 모델인 o1-mini조차 평균 75.58점에 그치며, 오픈소스 대안들은 약 10점 가량 뒤처지는 것으로 나타났다. 생성 작업이 변환 작업보다 더 어려운 것으로 나타났으며, 시각적 콘텐츠를 정확하게 생성하는 것이 텍스트 전용 구조를 생성하는 것보다 더 어려운 것으로 확인되었다.
2025년, 인공 일반 지능(AGI) 추구의 중요한 분기점에 서서, 강화 미세 조정(Reinforcement Fine-Tuning, RFT)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 데 있어 상당한 잠재력을 입증했으며, OpenAI-o1 및 DeepSeek-R1과 같은 최첨단 AI 모델의 개발로 이어졌다. 또한, 다중 모달 대규모 언어 모델(MLLM)의 추론 능력을 강화하기 위한 RFT의 효율적인 적용은 커뮤니티로부터 폭넓은 관심을 끌었다. 본 포지션 페이퍼에서 우리는 강화 미세 조정이 다중 모달 대규모 언어 모델의 추론 능력을 강화한다는 주장을 펼친다. 먼저, 이 분야에 관심 있는 연구자들이 숙지해야 할 기본적인 배경 지식을 상세히 소개한다. 더 나아가, 우리는 RFT가 MLLM의 추론 능력을 강화하는 데 있어 이루어진 개선 사항을 다섯 가지 핵심 요소로 정리한다: 다양한 모달리티, 다양한 작업 및 도메인, 더 나은 훈련 알고리즘, 풍부한 벤치마크, 그리고 활발한 엔지니어링 프레임워크. 마지막으로, 커뮤니티가 고려할 수 있는 미래 연구를 위한 다섯 가지 유망한 방향을 제안한다. 우리는 이 포지션 페이퍼가 AGI로의 진전이라는 중대한 시점에서 커뮤니티에 가치 있는 통찰을 제공하기를 바란다. MLLM을 위한 RFT에 관한 작업 요약은 https://github.com/Sun-Haoyuan23/Awesome-RL-based-Reasoning-MLLms에서 확인할 수 있다.
장기간 비디오-오디오 추론과 세밀한 픽셀 이해는 옴니모달 모델에 상충되는 요구사항을 부과합니다: 밀집된 시간적 커버리지는 많은 저해상도 프레임을 요구하는 반면, 정확한 그라운딩은 고해상도 입력을 필요로 합니다. 우리는 이러한 트레이드오프를 두 시스템 아키텍처로 해결합니다: 글로벌 추론 시스템은 정보가 풍부한 키프레임을 선택하고 낮은 공간 비용으로 작업을 재구성하며, 디테일 이해 시스템은 선택된 고해상도 스니펫에 대해 픽셀 수준의 그라운딩을 수행합니다. "최적의" 키프레임 선택과 재구성은 모호하고 감독하기 어렵기 때문에, 우리는 이를 강화 학습(RL) 문제로 공식화하고 Group Relative Policy Optimization을 기반으로 한 종단간 RL 프레임워크인 Omni-R1을 제시합니다. Omni-R1은 디테일 이해 시스템과의 온라인 협력을 통해 얻은 계층적 보상을 통해 글로벌 추론 시스템을 훈련시키며, 작은 작업 분할에 대해 단 한 번의 RL 에포크만 필요로 합니다. Referring Audio-Visual Segmentation (RefAVS)와 Reasoning Video Object Segmentation (REVOS)라는 두 가지 도전적인 벤치마크에서의 실험은 Omni-R1이 강력한 지도 학습 베이스라인을 능가할 뿐만 아니라 전문화된 최첨단 모델들도 능가하며, 도메인 외 일반화를 크게 개선하고 다중모드 환상을 완화하는 것을 보여줍니다. 우리의 결과는 대규모 옴니모달 추론에 RL을 성공적으로 적용한 첫 사례를 보여주며, 보편적 파운데이션 모델로 나아가는 확장 가능한 경로를 강조합니다.
본 논문에서는 대규모 언어 모델(LLM) 기반의 리스트와이즈 추론 재랭킹 에이전트인 REARANK을 소개한다. REARANK은 재랭킹 전에 명시적으로 추론을 수행함으로써 성능과 해석 가능성을 크게 향상시킨다. 강화 학습과 데이터 증강을 활용한 REARANK은 주요 정보 검색 벤치마크에서 기준 모델 대비 상당한 개선을 달성하며, 특히 단 179개의 주석 처리된 샘플만을 필요로 한다. Qwen2.5-7B를 기반으로 구축된 REARANK-7B는 인-도메인 및 아웃-오브-도메인 벤치마크에서 GPT-4에 필적하는 성능을 보여주며, 추론 집약적인 BRIGHT 벤치마크에서는 GPT-4를 능가하기도 한다. 이러한 결과는 본 접근법의 효과를 입증하며, 강화 학습이 재랭킹에서 LLM의 추론 능력을 강화할 수 있는 방법을 보여준다.
이산 데이터 모델링에서 이산 확산(Discrete Diffusion)은 최근 주목받는 패러다임으로 부상했습니다. 그러나 기존 방법들은 일반적으로 학습 과정에서 고정된 전이 행렬을 사용하는데, 이는 변분 방법의 근본적인 강점인 잠재 표현의 표현력을 제한할 뿐만 아니라 전체 설계 공간을 제약합니다. 이러한 한계를 해결하기 위해, 우리는 이산 표현 학습을 위해 특별히 설계된 새로운 프레임워크인 Discrete Markov Bridge를 제안합니다. 우리의 접근 방식은 행렬 학습(Matrix Learning)과 스코어 학습(Score Learning)이라는 두 가지 핵심 구성 요소를 기반으로 합니다. 우리는 엄밀한 이론적 분석을 수행하여 행렬 학습에 대한 공식적인 성능 보장을 확립하고 전체 프레임워크의 수렴성을 증명합니다. 또한, 우리는 이전 연구에서 확인된 실용적인 제약 사항을 해결하기 위해 우리 방법의 공간 복잡도를 분석합니다. 광범위한 실험적 평가를 통해 제안된 Discrete Markov Bridge의 효과성을 검증하였으며, Text8 데이터셋에서 1.38의 Evidence Lower Bound(ELBO)를 달성하여 기존 베이스라인을 능가하는 성과를 보였습니다. 더불어, 제안된 모델은 CIFAR-10 데이터셋에서도 경쟁력 있는 성능을 보이며, 이미지 특화 생성 접근법들과 비슷한 결과를 얻었습니다.
실시간 상호작용 유체 시뮬레이션을 위한 신경 물리 시스템을 제안한다. 전통적인 물리 기반 방법은 정확하지만 계산 집약적이며 지연 문제를 겪는다. 최근의 기계 학습 방법은 충실도를 유지하면서 계산 비용을 줄이지만, 대부분 여전히 실시간 사용을 위한 지연 제약을 충족하지 못하고 상호작용 애플리케이션에 대한 지원이 부족하다. 이러한 격차를 해소하기 위해, 우리는 수치 시뮬레이션, 신경 물리, 생성적 제어를 통합한 새로운 하이브리드 방법을 소개한다. 우리의 신경 물리 시스템은 고전적인 수치 솔버에 대한 폴백 안전장치를 사용하여 낮은 지연 시뮬레이션과 높은 물리적 충실도를 동시에 추구한다. 또한, 역모델링 전략을 사용하여 훈련된 확산 기반 제어기를 개발하여 유체 조작을 위한 외부 동적 힘 필드를 생성한다. 우리의 시스템은 다양한 2D/3D 시나리오, 재료 유형, 장애물 상호작용에서 견고한 성능을 보이며, 높은 프레임 속도(11~29% 지연)로 실시간 시뮬레이션을 달성하면서 사용자 친화적인 자유 스케치에 의해 유도된 유체 제어를 가능하게 한다. 우리는 실시간 상호작용 애플리케이션을 위한 실용적이고 제어 가능하며 물리적으로 타당한 유체 시뮬레이션을 향한 중요한 진전을 제시한다. 논문 채택 시 모델과 데이터를 공개할 것을 약속한다.
대형 언어 모델(LLMs)은 수학 및 코딩 분야에서 놀라운 추론 능력을 보여주며, 종종 더 강력한 모델에 의해 생성된 사고의 연쇄(CoTs)를 통해 사후 훈련을 통해 강화됩니다. 그러나 이러한 훈련 데이터를 선별하는 기존 전략은 주로 휴리스틱에 의존하여 일반화 가능성을 제한하고 데이터에 내재된 미묘한 차이를 포착하지 못하는 한계가 있습니다. 이러한 한계를 해결하기 위해, 우리는 영향 함수(influence functions)를 활용하여 수학 및 코딩에서의 LLMs의 추론 능력을 개별 훈련 예제, 시퀀스 및 토큰에 체계적으로 귀속시켜, 효과적인 데이터 특성에 대한 더 깊은 통찰을 가능하게 합니다. 우리의 영향 기반 추론 귀속(Infra)은 수학과 코딩 작업 간의 비범한 교차 도메인 효과를 밝혀냅니다: 고난이도 수학 예제는 수학과 코드 추론 모두를 개선하는 반면, 저난이도 코드 작업은 코드 추론에 가장 효과적으로 이익을 제공합니다. 이러한 발견을 바탕으로, 우리는 작업 난이도를 뒤집는 간단하지만 효과적인 데이터셋 재가중 전략을 도입하여, Qwen2.5-7B-Instruct의 AIME24 정확도를 10%에서 20%로 두 배로 높이고, LiveCodeBench 정확도를 33.8%에서 35.3%로 향상시켰습니다. 더 나아가, 우리의 세분화된 귀속은 시퀀스 수준의 탐색적 행동이 수학과 코드 모두에서 추론 성능을 향상시키며, 토큰 수준의 영향 패턴이 수학과 코드 추론에서 구별된다는 것을 보여줍니다: 전자는 자연어 논리 연결자를 선호하는 반면, 후자는 구조적 구문을 강조합니다.
본 리뷰는 AI 지원 소프트웨어 개발에서 주목받고 있는 두 가지 패러다임인 바이브 코딩(vibe coding)과 에이전트 코딩(agentic coding)에 대한 포괄적인 분석을 제시한다. 두 접근법 모두 대규모 언어 모델(LLM)을 활용하지만, 자율성, 아키텍처 설계, 개발자의 역할 측면에서 근본적인 차이를 보인다. 바이브 코딩은 프롬프트 기반의 대화형 워크플로를 통해 아이디어 생성, 실험, 창의적 탐색을 지원하는 직관적이고 인간 중심의 상호작용을 강조한다. 반면, 에이전트 코딩은 계획, 실행, 테스트, 반복 작업을 최소한의 인간 개입으로 수행할 수 있는 목표 지향적 에이전트를 통해 자율적인 소프트웨어 개발을 가능하게 한다. 본 논문은 개념적 기반, 실행 모델, 피드백 루프, 안전 메커니즘, 디버깅 전략, 실제 도구 생태계를 아우르는 상세한 분류 체계를 제안한다. 비교 워크플로 분석과 20개의 상세한 사용 사례를 통해, 바이브 시스템은 초기 프로토타이핑과 교육 분야에서 빛을 발하는 반면, 에이전트 시스템은 엔터프라이즈급 자동화, 코드베이스 리팩토링, CI/CD 통합에서 탁월한 성과를 보임을 입증한다. 또한, 자연어 인터페이스와 자율 실행 파이프라인이 결합된 하이브리드 아키텍처의 최신 동향을 살펴본다. 마지막으로, 신뢰할 수 있고 설명 가능하며 협업적인 시스템을 위한 인프라를 제시하며 에이전트 AI의 미래 로드맵을 제안한다. 연구 결과에 따르면, 성공적인 AI 소프트웨어 엔지니어링은 하나의 패러다임을 선택하는 것이 아니라, 인간 중심의 통합 개발 생명주기 내에서 두 접근법의 강점을 조화롭게 활용하는 데 달려 있음을 시사한다.
현대의 대규모 추론 모델들은 정교한 추론 전략을 통해 인상적인 문제 해결 능력을 보여줍니다. 그러나 이러한 모델들은 종종 효율성과 효과성 사이의 균형을 맞추는 데 어려움을 겪으며, 간단한 문제에 대해 불필요하게 긴 추론 체인을 생성하는 경우가 많습니다. 본 연구에서는 AdaCtrl이라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 난이도 인지 적응형 추론 예산 할당과 사용자가 추론 깊이를 명시적으로 제어할 수 있는 기능을 모두 지원합니다. AdaCtrl은 문제의 난이도를 스스로 평가하여 추론 길이를 동적으로 조정함과 동시에, 사용자가 예산을 수동으로 조절하여 효율성 또는 효과성을 우선시할 수 있도록 합니다. 이는 두 단계의 학습 파이프라인을 통해 구현됩니다: 첫 번째 단계는 문제 난이도를 스스로 인지하고 추론 예산을 조정하는 능력을 함양하기 위한 초기 콜드 스타트 미세 조정 단계이며, 두 번째 단계는 난이도 인지 강화 학습(RL) 단계로, 모델의 적응형 추론 전략을 개선하고 온라인 학습 중 변화하는 능력에 기반하여 난이도 평가를 보정합니다. 직관적인 사용자 상호작용을 가능하게 하기 위해, 예산 제어를 위한 자연스러운 인터페이스로 기능하는 명시적인 길이 트리거 태그를 설계했습니다. 실험 결과, AdaCtrl은 추정된 난이도에 따라 추론 길이를 적응적으로 조정하며, 미세 조정과 RL을 포함한 표준 학습 기준선과 비교했을 때, 성능 향상을 이루는 동시에 더 복잡한 추론이 필요한 AIME2024 및 AIME2025 데이터셋에서 각각 10.06%와 12.14%의 응답 길이를 줄였고, 더 간결한 응답이 충분한 MATH500 및 GSM8K 데이터셋에서는 각각 62.05%와 91.04%의 응답 길이를 줄였습니다. 또한 AdaCtrl은 사용자가 추론 예산을 정밀하게 제어할 수 있게 하여 특정 요구에 맞춘 응답을 제공할 수 있습니다.
대형 추론 모델(Large Reasoning Models, LRMs)은 최종 답변을 도출하기 위해 과도하게 긴 사고의 연쇄(Chain-of-Thought, CoT)를 사용하며, 이로 인해 첫 토큰 지연 시간과 전체 지연 시간이 높다는 비판을 받고 있습니다. 일반적으로 LRM의 CoT는 여러 사고 단위를 혼합하는데, 각 단위는 원래 질문에 대한 후보 답변을 생성하려고 시도합니다. 따라서 효율성을 개선하기 위한 자연스러운 아이디어는 이러한 단위의 수를 줄이는 것입니다. 그러나 기존 CoT의 사고 단위가 명시적으로 관리될 수 없다는 사실은 이를 어렵게 만듭니다. 본 논문은 이러한 격차를 해소하기 위해 기존 CoT를 명시적이고 구조화된 턴별 상호작용의 시퀀스로 디코딩하는 다중 턴 분해(Multi-Turn Decomposition, MinD)를 소개합니다. MinD에서 모델은 질문에 대해 다중 턴 응답을 제공하며, 각 턴은 하나의 사고 단위를 포함하고 해당 답변을 생성합니다. 후속 턴은 이전 턴의 사고 부분과 답변 부분을 반영, 검증, 수정하거나 대안적인 접근 방식을 탐색할 수 있습니다. 이는 답변을 더 빠르게 전달할 뿐만 아니라 반복적인 추론 과정에 대한 명시적 제어를 가능하게 합니다(즉, 사용자는 언제든지 중단하거나 계속할 수 있습니다). 우리는 MinD를 구현하기 위해 지도 미세 조정(Supervised Fine-Tuning, SFT) 후 강화 학습(Reinforcement Learning, RL) 패러다임을 따릅니다. 먼저 다른 대형 언어 모델(LLM)을 사용하여 LRM의 출력을 다중 턴 형식으로 재구성한 후, 이러한 데이터로 LRM을 조정합니다. 조정된 모델이 원래 모델보다 더 많은 토큰을 소비하는 경향이 있음을 관찰한 후(아마도 다중 턴 형식이 추가적인 답변 토큰을 도입했기 때문), 우리는 GRPO와 같은 RL 알고리즘을 활용하여 더 적은 턴으로 정확한 출력을 우선시하도록 권장합니다. R1-Distill 모델을 사용하여 MATH 데이터셋에서 학습된 MinD는 출력 토큰 사용량과 첫 토큰 시간(Time to First Token, TTFT)을 최대 ~70%까지 줄이면서도 MATH-500, AIME24, AMC23, GPQA-Diamond와 같은 추론 벤치마크에서 경쟁력 있는 성능을 유지할 수 있습니다.
시각적 자기회귀(VAR) 모델링은 혁신적인 다음 스케일 예측 접근 방식으로 인해 효율성, 확장성, 제로샷 일반화 측면에서 상당한 개선을 이뤄내며 주목받고 있습니다. 그러나 VAR에 내재된 coarse-to-fine 방법론은 추론 과정에서 KV 캐시의 기하급수적 증가를 초래하며, 이는 상당한 메모리 소비와 계산적 중복을 야기합니다. 이러한 병목 현상을 해결하기 위해, 우리는 VAR 아키텍처에 특화된 새로운 KV 캐시 압축 프레임워크인 ScaleKV를 제안합니다. ScaleKV는 두 가지 중요한 관찰을 활용합니다: 트랜스포머 계층 간의 다양한 캐시 요구 사항과 서로 다른 스케일에서의 독특한 어텐션 패턴입니다. 이러한 통찰을 바탕으로, ScaleKV는 트랜스포머 계층을 두 가지 기능적 그룹으로 분류합니다: 드래프터(drafters)와 리파이너(refiners). 드래프터는 여러 스케일에 걸쳐 분산된 어텐션을 보여주며, 이에 따라 더 큰 캐시 용량이 필요합니다. 반면, 리파이너는 현재 토큰 맵에 집중하여 지역적 세부 사항을 처리하므로 상당히 감소된 캐시 용량만 필요로 합니다. ScaleKV는 스케일별 드래프터와 리파이너를 식별함으로써 다중 스케일 추론 파이프라인을 최적화하고, 각 스케일에 맞춤화된 차별화된 캐시 관리를 가능하게 합니다. 최신 텍스트-이미지 VAR 모델 패밀리인 Infinity에 대한 평가 결과, 우리의 접근 방식은 픽셀 수준의 충실도를 유지하면서 필요한 KV 캐시 메모리를 10%로 효과적으로 줄이는 것을 입증했습니다.
구어는 단어뿐만 아니라 억양, 감정, 강세를 통해 의미를 전달한다. 문장 강세, 즉 문장 내 특정 단어에 부여되는 강조는 화자의 의도를 전달하는 데 핵심적인 역할을 하며, 언어학에서 광범위하게 연구되어 왔다. 본 연구에서는 문장 강세 탐지를 통해 전사 시스템을 개선하기 위한 정렬 불필요 접근법인 WHISTRESS를 소개한다. 이를 지원하기 위해, 완전히 자동화된 데이터셋 생성 과정을 통해 얻은 확장 가능한 합성 훈련 데이터인 TINYSTRESS-15K를 제안한다. 우리는 TINYSTRESS-15K를 사용하여 WHISTRESS를 훈련시키고, 여러 경쟁적인 기준 모델과 비교 평가한다. 실험 결과, WHISTRESS는 훈련이나 추론 과정에서 추가적인 입력 사전 정보 없이도 기존 방법들을 능가하는 성능을 보인다. 특히, 합성 데이터로 훈련되었음에도 불구하고, WHISTRESS는 다양한 벤치마크에서 강력한 제로샷 일반화 능력을 입증한다. 프로젝트 페이지: https://pages.cs.huji.ac.il/adiyoss-lab/whistress.
긴 사고 사슬(CoT)은 대규모 언어 모델(LLM)의 추론 능력을 크게 향상시킵니다. 그러나 광범위한 추론 흔적은 비효율성과 첫 토큰까지의 시간(TTFT) 증가로 이어집니다. 본 연구에서는 강화 학습(RL)을 활용하여 다중 홉 질문에 대해 사고와 답변을 교차적으로 수행하도록 추론 LLM을 유도하는 새로운 훈련 패러다임을 제안합니다. 모델이 본질적으로 교차 추론을 수행할 수 있는 능력을 가지고 있으며, 이를 RL을 통해 더욱 향상시킬 수 있음을 관찰했습니다. 간단하지만 효과적인 규칙 기반 보상을 도입하여 올바른 중간 단계를 장려함으로써, 교차 추론 중 생성된 중간 신호를 활용하여 정책 모델이 올바른 추론 경로로 유도되도록 합니다. 다섯 가지 다양한 데이터셋과 세 가지 RL 알고리즘(PPO, GRPO, REINFORCE++)을 통해 수행된 광범위한 실험은 외부 도구 없이도 기존의 사고-답변 추론 방식에 비해 일관된 개선을 보여줍니다. 특히, 본 접근법은 TTFT를 평균 80% 이상 감소시키고 Pass@1 정확도를 최대 19.3% 향상시킵니다. 또한, 질문 응답 및 논리적 추론 데이터셋만으로 훈련된 본 방법은 MATH, GPQA, MMLU와 같은 복잡한 추론 데이터셋에 대해 강력한 일반화 능력을 보여줍니다. 추가적으로, 조건부 보상 모델링에 대한 몇 가지 유용한 통찰을 밝히기 위해 심층 분석을 수행합니다.
데이터 증강, 선택, 혼합을 포함한 데이터 중심의 지식 증류는 강력한 추론 능력을 유지하면서 더 작고 효율적인 학생용 대형 언어 모델(LLMs)을 만드는 유망한 방법을 제공한다. 그러나 각 지식 증류 접근법의 효과를 체계적으로 평가하기 위한 포괄적인 벤치마크가 여전히 부족하다. 본 논문은 방법론, 모델, 데이터 관점에서 사고 연쇄(CoT) 지식 증류에서의 데이터 조작을 조사하는 첫 번째 데이터 중심 벤치마크인 DC-CoT를 소개한다. 다양한 교사 모델(예: o4-mini, Gemini-Pro, Claude-3.5)과 학생 아키텍처(예: 3B, 7B 파라미터)를 활용하여, 이러한 데이터 조작이 학생 모델의 성능에 미치는 영향을 여러 추론 데이터셋에서 엄격히 평가하며, 특히 내부 분포(IID)와 외부 분포(OOD) 일반화 및 교차 도메인 전이에 초점을 맞춘다. 우리의 연구 결과는 데이터 중심 기술을 통해 CoT 지식 증류를 최적화하기 위한 실행 가능한 통찰을 제공하고 최선의 실천 방법을 확립함으로써, 궁극적으로 더 접근 가능하고 능력 있는 추론 모델의 개발을 촉진하는 것을 목표로 한다. 데이터셋은 https://huggingface.co/datasets/rana-shahroz/DC-COT에서 확인할 수 있으며, 코드는 https://anonymous.4open.science/r/DC-COT-FF4C/에서 공유된다.
비전-언어 모델(VLMs)은 다양한 직접적인 멀티모달 작업에서 뛰어난 성능을 보이지만, 게임과 같은 상호작용적이고 시각적으로 풍부한 환경에서의 효과적인 의사결정으로 이어지지는 못합니다. 이러한 "아는 것과 실행하는 것"의 간극은 자율 에이전트로서의 잠재력을 크게 제한하며, 주요 VLM들이 간단한 게임에서도 낮은 성능을 보이는 원인이 됩니다. 이를 해결하기 위해, 우리는 VLM-Gym을 소개합니다. VLM-Gym은 다양한 시각적 게임을 통합된 인터페이스와 조정 가능한 구성적 난이도로 제공하며, 확장 가능한 다중 게임 병렬 훈련을 위해 특별히 설계된 강화학습(RL) 환경입니다. VLM-Gym을 활용하여, 우리는 순수 RL 기반 자기 진화를 통해 G0 모델을 훈련시켰으며, 이 모델은 새로운 지각 및 추론 패턴을 보여주었습니다. 게임 다양성으로 인한 문제를 더욱 완화하기 위해, 우리는 G1 모델을 개발했습니다. G1은 RL 미세 조정 전에 지각 강화된 콜드 스타트를 포함합니다. 결과적으로, G1 모델은 모든 게임에서 교사 모델을 일관되게 능가하며, Claude-3.7-Sonnet-Thinking와 같은 주요 상용 모델을 뛰어넘는 성능을 보였습니다. 체계적인 분석을 통해, RL 훈련 과정에서 지각과 추론 능력이 서로를 부트스트랩하는 흥미로운 발견을 확인했습니다. VLM-Gym 및 RL 훈련을 포함한 소스 코드는 https://github.com/chenllliang/G1에서 공개되어, VLM을 능동적인 상호작용 에이전트로 발전시키는 미래 연구를 촉진하고자 합니다.
대규모 자연 경관 이미지에 대한 대조 학습(contrastive learning)으로 훈련된 시각 인코더의 이점을 활용하여, 대형 멀티모달 모델(Large Multimodal Models, LMMs)은 다양한 시각 인식 작업에서 뛰어난 성능을 달성했습니다. 그러나 요약된 설명에 기반한 대조 학습의 본질적 한계는, 특히 기하학적 문제 해결과 같은 중요한 시나리오에서 모델의 세밀한 추론 능력을 근본적으로 제한합니다. 기하학적 이해를 향상시키기 위해, 우리는 시각 인코더를 위한 새로운 하드 네거티브 대조 학습(hard negative contrastive learning) 프레임워크를 제안합니다. 이 프레임워크는 다이어그램 생성 코드를 변형하여 생성된 생성 기반 하드 네거티브를 사용한 이미지 기반 대조 학습과, 수정된 기하학적 설명에서 도출된 규칙 기반 네거티브 및 캡션 유사성을 기반으로 선택된 검색 기반 네거티브를 사용한 텍스트 기반 대조 학습을 결합합니다. 우리는 강력한 네거티브 학습 방법인 MMCLIP(Multimodal Math CLIP)을 사용하여 CLIP을 훈련시키고, 이어서 기하학적 문제 해결을 위한 LMM을 훈련시킵니다. 실험 결과, 우리가 훈련한 모델인 MMGeoLM은 세 가지 기하학적 추론 벤치마크에서 다른 오픈소스 모델들을 크게 능가하는 성능을 보였습니다. 심지어 7B 크기의 모델도 GPT-4o와 같은 강력한 클로즈드소스 모델에 필적할 수 있었습니다. 우리는 또한 다양한 네거티브 샘플 구성 방법과 네거티브 샘플의 수가 LMM의 기하학적 추론 성능에 미치는 영향을 추가로 연구하여 유의미한 결론을 도출했습니다. 코드와 데이터셋은 https://github.com/THU-KEG/MMGeoLM에서 확인할 수 있습니다.
최근 비디오 생성 모델의 발전으로 현실적인 환경을 시뮬레이션할 수 있는 세계 모델에 대한 관심이 높아지고 있습니다. 내비게이션 분야는 잘 연구되어 왔지만, 실제 세계의 힘을 모방하는 물리적으로 의미 있는 상호작용은 여전히 크게 연구되지 않고 있습니다. 본 연구에서는 물리적 힘을 비디오 생성을 위한 제어 신호로 사용하는 방법을 탐구하고, 식물을 찌르는 것과 같은 지역적 점 힘과 천에 바람이 부는 것과 같은 전역적 바람 힘장을 통해 사용자가 이미지와 상호작용할 수 있도록 하는 힘 프롬프트를 제안합니다. 우리는 이러한 힘 프롬프트가 원래 사전 학습된 모델의 시각적 및 운동적 사전 지식을 활용하여 추론 시 3D 자산이나 물리 시뮬레이터를 사용하지 않고도 비디오가 물리적 제어 신호에 현실적으로 반응할 수 있음을 보여줍니다. 힘 프롬프트의 주요 과제는 실제 세계에서는 힘 신호를 얻기 어렵고, 합성 데이터에서는 물리 시뮬레이터의 시각적 품질과 도메인 다양성의 한계로 인해 고품질의 힘-비디오 쌍 학습 데이터를 얻기 어렵다는 점입니다. 우리의 주요 발견은 비디오 생성 모델이 Blender로 합성된 비디오에서 물리적 힘 조건을 따르도록 적응할 때, 소수의 객체에 대한 제한된 데모만으로도 놀라울 정도로 잘 일반화할 수 있다는 것입니다. 우리의 방법은 다양한 기하학, 설정 및 재료에 걸쳐 힘을 시뮬레이션하는 비디오를 생성할 수 있습니다. 또한 우리는 이러한 일반화의 원인을 이해하고, 시각적 다양성과 훈련 중 특정 텍스트 키워드 사용이라는 두 가지 핵심 요소를 밝히는 절제 실험을 수행합니다. 우리의 접근 방식은 4개의 A100 GPU에서 단 하루 동안 약 15,000개의 학습 예제만으로 훈련되었으며, 힘 준수와 물리적 현실성 측면에서 기존 방법을 능가하여 세계 모델을 실제 세계의 물리적 상호작용에 더 가깝게 만듭니다. 우리는 프로젝트 페이지에서 모든 데이터셋, 코드, 가중치 및 인터랙티브 비디오 데모를 공개합니다.
최근 AI 에이전트의 발전은 과학적 발견을 주도하고 지원할 수 있는 잠재력이 점점 커지고 있음을 보여주고 있습니다. 본 연구에서는 개방형 머신러닝 연구에서 AI 에이전트를 평가하기 위한 포괄적인 벤치마크인 MLR-Bench를 소개합니다. MLR-Bench는 세 가지 주요 구성 요소를 포함합니다: (1) NeurIPS, ICLR, ICML 워크숍에서 발췌한 다양한 머신러닝 주제를 다루는 201개의 연구 과제; (2) 연구 품질을 평가하기 위해 LLM 기반 리뷰어와 신중하게 설계된 평가 기준을 결합한 자동화된 평가 프레임워크인 MLR-Judge; (3) 아이디어 생성, 제안서 작성, 실험, 논문 작성이라는 네 단계를 통해 연구 과제를 완수할 수 있는 모듈형 에이전트 구조인 MLR-Agent. 우리의 프레임워크는 이러한 구별된 연구 단계에 걸친 단계별 평가와 최종 연구 논문의 종단간 평가를 모두 지원합니다. 그런 다음 MLR-Bench를 사용하여 6개의 최첨단 LLM과 고급 코딩 에이전트를 평가한 결과, LLM은 일관된 아이디어 생성과 잘 구조화된 논문 작성에 효과적이지만, 현재의 코딩 에이전트는 빈번히(예: 80%의 경우) 조작되거나 검증되지 않은 실험 결과를 생성하여 과학적 신뢰성에 큰 장벽으로 작용함을 발견했습니다. 우리는 MLR-Judge를 인간 평가를 통해 검증하여 전문 리뷰어와 높은 일치도를 보임으로써 연구 평가를 위한 확장 가능한 도구로서의 잠재력을 입증했습니다. 우리는 MLR-Bench를 오픈소스로 공개하여 커뮤니티가 신뢰할 수 있고 투명한 과학적 발견을 향해 AI 연구 에이전트를 벤치마킹, 진단 및 개선하는 데 도움을 주고자 합니다.
본 논문은 텍스트, 이미지, 오디오, 비디오를 포함한 다중 모드 방식으로 컴퓨터와 상호작용할 수 있는 범용 에이전트인 InfantAgent-Next를 소개합니다. 기존 접근 방식이 단일 대형 모델을 중심으로 복잡한 워크플로를 구축하거나 단순히 워크플로 모듈성을 제공하는 것과 달리, 본 에이전트는 도구 기반 에이전트와 순수 비전 에이전트를 고도로 모듈화된 아키텍처 내에 통합하여, 다양한 모델이 단계별로 분리된 작업을 협력적으로 해결할 수 있도록 합니다. 우리의 범용성은 순수 비전 기반의 실제 세계 벤치마크(예: OSWorld)뿐만 아니라 더 일반적이거나 도구 집약적인 벤치마크(예: GAIA 및 SWE-Bench)를 평가할 수 있는 능력으로 입증됩니다. 특히, OSWorld에서 7.27%의 정확도를 달성하여 Claude-Computer-Use를 능가했습니다. 코드와 평가 스크립트는 https://github.com/bin123apple/InfantAgent에서 오픈소스로 제공됩니다.
대규모 언어 모델(LLM)의 점증하는 계산 요구로 인해 효율적인 추론 및 활성화 전략이 점점 더 중요해지고 있습니다. 최근 Mixture-of-Experts(MoE)와 같은 접근법은 선택적 활성화를 활용하지만 특수한 훈련이 필요하며, 훈련이 필요 없는 희소 활성화 방법은 플러그 앤 플레이 설계를 통해 더 넓은 적용 범위와 우수한 자원 효율성을 제공합니다. 그러나 기존의 많은 방법들은 활성화를 결정하기 위해 은닉 상태의 크기에만 의존하여 높은 근사 오차와 최적이 아닌 추론 정확도를 초래합니다. 이러한 한계를 해결하기 위해, 우리는 은닉 상태의 크기와 가중치 행렬의 열별 ell_2-노름을 함께 고려하는 새로운, 간단하며 훈련이 필요 없는 희소 활성화 프레임워크인 WINA(Weight Informed Neuron Activation)를 제안합니다. 우리는 이 접근법이 기존 기술보다 더 엄격한 이론적 보장을 통해 최적의 근사 오차 한계를 달성하는 희소화 전략으로 이어진다는 것을 보여줍니다. 실험적으로, WINA는 동일한 희소성 수준에서 다양한 LLM 아키텍처와 데이터셋에 걸쳐 최신 방법(예: TEAL)보다 최대 2.94% 더 높은 평균 성능을 보입니다. 이러한 결과는 WINA를 LLM 추론에서 훈련이 필요 없는 희소 활성화의 새로운 성능 최전선으로 위치시키며, 훈련이 필요 없는 희소 활성화 방법을 발전시키고 효율적인 추론을 위한 견고한 기준을 설정합니다. 소스 코드는 https://github.com/microsoft/wina에서 확인할 수 있습니다.
최근 자동 음성 인식(Automatic Speech Recognition, ASR) 분야의 발전은 대규모 음성 코퍼스에 크게 힘입어 이루어졌습니다. 그러나 제한된 자원으로 다양한 언어로의 확장은 여전히 큰 도전 과제로 남아 있습니다. 본 논문은 기존 텍스트-음성 변환(Text-to-Speech, TTS) 모델을 통해 대규모 텍스트 코퍼스를 합성 음성으로 변환함으로써 다국어 ASR 모델을 개선하는 확장 가능한 파이프라인인 Speech Back-Translation을 소개합니다. 우리는 실제로 기록된 수십 시간 분량의 음성만으로도 TTS 모델을 효과적으로 훈련시켜 원본 볼륨의 수백 배에 달하는 고품질의 합성 음성을 생성할 수 있음을 입증했습니다. 합성 음성의 품질을 평가하기 위해 명료도 기반 평가 프레임워크를 개발하고, 합성 데이터가 ASR 훈련에 도움이 되는 명확한 기준을 설정했습니다. Speech Back-Translation을 사용하여 10개 언어로 50만 시간 이상의 합성 음성을 생성하고, Whisper-large-v3 모델의 사전 훈련을 계속하여 평균 전사 오류를 30% 이상 감소시켰습니다. 이러한 결과는 다국어 ASR 시스템을 강화하는 데 있어 Speech Back-Translation의 확장성과 효과성을 강조합니다.
멀티모달 대형 언어 모델(MLLMs)은 다양한 작업에서 뛰어난 능력을 보여주었지만, 공간 추론 능력에서는 인간에 비해 상당히 뒤처져 있습니다. 우리는 다양한 시점에서 이미지 간 객체 변환을 식별해야 하는 어려운 작업인 변환 기반 시각 추론(TVR)을 통해 이러한 격차를 조사했습니다. 전통적인 지도 미세 조정(SFT)은 교차 시점 설정에서 일관된 추론 경로를 생성하지 못하는 반면, 희소 보상 강화 학습(RL)은 비효율적인 탐색과 느린 수렴으로 어려움을 겪습니다. 이러한 한계를 해결하기 위해, 우리는 TVR에 맞춤화된 세밀한 보상 메커니즘과 단일 단계 RL 패러다임을 통합한 새로운 프레임워크인 STAR-R1을 제안합니다. 구체적으로, STAR-R1은 부분적인 정확성을 보상하면서 과도한 열거와 수동적 무행동을 처벌하여 효율적인 탐색과 정확한 추론을 가능하게 합니다. 포괄적인 평가 결과, STAR-R1은 모든 11개 메트릭에서 최첨단 성능을 달성하며, 교차 시점 시나리오에서 SFT를 23% 능가하는 것으로 나타났습니다. 추가 분석은 STAR-R1의 인간 유사 행동을 보여주고, 공간 추론을 개선하기 위해 모든 객체를 비교하는 독특한 능력을 강조합니다. 우리의 연구는 MLLMs 및 추론 모델 연구를 발전시키는 데 중요한 통찰력을 제공합니다. 코드, 모델 가중치 및 데이터는 https://github.com/zongzhao23/STAR-R1에서 공개될 예정입니다.
마스크 확산 모델(Masked Diffusion Models, MDMs)인 LLaDA와 같은 모델들은 언어 모델링을 위한 유망한 패러다임을 제시하지만, 이러한 모델들을 강화 학습을 통해 인간의 선호도와 정렬시키려는 노력은 상대적으로 적었습니다. 이러한 문제는 주로 선호도 최적화에 필요한 Evidence Lower Bound(ELBO) 기반의 가능도 추정치에서 발생하는 높은 분산에서 비롯됩니다. 이 문제를 해결하기 위해, 우리는 분산 감소 선호도 최적화(Variance-Reduced Preference Optimization, VRPO) 프레임워크를 제안합니다. 이 프레임워크는 ELBO 추정기의 분산을 공식적으로 분석하고, 선호도 최적화 그래디언트의 편향과 분산에 대한 경계를 도출합니다. 이러한 이론적 기반을 바탕으로, 우리는 최적의 몬테카를로 예산 할당 및 반대 샘플링과 같은 편향 없는 분산 감소 전략을 도입하여 MDM 정렬의 성능을 크게 향상시킵니다. 우리는 VRPO를 LLaDA에 적용하여 그 효과를 입증했으며, 그 결과로 나온 LLaDA 1.5 모델은 수학(GSM8K +4.7), 코드(HumanEval +3.0, MBPP +1.8), 그리고 정렬 벤치마크(IFEval +4.0, Arena-Hard +4.3)에서 SFT-only 전임자를 일관되게 그리고 상당히 능가하는 성능을 보여줍니다. 더 나아가, LLaDA 1.5는 강력한 언어 MDM 및 ARM과 비교했을 때 매우 경쟁력 있는 수학적 성능을 보여줍니다. 프로젝트 페이지: https://ml-gsai.github.io/LLaDA-1.5-Demo/.
대형 언어 모델은 패턴 매칭에서 뛰어난 성능을 보이지만, 체계적인 조합적 일반화(compositional generalization)에서는 종종 부족함을 보입니다. 우리는 '커버리지 원칙(coverage principle)'을 제안합니다: 이는 데이터 중심 프레임워크로, 주로 패턴 매칭에 의존하는 모델들이 동일한 맥락에서 사용될 때 동일한 결과를 산출하는 조각들만을 대체하는 방식으로는 신뢰할 수 있는 일반화를 달성할 수 없음을 보여줍니다. 우리는 이 프레임워크가 트랜스포머(Transformers)의 일반화 능력을 강력하게 예측할 수 있음을 입증합니다. 첫째, 두 홉(two-hop) 일반화를 위해 필요한 훈련 데이터가 토큰 집합 크기에 최소한 이차적으로 증가하며, 20배의 매개변수 스케일링으로도 훈련 데이터 효율성이 개선되지 않음을 이론적으로 도출하고 실험적으로 확인합니다. 둘째, 하나의 변수가 여러 계산 경로를 통해 출력에 영향을 미치는 경로 모호성(path ambiguity)이 있는 조합적 작업에서, 트랜스포머는 성능과 상호 운용성을 모두 저해하는 맥락 의존적 상태 표현(context-dependent state representations)을 학습함을 보입니다. 셋째, 사고의 연쇄(Chain-of-Thought) 지도학습은 다중 홉(multi-hop) 작업의 훈련 데이터 효율성을 개선하지만 여전히 경로 모호성에 어려움을 겪습니다. 마지막으로, 우리는 신경망이 일반화할 수 있는 세 가지 방식을 구분하는 메커니즘 기반 분류 체계를 제시합니다: 구조 기반(커버리지에 의해 제한됨), 속성 기반(대수적 불변성을 활용함), 공유 연산자(함수 재사용을 통해). 이 개념적 렌즈는 우리의 결과를 맥락화하고 체계적인 조합성을 달성하기 위해 새로운 아키텍처 아이디어가 필요한 부분을 강조합니다. 전반적으로, 커버리지 원칙은 조합적 추론을 이해하기 위한 통합된 관점을 제공하며, 진정한 체계적인 조합성을 달성하기 위해서는 근본적인 아키텍처 혹은 훈련 방식의 혁신이 필요함을 강조합니다.
최신 멤버십 추론 공격(MIAs)은 일반적으로 많은 참조 모델을 학습해야 하기 때문에, 이러한 공격을 대규모 사전 학습된 언어 모델(LLMs)로 확장하는 것이 어렵습니다. 이로 인해 기존 연구는 참조 모델 학습을 피하는 약한 공격(예: 미세 조정 공격)에 의존하거나, 소규모 모델 및 데이터셋에 적용된 강력한 공격에 의존해 왔습니다. 그러나 약한 공격은 취약하여 거의 임의적인 성공을 거두는 것으로 나타났으며, 단순화된 설정에서의 강력한 공격으로부터 얻은 통찰력은 오늘날의 LLMs로 이전되지 않습니다. 이러한 도전 과제들은 중요한 질문을 제기했습니다: 기존 연구에서 관찰된 한계는 공격 설계 선택 때문인가, 아니면 MIAs가 근본적으로 LLMs에 효과적이지 않은 것인가? 우리는 이 질문에 답하기 위해 가장 강력한 MIAs 중 하나인 LiRA를 GPT-2 아키텍처(10M에서 1B 파라미터 범위)로 확장하고, C4 데이터셋에서 20B 이상의 토큰을 사용하여 참조 모델을 학습했습니다. 우리의 결과는 LLMs에 대한 MIAs의 이해를 세 가지 주요 방식으로 발전시켰습니다: (1) 강력한 MIAs는 사전 학습된 LLMs에서 성공할 수 있습니다; (2) 그러나 실제 설정에서 그 효과는 여전히 제한적입니다(예: AUC<0.7); 그리고 (3) MIA 성공과 관련된 프라이버시 메트릭 간의 관계는 기존 연구가 제안한 것만큼 간단하지 않습니다.
파운데이션 모델은 점점 더 우수한 자율 프로그래머로 발전하고 있으며, 이로 인해 위험한 공격적 사이버 작전도 자동화할 가능성이 높아지고 있다. 현재의 최첨단 모델 감사는 이러한 에이전트의 사이버 보안 위험을 탐구하지만, 대부분 실제 세계에서 적대자가 가질 수 있는 자유도를 고려하지 못하고 있다. 특히, 강력한 검증기와 금전적 인센티브가 주어지면 공격적 사이버 보안을 위한 에이전트는 잠재적 적대자에 의해 반복적으로 개선될 수 있다. 우리는 사이버 보안 맥락에서 확장된 위협 모델을 고려해야 한다고 주장하며, 고정된 컴퓨팅 예산 내에서 상태 유지 및 비상태 유지 환경에서 적대자가 가질 수 있는 다양한 자유도를 강조한다. 우리는 상대적으로 작은 컴퓨팅 예산(본 연구에서는 8 H100 GPU 시간)으로도 적대자가 외부 지원 없이 InterCode CTF에서 에이전트의 사이버 보안 능력을 기준치 대비 40% 이상 향상시킬 수 있음을 보여준다. 이러한 결과는 에이전트의 사이버 보안 위험을 동적인 방식으로 평가할 필요성을 강조하며, 더 대표적인 위험 그림을 그리는 것이 중요함을 시사한다.
전통적인 인간 피드백 강화 학습(RLHF)은 종종 보상 모델에 의존하며, 브래들리-테리(Bradley-Terry) 모델과 같은 선호 구조를 가정하는 경우가 많습니다. 그러나 이러한 모델은 실제 인간 선호의 복잡성(예: 비이행성)을 정확히 포착하지 못할 수 있습니다. 내쉬 인간 피드백 학습(NLHF)은 이러한 선호를 기반으로 정의된 게임의 내쉬 균형을 찾는 문제로 접근함으로써 더 직접적인 대안을 제공합니다. 본 연구에서는 내쉬 미러 프록스(Nash-MP)를 소개합니다. 이는 미러 프록스 최적화 기법을 활용하여 빠르고 안정적으로 내쉬 균형에 수렴하는 온라인 NLHF 알고리즘입니다. 우리의 이론적 분석은 Nash-MP가 베타 정규화된 내쉬 균형으로의 마지막 반복 선형 수렴을 보인다는 것을 입증합니다. 특히, 최적 정책과의 KL 발산이 (1+2베타)^{-N/2}의 속도로 감소함을 증명하며, 여기서 N은 선호 질의의 수입니다. 또한, 우리는 악용 가능성 격차와 로그 확률의 스팬 준노름에 대해 마지막 반복 선형 수렴을 보이며, 이러한 수렴 속도가 행동 공간의 크기에 독립적임을 입증합니다. 더 나아가, 우리는 근사 버전의 Nash-MP를 제안하고 분석합니다. 이 버전에서는 확률적 정책 그래디언트를 사용하여 근위 단계를 추정함으로써 알고리즘을 실제 응용에 더 가깝게 만듭니다. 마지막으로, 대규모 언어 모델을 미세 조정하기 위한 실용적인 구현 전략을 상세히 설명하고, 기존 방법과의 호환성과 경쟁력 있는 성능을 입증하는 실험 결과를 제시합니다.
강화 학습은 대규모 언어 모델의 추론 능력을 향상시키는 데 있어 잠재력을 보여주지만, 롤아웃 단계에서의 낮은 샘플 효율성으로 인해 확장하기가 어렵습니다. 기존 방법들은 문제의 난이도를 기반으로 문제를 스케줄링하여 효율성을 개선하려고 시도합니다. 그러나 이러한 접근 방식은 문제 난이도의 불안정하고 편향된 추정에 시달리며, 강화 학습 훈련에서 모델 역량과 문제 난이도 간의 정렬을 포착하지 못해 최적의 결과를 얻지 못합니다. 이러한 한계를 해결하기 위해, 본 논문은 Competence-Difficulty Alignment Sampling (CDAS)을 소개합니다. CDAS는 문제의 역사적 성능 차이를 집계하여 문제 난이도를 정확하고 안정적으로 추정할 수 있게 합니다. 그런 다음 모델 역량을 정량화하여 고정점 시스템을 사용하여 모델의 현재 역량과 일치하는 난이도의 문제를 적응적으로 선택합니다. 다양한 도전적인 수학 벤치마크에서의 실험 결과는 CDAS가 정확도와 효율성 모두에서 큰 개선을 달성함을 보여줍니다. CDAS는 기준선 대비 가장 높은 평균 정확도를 달성했으며, DAPO에서 경쟁력 있는 전략인 Dynamic Sampling에 비해 2.33배 빠른 속도 이점을 보여줍니다.
복잡한 자연어 작업에서 추론 모델의 성공이 증가함에 따라, 정보 검색(IR) 커뮤니티의 연구자들은 대규모 언어 모델(LLM) 기반의 문서 재순위 모델에 유사한 추론 능력을 통합하는 방법을 탐구하기 시작했습니다. 이러한 방법들은 일반적으로 LLM을 사용하여 최종 관련성 예측에 도달하기 전에 명시적이고 단계별 추론 과정을 생성합니다. 그러나 추론이 실제로 재순위 정확도를 향상시키는가? 본 논문에서는 이 질문에 대해 더 깊이 파고들어, 동일한 학습 조건 하에서 추론 기반 점별 재순위 모델(ReasonRR)과 표준 비추론 점별 재순위 모델(StandardRR)을 비교하여 추론 과정의 영향을 연구했습니다. 그 결과, StandardRR이 일반적으로 ReasonRR을 능가하는 것을 관찰했습니다. 이 관찰을 바탕으로, 우리는 ReasonRR의 추론 과정을 비활성화하여(ReasonRR-NoReason) 추론의 중요성을 연구했고, 놀랍게도 ReasonRR-NoReason이 ReasonRR보다 더 효과적이라는 사실을 발견했습니다. 이 결과의 원인을 조사한 결과, 추론 기반 재순위 모델은 LLM의 추론 과정에 의해 제한되어 극단적인 관련성 점수로 치우치게 되고, 이로 인해 문서의 부분적 관련성을 고려하지 못하게 되어 점별 재순위 모델의 정확성에 중요한 요소를 놓치게 된다는 사실을 밝혀냈습니다.
희소 오토인코더(SAE)는 신경망 활성화를 해석 가능한 특징으로 분해하기 위해 메커니즘 해석성(MI) 분야에서 널리 사용되는 도구입니다. 그러나 표준적인 특징 집합을 식별하려는 목표는 서로 다른 학습 실행에서 학습된 SAE 특징의 불일치로 인해 도전받고 있으며, 이는 MI 연구의 신뢰성과 효율성을 저해하고 있습니다. 본 포지션 논문은 메커니즘 해석성이 SAE의 특징 일관성, 즉 독립적인 실행 간에 동등한 특징 집합으로의 신뢰할 수 있는 수렴을 우선시해야 한다고 주장합니다. 우리는 일관성을 측정하기 위한 실용적인 지표로 쌍별 사전 평균 상관 계수(PW-MCC)를 제안하고, 적절한 아키텍처 선택을 통해 높은 수준의 일관성(LLM 활성화에 대한 TopK SAE의 경우 0.80)을 달성할 수 있음을 보여줍니다. 우리의 기여는 일관성 우선의 이점을 상세히 설명하고, 모델 생물체를 사용한 이론적 근거와 합성 검증을 제공하여 PW-MCC가 실제 복구의 신뢰할 수 있는 대리 지표임을 확인하며, 이러한 결과를 실제 LLM 데이터로 확장하여 높은 특징 일관성이 학습된 특징 설명의 의미론적 유사성과 강하게 상관관계가 있음을 보여줍니다. 우리는 MI 분야에서 견고한 누적적 진전을 촉진하기 위해 커뮤니티 전체가 특징 일관성을 체계적으로 측정하는 방향으로 전환할 것을 촉구합니다.
대형 언어 모델(LLMs)은 생물의학 질문 응답 분야에서 뛰어난 능력을 보여주었지만, 실제 임상 상담에의 적용은 여전히 핵심적인 도전 과제에 직면해 있습니다. 기존 시스템은 환자가 한 번에 모든 증상을 완전히 설명해야 하는 일방향 정보 전달 모드에 의존하고 있어, 불분명한 증상 호소 시 비특이적인 진단 권고로 이어지는 문제가 있습니다. 전통적인 지도 학습 기반의 다중 턴 대화 방식은 정적인 데이터 중심 패러다임에 제약을 받아 일반화 능력이 부족하고, 핵심 임상 정보를 지능적으로 추출하는 데 어려움을 겪습니다. 이러한 한계를 해결하기 위해, 우리는 DoctorAgent-RL을 제안합니다. 이는 강화 학습(RL) 기반의 다중 에이전트 협업 프레임워크로, 의료 상담을 불확실성 하의 동적 의사결정 과정으로 모델링합니다. 의사 에이전트는 환자 에이전트와의 다중 턴 상호작용을 통해 RL 프레임워크 내에서 질문 전략을 지속적으로 최적화하며, 상담 평가자(Consultation Evaluator)의 종합적 보상에 기반해 정보 수집 경로를 동적으로 조정합니다. 이 RL 미세 조정 메커니즘은 LLMs가 기존 대화 데이터의 패턴을 표면적으로 모방하는 대신, 임상 추론 논리에 부합하는 상호작용 전략을 자율적으로 개발할 수 있게 합니다. 특히, 우리는 환자 상호작용을 시뮬레이션할 수 있는 최초의 영어 다중 턴 의료 상담 데이터셋인 MTMedDialog를 구축했습니다. 실험 결과, DoctorAgent-RL은 다중 턴 추론 능력과 최종 진단 성능 모두에서 기존 모델들을 능가하며, 임상 상담 지원에 있어 실용적 가치를 입증했습니다. https://github.com/JarvisUSTC/DoctorAgent-RL
대규모 언어 모델(LLMs)의 최근 발전은 자기회귀적 추론의 유망한 대안으로 잠재적 추론을 도입했습니다. 이전 단계의 숨겨진 상태를 활용하여 내부 계산을 수행함으로써, 잠재적 추론은 이산적인 사고의 연쇄(CoT) 경로를 샘플링하는 대신 더 많은 정보를 제공하는 특징을 활용할 수 있습니다. 그러나 잠재적 추론 접근법은 종종 LLMs와 호환되지 않는데, 이는 연속적인 패러다임이 자기회귀적 생성의 이산적 특성과 충돌하기 때문입니다. 더욱이, 이러한 방법들은 학습을 위해 CoT 흔적에 의존하므로 LLMs의 내재적 추론 패턴을 충분히 활용하지 못합니다. 본 연구에서는 강화 학습(RL)을 통해 LLMs의 내재적 능력을 활용하여 잠재적 추론을 탐구합니다. 이를 위해, 우리는 하이브리드 추론 정책 최적화(HRPO)를 소개합니다. HRPO는 (1) 학습 가능한 게이트 메커니즘을 통해 이전의 숨겨진 상태를 샘플링된 토큰에 통합하고, (2) 주로 토큰 임베딩으로 학습을 초기화하면서 점점 더 많은 숨겨진 특징을 통합하는 RL 기반의 하이브리드 잠재적 추론 접근법입니다. 이 설계는 LLMs의 생성 능력을 유지하면서 이산적 및 연속적 표현을 모두 사용하는 하이브리드 추론을 장려합니다. 또한, 하이브리드 HRPO는 토큰 샘플링을 통해 잠재적 추론에 확률적 요소를 도입함으로써 CoT 궤적 없이도 RL 기반 최적화를 가능하게 합니다. 다양한 벤치마크에 대한 광범위한 평가 결과, HRPO는 지식 집약적 및 추론 집약적 작업 모두에서 기존 방법들을 능가하는 것으로 나타났습니다. 더불어, HRPO로 학습된 LLMs는 해석 가능성을 유지하며 교차 언어 패턴 및 더 짧은 완성 길이와 같은 흥미로운 행동을 보여주어, 우리의 RL 기반 접근법의 잠재력을 강조하고 잠재적 추론에 대한 향후 연구를 위한 통찰을 제공합니다.
복잡하고 알려지지 않은 환경에서 일반화 가능한 능동적 매핑은 이동 로봇에게 여전히 중요한 과제로 남아 있다. 기존 방법들은 불충분한 훈련 데이터와 보수적인 탐색 전략으로 인해 다양한 레이아웃과 복잡한 연결성을 가진 장면들 간의 일반화 가능성이 제한적이다. 확장 가능한 훈련과 신뢰할 수 있는 평가를 가능하게 하기 위해, 우리는 합성 및 실제 스캔 데이터셋에서 추출한 1,152개의 다양한 3D 장면으로 구성된 일반화 가능한 능동적 매핑을 위한 첫 번째 대규모 벤치마크인 GLEAM-Bench를 소개한다. 이를 기반으로, 우리는 능동적 매핑을 위한 통합된 일반화 가능한 탐색 정책인 GLEAM을 제안한다. 이 정책의 우수한 일반화 가능성은 주로 의미론적 표현, 장기적인 탐색 가능 목표, 그리고 무작위화된 전략에서 비롯된다. GLEAM은 최신 기술을 크게 능가하며, 128개의 보이지 않는 복잡한 장면에서 효율적인 궤적과 향상된 매핑 정확도로 66.50%의 커버리지(+9.49%)를 달성한다. 프로젝트 페이지: https://xiao-chen.tech/gleam/.
대규모 언어 모델(LLM)은 일반적으로 유해한 지시를 거부함으로써 안전 가이드라인을 준수하도록 조정됩니다. 최근 등장한 'abliteration' 공격은 거부 행동에 가장 큰 영향을 미치는 단일 잠재 방향을 분리하고 억제하여 모델이 비윤리적인 콘텐츠를 생성하도록 만듭니다. 본 연구에서는 모델이 거부를 생성하는 방식을 수정하는 방어 기법을 제안합니다. 우리는 유해한 프롬프트와 이를 거부하는 이유를 설명하는 완전한 응답을 포함하는 확장된 거부 데이터셋을 구축했습니다. 이후 Llama-2-7B-Chat과 Qwen2.5-Instruct(1.5B 및 3B 파라미터)를 이 확장된 거부 데이터셋으로 미세 조정하고, 결과 시스템을 유해 프롬프트 세트에서 평가했습니다. 실험 결과, 확장된 거부 모델은 최대 10%까지 거부율이 감소하는 반면, 기준 모델은 abliteration 이후 70-80%까지 거부율이 하락했습니다. 안전성과 유용성에 대한 광범위한 평가를 통해, 확장된 거부 미세 조정이 abliteration 공격을 무력화하면서도 일반적인 성능을 유지함을 확인했습니다.
강화 학습(Reinforcement Learning, RL)은 이진 검증 신호를 통해 자기 개선을 가능하게 함으로써 최근 대형 언어 모델(LLM)의 수학 능력 향상에 핵심적인 역할을 해왔습니다. 반면, 지도 학습(Supervised Learning, SL)은 참조 답안에 대한 과도한 의존성과 실패를 반영하지 못하는 한계로 인해 이러한 검증 기반 훈련에서는 거의 고려되지 않았습니다. 본 연구에서는 자기 개선이 RL에만 국한된다는 기존의 통념에 도전하고, 외부 교사 없이도 LLM이 실패를 반영하고 자율적으로 개선할 수 있도록 하는 지도 학습 기반의 접근법인 '부정 인식 미세 조정(Negative-aware Fine-Tuning, NFT)'을 제안합니다. 온라인 훈련에서 NFT는 자체 생성된 부정적인 답변을 버리지 않고, 이를 모델링하기 위한 암묵적 부정 정책을 구성합니다. 이 암묵적 정책은 긍정적 데이터에 최적화하고자 하는 동일한 긍정적 LLM으로 매개변수화되어, 모든 LLM 생성물에 대한 직접적인 정책 최적화를 가능하게 합니다. 우리는 7B 및 32B 모델을 대상으로 수학 추론 과제에서 실험을 수행했습니다. 결과는 부정적 피드백을 추가적으로 활용함으로써 NFT가 거부 샘플링 미세 조정(Rejection sampling Fine-Tuning)과 같은 SL 기준선을 크게 능가하며, GRPO 및 DAPO와 같은 선도적인 RL 알고리즘과 동등하거나 오히려 뛰어난 성능을 보임을 일관되게 보여줍니다. 더 나아가, NFT와 GRPO가 완전히 다른 이론적 기반에서 출발했음에도 불구하고 엄격한 온-정책 훈련에서 실제로 동등함을 입증합니다. 우리의 실험과 이론적 발견은 이진 피드백 학습 시스템에서 SL과 RL 방법 간의 간극을 메우는 데 기여합니다.
대규모 언어 모델(LLMs)은 특히 수학 문제 해결과 같은 다중 단계 추론이 필요한 작업에서 환각(hallucination) 현상이 발생하기 쉽습니다. 결과 보상 모델(Outcome Reward Models)은 최종 답변만을 검증하는 반면, 과정 보상 모델(Process Reward Models, PRMs)은 각 중간 단계를 평가하여 일관된 해결책으로의 생성을 유도합니다. 본 연구에서는 PathFinder-PRM이라는 새로운 계층적 오류 인식 판별형 PRM을 소개합니다. 이 모델은 먼저 각 단계에서 수학적 오류와 일관성 오류를 분류한 후, 이러한 세분화된 신호를 결합하여 단계별 정확성을 추정합니다. PathFinder-PRM을 학습시키기 위해, 우리는 인간 주석이 달린 PRM800K 코퍼스와 RLHFlow Mistral 트레이스를 3차원 단계별 레이블로 확장하여 400K 샘플 데이터셋을 구축했습니다. PRMBench에서 PathFinder-PRM은 67.7의 새로운 최고 PRMScore를 달성하며, 이전 최고 기록(65.5)을 능가하면서도 3배 적은 데이터를 사용했습니다. 보상 기반 탐욕적 탐색(reward guided greedy search)에 적용했을 때, 우리의 모델은 prm@8 48.3을 기록하여 가장 강력한 베이스라인 대비 +1.5 포인트의 향상을 보였습니다. 이러한 결과는 분리된 오류 탐지와 보상 추정이 세분화된 오류 탐지를 강화할 뿐만 아니라, 데이터 효율성을 높이면서도 종단 간 보안 기반 수학적 추론을 크게 개선할 수 있음을 보여줍니다.
약 10년 동안 학계는 주로 모델 예측을 조작하는 적대적 공격에 초점을 맞춘 신경망 백도어를 연구해 왔습니다. 이러한 예측 변경 공격이 명백히 악의적임에도 불구하고, 실제 세계에서의 즉각적인 영향은 여전히 불분명했습니다. 본 논문에서는 최근의 아키텍처 백도어 발전을 기반으로 한 새로운, 그리고 훨씬 더 강력한 백도어 클래스를 소개합니다. 우리는 이러한 백도어가 하드웨어 활용을 위한 일반적인 기술인 배치 추론을 악용하도록 특별히 설계될 수 있음을 보여줍니다. 이를 통해 대규모 사용자 데이터 조작 및 도용이 가능해집니다. 배치 프로세스를 표적으로 함으로써, 이러한 아키텍처 백도어는 동시 사용자 요청 간의 정보 유출을 용이하게 하고, 공격자가 동일한 배치 내 다른 사용자에게 전달되는 모델 응답을 완전히 제어할 수 있게 합니다. 즉, 모델 아키텍처를 변경할 수 있는 공격자는 동일한 배치 내 다른 사용자의 모델 입력과 출력을 설정하고 도용할 수 있습니다. 우리는 이러한 공격이 실행 가능할 뿐만 아니라 놀라울 정도로 효과적이며, 널리 사용되는 모델 아키텍처에 쉽게 주입될 수 있고, 사용자 프라이버시와 시스템 무결성에 진정한 악의적 위협이 됨을 보여줍니다. 무엇보다도, 이러한 새로운 취약점 클래스에 대응하기 위해, 우리는 이전 연구와 달리 대형 언어 모델에 의존하지 않고 이 새로운 공격 벡터에 대해 공식적인 보장을 제공하는 결정론적 완화 전략을 제안합니다. 우리의 완화 전략은 모델 그래프를 분석하고 동일한 배치 내 다른 사용자 입력 간의 비간섭을 증명하는 새로운 정보 흐름 제어 메커니즘을 사용합니다. 이 완화 전략을 사용하여 Hugging Face를 통해 호스팅된 모델을 대규모로 분석한 결과, 동적 양자화 사용으로 인해 배치 항목 간의 (의도치 않은) 정보 유출을 초래하는 200개 이상의 모델을 발견했습니다.
사후 훈련(Post-training)은 대규모 언어 모델(LLMs)의 추론 능력을 향상시키는 데 있어 그 중요성이 입증되어 왔다. 주요 사후 훈련 방법은 지도 미세 조정(Supervised Fine-Tuning, SFT)과 강화 미세 조정(Reinforcement Fine-Tuning, RFT)으로 분류할 수 있다. SFT는 효율적이며 소규모 언어 모델에 적합하지만, 과적합을 유발하고 더 큰 모델의 추론 능력을 제한할 수 있다. 반면, RFT는 일반적으로 더 나은 일반화를 이끌어내지만 기본 모델의 강도에 크게 의존한다. SFT와 RFT의 한계를 해결하기 위해, 우리는 SFT와 RFT를 단일 통합 프로세스로 결합한 새로운 사후 훈련 패러다임인 통합 미세 조정(Unified Fine-Tuning, UFT)을 제안한다. UFT는 모델이 정보성 있는 지도 신호를 통합하면서도 효과적으로 해결책을 탐색할 수 있게 하여, 기존 방법의 암기와 사고 간의 간극을 메운다. 특히, UFT는 모델 크기에 관계없이 일반적으로 SFT와 RFT를 능가한다. 더 나아가, 우리는 이론적으로 UFT가 RFT의 고유한 지수적 샘플 복잡도 병목 현상을 극복함을 증명하며, 통합 훈련이 장기적 추론 작업에서 수렴을 지수적으로 가속시킬 수 있음을 처음으로 보여준다.
대형 언어 모델(LLMs)은 탐색 알고리즘을 통해 복잡한 추론에서 뛰어난 성능을 보이지만, 현재의 전략은 의미적으로 동등한 단계의 중복 탐색으로 인해 토큰 소비가 과도한 문제가 자주 발생합니다. 기존의 의미적 유사성 방법은 수학적 추론과 같은 도메인 특정적 맥락에서 이러한 동등성을 정확히 식별하는 데 어려움을 겪습니다. 이를 해결하기 위해, 우리는 LLM 추론 탐색 중에 의미적으로 동등한 행동을 식별하고 제거하는 간단하면서도 효과적인 접근법인 EquivPruner를 제안합니다. 또한, 우리는 수학적 문장 동등성을 위한 첫 번째 데이터셋인 MathEquiv를 소개하며, 이를 통해 경량화된 동등성 탐지기를 학습할 수 있습니다. 다양한 모델과 작업에 걸친 광범위한 실험을 통해 EquivPruner가 토큰 소비를 크게 줄이고 탐색 효율성을 향상시키며 종종 추론 정확도를 높이는 것을 입증했습니다. 예를 들어, GSM8K에서 Qwen2.5-Math-7B-Instruct에 적용했을 때, EquivPruner는 토큰 소비를 48.1% 줄이는 동시에 정확도를 향상시켰습니다. 우리의 코드는 https://github.com/Lolo1222/EquivPruner에서 확인할 수 있습니다.
MAR, FlowAR, xAR, Harmon과 같은 점점 더 많은 자기회귀 모델들이 이미지 생성 품질을 향상시키기 위해 확산 샘플링을 채택하고 있습니다. 그러나 이 전략은 일반적으로 토큰을 샘플링하기 위해 50~100단계의 확산 과정이 필요하므로 추론 효율성이 낮아지는 문제를 야기합니다. 본 논문은 이 문제를 효과적으로 해결하는 방법을 탐구합니다. 우리의 핵심 동기는 자기회귀 과정에서 더 많은 토큰이 생성될수록, 후속 토큰들은 더 제한된 분포를 따르고 샘플링이 더 쉬워진다는 점입니다. 직관적으로 설명하자면, 모델이 개의 일부를 생성했다면 나머지 토큰들은 개를 완성해야 하므로 더 제한적일 수밖에 없습니다. 실험적 증거는 우리의 동기를 뒷받침합니다: 생성 후반 단계에서는 다음 토큰이 다층 퍼셉트론으로 잘 예측될 수 있으며, 낮은 분산을 보이고, 노이즈에서 토큰으로의 잡음 제거 경로가 직선에 가까워집니다. 이러한 발견을 바탕으로 우리는 확산 단계 어닐링(DiSA)을 제안합니다. DiSA는 학습이 필요 없는 방법으로, 더 많은 토큰이 생성될수록 점점 더 적은 확산 단계를 사용합니다(예: 초기에는 50단계를 사용하고 후반으로 갈수록 5단계로 점진적으로 감소). DiSA는 자기회귀 모델에서의 확산에 특화된 우리의 발견에서 도출되었기 때문에, 확산만을 위한 기존 가속화 방법들과 상호 보완적입니다. DiSA는 기존 모델에 단 몇 줄의 코드로 구현할 수 있으며, 간단함에도 불구하고 MAR와 Harmon에서는 5~10배, FlowAR와 xAR에서는 1.4~2.5배 빠른 추론 속도를 달성하면서도 생성 품질을 유지합니다.
불확실성 정량화는 현대 AI 시스템의 신뢰성과 신뢰성을 평가하는 데 필수적입니다. 기존 접근법 중에서, 모델이 자연어를 통해 자신의 확신을 표현하는 언어화된 불확실성(verbalized uncertainty)은 대형 언어 모델(LLMs)에서 경량화되고 해석 가능한 솔루션으로 부상했습니다. 그러나 비전-언어 모델(VLMs)에서의 효과는 아직 충분히 연구되지 않았습니다. 본 연구에서는 세 가지 모델 범주, 네 가지 작업 영역, 그리고 세 가지 평가 시나리오에 걸쳐 VLMs의 언어화된 신뢰도를 포괄적으로 평가합니다. 우리의 결과는 현재의 VLMs이 다양한 작업과 설정에서 주목할 만한 오차 보정(miscalibration)을 보인다는 것을 보여줍니다. 특히, 시각 추론 모델(즉, 이미지를 통해 사고하는 모델)은 일관적으로 더 나은 보정을 보여주며, 이는 신뢰할 수 있는 불확실성 추정을 위해 모달리티 특정적 추론이 중요함을 시사합니다. 보정 문제를 더욱 해결하기 위해, 우리는 다중모달 설정에서 신뢰도 정렬을 개선하는 두 단계 프롬프트 전략인 시각적 신뢰도 인식 프롬프팅(Visual Confidence-Aware Prompting)을 소개합니다. 전반적으로, 우리의 연구는 VLMs에서 모달리티 간에 내재된 오차 보정을 강조합니다. 더 넓게 보면, 우리의 발견은 신뢰할 수 있는 다중모달 시스템을 발전시키기 위해 모달리티 정렬과 모델의 신뢰성이 근본적으로 중요함을 강조합니다.
최근 Gemini-1.5, DeepSeek-V3, Llama-4와 같은 대규모 언어 모델들은 Mixture-of-Experts(MoE) 아키텍처를 점점 더 많이 채택하고 있으며, 이는 토큰당 모델의 일부만 활성화함으로써 강력한 효율성-성능 균형을 제공한다. 그러나 학계 연구자들은 여전히 스케일링, 라우팅, 전문가 행동을 연구하기 위한 완전히 개방된 종단 간 MoE 플랫폼이 부족한 상황이다. 우리는 FLAME-MoE를 공개하였는데, 이는 38M에서 1.7B의 활성 매개변수를 가진 7개의 디코더 전용 모델로 구성된 완전 오픈소스 연구 도구이다. 이 아키텍처는 64명의 전문가와 상위 8개 게이팅 및 2개의 공유 전문가로 구성되어 현대의 생산용 LLM을 충실히 반영한다. 모든 학습 데이터 파이프라인, 스크립트, 로그 및 체크포인트는 재현 가능한 실험을 위해 공개되어 있다. 6개의 평가 작업에서 FLAME-MoE는 동일한 FLOPs로 학습된 밀집 기준선보다 평균 정확도를 최대 3.4포인트 향상시켰다. 전체 학습 추적 투명성을 활용하여, 우리는 (i) 전문가들이 점점 더 구별되는 토큰 하위 집합에 특화되고, (ii) 공동 활성화 행렬이 희소하게 유지되며 다양한 전문가 사용을 반영하고, (iii) 라우팅 행동이 학습 초기에 안정화된다는 초기 분석을 제시한다. 모든 코드, 학습 로그 및 모델 체크포인트는 https://github.com/cmu-flame/FLAME-MoE에서 확인할 수 있다.
최근 GPT-4o, Gemini 2.0 Flash, Gemini 2.5 Pro와 같은 다중 모달 이미지 생성기는 복잡한 지시를 따르고, 이미지를 편집하며, 개념 일관성을 유지하는 데 뛰어난 성능을 보여주고 있다. 그러나 이러한 모델들은 여전히 분리된 도구로 평가되고 있다: 다중 모달 조건을 고려하지 않는 텍스트-이미지(T2I) 벤치마크와 구성적 의미와 일반 지식을 간과한 맞춤형 이미지 생성 벤치마크가 그것이다. 우리는 이러한 작업을 통합하기 위해 MMIG-Bench라는 포괄적인 다중 모달 이미지 생성 벤치마크를 제안한다. 이 벤치마크는 인간, 동물, 물체, 예술 스타일 등 380개의 주제에 걸쳐 4,850개의 풍부하게 주석이 달린 텍스트 프롬프트와 1,750개의 다중 뷰 참조 이미지를 짝지어 제공한다. MMIG-Bench는 세 단계의 평가 프레임워크를 갖추고 있다: (1) 시각적 결함과 객체의 정체성 보존을 위한 저수준 메트릭; (2) 세밀한 프롬프트-이미지 정렬을 제공하고 인간 판단과 강한 상관관계를 보이는 VQA 기반의 중간 수준 메트릭인 새로운 Aspect Matching Score(AMS); 그리고 (3) 미학과 인간 선호도를 위한 고수준 메트릭. MMIG-Bench를 사용하여 우리는 Gemini 2.5 Pro, FLUX, DreamBooth, IP-Adapter를 포함한 17개의 최신 모델을 벤치마크하고, 32,000개의 인간 평가를 통해 우리의 메트릭을 검증하여 아키텍처와 데이터 설계에 대한 깊은 통찰을 얻었다. 우리는 데이터셋과 평가 코드를 공개하여 엄격하고 통합된 평가를 촉진하고, 다중 모달 이미지 생성의 미래 혁신을 가속화할 것이다.
현재의 대규모 언어 모델(LLM)은 함축 해결(Sravanthi 등, 2024)과 마음이론 추론(Shapira 등, 2024)을 포함한 사회적 지능 과제에서 새로운 능력을 보여주고 있으며, 이 두 가지 모두 상당한 화용적 이해를 필요로 합니다. 그러나 LLM이 훈련 과정에서 이러한 능력을 어떻게 습득하는지는 여전히 잘 이해되지 않고 있습니다. 본 연구에서는 대안이라는 화용적 개념에 기반을 둔 ALTPRAG 데이터셋을 소개하여, 다양한 훈련 단계에 있는 LLM이 미묘한 화자의 의도를 정확히 추론할 수 있는지 평가합니다. 각 사례는 맥락상 적절하지만 화용적으로 구별되는 두 가지 후속 문장을 짝지어, 화용적 해석과 대조적 추론에 대한 세밀한 평가를 가능하게 합니다. 우리는 주요 훈련 단계인 사전 훈련, 지도 미세 조정(SFT), 그리고 선호 최적화에 걸쳐 22개의 LLM을 체계적으로 평가하여 화용적 능력의 발달을 조사했습니다. 연구 결과에 따르면, 기본 모델조차도 화용적 단서에 대한 뚜렷한 민감성을 보이며, 이는 모델과 데이터 규모의 증가에 따라 지속적으로 개선됩니다. 또한, SFT와 RLHF는 특히 인지-화용적 추론에서 추가적인 향상을 가져옵니다. 이러한 발견들은 화용적 능력이 LLM 훈련의 창발적이고 구성적인 속성임을 강조하며, 모델을 인간의 의사소통 규범에 맞추는 데 새로운 통찰을 제공합니다.
대규모 멀티모달 기반 모델, 특히 언어 및 비전 분야에서의 모델은 로보틱스, 자율 주행, 정보 검색, 그리고 그라운딩 등 다양한 작업에서 상당한 진전을 이루었습니다. 그러나 이러한 모델 중 많은 수가 객체를 나눌 수 없는 단위로 인식하여, 그 객체를 구성하는 구성 요소들을 간과하는 경향이 있습니다. 이러한 구성 요소들과 그에 연관된 어포던스(affordance)를 이해하는 것은 객체의 기능성을 파악하는 데 있어 중요한 통찰을 제공하며, 이는 다양한 작업을 수행하는 데 기본이 됩니다. 본 연구에서는 일상적인 맥락에서 부위 수준의 작업을 이해하고 실행하는 데 있어 현재 모델들의 성능을 평가하기 위해, 수작업으로 레이블이 지정된 부위 분할 주석과 작업 지향적 지침으로 구성된 새로운 실세계 벤치마크인 InstructPart를 소개합니다. 우리의 실험을 통해 작업 지향적 부위 분할이 최첨단 비전-언어 모델(VLMs)에게도 여전히 어려운 문제임을 입증했습니다. 또한, 우리의 벤치마크와 함께, 우리의 데이터셋을 활용한 미세 조정을 통해 성능을 두 배로 향상시킨 간단한 베이스라인을 제시합니다. 우리의 데이터셋과 벤치마크를 통해, 작업 지향적 부위 분할 연구를 촉진하고, 로보틱스, 가상 현실, 정보 검색 및 기타 관련 분야에서 VLMs의 적용 가능성을 높이고자 합니다. 프로젝트 웹사이트: https://zifuwan.github.io/InstructPart/.
최근 Chain-of-Thought 프롬프팅과 같은 발전은 대형 언어 모델(LLMs)의 제로샷 의료 추론 능력을 크게 향상시켰습니다. 그러나 프롬프팅 기반 방법은 여전히 피상적이고 불안정한 반면, 미세 조정된 의료 LLMs는 분포 변화에서의 일반화 능력이 떨어지고 보이지 않는 임상 시나리오에 대한 적응성이 제한적입니다. 이러한 한계를 해결하기 위해, 우리는 TAGS를 제안합니다. TAGS는 모델 미세 조정이나 매개변수 업데이트 없이도 일반적인 능력을 가진 범용 모델과 도메인 특화 전문가를 결합하여 상호 보완적인 관점을 제공하는 테스트 시점 프레임워크입니다. 이 일반가-전문가 추론 과정을 지원하기 위해, 우리는 두 가지 보조 모듈을 도입했습니다: 첫째, 의미적 및 근거 수준 유사성을 기반으로 예제를 선택하여 다중 규모의 예시를 제공하는 계층적 검색 메커니즘, 둘째, 최종 답변 집계를 안내하기 위해 추론 일관성을 평가하는 신뢰도 평가기입니다. TAGS는 9개의 MedQA 벤치마크에서 강력한 성능을 보이며, GPT-4o의 정확도를 13.8%, DeepSeek-R1의 정확도를 16.8% 향상시키고, 기본 7B 모델의 정확도를 14.1%에서 23.9%로 개선했습니다. 이러한 결과는 여러 미세 조정된 의료 LLMs를 능가하며, 매개변수 업데이트 없이 달성되었습니다. 코드는 https://github.com/JianghaoWu/TAGS에서 확인할 수 있습니다.
대규모 오디오-언어 모델(LALMs)의 발전으로, 대규모 언어 모델(LLMs)에 청각 능력을 강화한 이러한 모델들은 다양한 청각 작업에서 보편적인 숙련도를 보일 것으로 기대된다. LALMs의 성능을 평가하기 위해 수많은 벤치마크가 등장했지만, 이들은 여전히 단편적이며 체계적인 분류 체계가 부족하다. 이러한 격차를 해소하기 위해, 우리는 포괄적인 조사를 수행하고 LALM 평가를 위한 체계적인 분류 체계를 제안하며, 이를 목적에 따라 네 가지 차원으로 분류한다: (1) 일반 청각 인식 및 처리, (2) 지식 및 추론, (3) 대화 지향 능력, (4) 공정성, 안전성 및 신뢰성. 각 범주 내에서 상세한 개요를 제공하고 이 분야의 도전 과제를 강조하며, 미래의 유망한 방향에 대한 통찰을 제공한다. 우리가 아는 한, 이는 LALMs의 평가에 초점을 맞춘 첫 번째 조사로, 커뮤니티를 위한 명확한 지침을 제공한다. 우리는 조사된 논문의 컬렉션을 공개하고, 이 분야의 지속적인 발전을 지원하기 위해 적극적으로 유지할 것이다.
범용 로봇 기술의 최근 발전에도 불구하고, 로봇 정책은 여전히 현실 세계에서 인간의 기본 능력에 크게 뒤처져 있다. 인간은 끊임없이 물리적 세계와 상호작용하지만, 이러한 풍부한 데이터 자원은 로봇 학습에서 크게 활용되지 않고 있다. 우리는 Project Aria 스마트 안경으로 캡처한 인간 시연 데이터와 로봇 데이터 없이도 강력한 조작 정책을 학습하는 최소 시스템인 EgoZero를 제안한다. EgoZero는 (1) 야생 환경에서의 인간 시연 데이터로부터 완전한 로봇 실행 가능한 동작을 추출하고, (2) 인간의 시각 관찰을 형태학에 구애받지 않는 상태 표현으로 압축하며, (3) 형태학적, 공간적, 의미적으로 일반화 가능한 폐루프 정책 학습을 가능하게 한다. 우리는 EgoZero 정책을 그리퍼 Franka Panda 로봇에 배포하고, 7가지 조작 작업에서 70%의 성공률과 작업당 20분의 데이터 수집만으로 제로샷 전이를 입증했다. 우리의 결과는 야생 환경에서의 인간 데이터가 현실 세계 로봇 학습을 위한 확장 가능한 기반으로 활용될 수 있음을 시사하며, 로봇을 위한 풍부하고 다양하며 자연스러운 훈련 데이터의 미래를 열어갈 수 있음을 보여준다. 코드와 비디오는 https://egozero-robot.github.io에서 확인할 수 있다.
메타데이터 추출은 데이터셋의 분류 및 보존에 필수적이며, 특히 현재 과학 연구의 기하급수적 성장을 고려할 때 효과적인 연구 발견과 재현성을 가능하게 합니다. Masader(Alyafeai et al., 2021)는 아랍어 NLP 데이터셋의 학술 논문에서 다양한 메타데이터 속성을 추출하기 위한 기반을 마련했지만, 이는 수동 주석에 크게 의존합니다. 본 논문에서는 대규모 언어 모델(LLMs)을 활용하여 아랍어 이외의 언어 데이터셋을 다루는 과학 논문에서 메타데이터 속성을 자동으로 추출하는 MOLE 프레임워크를 소개합니다. 우리의 스키마 기반 방법론은 여러 입력 형식의 전체 문서를 처리하고 일관된 출력을 위한 강력한 검증 메커니즘을 통합합니다. 또한, 이 작업에 대한 연구 진행 상황을 평가하기 위한 새로운 벤치마크를 도입합니다. 컨텍스트 길이, 퓨샷 학습, 웹 브라우징 통합에 대한 체계적인 분석을 통해 현대의 LLMs가 이 작업을 자동화하는 데 유망한 결과를 보여주며, 일관적이고 신뢰할 수 있는 성능을 보장하기 위해 향후 추가 개선 작업이 필요함을 강조합니다. 우리는 연구 커뮤니티를 위해 코드(https://github.com/IVUL-KAUST/MOLE)와 데이터셋(https://huggingface.co/datasets/IVUL-KAUST/MOLE)을 공개합니다.
본 논문은 대규모 언어 모델(LLM) 내에서 해석 가능한 범주적 특성의 출현을 연구하며, 이를 학습 체크포인트(시간), 트랜스포머 계층(공간), 다양한 모델 크기(규모)에 걸쳐 분석합니다. 기계적 해석 가능성을 위한 희소 오토인코더를 사용하여, 신경 활성화 내에서 특정 의미론적 개념이 언제, 어디서 출현하는지를 확인합니다. 결과는 여러 도메인에 걸쳐 특성 출현에 대한 명확한 시간적 및 규모별 임계값을 보여줍니다. 특히, 공간 분석은 초기 계층의 특성이 후기 계층에서 재출현하는 예상치 못한 의미론적 재활성을 드러내며, 이는 트랜스포머 모델의 표현 역학에 대한 표준 가정에 도전합니다.
스티어링(steering) 방법은 대형 언어 모델(LLMs)의 파라미터를 수정하지 않고도 그 행동을 지시하는 효과적이고 표적화된 도구로 등장했습니다. 그러나 다중 모달 대형 언어 모델(MLLMs)은 아직 이러한 기술들을 동일하게 활용하지 못하고 있는데, 이는 부분적으로 최근에 등장했고 아키텍처가 다양하기 때문입니다. 이러한 격차에서 영감을 받아, 우리는 MLLMs가 희소 자동 인코더(SAEs), 평균 이동(mean shift), 선형 탐사(linear probing)를 통해 텍스트 전용 LLM 백본에서 파생된 벡터를 사용하여 스티어링될 수 있는지 조사했습니다. 우리는 텍스트에서 파생된 스티어링이 다양한 MLLM 아키텍처와 시각적 작업에서 다중 모달 정확도를 지속적으로 향상시킨다는 것을 발견했습니다. 특히, 평균 이동은 CV-Bench에서 공간 관계 정확도를 최대 +7.3%, 카운팅 정확도를 최대 +3.3%까지 향상시켜 프롬프팅을 능가하며, 분포 외 데이터셋에 대한 강력한 일반화 능력을 보였습니다. 이러한 결과는 텍스트 기반 스티어링 벡터가 최소한의 추가 데이터 수집과 계산 오버헤드로 MLLMs의 그라운딩(grounding)을 강화하는 강력하고 효율적인 메커니즘임을 강조합니다.
오프라인 목표 조건 강화 학습(GCRL)은 추가적인 환경 상호작용 없이 풍부한 레이블 없는(보상이 없는) 데이터셋으로부터 목표 도달 정책을 훈련시키는 실용적인 학습 패러다임을 제공합니다. 그러나 오프라인 GCRL은 HIQL과 같은 계층적 정책 구조를 활용한 최근의 발전에도 불구하고 여전히 장기간 작업에서 어려움을 겪고 있습니다. 이러한 문제의 근본 원인을 파악함으로써 우리는 다음과 같은 통찰을 얻었습니다: 첫째, 성능 병목 현상은 주로 상위 정책이 적절한 하위 목표를 생성하지 못하는 데서 비롯됩니다. 둘째, 장기간 작업에서 상위 정책을 학습할 때, 이점 신호의 부호가 자주 잘못됩니다. 따라서 상위 정책 학습을 위한 명확한 이점 신호를 생성하기 위해 가치 함수를 개선하는 것이 필수적이라고 주장합니다. 본 논문에서는 간단하지만 효과적인 해결책을 제안합니다: 시간적 추상화를 시간차 학습 과정에 통합한 OTA(Option-aware Temporally Abstracted value learning)입니다. 제안된 학습 방식은 가치 업데이트를 옵션 인식으로 수정함으로써 효과적인 시간 지평 길이를 단축시켜, 장기간 작업에서도 더 나은 이점 추정을 가능하게 합니다. 우리는 실험적으로 OTA 가치 함수를 사용하여 추출한 상위 정책이 최근 제안된 오프라인 GCRL 벤치마크인 OGBench의 복잡한 작업(미로 탐색 및 시각적 로봇 조작 환경 포함)에서 강력한 성능을 달성함을 보여줍니다.