번역이 포함된 일일 선별된 AI 연구 논문
긴 컨텍스트 하에서의 코드 생성은 대형 언어 모델(LLMs)이 코드베이스 내 광범위한 정보를 추론해야 하는 요구가 증가함에 따라 점점 더 중요해지고 있습니다. 최근의 발전으로 코드 LLMs가 긴 입력을 처리할 수 있게 되었지만, 높은 API 비용과 생성 지연 시간은 여전히 주요 병목 현상으로 남아 있습니다. LLMLingua와 같은 기존의 컨텍스트 정제 기술은 일반 텍스트에 대해 유망한 결과를 달성하지만, 코드 특유의 구조와 의존성을 간과하여 프로그래밍 작업에서 최적의 성능을 내지 못합니다. 본 논문에서는 코드 LLMs를 위해 특별히 설계된 새로운 플러그 앤 플레이 코드 압축 프레임워크인 LongCodeZip을 제안합니다. LongCodeZip은 이중 단계 전략을 사용합니다: (1) 거친 단계의 압축으로, 조건부 perplexity를 사용하여 명령어에 대한 함수 수준의 청크를 식별하고 순위를 매겨 가장 관련성이 높은 함수만을 유지합니다; (2) 세밀한 단계의 압축으로, 유지된 함수를 perplexity를 기반으로 블록으로 분할하고 적응형 토큰 예산 하에서 최적의 부분 집합을 선택하여 관련성을 극대화합니다. 코드 완성, 요약, 질문 응답을 포함한 다양한 작업에 대한 평가에서 LongCodeZip은 기준 방법들을 일관되게 능가하며, 작업 성능을 저하시키지 않고 최대 5.6배의 압축 비율을 달성합니다. LongCodeZip은 컨텍스트 크기를 효과적으로 줄이면서 필수 정보를 보존함으로써, LLMs가 실제 대규모 코드 시나리오에 더 잘 확장할 수 있도록 하여 코드 인텔리전스 애플리케이션의 효율성과 능력을 향상시킵니다.
확산 모델은 이미지 및 비디오 생성 분야에 혁신을 가져와 전례 없는 시각적 품질을 달성했습니다. 그러나 이러한 모델들은 트랜스포머 아키텍처에 의존함에 따라 특히 긴 비디오 생성을 확장할 때 과도하게 높은 계산 비용을 초래합니다. 최근 연구에서는 일반적으로 단기간 양방향 교사 모델로부터 지식을 추출하여 긴 비디오 생성을 위한 자기회귀적 접근 방식을 탐구해 왔습니다. 그러나 교사 모델이 긴 비디오를 합성할 수 없기 때문에, 학생 모델이 훈련 범위를 넘어서는 경우 연속적인 잠재 공간 내에서 오류가 누적되어 심각한 품질 저하가 발생하는 문제가 있습니다. 본 논문에서는 긴 비디오 교사 모델의 감독이나 긴 비디오 데이터셋에 대한 재훈련 없이도 긴 시간대 비디오 생성에서의 품질 저하를 완화하기 위한 간단하면서도 효과적인 접근 방식을 제안합니다. 우리의 접근 방식은 교사 모델의 풍부한 지식을 활용하여, 자체 생성된 긴 비디오에서 추출한 세그먼트를 통해 학생 모델에게 지침을 제공하는 데 중점을 둡니다. 우리의 방법은 교사 모델의 능력을 최대 20배까지 확장하면서도 시간적 일관성을 유지하며, 이전 방법들과 달리 겹치는 프레임을 재계산하지 않으면서도 과도한 노출 및 오류 누적과 같은 일반적인 문제를 피합니다. 계산을 확장할 때, 우리의 방법은 기본 모델의 위치 임베딩이 지원하는 최대 범위의 99.9%에 해당하는 4분 15초 길이의 비디오를 생성할 수 있는 능력을 보여주며, 이는 기준 모델보다 50배 이상 긴 길이입니다. 표준 벤치마크와 우리가 제안한 개선된 벤치마크에 대한 실험을 통해, 우리의 접근 방식이 충실도와 일관성 모두에서 기준 방법들을 크게 능가함을 입증했습니다. 우리의 긴 시간대 비디오 데모는 https://self-forcing-plus-plus.github.io/에서 확인할 수 있습니다.
검증 가능한 보상 기반 강화 학습(RLVR)은 대규모 언어 모델의 추론 능력을 향상시키기 위한 새로운 패러다임으로 부상하고 있습니다. 그러나 표준 온-폴리시(on-policy) 학습은 롤아웃 경험을 단일 업데이트 후 폐기하므로, 계산 비효율성과 불안정성을 초래합니다. 기존 강화 학습 연구에서는 과거 경험을 재사용하는 이점을 강조했지만, 대규모 추론 모델의 학습 동학에 미치는 경험 특성의 역할은 아직 충분히 탐구되지 않았습니다. 본 논문에서는 어떤 추론 경험이 가치 있는지를 최초로 조사하고, 롤아웃 정확도와 엔트로피를 경험 가치의 효과적인 지표로 식별합니다. 이러한 통찰을 바탕으로, 우리는 ExGRPO(Experiential Group Relative Policy Optimization)를 제안합니다. 이 프레임워크는 가치 있는 경험을 조직화하고 우선순위를 매기며, 탐색과 경험 활용 사이의 균형을 맞추기 위해 혼합 정책 목표를 사용합니다. 1.5B에서 8B 파라미터 규모의 5개 백본 모델에 대한 실험 결과, ExGRPO는 수학적/일반 벤치마크에서 추론 성능을 지속적으로 향상시켰으며, 온-폴리시 RLVR 대비 평균 +3.5/7.6 포인트의 성능 향상을 보였습니다. 또한 ExGRPO는 온-폴리시 방법이 실패한 강한 모델과 약한 모델 모두에서 학습을 안정화했습니다. 이러한 결과는 원칙적인 경험 관리가 효율적이고 확장 가능한 RLVR의 핵심 요소임을 강조합니다.
Neural Radiance Fields (NeRF) 및 3D Gaussian Splatting (3DGS)와 같은 3D 장면 표현 방법은 새로운 시점 합성 기술을 크게 발전시켰습니다. 이러한 방법들이 널리 보급됨에 따라, 이들의 취약점을 해결하는 것이 중요해졌습니다. 본 연구에서는 3DGS의 이미지 수준 중독 공격에 대한 견고성을 분석하고, 새로운 밀도 기반 중독 방법을 제안합니다. 우리의 방법은 커널 밀도 추정(Kernel Density Estimation, KDE)을 통해 식별된 저밀도 영역에 가우시안 포인트를 전략적으로 주입하여, 중독된 시점에서 명확하게 보이는 시점 의존적 환영 객체를 내장하면서도 무고한 시점에는 최소한의 영향을 미치도록 설계되었습니다. 또한, 다중 시점 일관성을 방해하기 위한 적응형 노이즈 전략을 도입하여 공격 효과를 더욱 강화했습니다. 우리는 공격 난이도를 체계적으로 평가하기 위한 KDE 기반 평가 프로토콜을 제안함으로써, 향후 연구를 위한 객관적인 벤치마킹을 가능하게 합니다. 광범위한 실험을 통해 우리의 방법이 최신 기술 대비 우수한 성능을 보임을 입증했습니다. 프로젝트 페이지: https://hentci.github.io/stealthattack/
대규모 언어 모델(LLM)은 최근 자율 에이전트로서의 강력한 능력을 보여주며, 추론, 도구 사용, 순차적 의사결정 분야에서 유망한 가능성을 보이고 있습니다. 이전 벤치마크들은 소프트웨어 공학 및 과학적 발견과 같은 분야에서 LLM 에이전트를 평가했지만, 경제적 가치와 고위험 의사결정과 직접적으로 관련된 금융 분야는 아직 충분히 탐구되지 않았습니다. 기존의 금융 벤치마크는 주로 질문 응답을 통해 정적 지식을 테스트하지만, 거래의 동적이고 반복적인 특성을 포착하는 데는 한계가 있습니다. 이러한 격차를 해결하기 위해, 우리는 현실적인 다중 월간 주식 거래 환경에서 LLM 에이전트를 평가하기 위해 오염 없는 벤치마크인 StockBench을 소개합니다. 에이전트는 가격, 기본 요소, 뉴스 등 일일 시장 신호를 받고 순차적으로 매수, 매도, 또는 보유 결정을 내려야 합니다. 성능은 누적 수익률, 최대 낙폭, 소르티노 비율과 같은 금융 지표를 사용하여 평가됩니다. 최첨단 상용 모델(예: GPT-5, Claude-4)과 오픈 웨이트 모델(예: Qwen3, Kimi-K2, GLM-4.5)을 평가한 결과, 대부분의 LLM 에이전트는 단순한 매수 후 보유 전략을 능가하기 어려웠지만, 일부 모델은 더 높은 수익을 제공하고 위험을 더 효과적으로 관리할 수 있는 잠재력을 보였습니다. 이러한 결과는 LLM 기반 금융 에이전트 개발의 도전과 기회를 동시에 강조하며, 정적 금융 지식 작업에서 우수한 성적을 거두는 것이 반드시 성공적인 거래 전략으로 이어지지는 않음을 보여줍니다. 우리는 StockBench을 오픈소스 리소스로 공개하여 재현성을 지원하고 이 분야의 미래 연구를 발전시키고자 합니다.
F2LLM(Foundation to Feature Large Language Models)을 소개합니다. F2LLM은 0.6B, 1.7B, 4B 세 가지 크기의 최첨단 임베딩 모델 제품군입니다. 기존의 최고 수준 임베딩 모델들이 대규모 대조 사전 학습, 복잡한 학습 파이프라인, 고가의 합성 학습 데이터를 필요로 했던 것과 달리, F2LLM은 오픈소스 비합성 데이터셋에서 선별된 600만 개의 쿼리-문서-네거티브 튜플을 기반으로 파운데이션 모델에서 직접 미세 조정되었습니다. 이를 통해 학습 비용, 모델 크기, 임베딩 성능 간의 강력한 균형을 달성했습니다. MTEB 영어 리더보드에서 F2LLM-4B는 약 4B 파라미터 모델 중 2위, 전체 모델 중 7위를 기록했으며, F2LLM-1.7B는 1B-2B 크기 범위의 모델 중 1위를 차지했습니다. 향후 연구를 촉진하기 위해 모델, 학습 데이터셋 및 코드를 공개함으로써, F2LLM을 미래 연구를 위한 강력하고 재현 가능하며 경제적인 기준선으로 자리매김하고자 합니다.
기존의 신경망 학습은 일반적으로 고정된, 미리 정의된 최적화 방식을 따르며, 불안정성이나 학습 중 발생하는 문제에 동적으로 대응할 수 있는 유연성이 부족합니다. 본 논문에서는 인간 전문가나 자동화된 AI 에이전트가 신경망 학습 과정 중 실시간으로 피드백 기반 개입을 가능하게 하는 오픈소스 프레임워크인 Interactive Training을 소개합니다. Interactive Training의 핵심은 사용자 또는 에이전트와 진행 중인 학습 프로세스 간의 통신을 중재하는 제어 서버를 사용하여, 사용자가 최적화 하이퍼파라미터, 학습 데이터, 모델 체크포인트를 동적으로 조정할 수 있도록 합니다. 세 가지 사례 연구를 통해 Interactive Training이 학습 안정성 향상, 초기 하이퍼파라미터에 대한 민감도 감소, 그리고 변화하는 사용자 요구에 대한 적응성 개선을 달성함을 보여줌으로써, AI 에이전트가 학습 로그를 자율적으로 모니터링하고 불안정성을 사전에 해결하며 학습 역학을 최적화하는 미래의 학습 패러다임을 제시합니다.
대규모 추론 모델을 훈련하는 주요 패러다임은 방대한 양의 데이터에 대해 다음 토큰 예측 손실을 사용한 사전 훈련으로 시작합니다. 강화 학습은 추론을 확장하는 데 강력하지만, 지도 미세 조정 이후에 마지막 단계로 도입됩니다. 이러한 주요 패러다임이 최적의 훈련 방식일까요? 본 논문에서는 강화 학습의 핵심 정신인 탐색을 사전 훈련의 마지막 단계로 가져오는 정보 기반 강화 사전 훈련 목표인 RLP를 제시합니다. 핵심 아이디어는 사고의 연쇄를 탐색적 행동으로 간주하고, 이를 통해 미래 토큰 예측에 제공하는 정보 이득을 기반으로 보상을 계산하는 것입니다. 이 훈련 목표는 모델이 다음을 예측하기 전에 스스로 생각하도록 장려함으로써, 사전 훈련 초기에 독립적인 사고 행동을 가르칩니다. 구체적으로, 보상 신호는 컨텍스트와 샘플링된 추론 연쇄를 모두 고려했을 때 다음 토큰의 로그 가능성이 컨텍스트만 고려했을 때보다 증가하는 정도를 측정합니다. 이 접근 방식은 검증기 없이도 밀집된 보상 신호를 제공하여 사전 훈련 중 전체 문서 스트림에 대해 효율적인 훈련을 가능하게 합니다. 특히, RLP는 추론을 위한 강화 학습을 일반 텍스트에 대한 사전 훈련 목표로 재구성함으로써, 다음 토큰 예측과 유용한 사고의 연쇄 추론의 출현 사이의 간극을 메웁니다. Qwen3-1.7B-Base에 RLP를 적용한 사전 훈련은 8개 벤치마크 수학 및 과학 스위트에서 전체 평균을 19% 향상시켰습니다. 동일한 사후 훈련을 적용했을 때, AIME25 및 MMLU-Pro와 같은 추론 중심 작업에서 가장 큰 개선이 나타났습니다. 하이브리드 Nemotron-Nano-12B-v2에 RLP를 적용하면 전체 평균이 42.81%에서 61.32%로 증가하고, 과학적 추론 평균이 23% 상승하여 아키텍처와 모델 크기에 걸쳐 확장성을 입증했습니다.
멀티모달 임베딩 모델은 텍스트 전용 파이프라인의 효율적인 대안으로서, 특히 문서 검색 분야에서 점점 더 널리 사용되고 있습니다. 이러한 모델들은 일반적으로 대규모 시각-언어 디코더(VLMs)를 텍스트-이미지 쌍에 대한 대조 손실(contrastive loss)로 미세 조정하여 구축됩니다. 본 연구에서는 이러한 재활용 접근 방식이 비용 효율적이기는 하지만, 종종 검색 성능의 병목 현상을 초래한다는 것을 보여줍니다. 통제된 실험을 통해, 우리는 시각적 문서 검색 모델을 개선하기 위한 원칙적인 방법론을 정립했습니다. 특히, 주의 마스킹(attention masking), 이미지 해상도, 모달리티 정렬 데이터 체계, 그리고 핵심 성능 요소로 부각된 후기 상호작용 중심의 대조 목표(late interaction centered contrastive objectives)의 영향을 측정했습니다. 이러한 통찰을 바탕으로, 우리는 문서 검색 작업에 미세 조정 시 10배 더 큰 모델들을 능가하는 2억 5천만 파라미터 규모의 컴팩트한 시각-언어 인코더인 ModernVBERT를 공개합니다. 모델과 코드는 https://huggingface.co/ModernVBERT에서 이용 가능합니다.
최근 AI 안전성 분야에서 급속한 발전이 있었음에도 불구하고, 현재의 대규모 언어 모델은 다중 턴 상호작용 환경에서 적대적 공격에 취약한 상태로 남아 있습니다. 공격자들은 대화 턴에 걸쳐 전략적으로 프롬프트를 조정하며 더욱 심각하고 현실적인 도전을 제기합니다. 기존의 안전성 취약점 탐지 접근법은 인간 전문가가 수동으로 수행하는 레드 팀링에 의존하거나, 사전 정의된 템플릿과 인간이 선별한 공격 데이터를 사용한 자동화된 방법을 활용하며, 대부분 단일 턴 공격에 초점을 맞추고 있습니다. 그러나 이러한 방법들은 가능한 다중 턴 공격의 광범위한 공간을 탐색하지 못했으며, 복잡한 대화 역학과 전략적 대화 계획에서 발생하는 새로운 공격 궤적을 고려하지 못했습니다. 이러한 간극은 최근 연구 결과에 따르면 LLM이 단일 턴 공격에 비해 다중 턴 공격에 훨씬 더 취약하다는 점에서 특히 중요합니다. 우리는 DialTree-RPO를 제안합니다. 이는 대화를 순차적 의사결정 문제로 취급하여 수동으로 선별된 데이터 없이도 체계적인 탐색을 가능하게 하는 트리 탐색과 통합된 온-폴리시 강화 학습 프레임워크로, 다양한 다중 턴 공격 전략을 자율적으로 발견합니다. 광범위한 실험을 통해 우리의 접근법은 이전의 최첨단 접근법 대비 10개의 대상 모델에서 25.9% 이상 높은 ASR(Attack Success Rate)을 달성할 뿐만 아니라, 다중 턴에 걸쳐 공격 성공을 극대화하는 최적의 대화 정책을 학습함으로써 새로운 공격 전략을 효과적으로 발견합니다.
오디오-비디오 생성은 종종 복잡한 다단계 아키텍처나 소리와 영상을 순차적으로 합성하는 방식에 의존해 왔습니다. 우리는 Ovi를 소개하며, 이는 두 가지 모달리티를 단일 생성 프로세스로 모델링하는 통합 패러다임입니다. Ovi는 twin-DiT 모듈의 블록 단위 교차 모달 융합을 사용하여 자연스러운 동기화를 달성하고 별도의 파이프라인이나 사후 정렬의 필요성을 제거합니다. 세밀한 다중 모달 융합 모델링을 용이하게 하기 위해, 우리는 강력한 사전 학습된 비디오 모델과 동일한 아키텍처로 오디오 타워를 초기화합니다. 수십만 시간의 원시 오디오 데이터를 처음부터 학습함으로써, 오디오 타워는 현실적인 사운드 효과와 풍부한 화자 정체성과 감정을 전달하는 음성을 생성하는 법을 배웁니다. 융합은 동일한 비디오와 오디오 타워를 방대한 비디오 코퍼스에서 블록 단위로 타이밍(스케일링된 RoPE 임베딩을 통해)과 의미(양방향 교차 주의를 통해)를 교환하며 공동 학습함으로써 얻어집니다. 우리의 모델은 자연스러운 음성과 정확한, 맥락에 맞는 사운드 효과를 통해 영화급 비디오 클립을 생성하며, 시네마틱 스토리텔링을 가능하게 합니다. 모든 데모, 코드 및 모델 가중치는 https://aaxwaz.github.io/Ovi에서 공개되었습니다.
대규모 언어 모델(LLM) 에이전트는 다양한 도메인에서 작업을 자동화하는 강력한 시스템으로 빠르게 부상하고 있습니다. 그러나 오픈소스 커뮤니티의 발전은 고품질의 허가된 라이선스를 가진 도구-에이전트 학습 데이터의 부족으로 인해 제약을 받고 있습니다. 기존 데이터셋은 다양성, 현실성, 복잡성 측면에서 특히 다중 도구 및 다중 턴 상호작용과 관련하여 제한적입니다. 이러한 격차를 해소하기 위해, 우리는 현재까지 공개된 도구-에이전트 데이터셋 중 가장 큰 규모인 Toucan을 소개합니다. Toucan은 약 500개의 실제 Model Context Protocol(MCP)에서 합성된 150만 개의 트레이젝토리를 포함하고 있습니다. 기존 연구와 달리, Toucan은 실제 MCP 환경을 활용하여 다양한 현실적이고 도전적인 작업을 생성하며, 실제 도구 실행을 포함한 트레이젝토리를 제공합니다. 우리의 파이프라인은 먼저 5개의 서로 다른 모델을 사용하여 광범위한 도구 사용 쿼리를 생성하고, 모델 기반 품질 필터링을 적용한 후, 두 가지 에이전트 프레임워크를 사용하여 세 개의 교사 모델로 에이전트 트레이젝토리를 생성합니다. 엄격한 규칙 기반 및 모델 기반 검증을 통해 고품질의 출력을 보장합니다. 또한, 우리는 작업을 더욱 다양화하고 다중 턴 대화를 시뮬레이션하기 위해 세 가지 확장 메커니즘을 도입했습니다. Toucan으로 미세 조정된 모델은 BFCL V3 벤치마크에서 더 큰 규모의 클로즈드소스 대응 모델을 능가하며, MCP-Universe Bench에서 파레토 프론티어를 앞당겼습니다.
컴퓨터 사용 에이전트(CUAs)는 일상적인 디지털 작업을 자동화하는 데 유망한 가능성을 보여주지만, 그들의 신뢰성 부족과 높은 변동성은 장기적이고 복잡한 작업에의 적용을 방해합니다. 우리는 Behavior Best-of-N(bBoN)이라는 방법을 소개합니다. 이 방법은 여러 롤아웃을 생성하고 에이전트의 롤아웃을 설명하는 행동 서술을 통해 그 중에서 선택함으로써 에이전트를 확장합니다. 이를 통해 광범위한 탐색과 원칙에 기반한 궤적 선택이 가능해져, 견고성과 성공률이 크게 향상됩니다. OSWorld에서 우리의 bBoN 확장 방법은 69.9%로 새로운 최첨단 기술(SoTA)을 달성하며, 이전 방법들을 크게 능가하고 72%에 달하는 인간 수준의 성능에 근접합니다. 또한, 포괄적인 절제 실험을 통해 주요 설계 선택의 타당성을 검증했습니다. 우리는 더 나아가 WindowsAgentArena와 AndroidWorld에서 다양한 운영 체제에 대한 강력한 일반화 결과를 보여줍니다. 무엇보다도, 우리의 결과는 CUAs를 효과적으로 확장할 때의 비합리적인 효율성을 강조합니다: 효과적인 확장은 구조화된 궤적 이해와 선택을 필요로 하며, bBoN은 이를 달성하기 위한 실용적인 프레임워크를 제공합니다.
대규모 언어 모델(LLM)의 출력 품질을 평가하는 것은 중요한 과제로 대두되고 있다. 기존의 방법들은 텍스트 수준의 정보(예: 보상 모델, 다수결 투표)에 의존하여 표면적인 단서에 과적합될 가능성이 있거나, 토큰 확률로부터 보정된 신뢰도를 활용하여 보정이 덜 된 모델에서는 실패할 수 있다. 그러나 이러한 신호들은 사실 더 풍부한 정보원인 모델의 내부 은닉 상태(hidden states)의 부분적인 투영에 불과하다. 초기 층은 토큰 임베딩에 가까워 텍스트 기반 판단을 뒷받침하는 의미론적 및 어휘적 특징을 보존하는 반면, 후기 층은 출력 로짓(output logits)과 점점 더 일치하며 신뢰도 관련 정보를 내포한다. 본 논문은 검증을 위한 통합된 기반으로서 은닉 상태를 직접 탐구한다. 우리는 해결책의 정확성이 은닉 활성화 궤적 내에서 기하학적으로 분리 가능한 서명으로 인코딩됨을 보여준다. 이를 검증하기 위해, 의도적으로 미니멀리스트적이고 비모수적인 검증 도구인 Clue(Clustering and Experience-based Verification)를 제시한다. 학습 가능한 매개변수가 없는 CLUE는 각 추론 흔적을 은닉 상태 델타로 요약하고, 과거 경험으로 형성된 '성공' 및 '실패' 클러스터에 대한 최근접 중심 거리를 통해 정확성을 분류한다. 이 방법의 단순성은 근본적인 신호의 강점을 부각시킨다. 실험적으로, CLUE는 LLM-as-a-judge 기준선을 지속적으로 능가하며, AIME 24/25와 GPQA에서 후보 재순위화에 있어 현대적인 신뢰도 기반 방법과 동등하거나 이를 초과하는 성능을 보여준다. 특히, 1.5B 모델을 사용한 AIME 24에서 CLUE는 정확도를 56.7%(majority@64)에서 70.0%(top-maj@16)로 향상시켰다.
활성화 조정(Activation steering)은 추론 과정에서 모델의 은닉 상태에 의미론적으로 의미 있는 벡터를 직접 추가하여 대형 언어 모델(LLM)의 행동을 제어하는 유망한 기술입니다. 이는 종종 미세 조정(fine-tuning)에 비해 정밀하고 해석 가능하며 잠재적으로 더 안전한 대안으로 여겨집니다. 그러나 우리는 이와 반대되는 결과를 보여줍니다: 조정은 모델의 안전장치를 체계적으로 무너뜨려 유해한 요청에 순응하게 만듭니다. 다양한 모델 패밀리에 대한 광범위한 실험을 통해, 심지어 무작위 방향으로 조정하는 것만으로도 유해한 순응 확률이 0%에서 2-27%까지 증가할 수 있음을 보여줍니다. 더욱 우려스럽게도, 해석 가능한 방향의 일반적인 소스인 희소 오토인코더(SAE)에서 선별된 양성 특징을 조정할 경우 이러한 비율이 추가로 2-4% 증가합니다. 마지막으로, 단일 프롬프트를 탈옥시키는 20개의 무작위로 샘플링된 벡터를 결합하면 보이지 않는 요청에 대한 유해한 순응을 크게 증가시키는 보편적 공격이 생성됨을 보여줍니다. 이러한 결과는 해석 가능성을 통한 안전성 패러다임에 도전하며, 모델 내부에 대한 정밀한 제어가 모델 행동에 대한 정밀한 제어를 보장하지 않음을 입증합니다.
검증 가능한 보상을 통한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키지만, 탐색 문제에 어려움을 겪으며, 이는 다중모달 LLM(MLLM)에서도 여전히 지속되는 문제입니다. 현재의 방법들은 시각적 입력을 고정적이고 결정론적인 조건으로 취급하여 중요한 모호성의 원천을 간과하고, 가능한 시각적 변화에 강건한 정책을 구축하는 데 어려움을 겪습니다. 우리는 VOGUE(Visual Uncertainty Guided Exploration)라는 새로운 방법을 소개하며, 이는 탐색을 출력(텍스트) 공간에서 입력(시각) 공간으로 전환합니다. 이미지를 확률적 맥락으로 취급함으로써, VOGUE는 "원본"과 "잡음이 추가된" 분기 간의 대칭 KL 발산을 사용하여 정책의 시각적 섭동에 대한 민감도를 정량화하고, 불확실성 인식 탐색을 위한 직접적인 신호를 생성합니다. 이 신호는 불확실성에 비례하는 보너스를 통해 학습 목표를 형성하며, 토큰 엔트로피 보너스와 점진적 샘플링 스케줄과 결합되어 탐색과 활용의 균형을 효과적으로 조정합니다. 두 모델 규모(Qwen2.5-VL-3B/7B)에서 GRPO 내에 구현된 VOGUE는 세 가지 시각적 수학 벤치마크에서 평균 2.6%, 세 가지 일반 도메인 추론 벤치마크에서 3.7%의 pass@1 정확도를 향상시키며, 동시에 pass@4 성능을 증가시키고 RL 미세 조정에서 흔히 관찰되는 탐색 감소를 완화합니다. 우리의 연구는 시각적 입력의 고유한 불확실성에 탐색을 기반을 두는 것이 다중모달 추론을 개선하는 효과적인 전략임을 보여줍니다.
인공지능은 폐쇄형 언어 모델에서 외부 지각과 정보 통합이 가능한 상호 연결된 에이전트 시스템으로의 패러다임 전환을 겪고 있습니다. 대표적인 구현체로서, 딥 리서치 에이전트(DRAs)는 작업 분해, 교차 소스 검색, 다단계 추론, 구조화된 출력 등의 능력을 체계적으로 보여주며, 복잡하고 개방형 작업에서의 성능을 현저히 향상시킵니다. 그러나 기존 벤치마크는 평가 차원, 응답 형식, 채점 메커니즘 등에서 부족함이 있어, 이러한 시스템을 효과적으로 평가하는 데 한계가 있습니다. 본 논문은 DRAs와 보고서 스타일 응답에 맞춰진 엄격한 벤치마크와 다차원 평가 프레임워크를 소개합니다. 이 벤치마크는 10개의 광범위한 주제 영역에 걸쳐 전문가가 선별한 214개의 도전적인 질문으로 구성되며, 각 질문은 복합 평가를 지원하기 위해 수동으로 구성된 참조 번들과 함께 제공됩니다. 이 프레임워크는 DRAs가 생성한 장문 보고서에 대한 포괄적인 평가를 가능하게 하며, 의미적 품질, 주제 집중도, 검색 신뢰도를 통합한 채점 메트릭을 포함합니다. 광범위한 실험을 통해 주류 DRAs가 웹 검색 도구를 보강한 추론 모델보다 우수한 성능을 보임을 확인했지만, 여전히 개선의 여지가 상당함을 밝혀냈습니다. 본 연구는 DRA 시스템의 능력 평가, 아키텍처 개선, 패러다임 발전을 위한 견고한 기반을 제공합니다.
대규모 언어 모델(LLM)은 종종 신뢰성을 저해하는 근거 없는 내용인 환각(hallucination)을 생성합니다. 기존 연구 대부분은 환각 탐지를 이진 분류 작업으로 접근했지만, 실제 응용에서는 다단계 의사결정 과정이 필요한 환각 구간(span)을 식별해야 하는 경우가 많습니다. 이는 명시적 추론이 환각 구간 탐지라는 복잡한 작업에 도움이 될 수 있는지에 대한 질문을 자연스럽게 제기합니다. 이 질문에 답하기 위해, 우리는 먼저 Chain-of-Thought(CoT) 추론을 적용한 모델과 그렇지 않은 모델을 평가하고, CoT 추론이 여러 번 샘플링할 때 적어도 하나의 정답을 생성할 가능성이 있음을 보여줍니다. 이를 바탕으로, 우리는 구간 수준의 보상 함수를 통해 추론을 장려하는 강화 학습 프레임워크인 RL4HS를 제안합니다. RL4HS는 Group Relative Policy Optimization을 기반으로 하며, 보상 불균형 문제를 완화하기 위해 Class-Aware Policy Optimization을 도입합니다. RAGTruth 벤치마크(요약, 질문 응답, 데이터-텍스트 변환)에서의 실험 결과, RL4HS는 사전 학습된 추론 모델과 지도 미세 조정을 능가하며, 환각 구간 탐지를 위해 구간 수준의 보상을 사용한 강화 학습의 필요성을 입증합니다.
세밀한 시각적 추론은 다중모달 대형 언어 모델(MLLMs)의 핵심 과제로 남아 있습니다. 최근 소개된 ReasonMap는 고급 MLLMs조차도 교통 지도와 같은 구조화되고 정보가 풍부한 환경에서 공간 추론에 어려움을 겪는다는 점을 보여줌으로써 이러한 격차를 강조했습니다. 이는 실용적 및 과학적으로 중요한 과제임에도 불구하고, 이러한 작업에 대한 표준 강화 학습(RL)은 희소한 보상과 불안정한 최적화로 인해 방해를 받습니다. 이를 해결하기 위해, 우리는 먼저 시각 질의 응답(VQA) 작업을 통해 밀집된 보상 신호를 도입한 확장 데이터셋인 ReasonMap-Plus를 구축하여 세밀한 시각적 이해 능력의 효과적인 콜드 스타트 훈련을 가능하게 합니다. 다음으로, 우리는 MLLMs의 시각적 이해 및 추론 능력을 모두 향상시키기 위해 설계된 다단계 RL 프레임워크인 RewardMap를 제안합니다. RewardMap는 두 가지 주요 설계를 포함합니다. 첫째, 세부 보상을 통합한 난이도 인식 보상 설계를 도입하여 희소한 보상 문제를 직접 해결하면서 더 풍부한 지도를 제공합니다. 둘째, 단순한 인식에서 복잡한 추론 작업으로 훈련을 부트스트랩하는 다단계 RL 방식을 제안하여 기존의 지도 미세 조정(SFT)보다 더 효과적인 콜드 스타트 전략을 제공합니다. ReasonMap와 ReasonMap-Plus에 대한 실험은 RewardMap의 각 구성 요소가 일관된 성능 향상에 기여하며, 이들의 조합이 최상의 결과를 가져온다는 것을 보여줍니다. 또한, RewardMap로 훈련된 모델은 교통 지도를 넘어 공간 추론, 세밀한 시각적 추론 및 일반 작업을 아우르는 6개 벤치마크에서 평균 3.47%의 개선을 달성하여 향상된 시각적 이해 및 추론 능력을 입증했습니다.
우리는 형식적 검증(formal verification)과 비형식적 추론(informal reasoning)을 결합한 AI 시스템인 Aristotle을 소개한다. 이 시스템은 2025년 국제 수학 올림피아드 문제에서 금메달 수준의 성능을 달성했다. Aristotle은 세 가지 주요 구성 요소를 통합한다: Lean 증명 탐색 시스템, 보조정리를 생성하고 형식화하는 비형식적 추론 시스템, 그리고 전용 기하학 문제 해결기이다. 우리의 시스템은 자동 정리 증명(automated theorem proving) 분야에서 최첨단 성능과 우수한 확장성을 보여준다.
드래그 기반 이미지 편집은 오랫동안 대상 영역의 왜곡 문제로 어려움을 겪어왔는데, 이는 주로 이전의 기본 모델인 Stable Diffusion의 사전 지식이 최적화된 잠재 공간을 자연스러운 이미지 매니폴드로 다시 투영하기에 부족했기 때문입니다. UNet 기반 DDPM에서 확장성이 더 뛰어난 DiT와 플로우 매칭(예: SD3.5, FLUX)으로의 전환으로 생성적 사전 지식이 크게 강화되면서 다양한 편집 작업에서 진전이 이루어졌습니다. 그러나 드래그 기반 편집은 이러한 강화된 사전 지식의 혜택을 아직 누리지 못했습니다. 본 연구는 FLUX의 풍부한 사전 지식을 드래그 기반 편집에 효과적으로 활용하는 첫 번째 프레임워크인 DragFlow를 제안하며, 이를 통해 기준선을 크게 뛰어넘는 성과를 달성했습니다. 먼저, DiT에 포인트 기반 드래그 편집을 직접 적용하는 것이 성능이 좋지 않음을 보여줍니다: UNet의 고도로 압축된 특징과 달리 DiT의 특징은 포인트 단위의 모션 감독을 위한 신뢰할 만한 지침을 제공하기에 충분히 구조화되어 있지 않습니다. 이러한 한계를 극복하기 위해 DragFlow는 영역 기반 편집 패러다임을 도입하며, 아핀 변환을 통해 더 풍부하고 일관된 특징 감독을 가능하게 합니다. 또한, 사전 학습된 개방형 도메인 개인화 어댑터(예: IP-Adapter)를 통합하여 주체 일관성을 강화하는 동시에, 그라디언트 마스크 기반의 강력한 제약을 통해 배경 충실도를 유지합니다. 다중 모드 대형 언어 모델(MLLMs)을 추가로 활용하여 작업의 모호성을 해결합니다. 평가를 위해, 영역 수준의 드래그 지침을 포함한 새로운 Region-based Dragging 벤치마크(ReD Bench)를 구성했습니다. DragBench-DR와 ReD Bench에서의 광범위한 실험을 통해 DragFlow가 포인트 기반 및 영역 기반 기준선을 모두 능가하며, 드래그 기반 이미지 편집에서 새로운 최첨단 기술을 설정함을 보여줍니다. 코드와 데이터셋은 출판 시 공개될 예정입니다.
멀티헤드 어텐션(MHA) 메커니즘을 기반으로 한 트랜스포머 아키텍처는 인공지능 분야에서 최첨단 모델의 사실상 표준이 되었습니다. 그러나 MHA의 시퀀스 길이에 대한 2차 계산 복잡성은, 특히 긴 문맥을 다루는 응용 분야에서 확장성에 있어 상당한 장벽으로 작용합니다. 기존의 해결책들, 예를 들어 멀티쿼리 어텐션(MQA)과 그룹화된 쿼리 어텐션(GQA)은 키와 값 프로젝션을 공유함으로써 자기회귀 추론 지연 시간을 지배하는 메모리 대역폭 병목 현상을 효과적으로 해결했습니다. 이러한 방법들은 매우 성공적이었지만, 어텐션 점수 계산에 필요한 기본적인 부동소수점 연산(FLOP) 수를 줄이지는 못하며, 이는 여전히 훈련 및 전체 시퀀스 처리에서 중요한 병목 현상으로 남아 있습니다. 본 논문은 새로운 어텐션 아키텍처인 희소 쿼리 어텐션(SQA)을 소개하며, 이는 대안적이고 보완적인 최적화 경로를 추구합니다. SQA는 키/값 헤드를 줄이는 대신 쿼리 헤드의 수를 줄입니다. 이러한 아키텍처적 수정은 쿼리 헤드 감소에 비례하여 어텐션 메커니즘의 계산 복잡성을 직접적으로 감소시켜, 전체 FLOP를 낮춥니다. 이 연구는 SQA의 이론적 기반, 수학적 공식화, 그리고 다양한 아키텍처 변형군을 제시합니다. 긴 시퀀스(32k-200k 토큰)에 대한 실험적 벤치마크는 SQA가 모델 사전 훈련, 미세 조정, 인코더 기반 작업과 같은 계산 집약적인 시나리오에서 최대 3배의 처리량 향상을 달성할 수 있음을 보여주며, 소규모 실험에서는 모델 품질에 미치는 영향이 최소임을 입증합니다. SQA는 향후 출시될 Reactive Transformer 아키텍처 개발 과정에서 우연히 발견되었으며, 이는 더 효율적이고 확장 가능한 모델 구축을 위한 강력한 도구로서의 잠재력을 시사합니다.
현재의 대규모 시각-언어 모델(VLMs)은 다중모달 이해와 추론에서 진전을 이루었지만, 그들의 기본적인 지각 및 추론 능력은 여전히 제한적이다. 구체적으로, 간단한 직소 퍼즐 과제에서도 기존 VLMs는 거의 무작위에 가까운 성능을 보이며, 핵심 지각 및 추론 능력의 결함을 드러낸다. 고품질의 시각-언어 데이터는 이러한 능력을 향상시킬 수 있지만, 그 희소성과 확장성의 한계로 인해 상당한 제약이 따른다. 이를 해결하기 위해, 우리는 VLMs의 시각적 지각과 추론 능력을 강화하기 위한 상호작용 학습 기반 에이전트 직소 퍼즐 해결 방법인 AGILE을 제안한다. AGILE은 직소 퍼즐 해결을 상호작용 과정으로 공식화하여 모델이 점진적으로 환경과 상호작용할 수 있도록 한다. 각 단계에서 모델은 현재 상태를 기반으로 실행 가능한 코드를 생성하여 행동을 수행하고, 환경은 과제 완료를 안내하는 세밀한 시각적 피드백을 제공한다. 이러한 관찰과 상호작용의 반복적 사이클을 통해 모델은 탐색과 피드백을 통해 지각 및 추론 능력을 점진적으로 향상시킨다. 실험 결과, AGILE은 다양한 복잡도의 직소 퍼즐 과제에서 성능을 크게 향상시켰을 뿐만 아니라(예: 2x2 설정에서 정확도를 9.5%에서 82.8%로 증가), 9개의 일반 시각 과제에서도 강력한 일반화 능력을 보여 평균 3.1%의 개선을 달성했다. 이러한 결과는 지각 및 추론 능력 모두에서 주목할 만한 향상을 나타낸다. 이 연구는 다중모달 모델의 추론과 일반화를 발전시키는 새로운 길을 열고, 다중모달 강화 학습 데이터의 부족 문제에 대한 효율적이고 확장 가능한 해결책을 제공한다. 코드와 데이터셋은 https://github.com/yuzeng0-0/AGILE에서 확인할 수 있다.
컨텍스트 기반 환각(context-grounded hallucinations)은 모델 출력이 소스 텍스트에 대해 검증할 수 없는 정보를 포함하는 경우를 말합니다. 우리는 기존의 복잡한 평가 파이프라인에 대한 더 실용적인 대안으로, 이러한 환각 현상을 지역화(localizing)하기 위해 대규모 언어 모델(LLMs)의 적용 가능성을 연구합니다. 환각 현상 지역화에 대한 메타 평가를 위한 확립된 벤치마크가 부재한 상황에서, 우리는 LLMs에 맞춤화된 벤치마크를 구축하였으며, 이는 1,000개 이상의 예시에 대한 도전적인 인간 주석 작업을 포함합니다. 우리는 이 벤치마크를 LLM 기반 평가 프로토콜로 보완하고, 인간 평가를 통해 그 품질을 검증합니다. 기존의 환각 현상 표현 방식은 표현 가능한 오류 유형을 제한하기 때문에, 우리는 가능한 모든 오류 범위를 포착할 수 있는 자유 형식의 텍스트 기반 설명을 기반으로 한 새로운 표현 방식을 제안합니다. 우리는 네 가지 대규모 LLM을 평가하는 포괄적인 연구를 수행하며, 이 벤치마크의 난이도를 강조합니다. 최고의 모델도 F1 점수가 0.67에 그쳤기 때문입니다. 신중한 분석을 통해, 우리는 이 작업에 대한 최적의 프롬프트 전략에 대한 통찰을 제공하고, LLM에게 도전적인 주요 요인을 식별합니다: (1) 출력에서 사실만 확인하도록 지시받았음에도 불구하고, 누락된 세부사항을 일관성 없음으로 잘못 표시하는 경향; 그리고 (2) 소스 텍스트에 없지만 모델의 파라미터적 지식과 일치하여 사실적으로는 정확한 정보를 포함하는 출력을 다루는 데 어려움.
다중모달 언어 모델에서의 비디오 이해는 여전히 컨텍스트 길이에 의해 제한됩니다: 모델들은 종종 중요한 전환 프레임을 놓치고 긴 시간 규모에서의 일관성을 유지하는 데 어려움을 겪습니다. 이를 해결하기 위해, 우리는 Native Sparse Attention(NSA)을 비디오-언어 모델에 적용했습니다. 우리의 방법인 VideoNSA는 216K 비디오 명령어 데이터셋에 대한 종단간 학습을 통해 Qwen2.5-VL을 적응시킵니다. 우리는 하드웨어를 고려한 하이브리드 접근 방식을 사용하여 텍스트에는 밀집 어텐션을 유지하고, 비디오에는 NSA를 적용합니다. 토큰 압축 및 학습이 필요 없는 희소 기반선과 비교했을 때, VideoNSA는 긴 비디오 이해, 시간적 추론, 공간적 벤치마크에서 향상된 성능을 달성했습니다. 추가적인 절제 분석을 통해 네 가지 주요 결과를 발견했습니다: (1) 128K 토큰까지의 안정적인 확장; (2) 고정된 예산에서의 최적의 전역-지역 어텐션 할당; (3) 작업에 따른 분기 사용 패턴; 그리고 (4) 학습 가능한 결합 희소 어텐션이 동적 어텐션 싱크를 유도하는 데 도움을 준다는 점입니다.
시각 언어 모델(VLM) 기반의 다중 에이전트 시스템(MAS)은 복잡한 작업을 수행할 수 있지만, 텍스트 흐름에 과도하게 의존하여 시각 정보를 전달함으로써 단일 에이전트에서 시작된 환각이 후속 에이전트들에 의해 증폭되는 새로운 실패 현상인 다중 에이전트 시각 환각 눈덩이 효과를 겪습니다. 턴별, 레이어별, 토큰별 주의력 분석을 통해, 우리는 시각 주의력 할당의 감소와 관련된 환각 눈덩이 효과의 본질에 대한 상세한 통찰을 제공합니다. 이를 통해 중간 레이어에서 단일 양식 주의력 피크를 보이며 시각적 증거를 가장 잘 보존하지만 더 깊은 에이전트 턴에서 점차 감소하는 시각 토큰의 하위 집합을 식별했습니다. 이는 MAS에서 시각 환각 눈덩이 효과를 초래합니다. 따라서 우리는 선택된 시각 릴레이 토큰에 의해 구동되는 시각 흐름(ViF)으로 에이전트 간 메시지를 전달하고 이 패턴을 증폭하기 위해 주의력 재할당을 적용하는 경량의 플러그 앤 플레이 완화 패러다임인 ViF를 제안합니다. 실험 결과는 우리의 방법이 환각 눈덩이 효과를 현저히 줄이고, 네 가지 일반적인 MAS 구조와 열 가지 기본 모델을 기반으로 한 여덟 가지 벤치마크에서 일관되게 성능을 향상시킴을 보여줍니다. 소스 코드는 https://github.com/YU-deep/ViF.git에서 제공될 예정입니다.
테스트 타임 스케일링(TTS)은 대규모 언어 모델의 성능을 향상시키는 데 있어 놀라운 성공을 거두었지만, 다음 토큰 예측(NTP) 기반의 자기회귀적(AR) 이미지 생성에 대한 적용은 아직까지 거의 탐구되지 않았습니다. 기존의 시각적 자기회귀(VAR)를 위한 TTS 접근법들은 빈번한 부분 디코딩과 외부 보상 모델에 의존하기 때문에, 중간 디코딩 결과의 본질적인 불완전성으로 인해 NTP 기반 이미지 생성에는 적합하지 않습니다. 이러한 격차를 해소하기 위해, 우리는 초기 디코딩이나 보조 보상 없이도 NTP 기반 AR 이미지 생성을 위해 특별히 설계된 첫 번째 TTS 프레임워크인 ScalingAR을 소개합니다. ScalingAR은 시각적 토큰 생성에서 토큰 엔트로피를 새로운 신호로 활용하며, 두 가지 상호 보완적인 스케일링 수준에서 작동합니다: (i) 프로파일 수준에서는 내재적 신호와 조건적 신호를 융합하여 보정된 신뢰 상태를 스트리밍하고, (ii) 정책 수준에서는 이 상태를 활용하여 낮은 신뢰도의 궤적을 적응적으로 종료하고 단계에 적합한 조건 강도를 동적으로 스케줄링합니다. 일반 및 구성적 벤치마크에서의 실험 결과, ScalingAR은 (1) GenEval에서 기본 모델을 12.5%, TIIF-Bench에서 15.2% 향상시키고, (2) 시각적 토큰 소비를 62.0% 효율적으로 줄이면서도 기준 모델을 능가하며, (3) 견고성을 강화하여 도전적인 시나리오에서 성능 저하를 26.0% 완화하는 데 성공했습니다.
추론은 패턴 매칭이나 해결책의 암기를 넘어서서 어려운 문제에 대한 답을 도출할 수 있는 "알고리즘적 절차"를 식별하고 구현하는 것을 요구합니다. 이를 위해서는 가장 관련성이 높은 기본 요소, 중간 결과 또는 공유 절차를 인식하고 이를 기반으로 구축해야 합니다. 긴 사고 사슬에 대한 사후 훈련을 통해 강화 학습(RL)은 궁극적으로 이러한 종류의 알고리즘적 행동을 발견하는 것을 목표로 하지만, 대형 모델이 학습한 대부분의 추론 흔적은 절차를 일관되게 포착하거나 재사용하는 데 실패하고, 대신 장황하고 퇴화된 탐색으로 흐르는 경향이 있습니다. 더 효과적인 추론을 위해, 우리는 추론 추상화를 도입합니다: 이는 절차적 및 사실적 지식에 대한 간결한 자연어 설명으로, 모델이 성공적인 추론을 학습하도록 안내합니다. 우리는 모델이 주어진 문제에 대해 여러 추상화를 제안할 수 있도록 훈련시킨 다음, 이러한 추상화가 제공하는 정보를 사용하여 해결책을 구축하도록 강화 학습(RL)을 적용합니다. 이는 추상화 생성기와 해결책 생성기를 공동으로 훈련시키는 두 플레이어 RL 훈련 패러다임(RLAD로 약칭)으로, 구조화된 탐색을 효과적으로 가능하게 하고, 추상화 제안과 해결책 생성의 학습 신호를 분리하며, 더 어려운 문제에 대한 일반화를 개선합니다. 또한, 테스트 시 더 많은 계산 자원을 추상화 생성에 할당하는 것이 큰 테스트 예산에서 더 많은 해결책을 생성하는 것보다 성능에 더 유리하다는 것을 보여줌으로써, 의미 있는 탐색을 안내하는 데 있어 추상화의 역할을 입증합니다.
비전-언어-행동(Vision-Language-Action, VLA) 모델은 지각, 언어 이해, 행동 생성을 통합하여 구체화된 AI에 광범위한 영향을 미치며 강력한 교차 작업 및 교차 장면 일반화를 제공하는 것을 목표로 합니다. 그러나 현재의 VLA 모델은 종종 명시적인 단계별 추론이 부족하며, 대신 affordance 제약이나 기하학적 관계를 고려하지 않고 최종 행동을 생성합니다. 또한, 사후 학습 파이프라인은 주로 약한 보상 설계를 기반으로 한 지도 미세 조정에 의존하며, 추론 품질을 강화하는 경우가 드뭅니다. 이러한 문제를 해결하기 위해, 우리는 검증 가능한 보상을 통한 강화 학습(Reinforcement Learning from Verifiable Rewards, RLVR)과 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 통합하여 추론과 실행을 체계적으로 최적화하는 추론 강화형 VLA인 VLA-R1을 제안합니다. 구체적으로, 우리는 영역 정렬, 궤적 일관성, 출력 형식화를 위한 검증 가능한 보상을 기반으로 한 RLVR 사후 학습 전략을 설계하여 추론의 견고성과 실행의 정확성을 강화합니다. 또한, 우리는 affordance 및 궤적 주석과 명시적으로 정렬된 사고의 연쇄(chain-of-thought) 감독을 제공하는 고품질 데이터셋인 VLA-CoT-13K를 개발했습니다. 더 나아가, 도메인 내, 도메인 외, 시뮬레이션 및 실제 로봇 플랫폼에서의 광범위한 평가를 통해 VLA-R1이 기존 VLA 방법들에 비해 우수한 일반화 및 실제 세계 성능을 달성함을 입증했습니다. 우리는 이 연구의 출판 후 모델, 코드, 데이터셋을 공개할 계획입니다. 코드: https://github.com/GigaAI-research/VLA-R1. 웹사이트: https://gigaai-research.github.io/VLA-R1.
흉부 X선 이미지에서 자동화된 구조적 방사선 보고서 생성(SRRG)은 명확성, 일관성 및 임상 보고 표준 준수를 보장하는 구조화된 형식의 보고서를 생성함으로써 방사선 전문의의 업무 부담을 크게 줄일 수 있는 잠재력을 제공합니다. 방사선 전문의들은 진단 추론 과정에서 사용 가능한 임상적 맥락을 효과적으로 활용하지만, 기존의 SRRG 시스템은 이러한 필수 요소들을 간과하고 있습니다. 이러한 근본적인 격차는 존재하지 않는 임상적 맥락을 참조할 때 시간적 환각과 같은 심각한 문제를 초래합니다. 이러한 한계를 해결하기 위해, 우리는 SRRG를 위해 풍부한 임상적 맥락을 포괄적으로 통합한 맥락화된 SRRG(C-SRRG)를 제안합니다. 우리는 1) 다중 뷰 X선 이미지, 2) 임상적 적응증, 3) 영상 기법, 4) 환자 이력에 기반한 이전 연구와 해당 비교를 포함한 포괄적인 임상적 맥락을 통합하여 C-SRRG 데이터셋을 구축했습니다. 최첨단 멀티모달 대형 언어 모델을 사용한 광범위한 벤치마킹을 통해, 제안된 C-SRRG와 함께 임상적 맥락을 통합하면 보고서 생성 품질이 크게 향상됨을 입증했습니다. 우리는 임상적으로 정렬된 자동화된 RRG를 위한 향후 연구를 촉진하기 위해 데이터셋, 코드 및 체크포인트를 https://github.com/vuno/contextualized-srrg에서 공개합니다.
그래프 신경망(GNNs)은 분자 기계 학습, 특히 분자 특성 예측 및 기계 학습 원자간 포텐셜(MLIPs)을 위한 주요 아키텍처입니다. GNN은 고정된 반경 커트오프 또는 k-최근접 이웃 방식으로 유도된 미리 정의된 그래프에서 메시지 전달을 수행합니다. 이러한 설계는 많은 분자 작업에서 나타나는 지역성과 일치하지만, 고정된 수용 필드로 인해 하드코딩된 그래프는 표현력을 제한할 수 있으며 희소 그래프 연산으로 인해 추론 속도를 저하시킬 수 있습니다. 본 연구에서는 미리 정의된 그래프나 물리적 사전 지식 없이 직교 좌표에 직접 학습된 순수하고 수정되지 않은 트랜스포머가 분자 에너지와 힘을 근사할 수 있는지 조사합니다. 분석의 출발점으로, 우리는 OMol25 데이터셋에서 최신 등변 GNN과 비교하여 일치하는 학습 계산 예산 하에서 트랜스포머가 경쟁력 있는 에너지 및 힘 평균 절대 오차를 달성하도록 학습하는 방법을 보여줍니다. 우리는 트랜스포머가 원자간 거리에 반비례하여 감소하는 주의 가중치와 같은 물리적으로 일관된 패턴을 학습하고, 하드코딩된 편향이 없기 때문에 다양한 분자 환경에서 유연하게 적응한다는 것을 발견했습니다. 표준 트랜스포머의 사용은 또한 다른 도메인에서 관찰된 경험적 스케일링 법칙과 일치하는 학습 자원 스케일링에 대한 예측 가능한 개선을 가능하게 합니다. 우리의 결과는 GNN의 많은 유리한 특성이 트랜스포머에서 적응적으로 나타날 수 있음을 보여주며, 하드코딩된 그래프 귀납적 편향의 필요성에 도전하고 분자 모델링을 위한 표준화되고 확장 가능한 아키텍처를 제시합니다.
컴퓨터 사용 에이전트(CUAs)는 사용자 목표를 달성하기 위해 GUI 상에서 동작을 수행하는 에이전트의 한 유형으로, 점점 더 많이 배포되고 있습니다. 본 논문에서 우리는 CUAs가 실현 가능성, 안전성, 신뢰성 또는 맥락과 관계없이 목표를 추구하는 편향인 블라인드 목표 지향성(Blind Goal-Directedness, BGD)을 일관되게 보인다는 것을 보여줍니다. 우리는 BGD의 세 가지 주요 패턴을 다음과 같이 특성화합니다: (i) 맥락적 추론의 부재, (ii) 모호함 속에서의 가정과 결정, (iii) 모순적이거나 실현 불가능한 목표. 우리는 이러한 세 가지 패턴을 포착한 90개의 작업으로 구성된 BLIND-ACT 벤치마크를 개발했습니다. OSWorld를 기반으로 구축된 BLIND-ACT는 현실적인 환경을 제공하고, LLM 기반 평가자를 사용하여 에이전트의 행동을 평가하며, 인간 주석과 93.75%의 일치율을 달성합니다. 우리는 BLIND-ACT를 사용하여 Claude Sonnet 및 Opus 4, Computer-Use-Preview, GPT-5를 포함한 9개의 최신 모델을 평가했으며, 이들 간의 평균 BGD 비율이 80.8%로 높게 관찰되었습니다. 우리는 BGD가 입력이 직접적으로 해롭지 않은 경우에도 발생할 수 있는 미묘한 위험을 노출시킨다는 것을 보여줍니다. 프롬프트 기반 개입은 BGD 수준을 낮추지만, 상당한 위험이 여전히 남아 있어 더 강력한 훈련 또는 추론 시점의 개입이 필요함을 강조합니다. 질적 분석은 관찰된 실패 모드를 밝혀냈습니다: 실행 우선 편향(어떻게 행동할지에 초점을 맞추는 것보다 행동할지 여부에 초점을 맞춤), 사고-행동 분리(추론과 실행이 일치하지 않음), 요청 우선성(사용자 요청으로 인해 행동을 정당화함). BGD를 식별하고 BLIND-ACT를 소개함으로써, 이 근본적인 위험을 연구하고 완화하며 안전한 CUA 배포를 보장하기 위한 미래 연구의 기반을 마련했습니다.
멀티모달 표현 학습 모델은 복잡한 작업에서 성공적으로 작동해 왔으며, 비전-언어 모델(VLMs)의 통합은 지시를 따르는 기능을 갖춘 임베딩 모델을 더욱 가능하게 했습니다. 그러나 기존의 임베딩 모델은 사용자로부터 관심 영역(예: 점, 바운딩 박스, 마스크)을 지정할 수 있는 시각적 상호작용 기능이 부족하며, 이는 생성 모델에서 인간과의 상호작용 적용 범위를 넓히기 위해 탐구되어 왔습니다. 임베딩 모델에 시각적 상호작용 기능을 추가하는 것은 사용자 의도의 지역적 근거를 통해 새로운 응용 프로그램을 가능하게 할 뿐만 아니라, 전통적인 임베딩 작업을 위한 전역적 표현을 보완하기 위해 이미지 내의 개체 수준 정보를 학습할 수 있게 합니다. 본 논문에서는 세그멘테이션 모델과 비전-언어 모델의 기능을 표현 학습 영역으로 확장하는 새로운 Visual-InteRactive Text-Image Universal Embedder(VIRTUE)를 제안합니다. VIRTUE에서 세그멘테이션 모델은 이미지 내 특정 영역을 정확히 지정하는 시각적 프롬프트를 처리할 수 있어, 임베더가 복잡하고 모호한 시나리오를 더 정밀하게 처리할 수 있게 합니다. VIRTUE의 시각적 상호작용 능력을 평가하기 위해, 특정 객체와 이미지 장면을 함께 고려하여 텍스트 캡션을 검색하는 대규모 Segmentation-and-Scene Caption Retrieval(SCaR) 벤치마크를 100만 개의 샘플로 구성했습니다. VIRTUE는 36개의 범용 MMEB(3.1%-8.5%) 및 5개의 시각적 상호작용 SCaR(15.2%-20.3%) 작업에서 지속적으로 최첨단 성능을 달성하며 상당한 개선을 보였습니다.
대규모 언어 모델(LLM)을 위한 오프-폴리시 강화 학습(RL)은 실세계 애플리케이션의 실용적 제약, LLM-RL 인프라의 복잡성, 그리고 RL 방법론의 추가 혁신 필요성에 의해 점점 더 많은 관심을 받고 있다. 전통적인 REINFORCE와 그 현대적 변형인 그룹 상대적 정책 최적화(GRPO)는 일반적으로 제한된 오프-폴리시 내성을 가진 온-폴리시 알고리즘으로 간주되지만, 본 연구에서는 특정 훈련 데이터 분포를 가정하지 않고 그룹 상대적 REINFORCE의 원리 기반 유도를 제시하며, 이는 본질적으로 오프-폴리시 해석을 허용함을 보여준다. 이 관점은 REINFORCE를 오프-폴리시 설정에 적응시키기 위한 두 가지 일반 원칙을 제공한다: 정책 업데이트를 정규화하고, 데이터 분포를 능동적으로 형성하는 것이다. 우리의 분석은 GRPO에서 중요도 샘플링과 클리핑의 역할에 대한 몇 가지 오해를 해소하고, 최근 두 알고리즘인 온라인 정책 미러 디센트(OPMD)와 비대칭 REINFORCE(AsymRE)를 REINFORCE 손실의 정규화된 형태로 통합 및 재해석하며, 겉보기에는 휴리스틱한 데이터 가중치 전략에 대한 이론적 근거를 제공한다. 우리의 연구 결과는 광범위한 실증 연구를 통해 검증된 실행 가능한 통찰력을 제공하며, LLM을 위한 오프-폴리시 RL에서 원칙 기반 알고리즘 설계를 위한 새로운 기회를 열어준다. 본 연구의 소스 코드는 https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k에서 확인할 수 있다.
텍스트-이미지(T2I) 모델은 단일 개체 프롬프트에서는 뛰어난 성능을 보이지만, 다중 주체 설명에서는 속성 누출, 정체성 혼합, 주체 생략 등의 문제를 겪는 경우가 많습니다. 우리는 샘플링 역학을 다중 주체 충실도로 이끌기 위한 원칙적이고 최적화 가능한 목적 함수를 갖춘 최초의 이론적 프레임워크를 소개합니다. 확률적 최적 제어(SOC) 관점에서 흐름 매칭(FM)을 바라보며, 학습된 FM 샘플러에 대한 제어로서 주체 분리를 공식화합니다. 이를 통해 두 가지 아키텍처에 독립적인 알고리즘을 도출했습니다: (i) 기본 속도를 단일 패스 업데이트로 교란시키는 학습 불필요 테스트 타임 제어기, 그리고 (ii) 기본 모델의 기능을 유지하면서 제어 네트워크를 역방향 수반 신호로 회귀시키는 경량 미세 조정 규칙인 Adjoint Matching. 동일한 공식화는 기존의 주의 메커니즘을 통합하고, 흐름-확산 대응을 통해 확산 모델로 확장하며, 다중 주체 충실도를 위해 명시적으로 설계된 최초의 미세 조정 경로를 제공합니다. 실험적으로, Stable Diffusion 3.5, FLUX, 그리고 Stable Diffusion XL에서 두 알고리즘 모두 기본 모델 스타일을 유지하면서 다중 주체 정렬을 지속적으로 개선했습니다. 테스트 타임 제어는 일반 GPU에서 효율적으로 실행되며, 제한된 프롬프트로 학습된 미세 조정 제어기는 보이지 않는 프롬프트에도 일반화됩니다. 또한, 모델 간 최고 수준의 다중 주체 충실도를 달성하는 FOCUS(Flow Optimal Control for Unentangled Subjects)를 강조합니다.
시계열 예측은 에너지, 금융, 기후, 공중보건 등 다양한 분야에서 의사결정의 핵심 요소입니다. 실제로 예측자들은 빈도, 품질, 예측 기간이 다양한 수천 개의 짧고 노이즈가 많은 시계열 데이터를 다루며, 이때 주요 비용은 모델 적합이 아니라 신뢰할 수 있는 예측을 얻기 위해 필요한 노동 집약적인 전처리, 검증, 앙상블 과정에 있습니다. 기존의 통계 및 딥러닝 모델들은 특정 데이터셋이나 도메인에 맞춰져 있어 일반화가 잘 되지 않습니다. 따라서 인간의 개입을 최소화하는 일반적이고 도메인에 구애받지 않는 프레임워크가 시급히 요구되고 있습니다. 본 논문에서는 일반적인 시계열 예측을 위한 최초의 LLM 기반 에이전트 프레임워크인 TimeSeriesScientist(TSci)를 소개합니다. 이 프레임워크는 네 가지 전문 에이전트로 구성됩니다: Curator는 데이터 통계를 기반으로 한 외부 도구를 활용하여 LLM이 안내하는 진단을 수행하고, 이를 통해 목적에 맞는 전처리를 선택합니다; Planner는 다중 모드 진단과 입력에 대한 자기 계획을 통해 모델 선택의 가설 공간을 좁힙니다; Forecaster는 모델 적합과 검증을 수행하고, 그 결과를 바탕으로 최적의 모델 구성과 앙상블 전략을 적응적으로 선택하여 최종 예측을 생성합니다; 그리고 Reporter는 전체 과정을 종합적이고 투명한 보고서로 정리합니다. 투명한 자연어 설명과 포괄적인 보고서를 통해 TSci는 예측 워크플로를 해석 가능하고 작업 간 확장 가능한 화이트박스 시스템으로 변환합니다. 8개의 확립된 벤치마크에서의 실험 결과는 TSci가 통계 및 LLM 기반 베이스라인을 모두 일관되게 능가하며, 각각 평균 10.4%와 38.2%의 예측 오차를 감소시킴을 보여줍니다. 더욱이 TSci는 예측 워크플로를 더 투명하고 해석 가능하게 만드는 명확하고 엄격한 보고서를 생성합니다.
병렬 LLM 추론 스케일링은 단일 입력 프롬프트에 대해 N>1개의 응답을 샘플링하는 것을 포함합니다. 그러나 이러한 N개의 병렬 응답은 서로 독립적으로 생성되는 경향이 있어, 컴퓨팅 리소스를 분할하고 한 생성에서 잠재적으로 유용한 정보를 다른 생성에서 활용하지 못하게 합니다. 이는 과거 계산이 모든 미래 단계에서 사용되는 응답 길이 스케일링과는 대조적입니다. 더 높은 품질의 응답과 응답 집합을 위해, 우리는 배치된 LLM 은닉 상태를 독립적인 슬라이스가 아닌 전체적인 텐서로 재구성하여 상호 의존적인 응답을 병렬로 생성하는 Bridge를 제안합니다. 단지 소량(2.8%-5.1%)의 새로운 파라미터만으로, Bridge는 검증 가능한 보상을 통한 강화 학습의 상대적 평균 정확도 향상을 최대 50%까지 개선하고 올바른 응답의 일관성을 높입니다. 한 번 훈련된 Bridge는 모든 생성 폭에 대해 독립적인 생성보다 더 나은 성능을 발휘하며, 시퀀스 간 정보를 효과적으로 활용하는 더 일반적인 병렬 스케일링 모드를 제공하며, 모든 생성 후 집계 기술과 호환됩니다.
추론 훈련은 대형 언어 모델(LLM)이 긴 사고 사슬(long CoT)을 생성하도록 유도하며, 이를 통해 모델은 자체 점검을 통해 해결 전략을 탐색할 수 있다. 이는 정확도를 높이는 결과를 가져오지만, 컨텍스트 길이, 토큰/계산 비용, 그리고 응답 지연 시간을 증가시킨다. 우리는 다음과 같은 질문을 던진다: 현재의 모델들이 메타인지를 활용하여 이 파레토 프론티어 상에서 다른 조합(예: 더 낮은 컨텍스트 길이 및/또는 지연 시간과 함께 더 나은 정확도)을 제공할 수 있는가? 추상적으로, 우리는 모델을 자체 "사고"에 대한 개선 연산자로 간주하며, 가능한 전략의 연속체를 고려한다. 우리는 흥미로운 추론 패밀리인 병렬-증류-정제(Parallel-Distill-Refine, PDR)를 식별한다. 이는 다음과 같은 과정을 수행한다: (i) 병렬적으로 다양한 초안을 생성; (ii) 이를 제한된 텍스트 작업 공간으로 증류; (iii) 이 작업 공간을 조건으로 정제하여 다음 라운드의 시드가 되는 출력을 생성. 중요한 점은, 병렬화 정도를 통해 컨텍스트 길이(따라서 계산 비용)를 제어할 수 있으며, 이는 더 이상 생성된 토큰의 총 수와 혼동되지 않는다. 우리는 현재 모델의 PDR 구현이 긴 CoT보다 더 나은 정확도를 제공하면서도 더 낮은 지연 시간을 발생시킨다고 보고한다. 병렬화 정도를 1로 설정하면 흥미로운 하위 사례인 순차적 정제(Sequential Refinement, SR)(단일 후보 답변을 반복적으로 개선)가 발생하며, 이는 긴 CoT보다 우수한 성능을 제공한다. 이러한 모델 오케스트레이션의 성공은 추가 훈련이 파레토 프론티어를 이동시킬 수 있는지에 대한 질문을 제기한다. 이를 위해, 우리는 8B 사고 모델을 강화 학습(Reinforcement Learning, RL)으로 훈련시켜 PDR을 추론 방법으로 일관되게 만든다. 검증 가능한 답변이 있는 수학 과제에서, 반복적 파이프라인은 동일한 순차적 예산에서 단일 패스 기준선을 능가하며, PDR이 가장 큰 이득을 제공한다(예: AIME 2024에서 +11%, AIME 2025에서 +9%).
지도 미세 조정(SFT)은 대규모 언어 모델(LLM)을 적응시키는 데 주로 사용되는 방법이지만, 강화 학습(RL)에 비해 일반화 능력이 부족한 경우가 많습니다. 본 연구에서는 이러한 성능 차이가 단순히 손실 함수의 차이뿐만 아니라 더 근본적인 차이에서 비롯된다고 주장합니다: SFT는 미리 수집된 고정된 데이터셋에서 학습하는 반면, RL은 현재 정책에서 샘플링된 온-정책 데이터를 활용합니다. 이 가설을 바탕으로, 우리는 정책 경사법을 통해 SFT를 안내하는 새로운 미세 조정 알고리즘인 단일 토큰 롤아웃(OTR)을 제안합니다. OTR은 자동회귀 학습 과정을 재구성하여 각 토큰 생성을 단일 단계의 강화 학습 궤적으로 취급합니다. 각 단계에서 현재 정책의 분포로부터 여러 후보 토큰을 샘플링하여 몬테카를로 "롤아웃"을 수행합니다. 지도 데이터의 실제 토큰은 이러한 샘플에 대한 보상 신호로 사용됩니다. 정책 경사법의 지도 하에, 우리의 알고리즘은 정적이고 오프-정책인 지도 데이터를 토큰 수준에서 동적이고 온-정책인 신호로 재구성함으로써, 온-정책 학습의 일반화 이점을 포착하면서도 전체 문장 생성을 위한 비용이 많이 드는 오버헤드를 피합니다. 수학적 추론, 코드 생성, 일반 도메인 추론 등 다양한 도전적인 벤치마크에 대한 광범위한 실험을 통해, OTR이 표준 SFT를 지속적으로 능가함을 입증합니다. 우리의 연구 결과는 OTR을 LLM 미세 조정을 위한 강력하고 실용적인 대안으로 확립하고, 데이터의 온-정책 특성이 일반화의 중요한 동인임을 설득력 있게 보여줌으로써, LLM 미세 조정을 위한 새로운 방향을 제시합니다.
대규모 비전-언어 모델(LVLMs)이 비디오 이해 분야에서 상당한 진전을 이루었지만, 긴 비디오 추론에의 적용은 균일한 프레임 샘플링과 정적 텍스트 추론으로 인해 비효율적이며 시각적으로 집약적인 비디오 작업을 처리하는 데 어려움을 겪고 있습니다. 이러한 문제를 극복하기 위해, 본 논문에서는 긴 비디오를 활용한 사고 개념을 도입하고 새로운 프레임워크인 FrameThinker를 제안합니다. 이 프레임워크 내에서 LVLMs는 비디오 콘텐츠를 반복적으로 질의할 수 있습니다. LVLMs에 이러한 비디오 추론 능력을 개발하는 것은 특히 모델을 새로운 비디오 동작(예: 프레임 선택)에 적응시키고, LVLMs가 새로 도입된 동작을 채택하도록 유도하기 위한 보상 함수를 설계하는 데 있어 상당한 도전 과제를 제시합니다. 이러한 문제를 해결하기 위해, 우리는 기본 동작 능력을 심어주기 위한 지도 미세 조정(SFT) 단계와 전략적 의사 결정 정책을 최적화하기 위한 강화 학습(RL) 단계로 구성된 두 단계 훈련 전략을 제안합니다. 특히, 이 RL 단계에서는 각 동작과 형식 보상에 대한 보상 설계를 심층적이고 포괄적으로 탐구합니다. Video-Holmes, LongVideo-Reason과 같은 추론 벤치마크 및 LongVideoBench, MLVU, VideoMME, LVBench와 같은 긴 비디오 이해 벤치마크에서의 광범위한 실험을 통해 FrameThinker가 기준선 대비 평균 +10.4%의 상당한 개선을 달성하면서 처리된 프레임 수를 크게 줄인 것을 입증했습니다. 특히, 우리의 7B 모델인 FrameThinker는 LongVideo-Reason에서 평균 20.6개의 프레임만을 사용하여 76.1%의 정확도를 달성하며 새로운 최첨단 기술을 확립했습니다. 이는 경쟁 모델인 LongVILA-R1(72.0%)을 능가할 뿐만 아니라, 20배 이상 적은 프레임(512개 대비)을 사용하여 비교할 수 없는 효율성과 효과를 입증했습니다.
대규모 언어 모델(LLM)의 아레나 스타일 평가에서는 두 개의 LLM이 사용자 질의에 응답하고, 사용자가 승리한 응답을 선택하거나 "대결"을 무승부로 판단함으로써 두 모델의 등급이 조정됩니다. 이러한 등급 역학을 모델링하는 현재의 주요 접근 방식은 체스와 마찬가지로 대결을 두 명의 플레이어 간의 게임 매치로 간주하고 Elo 등급 시스템 및 그 파생 시스템을 적용하는 것입니다. 본 논문에서는 이러한 패러다임을 비판적으로 검토합니다. 특히, 무승부가 진정으로 두 모델이 동등함을 의미하는지, 그리고 그들의 등급이 동일화되어야 하는지에 대해 의문을 제기합니다. 대신, 우리는 무승부가 질의의 난이도를 더 잘 나타낼 것이라고 추측합니다: 질의가 너무 쉬운 경우, 두 모델이 동등하게 성공할 가능성이 더 높습니다. 세 가지 실제 아레나 데이터셋에서, 무승부에 대한 등급 업데이트를 무시하면 연구된 네 가지 등급 시스템 모두에서 대결 결과 예측 정확도(무승부 포함)가 1-3% 상대적으로 증가함을 보여줍니다. 추가 분석은 무승부가 매우 쉬운 것으로 평가된 질의와 매우 객관적인 질의에서 더 자주 발생하며, 각각 위험 비율이 1.37과 1.35임을 시사합니다. 우리는 향후 등급 시스템이 기존의 무승부 의미를 재고하고 등급 업데이트 시 질의 속성을 고려할 것을 권장합니다.
최근 강화 사후 학습(Reinforcement Post-Training, RPT)의 발전으로 대규모 추론 모델(Large Reasoning Models, LRMs)의 능력이 크게 향상되었으며, 이는 RL 기반 추론의 일반화에 대한 관심을 더욱 높이고 있습니다. 기존 연구는 주로 작업이나 모달리티 간의 일반화를 탐구하는 데 초점을 맞추었지만, 본 연구는 추론 일반화를 조사하기 위한 새로운 교차 언어적 관점을 제안합니다. 이는 다음과 같은 중요한 질문을 제기합니다: 영어 RPT를 통해 달성된 추론 능력이 다른 언어로 효과적으로 전이될까요? 우리는 이를 위해 영어 중심의 LRMs를 다국어 추론 벤치마크에서 체계적으로 평가하고, 교차 언어 전이 가능성을 정량화하는 지표를 도입합니다. 연구 결과, 교차 언어 전이 가능성은 초기 모델, 대상 언어, 그리고 학습 패러다임에 따라 크게 달라지는 것으로 나타났습니다. 중재 연구를 통해, 초기 영어 능력이 강한 모델들이 영어 특정 패턴에 과도하게 의존하여 교차 언어 일반화가 감소하는 경향을 발견했습니다. 이를 해결하기 위해, 우리는 철저한 병렬 학습 연구를 수행했습니다. 실험 결과는 세 가지 주요 발견을 도출했습니다: 첫째, 단일 언어에서 단 하나의 병렬 언어로 전환할 때 발생하는 성능의 큰 도약인 'First-Parallel Leap', 둘째, 교차 언어 추론 전이가 학습된 병렬 언어의 수에 따라 멱법칙을 따르는 'Parallel Scaling Law', 그리고 실제 단일 언어 성능과 멱법칙 예측 간의 차이를 나타내는 'Monolingual Generalization Gap'입니다. 이는 영어 중심의 LRMs가 언어 간 완전한 일반화를 달성하지 못함을 나타냅니다. 본 연구는 LRM 추론이 인간 인지와 유사하다는 가정에 도전하며, 더 언어 중립적인 LRMs 개발을 위한 중요한 통찰을 제공합니다.
기존의 다층 퍼셉트론(MLP)은 일반적으로 좁은-넓은-좁은 설계를 따르며, 스킵 연결(skip connection)은 입력/출력 차원에서 작동하는 반면 처리는 확장된 은닉 공간에서 이루어집니다. 우리는 이러한 관례에 도전하여, 스킵 연결이 확장된 차원에서 작동하고 잔차 계산이 좁은 병목(bottleneck)을 통해 흐르는 넓은-좁은-넓은(모래시계형, Hourglass) MLP 블록을 제안합니다. 이러한 역전은 점진적 정제를 위해 고차원 공간을 활용하면서도 매개변수 일치 설계를 통해 계산 효율성을 유지합니다. 모래시계형 MLP를 구현하려면 입력 신호를 확장된 차원으로 끌어올리는 초기 투영(projection)이 필요합니다. 우리는 이 투영이 훈련 과정 내내 무작위 초기화 상태로 고정될 수 있다고 제안하며, 이를 통해 효율적인 훈련 및 추론 구현이 가능하다고 주장합니다. 우리는 두 가지 아키텍처를 인기 있는 이미지 데이터셋에 대한 생성 작업에서 평가하고, 체계적인 아키텍처 탐색을 통해 성능-매개변수 파레토 프론티어(Pareto frontier)를 특성화합니다. 결과는 모래시계형 아키텍처가 기존 설계에 비해 일관되게 우수한 파레토 프론티어를 달성함을 보여줍니다. 매개변수 예산이 증가함에 따라, 최적의 모래시계형 구성은 더 깊은 네트워크와 더 넓은 스킵 연결, 더 좁은 병목을 선호하는데, 이는 기존 MLP와 구별되는 확장 패턴입니다. 우리의 연구 결과는 현대 아키텍처에서 스킵 연결 배치를 재고할 필요성을 시사하며, 트랜스포머(Transformer) 및 기타 잔차 네트워크로의 잠재적 응용 가능성을 제시합니다.
대형 언어 모델(LLM)은 현재 많은 공개 수학 평가 세트에서 강력한 성능을 보이고 있지만, 수학 분야 내 최첨단 모델 간의 격차는 점점 더 천장 효과를 겪고 있습니다. 우리는 두 가지 상호 보완적인 벤치마크를 제시합니다: SKYLENAGE-ReasoningMATH는 100개 항목으로 구성된 구조 인식 진단 세트로, 각 항목의 길이, 숫자 밀도, 기호 복잡성에 대한 메타데이터를 포함하며; SKYLENAGE-MATH는 고등학교부터 박사 과정까지 네 단계에 걸친 150개 항목의 경쟁 스타일 세트로, 일곱 가지 주제 분류 체계를 따릅니다. 우리는 단일 설정 하에서 15개의 최신 LLM 변종을 평가하고, 주제별 x 모델 및 학년별 x 모델 성능을 분석합니다. 경쟁 세트에서 가장 강력한 모델은 44%의 정확도를 달성하며, 2위 모델은 37%를 기록합니다. 정확도는 고등학교에서 박사 과정으로 갈수록 감소하며, 최상위 시스템은 박사 과정에서 고등학교 수준까지 약 79%의 유지율을 보입니다. 추론 세트에서 최고 모델은 전체적으로 81%의 정확도를 달성하며, 가장 어려운 부분의 결과는 선두 그룹과 중간 그룹 간의 명확한 견고성 차이를 보여줍니다. 요약하자면, 우리는 SKYLENAGE-ReasoningMATH를 공개하고 SKYLENAGE-MATH의 집계 결과를 보고합니다. SKYLENAGE는 함께, 보정된 난이도와 풍부한 메타데이터를 갖춘 어렵고 추론 중심의 포괄적인 수학 벤치마크를 제공하며, 향후 수학적 추론 평가를 위한 참조 벤치마크로 기능할 것입니다.
의료 영상 품질 평가(IQA)는 임상 AI의 첫 번째 안전 장치 역할을 하지만, 기존 접근법들은 스칼라 점수 기반 메트릭에 제한되어 있으며 전문가 평가의 핵심인 서술적이고 인간과 유사한 추론 과정을 반영하지 못하고 있습니다. 이러한 격차를 해결하기 위해, 우리는 다중 모드 대형 언어 모델(MLLMs)을 기반으로 한 의료 영상 품질 평가를 위한 인지-추론 패러다임을 확립하는 종합 벤치마크인 MedQ-Bench를 소개합니다. MedQ-Bench는 두 가지 상호 보완적인 과제를 정의합니다: (1) MedQ-Perception은 기본 시각 속성에 대한 인간이 선별한 질문을 통해 저수준 인지 능력을 탐구하고, (2) MedQ-Reasoning은 참조 없음 및 비교 추론 과제를 포함하여 모델 평가를 인간과 유사한 영상 품질 추론과 일치시킵니다. 이 벤치마크는 5가지 영상 모달리티와 40개 이상의 품질 속성을 포괄하며, 총 2,600개의 인지 질문과 708개의 추론 평가로 구성되어 있습니다. 여기에는 실제 임상 획득 영상, 물리 기반 재구성을 통해 시뮬레이션된 저하 영상, 그리고 AI 생성 영상 등 다양한 영상 소스가 포함됩니다. 추론 능력을 평가하기 위해, 우리는 모델 출력을 네 가지 상호 보완적인 축을 따라 평가하는 다차원 판단 프로토콜을 제안합니다. 또한, 우리는 LLM 기반 판단과 방사선 전문가의 판단을 비교하여 엄격한 인간-AI 정렬 검증을 수행합니다. 14개의 최신 MLLMs에 대한 평가 결과, 모델들은 예비적이지만 불안정한 인지 및 추론 능력을 보여주며, 신뢰할 수 있는 임상 사용을 위한 충분한 정확도를 갖추지 못했습니다. 이러한 결과는 의료 IQA에서 MLLMs의 목표 지향적 최적화의 필요성을 강조합니다. 우리는 MedQ-Bench가 더 많은 탐구를 촉발하고 의료 영상 품질 평가를 위한 MLLMs의 잠재력을 개방할 수 있기를 바랍니다.
이중 인코더 검색기는 주어진 쿼리에 대해 관련 문서가 비관련 문서보다 더 높은 점수를 받아야 한다는 원리에 의존한다. 그러나 대조 손실(Contrastive Loss)의 기반이 되는 지배적인 노이즈 대조 추정(Noise Contrastive Estimation, NCE) 목적 함수는 완화된 순위 대리 함수를 최적화하며, 이는 점수 분리 품질과 AUC(Area Under the Curve)와 근본적으로 무관하다는 것을 엄밀히 증명한다. 이러한 불일치는 검색 증강 생성(Retrieval-Augmented Generation, RAG)과 같은 다운스트림 작업에서 불량한 보정과 차선의 성능으로 이어진다. 이러한 근본적인 한계를 해결하기 위해, 우리는 ROC 곡선 아래 면적(AUC)과 수학적으로 동일한 Mann-Whitney U 통계량을 최대화하는 새로운 훈련 목적 함수인 MW 손실을 소개한다. MW 손실은 점수 차이에 대한 이진 교차 엔트로피를 최소화함으로써 각 긍정-부정 쌍이 올바르게 순위 매겨지도록 장려한다. 우리는 MW 손실이 AoC(Area under the Curve)를 직접 상한선으로 둠으로써 최적화를 검색 목표와 더 잘 일치시킨다는 이론적 보장을 제공한다. 또한, 우리는 검색기 보정 및 순위 품질을 평가하기 위한 자연스러운 임계값 없는 진단 도구로서 ROC 곡선과 AUC를 더욱 촉진한다. 실증적으로, MW 손실로 훈련된 검색기는 AUC 및 표준 검색 메트릭에서 대조 손실을 사용한 검색기를 지속적으로 능가한다. 우리의 실험은 MW 손실이 대조 손실에 비해 실증적으로 우수한 대안이며, RAG와 같은 고위험 애플리케이션을 위해 더 잘 보정되고 더 구별력 있는 검색기를 제공한다는 것을 보여준다.
텍스트 익명화는 의료, 사회 복지, 법률과 같은 고위험 분야에서 AI를 책임감 있게 개발하고 배포하기 위해 필수적입니다. 본 연구에서는 비식별화 원칙과 Hiding In Plain Sight(HIPS) 이론을 활용한 프라이버시 보존형 합성 텍스트 생성 방법론을 제안합니다. 우리의 접근 방식은 엔티티 인식 제어 코드를 도입하여 인컨텍스트 학습(ICL) 또는 프리픽스 튜닝을 사용한 제어 가능한 생성을 안내합니다. ICL 변형은 기본 비식별화 시스템과 일치하는 프라이버시 수준을 보장하며, 프리픽스 튜닝 변형은 확장 가능한 고품질 생성을 지원하기 위해 맞춤형 마스킹 전략과 손실 함수를 통합합니다. 법률 및 임상 데이터셋에 대한 실험 결과, 우리의 방법은 프라이버시 보호와 유용성 사이에서 강력한 균형을 달성하며, 민감한 분야에서의 합성 텍스트 생성을 위한 실용적이고 효과적인 솔루션을 제공함을 보여줍니다.
대규모 언어 모델(LLM)과 사물인터넷(IoT) 시스템의 통합은 하드웨어 이질성과 제어 복잡성이라는 상당한 과제에 직면해 있습니다. 모델 컨텍스트 프로토콜(MCP)은 LLM과 물리적 장치 간의 표준화된 통신을 제공하는 핵심 요소로 부상하고 있습니다. 우리는 LLM과 IoT 생태계를 연결하기 위해 에지 배포 서버를 통해 MCP를 구현하는 새로운 프레임워크인 IoT-MCP를 제안합니다. 엄격한 평가를 지원하기 위해, IoT 지원 LLM을 위한 114개의 기본 작업(예: "현재 온도는 몇 도입니까?")과 1,140개의 복잡한 작업(예: "너무 덥습니다. 어떤 아이디어가 있나요?")을 포함한 첫 번째 벤치마크인 IoT-MCP Bench를 소개합니다. 22개의 센서 유형과 6개의 마이크로컨트롤러 유닛에 걸친 실험적 검증을 통해 IoT-MCP는 기대를 완전히 충족하는 도구 호출을 생성하고 완전히 정확한 결과를 얻는 100% 작업 성공률, 평균 205ms의 응답 시간, 그리고 74KB의 피크 메모리 사용량을 보여줍니다. 이 연구는 LLM-IoT 시스템을 위한 오픈소스 통합 프레임워크(https://github.com/Duke-CEI-Center/IoT-MCP-Servers)와 표준화된 평가 방법론을 제공합니다.
대규모 언어 모델(LLM)의 규모가 커짐에 따라, 단순히 모델이 얼마나 커지는가뿐만 아니라 그 용량이 얼마나 효과적으로 활용되는지가 중요한 문제로 대두되고 있습니다. 기존의 스케일링 법칙은 모델 크기와 손실 간의 관계를 설명하지만, 구성 요소들이 잠재 공간을 어떻게 활용하는지는 간과하고 있습니다. 본 연구에서는 피드포워드 네트워크(FFN)를 대상으로 폭 선택 문제를 스펙트럼 활용 문제로 재해석합니다. 경량 진단 도구인 하드 랭크(참여 비율), 소프트 랭크(섀넌 랭크), 스펙트럼 집중도, 그리고 이를 종합한 스펙트럼 활용 지수(SUI)를 사용하여 LLaMA, GPT-2, nGPT 계열 모델에서 의미 있게 활성화된 잠재 방향의 수를 정량화합니다. 주요 발견은 비대칭적 스펙트럼 스케일링 법칙입니다: 소프트 랭크는 FFN 폭에 대해 거의 완벽한 멱법칙을 따르는 반면, 하드 랭크는 하위 선형적으로만 증가하며 높은 분산을 보입니다. 이 비대칭성은 FFN의 폭을 넓히는 것이 주로 저에너지 꼬리 방향을 추가하는 반면, 주요 모드 부분 공간은 일찍 포화된다는 것을 시사합니다. 더욱이, 더 큰 폭에서는 분산이 더욱 좁은 부분 공간으로 수렴되어 잠재 공간의 상당 부분이 미활용 상태로 남게 됩니다. 이러한 결과는 FFN 폭 선택을 꼬리 용량과 주요 모드 용량 간의 원칙적 절충 문제로 재조명하며, 추론 효율적인 LLM 설계를 위한 구체적인 지침을 제공합니다.
구성 이미지 검색(Composed Image Retrieval, CIR)은 참조 이미지의 시각적 내용을 보존하면서 사용자가 지정한 텍스트 수정을 반영한 대상 이미지를 검색하는 것을 목표로 합니다. 작업별 훈련이나 레이블된 데이터가 필요 없는 훈련 없는 제로샷 CIR(ZS-CIR) 접근법은 매우 바람직하지만, 사용자의 의도를 정확히 파악하는 것은 여전히 어려운 과제입니다. 본 논문에서는 다중모드 대형 언어 모델(Multimodal Large Language Models, MLLMs)을 활용하여 ZS-CIR을 향상시키는 새로운 두 단계의 훈련 없는 프레임워크인 SQUARE를 제안합니다. 의미론적 쿼리 증강 융합(Semantic Query-Augmented Fusion, SQAF) 단계에서는 CLIP과 같은 시각-언어 모델(Vision-Language Model, VLM)에서 도출된 쿼리 임베딩을 MLLM이 생성한 대상 이미지의 캡션으로 풍부하게 합니다. 이러한 캡션은 높은 수준의 의미론적 지침을 제공하여 쿼리가 사용자의 의도를 더 잘 파악하고 전역 검색 품질을 개선할 수 있도록 합니다. 효율적 배치 재순위(Efficient Batch Reranking, EBR) 단계에서는 상위 순위 후보들이 시각적 표시가 있는 이미지 그리드로 MLLM에 제공되며, MLLM은 모든 후보에 걸쳐 시각-의미론적 추론을 수행합니다. 우리의 재순위 전략은 단일 패스로 작동하며 더 정확한 순위를 산출합니다. 실험 결과, SQUARE는 단순성과 효과성으로 인해 네 가지 표준 CIR 벤치마크에서 강력한 성능을 보여줍니다. 특히, 경량 사전 훈련 모델에서도 높은 성능을 유지하며, 그 잠재적 적용 가능성을 입증합니다.
최근의 사고 모델들은 테스트 시간 계산을 확장하여 복잡한 추론 과제를 해결하지만, 이러한 확장은 과제의 난이도에 맞게 할당되어야 합니다. 한편, 짧은 추론(과소 사고)은 확장된 추론 단계가 필요한 더 어려운 문제에서 오류를 초래합니다. 그러나 지나치게 긴 추론(과잉 사고)은 토큰 효율성이 떨어져, 올바른 중간 해결책에 도달한 후에도 불필요한 단계를 생성할 수 있습니다. 이를 과제 난이도에 맞게 응답 길이를 적절히 조절하지 못하는 '적응 부족'이라고 부릅니다. 적응 부족을 해결하고 과소 사고와 과잉 사고 사이의 균형을 맞추기 위해, 우리는 TRAAC(Think Right with Adaptive, Attentive Compression)을 제안합니다. TRAAC은 온라인 사후 훈련 강화 학습(RL) 방법으로, 모델의 긴 추론 궤적에 대한 자기 주의력을 활용하여 중요한 단계를 식별하고 중복된 단계를 제거합니다. 또한 TRAAC은 난이도를 추정하고 이를 훈련 보상에 통합함으로써, 예제 난이도에 맞는 추론 예산을 할당하는 방법을 학습합니다. 우리의 접근 방식은 기본 모델 및 다른 RL 베이스라인과 비교하여 정확도를 향상시키고, 추론 단계를 줄이며, 적응적 사고를 가능하게 합니다. 다양한 과제(AIME, AMC, GPQA-D, BBEH)에서 TRAAC(Qwen3-4B)은 기본 모델 대비 평균 절대 정확도 향상 8.4%와 추론 길이 상대적 감소 36.8%를 달성했으며, 최고의 RL 베이스라인 대비 7.9%의 정확도 향상과 29.4%의 길이 감소를 보였습니다. 또한 TRAAC은 강력한 일반화 능력을 보여줍니다: 우리의 모델은 수학 데이터셋으로 훈련되었지만, GPQA-D, BBEH, OptimalThinkingBench와 같은 분포 외 비수학 데이터셋에서도 정확도와 효율성 향상을 보였습니다. 우리의 분석은 TRAAC이 난이도에 기반한 세밀한 사고 예산 조정을 제공하며, 과제 난이도 보정과 주의 기반 압축의 조합이 다양한 과제에서 이점을 가져온다는 것을 추가로 검증합니다.
여러 가지 종종 상충되는 목표를 동시에 만족시키는 서열을 설계하는 것은 치료 및 생체분자 공학에서의 핵심적인 과제이다. 기존의 생성 프레임워크는 주로 단일 목표 지향적이며 연속 공간에서 작동하는 반면, 이산적 접근법은 다중 목표 파레토 최적성에 대한 보장이 부족하다. 본 연구에서는 파레토 프론트로의 수렴을 이론적으로 보장하는 이산 최적화 알고리즘인 AReUReDi(Annealed Rectified Updates for Refining Discrete Flows)를 소개한다. AReUReDi는 Rectified Discrete Flows(ReDi)를 기반으로, 체비쇼프 스칼라화, 지역 균형 제안, 그리고 어닐링된 메트로폴리스-헤이스팅스 업데이트를 결합하여 분포 불변성을 유지하면서 파레토 최적 상태로의 샘플링을 편향시킨다. 펩타이드 및 SMILES 서열 설계에 적용된 AReUReDi는 친화도, 용해도, 용혈성, 반감기, 비오염성 등 최대 다섯 가지의 치료적 특성을 동시에 최적화하며, 진화적 및 확산 기반의 기준선을 모두 능가한다. 이러한 결과는 AReUReDi를 다중 특성 생체분자 생성을 위한 강력한 서열 기반 프레임워크로 입증한다.