번역이 포함된 일일 선별된 AI 연구 논문
RLVR(강화 학습 기반 추론)은 대규모 언어 모델(LLMs)의 고급 추론 능력 개발에 필수적인 요소로 자리 잡았지만, 최근 연구들은 수천 번의 최적화 단계 이후 나타나는 학습 정체 현상을 보고하며, 계산 자원 투자가 증가함에도 불구하고 성능 향상이 현저히 감소하는 것을 보여주었다. 이러한 한계는 현재 RLVR 방법론에서 내재된 희소 탐색 패턴에서 비롯된다. 이는 모델이 제한된 롤아웃에 의존하여 종종 중요한 추론 경로를 놓치고 해결 공간을 체계적으로 커버하지 못하기 때문이다. 본 연구에서는 몬테카를로 트리 탐색(Monte Carlo Tree Search)을 RLVR 훈련에 직접 통합한 DeepSearch 프레임워크를 제안한다. 기존 방법들이 추론 단계에서만 트리 탐색을 활용하는 것과 달리, DeepSearch는 구조화된 탐색을 훈련 루프에 내재시켜 체계적인 탐색과 추론 단계 간 세밀한 신용 할당을 가능하게 한다. 훈련 시간 탐색을 통해 DeepSearch는 장기간의 훈련 단계에서 성능 향상이 감소하는 근본적인 병목 현상인 불충분한 탐색 문제를 해결한다. 본 연구의 주요 기여는 다음과 같다: (1) 탐색 트리 전반에 걸쳐 유망한 노드를 우선적으로 선택하는 전역 프론티어 선택 전략, (2) 확신 있는 경로를 식별하여 지도 학습을 위한 엔트로피 기반 가이던스를 통한 선택, (3) 효율성을 위한 솔루션 캐싱과 적응형 리플레이 버퍼 훈련. 수학적 추론 벤치마크에서의 실험 결과, DeepSearch는 평균 62.95%의 정확도를 달성하며 1.5B 추론 모델에서 새로운 최첨단 기술을 확립했고, 확장된 훈련 접근법보다 5.7배 적은 GPU 시간을 사용했다. 이러한 결과는 무작위 확장보다 전략적 탐색의 중요성을 강조하며, RLVR 방법론을 발전시키기 위한 알고리즘 혁신의 가능성을 보여준다. DeepSearch는 장기간의 계산보다 체계적인 탐색을 통해 추론 능력을 확장하는 새로운 방향을 제시한다.
대규모 언어 모델(LLM)의 훈련 패러다임은 정적 데이터셋에서 경험 기반 학습으로 전환되고 있으며, 이는 에이전트가 복잡한 환경과 상호작용하며 기술을 습득하는 방식을 의미합니다. 이러한 전환을 촉진하기 위해 우리는 LLM 시대를 위한 오픈소스 환경 시뮬레이터인 GEM(General Experience Maker)을 소개합니다. 전통적인 강화학습(RL)을 위한 OpenAI-Gym과 유사하게, GEM은 환경-에이전트 인터페이스를 위한 표준화된 프레임워크를 제공하며, 여기에는 높은 처리량을 위한 비동기 벡터화 실행과 쉬운 확장성을 위한 유연한 래퍼가 포함됩니다. GEM은 또한 다양한 환경 세트, 견고한 통합 도구, 그리고 GEM을 다섯 가지 인기 있는 RL 훈련 프레임워크와 함께 사용하는 방법을 보여주는 단일 파일 예제 스크립트를 제공합니다. 이와 함께, 우리는 REINFORCE with Return Batch Normalization(ReBN)을 사용하여 24개 환경에 걸친 베이스라인 세트도 제공합니다. 이는 GRPO와 달리 턴당 밀집 보상의 완전한 RL 설정과 호환되며 더 나은 신용 할당을 제공합니다. 또한, 우리는 GEM을 사용하여 단일 턴 및 다중 턴 설정에서 PPO, GRPO, REINFORCE의 동등한 벤치마킹을 수행하여 알고리즘 설계에 대한 통찰을 제공합니다. 마지막으로, GEM은 훈련 환경 외에도 편리한 평가 툴킷으로도 기능합니다. 우리는 이 프레임워크가 미래의 에이전트 기반 LLM 연구를 가속화하는 데 도움이 되기를 바랍니다.
훈련 후 양자화는 대규모 언어 모델을 저정밀도로 배포하기 위해 가장 널리 사용되는 전략으로 부상했습니다. 그러나 현재의 방법들은 4비트 이하의 비트 폭에서 perplexity 저하를 보이며, 이는 부분적으로 이상치를 표현할 때 이러한 이상치와 동일한 스케일을 공유하는 매개변수에서 정밀도 문제가 발생하기 때문입니다. 이 문제는 특히 교정이 필요 없는 균일 양자화 방법에서 두드러집니다. 우리는 SINQ를 도입하여 기존의 훈련 후 양자화기에 추가적인 두 번째 축 스케일 인자와 빠른 Sinkhorn-Knopp 스타일 알고리즘을 추가하여 행별 및 열별 분산을 정규화하는 스케일을 찾아, 양자화를 위한 새로운 매트릭스 프록시 목표인 매트릭스 불균형을 최소화합니다. 우리의 방법은 계층 간 상호작용이 없으며 새로운 아키텍처에 간단히 적용하여 모든 선형 계층을 양자화할 수 있습니다. 우리는 이 방법을 Qwen3 모델 패밀리와 DeepSeek-V2.5에서 평가했습니다. SINQ는 WikiText2와 C4 perplexity를 교정되지 않은 균일 양자화 기준선에 비해 크게 개선하며, 교정 및 비균일 양자화 수준과 결합하여 더욱 향상될 수 있습니다. 이 작업의 결과를 재현하고 SINQ를 사용하여 모델을 쉽게 양자화할 수 있는 코드는 https://github.com/huawei-csl/SINQ에서 확인할 수 있습니다.
Vision-Language-Action (VLA) 모델은 구체화된 의사결정을 가능하게 하지만, 모방 학습에 크게 의존함으로써 오차 누적과 분포 변화 상황에서의 낮은 견고성을 초래합니다. 강화 학습(RL)은 이러한 문제를 완화할 수 있지만, 일반적으로 비용이 많이 드는 실제 상호작용을 요구하거나 시뮬레이션-실제 간격(sim-to-real gap) 문제에 직면합니다. 우리는 데이터 기반 세계 모델을 제어 가능한 시뮬레이터로 활용하는 강화 미세 조정 프레임워크인 VLA-RFT를 소개합니다. 실제 상호작용 데이터로부터 학습된 이 시뮬레이터는 행동에 따라 미래의 시각적 관측을 예측하며, 목표 달성 참조에서 도출된 조밀한 궤적 수준의 보상을 통해 정책 롤아웃을 가능하게 합니다. 이 설계는 효율적이고 행동에 정렬된 학습 신호를 제공하여 샘플 요구량을 크게 줄입니다. 400회 미만의 미세 조정 단계로 VLA-RFT는 강력한 지도 학습 베이스라인을 능가하며 시뮬레이터 기반 RL보다 더 큰 효율성을 달성합니다. 또한, 이 모델은 교란된 조건에서도 강한 견고성을 보이며 안정적인 작업 실행을 유지합니다. 우리의 결과는 세계 모델 기반 RFT가 VLA 모델의 일반화와 견고성을 향상시키는 실용적인 사후 학습 패러다임으로 자리 잡았음을 입증합니다. 자세한 내용은 https://vla-rft.github.io/를 참조하십시오.
대형 언어 모델(LLMs)은 강화 학습을 통해 스스로 개선할 수 있으며, 이 과정에서 더 나은 해결책을 탐색하고 발견하기 위해 궤적을 생성합니다. 그러나 이러한 탐색 과정은 계산 비용이 많이 들어, 현재의 방법론에서는 각 작업에 제한된 탐색 예산을 할당할 수밖에 없습니다. 이러한 균일한 할당 방식은 문제적인 극단적인 사례를 초래합니다: 쉬운 작업은 지속적으로 성공하는 반면, 어려운 작업은 지속적으로 실패하며, 이 둘 모두 널리 사용되는 그룹 상대 정책 최적화(GRPO)의 학습 업데이트 동안 기울기가 제로가 됩니다. 우리는 이 문제를 탐색 예산 할당의 관점에서 접근합니다. 각 작업의 탐색을 고유한 "가치"와 "비용"을 가진 "항목"으로 간주함으로써, 고전적인 배낭 문제와의 연결을 설정합니다. 이 공식을 통해 모델의 현재 학습 상태에 따라 자원을 적응적으로 분배하는 최적의 할당 규칙을 도출할 수 있습니다. 이 방법을 GRPO에 적용했을 때, 학습 중에 비제로 정책 기울기의 효과적인 비율이 20-40% 증가했습니다. 이는 계산적 "무료 점심"으로 작용하여, 학습이 포화된 작업에서 가장 영향력 있는 작업으로 탐색 예산을 재할당할 수 있게 합니다. 이를 통해 특히 어려운 문제에 대해 균일한 할당 방식에서는 계산적으로 불가능했던 상당히 큰 예산(예: 93회 롤아웃)을 할당할 수 있습니다. 이러한 개선은 수학적 추론 벤치마크에서 의미 있는 성과로 이어졌으며, 평균적으로 2-4점의 향상과 특정 작업에서 최대 9점의 성과를 보였습니다. 특히, 전통적인 균일 할당 방식으로 비슷한 성능을 달성하려면 약 2배의 계산 자원이 필요할 것입니다.
최근 생성 모델들이 픽셀 공간에서의 비디오 합성 기술을 발전시키고 있지만, 전문 교육용 비디오 제작에는 여전히 한계가 있습니다. 이러한 비디오는 학문적 지식, 정확한 시각적 구조, 그리고 일관된 전환을 요구하기 때문에 교육 시나리오에서의 적용 가능성이 제한적입니다. 직관적으로, 이러한 요구 사항은 렌더링 가능한 환경을 조작함으로써 더 잘 해결될 수 있으며, 이는 논리적 명령(예: 코드)을 통해 명시적으로 제어될 수 있습니다. 본 연구에서는 실행 가능한 Python 코드를 통해 교육용 비디오를 생성하기 위한 코드 중심의 에이전트 프레임워크인 Code2Video를 제안합니다. 이 프레임워크는 세 가지 협력 에이전트로 구성됩니다: (i) Planner는 강의 내용을 시간적으로 일관된 흐름으로 구조화하고 해당 시각적 자산을 준비합니다; (ii) Coder는 구조화된 지시사항을 실행 가능한 Python 코드로 변환하며, 범위 기반 자동 수정을 통해 효율성을 높입니다; (iii) Critic은 시각적 앵커 프롬프트와 함께 비전-언어 모델(VLM)을 활용하여 공간 레이아웃을 개선하고 명확성을 보장합니다. 체계적인 평가를 지원하기 위해, 우리는 전문적으로 제작된 학문별 교육용 비디오 벤치마크인 MMMC를 구축했습니다. MMMC는 VLM-as-a-Judge 미적 점수, 코드 효율성, 그리고 특히 TeachQuiz라는 새로운 종단 간 메트릭을 통해 평가됩니다. TeachQuiz는 VLM이 생성된 비디오를 시청한 후 지식을 얼마나 잘 회복할 수 있는지를 정량화합니다. 우리의 결과는 Code2Video가 확장 가능하고 해석 가능하며 제어 가능한 접근 방식으로서의 잠재력을 보여주며, 직접 코드 생성보다 40% 향상된 성능을 달성하고 인간이 제작한 튜토리얼에 필적하는 비디오를 생성합니다. 코드와 데이터셋은 https://github.com/showlab/Code2Video에서 확인할 수 있습니다.
환경 설정 - 특정 소프트웨어 프로젝트와 함께 작동하도록 시스템을 구성하는 과정 - 은 소프트웨어 공학(SE)에서 지속적으로 직면하는 과제입니다. 자동화된 환경 설정 방법은 개발자들이 수동 작업 없이도 임의의 저장소에 대해 완전히 구성된 환경을 제공함으로써 도움을 줄 수 있습니다. 이는 또한 SE 연구자들이 실행 기반 벤치마크를 확장하는 데에도 기여합니다. 그러나 최근 연구에 따르면, 최첨단 대형 언어 모델(LLM)조차도 이 작업을 자동화하는 데 있어 제한적인 성공을 거두고 있습니다. 이러한 한계를 해결하기 위해, 우리는 환경 설정에 특화된 모델을 튜닝했습니다. 우리는 정확한 Bash 스크립트 생성을 위한 지도 학습 미세 조정과 검증 가능한 보상을 활용한 강화 학습(RLVR)을 결합하여 이 모델을 환경 설정 작업에 적응시켰습니다. EnvBench-Python에서, 우리의 방법은 소비자용 하드웨어에서 실행 가능한 모델인 Qwen3-8B가 더 큰 모델인 Qwen3-32B 및 GPT-4o와 동등한 성능을 발휘할 수 있도록 했습니다. 학습 코드와 모델 체크포인트는 온라인에서 확인할 수 있습니다: https://github.com/JetBrains-Research/PIPer.
대형 언어 모델(LLM)은 점차 동적이고 실세계 환경에서 에이전트로 배치되며, 이러한 환경에서 성공을 위해서는 추론과 효과적인 도구 사용이 모두 필요합니다. 에이전트 작업의 주요 과제는 점점 증가하는 컨텍스트 길이로, 에이전트는 긴 행동 및 관찰 기록을 축적해야 합니다. 이러한 확장은 장기 작업에서 비용을 증가시키고 효율성을 감소시키지만, 기존의 컨텍스트 압축 연구는 주로 단일 단계 작업이나 좁은 응용 분야에 초점을 맞추었습니다. 본 연구에서는 환경 관찰 및 상호작용 기록을 간결하면서도 유익한 요약으로 최적으로 압축하는 통합 프레임워크인 에이전트 컨텍스트 최적화(ACON)를 소개합니다. ACON은 자연어 공간에서 압축 가이드라인 최적화를 활용합니다: 전체 컨텍스트는 성공하지만 압축된 컨텍스트는 실패하는 짝지어진 궤적이 주어지면, 능력 있는 LLM이 실패 원인을 분석하고 압축 가이드라인을 그에 따라 업데이트합니다. 또한, 최적화된 LLM 압축기를 더 작은 모델로 증류하여 추가 모듈의 오버헤드를 줄이는 방법을 제안합니다. AppWorld, OfficeBench, Multi-objective QA에서의 실험 결과, ACON은 메모리 사용량을 26-54%(피크 토큰) 감소시키면서도 작업 성능을 크게 유지하고, 더 작은 압축기로 증류할 때 95% 이상의 정확도를 유지하며, 최대 46%의 성능 향상으로 더 작은 LM을 장기 에이전트로 강화합니다.
그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)는 사후 학습된 대규모 언어 모델(Large Language Models, LLMs)을 위한 중요한 강화 학습 알고리즘입니다. 일반적으로 GRPO는 정확한 통계적 추정을 통해 안정적인 학습을 보장하기 위해 큰 그룹 크기가 필요하며, 이는 상당한 계산 오버헤드를 초래한다고 알려져 있습니다. 본 연구에서는 이러한 가정에 도전하여 GRPO를 대조 학습(contrastive learning)의 한 형태로 재해석함으로써, 직접 선호 최적화(Direct Preference Optimization, DPO)와의 근본적인 연결을 밝혀냈습니다. DPO의 실험적 성공에 고무되어, 기존에 실현 불가능하다고 여겨졌던 최소 두 롤아웃(2-GRPO) 사례를 조사했습니다. 우리는 2-GRPO를 검증하기 위해 엄밀한 이론적 분석을 제공하고, 롤아웃 수를 1/8로 줄이고 학습 시간을 70% 이상 단축했음에도 불구하고 16-GRPO와 동등한 성능을 달성함을 실험적으로 입증했습니다.
검증 가능한 보상을 활용한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)은 대규모 언어 모델에서 복잡한 추론 능력을 발휘하기 위한 핵심 요소로 부상하고 있다. 최근 연구인 ProRL은 훈련 단계 수를 증가시켜 강화 학습의 확장 가능성을 보여주었다. 그러나 수천 단계 이후에는 성능이 정체되며, 추가 훈련을 위해 더 많은 계산 자원을 할당해도 명확한 한계가 나타난다. 본 연구에서는 강화 학습을 확장하기 위한 보완적 패러다임인 BroRL을 탐구한다. 이는 각 예제당 롤아웃(rollout) 횟수를 수백 회로 늘려 탐색을 철저히 확장(Broaden)함으로써, ProRL에서 관찰된 포화점을 넘어 지속적인 성능 향상을 이끌어낸다. 우리의 접근법은 질량 균형 방정식 분석에 기반하여 강화 학습 과정에서 정답 토큰과 오답 토큰의 확률 질량 변화율을 특성화할 수 있도록 한다. 우리는 한 단계 강화 학습 가정 하에서, 샘플링된 롤아웃 토큰은 항상 정답 질량 확장에 기여하는 반면, 롤아웃 외부에서 샘플링되지 않은 토큰은 그 분포와 순 보상 균형에 따라 이득 또는 손실을 초래할 수 있음을 보인다. 중요한 것은, 예제당 롤아웃 횟수 N이 증가함에 따라 샘플링되지 않은 항목의 영향이 감소하여 전반적인 정답 질량 확장이 보장된다는 점이다. 우리의 이론적 분석을 검증하기 위해 더 완화된 조건 하에서 시뮬레이션을 수행하였으며, 충분히 큰 롤아웃 크기 N—즉, 충분한 탐색—이 모든 정답 토큰의 확률 질량 증가를 보장함을 확인하였다. 실험적으로, BroRL은 3,000단계 ProRL 훈련 이후 포화된 모델을 재활성시키고, 견고하고 지속적인 개선을 통해 1.5B 모델이 다양한 벤치마크에서 최신 기술 수준의 결과를 달성함을 입증하였다.
대규모 언어 모델(LLMs)은 외부 도구와 결합할 때 복잡한 추론 작업에서 뛰어난 능력을 보여주고 있습니다. 그러나 현재의 프레임워크는 주로 순차적 처리에 의존하고 있어, 특히 광범위한 도구 상호작용이 필요한 작업에서 비효율적인 실행을 초래합니다. 본 논문은 순차적 체인에서 방향성 비순환 그래프(DAGs)로 실행 패러다임을 근본적으로 재구상한 새로운 병렬 에이전트 추론 프레임워크인 Flash-Searcher를 소개합니다. Flash-Searcher는 복잡한 작업을 명시적 의존성을 가진 하위 작업으로 분해하여, 논리적 제약을 유지하면서 독립적인 추론 경로의 동시 실행을 가능하게 합니다. 동적 워크플로우 최적화를 통해, 이 프레임워크는 중간 결과를 기반으로 실행 그래프를 지속적으로 개선하며 요약 모듈을 효과적으로 통합합니다. 다양한 벤치마크에 대한 포괄적인 평가 결과, Flash-Searcher는 기존 접근법을 일관되게 능가하는 성능을 보여줍니다. 특히, BrowseComp에서 67.7%의 정확도를, xbench-DeepSearch에서 83%의 정확도를 달성하며, 현재 프레임워크 대비 에이전트 실행 단계를 최대 35%까지 줄였습니다. 또한, 이 병렬 추론 파이프라인을 단일 모델로 정제할 때 다양한 백본 아키텍처에서 상당한 성능 향상을 관찰함으로써 우리 방법론의 일반화 가능성을 입증했습니다. 따라서 본 연구는 복잡한 추론 작업을 위한 더 확장 가능하고 효율적인 패러다임을 제공함으로써 에이전트 아키텍처 설계에서 중요한 진전을 이루었습니다.
대규모 언어 모델(LLM)의 편향 완화 방법에 대한 기존 연구들은 다양한 기준선과 지표를 사용하여 편향 제거 성능을 평가함으로써, 연구 간 일관된 비교가 어려운 상황입니다. 더욱이, 이러한 평가는 대부분 편향적 맥락과 비편향적 맥락에서의 LLM 확률 비교에 기반하고 있어, 사용자가 모델 응답을 읽으며 상호작용하고 공정하고 안전한 출력을 기대하는 실제 사용 사례와의 괴리를 무시하고 있습니다. 이러한 편향 완화 방법들 간의 일관된 평가를 가능하게 하고 이 괴리를 해소하기 위해, 우리는 BiasFreeBench를 소개합니다. 이는 기존 데이터셋을 통합된 질의-응답 설정으로 재구성하여, 두 가지 테스트 시나리오(다중 선택 질의응답과 개방형 다중 턴 질의응답)에서 8가지 주류 편향 완화 기술(4가지 프롬프트 기반 방법과 4가지 훈련 기반 방법)을 포괄적으로 비교하는 실증적 벤치마크입니다. 또한, 우리는 LLM 응답이 얼마나 공정하고 안전하며 반고정관념적인지를 측정하는 응답 수준 지표인 Bias-Free Score를 도입했습니다. 편향 제거 성능은 프롬프트 대 훈련 패러다임, 모델 크기, 그리고 다양한 훈련 전략이 보이지 않는 편향 유형에 대해 일반화되는 정도 등 주요 차원에서 체계적으로 비교 및 분석되었습니다. 우리는 이 벤치마크를 공개하여 편향 완화 연구를 위한 통합된 테스트베드를 구축하고자 합니다.
언어 모델은 점점 더 강력해지고 있지만, 여전히 다중 자릿수 곱셈이라는 겉보기엔 단순한 작업에서 실패한다. 본 연구에서는 암묵적 사고 연쇄(implicit chain-of-thought)를 통해 곱셈을 성공적으로 학습하는 모델을 역공학적으로 분석하여 세 가지 발견을 보고한다: (1) 장거리 구조의 증거: 로짓 속성(logit attribution)과 선형 탐사(linear probe)는 모델이 다중 자릿수 곱셈에 필요한 장거리 의존성을 인코딩하고 있음을 나타낸다. (2) 메커니즘: 모델은 주의 메커니즘(attention)을 사용하여 방향성 비순환 그래프(directed acyclic graph)를 구성하고, 이를 통해 쌍별 부분 곱(pairwise partial product)을 "캐시"하고 "검색"함으로써 장거리 의존성을 인코딩한다. (3) 기하학: 모델은 주의 헤드(attention head)에서 부분 곱을 구현하기 위해 숫자 쌍 간의 민코프스키 합(Minkowski sum)을 형성하며, 숫자는 푸리에 기저(Fourier basis)를 사용하여 표현된다. 이 두 가지는 직관적이고 효율적인 표현 방식으로, 표준 미세 조정(fine-tuning) 모델에는 없는 특징이다. 이러한 통찰을 바탕으로, 표준 미세 조정의 학습 동역학을 재검토한 결과, 모델이 필요한 장거리 의존성이 없는 지역 최적점(local optimum)에 수렴함을 발견했다. 이를 검증하기 위해, 선형 회귀 탐사를 통해 "누적 합(running sum)"을 예측하는 보조 손실(auxiliary loss)을 도입했으며, 이는 모델이 다중 자릿수 곱셈을 성공적으로 학습할 수 있도록 하는 귀납적 편향(inductive bias)을 제공한다. 요약하면, 암묵적 사고 연쇄 모델의 메커니즘을 역공학적으로 분석함으로써 트랜스포머(Transformer)에서 장거리 의존성을 학습하는 데 있어 함정을 발견하고, 올바른 귀납적 편향이 이 문제를 해결할 수 있는 사례를 제시한다.
최근 자연어 지시를 통한 이미지 편집 분야에서 큰 진전이 이루어졌다. GPT-Image-1, Seedream, Google-Nano-Banana와 같은 여러 폐쇄형 모델들이 매우 유망한 성과를 보여주었다. 그러나 오픈소스 모델들은 여전히 뒤처져 있다. 주요 병목 현상은 고품질 합성 훈련 데이터를 확장하기 위한 신뢰할 수 있는 보상 모델의 부재이다. 이 중요한 문제를 해결하기 위해, 우리는 새로운 대규모 인간 선호도 데이터셋으로 훈련된 \mname을 구축했다. 이 데이터셋은 엄격한 프로토콜에 따라 훈련된 전문가들이 주석을 단 20만 개 이상의 선호도 쌍을 포함하고 있다. \mname은 지시 기반 이미지 편집 작업에서 인간의 선호도와 우수한 일치를 보여준다. 실험 결과, \mname은 GenAI-Bench, AURORA-Bench, ImagenHub 및 우리의 새로운 \benchname과 같은 기존 벤치마크에서 최첨단 인간 상관관계를 달성하며, 다양한 VLM-as-judge 모델들을 능가한다. 또한, 우리는 \mname을 사용하여 기존의 노이즈가 많은 ShareGPT-4o-Image 데이터셋에서 고품질 부분집합을 선택했다. 선택된 부분집합으로 훈련된 Step1X-Edit은 전체 데이터셋으로 훈련한 것보다 상당한 개선을 보여준다. 이는 \mname이 이미지 편집을 위한 고품질 훈련 데이터를 확장하기 위한 보상 모델로 사용될 수 있음을 보여준다. 더 나아가, 강력한 일치도는 강화 학습 기반 사후 훈련 및 테스트 시간 확장과 같은 고급 응용 프로그램의 잠재력을 시사한다. \mname과 그 훈련 데이터셋은 커뮤니티가 더 많은 고품질 이미지 편집 훈련 데이터셋을 구축할 수 있도록 공개될 예정이다.
양자 컴퓨팅의 이점을 활용하기 위해서는 작업 특화 양자 회로를 설계하고 최적화하는 것이 중요하다. 최근 대규모 언어 모델(LLM) 기반 양자 회로 생성이 유망한 자동화 솔루션으로 부상하고 있다. 그러나 근본적인 문제들은 여전히 해결되지 않은 상태이다: (i) 매개변수화된 양자 게이트는 최적의 성능을 위해 정확한 수치를 요구하며, 이는 양자 게이트의 수, 매개변수, 회로의 레이아웃/깊이 등 여러 요소에 따라 달라진다. (ii) LLM은 양자 도메인 특화 지식의 부족으로 인해 종종 저품질이거나 잘못된 양자 회로를 생성한다. 우리는 도구 강화 LLM 기반의 양자 회로 생성 및 최적화를 위한 강화 학습(RL) 프레임워크인 QUASAR를 제안한다. QUASAR는 LLM을 양자 특화 지식과 일치시키고 생성된 양자 회로를 개선하기 위해 (i) 외부 양자 시뮬레이터를 활용한 양자 회로 검증 접근법과 (ii) RL 훈련에서의 정교한 계층적 보상 메커니즘을 설계한다. 광범위한 평가를 통해 생성된 양자 회로의 구문 및 의미론적 성능이 개선되었음을 보여준다. 4B LLM을 강화할 때, QUASAR는 Pass@1에서 99.31%, Pass@10에서 100%의 유효성을 달성하여 GPT-4o, GPT-5, DeepSeek-V3와 같은 산업용 LLM 및 여러 지도 미세 조정(SFT) 전용 및 RL 전용 베이스라인을 능가했다.
현대의 대형 언어 모델(LLM)에서 고품질의 생성물을 얻는 것은 주로 선택 문제로 여겨져 왔다: 다양한 N개의 샘플 풀에서 단일 승자 생성물을 식별하는 Best-of-N(BoN) 방식이 그것이다. 그러나 이 접근법은 본질적으로 제로섬(zero-sum)적이며, 풀에 있는 다양하고 잠재적으로 유용한 정보를 버리게 된다. 대신, 우리는 모든 후보가 최종 승자 생성물에 기여할 수 있는 협업적 설정을 탐구한다. 이를 위해 우리는 Fusion-of-N(FusioN)을 제안한다: 이 방법은 일반적인 LLM 판단자를 사용하여 각 샘플의 가장 유익한 요소를 단일 최종 답변으로 통합한다. 우리는 FusioN을 BoN과 두 가지 설정에서 비교한다, (i) 테스트 시간 확장, 여기서 우리는 테스트 시간에 단일 모델에서 샘플링하고 집계하며, (ii) 합성 데이터 생성, 여기서 우리는 다양한 교사 모델 풀에서 샘플을 융합하여 학생 모델을 개선한다. 우리는 11개 언어, 3가지 다양한 작업 및 다양한 모델 규모에 걸쳐 두 설정을 광범위하게 벤치마킹한다. 벤치마크 전반에 걸쳐 FusioN은 BoN을 일관되게 능가하며, 테스트 시간 확장과 합성 데이터 생성에서의 하류 작업 개선 모두에서 다양성과 견고성을 보여준다. 또한 우리는 FusioN에 대한 광범위한 분석을 수행하며, 이는 도전적인 설정에서 놀라운 강점과 견고성을 보여준다. 이러한 결과는 우리가 LLM 생성물을 평가하고 활용하는 방식을 단일적인 품질 측정에서 그들의 다면적 특성을 포용하는 방식으로 전환해야 함을 보여준다. 이러한 전환은 다양한 강점을 통합하고 잠재력을 개방하며, 선택만으로는 이전에 접근할 수 없었던 개선을 달성할 수 있게 한다.
대규모 언어 모델(LLM)의 추론 능력에 대한 최근의 발전은 주로 강화 학습(RL)에 의해 주도되고 있지만, RL 훈련 중의 내재적 매개변수 동역학은 여전히 잘 이해되지 않고 있습니다. 본 연구는 LLM에서 RL에 의해 유도된 매개변수 업데이트의 두 가지 근본적인 특성을 규명합니다: (1) Rank-1 지배성(Rank-1 Dominance), 즉 매개변수 업데이트 행렬의 최상위 특이값 부분공간이 추론 개선을 거의 완전히 결정하며, 성능 향상의 99% 이상을 복구한다는 것; (2) Rank-1 선형 동역학(Rank-1 Linear Dynamics), 즉 이 지배적인 부분공간이 훈련 전반에 걸쳐 선형적으로 진화하여 초기 체크포인트에서도 정확한 예측을 가능하게 한다는 것입니다. 8개의 LLM과 7개의 알고리즘에 걸친 광범위한 실험을 통해 이러한 특성의 일반화 가능성을 검증했습니다. 더 중요한 것은, 이러한 발견을 바탕으로 AlphaRL이라는 플러그인 가속화 프레임워크를 제안합니다. 이 프레임워크는 짧은 초기 훈련 기간을 사용하여 최종 매개변수 업데이트를 외삽함으로써, 추가 모듈이나 하이퍼파라미터 조정 없이도 2.5배의 속도 향상을 달성하면서 96% 이상의 추론 성능을 유지합니다. 이는 우리의 발견을 대규모 RL을 위한 다목적이고 실용적인 도구로 자리매김하며, LLM을 위한 원칙적이고 해석 가능하며 효율적인 훈련 패러다임으로의 길을 열어줍니다.
지도 미세 조정(SFT)은 대규모 언어 모델(LLM)의 사후 학습을 위한 표준 접근법이지만, 종종 제한된 일반화 능력을 보입니다. 우리는 이러한 한계를 기본 학습 목표인 음의 로그 가능도(NLL)에서 찾았습니다. NLL은 처음부터 학습할 때는 고전적으로 최적이지만, 사후 학습은 다른 패러다임에서 작동하며 그 최적성 가정을 위반할 수 있습니다. 이는 모델이 이미 작업 관련 사전 지식을 인코딩하고 있으며, 지도 신호가 길고 노이즈가 많을 수 있기 때문입니다. 이를 위해 우리는 확률 기반 목표 함수의 일반적인 패밀리를 연구하고 다양한 조건에서의 효과를 분석했습니다. 7개의 모델 백본, 14개의 벤치마크, 3개의 도메인에 걸친 포괄적인 실험과 광범위한 어블레이션 연구를 통해, 우리는 목표 함수의 동작을 지배하는 중요한 차원인 '모델-능력 연속체'를 발견했습니다. 모델이 강한 영역에서는 낮은 확률 토큰의 가중치를 줄이는 사전 경향 목표 함수(예: -p, -p^{10}, 임계값 변형)가 NLL을 일관되게 능가했습니다. 반면 모델이 약한 영역에서는 NLL이 우세했으며, 중간 영역에서는 단일 목표 함수가 우위를 점하지 못했습니다. 우리의 이론적 분석은 이 연속체를 가로지르며 목표 함수가 어떻게 교체되는지를 명확히 하여, 모델 능력에 맞게 목표 함수를 조정하는 데 이론적 기반을 제공합니다. 우리의 코드는 https://github.com/GaotangLi/Beyond-Log-Likelihood에서 확인할 수 있습니다.
비전-언어 모델을 기반으로 구축된 그래픽 사용자 인터페이스(GUI) 에이전트는 인간-컴퓨터 워크플로우를 자동화하는 유망한 접근 방식으로 부상했습니다. 그러나 이러한 에이전트는 고해상도 스크린샷의 긴 시퀀스를 처리하고 장기적 작업을 해결해야 하기 때문에 추론 속도가 느리고 비용이 많이 들며 메모리 제약을 받는 비효율성 문제에 직면해 있습니다. 키-값(KV) 캐싱은 이를 완화할 수 있지만, 이미지가 많은 환경에서는 전체 캐시를 저장하는 것이 실질적으로 불가능합니다. 기존의 캐시 압축 방법은 GUI의 공간적 및 시간적 중복성을 고려하지 않아 최적의 성능을 내지 못합니다. 본 연구에서는 먼저 GUI 에이전트 작업 부하에서의 어텐션 패턴을 분석하고, 자연 이미지와 달리 모든 트랜스포머 레이어에서 어텐션 희소성이 균일하게 높다는 사실을 발견했습니다. 이러한 통찰은 단순한 균일 예산 할당 전략을 제안하게 했으며, 이 전략이 더 복잡한 레이어별 변동 방식보다 실험적으로 우수함을 보였습니다. 이를 바탕으로, 재학습이 필요 없는 플러그 앤 플레이 방식의 GUI-KV 캐시 압축 방법을 소개합니다. GUI-KV는 두 가지 새로운 기술을 결합합니다: (i) 공간적 중요성 가이던스는 어텐션 점수를 은닉 상태의 L2 노름으로 보강하여 의미론적으로 중요한 시각적 토큰을 더 잘 보존하고, (ii) 시간적 중복성 점수화는 이전 프레임의 키를 현재 프레임의 키 부분공간에 투영하여 중복된 이력을 우선적으로 제거합니다. 표준 GUI 에이전트 벤치마크와 모델에서 GUI-KV는 경쟁력 있는 KV 압축 기준선을 능가하며, 적당한 예산으로 전체 캐시 정확도에 근접한 성능을 보입니다. 특히, AgentNetBench 벤치마크에서 5개의 스크린샷 설정에서 GUI-KV는 디코딩 FLOPs를 38.9% 줄이면서 단계 정확도를 전체 캐시 기준선 대비 4.1% 증가시켰습니다. 이러한 결과는 GUI 특유의 중복성을 활용하면 효율적이고 신뢰할 수 있는 에이전트 성능을 달성할 수 있음을 보여줍니다.
우리는 법적 리스크를 최소화하면서도 강력한 모델 성능을 제공하기 위해 구축된 오픈 액세스 프리트레이닝 코퍼스인 MixtureVitae를 소개한다. MixtureVitae는 공개 도메인 및 허가형 라이선스(예: CC-BY/Apache) 텍스트와 신중하게 검토된 저위험 추가 자료(예: 정부 저작물 및 EU TDM 적격 소스)를 결합한 리스크 완화 소싱 전략을 따르며, 출처가 문서화된 목적 지향적 지시, 추론 및 합성 데이터를 포함한다. 우리는 라이선스 인식 필터링, 안전성 및 품질 검사, 도메인 인식 혼합을 위한 투명한 다단계 파이프라인을 상세히 설명하고, 재현 가능한 연구를 지원하기 위해 데이터셋과 큐레이션 레시피를 공개한다. 오픈-사이-레프(open-sci-ref) 훈련 프로토콜(130M/400M/1.3B/1.7B 파라미터의 고정 아키텍처; 50B 및 300B 토큰의 훈련 예산)을 사용한 통제 실험에서, MixtureVitae로 훈련된 모델은 표준 벤치마크 스위트에서 다른 허가형 데이터셋을 지속적으로 능가하며, 1.7B/300B 설정에서는 훈련 후반부에 FineWeb-Edu를 넘어서고 DCLM에 근접한다. 특히 수학/코드 작업에서 강력한 성능을 보이며, QA 작업에서도 경쟁력 있는 결과를 보인다. 이러한 결과는 허가형 우선, 리스크 완화 데이터가 능력 있는 대형 언어 모델(LLM) 훈련을 위한 실용적이고 법적으로 완화된 기반을 제공하며, 경쟁력을 희생하지 않고도 무분별한 웹 스크래핑에 대한 의존도를 줄일 수 있음을 보여준다. 코드: https://github.com/ontocord/mixturevitae
LLM은 자신의 파라미터적 지식 경계를 신뢰성 있게 인식하지 못하며, 종종 경계를 벗어난 질문에 대해 환각적인 답변을 생성합니다. 반면, 인간은 자신의 한계를 인식하고 그러한 질문에 대해 외부 도움을 구하거나 답변을 자제할 수 있습니다. 본 논문에서는 MASH(Modeling Abstention via Selective Help-seeking)라는 훈련 프레임워크를 소개합니다. 이 프레임워크는 LLM으로부터 자제를 쉽게 추출할 수 있도록 설계되었습니다. 우리의 핵심 아이디어는 LLM의 외부 도움 요청(예: 검색 도구 사용)이 외부 도움(검색)에 적절한 패널티를 부여하면서 동시에 답변 정확도를 보상하는 경우, 자제의 대리 지표로 사용될 수 있다는 것입니다. MASH는 이 아이디어를 검색당 지불 보상을 사용한 강화 학습으로 구현합니다. 우리는 세 가지 지식 집약적 QA 데이터셋에서 실험을 진행했습니다. 실험 결과, MASH는 기존의 효율적 검색 접근법의 선택적 도움 요청 성능을 크게 개선했으며, 멀티홉 데이터셋에서 답변 정확도를 7.6% 향상시켰습니다. 또한, MASH는 강력한 즉시 사용 가능한 자제 능력을 보여주었습니다. 이는 답변 불가능한 질문과 답변 가능한 질문을 구분하고, 답변 가능한 질문에 대해 선택적으로 응답을 생성할 수 있어, 특화된 자제 접근법과 유사한 행동을 보여줍니다. 우리는 기존의 자제 방법과 달리 MASH가 훈련 데이터를 구성하기 위해 사전에 지식 경계를 결정할 필요가 없음을 강조합니다. 대신, MASH의 자제는 보조적인 선택적 도움 요청 작업을 위한 훈련의 부산물로 발생합니다. 전반적으로, MASH 훈련은 검색 도구 사용을 파라미터적 지식과 효과적으로 정렬하며, 이는 자제 결정을 내리는 데 성공적으로 활용될 수 있음을 보여줍니다.
프로세스 보상 모델(PRMs)은 대규모 언어 모델의 추론 신뢰성을 향상시키는 단계별 감독을 제공합니다. PRMs는 텍스트 기반 도메인에서 광범위하게 연구되었지만, 비전 언어 모델(VLMs)로의 확장은 여전히 제한적입니다. 기존의 비전-언어 PRMs(VL-PRMs)는 데이터 구성을 위해 몬테카를로 트리 탐색(MCTS)에 의존하는데, 이는 종종 노이즈가 많은 감독 신호를 생성하고 작업 간 일반화를 제한할 수 있습니다. 본 연구에서는 데이터셋 구성, 훈련, 테스트 시 스케일링에 대한 다양한 전략을 탐구함으로써 VL-PRMs의 설계 공간을 명확히 하고자 합니다. 첫째, MCTS와 강력한 VLM의 판단을 결합한 하이브리드 데이터 합성 프레임워크를 도입하여 더 정확한 단계별 레이블을 생성합니다. 둘째, 시각적 근거 단계에서의 오류를 명시적으로 감지할 수 있는 인식 중심 감독을 제안합니다. 셋째, 여러 테스트 시 스케일링 전략을 체계적으로 평가하여 우리의 PRMs가 VLMs를 더 정확한 솔루션으로 안내할 수 있음을 보여줍니다. 다섯 가지 다양한 멀티모달 벤치마크(MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista, MathVision)를 대상으로 한 실험을 통해 다음과 같은 주요 통찰을 얻었습니다: (i) 테스트 시 스케일링(TTS) 동안 결과 보상 모델(ORMs)로 사용될 때 VL-PRMs는 VL-PRM이 안내하는 프로세스 단계 선택을 능가할 수 있음, (ii) 더 작은 VL-PRMs가 더 큰 모델과 동등하거나 더 나은 프로세스 오류 감지 성능을 보임, (iii) VL-PRMs는 더 강력한 VLM 백본에서 잠재된 추론 능력을 발견함, (iv) 인식 수준의 감독은 테스트 시 스케일링에서 상당한 성능 향상을 이끔, (v) 고급 수학 추론 데이터셋에서 VL-PRMs를 훈련하지 않았음에도 다양한 정책의 TTS 성능이 개선됨. 본 연구가 VLMs의 발전을 촉진하고 추가 연구를 격려하는 데 기여하기를 바랍니다.
타인의 마음 상태를 이해하는 능력인 마음 이론(Theory of Mind, ToM)은 인간의 사회적 지능의 핵심 요소이지만, 챗봇과 대형 언어 모델(LLM) 기반 사회적 에이전트들은 일반적으로 이를 통합하지 않는다. 본 연구에서는 ToM을 명시적으로 사용하는 LLM이 대화에서 더 나은 성과를 거두고 목표를 더 효과적으로 달성함을 보여준다. 대화 턴 사이에 모델이 마음 상태를 생성하도록 간단히 프롬프트하는 것만으로도 상당한 이점이 있음을 보인 후, 우리는 ToM에 초점을 맞춘 대화 에이전트인 ToMAgent(ToMA)를 추가로 소개한다. ToMA는 ToM을 대화 미리보기와 결합하여 대화 목표 달성에 최대한 유용한 마음 상태를 생성하도록 훈련된다. Sotopia 상호작용 사회 평가 벤치마크에서의 실험은 우리의 방법이 다양한 기준선에 비해 효과적임을 입증한다. 종합적인 분석은 ToMA가 더 전략적이고 목표 지향적인 추론 행동을 보이며, 장기적인 적응을 가능하게 하면서도 파트너와 더 나은 관계를 유지함을 보여준다. 우리의 결과는 사회적으로 지능적인 LLM 에이전트를 구축하기 위해 ToM을 통합하는 데 있어 한 걸음 나아간 것을 시사한다.
우리는 비밀 유도(secret elicitation), 즉 인공지능이 보유하고 있지만 명시적으로 표현하지 않는 지식을 발견하는 연구를 수행한다. 이를 위한 테스트베드로, 우리는 세 가지 계열의 대형 언어 모델(LLMs)을 특정 지식을 보유하도록 훈련시켰으며, 이 모델들은 하위 작업에서 해당 지식을 적용하지만 직접 질문을 받았을 때는 이를 부인하도록 설정하였다. 예를 들어, 한 가지 설정에서는 사용자가 여성임을 알고 있는 것과 일관된 답변을 생성하도록 LLM을 훈련시키면서, 직접 질문을 받았을 때는 이 지식을 부인하도록 하였다. 이후 우리는 다양한 블랙박스 및 화이트박스 비밀 유도 기법을 설계하고, 이러한 기법들이 LLM 감사자가 비밀 지식을 성공적으로 추측하는 데 도움이 되는지 여부를 평가하였다. 우리의 많은 기법들이 단순한 기준선을 개선하였다. 가장 효과적인 기법(3가지 설정 중 2가지에서 최고 성능을 보인)은 프리필 공격(prefill attacks)에 기반한 것으로, 이는 블랙박스 기법으로서 LLM이 미리 정의된 접두사(prefix)로부터 완성문을 생성할 때 비밀 지식을 드러내는 방식이다. 나머지 설정에서는 로짓 렌즈(logit lens)와 희소 자동인코더(sparse autoencoders, SAEs)에 기반한 화이트박스 기법이 가장 효과적이었다. 우리는 모델과 코드를 공개하여 비밀 유도 방법을 평가하기 위한 공개 벤치마크를 구축하였다.
대규모 언어 모델은 복잡한 현실 세계의 과제를 위해 점점 더 자율 에이전트로 배포되고 있지만, 기존 시스템은 견고성과 적응성을 위한 통합 설계 없이 개별적인 개선에 초점을 맞추는 경우가 많습니다. 우리는 세 가지 핵심 구성 요소를 통합한 범용 에이전트 아키텍처를 제안합니다: 계획 및 실행 에이전트와 비평 모델 투표를 결합한 집단적 다중 에이전트 프레임워크, 작업, 의미, 절차적 계층을 아우르는 계층적 메모리 시스템, 그리고 검색, 코드 실행, 다중 모드 파싱을 위한 정교한 도구 세트입니다. 포괄적인 벤치마크에서 평가한 결과, 우리의 프레임워크는 오픈소스 기준선을 꾸준히 능가하며 독점 시스템의 성능에 근접했습니다. 이러한 결과는 시스템 수준의 통합의 중요성을 보여주며, 다양한 도메인과 작업에 걸쳐 운영할 수 있는 확장성, 회복력, 적응성을 갖춘 AI 어시스턴트로 나아가는 길을 제시합니다.
Diffusion Transformer는 고해상도 비디오 생성에서 뛰어난 능력을 보여주며, 장시간에 걸쳐 시각적으로 일관된 프레임과 풍부한 디테일을 제공합니다. 그러나 기존의 비디오 생성 모델들은 복잡한 공간적 관계, 시간적 논리, 그리고 다중 주체 간의 상호작용을 명시하는 프롬프트를 파싱하는 데 있어 본질적인 어려움으로 인해 주체 일관성 있는 비디오 생성에는 여전히 한계가 있습니다. 이러한 문제를 해결하기 위해, 우리는 단일 주체 사례부터 이질적 개체를 포함한 복잡한 다중 주체 장면까지 광범위한 주체-비디오 시나리오를 처리하는 통합 프레임워크인 BindWeave를 제안합니다. 복잡한 프롬프트 의미를 구체적인 시각적 주체에 바인딩하기 위해, 우리는 사전 학습된 다중 모달 대형 언어 모델이 깊은 교차 모달 추론을 수행하여 개체를 기반으로 하고 역할, 속성, 상호작용을 분리함으로써 주체 인식 숨겨진 상태를 생성하는 MLLM-DiT 프레임워크를 도입했습니다. 이는 고해상도의 주체 일관성 있는 비디오 생성을 위해 Diffusion Transformer를 조건화합니다. OpenS2V 벤치마크에서의 실험 결과, 우리의 방법은 생성된 비디오의 주체 일관성, 자연스러움, 텍스트 관련성 측면에서 우수한 성능을 달성하며, 기존의 오픈소스 및 상용 모델들을 능가하는 것으로 나타났습니다.
대형 언어 모델(LLMs)의 부상은 멀티모달 모델을 재구성하고 있으며, 이 중 음성 합성은 두드러진 응용 분야로 자리 잡고 있습니다. 그러나 기존 접근 방식들은 종종 이러한 모델들의 언어적 지능을 충분히 활용하지 못하며, 특히 강력한 지시 수행 능력을 제대로 활용하지 못하는 경우가 많습니다. 이러한 한계는 제어 가능한 텍스트-음성 변환(TTS)을 위한 텍스트 지시를 따르는 모델의 능력을 저해합니다. 이를 해결하기 위해, 우리는 "조작주의"에서 영감을 받아 지시 이해와 음성 생성을 분리하는 새로운 패러다임을 제안합니다. 우리는 BatonVoice라는 프레임워크를 소개하는데, 여기서 LLM은 "지휘자" 역할을 하여 사용자 지시를 이해하고 명시적인 음성 특성(예: 피치, 에너지)을 포함한 텍스트 "계획"을 생성합니다. 별도의 TTS 모델인 "오케스트라"는 이러한 특성들로부터 음성을 생성합니다. 이 구성 요소를 구현하기 위해, 우리는 이 작업에 특화된 BatonTTS라는 TTS 모델을 개발했습니다. 우리의 실험 결과, BatonVoice는 제어 가능하고 감정적인 음성 합성에서 강력한 성능을 보이며, 강력한 오픈소스 및 클로즈드소스 베이스라인들을 능가합니다. 특히, 우리의 접근 방식은 사후 훈련 중에 보지 못한 언어들에 대해 특징 제어 능력을 정확하게 적용하는 놀라운 제로샷 교차 언어 일반화를 가능하게 합니다. 이는 음성을 텍스트 기반 음성 특성으로 객관화함으로써 LLM의 언어적 지능을 더 효과적으로 활용할 수 있음을 보여줍니다.
비전-언어 모델(VLMs)은 고차원적인 장면 이해에서는 뛰어난 성능을 보이지만, 정확한 위치 파악이 필요한 세밀한 인식 작업에서는 어려움을 겪습니다. 이러한 한계는 언어 중심 아키텍처가 정확한 수치 좌표를 생성하는 데 어려움을 겪는 근본적인 불일치에서 비롯됩니다. 본 논문에서는 이러한 한계를 극복하기 위해, 객체 중심 인식을 취약한 좌표 생성 문제에서 견고한 특징 검색 작업으로 재구성한 새로운 프레임워크인 VLM-FO1을 소개합니다. 우리의 방법은 사전 학습된 모든 VLM과 통합 가능한 플러그 앤 플레이 모듈로 작동합니다. 이는 이중 비전 인코더를 특징으로 하는 하이브리드 세밀 영역 인코더(HFRE)를 활용하여, 의미론적 및 공간적 세부 정보가 풍부한 강력한 영역 토큰을 생성합니다. 이후 토큰 기반 참조 시스템을 통해 대형 언어 모델(LLM)이 이러한 특정 시각 영역에 대해 원활하게 추론하고 언어를 기반으로 할 수 있게 합니다. 실험 결과, VLM-FO1은 다양한 벤치마크에서 최첨단 성능을 달성하며, 객체 기반, 영역 생성적 이해, 시각 영역 추론에서 탁월한 능력을 보여줍니다. 특히, 두 단계의 학습 전략을 통해 이러한 인식 성능 향상을 달성하면서도 기본 모델의 일반적인 시각 이해 능력을 저해하지 않습니다. VLM-FO1은 고차원적 추론과 세밀한 시각적 기반 간의 격차를 해소하며, 인식 인지 VLMs 구축을 위한 효과적이고 유연한 패러다임을 확립합니다.
우리는 불 만족 문제(SAT)를 위한 모방 학습 기반의 충돌 기반 절 학습(CDCL) 솔버 분기 정책인 ImitSAT를 제안한다. 이전 방법들이 CDCL 분기를 간접적으로 개선하기 위해 인스턴스 수준의 신호를 예측하거나, 강화 학습과 불충분한 CDCL 정보에 의존하여 분기를 개선하는 것과 달리, ImitSAT는 전체 실행을 생존한 결정의 시퀀스로 축약하는 전문가 KeyTrace로부터 학습한다. 동일한 인스턴스에서 KeyTrace를 재생하는 것은 거의 충돌이 없어, 밀도 높은 결정 수준의 지도를 제공하고, 벽시계 시간의 주요 요인인 전파를 직접 줄인다. 이 접두사 조건부 지도는 ImitSAT가 탐색 없이도 고품질의 분기를 재현할 수 있게 하여, 더 빠른 수렴, 안정적인 학습, 그리고 CDCL에의 원활한 통합을 가능하게 한다. 광범위한 실험을 통해 ImitSAT가 전파 횟수와 실행 시간을 줄이며, 최신 학습 기반 접근법을 능가함을 입증했다. 우리는 소스 코드와 학습된 모델을 https://github.com/zewei-Zhang/ImitSAT에서 공개했다.
파운데이션 모델(FM) 기반 AI 에이전트는 다양한 도메인에서 빠르게 채택되고 있지만, 그 내재된 비결정성과 재현 불가능성은 테스트 및 품질 보증에 있어 도전 과제로 작용합니다. 최근 벤치마크들이 작업 수준 평가를 제공하고 있지만, 개발 과정에서 개발자들이 이러한 에이전트의 내부 정확성을 어떻게 검증하는지에 대한 이해는 제한적입니다. 이러한 격차를 해소하기 위해, 우리는 AI 에이전트 생태계에서의 테스트 관행에 대한 첫 번째 대규모 실증 연구를 수행하여, 39개의 오픈소스 에이전트 프레임워크와 439개의 에이전트 애플리케이션을 분석했습니다. 우리는 10가지의 독특한 테스트 패턴을 식별했으며, DeepEval과 같은 새로운 에이전트 특화 방법은 거의 사용되지 않는 반면(약 1%), 부정 테스트와 멤버십 테스트와 같은 전통적인 패턴들은 FM의 불확실성을 관리하기 위해 널리 적용되고 있음을 발견했습니다. 이러한 패턴들을 에이전트 프레임워크와 에이전트 애플리케이션의 표준 아키텍처 구성 요소에 매핑함으로써, 우리는 테스트 노력의 근본적인 역전 현상을 밝혀냈습니다: 리소스 아티팩트(도구)와 조정 아티팩트(워크플로우)와 같은 결정론적 구성 요소들이 테스트 노력의 70% 이상을 차지하는 반면, FM 기반 플랜 바디는 5% 미만의 테스트 노력을 받고 있습니다. 특히, 트리거 구성 요소(프롬프트)는 약 1%의 테스트에서만 나타나며 여전히 소외되고 있습니다. 우리의 연구 결과는 FM 기반 에이전트 프레임워크와 에이전트 애플리케이션에서의 첫 번째 실증적 테스트 기준을 제공하며, 비결정성에 대한 합리적이지만 불완전한 적응을 보여줍니다. 이를 해결하기 위해, 프레임워크 개발자들은 새로운 테스트 방법에 대한 지원을 개선해야 하며, 애플리케이션 개발자들은 프롬프트 회귀 테스트를 도입해야 하고, 연구자들은 채택 장벽을 탐구해야 합니다. 이러한 관행을 강화하는 것은 더 견고하고 신뢰할 수 있는 AI 에이전트를 구축하는 데 필수적입니다.
분포 매칭은 많은 비전 및 그래픽 작업에서 핵심적인 역할을 하며, 고차원 분포에 대해 널리 사용되는 Wasserstein 거리는 계산 비용이 너무 높다는 문제가 있습니다. Sliced Wasserstein Distance(SWD)는 확장 가능한 대안을 제공하지만, 몬테카를로 추정기는 높은 분산을 보여 노이즈가 많은 그래디언트와 느린 수렴 속도를 초래합니다. 우리는 Weighted Reservoir Sampling을 SWD에 통합한 Reservoir SWD(ReSWD)를 소개합니다. ReSWD는 최적화 단계에서 정보가 풍부한 투영 방향을 적응적으로 유지하여 안정적인 그래디언트를 제공하면서도 편향되지 않은 상태를 유지합니다. 합성 벤치마크와 색 보정, 확산 가이던스와 같은 실제 작업에 대한 실험에서 ReSWD는 표준 SWD 및 기타 분산 감소 기준선을 지속적으로 능가하는 성능을 보여줍니다. 프로젝트 페이지: https://reservoirswd.github.io/
커리큘럼 학습은 대규모 언어 모델(LLM)의 추론 과제 학습 효율성을 향상시키는 데 중요한 역할을 합니다. 그러나 기존 방법들은 프롬프트 난이도의 변동을 충분히 고려하지 못하거나, 좁은 기준 범위 내에서 프롬프트 데이터셋을 선택하기 위해 단순한 필터링 메커니즘에 의존함으로써 상당한 계산 자원 낭비를 초래합니다. 본 연구에서는 강화 학습의 경사 최적화 관점에서 이 문제를 접근하여, LLM의 학습 효율성을 개선하는 방법에 대한 체계적이고 이론적인 탐구를 제공합니다. 우리는 학습 효율성에 영향을 미치는 두 가지 핵심 요소를 확인했습니다: 학습 프롬프트의 선택과 다양한 프롬프트 간 롤아웃 수량의 할당입니다. 이론적 분석에 따르면, 프롬프트의 샘플링 분포는 경사 하강법의 수렴 속도를 결정하며, 롤아웃 수량의 할당은 전체 경사 업데이트의 일관성과 안정성에 영향을 미칩니다. 이러한 통찰을 바탕으로, 우리는 수렴을 가속화하고 베이지안 사후 추정을 통해 계산 오버헤드를 최소화하는 효율적인 학습 방법인 CurES를 제안합니다. 실험 결과, CurES는 1.5B 및 7B 모델에서 각각 +3.30점과 +4.82점으로 그룹 상대 정책 최적화(GRPO)를 능가하는 성능을 보였습니다. 또한, CurES는 GRPO를 포함한 기준선보다 더 빠른 수렴 속도를 나타냈습니다.
대규모 언어 모델(LLMs)은 사용자 피드백을 기반으로 출력을 반복적으로 개선하는 다중 턴 추론(multi-turn reasoning) 맥락에서 점점 더 많이 연구되고 있습니다. 이러한 설정은 복잡한 추론이 필요한 작업에 필수적이지만, 기존의 피드백 패러다임은 주로 새로운 메시지를 발행하는 방식에 의존합니다. LLMs은 이러한 피드백을 안정적으로 통합하는 데 어려움을 겪어 일관된 개선을 이루지 못하는 경우가 많습니다. 본 연구에서는 사용자가 LLM의 이전 응답을 직접 수정하고, 모델이 이 수정된 응답을 조건으로 하여 개정된 응답을 생성하는 새로운 상호작용 패러다임인 '제자리 피드백(in-place feedback)'을 소개합니다. 다양한 추론 집약적 벤치마크에서의 실험적 평가 결과, 제자리 피드백은 기존의 다중 턴 피드백보다 더 나은 성능을 달성하면서도 79.1% 더 적은 토큰을 사용하는 것으로 나타났습니다. 통제된 환경에서의 보완적 분석은 더 나아가 제자리 피드백이 다중 턴 피드백의 핵심 한계를 해결한다는 것을 보여줍니다: 모델은 종종 피드백을 응답의 오류가 있는 부분에 정확히 적용하지 못해 오류를 그대로 남기거나, 이전에 정확했던 내용에 새로운 오류를 도입하는 경우가 있습니다. 이러한 연구 결과는 제자리 피드백이 추론 집약적 작업에서 LLMs을 안내하는 더 자연스럽고 효과적인 메커니즘을 제공한다는 것을 시사합니다.
복잡하고 장기적인 작업에 대한 제어 정책을 학습하는 것은 로보틱스와 자율 시스템 분야의 핵심적인 과제입니다. 시그널 템포럴 로직(Signal Temporal Logic, STL)은 이러한 작업을 명세하기 위한 강력하고 표현력 있는 언어를 제공하지만, 비마르코프적 특성과 내재적인 희소 보상으로 인해 표준 강화 학습(Reinforcement Learning, RL) 알고리즘으로 해결하기 어렵습니다. 기존의 RL 접근법들은 제한된 STL 조각에만 초점을 맞추거나 STL 견고성 점수를 희소한 최종 보상으로 사용했습니다. 본 논문에서는 일반적인 STL 작업을 해결하기 위해 TGPO(Temporal Grounded Policy Optimization)를 제안합니다. TGPO는 STL을 시간 기반 하위 목표와 불변 제약 조건으로 분해하고, 이를 해결하기 위한 계층적 프레임워크를 제공합니다. TGPO의 상위 수준 구성 요소는 이러한 하위 목표에 대한 구체적인 시간 할당을 제안하고, 하위 수준의 시간 조건부 정책은 밀집된 단계별 보상 신호를 사용하여 순차적인 하위 목표를 달성하도록 학습합니다. 추론 과정에서는 다양한 시간 할당을 샘플링하고, 정책 네트워크가 솔루션 궤적을 실행할 수 있도록 가장 유망한 할당을 선택합니다. 다중 하위 목표를 가진 복잡한 STL에 대한 효율적인 정책 학습을 촉진하기 위해, 학습된 비평가를 활용하여 메트로폴리스-헤이스팅스 샘플링을 통해 상위 수준의 시간 탐색을 안내하고, 시간적으로 실현 가능한 솔루션에 탐색을 집중합니다. 저차원 내비게이션부터 조작, 드론, 그리고 사족 보행에 이르는 다섯 가지 환경에서 실험을 진행했습니다. 다양한 STL 작업에서 TGPO는 특히 고차원 및 장기간의 경우에서 최신 베이스라인을 크게 능가하며, 최고 베이스라인 대비 작업 성공률에서 평균 31.6%의 향상을 보였습니다. 코드는 https://github.com/mengyuest/TGPO에서 확인할 수 있습니다.
본 연구에서는 사전 학습된 시각 인코더를 정렬하여 이미지 생성에서 잠재 확산 모델(latent diffusion model)의 토크나이저로 활용하는 방법을 제안합니다. 저수준 디테일에 주력하는 변분 오토인코더(VAE)를 처음부터 학습시키는 방식과 달리, 우리의 접근법은 기반 인코더의 풍부한 의미론적 구조를 활용합니다. 우리는 세 단계의 정렬 전략을 도입했습니다: (1) 인코더를 고정하고 어댑터와 디코더를 학습시켜 의미론적 잠재 공간을 구축; (2) 모든 구성 요소를 공동으로 최적화하며 추가적인 의미 보존 손실을 통해 인코더가 지각적 디테일을 포착하면서도 고수준 의미를 유지하도록 함; (3) 재구성 품질을 개선하기 위해 디코더를 미세 조정. 이러한 정렬은 확산 모델에 유익한 의미론적으로 풍부한 이미지 토크나이저를 생성합니다. ImageNet 256×256에서 우리의 토크나이저는 확산 모델의 수렴을 가속화하여 단 64 에포크 만에 gFID 1.90을 달성했으며, 분류자 없는 가이던스 유무에 관계없이 생성 품질을 개선했습니다. LAION으로 확장했을 때, 우리의 토크나이저로 학습된 20억 파라미터 텍스트-이미지 모델은 동일한 학습 단계에서 FLUX VAE를 지속적으로 능가했습니다. 전반적으로, 우리의 방법은 단순하고 확장 가능하며, 연속적인 토크나이저 설계를 위한 의미론적으로 기반을 둔 패러다임을 확립합니다.
대규모 언어 모델(LLMs)은 그 능력에도 불구하고 내부 표현에 대한 이해가 제한적이며 불투명한 상태로 남아 있습니다. 직접 로짓 속성화(DLA)와 희소 오토인코더(SAEs)와 같은 현재의 해석 가능성 방법은 모델의 출력 어휘나 불명확한 특성 이름과 같은 한계로 인해 제한된 통찰만을 제공합니다. 본 연구는 LLM 벡터 공간에서 정보를 디코딩하기 위한 새로운 패러다임인 하이퍼디멘셔널 프로브(Hyperdimensional Probe)를 소개합니다. 이 프로브는 기호적 표현과 신경 프로빙의 아이디어를 결합하여 벡터 기호 구조(VSAs)를 통해 모델의 잔차 스트림을 해석 가능한 개념으로 투영합니다. 이 프로브는 SAEs와 기존 프로브의 장점을 결합하면서도 주요 한계를 극복합니다. 우리는 통제된 입력-완성 작업을 통해 이 디코딩 패러다임을 검증하며, 구문 패턴 인식, 키-값 연관, 추상적 추론에 걸친 입력에 대해 다음 토큰 예측 전 모델의 최종 상태를 프로빙합니다. 또한, 질문-응답 설정에서 텍스트 생성 전후의 모델 상태를 검토합니다. 우리의 실험은 이 프로브가 다양한 LLMs, 임베딩 크기, 입력 도메인에 걸쳐 의미 있는 개념을 신뢰롭게 추출하며, LLM 실패를 식별하는 데도 도움을 준다는 것을 보여줍니다. 우리의 연구는 LLM 벡터 공간에서의 정보 디코딩을 발전시켜, 신경 표현에서 더 많은 정보를 제공하고 해석 가능하며 구조화된 특성을 추출할 수 있게 합니다.