번역이 포함된 일일 선별된 AI 연구 논문
검증자 보상 강화학습(RLVR)은 추론 과제에 대한 대규모 언어 모델의 사후 훈련에 널리 사용되는 접근법으로 부여되며, GRPO 및 그 변형들과 같은 그룹 기반 방법들이 광범위하게 채택되고 있습니다. 이러한 방법들은 학습된 비평가(critic)를 회피하기 위해 그룹 상대적 어드밴티지 추정에 의존하지만, 그 이론적 특성은 여전히 제대로 이해되지 못하고 있습니다. 본 연구에서 우리는 그룹 기반 RL의 근본적인 문제를 발견했습니다: 그룹 상대적 어드밴티지 추정기는 본질적으로 실제(기대) 어드밴티지 대비 편향되어 있습니다. 우리는 이 추정기가 어려운 프롬프트에 대해서는 어드밴티지를 체계적으로 과소평가하고 쉬운 프롬프트에 대해서는 과대평가하여 불균형한 탐색과 활용으로 이어진다는 것을 보여주는 첫 번째 이론적 분석을 제공합니다. 이 문제를 해결하기 위해, 우리는 진화하는 난이도 기준점과 훈련 역학을 기반으로 어드밴티지 추정치를 조정하는 적응적 재가중 방식인 History-Aware Adaptive Difficulty Weighting (HA-DW)을 제안합니다. 다섯 가지 수학적 추론 벤치마크에 대한 이론적 분석과 실험 모두 HA-DW가 GRPO 및 그 변형들에 통합될 때 성능을 지속적으로 향상시킴을 입증합니다. 우리의 결과는 편향된 어드밴티지 추정을 수정하는 것이 강건하고 효율적인 RLVR 훈련에 중요함을 시사합니다.
인공지능 에이전트의 경제 시장 통합은 전략적 상호작용의 지형을 근본적으로 변화시킨다. 본 연구는 세 가지 대표적인 게임 이론적 설정(협상: 자원 분할, 교섭: 비대칭 정보 거래, 설득: 전략적 정보 전달)에서 이용 가능한 기술 집합의 확장이 가져오는 경제적 함의를 분석한다. 단순히 AI 대리인의 선택지를 늘리는 것만으로도 균형 보상과 규제 결과가 극적으로 변화하며, 이는 종종 규제 기관이 적극적으로 기술을 개발하고 공개하도록 유인하는 것으로 나타났다. 반대로 '독이 든 사과' 효과라 명명된 전략적 현상을 확인했다: 특정 에이전트가 자신이나 상대방 모두 최종적으로 사용하지 않을 신기술을 공개함으로써 규제 기관의 시장 설계 선택을 자신에게 유리하게 조종하는 경우이다. 이러한 전략적 공개는 상대방과 규제 기관의 공정성 목표를 희생시키면서 공개자의 후생을 증진시킨다. 우리의 연구 결과는 정적 규제 체계가 기술 확장을 통한 조작에 취약함을 보여주며, 진화하는 AI 역량 지형에 적응하는 동적 시장 설계의 필요성을 시사한다.
대규모 언어 모델(LLM)이 다중 턴 상호작용에서 도구를 효과적으로 활용할 수 있도록 하는 것은 능력 있는 자율 에이전트 구축에 필수적입니다. 그러나 다양하고 현실적인 다중 턴 도구 사용 데이터를 획득하는 것은 여전히 큰 과제로 남아 있습니다. 본 연구에서는 새로운 텍스트 기반 패러다임을 제안합니다. 우리는 텍스트 코퍼스가 자연스럽게 풍부한 다단계 문제 해결 경험을 포함하고 있으며, 이는 다중 턴 도구 사용 작업을 위한 미개척된, 확장 가능하며 정확한 데이터 소스로 활용될 수 있음을 관찰했습니다. 이러한 통찰을 바탕으로, 관련성 필터링, 워크플로우 및 도구 추출, 궤적 근거화, 복잡도 정제의 4단계 과정을 통해 텍스트 코퍼스에서 다중 턴 도구 사용 궤적을 생성 및 추출할 수 있는 데이터 합성 파이프라인인 GEM을 소개합니다. 계산 비용을 줄이기 위해 지도 미세 조정을 통해 특화된 궤적 합성기를 추가로 학습시킵니다. 이 모델은 복잡한 생성 파이프라인을 효율적인 종단간 궤적 생성기로 응축합니다. 실험 결과, 우리의 GEM-32B 모델이 BFCL V3 다중 턴 벤치마크에서 16.5%의 성능 향상을 달성했음을 보여줍니다. 우리의 모델은 τ-bench(Airline 및 Retail) 도메인 내 데이터로 학습된 모델들의 성능을 부분적으로 능가하며, 텍스트 기반 합성 패러다임에서 비롯된 우수한 일반화 능력을 강조합니다. 특히, 우리의 궤적 합성기는 전체 파이프라인의 품질을 유지하면서 추론 지연 시간과 비용을 크게 절감합니다.
검증 가능한 보상 강화 학습(RLVR)은 수학과 같은 추론 집약적 영역에서 상당한 진전을 이끌어왔습니다. 그러나 근거 자료의 부재로 인해 개방형 생성 작업의 최적화는 여전히 과제로 남아 있습니다. 루브릭 기반 평가가 검증을 위한 구조화된 대리 지표를 제공하지만, 기존 방법은 확장성 병목 현상과 포괄적인 기준으로 인해 감독 한계 효과를 겪고 있습니다. 이를 해결하기 위해 우리는 자동화된 세분화 루브릭 생성 프레임워크를 제안합니다. 원칙 기반 합성, 다중 모델 집계, 난이도 진화를 결합한 우리의 접근법은 미묘한 뉘앙스를 포착할 수 있는 포괄적이고 높은 변별력을 지닌 기준을 생성합니다. 이 프레임워크를 기반으로 대규모(약 110k) 다중 도메인 데이터셋인 RubricHub를 소개합니다. 우리는 루브릭 기반 반응 샘플링 미세 조정(RuFT)과 강화 학습(RuRL)으로 구성된 2단계 사후 학습 파이프라인을 통해 그 유용성을 검증합니다. 실험 결과, RubricHub가 상당한 성능 향상을 가능하게 함을 보여줍니다: 사후 학습된 Qwen3-14B는 HealthBench(69.3)에서 GPT-5와 같은 독점 최첨단 모델을 능가하는 SOTA 성능을 달성했습니다. 코드와 데이터는 곧 공개될 예정입니다.
개인화된 대규모 언어 모델(LLM)은 사용자 만족도를 높이기 위해 모델의 행동을 개별 사용자에 맞게 조정하지만, 이러한 개인화는 사실 추론을 의도치 않게 왜곡할 수 있습니다. 본 연구는 개인화된 LLM이 사실적 질의에 직면할 때, 객관적 진실보다는 사용자의 이전 기록과 일치하는 답변을 생성하는 현상이 존재함을 보여줍니다. 이로 인해 개인화로 유발된 환각(hallucination)이 발생하여 사실적 신뢰도를 저하시키고 잘못된 신념을 확산시킬 수 있으며, 이는 개인화 표현과 사실 표현 간의 표현적 얽힘(representational entanglement) 때문입니다. 이러한 문제를 해결하기 위해 우리는 경량의 추론 시점 접근법인 사실성 보존 개인화 조정(FPPS)을 제안합니다. FPPS는 개인화된 행동을 유지하면서 개인화로 인한 사실 왜곡을 완화합니다. 또한 우리는 개인화 하에서 사실적 및 개인화된 질의응답을 함께 평가하기 위해 최초로 설계된 벤치마크인 PFQABench를 소개합니다. 다양한 LLM 백본 및 개인화 방법을 통한 실험 결과, FPPS가 개인화된 성능을 유지하면서 사실적 정확도를 크게 향상시킴을 확인했습니다.
비전-언어-행동(VLA) 모델은 다양한 조작 작업을 위한 핵심 일반 로봇 정책으로 부상했으며, 기존에는 비전-언어 모델(VLM) 임베딩을 통해 다중 모드 입력을 직접 행동으로 변환하는 방식에 의존해왔습니다. 최근 발전으로는 하위 작업 예측(언어)이나 목표 이미지 합성(비전)과 같은 명시적 중간 추론을 도입하여 행동 생성을 안내하는 접근법이 등장했습니다. 그러나 이러한 중간 추론은 종종 간접적이며 정밀한 행동 실행에 필요한 세분화된 전체 정보를 전달하는 데 본질적인 한계가 있습니다. 이에 우리는 가장 효과적인 추론 형태는 행동 공간에서 직접 고려하는 것이라고 주장합니다. 우리는 최종 정책을 안내하는 구조화된 coarse 행동 의도 시퀀스로 추론 과정 자체를 구성하는 패러다임인 Action Chain-of-Thought(ACoT)를 소개합니다. 본 논문에서는 ACoT 패러다임을 구현하는 새로운 아키텍처인 ACoT-VLA를 제안합니다. 구체적으로, 우리는 상호 보완적인 두 가지 구성 요소인 명시적 행동 추론기(EAR)와 암묵적 행동 추론기(IAR)를 도입합니다. 전자는 명시적 행동 수준 추론 단계로서 coarse 참조 궤적을 제안하고, 후자는 다중 모드 입력의 내부 표현에서 잠재적 행동 사전 정보를 추출하여, 접지된 정책 학습을 가능하게 하는 하위 행동 헤드를 조건화하는 ACoT를 공동으로 형성합니다. 실제 환경과 시뮬레이션 환경에서의 광범위한 실험을 통해 우리가 제안한 방법의 우수성을 입증하였으며, 각각 LIBERO에서 98.5%, LIBERO-Plus에서 84.1%, VLABench에서 47.4%의 성능을 달성했습니다.
RL 기반 에이전트 탐색은 LLM이 동적 계획과 외부 검색을 통해 복잡한 질문을 해결할 수 있게 합니다. 대규모 강화학습으로 최적화된 에이전트 정책을 통해 정확도를 크게 향상시키는 이 접근법에는 신뢰성 측면에서 중요한 결함이 존재합니다. 바로 이러한 에이전트들이 자신의 추론 한계를 인지하지 못하고, 증거가 불충분하거나 추론이 한계에 도달했을 때도 "모름"(IDK)을 거의 인정하지 않는다는 점입니다. 이러한 신뢰성 부재는 그럴듯하지만 신뢰할 수 없는 답변을 초래하여 많은 실제 시나리오에서 상당한 위험을 야기합니다. 이를 위해 우리는 정확성을 저해하지 않으면서 신뢰할 수 있는 한계 인식을 함양하도록 설계된 새로운 RL 프레임워크인 Boundary-Aware Policy Optimization(BAPO)을 제안합니다. BAPO는 두 가지 핵심 구성 요소를 도입합니다: (i) 추론이 한계에 도달했을 때만 IDK 응답을 장려하는 그룹 기반 한계 인식 보상, 그리고 (ii) 초기 탐색 단계에서 이 보상을 전략적으로 중단하여 모델이 IDK를 지름길로 이용하는 것을 방지하는 적응형 보상 조절기입니다. 4가지 벤치마크에 대한 광범위한 실험을 통해 BAPO가 에이전트 탐색의 전반적인 신뢰성을 크게 향상시킴을 입증했습니다.
텍스트 프롬프트 기반 인간 동작 생성은 최근 몇 년 동안 눈에 띄는 발전을 이루었습니다. 그러나 기존 방법들은 세밀한 부분 수준의 동작 주석 부족으로 인해 주로 시퀀스 수준 또는 액션 수준의 설명에 의존해 왔습니다. 이는 개별 신체 부위에 대한 제어 가능성을 제한합니다. 본 연구에서는 대규모 언어 모델(LLM)의 추론 능력을 활용하여 원자적이고 시간 인식적인 부분 수준의 텍스트 주석이 포함된 고품질 동작 데이터셋을 구축합니다. 고정된 시간 세그먼트로 동기화된 부분 캡션을 제공하거나 전역 시퀀스 라벨에만 의존하는 기존 데이터셋과 달리, 우리의 데이터셋은 정교한 시간 해상도로 비동기적이고 의미론적으로 구분되는 부분 동작을 포착합니다. 이 데이터셋을 바탕으로 각 신체 부위가 자체적인 시간 구조화 텍스트 프롬프트의 지도를 받는 디퓨전 기반 부분 인식 동작 생성 프레임워크인 FrankenMotion을 소개합니다. 이는 우리가 아는 한 원자적이고 시간 인식적인 부분 수준 동작 주석을 제공하며 공간적(신체 부위) 및 시간적(원자적 액션) 제어가 모두 가능한 동작 생성을 허용하는 최초의 모델입니다. 실험 결과, FrankenMotion은 우리의 설정에 맞게 수정 및 재학습된 모든 기존 베이스라인 모델을 능가하며, 우리 모델은 학습 과정에서 보지 못한 동작을 구성할 수 있음을 보여줍니다. 우리의 코드와 데이터셋은 논문 게재 시 공개될 예정입니다.
LLM 배포에는 두 가지 상호 연관된 과제가 제기됩니다: (1) 모니터링 - 트래픽과 도메인이 변화함에 따라 모델이 어디서 성능이 저하되는지 추정하는 것, (2) 개선 - 가장 큰 성능 격차를 해소하기 위해 데이터 수집 우선순위를 정하는 것입니다. 우리는 추론 시그널이 도메인 변화 하에서 슬라이스 수준 정확도를 추정할 수 있는지 테스트합니다. 각 응답에 대해 최종 레이어의 다음 토큰 확률(상위 k개 로그확률 기준)로부터 출력 엔트로피 프로파일을 계산하고 이를 11가지 통계량으로 요약합니다. 경량 분류기가 인스턴스 정확도를 예측하며, 예측된 확률을 평균화하면 도메인 수준 정확도 추정치를 얻습니다. 우리는 10개의 STEM 추론 벤치마크에서 포괄적인 훈련/테스트 구성(k는 {1,2,3,4}; 모든 "10개 중 k개 선택" 조합)과 6개 계열의 9개 LLM(3B-20B)을 대상으로 평가를 수행했습니다. 추정치는 종종 비공개 벤치마크 정확도를 추적하며, 여러 모델에서 도메인의 거의 단조로운 순서가 관찰됩니다. 따라서 출력 엔트로피 프로파일은 확장 가능한 모니터링과 데이터 수집 대상 선정을 위한 접근 가능한 시그널입니다.
지도 미세 조정(SFT)은 대규모 언어 모델(LLM)을 인간의 의도에 맞추기 위한 핵심적인 사후 학습 전략입니다. 그러나 기존 SFT는 단일 참조 답변에만 정렬하도록 강제함으로써 언어의 일대다 특성을 간과하는 경우가 많아, 모델이 비핵심적 표현에 과적합되는 결과를 초래합니다. 실증 분석 결과 여러 참조 답변을 도입하면 이 문제를 완화할 수 있으나, 막대한 데이터 및 계산 비용으로 인해 답변 다양성 확보보다 단일 참조 과적합 해결에 전략적 초점을 맞출 필요가 있습니다. 이를 위해 우리는 토큰 확률과 의미적 중요도 간의 내재적 연관성을 규명했습니다: 높은 확률의 토큰은 핵심 논리 구조를 담고 있는 반면, 낮은 확률의 토큰은 대체 가능한 표현인 경우가 많습니다. 이러한 통찰을 바탕으로, 우리는 표층적 과적합을 방지하기 위해 낮은 확률의 토큰을 선택적으로 마스킹하는 ProFit을 제안합니다. 다양한 실험을 통해 ProFit이 일반 추론 및 수학적 벤치마크에서 기존 SFT 기준선을 지속적으로 능가함을 확인했습니다.
광학 흐름과 같은 미래 동작 표현은 제어 및 생성 작업에 막대한 가치를 제공합니다. 그러나 일반화 가능한 공간적으로 조밀한 동작 표현의 예측은 여전히 핵심 과제로 남아 있으며, 노이즈가 많은 실세계 데이터로부터 이러한 예측을 학습하는 것은 상대적으로 덜 탐구된 분야입니다. 본 연구에서는 통합 Vision-Language Model(VLM)과 Diffusion 아키텍처를 특징으로 하는 새로운 언어 조건부 광학 흐름 예측 모델인 FOFPred를 제안합니다. 이 독특한 조합은 미래 동작 예측을 위해 픽셀 수준의 생성 정밀도와 강력한 다중 모드 추론을 가능하게 합니다. 우리 모델은 웹 규모의 인간 활동 데이터라는 확장성은 높지만 비정형적인 소스로 학습됩니다. 노이즈가 많은 비디오-캡션 데이터에서 의미 있는 신호를 추출하기 위해 우리는 중요한 데이터 전처리 기술과 강력한 이미지 사전 학습을 갖춘 통합 아키텍처를 활용합니다. 그 결과 학습된 모델은 제어와 생성이라는 두 가지 상이한 다운스트림 작업을 해결하도록 확장됩니다. 언어 주도 설정 하에서 로봇 매니픽레이션 및 비디오 생성에 걸친 평가를 통해 FOFPred의 크로스 도메인 다양성이 입증되며, 통합 VLM-Diffusion 아키텍처와 다양한 웹 데이터로부터의 확장 가능한 학습이 미래 광학 흐름 예측에 가치가 있음을 확인합니다.
3D 형상 생성의 최근 발전은 인상적인 결과를 달성했지만, 기존 방법 대부분은 깨끗하고 가려짐 없이 잘 분할된 입력에 의존합니다. 이러한 조건은 실제 시나리오에서는 거의 충족되지 않습니다. 우리는 캐주얼하게 캡처된 시퀀스로부터 조건부 3D 객체 형상을 생성하는 새로운 접근법인 ShapeR을 제시합니다. 이미지 시퀀스가 주어지면, 기성 시각-관성 SLAM, 3D 감지 알고리즘 및 비전-언어 모델을 활용하여 각 객체에 대해 희소 SLAM 포인트, 포즈 추정 다중 뷰 이미지 및 기계 생성 캡션 세트를 추출합니다. 이러한 양식들을 효과적으로 조건으로 활용하도록 훈련된 정류 흐름 트랜스포머는 이어서 높은 정확도의 미터법 3D 형상을 생성합니다. 캐주얼 캡처 데이터의 어려움에 대한 견고성을 보장하기 위해, 우리는 온더플라이 구성 증강, 객체 및 장면 수준 데이터셋에 걸친 커리큘럼 훈련 방식, 배경 복잡성을 처리하기 위한 전략 등 다양한 기법을 채택합니다. 또한, 7개의 실제 장면에 걸쳐 178개의 실제 환경 객체와 기하학적 주석을 포함하는 새로운 평가 벤치마크를 도입합니다. 실험 결과, ShapeR은 이 까다로운 환경에서 기존 접근법을 크게 능가하며, 최첨단 기술 대비 Chamfer 거리에서 2.7배의 개선을 달성함을 보여줍니다.
대규모 언어 모델은 다양한 영역에서 놀라운 능력을 달성했으나, 정교한 추론을 뒷받침하는 메커니즘은 여전히 베일에 싸여 있습니다. 최근의 추론 모델들은 긴 사고 사슬을 통한 확장된 계산 덕분에 복잡한 인지 과제에서 비교 가능한 지시어 최적화 모델들을 능가하는 성능을 보입니다. 본 연구에서는 향상된 추론이 단순히 확장된 계산에서 비롯되는 것이 아니라, 서로 다른 성격 특성과 분야 전문성을 지닌 내부 인식적 관점들 간의 다양화와 논쟁을 가능하게 하는 다중 에이전트형 상호작용, 즉 '사고의 사회'를 시뮬레이션함으로써 나타난다는 것을 보여줍니다. 추론 흔적에 정량 분석 및 기계론적 해석 가능성 방법을 적용한 결과, DeepSeek-R1 및 QwQ-32B와 같은 추론 모델들이 지시어 최적화 모델들보다 훨씬 더 큰 관점 다양성을 보이며, 추론 과정에서 이질적인 성격 및 전문성 관련 특징들 간의 더 광범위한 갈등을 활성화한다는 사실을 발견했습니다. 이 다중 에이전트 구조는 질의응답, 관점 전환, 상충되는 견해의 조정을 포함한 대화 행동과, 날카로운 주고받는 대화를 특징짓는 사회-정서적 역할에 나타나며, 이들이 함께 추론 과제의 정확도 우위를 설명합니다. 통제된 강화 학습 실험을 통해, 기본 모델들이 추론 정확도만으로 보상을 받을 경우 대화 행동을 증가시키며, 대화형 비계로 모델을 미세 조정하면 기본 모델 대비 추론 능력 향상이 가속화된다는 사실을 확인했습니다. 이러한 발견들은 사고의 사회적 조직이 해결책 공간의 효과적인 탐색을 가능하게 함을 시사합니다. 우리는 추론 모델이 체계적으로 구조화될 때 다양성이 우수한 문제 해결을 가능하게 하는 인간 집단의 집단 지성에 대한 계산적 병렬 구조를 구축한다고 제안하며, 이는 군중의 지혜를 활용하기 위한 에이전트 조직에 새로운 가능성을 제시합니다.
물리 법칙은 사실적인 시각 시뮬레이션의 기초이지만, 트랜스포머 기반 비디오 생성에서는 여전히 상당한 간과 영역으로 남아 있습니다. 이러한 격차는 고전 역학의 핵심 원리인 강체 운동 렌더링에서 중요한 한계를 부각시킵니다. 컴퓨터 그래픽스와 물리 기반 시뮬레이터는 뉴턴 공식을 사용하여 이러한 충돌을 쉽게 모델링할 수 있지만, 현대의 사전 학습-미세 조정 패러다임은 픽셀 수준의 전역 노이즈 제거 과정에서 객체 강성 개념을 버립니다. 훈련 후 모델 최적화 과정에서 수학적으로 완벽하게 정확한 제약 조건조차도 차선책 해법(즉, 조건)으로 취급되어, 생성된 비디오의 물리적 현실감을 근본적으로 제한합니다. 이러한 고찰에 동기를 부여받아, 우리는 물리 지식을 조건으로 취급하기보다 엄격하게 적용하도록 보장하는, 고차원 공간에서 직접 물리적 충돌 규칙을 강제하는 비디오 생성 모델을 위한 물리 인식 강화 학습 패러다임을 최초로 제안합니다. 이후 우리는 이 패러다임을 Mimicry-Discovery Cycle (MDcycle)이라는 통합 프레임워크로 확장하여, 모델의 물리 기반 피드백 활용 능력을 완전히 보존하면서도 상당한 수준의 미세 조정을 가능하게 합니다. 우리의 접근법을 검증하기 위해 새로운 벤치마크 PhysRVGBench을 구축하고, 그 효과를 철저히 평가하기 위한 방대한 정성 및 정량 실험을 수행합니다.
GUI 에이전트는 명시적이고 완결된 지시 하에서 강력한 성능을 보여왔지만, 실제 환경 배포에는 사용자의 더 복잡한 암묵적 의도와의 정렬이 필요합니다. 본 연구에서는 개인화된 GUI 에이전트(PersonalAlign)를 위한 계층적 암묵 의도 정렬을 제안합니다. 이는 새로운 에이전트 과제로, 에이전트가 장기적 사용자 기록을 지속적 컨텍스트로 활용하여 모호한 지시에서 생략된 선호도를 해결하고, 사용자 상태에 따른 잠재적 루틴을 예측하여 능동적 지원을 제공해야 합니다. 이 연구를 지원하기 위해 AndroidIntent 벤치마크를 도입했습니다. 이는 에이전트의 장기적 사용자 기록에 대한 추론을 통해 모호한 지시를 해결하고 능동적 제안을 제공하는 능력을 평가하도록 설계되었습니다. 서로 다른 사용자들의 2만 건의 장기 기록에서 775개의 사용자별 선호도와 215개의 루틴을 평가를 위해 주석 처리했습니다. 또한, 지속적으로 업데이트되는 개인 메모리를 유지하고 사용자 선호도와 루틴을 개인화를 위해 계층적으로 구성하는 HIM-Agent를 소개합니다. 마지막으로 GPT-5, Qwen3-VL, UI-TARS 등 다양한 GUI 에이전트를 AndroidIntent에서 평가한 결과, HIM-Agent가 실행 성능과 능동적 성능을 각각 15.7%, 7.3% 크게 향상시키는 것으로 나타났습니다.
최첨단 언어 모델의 성능이 빠르게 향상됨에 따라, 점점 더 강력해지는 시스템을 악용하려는 악의적 행위자에 대한 보다 강력한 완화 방안이 필요해졌습니다. 선행 연구에서는 활성화 프로브가 유망한 오용 완화 기술일 수 있음을 보여주었으나, 우리는 중요한 잔여 과제를 확인했습니다: 프로브가 실제 운영 환경에서 발생하는 중요한 분포 변화에 대해 일반화되지 못한다는 점입니다. 특히, 단문 컨텍스트 입력에서 장문 컨텍스트 입력으로의 전환은 기존 프로브 아키텍처가 처리하기 어려운 것으로 나타났습니다. 우리는 이러한 장문 컨텍스트 분포 변화를 처리하는 몇 가지 새로운 프로브 아키텍처를 제안합니다. 우리는 사이버 공격 분야에서 이러한 프로브를 평가하며, 다중 회차 대화, 정적 탈옥, 적응형 레드 팀링 등 실제 운영 환경과 관련된 다양한 변화에 대한 프로브의 견고성을 테스트했습니다. 결과에 따르면, 멀티맥스가 컨텍스트 길이 문제는 해결하지만, 광범위한 일반화를 위해서는 아키텍처 선택과 다양한 분포에 대한 훈련을 결합해야 합니다. 또한, 프로브의 계산 효율성 덕분에 프로브에 프롬프트 기반 분류기를 결합하면 낮은 비용으로 최적의 정확도를 달성할 수 있음을 보여줍니다. 이러한 연구 결과는 Google의 최첨단 언어 모델인 Gemini의 사용자 대상 인스턴스에 오용 완화 프로브를 성공적으로 배포하는 데 기여했습니다. 마지막으로, AlphaEvolve를 사용하여 프로브 아키텍처 탐색과 적응형 레� 팀링 개선을 자동화한 초기 긍정적인 결과를 확인했으며, 이는 일부 AI 안전성 연구의 자동화가 이미 가능함을 시사합니다.
대규모 언어 모델(LLM) 기반 자율 에이전트는 경제 생산에 상당히 기여할 수 있는 다면적인 능력을 보여줍니다. 그러나 기존 벤치마크는 단일 에이전트 능력에 집중된 나머지, 장기적인 실제 시나리오를 포착하지 못하고 있습니다. 더욱이 현실적인 작업을 위해 인간의 피드백에 의존하는 것은 확장성의 병목 현상을 일으켜, 자동화된 롤아웃 수집 및 평가를 방해합니다. 이러한 격차를 해소하기 위해 우리는 일상적인 AI 사용에서 도출한 포괄적인 벤치마크인 AgencyBench를 소개합니다. 이는 32개의 실제 시나리오에서 6가지 핵심 에이전트 능력을 평가하며, 구체적인 질의, 산출물, 평가 기준을 포함한 138개의 작업으로 구성됩니다. 이러한 시나리오를 해결하려면 평균 90회의 도구 호출, 100만 토큰, 그리고 수 시간의 실행 시간이 필요합니다. 자동화된 평가를 가능하게 하기 위해, 우리는 반복적 피드백을 제공하는 사용자 시뮬레이션 에이전트와 시각적 및 기능적 평가 기준 기반 평가를 수행하는 Docker 샌드박스를 활용합니다. 실험 결과, 클로즈드 소스 모델이 오픈 소스 모델을 크게 능가하는 것으로 나타났습니다(48.4% 대 32.1%). 추가 분석을 통해 자원 효율성, 피드백 기반 자기 수정, 특정 도구 사용 선호도에 있어 모델 간 상당한 차이가 있음을 확인했습니다. 마지막으로, 우리는 에이전트 스캐폴드의 영향을 조사한 결과, 독점 모델은 자체 생태계 내에서 더 우수한 성능을 보이는 반면(예: Claude-Agent-SDK를 통한 Claude-4.5-Opus), 오픈 소스 모델은 특정 실행 프레임워크에 대해 뚜렷한 성능 정점을 보여 특정 실행 프레임워크에 대한 최적화 가능성을 시사합니다. AgencyBench는 차세대 에이전트를 위한 중요한 테스트베드 역할을 하며, 모델 아키텍처와 에이전트 프레임워크를 함께 최적화할 필요성을 강조합니다. 우리는 이 작업이 자율 에이전트의 미래 방향을 제시한다고 믿으며, 전체 벤치마크와 평가 도구 키트를 https://github.com/GAIR-NLP/AgencyBench 에 공개합니다.
대규모 시각 언어 모델(LVLMs)은 놀라운 능력을 보여주었으나, 다중 이미지에 대한 이해와 추론 능력은 여전히 크게 탐구되지 않았습니다. 기존 벤치마크들이 다중 이미지 모델 평가를 시작했지만, 이러한 모델들의 핵심적 약점과 그 원인에 대한 포괄적인 분석은 아직 부족한 실정입니다. 본 연구에서는 LVLM의 다중 이미지 능력을 엄격하게 평가하기 위해 새로운 벤치마크인 MIMIC(다중 이미지 모델 통찰 및 과제)을 소개합니다. MIMIC을 활용한 일련의 진단 실험을 통해 LVLM이 이미지 간 정보를 종합하는 데 자주 실패하고, 여러 개념을 동시에 추적하거나 주의를 기울이는 데 어려움을 겪는 등 보편적인 문제점을 발견했습니다. 이러한 한계를 해결하기 위해 두 가지 새로운 상호 보완적 개선 방안을 제안합니다. 데이터 측면에서는 단일 이미지 주석을 풍부하고 목표 지향적인 다중 이미지 학습 예제로 구성하는 절차적 데이터 생성 전략을 제시합니다. 최적화 측면에서는 계층별 주의 패턴을 분석하고 다중 이미지 입력에 특화된 주의 마스킹 기법을 도출했습니다. 실험 결과, 이미지 간 종합 능력이 크게 개선되었을 뿐만 아니라 기존 다중 이미지 벤치마크에서도 성능이 향상되어 다양한 과제에서 기존 최첨단 기술을 능가하는 성과를 보였습니다. 데이터와 코드는 https://github.com/anurag-198/MIMIC에서 공개될 예정입니다.
최근 에이전트형 대규모 언어 모델(LLM)의 발전으로 다양한 작업에 걸쳐 추론과 행동이 가능한 일반 목적 플래너로서의 가능성이 부각되고 있습니다. 그러나 기존의 에이전트 벤치마크는 주로 상징적이거나 약하게 구체화된 환경에 초점을 맞추어, 물리적 제약이 있는 현실 세계 영역에서의 성능은 충분히 연구되지 못했습니다. 본 논문에서는 이질적 목표, 엄격한 물리적 제약, 장기적 의사 결정을 특징으로 하는 고위험 문제군인 우주 계획 문제(SPP)에서의 에이전트형 계획 성능을 평가하기 위한 포괄적 벨치마크인 AstroReason-Bench를 소개합니다. AstroReason-Bench는 지상국 통신 및 애자일 지구 관측 등 다양한 스케줄링 체계를 통합하고 통일된 에이전트 지향 상호작용 프로토콜을 제공합니다. 다양한 최첨단 오픈소스 및 클로즈드소스 에이전트형 LLM 시스템을 평가한 결과, 현행 에이전트들은 특화 솔버에 비해 성능이 현저히 낮은 것으로 나타나 현실적 제약 하에서 일반 목적 계획의 주요 한계를 부각시켰습니다. AstroReason-Bench는 향후 에이전트 연구를 위한 도전적이고 진단적인 테스트베드를 제공합니다.
최근의 확산 기반 비디오 생성 모델은 시각적으로 그럴듯한 비디오를 합성할 수 있지만, 종종 물리적 제약 조건을 충족시키지 못하는 경우가 많습니다. 핵심적인 이유는 대부분의 기존 접근법이 단일 단계로 구성되어 있어, 높은 수준의 물리적 이해와 낮은 수준의 시각적 합성을 뒤엉키게 하여 명시적인 물리적 추론이 필요한 콘텐츠 생성에 어려움을 겪기 때문입니다. 이러한 한계를 해결하기 위해 우리는 물리적 이해와 시각적 합성을 분리하는 학습이 필요 없는 3단계 파이프라인인 PhyRPR(PhyReason-PhyPlan-PhyRefine)을 제안합니다. 구체적으로, PhyReason은 물리적 상태 추론을 위해 대규모 멀티모달 모델을, 키프레임 합성을 위해 이미지 생성기를 사용합니다. PhyPlan은 제어 가능한 조악한 동작 골격을 결정론적으로 합성하며, PhyRefine은 이 골격을 잠재 공간 융합 전략을 통해 확산 샘플링에 주입하여 계획된 역학을 보존하면서 외관을 정제합니다. 이러한 단계적 설계는 생성 과정 중 명시적인 물리적 제어를 가능하게 합니다. 물리적 제약 조건 하에서의 광범위한 실험을 통해 우리의 방법이 물리적 타당성과 동작 제어성을 지속적으로 향상시킴을 확인했습니다.
우리는 모델과 학습 프로토콜을 고정하여 데이터셋 선택의 영향을 분리하여 평가하는 NeurIPS 2025 데이터 큐레이션 비전-언어 추론(DCVLR) 챌린지를 통해 다중모드 추론을 위한 데이터 큐레이션을 연구합니다. Walton Multimodal Cold Start를 주원천으로 한 소규모의 정제된 데이터셋을 사용한 우리의 제출작은 해당 챌린지에서 1위를 차지했습니다. 대회 후 수행한 Ablation 실험을 통해, 정렬된 기본 데이터셋에 대한 난이도 기반 예제 선택이 성능 향상의 주된 동인임을 보여줍니다. 고정된 학습 방법 아래에서는 데이터셋 크기를 늘려도 평균 정확도가 안정적으로 향상되지는 않으며, 주로 실행 간 변동성을 감소시키는 반면, 흔히 사용되는 다양성 및 합성 증강 휴리스틱은 추가 이점을 제공하지 않으며 오히려 성능을 저하시키는 경우가 많습니다. 이러한 결과는 DCVLR이 포화 국면 평가임을 규정하며, 데이터 효율적인 다중모드 추론에서 정렬과 난이도의 핵심적 역할을 부각시킵니다.
대규모 언어 모델에서 출력 다양성은 다양성과 창의성의 기반이 되므로 매우 중요합니다. 본 연구에서는 모델 사고 과정에서 사용되는 언어, 즉 사고 언어를 제어함으로써 출력 다양성의 새로운 구조적 원천을 제공할 수 있음을 밝힙니다. 우리의 예비 연구에 따르면, 서로 다른 사고 언어는 모델의 사고 공간 내에서 각기 다른 영역을 차지합니다. 이러한 관찰을 바탕으로 우리는 다언어 사고 하에서 두 가지 반복 샘플링 전략(단일 언어 샘플링과 혼합 언어 샘플링)을 연구하고, 사용된 사고 언어와 무관하게 영어로 제어된 출력물에 대한 다양성 평가를 수행합니다. 광범위한 실험을 통해 사고 언어를 영어에서 비영어권 언어로 전환하면 출력 다양성이 지속적으로 증가하며, 사고 공간에서 영어와 거리가 먼 언어일수록 더 큰 다양성 향상을 가져온다는 명확하고 일관된 양의 상관관계를 입증합니다. 더 나아가 여러 사고 언어에서 샘플을 통합하면 구성적 효과를 통해 추가적인 개선이 이루어지며, 언어적 이질성으로 샘플링 규모를 확장하면 모델의 다양성 상한선이 확장됨을 보여줍니다. 마지막으로, 이러한 연구 결과가 다원적 조정 시나리오에서 실질적인 이점으로 이어져 LLM 출력에서 문화적 지식과 가치 지향의 폭을 더 넓히는 것을 확인합니다. 우리의 코드는 https://github.com/iNLP-Lab/Multilingual-LoT-Diversity에서 공개되어 있습니다.