번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)은 소스 코드 이해 분야에서 놀라운 성과를 거두었지만, 소프트웨어 시스템의 규모가 커짐에 따라 계산 효율성이 중요한 병목 현상으로 대두되고 있습니다. 현재 이러한 모델들은 소스 코드를 토큰의 선형 시퀀스로 취급하는 텍스트 기반 패러다임에 의존하고 있어, 컨텍스트 길이와 관련 계산 비용이 선형적으로 증가합니다. 멀티모달 대규모 언어 모델(MLLM)의 급속한 발전은 소스 코드를 렌더링된 이미지로 표현하여 효율성을 최적화할 수 있는 기회를 제공합니다. 의미적 손실 없이 압축하기 어려운 텍스트와 달리, 이미지 모달리티는 본질적으로 압축에 적합합니다. 해상도를 조정함으로써 이미지는 원본 토큰 비용의 일부로 축소될 수 있으면서도 시각 인식 모델이 인식 가능한 상태를 유지합니다. 본 연구는 이러한 접근법의 실현 가능성을 탐구하기 위해 MLLM의 코드 이해 효과에 대한 첫 체계적인 연구를 수행합니다. 실험 결과는 다음과 같음을 보여줍니다: (1) MLLM은 최대 8배 압축을 달성하며 상당한 토큰 감소와 함께 코드를 효과적으로 이해할 수 있다; (2) MLLM은 구문 강조와 같은 시각적 단서를 효과적으로 활용하여 4배 압축 조건에서도 코드 완성 성능을 향상시킬 수 있다; (3) 코드 복제 검출과 같은 코드 이해 작업은 시각적 압축에 대해 탁월한 복원력을 보이며, 일부 압축률에서는 원본 텍스트 입력을 약간 상회하기도 한다. 본 연구의 결과는 코드 이해에서 MLLM의 잠재력과 현재 한계를 동시에 부각하며, 보다 효율적인 추론을 위한 길로써 이미지 모달리티 코드 표현으로의 전환을 지향합니다.
언어 에이전트는 작업 자동화에 강력한 가능성을 보여주고 있습니다. 점점 더 복잡하고 장기적인 작업에 대한 이러한 가능성을 실현하기 위해 다중 턴 작업 해결을 위한 하위 에이전트-도구 패러다임이 부상했습니다. 그러나 기존 설계는 여전히 하위 에이전트에 대한 동적 추상화 뷰가 부족하여 적응성을 저해하고 있습니다. 우리는 이 문제를 해결하기 위해 모든 에이전트를 (지시문, 컨텍스트, 도구, 모델) 튜플로 모델링하는 통일된 프레임워크 독립적 에이전트 추상화를 제안합니다. 이 튜플은 기능에 대한 구성적 레시피 역할을 하여 시스템이 각 작업에 대해 필요에 따라 특화된 실행기를 생성할 수 있게 합니다. 이 추상화를 기반으로 중앙 오케스트레이터가 각 단계에서 튜플을 구체화하는 에이전트 시스템 AOrchestra를 소개합니다. 즉, 오케스트레이터는 작업 관련 컨텍스트를 구성하고, 도구와 모델을 선택하며, 실시간 자동 에이전트 생성을 통해 실행을 위임합니다. 이러한 설계는 인간의 엔지니어링 노력을 줄이고, 다양한 에이전트를 작업 실행기로 플러그 앤 플레이 방식으로 지원함으로써 프레임워크 독립성을 유지합니다. 또한 제어 가능한 성능-비용 절충을 가능하게 하여 시스템이 파레토 효율에 접근할 수 있도록 합니다. 세 가지 까다로운 벤치마크(GAIA, SWE-Bench, Terminal-Bench)에서 AOrchestra는 Gemini-3-Flash와 결합했을 때 가장 강력한 베이스라인 대비 16.28%의 상대적 성능 향상을 달성했습니다. 코드는 https://github.com/FoundationAgents/AOrchestra 에서 확인할 수 있습니다.
본 연구는 체인 오브 쏘트(CoT) 역학에 대한 선행 보완 관찰에서 비롯되었습니다: 대규모 언어 모델(LLM)은 CoT 출현 이전에 후속 추론을 잠재적으로 계획하는 능력을 보여주므로 명시적 CoT의 중요성이 감소하는 반면, 다단계 추론이 필요한 작업에서는 CoT가 여전히 중요합니다. LLM의 내부 상태와 언어화된 추론 궤적 간 관계 이해를 심화하기 위해 우리는 다양한 작업 영역의 은닉 상태에 적용하는 프로빙 방법인 Tele-Lens를 통해 LLM의 잠재 계획 강도를 조사합니다. 실험 결과에 따르면 LLM은 근시안적 시야를 나타내며, 정확한 전역 계획 없이 주로 점진적 전환을 수행합니다. 이 특성을 활용해 우리는 CoT 불확실성 추정 향상에 대한 가설을 제안하며, CoT 위치의 작은 부분 집합이 전체 경로의 불확실성을 효과적으로 대표할 수 있음을 검증합니다. 나아가 CoT 역학 활용의 중요성을 강조하고, 성능 저하 없이 CoT 우회의 자동 인식이 가능함을 입증합니다. 코드, 데이터 및 모델은 https://github.com/lxucs/tele-lens에서 공개됩니다.
AI 연구 자동화는 계산 비용이 많이 드는 평가(예: 모델 학습)와 불명확한 성과 귀인으로 인해 일반 소프트웨어 엔지니어링과 차별화됩니다. 현재 LLM 기반 에이전트는 실행 비용과 인과 관계를 무시한 단일적 스크립트를 생성하는 경우가 많아 이 분야에서 어려움을 겪고 있습니다. 우리는 자율적 AI 연구에 최적화된 프레임워크인 MARS(Modular Agent with Reflective Search)를 소개합니다. MARS는 세 가지 핵심 요소에 기반합니다: (1) 비용 제약 몬테카를로 트리 탐색(MCTS)을 통한 예산 인식 계획으로 성능과 실행 비용을 명시적으로 균형 조정하며, (2) 복잡한 연구 저장소를 관리하기 위한 "설계-분해-구현" 파이프라인을 활용하는 모듈식 구성, 그리고 (3) 솔루션 차이점을 분석하여 높은 신호의 통찰력을 추출하여 크레딧 할당 문제를 해결하는 비교 반추 메모리입니다. MARS는 유사한 설정 하에서 MLE-Bench에서 오픈소스 프레임워크 중 최첨단 성능을 달성하며, 글로벌 리더보드 상위 방법과도 경쟁력을 유지합니다. 더 나아가 본 시스템은 질적 측면에서 'Aha!' 순간을 보여주는데, 활용된 학습 경험의 63%가 교차 분기 전이에서 비롯되어 에이전트가 검색 경로를 가로지르며 통찰력을 효과적으로 일반화함을 입증합니다.
대규모 언어 모델(LLM)은 단기적 과제에서는 뛰어난 성능을 보이지만, 이를 장기적 에이전트 워크플로우로 확장하는 것은 여전히 과제로 남아 있습니다. 핵심 병목 현상은 진정한 장기 의존성 구조와 교차 단계 진화 역학을 포착하는 훈련 데이터의 부족에 있습니다. 기존의 합성 방법은 모델 분포에 제한된 단일 기능 시나리오에 국한되거나, 과도한 인간 주석 비용이 발생하여 확장 가능한 고품질 지도를 제공하지 못합니다. 우리는 실제 소프트웨어 진화의 관점에서 데이터 합성을 재구성하여 이 문제를 해결합니다. 우리의 핵심 통찰은 다음과 같습니다. 풀 리퀘스트(PR) 시퀀스는 장기적 학습을 위한 지도 신호를 자연스럽게 구현합니다. PR은 복잡한 목표를 검증 가능한 제출 단위로 분해하고, 반복에 걸쳐 기능적 일관성을 유지하며, 버그 수정 기록을 통해 진정한 개선 패턴을 인코딩합니다. 이를 바탕으로 우리는 체인-오브-PR(chain-of-PRs)에서 구조화된 지도를 체계적으로 추출하는 daVinci-Agency를 제안합니다. 이는 세 가지 연동 메커니즘을 통해 이루어집니다: (1) 지속적인 커밋을 통한 점진적 과제 분해, (2) 통합된 기능적 목표를 통한 장기적 일관성 강화, (3) 진정한 버그 수정 궤적로부터의 검증 가능한 개선. 각 단계를 독립적으로 취급하는 합성 궤적과 달리, daVinci-Agency의 PR에 기반한 구조는 지속적인 목표 지향 행동을 가르치는 데 필수적인 인과적 의존성과 반복적 개선을 본질적으로 보존하며, 프로젝트 수준의 전체 주기 과제 모델링과의 자연스러운 정렬을 가능하게 합니다. 그 결과 생성되는 궤적은 규모가 방대합니다(평균 85,000 토큰, 116개 도구 호출). 그러나 데이터 효율성은 놀랍습니다: GLM-4.6을 239개의 daVinci-Agency 샘플로 미세 조정하면 벤치마크 전반에 걸쳐 광범위한 성능 향상을 보였으며, 특히 Toolathlon에서 47%의 상대적 성능 향상을 달성했습니다. 벤치마크 성능을 넘어서, 우리의 분석은...
기존의 비디오 생성에서 인간 동작 제어 방법은 일반적으로 2D 포즈나 명시적 3D 파라미터 모델(예: SMPL)을 제어 신호로 활용합니다. 그러나 2D 포즈는 동작을 구동 뷰포인트에 강하게 묶어 새로운 시점 합성을 방해합니다. 명시적 3D 모델은 구조적 정보를 제공하지만 깊이 모호성 및 부정확한 역학 같은 본질적 한계를 지니며, 이를 강한 제약으로 사용할 경우 대규모 비디오 생성기의 강력한 내재적 3D 인식을 오히려 억압합니다. 본 연구에서는 3D 인식 관점에서 동작 제어를 재조명하며, 외부 재구축 제약에 의존하기보다 생성기의 공간 사전 지식과 자연스럽게 조화되는 암묵적, 뷰-불변 동작 표현을 지향합니다. 우리는 사전 학습된 비디오 생성기와 운동 인코더를 공동 학습하여 구동 프레임을 간결한 뷰-불변 운동 토큰으로 추출하고 cross-attention을 통해 의미론적으로 주입하는 3DiMo를 제안합니다. 3D 인식을 촉진하기 위해 단일 뷰, 다중 뷰, 이동 카메라 비디오 같은 풍부한 시점 감독 데이터로 학습하여 다양한 시점에서 동작 일관성을 강제합니다. 추가로 SMPL을 초기 초기화에만 활용하고 점차 제거하는 보조 기하학적 감독을 사용하여, 모델이 외부 3D 지도에서 데이터와 생성기의 사전 지식을 통한 진정한 3D 공간 운동 이해를 학습하도록 전환합니다. 실험 결과, 3DiMo는 유연한 텍스트 기반 카메라 제어로 구동 동작을 충실히 재현하며, 기존 방법들을 동작 정확도와 시각적 품질 모두에서 크게 능가함을 확인했습니다.
세계 모델은 물리적 역학과 세계 지식을 대규모 모델에 주입하여 향상시키려는 AI 연구의 핵심 분야로 부상했습니다. 핵심 목표는 에이전트가 복잡한 환경을 이해, 예측, 상호작용할 수 있도록 하는 것입니다. 그러나 현재 연구 동향은 통합된 정의나 프레임워크 구축보다 시각 예측, 3D 추정, 기호 접지 등 개별 작업에 세계 지식을 주입하는 데 집중된 파편적 접근이 주를 이룹니다. 이러한 작업 특화적 통합은 성능 향상을 가져오지만, 종종 전체론적 세계 이해에 필요한 체계적 일관성이 부족합니다. 본 논문에서는 이러한 파편적 접근의 한계를 분석하고 세계 모델을 위한 통합 설계 명세를 제안합니다. 강력한 세계 모델은 개별 능력의 단순 집합이 아닌 상호작용, 인지, 기호 추론, 공간 표현을 통합적으로 포함하는 규범적 프레임워크여야 함을 주장합니다. 본 연구는 보다 일반적이고 강건하며 원칙적인 세계 모델 개발을 위한 구조화된 관점을 제시하는 것을 목표로 합니다.
검증 가능한 보상을 활용한 강화 학습(RLVR)은 LLM 추론 성능 향상을 위한 핵심 접근법으로 부상했습니다. 그러나 GRPO(Group Relative Policy Optimization)와 같은 표준 프레임워크는 일반적으로 균일한 롤아웃 예산을 사용하여 자원 비효율성을 초래합니다. 더욱이 기존 적응형 방법들은 과제 통과율과 같은 인스턴스 수준 지표에 의존하는 경우가 많아, 모델의 동적인 학습 상태를 제대로 반영하지 못합니다. 이러한 한계를 해결하기 위해, 우리는 모델의 진화하는 능력에 기반하여 롤아웃 예산을 적응적으로 할당하도록 설계된 강화 학습 알고리즘인 CoBA-RL을 제안합니다. 구체적으로, CoBA-RL은 능력 지향 가치 함수를 활용하여 과제를 해당 과제의 잠재적 학습 이득에 매핑하고, 힙 기반 탐욕 전략을 통해 높은 학습 가치를 지닌 샘플들에 계산 자원 분배를 효율적으로 자체 보정합니다. 폭넓은 실험을 통해 우리의 접근법이 탐험과 활용 사이의 균형을 효과적으로 조율하며, 여러 난제 벤치마크에서 일관된 일반화 성능 향상을 달성함을 입증했습니다. 이러한 결과는 샘플의 학습 가치를 정량화하고 예산 할당을 최적화하는 것이 LLM 후속 학습 효율성 향상에 핵심적임을 강조합니다.
분포 매칭 증류(DMD)는 다단계 생성기를 적은 단계의 대응 모델과 정렬하여 낮은 추론 비용으로 고품질 생성을 가능하게 합니다. 그러나 DMD는 역-KL 공식이 본질적으로 모드 탐색 행동을 장려하기 때문에 모드 붕괴에 취약한 경향이 있으며, 기존 해결책은 일반적으로 지각적 또는 적대적 정규화에 의존하여 상당한 계산 부하와 훈련 불안정성을 초래합니다. 본 연구에서는 증류 단계의 역할을 명시적으로 분리하는 역할 분리 증류 프레임워크를 제안합니다: 첫 번째 단계는 목표 예측(예: v-예측) 목적 함수를 통해 샘플 다양성 보존에 전담하고, 이후 단계는 표준 DMD 손실 하에서 품질 개선에 집중하며, DMD 목적 함수의 기울기는 첫 번째 단계에서 차단됩니다. 우리는 이 방법을 다양성 보존 DMD(DP-DMD)로 명명하며, 이는 매우 간단함(지각적 백본, 판별자, 보조 네트워크, 추가 실제 이미지 없음)에도 불구하고, 광범위한 텍스트-이미지 실험에서 최신 방법과 동등한 시각적 품질을 유지하면서 샘플 다양성을 보존합니다.
대규모 언어 모델(LLM)의 최근 발전으로 소프트웨어 엔지니어링 에이전트가 복잡한 코드 수정 작업을 처리할 수 있게 되었습니다. 기존 대부분의 접근법은 컨테이너화된 환경의 실행 피드백에 의존하며, 이는 의존성이 완벽하게 구성된 설정과 프로그램 및 테스트의 물리적 실행을 필요로 합니다. 이러한 패러다임은 효과적이지만 자원 소모가 크고 유지 관리가 어려워 에이전트 훈련을 상당히 복잡하게 만들고 확장성을 제한합니다. 본 연구에서는 물리적 실행 환경을 학습된 대리 모델로 대체하여 소프트웨어 엔지니어링 에이전트의 훈련과 평가를 수행하는 Docker-free 프레임워크인 SWE-World를 제안합니다. SWE-World는 실제 에이전트-환경 상호작용 데이터로 훈련된 LLM 기반 모델을 활용하여 중간 실행 결과와 최종 테스트 피드백을 예측함으로써, 에이전트가 물리적 컨테이너 환경과의 상호작용 없이 학습할 수 있도록 합니다. 이 설계는 표준적인 에이전트-환경 상호작용 루프를 유지하면서 에이전트 최적화 및 평가 과정에서 비용이 많이 드는 환경 구축과 유지 관리의 필요성을 제거합니다. 더 나아가, SWE-World는 실제 제출 없이도 후보 트라젝토리의 최종 평가 결과를 시뮬레이션할 수 있으므로, 여러 테스트 시도 중 최적의 해결책을 선택할 수 있어 소프트웨어 엔지니어링 작업에서 효과적인 테스트 타임 스케일링(TTS)을 가능하게 합니다. SWE-bench Verified에 대한 실험 결과, SWE-World는 Docker-free SFT를 통해 Qwen2.5-Coder-32B의 성능을 6.2%에서 52.0%로 향상시켰으며, Docker-free RL을 적용하면 55.0%, 추가 TTS를 적용하면 68.2%까지 성능이 향상됨을 보여줍니다. 코드는 https://github.com/RUCAIBox/SWE-World에서 확인할 수 있습니다.
본 기술 보고서에서는 효과적인 소프트웨어 엔지니어링 에이전트 구축을 위한 오픈소스이자 완전히 재현 가능한 사후 학습(post-training) 프레임워크인 SWE-Master를 소개한다. SWE-Master는 교사 궤적 합성(teacher-trajectory synthesis) 및 데이터 큐레이션, 장기계획 지도 미세조정(long-horizon SFT), 실제 실행 피드백을 활용한 강화학습(RL), 추론 프레임워크 설계를 포함한 완전한 에이전트 개발 파이프라인을 체계적으로 탐구한다. 초기 SWE 능력이 제한된 오픈소스 기반 모델에서 출발하여, SWE-Master는 체계적인 최적화 방법이 어떻게 강력한 장기계획 SWE 과제 해결 능력을 이끌어낼 수 있는지를 보여준다. 우리는 SWE-Master를 현실적인 소프트웨어 엔지니어링 과제를 위한 표준 벤치마크인 SWE-bench Verified에서 평가하였다. 동일한 실험 설정 하에서, 우리의 접근 방식은 Qwen2.5-Coder-32B를 사용하여 61.4%의 해결률(resolve rate)을 달성하여 기존 오픈소스 기준선을 크게 능가한다. LLM 기반 환경 피드백을 통한 테스트 시간 스케일링(Test-Time Scaling, TTS)을 추가로 결합하면, SWE-Master는 TTS@8에서 70.8%에 도달하여 강력한 성능 잠재력을 입증한다. SWE-Master는 소프트웨어 엔지니어링 에이전트에 대한 재현 가능한 연구를 발전시키기 위한 실용적이고 투명한 기반을 제공한다. 코드는 https://github.com/RUCAIBox/SWE-Master에서 이용할 수 있다.
현재 DeepResearch 생성 보고서의 훈련 및 평가는 검증 가능한 보상 신호의 부족으로 인해 여전히 어려움을 겪고 있습니다. 이에 따라 루브릭 기반 평가가 일반적인 관행으로 자리 잡았습니다. 그러나 기존 접근법들은 충분한 세분성을 갖추지 못한 거시적이고 사전 정의된 루브릭에 의존하거나, 비용이 많이 들고 확장이 어려운 수동으로 구축된 쿼리 특화 루브릭에 의존하는 한계가 있습니다. 본 논문에서는 DeepResearch 보고서 생성을 위해 특화된 인간 선호도에 정렬된 쿼리 특화 루브릭 생성기를 훈련시키는 파이프라인을 제안합니다. 먼저, 인간의 선호도가 주석으로 달린 DeepResearch 스타일 쿼리 데이터셋을 구축하고, 인간 선호도 지도와 LLM 기반 루브릭 평가를 결합한 하이브리드 보상을 활용한 강화 학습을 통해 루브릭 생성기를 훈련시킵니다. 또한 장기 추론을 더 효과적으로 처리하기 위해 보고서 생성을 위한 다중 에이전트 마르코프 상태(MaMs) 워크플로를 추가로 도입합니다. 실험 결과, 우리가 제안한 루브릭 생성기가 기존 루브릭 설계 전략보다 더 판별력 있고 인간 선호도에 더 잘 정렬된 지도를 제공함을 확인했습니다. 더 나아가, MaMs 훈련 프레임워크에 통합되었을 때, 우리의 루브릭 생성기를 탑재한 DeepResearch 시스템은 DeepResearch Bench에서 모든 오픈소스 기준 모델을 지속적으로 능가하며 주요 클로즈드소스 모델에 버금가는 성능을 달성했습니다.
병렬 사고는 유망한 추론 패러다임으로 부상했지만, 상당한 계산 부담을 초래합니다. 기존 효율화 방법은 주로 개별 트래젝터리 수준의 지역적 신호에 의존하며, 병렬 분기 간 전역 동역학을 활용하는 체계적인 메커니즘이 부족합니다. 본 연구에서는 모든 분기에서 주기적으로 중간 답변을 수집하여 병렬 사고의 너비-깊이 동역학을 드러내는 인터페이스인 2D 프로빙을 소개합니다. 분석 결과 세 가지 핵심 통찰을 도출했습니다: 너비-깊이 할당 간 비단조적 스케일링, 이질적인 추론 분기 길이, 그리고 조기 확립되는 전역 합의입니다. 이러한 통찰을 바탕으로 온라인 병렬 사고를 최적화하는 학습 불필요 컨트롤러인 Parallel-Probe를 제안합니다. Parallel-Probe는 합의 기반 조기 중단으로 추론 깊이를 조절하고, 편차 기반 분기 가지치기로 동적으로 너비를 조정합니다. 3개 벤치마크와 다양한 모델에서의 광범위한 실험을 통해 Parallel-Probe가 테스트 시간 스케일링 측면에서 우수한 파레토 최적을 달성함을 입증했습니다. 표준 다수결 기준과 비교 시 순차 토큰을 최대 35.8%까지 감소시키고, 총 토큰 비용을 25.8% 이상 절감하면서도 경쟁력 있는 정확도를 유지했습니다.
최근 멀티모달 보상 모델(RM)의 발전은 시각 생성 분야의 발전을 크게 촉진시켰습니다. 기존 프레임워크는 일반적으로 Bradley-Terry 방식의 선호도 모델링을 채택하거나 생성형 VLM을 평가자로 활용한 후 강화 학습을 통해 시각 생성 모델을 최적화합니다. 그러나 현재의 RM은 본질적인 한계를 지니고 있습니다. 즉, 단일한 선호도 분포를 가정하거나 고정된 평가 기준에 의존하는 '일관된(one-size-fits-all)' 패러다임을 따르는 경우가 많습니다. 그 결과, 콘텐츠 특정적인 시각적 단서에 둔감해져 주관적이고 상황에 따라 달라지는 인간의 선호도와 체계적으로 어긋나는 문제가 발생합니다. 이를 해결하기 위해 인간 평가에서 영감을 받아, 보상 모델링과 유연하며 상황에 적응하는 추론 능력을 결합한 통합 개인화 시각 생성 보상 모델인 UnifiedReward-Flex를 제안합니다. 구체적으로, 주어진 프롬프트와 생성된 시각 콘텐츠를 바탕으로 의미론적 의도를 해석하고 시각적 증거에 기반한 후, 미리 정의된 차원과 자체 생성된 상위 수준 차원 아래에서 세분화된 기준을 구체화하여 계층적 평가를 동적으로 구성합니다. 우리의 학습 파이프라인은 두 단계 과정을 따릅니다: (1) 먼저 고급 비공개 VLM에서 구조화된 고품질 추론 흔적을 추출하여 SFT(지도 미세 조정)를 부트스트랩하여 모델에 유연하고 상황 적응형 추론 능력을 부여합니다. (2) 그런 다음 신중하게 선별된 선호도 쌍에 대해 직접 선호도 최적화(DPO)를 수행하여 추론의 정확성과 판별 정렬을 더욱 강화합니다. 효과성을 검증하기 위해 UnifiedReward-Flex를 이미지 및 비디오 합성을 위한 GRPO 프레임워크에 통합하였으며, 광범위한 결과를 통해 그 우수성을 입증합니다.
리랭킹은 일반적으로 효율적인 1단계 검색기와 표현력이 뛰어난 모델을 결합해 결과를 정제하는 현대 검색 시스템의 핵심 구성 요소입니다. 대규모 추론 모델이 텍스트 중심 리랭킹에서 빠른 발전을 주도했지만, 비디오 검색을 위한 추론 기반 리랭킹은 아직 충분히 연구되지 않았습니다. 이러한 격차를 해결하기 위해 우리는 비디오 콘텐츠를 활용해 쿼리-비디오 쌍을 명시적으로 추론하여 관련성을 평가하는 추론 기반 비디오 리랭커인 RANKVIDEO를 소개합니다. RANKVIDEO는 인식 기반 지도 미세 조정과 포인트와이즈, 페어와이즈, 교사 신뢰도 증류 목적을 결합한 리랭킹 훈련으로 구성된 2단계 커리큘럼을 통해 훈련되며, 추론 집약적 쿼리-비디오 쌍 구축을 위한 데이터 합성 파이프라인으로 지원됩니다. 대규모 MultiVENT 2.0 벤치마크 실험 결과, RANKVIDEO는 2단계 프레임워크 내에서 검색 성능을 지속적으로 향상시켜 nDCG@10에서 평균 31%의 개선을 달성하며, 텍스트 전용 및 시각-언어 리랭킹 대안들을 능가하는 동시에 더 효율적인 것으로 나타났습니다.
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델의 추론 능력을 향상시켰지만, 제한된 롤아웟 예산 하에서 비효율적인 탐색으로 인해 여전히 제약을 받고 있어 복잡한 작업에서 표본 추출 성공률이 낮고 훈련이 불안정합니다. 우리는 많은 탐색 실패가 문제의 난이도 때문이 아니라 소수의 프롬프트 토큰이 간섭을 유발하기 때문에 발생함을 발견했습니다. 이러한 통찰을 바탕으로, 우리는 간섭 토큰을 식별하여 제거한 후 프롬프트를 수행하는 Less Noise Sampling Framework(LENS)를 제안합니다. LENS는 정제 과정에서 성공한 롤아웟을 전이하여 원본 노이즈 프롬프트에 대한 정책 최적화를 지도함으로써, 모델이 실제 노이즈가 존재하는 프롬프트 환경에서 간섭을 무시하는 법을 학습하도록 합니다. 실험 결과, LENS는 GRPO를 크게 능가하며 더 높은 성능과 빠른 수렴 속도(평균 3.88% 성능 향상, 1.6배 이상의 속도 개선)를 보여줍니다. 우리의 연구는 롤아웟 효율성 향상을 위해 간섭 토큰을 제거하는 것이 중요한 역할을 함을 강조하며, RLVR 연구에 새로운 관점을 제시합니다.
검색 인텔리전스는 심층 연구에서 광역 연구로 진화하고 있으며, 이는 복잡한 제약 조건 하에서 포괄적인 정보를 병렬적으로 검색 및 종합하기 위한 필수 패러다임입니다. 그러나 이 분야의 발전은 검색 폭에 대한 전용 벤치마크와 최적화 방법론의 부재로 인해 저해되고 있습니다. 이러한 과제를 해결하기 위해 우리는 데이터 파이프라인과 에이전트 최적화라는 두 가지 관점에서 광역 연구를 심층적으로 분석합니다. 먼저, 목표 정보량, 논리적 제약 조건, 도메인 간 다양성을 보장하기 위해 엄격한 다단계 데이터 파이프라인을 통해 구축된 일반 광역 정보 탐색 벤치마크인 WideSeekBench를 제작합니다. 둘째, 작업 요구사항에 따라 병렬 하위 에이전트를 자율적으로 분기할 수 있는 동적 계층적 다중 에이전트 아키텍처인 WideSeek을 소개합니다. 더 나아가 다중 에이전트 트래젝토리를 선형화하고 종단 간 강화학습을 통해 시스템을 최적화하는 통합 훈련 프레임워크를 설계합니다. 실험 결과는 WideSeek과 다중 에이전트 강화학습의 효과를 입증하며, 에이전트 수의 확장이 광역 연구 패러다임 발전을 위한 유망한 방향임을 강조합니다.
이산 생성 모델링에서 두 가지 주요 패러다임이 상이한 능력을 보여준다: 마스크 확산 언어 모델(MDLM)은 의미론적 이해와 제로샷 일반화에서 뛰어난 반면, 균일 잡음 확산 언어 모델(UDLM)은 강력한 few-step 생성 품질을 달성하지만, 두 차원 모두에서 균형 잡힌 성능을 달성하는 모델은 없다. 이를 해결하기 위해 우리는 정상 잡음 커널을 통해 두 패러다임을 연결하는 XDLM을 제안한다. XDLM은 두 가지 주요 기여를 제공한다: (1) MDLM과 UDLM의 이론적 통합을 원리적으로 제시하며, 각 패러다임을 특수 사례로 복원한다; (2) 사후 확률의 대수적 단순화를 통해 완화된 메모리 병목 현상이다. 실험 결과 XDLM이 이해 능력과 생성 품질 간 파레토 최적 경계를 발전시킴을 입증했다. 정량적으로 XDLM은 제로샷 텍스트 벤치마크에서 UDLM을 5.4점 앞섰으며, few-step 이미지 생성에서는 MDLM을 성능(FID 54.1 대 80.8)으로 능가했다. 80억 파라미터 대규모 언어 모델 튜닝에 확장 적용 시, XDLM은 단 32단계만에 MBPP 15.0을 달성하여 기준 성능을 효과적으로 두 배 향상시켰다. 마지막으로 훈련 동역학 분석을 통해 XDLM의 장기 확장성 우수성을 확인했다. 코드는 https://github.com/MzeroMiko/XDLM에서 이용 가능하다.
호모토피 패러다임은 난해한 문제를 해결하기 위한 일반 원리로, 강건 최적화, 전역 최적화, 다항식 근 찾기, 샘플링 등 다양한 영역에서 나타납니다. 이러한 문제들을 위한 실용적인 솔버는 일반적으로 예측자-수정자 구조를 따르지만, 단계 크기와 반복 종료를 위해 수작업으로 설계된 휴리스틱에 의존하는 경우가 많으며, 이는 종종 최적이 아니거나 특정 작업에만 국한됩니다. 이를 해결하기 위해 우리는 이러한 문제들을 단일 프레임워크로 통합하여 일반적인 신경망 솔버 설계를 가능하게 합니다. 이 통합된 관점을 바탕으로 우리는 수작업 휴리스틱을 자동 학습된 정책으로 대체하는 Neural Predictor-Corrector(NPC)를 제안합니다. NPC는 정책 선택을 순차적 의사 결정 문제로 공식화하고 강화 학습을 활용하여 효율적인 전략을 자동으로 발견합니다. 일반화 성능을 더욱 향상시키기 위해, 우리는 분할 상환 훈련 기법을 도입하여 문제 클래스에 대해 일회성 오프라인 훈련과 새로운 인스턴스에 대한 효율적인 온라인 추론을 가능하게 합니다. 4가지 대표적인 호모토피 문제에 대한 실험 결과, 우리 방법이 보이지 않는 인스턴스에 효과적으로 일반화됨을 보여줍니다. 본 방법은 효율성 측면에서 기존의 전통적 및 특화된 기준 방법들을 지속적으로 능가할 뿐만 아니라, 작업 전반에 걸쳐 우수한 안정성을 보여주어 호모토피 방법을 단일 신경망 프레임워크로 통합하는 가치를 부각합니다.
어텐션의 2차 복잡도는 대규모 언어 모델의 장문 컨텍스트 추론에서 여전히 핵심 병목 현상으로 남아 있습니다. 기존 가속화 방법들은 구조화된 패턴으로 어텐션 맵을 희소화하거나 특정 계층에서 토큰을 영구적으로 제거하는 방식으로, 토큰 중요도의 계층/헤드별 역동성에도 불구하고 관련성 없는 토큰을 유지하거나 되돌릴 수 없는 초기 결정에 의존할 수 있습니다. 본 논문에서는 경량이면서 동적인 토큰 수준 희소화 메커니즘인 Token Sparse Attention을 제안합니다. 이는 어텐션 연산 중 헤드별 Q, K, V를 축소된 토큰 집합으로 압축한 후 출력을 원래 시퀀스로 다시 복원하여, 이후 계층에서 토큰 정보를 재고찰할 수 있도록 합니다. 더 나아가, Token Sparse Attention은 토큰 선택과 희소 어텐션의 교차점에 새로운 설계 지점을 제시합니다. 우리의 접근 방식은 Flash Attention을 포함한 기존 밀집 어텐션 구현과 완전히 호환되며, 기존 희소 어텐션 커널과도 원활하게 결합될 수 있습니다. 실험 결과, Token Sparse Attention은 정확도-지연 시간 트레이드오프를 지속적으로 개선하여 128K 컨텍스트 길이에서 정확도 저하를 1% 미만으로 유지하면서 최대 3.23배의 어텐션 가속화를 달성했습니다. 이러한 결과는 동적이며 계층 간 교차되는 토큰 수준 희소화가 확장 가능한 장문 컨텍스트 추론을 위한 보완적이고 효과적인 전략임을 입증합니다.
비전문가 사용자가 복잡한 상호작용형 웹사이트를 개발하도록 지원하는 것은 LLM 기반 코드 에이전트의 인기 과제가 되었습니다. 그러나 기존 코드 에이전트는 화려한 시각 효과로 실제 풀스택 데이터 처리 및 저장 기능의 부재를 가린 채 프론트엔드 웹 페이지 생성에만 그치는 경향이 있습니다. 특히 프로덕션 수준의 풀스택 웹 애플리케이션 구축은 프론트엔드 웹 페이지 생성보다 훨씬 어려운 과제로, 데이터 흐름의 세심한 제어, 지속적으로 업데이트되는 패키지와 의존성에 대한 포괄적인 이해, 코드베이스 내 난해한 버그의 정확한 위치 파악을 요구합니다. 이러한 어려움을 해결하기 위해 우리는 세 가지 구성 요소로 이루어진 통합 풀스택 에이전트 코딩 시스템인 FullStack-Agent를 소개합니다: (1) 강력한 기획, 코드 편집, 코드베이스 탐색 및 버그 위치 파악 능력을 갖춘 다중 에이전트 프레임워크인 FullStack-Dev. (2) 크롤링 및 합성된 웹사이트 저장소를 역번역하여 FullStack-Dev의 백본 LLM 성능을 향상시키는 혁신적인 데이터 스케일링 및 자기 개선 방법인 FullStack-Learn. (3) 생성된 웹사이트의 프론트엔드, 백엔드, 데이터베이스 기능을 체계적으로 테스트하는 포괄적인 벤치마크인 FullStack-Bench. 우리의 FullStack-Dev는 프론트엔드, 백엔드, 데이터베이스 테스트 케이스에서 각각 기존 최첨단 방법 대비 8.7%, 38.2%, 15.9% 더 높은 성능을 보였습니다. 또한 FullStack-Learn은 자기 개선을 통해 30B 모델의 성능을 세 가지 테스트 케이스 세트에서 각각 9.7%, 9.5%, 2.8% 향상시켜 우리 접근법의 효과를 입증했습니다. 코드는 https://github.com/mnluzimu/FullStack-Agent에서 공개되었습니다.
효과적인 데이터 혼합 방식을 결정하는 것은 대규모 언어 모델(LLM) 사전 학습의 핵심 요소로, 모델이 일반적인 능력과 수학 및 코드 같은 어려운 과제 수행 능력 간의 균형을 유지해야 합니다. 그러나 기존 접근법은 신뢰할 수 없는 소규모 프록시 실험에 의존하거나 지나치게 비용이 많이 드는 대규모 탐색이 필요하기 때문에 최적의 혼합 방식을 규명하는 것은 여전히 해결 과제로 남아 있습니다. 이를 해결하기 위해 우리는 모델 병합을 활용하여 최적의 데이터 비율을 예측하는 새로운 프레임워크인 DeMix(Decouple Searching from Training Mix)를 제안합니다. DeMix는 샘플링된 모든 혼합 방식에 대해 프록시 모델을 훈련하는 대신, 후보 데이터셋으로 대규모 구성 요소 모델을 훈련하고 가중 모델 병합을 통해 데이터 혼합 프록시를 도출합니다. 이 패러다임은 탐색과 훈련 비용을 분리하여 추가 훈련 부담 없이 무제한의 샘플링된 혼합 방식을 평가할 수 있게 하므로 더 많은 탐색 시도를 통해 더 나은 혼합 방식을 발견할 수 있도록 합니다. 대규모 실험을 통해 DeMix가 충분성, 정확성 및 효율성 간의 트레이드오프를 깨고, 더 낮은 탐색 비용으로 더 높은 벤치마크 성능을 보이는 최적의 혼합 방식을 얻을 수 있음을 입증했습니다. 또한 개방형 연구를 촉진하기 위해 검증된 혼합 방식과 고품질 사전 학습 데이터로 구성된 포괄적인 22T 토큰 데이터셋인 DeMix Corpora를 공개합니다. 우리의 코드와 DeMix Corpora는 https://github.com/Lucius-lsr/DeMix에서 확인할 수 있습니다.
적응형 멀티모달 추론은 시각-언어 모델(VLM) 분야에서 유망한 방향으로 부상하며, 효과성과 효율성을 동시에 향상시키기 위해 도구 기반 시각 추론과 텍스트 추론 간의 동적 조절을 목표로 합니다. 그러나 기존 평가 방법은 정적 난이도 라벨과 단순한 지표에 의존하여 모델 역량에 따라 변화하는 난이도의 동적 특성을 제대로 반영하지 못합니다. 이로 인해 적응형 모드 선택과 일반 성과 간의 구분이 모호해지고, 세분화된 과정 분석이 간과되고 있습니다. 본 논문에서는 실제 세계, OCR, GUI, 지식, 수학 등 다섯 개 영역에 걸친 적응형 멀티모달 추론 종합 벤치마크인 AdaptMMBench를 제안합니다. 여기에는 직접 인식 과제와 복합 추론 과제가 모두 포함됩니다. AdaptMMBench는 매튜스 상관계수(MCC) 지표를 활용하여 다양한 추론 모드의 선택 합리성을 평가하며, 모델의 역량 경계를 기반으로 과제 난이도를 동적으로 식별함으로써 이 메타인지 능력을 분리하여 측정합니다. 더 나아가 AdaptMMBench는 핵심 단계 Coverage, 도구 효과성, 계산 효율성에 걸친 다차원적 과정 평가를 가능하게 합니다. 우리의 평가 결과에 따르면, 적응형 모드 선택 능력은 모델 규모에 따라 확장되지만 최종 정확도와는 뚜렷이 분리되는 양상을 보입니다. 반면 핵심 단계 Coverage는 성능과 밀접한 연관성을 보이지만, 도구 효과성은 모델 아키텍처에 따라 매우 불균일한 것으로 나타났습니다.
문화를 이해하려면 고립된 사실을 기억하는 것을 넘어 맥락, 전통, 암묵적 사회 지식을 종합적으로 추론하는 능력이 필요합니다. 그러나 문화 중심 질의응답(QA) 벤치마크 대부분은 단일 홉 질문에 의존하여, 모델이 진정한 문화적 추론을 보여주기보다는 피상적 단서를 활용할 여지를 남깁니다. 본 연구에서는 인도네시아 전통에 기반을 둔 대규모 다중 홉 QA 데이터셋인 ID-MoCQA를 영어와 인도네시아어로 동시에 공개합니다. 우리는 단일 홉 문화 질문을 상식, 시간, 지리 등 6가지 유형의 추론 단서를 아우르는 다중 홉 추론 체인으로 체계적으로 변환하는 새로운 프레임워크를 제시합니다. 전문가 검토와 LLM 판단 필터링을 결합한 다단계 검증 파이프라인을 통해 고품질 질문-답변 쌍을 확보했습니다. 최신 모델 평가 결과, 특히 미묘한 추론이 필요한 과제에서 문화적 추론 능력에 상당한 격차가 있음을 확인했습니다. ID-MoCQA는 LLM의 문화적 이해 역량을 향상시키기 위한 핵심적이고 도전적인 벤치마크를 제공합니다.
자기회귀 비디오 세계 모델은 행동을 조건으로 미래의 시각 관측을 예측합니다. 이러한 모델은 짧은 시간 범위에서는 효과적이지만, 작은 예측 오류가 시간이 지남에 따라 누적되기 때문에 장기간 생성에는 어려움을 겪는 경우가 많습니다. 기존 방법은 사전 학습된 교사 모델과 시퀀스 수준 분포 매칭을 도입하여 이를 완화하지만, 이는 추가적인 계산 비용을 발생시키며 훈련 범위를 넘어서는 오류 전파를 방지하지 못합니다. 본 연구에서는 새로운 순환 일관성 목적 함수를 통해 오류 누적을 제한함으로써 교사 모델 기반 증류 없이도 장기간 예측이 가능한 LIVE(Long-horizon Interactive Video world modEl)를 제안합니다. 구체적으로, LIVE는 먼저 실제 프레임에서 순방향 롤아웃을 수행한 후, 역방향 생성 과정을 적용하여 초기 상태를 재구성합니다. 그런 다음 재구성된 종단 상태에 대해 확산 손실을 계산하여 장기간 오류 전파에 대한 명시적 제약을 제공합니다. 더불어, 다양한 접근법을 포괄하는 통합된 관점을 제시하고 훈련 안정화를 위한 점진적 훈련 커리큘럼을 도입합니다. 실험 결과, LIVE는 훈련 롤아웃 길이를 훨씬 초과하는 안정적이고 고품질의 비디오를 생성하며 장기간 벤치마크에서 최첨단 성능을 달성함을 입증합니다.
모달리티 추종은 다중모달 대규모 언어 모델(MLLM)이 사용자 지시에 따라 다중모달 콘텍스트를 선택적으로 활용하는 능력을 의미합니다. 이는 현실 세계 적용에서 안전성과 신뢰성을 보장하기 위한 핵심 요소입니다. 그러나 이러한 의사 결정 과정을 지배하는 근본적인 메커니즘은 아직 명확히 이해되지 않고 있습니다. 본 논문에서는 정보 흐름 관점에서 그 작동 메커니즘을 규명합니다. 우리의 연구 결과는 지시 토큰이 모달리티 중재를 위한 구조적 정착점으로 기능함을 보여줍니다. 얕은 어텐션 계층은 비선택적 정보 전달을 수행하며 다중모달 단서를 잠재적 버퍼 역할을 하는 이러한 정착점으로 라우팅합니다. 모달리티 경쟁은 지시 의도에 따라 깊은 어텐션 계층 내에서 해결되는 반면, MLP 계층은 의미론적 관성을 나타내며 방해 요인으로 작용합니다. 더 나아가, 우리는 이러한 중재를 주도하는 희소한 특화 어텐션 헤드 세트를 확인했습니다. 인과 관계 개입 실험을 통해 이 중요한 헤드의 단 5%만 조작하여 차단 시 모달리티 추종 비율을 60% 감소시키거나, 실패 샘플에 대한 표적 증폭을 통해 60% 증가시킬 수 있음을 입증했습니다. 우리의 연구는 모델 투명성 향상을 위한 중요한 진전을 이루었으며, MLLM에서 다중모달 정보를 조정하기 위한 원리 기반 프레임워크를 제공합니다.
다중 LLM 에이전트 시스템에서 역할 전문화는 종종 멀티-로라를 통해 구현되며, 에이전트들은 사전 훈련된 백본을 공유하고 경량 어댑터만 다릅니다. 기본 모델 가중치를 공유함에도 불구하고, 각 에이전트는 동일한 긴 도구-증강 트랙젝토리에 대해 자체적인 KV 캐시를 독립적으로 구축하고 저장하여 상당한 메모리 및 계산 오버헤드가 발생합니다. 기존 KV 캐시 공유 방법은 대체로 이 멀티-로라 설정을 간과해 왔습니다. 우리는 에이전트 간에 캐시 차이가 주로 어댑터 출력에 의해 결정되는 반면, 공유된 사전 훈련 백본으로부터의 활성화는 매우 유사하게 유지된다는 점을 관찰했습니다. 이 관찰을 바탕으로, 우리는 멀티-로라 에이전트를 위한 KV 캐시 공유 프레임워크인 LRAgent를 제안합니다. LRAgent는 캐시를 사전 훈련 가중치로부터의 공유 기본 구성 요소와 로라 가중치로부터의 어댑터 종속 구성 요소로 분해합니다. LRAgent는 기본 구성 요소를 공유하고 어댑터 구성 요소를 본질적인 저-랭크 형태로 저장하여 메모리 오버헤드를 줄이며, 공유-A 멀티-로라 아키텍처에서 가능해진 계산 오버헤드도 추가로 감소시킵니다. 이는 저-랭크 캐시를 공유하고 다른 에이전트들이 이미 처리한 컨텍스트에 대한 중복 계산을 피함으로써 이루어집니다. 런타임에 어댑터 기여도를 효율적으로 재구성하기 위해, 우리는 저-랭크 캐시를 전체 차원으로 구체화하는 것을 피하도록 어텐션 계산 순서를 재배열하는 커널인 Flash-LoRA-Attention을 도입합니다. LRAgent는 완전 공유 캐싱에 가까운 처리량과 첫 토큰 지연 시간을 달성하면서도, 에이전트 질의-응답 벤치마크 전반에 걸쳐 비-공유 캐싱 기준선에 가까운 정확도를 유지합니다.
검색 통합 추론은 언어 에이전트가 외부 소스를 능동적으로 질의함으로써 정적 매개변수 지식을 초월할 수 있게 합니다. 그러나 강화 학습을 통한 이러한 에이전트의 훈련은 다중 규모 신용 할당 문제로 인해 방해받습니다: 기존 방법은 일반적으로 희소한 궤적 수준의 보상에 의존하여 고품질 추론과 우연한 추측을 구분하지 못하므로 중복적이거나 오해의 소지가 있는 검색 행동으로 이어집니다. 이를 해결하기 위해 우리는 훈련 중 두 구성 요소가 공동으로 최적화되는 표적 중재를 통해 추론을 향상시키는 새로운 액터-리파이너 협업 프레임워크인 Search-R2를 제안합니다. 우리의 접근 방식은 생성 과정을 초기 추론 궤적을 생성하는 액터와 '절단-재생성' 메커니즘을 통해 결함이 있는 단계를 선택적으로 진단 및 수리하는 메타-리파이너로 분해합니다. 세밀한 지도를 제공하기 위해 우리는 결과 정확도와 검색된 증거의 정보 밀도를 정량화하는 밀집 과정 보상을 결합한 하이브리드 보상 설계를 도입합니다. 이론적으로는 액터-리파이너 상호작용을 평활화된 혼합 정책으로 형식화하여 선택적 수정이 강력한 기준선보다 엄격한 성능 향상을 가져옴을 입증합니다. 다양한 일반 및 다중 홉 QA 데이터셋에 대한 광범위한 실험을 통해 Search-R2가 모델 규모에 관계없이 강력한 RAG 및 RL 기반 기준선을 일관되게 능가하며, 최소의 오버헤드로 우수한 추론 정확도를 달성함을 입증합니다.
대규모 언어 모델(LLM)이 선별된 훈련 데이터셋에서 열린 실세계 환경으로 이동함에 따라 근본적인 한계가 대두된다. 정적인 훈련은 지속적으로 변화하는 배포 환경의 속도를 따라갈 수 없다. 훈련 시 및 추론 시 연산 자원을 확장하면 정적 능력은 향상되지만, 이러한 훈련-배포 간격을 해소하지는 못한다. 우리는 이 한계를 해결하기 위해 새로운 확장 축인 '진화(evolution)'가 필요하다고 주장한다. 기존의 배포 시점 적응 방법론, 즉 매개변수 미세 조정이든 경험적 메모리 누적이든, 실패를 진단하고 지속적인 개선을 생산하기 위한 전략적 주체성(agency)이 부족하다. 우리의 입장은 주체적 진화(agentic evolution)가 LLM 적응의 불가피한 미래를 나타내며, 진화 자체를 고정된 파이프라인에서 자율적인 진화 주체(evolver agent)로 격상시킨다는 것이다. 우리는 이러한 비전을 일반적인 프레임워크인 A-Evolve로 구체화하며, 여기서 배포 시점 개선은 지속적인 시스템 상태에 대한 의도적이고 목표 지향적인 최적화 과정으로 취급된다. 우리는 더 나아가 '진화-확장 가설(evolution-scaling hypothesis)'을 제안한다. 즉, 적응 능력은 진화에 할당된 연산 자원에 따라 확장되며, 이는 주체적 진화를 실세계에서 지속적이고 열린 적응을 달성하는 확장 가능한 경로로 위치시킨다.
WorldVQA는 다중모드 대규모 언어 모델(MLLMs)의 원자적 시각 세계 지식을 평가하기 위해 설계된 벤치마크를 소개합니다. 시각 지식 검색과 추론을 혼동하는 기존 평가와 달리, WorldVQA는 이러한 능력을 분리하여 "모델이 기억하는 내용"을 엄격하게 측정합니다. 본 벤치마크는 일반적인 헤드 클래스 객체부터 롱테일 희귀 객체에 이르는 계층화된 분류 체계 전반에 걸쳐 시각적 개체를 기반으로 삼고 명명하는 원자적 능력을 평가합니다. WorldVQA가 시각적 사실성에 대한 엄격한 검증 도구로 활용되어, 현재 및 차세대 최첨단 모델들의 백과사전적 폭과 허구화(hallucination) 비율 평가의 표준을 마련할 것으로 기대합니다.
대규모 언어 모델(LLM)으로 구동되는 자율 에이전트가 과학적 발견을 종단간 가속화할 것이라 기대되지만, 검증 가능한 발견 능력을 엄격하게 평가하는 것은 여전히 핵심 과제로 남아 있습니다. 기존 벤치마크는 딜레마에 직면해 있습니다: 자동 생성된 연구 결과물에 대한 LLM-판독기 평가에 크게 의존하거나, 과학적 통찰력을 대략적으로 대변하는 편리하지만 고립된 성능 지표에 최적화되어 있습니다. 이러한 격차를 해결하기 위해 우리는 최근의 고성능 머신러닝 연구에서 확립된 발견 결과를 재발견하는 방식으로 에이전트를 평가하는 벤치마크인 FIRE-Bench(전주기 통찰 재발견 평가)를 소개합니다. 에이전트는 검증된 출판 연구에서 추출한 높은 수준의 연구 질문만을 제공받고, 아이디어를 자율적으로 탐구하고 실험을 설계하며 코드를 구현하고 계획을 실행하며 실증적 증거에 기반한 결론을 도출해야 합니다. 우리는 gpt-5와 같은 최첨단 LLM 기반의 다양한 에이전트를 FIRE-Bench에서 평가합니다. 우리의 결과는 전주기 과학 연구가 현재 에이전트 시스템에게 여전히 어려운 과제임을 보여줍니다: 가장 강력한 에이전트조차도 제한된 재발견 성공률(<50 F1)을 보이며, 실행 간 높은 변동성을 나타내고, 실험 설계, 실행 및 증거 기반 추론에서 반복적인 실패 패턴을 드러냅니다. FIRE-Bench는 신뢰할 수 있는 에이전트 주도 과학적 발견을 향한 진전을 측정하기 위한 엄격하고 진단적인 프레임워크를 제공합니다.
객체를 해당 텍스트 설명과 정렬하는 것은 시각-언어 이해의 근본적인 과제이자 현실적인 요구사항입니다. 최근의 멀티모달 임베딩 모델들은 전반적인 이미지-텍스트 정렬에서는 뛰어난 성능을 보이지만, 이미지 영역과 특정 구문 간의 세밀한 정렬에는 종종 어려움을 겪습니다. 본 연구에서는 입력 이미지를 개별 객체에 해당하는 여러 지역 임베딩과 전역 임베딩으로 분해하는 새로운 MLLM 임베딩 모델인 ObjEmbed를 제시합니다. 이 모델은 시각적 grounding, 지역적 이미지 검색, 전역적 이미지 검색과 같은 다양한 시각 이해 작업을 지원합니다. ObjEmbed는 세 가지 주요 특성을 갖춥니다: (1) 객체 지향 표현: 각 영역에 대해 의미론적 매칭을 위한 객체 임베딩과 지역화 품질을 예측하는 IoU 임베딩이라는 두 가지 상호 보완적인 임베딩을 생성하여 객체의 의미론적 및 공간적 측면을 모두 포착합니다. 최종 객체 매칭 점수는 의미론적 유사도와 예측된 IoU를 결합하여 더 정확한 검색을 가능하게 합니다. (2) 다양성: 지역 수준 및 이미지 수준 작업을 원활하게 처리합니다. (3) 효율적인 인코딩: 이미지 내 모든 객체와 전체 이미지가 단일 순전파 과정에서 인코딩되어 높은 효율성을 제공합니다. 18개의 다양한 벤치마크에서의 우수한 성능은 강력한 의미론적 판별력을 입증합니다.
대규모 CT 영상에서의 범암종 스크리닝은 방대한 CT 볼륨 내 다양한 유형의 미세 병변의 위치를 특정하기 어렵기 때문에 기존 AI 방법론들에게 여전히 과제로 남아 있습니다. 극단적인 전경-배경 불균형은 모델이 병변 영역에 집중하는 것을 크게 저해하며, 건강한 영역에 대한 불필요한 집중은 효율성을 저하할 뿐만 아니라 위양성률을 증가시킵니다. 우리는 방사선 전문의의 '휘익 검토(Glance)'와 '집중 분석(Focus)' 진단 전략에서 영감을 받아 범암종 스크리닝을 위한 GF-Screen(Glance and Focus reinforcement learning framework)을 제안합니다. GF-Screen은 병변 영역을 위치 특정하는 Glance 모델과 병변을 정밀하게 분할하는 Focus 모델을 활용하며, 강화 학습(Reinforcement Learning, RL)을 통해 Focus 모델의 분할 결과가 Glance 모델의 보상으로 사용됩니다. 구체적으로, Glance 모델은 전체 CT 볼륨에서 여러 개의 부분 볼륨을 추출하고, Focus 모델이 분할할 병변 포함 부분 볼륨을 선택하도록 학습합니다. 선택 작업 자체는 분할 학습에 대해 미분이 불가능하므로, 우리는 분할 결과를 이용해 Glance 모델에 보상을 제공하는 방식을 제안합니다. Glance 모델을 최적화하기 위해, 우리는 새로운 그룹 상대 학습 패러다임을 도입했습니다. 이는 부분 볼륨 그룹 내에서 높은 이점(advantage)을 가진 예측을 우선시하고 낮은 이점을 가진 예측을 제거하는 그룹 상대 비교를 사용하여 효율성을 향상시키고 위양성률을 줄입니다. 이러한 방식을 통해, 우리는 최첨단 강화 학습 기술을 범암종 스크리닝의 특정 과제 해결에 효과적으로 확장했습니다. 9가지 병변 유형에 걸친 16개의 내부 및 7개의 외부 데이터셋에서 수행한 폭넓은 실험을 통해 GF-Screen의 효과성을 입증했습니다. 특히, GF-Screen은 MICCAI FLARE25 범암종 챌린지의 공개 검증 리더보드에서 FLARE24 우승 솔루션을 큰 차이로(+25.6% DSC, +28.2% NSD) 제치고 선두를 달리고 있습니다.
최근 멀티턴 코드 생성과 같은 실제 과제에서 강화 학습을 통해 대규모 언어 모델을 훈련시키는 연구에 대한 관심이 크게 증가하고 있습니다. 온라인 강화 학습이 오프라인 강화 학습보다 우수한 성능을 보이는 경향이 있지만, 높은 훈련 비용과 불안정성으로 인해 널리 채택되기 어려운 실정입니다. 본 논문에서는 멀티턴 코드 생성이 단일 단계 복구 가능 마르코프 결정 과정으로 공식화될 수 있다는 관찰에 기반하여, 온라인 및 오프라인 강화 학습의 장점을 결합한 새로운 방법인 컨텍스트 밴딧 학습과 오프라인 궤적을 결합한 Cobalt를 제안합니다. Cobalt는 먼저 참조 LLM을 사용하여 코드 생성 궤적을 수집하고 이를 컨텍스트 프롬프트로 사용할 부분 궤적으로 분할합니다. 이후 온라인 밴딧 학습 동안 LLM은 각 부분 궤적 프롬프트를 단일 단계 코드 생성으로 완성하도록 훈련됩니다. Cobalt는 GRPO와 VeRPO 기반의 두 멀티턴 온라인 강화 학습 기준 모델을 능가하며, LiveCodeBench에서 R1-Distill 8B와 Qwen3 8B의 Pass@1 점수를 각각 최대 9.0점, 6.2점 절대값으로 크게 향상시켰습니다. 또한 LLM의 인컨텍스트 보상 해킹 동작을 분석하고, 이 문제를 완화하기 위해 교란된 궤적을 사용하여 Cobalt 훈련을 강화했습니다. 전반적으로 우리의 결과는 Cobalt가 멀티턴 코드 생성과 같은 반복적 의사 결정 과제에 대한 유망한 해결책임을 입증합니다. 우리의 코드와 데이터는 https://github.com/OSU-NLP-Group/cobalt에서 확인할 수 있습니다.
시각-언어 모델(VLM)의 최근 발전에도 불구하고, 기존 접근법들은 사용자의 축적된 시각-텍스트 컨텍스트와 시각 입력을 연관 짓는 능력이 부족하여 사용자의 특정 경험을 바탕으로 개인화된 응답을 생성하는 데 종종 실패합니다. 우리는 이러한 과제를 새로운 이미지를 해석할 때 VLM이 개인화된 시각 경험을 시각적으로 인식하고 텍스트로 검색해야 하는 '맥락화된 시각 개인화'로 새롭게 규정합니다. 이 문제를 해결하기 위해 우리는 개인화된 이미지 캡션 생성을 맥락화된 시각 개인화의 핵심 과제로 간주하고, 강화 학습 기반 사후 학습과 캡션 증강 생성을 통해 이 능력을 향상시키는 통합 프레임워크인 CoViP를 제안합니다. 또한 텍스트적 단축 해결책을 명시적으로 배제하고 VLM이 진정으로 시각적 맥락을 활용하는지 검증하는 진단 평가를 도입합니다. 광범위한 실험을 통해 기존의 오픈소스 및 상용 VLM들이 상당한 한계를 보이는 반면, CoViP는 개인화된 이미지 캡션 생성 능력을 향상시킬 뿐만 아니라 하위 개인화 과제 전반에 걸쳐 종합적인 성능 향상을 가져옴을 입증합니다. 이러한 결과는 CoViP가 강력하고 일반화 가능한 맥락화된 시각 개인화를 가능하게 하는 중요한 단계임을 보여줍니다.
대규모 언어 모델(LLM)과 비전-언어 모델(VLM)은 놀라운 능력을 보여주고 있습니다. 그러나 이러한 모델의 배포는 상당한 계산 비용으로 인해 제한되고 있습니다. 기존의 구조적 프루닝 방법은 하드웨어 효율성은 있지만, 종종 심각한 정확도 저하를 겪습니다. 본 논문에서는 이러한 문제가 프리필 단계와 디코드 단계 간의 비대칭적 역할을 간과하는 단계-불특정 프루닝 접근법에서 비롯된다고 주장합니다. 가상 게이트 메커니즘을 도입한 중요도 분석 결과, 딥 레이어가 다음 토큰 예측(디코드)에는 중요하지만 컨텍스트 인코딩(프리필)에는 대부분 불필요하다는 사실을 확인했습니다. 이러한 통찰력을 바탕으로, 계산 집약적인 프리필 단계에서는 딥 레이어를 안전하게 생략하면서 민감한 디코드 단계에서는 전체 모델을 유지하는 단계 인식 추론 전략인 Prefill-Only Pruning(POP)을 제안합니다. 단계 간 전환을 가능하게 하기 위해 캐시 무결성을 유지하는 독립적인 키-값(KV) 투영법과 첫 번째 생성 토큰의 정확성을 보장하는 경계 처리 전략을 도입했습니다. 다양한 모달리티에 걸쳐 Llama-3.1, Qwen3-VL, Gemma-3을 대상으로 한 폭넓은 실험을 통해 POP가 최소한의 성능 손실로 프리필 지연 시간을 최대 1.37배까지 단속할 수 있음을 입증하여, 기존 구조적 프루닝 방법의 정확도-효율성 트레이드오프 한계를 효과적으로 극복했습니다.
그래픽 사용자 인터페이스(GUI) 그라운딩은 자연어 명령을 실행 가능한 화면 좌표로 변환하여 자동화된 GUI 상호작용을 가능하게 하는 것을 목표로 합니다. 그러나 잘못된 그라운딩은 잘못된 결제 승인과 같이 비용이 크고 되돌리기 어려운 작업을 초래할 수 있어 모델 신뢰성에 대한 우려를 제기합니다. 본 논문에서는 테스트 전 보정을 통해 위험 인식 예측이 가능한 GUI 그라운딩 모델용 불확실성 인식 프레임워크인 SafeGround를 소개합니다. SafeGround는 분포 인식 불확실성 정량화 방법을 활용하여 주어진 모델 출력에서 생성된 확률적 샘플들의 공간적 분산을 포착합니다. 이후 보정 과정을 통해 통계적으로 보장된 오발견율(FDR) 제어를 갖는 테스트 시점 의사 결정 임계값을 도출합니다. 우리는 도전적인 ScreenSpot-Pro 벤치마크에 대해 여러 GUI 그라운딩 모델에 SafeGround를 적용했습니다. 실험 결과, 우리의 불확실성 측정 방법이 올바른 예측과 잘못된 예측을 구분하는 데 있어 기존 기준 방법들을 지속적으로 능가하는 한편, 보정된 임계값은 엄격한 위험 제어와 상당한 시스템 수준 정확도 향상 가능성을 안정적으로 제공했습니다. 여러 GUI 그라운딩 모델에서 SafeGround는 Gemini 단독 추론 대비 시스템 수준 정확도를 최대 5.38% 포인트까지 향상시켰습니다.
대규모 언어 모델(LLM)의 최근 발전은 과학적 연구 가속화를 위한 새로운 길을 열었습니다. 일상적인 업무 지원에 대한 모델의 능력은 점차 향상되고 있으나, 전문가 수준의 새로운 수학적 발견에 기여할 수 있는 능력에 대해서는 덜 알려져 있습니다. 본 논문에서는 연구자들이 고도화된 AI 모델, 특히 Google의 Gemini 기반 모델(특히 Gemini Deep Think 및 그 고급 변형)과 성공적으로 협력하여 이론 컴퓨터 과학은 물론 경제학, 최적화, 물리학 등 다양한 분야의 미해결 문제를 해결하고 추측을 반증하며 새로운 증명을 생성한 사례 연구 모음을 제시합니다. 이러한 경험을 바탕으로 이론 연구에서 효과적인 인간-AI 협력을 위한 반복적 정제, 문제 분해, 학제 간 지식 전환 등의 공통 기법을 도출합니다. 우리의 결과 대부분은 이러한 대화형 상호작용 방법론에서 비롯되었지만, 표준 채팅 인터페이스를 넘어서는 특정 사례들도 강조합니다. 여기에는 모델을 엄격한 적대적 검토자로 활용하여 기존 증명의 미묘한 오류를 탐지하거나, 복잡한 연산 검증을 위해 코드를 자율적으로 작성하고 실행하는 "신경-기호" 루프에 모델을 내재시키는 경우가 포함됩니다. 이러한 사례들은 AI가 단순한 자동화 도구가 아닌, 과학적 발견이라는 창의적 과정에서 다재다능하고 진정한 협력자로서의 잠재력을 부각시킵니다.
변환 기반 프라이버시 보호 얼굴 인식(PPFR)은 공격자와 악의적인 서비스 제공자로부터 얼굴 데이터를 숨긴 채 신원을 검증하는 것을 목표로 합니다. 기존 평가는 대부분 프라이버시를 PSNR과 SSIM으로 측정되는 픽셀 수준 재구성에 대한 저항으로 간주합니다. 본 연구에서는 이러한 재구성 중심 시각이 실패함을 보여줍니다. 우리는 보호된 템플릿에서 원본 픽셀을 복구하지 않고도 직접 연계/매칭 및 얼굴 재생성을 수행하는 신원 추출 공격인 FaceLinkGen을 제시합니다. 최근 3가지 PPFR 시스템에서 FaceLinkGen은 98.5% 이상의 매칭 정확도와 96% 이상의 재생성 성공률을 달성했으며, 제로에 가까운 지식 설정에서도 여전히 92% 이상의 매칭률과 94% 이상의 재생성률을 보였습니다. 이러한 결과는 PPFR 평가에서 널리 사용되는 픽셀 왜곡 메트릭과 실제 프라이버시 간의 구조적 격차를 드러냅니다. 우리는 시각적 난독화가 신원 정보를 외부 침입자와 신뢰할 수 없는 서비스 제공자 모두에게 광범위하게 노출시킨다는 것을 보여줍니다.
소규모 언어 모델은 에이전트 AI에 대한 비용 효율적이고 유망한 접근법으로 점차 각광받으며, 일각에서는 에이전트 워크플로우에 충분히 활용 가능하다는 주장도 제기되고 있다. 그러나 소규모 에이전트는 단순 작업에서 대규모 모델과 유사한 성능을 보일 수 있지만, 작업 복잡도에 따른 성능 확장성, 대규모 모델이 필요한 시점, 그리고 장기적 작업 부하에 소규모 에이전트를 효과적으로 활용하는 방법은 여전히 불분명하다. 본 연구에서는 심층 검색 및 코딩 작업에서 소규모 에이전트의 성능이 작업 복잡도에 비례하여 확장되지 않음을 실증적으로 보여주고, 프리랜서 시장에서 영감을 받은 에이전트 프레임워크인 SALE(전략 경매를 통한 작업 효율성)을 제안한다. SALE에서는 에이전트가 간략한 전략 계획을 입찰하며, 체계적인 비용-가치 메커니즘으로 점수화되고 공유 경매 메모리를 통해 개선되어 별도의 라우터를 학습하거나 모든 모델을 완료까지 실행하지 않고도 작업별 라우팅과 지속적인 자기 개선이 가능하다. 다양한 복잡도의 심층 검색 및 코딩 작업에서 SALE은 최대 규모 에이전트 의존도를 53% 줄이고, 전체 비용을 35% 절감하며, 최종 실행 트레이스 외에 무시할 수 있는 오버헤드만으로 최대 규모 에이전트의 pass@1 성능을 지속적으로 향상시켰다. 이와 대조적으로 작업 설명에 의존하는 기존 라우터들은 최대 규모 에이전트보다 낮은 성능을 보이거나 비용 절감에 실패하는 경우가 많아 에이전트 워크플로우에 부적합함을 확인했다. 이러한 결과는 소규모 에이전트가 복잡한 작업 부하에는 부적절할 수 있지만, 조율된 작업 할당과 실행 시점 자기 개선을 통해 효과적으로 "규모 확장"이 가능함을 시사한다. 더 넓게 보면, 이는 개별 모델의 규모 확대보다 이기종 에이전트를 효율적이고 적응적인 생태계로 조직하는 시장 기반 조율 메커니즘을 통해 성능 향상을 꾀하는 시스템 수준의 에이전트 AI 관점을 지지한다.
본 연구에서는 2차 미분 기하학적 관점에서 Transformer 최적화를 재검토하며, 아키텍처 설계, 활성화 스케일, 헤시안 행렬 및 최대 허용 학습률 간의 직접적인 연관성을 규명합니다. 우리는 구조적으로 중간 활성화 스케일을 안정화하는 SimpleNorm이라는 간단한 정규화 전략을 제안합니다. 이후 네트워크 활성화에 대한 손실 함수의 헤시안을 분석함으로써 SimpleNorm이 헤시안의 스펙트럼 노름을 현저히 감소시켜 더 큰 안정적 학습률을 가능하게 함을 이론적으로 증명합니다. 1B, 1.4B, 7B, 8B 매개변수 규모의 대규모 GPT 모델을 대상으로 한 폭넓은 실험을 통해 이론적 주장을 검증합니다. 경험적으로, SimpleNorm을 기반으로 한 우리의 네트워크인 SimpleGPT는 기존 표준 대비 3~10배 큰 학습률을 허용하며, 뛰어난 최적화 안정성을 지속적으로 보여주고 확립된 베이스라인 대비 현저히 향상된 성능을 달성합니다. 구체적으로, 7B 규모 모델을 60,000단계 학습시켰을 때 SimpleGPT는 QKNorm을 적용한 LLaMA2 대비 0.08 낮은 학습 손실(2.290에서 2.208으로 감소)을 기록했습니다. 소스 코드는 https://github.com/Ocram7/SimpleGPT에서 공개될 예정입니다.
대규모 언어 모델(LLM)의 등장으로 범용 에이전트 분야에는 근본적인 발전이 이루어졌습니다. 그러나 이러한 에이전트를 평가하는 작업은 정적 질의응답 벤치마크와 구별되는 독특한 과제를 제기합니다. 저희는 현재의 에이전트 벤치마크가 시스템 프롬프트, 도구 집합 구성, 환경 역학 등 외부 요인에 의해 크게 혼란을 겪고 있음을 관찰했습니다. 기존 평가 방식은 주로 단편적이고 연구자별로 상이한 프레임워크에 의존하며, 추론 및 도구 사용을 위한 프롬프트 엔지니어링이 크게 달라 성능 향상을 모델 자체의 효과로 귀속하기 어렵습니다. 또한 표준화된 환경 데이터의 부재는 추적 불가능한 오류와 재현 불가능한 결과를 초래합니다. 이러한 표준화 부재는 해당 분야에 상당한 불공정성과 불투명성을 야기하고 있습니다. 저희는 에이전트 평가의 엄격한 발전을 위해서는 통합 평가 프레임워크가 필수적이라고 제안합니다. 이를 위해 에이전트 평가의 표준화를 목표로 한 제안을 소개합니다.
의료 영상 분할은 과제별 특화 모델에서 일반화 가능한 프레임워크로 진화하고 있습니다. 최근 연구에서는 다중 모드 대규모 언어 모델(MLLMs)을 자율 에이전트로 활용하여 검증 가능한 보상 강화 학습(RLVR)을 통해 Segment Anything Model(SAM)과 같은 전문 도구들을 조정하고 있습니다. 그러나 이러한 접근법은 단일 단계의 경직된 상호작용 전략에 의존하고 훈련 과정에서 프로세스 수준의 감독이 부족하여, 상호작용 도구의 동적 잠재력을 충분히 활용하지 못하고 중복 행동을 초래하는 한계가 있습니다. 이러한 격차를 해소하기 위해 우리는 상호작용적 분할을 다단계 자율 의사결정 과정으로 재구성하는 MedSAM-Agent 프레임워크를 제안합니다. 먼저, 전문가가 큐레이팅한 궤적 생성을 위한 하이브리드 프롬프팅 전략을 도입하여 모델이 인간과 유사한 결정 휴리스틱과 적응형 정제 전략을 내재화할 수 있도록 합니다. 더 나아가, 다중 단계의 종단간 결과 검증과 임상 정합성 프로세스 보상 설계를 통합한 2단계 훈련 파이프라인을 개발하여 상호작용의 간결성과 의사결정 효율성을 촉진합니다. 6가지 의료 영상 방식과 21개 데이터셋에 걸친 광범위한 실험을 통해 MedSAM-Agent가 최첨단 성능을 달성하며, 자율적인 의료 추론과 강건한 반복 최적화를 효과적으로 통합함을 입증했습니다. 코드는 https://github.com/CUHK-AIM-Group/MedSAM-Agent에서 확인할 수 있습니다.
임상용 뇌-텍스트 인터페이스는 방대한 훈련 기록을 제공할 수 없는 마비 환자를 위해 설계되었습니다. 사전 훈련은 여러 피실험자에 걸친 통계적 사전 확률을 학습함으로써 데이터 효율적인 일반화를 개선하지만, 이러한 사전 확률은 문맥에 크게 의존합니다. 자연스러운 음성이 수 분에 걸쳐 점진적으로 전개될 수 있는 반면, 대부분의 방법은 단지 몇 초 길이의 문맥만으로 사전 훈련을 수행합니다. 따라서 우리는 샘플당 2.5분 길이의 MEG 문맥으로 사전 훈련된 MEG-XL 모델을 제안합니다. 이는 기존 연구보다 5~300배 길고 191k 토큰에 해당하여 확장된 신경 문맥을 포착합니다. 뇌 데이터로부터 단어를 디코딩하는 과제에 미세 조정을 적용했을 때, MEG-XL은 극소량의 데이터(예: 1시간 대 50시간)로 지도 학습 방식의 성능을 맞추고 뇌 기반 모델을 능가했습니다. 우리는 더 긴 문맥으로 사전 훈련된 모델일수록 단어 디코딩으로의 전이 효과가 더 우수한 표현을 학습한다는 사실을 발견했습니다. 우리의 결과는 장문맥 사전 훈련이 다른 방법들이 불필요하게 버리는 확장된 신경 문맥을 활용하는 데 도움이 됨을 시사합니다. 코드, 모델 가중치 및 사용 지침은 https://github.com/neural-processing-lab/MEG-XL 에서 확인할 수 있습니다.
개인정보 민감 데이터를 활용한 연구는 항상 데이터 부족에 제약을 받아왔으며, 이는 데이터 규모 확장의 혜택을 본 다른 분야와 뚜렷한 대비를 이룹니다. OpenClaw 및 Gemini Agent와 같은 현대 AI 에이전트가 매우 민감한 개인 정보에 지속적으로 접근할 수 있게 되면서 이 문제는 점점 더 시급해지고 있습니다. 이러한 오랜 난제와 증가하는 위험을 해결하기 위해 우리는 Privasis(Privacy Oasis)를 소개합니다. Privasis는 민감한 사회적 데이터 처리가 불가피한 분야의 연구를 확대하고 가속화하기 위해 설계된, 풍부하고 다양한 개인정보를 담은 방대한 텍스트 저장소이자, 처음부터 완전히 합성된 최초의 백만 규모 데이터셋입니다. 기존 데이터셋과 비교할 때 140만 개의 레코드로 구성된 Privasis는 질적 수준을 유지한 채 규모가 수준 차원으로 크며, 의료 기록, 법률 문서, 금융 기록, 일정, 문자 메시지 등 다양한 문서 유형에 걸쳐 훨씬 더 큰 다양성을 제공합니다. 여기에는 인종, 생년월일, 직장 등 총 5,510만 개의 주석 처리된 속성이 포함됩니다. 우리는 Privasis를 활용하여 텍스트를 분해하고 대상별 삭제/익명화를 적용하는 파이프라인으로 텍스트 익명화를 위한 병렬 코퍼스를 구축합니다. 이 데이터셋으로 학습된 소규모 익명화 모델들(<=40억 매개변수)은 GPT-5 및 Qwen-3 235B와 같은 최첨단 대규모 언어 모델을 능가하는 성능을 보입니다. 우리는 개인정보 민감 분야 및 에이전트에 대한 향후 연구를 가속화하기 위해 데이터, 모델 및 코드를 공개할 계획입니다.
대규모 언어 모델(LLM)의 추론 능력 향상은 일반적으로 모델이 강화될 올바른 해결책을 샘플링할 수 있는 능력이나 문제를 해결할 수 있는 더 강력한 모델의 존재에 의존합니다. 그러나 많은 어려운 문제들은 현재 최첨단 모델들에게도 여전히 풀기 어려워 유효한 훈련 신호를 추출하는 것을 방해합니다. 유망한 대안은 고품질의 전문가 수준의 인간 해결책을 활용하는 것이지만, 이러한 데이터를 단순히 모방하는 것은 근본적으로 분포를 벗어나기 때문에 실패합니다. 전문가 해결책은 일반적으로 교육적이며, 컴퓨팅 모델이 아닌 인간 독자를 위해 의도된 암묵적인 추론 간극을 포함하기 때문입니다. 더욱이 고품질의 전문가 해결책은 비용이 많이 들어 일반화 가능하고 샘플 효율적인 훈련 방법이 필요합니다. 우리는 분포 차이를 해소하는 두 단계 방법인 분포 정렬 모방 학습(DAIL)을 제안합니다. 이 방법은 먼저 전문가 해결책을 세부적이고 분포 내 추론 흔적으로 변환한 다음, 대조적 목적 함수를 적용하여 전문가의 통찰력과 방법론에 학습을 집중시킵니다. 우리는 DAIL이 1000개 미만의 고품질 전문가 해결책을 활용하여 Qwen2.5-Instruct 및 Qwen3 모델에서 10-25%의 pass@k 향상을 달성하고, 추론 효율을 2배에서 4배까지 개선하며, 도메인 외 일반화를 가능하게 한다는 것을 발견했습니다.
고품질 피드백은 효과적인 인간-AI 상호작용에 필수적입니다. 이는 지식 격차를 해소하고, 주제에서 벗어난 내용을 수정하며, 상호작용 중 및 모델 개발 전반에 걸쳐 시스템 행동을 형성합니다. 그러나 그 중요성에도 불구하고, AI에 제공되는 인간의 피드백은 빈도가 낮고 질이 떨어지는 경우가 많습니다. 이러한 격차는 AI와의 상호작용 중 발생하는 인간 피드백에 대한 비판적 검토를 필요로 합니다. 사용자가 고품질 피드백을 제공하지 못하게 하는 어려움을 이해하고 극복하기 위해, 우리는 인간과 대화형 에이전트 간의 피드백 역학을 조사하는 두 가지 연구를 수행했습니다. 우리의 예비 연구는 그라이스의 대화 격률 관점을 통해 사용자의 고품질 피드백을 방해하는 네 가지 피드백 장벽(공통 기반, 검증 가능성, 의사소통, 정보성)을 확인했습니다. 이러한 결과를 바탕으로 세 가지 설계 요건을 도출했으며, 이러한 요건에 부합하는 지원 체계를 갖춘 시스템이 사용자로 하여금 더 높은 품질의 피드백을 제공할 수 있게 했음을 보여줍니다. 마지막으로, 피드백 장벽을 극복하기 위한 대규모 언어 모델 능력의 발전을 위해 더 넓은 AI 커뮤니티에 행동을 촉구하는 내용을 상세히 설명합니다.
사물과 언어 간의 관계는 인간과 AI 간의 의미 있는 의사소통과 실질적으로 유용한 구체화 지능에 핵심적입니다. 우리는 HieraNav를 소개합니다. 이는 에이전트가 자연어 지시를 해석하여 장면, 방, 영역, 인스턴스라는 네 가지 의미 수준에서 목표에 도달하는 다중 세분성 및 개방형 어휘 목표 항법 작업입니다. 이를 위해 우리는 실제 3D 실내 스캔을 기반으로 인간 검증이 완료된 포괄적인 주석과 다양한 수준의 작업을 포함하는 대규모 벤치마크인 Language as a Map (LangMap)을 제시합니다. LangMap은 414개 객체 범주를 포괄하는 영역 라벨, 변별적 영역 설명, 변별적 인스턴스 설명과 18,000개 이상의 항법 작업을 제공합니다. 각 목표는 간결한 설명과 상세한 설명을 모두 포함하여 다양한 지시 스타일에서의 평가를 가능하게 합니다. LangMap은 우수한 주석 품질을 달성하여, GOAT-Bench 대비 단어 수는 4분의 1로 줄이면서 변별 정확도는 23.8% 향상되었습니다. LangMap에 대한 제로샷 및 지도 학습 모델의 포괄적 평가는 더 풍부한 문맥과 메모리가 성공률을 향상시키지만, 롱테일, 소규모, 문맥 의존적 및 원격 목표와 다중 목표 완수는 여전히 어려운 과제임을 보여줍니다. HieraNav와 LangMap은 언어 주도 구체화 항법 발전을 위한 엄격한 테스트베드를 구축합니다. 프로젝트: https://bo-miao.github.io/LangMap
트랜스포머 구성 요소가 대규모 언어 모델(LLM)에서 어떻게 작동하는지 이해하는 것은 인공 지능의 최근 기술 발전의 핵심에 있기 때문에 중요합니다. 본 연구에서는 피드포워드 모듈(FFN)의 해석 가능성과 관련된 과제를 재검토하고, FFN을 자기 주의(self-attention)로부터 분리하여 분리된 FFN을 맥락 독립적인 토큰 단위 신경 검색 메모리로 연구할 수 있게 하는 MemoryLLM을 제안합니다. 구체적으로, 우리는 입력 토큰이 FFN 매개변수 내의 메모리 위치에 어떻게 접근하는지와 다양한 하위 작업에서 FFN 메모리의 중요성을 조사합니다. MemoryLLM은 토큰 임베딩을 직접 사용하여 자기 주의와 분리된 상태에서 FFN을 독립적으로 학습시킴으로써 맥락 독립적인 FFN을 구현합니다. 이 접근 방식은 FFN을 토큰 단위 조회 테이블(ToL)로 사전 계산할 수 있게 하여 VRAM과 저장 장치 간의 온디맨드 전송을 가능하게 하고, 추론 효율을 추가로 향상시킵니다. 또한 우리는 기존 트랜스포머 설계와 MemoryLLM 사이에 위치하는 Flex-MemoryLLM을 소개합니다. 이 아키텍처는 맥락 독립적인 토큰 단위 임베딩으로 FFN을 훈련시킴으로써 발생하는 성능 격차를 해소합니다.
멀티모달 추천 시스템은 일반적으로 사용자 행동과 아이템의 멀티모달 데이터를 통합하여 보다 정확한 사용자 선호도를 파악합니다. 동시에 대규모 모델(LM)의 부상에 따라 멀티모달 추천은 의미 이해와 맥락 추론에서의 강점을 점차 활용하고 있습니다. 그러나 LM 표현은 본질적으로 일반적인 의미 작업에 최적화되어 있는 반면, 추천 모델은 희소한 사용자/아이템 고유 식별자(ID) 특징에 크게 의존합니다. 기존 연구들은 대규모 모델과 추천 시스템 간의 근본적인 표현 차이를 간과하여, 상호 호환되지 않는 멀티모달 표현과 차선의 추천 성능을 초래했습니다. 이러한 간극을 해소하기 위해 우리는 LLM 강화 멀티모달 추천을 위한 이론적으로 보장된 정렬 능력을 제공하는 새롭고 간단한 이중 의미 정렬 프레임워크인 RecGOAT를 제안합니다. RecGOAT는 먼저 그래프 어텐션 네트워크를 사용하여 사용자/아이템 LM 표현과 상호작용 이력을 활용해 아이템-아이템, 사용자-아이템, 사용자-사용자 관계를 모델링함으로써 협업 의미를 풍부하게 합니다. 더 나아가 우리는 크로스모달 대조 학습(CMCL)과 최적 적응 전송(OAT)을 통해 각각 인스턴스 수준과 분포 수준의 의미 정렬을 달성하는 이중 세분화 점진적 멀티모달리티-ID 정렬 프레임워크를 설계했습니다. 이론적으로, 우리의 정렬 프레임워크에서 도출된 통합 표현이 우수한 의미 일관성과 포괄성을 보인다는 것을 입증합니다. 3개의 공개 벤치마크에 대한 광범위한 실험을 통해 우리의 RecGOAT가 최첨단 성능을 달성하여 우리의 이론적 통찰력을 실증적으로 검증했음을 보여줍니다. 또한 대규모 온라인 광고 플랫폼에의 배포는 산업적 추천 시나리오에서 모델의 효과성과 확장성을 확인시켜 줍니다. 코드는 https://github.com/6lyc/RecGOAT-LLM4Rec에서 이용 가능합니다.
많은 기계 학습 시스템은 동일한 예측 대상에 대해 여러 증거 원천에 접근할 수 있지만, 이러한 원천들은 종종 입력값에 따라 신뢰도와 정보성에서 차이를 보입니다. 생물음향 분류에서 종 동정은 음향 신호와 위치 및 계절과 같은 시공간적 맥락 모두에서 추론될 수 있습니다. 베이지안 추론은 증거의 승산 결합을 이론적으로 뒷받침하지만, 실제로는 보정된 생성 모델보다는 판별 예측 모델만 접근 가능한 경우가 일반적입니다. 본 연구에서는 사전 훈련된 오디오 분류기와 구조화된 시공간 예측기를 통합하는 적응형 로그-선형 증거 융합 프레임워크인 FINCH(Fusion under INdependent Conditional Hypotheses)를 소개합니다. FINCH는 불확실성과 정보성 통계량으로부터 맥락 정보의 신뢰도를 추정하는 샘플별 게이팅 함수를 학습합니다. 그 결과 도출된 융합 패밀리는 오디오 단독 분류기를 특수한 경우로 포함하며, 맥락 증거의 영향을 명시적으로 제한하여 해석 가능한 오디오 단독 폴백(fallback)을 갖는 위험 제어 가설 클래스를 제공합니다. 다양한 벤치마크에서 FINCH는 고정 가중치 융합 및 오디오 단독 기준 모델을 지속적으로 능가하며, 맥락 정보가 단독으로는 약할 때에도 견고성과 오류 트레이드오프를 개선했습니다. 우리는 경량이며 해석 가능한 증거 기반 접근법을 통해 CBI에서 최첨단 성능을 달성하고 BirdSet의 여러 하위 집합에서 경쟁력 있거나 향상된 성능을 얻었습니다. 코드 이용 가능: \href{https://anonymous.4open.science/r/birdnoise-85CD/README.md{익명-저장소}}
대규모 언어 모델(LLM)의 키-값(KV) 캐시는 접두사 기반으로 동작하여 임의 순서로 검색된 컨텍스트를 처리하는 데 매우 비효율적입니다. 위치 독립 캐싱(PIC)은 위치 제약 없이 KV 재사용을 가능하게 하기 위해 제안되었으나, 기존 접근법들은 종종 상당한 정확도 저하를 초래하여 실제 적용에 한계가 있었습니다. 이러한 문제를 해결하기 위해, 우리는 주류의 디코더 전용 LLM에 인코더를 재도입하고 PIC를 지원하도록 명시적으로 학습시키는 네이티브 PIC를 제안합니다. 또한 기존 추론 프레임워크와 원활하게 통합되는 PIC 인식 캐싱 시스템인 COMB를 개발했습니다. 실험 결과, COMB는 첫 토큰 출력 시간(TTFT)을 51-94% 단축하고 처리량을 3배 증가시키면서도 비슷한 정확도를 유지하는 것으로 나타났습니다. 더 나아가 DeepSeek-V2-Lite-Chat 사용 시 품질 향상이 관찰되어 COMB가 다른 유형의 디코더 전용 LLM에도 적용 가능함을 입증했습니다. 우리의 코드는 https://github.com/shijuzhao/Comb에서 확인할 수 있습니다.