번역이 포함된 일일 선별된 AI 연구 논문
강화 학습은 언어 모델(LM)이 환경적 보상 또는 피드백으로부터 학습하는 핵심 접근법으로 자리잡았습니다. 실제로 환경적 피드백은 일반적으로 희소하고 지연됩니다. 이러한 신호로부터 학습하는 것은 어려운 과제인데, 언어 모델이 관찰된 실패가 향후 반복에서 어떻게 행동 변화로 이어져야 하는지를 암묵적으로 추론해야 하기 때문입니다. 본 연구에서는 강화 학습 과정에 명시적인 경험-성찰-통합 루프를 내재화한 훈련 패러다임인 경험적 강화 학습(ERL)을 소개합니다. 주어진 작업에서 모델은 초기 시도를 생성하고, 환경적 피드백을 수신하며, 개선된 두 번째 시도를 안내하는 성찰을 생성합니다. 이 두 번째 시도의 성공은 기본 정책에 강화되어 내재화됩니다. 이 과정은 피드백을 구조화된 행동 수정으로 전환하여 탐색을 개선하고 최적화를 안정화시키며, 추가 추론 비용 없이 배포 시 이득을 보존합니다. 희소 보상 제어 환경과 에이전트 추론 벤치마크 전반에 걸쳐 ERL은 강력한 강화 학습 베이스라인 대비 학습 효율성과 최종 성능을 지속적으로 향상시켰으며, 복잡한 다단계 환경에서는 최대 +81%, 도구 사용 추론 작업에서는 최대 +11%의 성능 향상을 달성했습니다. 이러한 결과는 명시적 자기 성찰을 정책 훈련에 통합하는 것이 피드백을 지속적인 행동 개선으로 전환하는 실용적인 메커니즘을 제공함을 시사합니다.
기존의 다중모달 검색 시스템은 의미적 매칭에서는 뛰어나지만, 질의-이미지 관련성을 단독으로 측정할 수 있다는 점을 암묵적으로 가정합니다. 이러한 패러다임은 정보가 단일 스냅샷에 국한되지 않고 시간적 연속성에 분산되어 있는 현실적 시각 스트림 내재의 풍부한 의존 관계를 간과합니다. 이러한 격차를 해소하기 위해 본 연구에서는 이미지 검색을 자율적 탐색 과제로 재정의하는 새로운 에이전트 패러다임인 DeepImageSearch를 소개합니다. 모델은 암묵적 맥락 단서를 바탕으로 대상을 찾기 위해 원시 시각 이력에 대한 다단계 추론을 계획하고 수행해야 합니다. 우리는 상호 연결된 시각 데이터를 기반으로 한 도전적인 벤치마크인 DISBench를 구축했습니다. 맥락 의존적 질의 생성의 확장성 문제를 해결하기 위해, 우리는 시각-언어 모델을 활용하여 잠재적 시공간 연관성을 추출하고 인간 검증 전에 집중적인 맥락 발견 작업을 효과적으로 분담하는 인간-모델 협력 파이프라인을 제안합니다. 또한, 정교한 도구와 장기적 탐색을 위한 이중 메모리 시스템을 갖춘 모듈형 에이전트 프레임워크를 사용하여 강력한 베이스라인을 구축했습니다. 광범위한 실험을 통해 DISBench가 최첨단 모델들에게 상당한 도전 과제를 제시하며, 차세대 검색 시스템에 에이전트 추론을 통합할 필요성이 있음을 입증했습니다.
본 논문에서는 단 30억 개의 매개변수만으로도 강력한 에이전트 행동, 코드 생성, 일반 추론 능력을 동시에 달성하는 통합 범용 언어 모델 Nanbeige4.1-3B를 소개한다. 우리가 아는 한, 이는 단일 모델이 이러한 다기능성을 달성한 최초의 오픈소스 소형 언어 모델(SLM)이다. 추론 능력과 인간 선호도 정렬을 향상시키기 위해 점별 및 쌍별 보상 모델링을 결합하여 고품질의 인간 정렬 응답을 보장한다. 코드 생성 분야에서는 강화 학습에 복잡도 인식 보상 방식을 도입하여 정확성과 효율성을 동시에 최적화하였다. 심층 탐색에서는 복잡한 데이터 합성을 수행하고 훈련 과정에서 턴 단위 감독을 통합하여 장기간 도구 상호작용의 안정성을 확보했다. 이를 통해 Nanbeige4.1-3B는 복잡한 문제 해결을 위해 최대 600회의 도구 호출 턴을 안정적으로 실행할 수 있다. 폭넓은 실험 결과, Nanbeige4.1-3B는 Nanbeige4-3B-2511 및 Qwen3-4B와 같은 동일 규모의 기존 모델을 크게 능가하며, Qwen3-30B-A3B와 같은 훨씬 큰 모델 대비 우수한 성능까지 달성함을 보여준다. 본 연구 결과는 소형 모델이 광범위한 일반 능력과 강력한 전문성을 동시에 확보함으로써 30억 매개변수 모델의 가능성을 재정의할 수 있음을 입증한다.
대규모 언어 모델은 범용 지식 엔진에서 실세계 문제 해결사로 전환되고 있지만, 심층 검색 작업에 맞게 최적화하는 것은 여전히 어려운 과제로 남아 있습니다. 핵심 병목 현상은 확장 가능한 장기 과제 구성의 어려움과 외부 도구 호출을 포함하는 상호작용 집중 롤아웃의 높은 비용으로 인해 고품질 검색 경로와 보상 신호가 극도로 희소하다는 데 있습니다. 이러한 문제를 해결하기 위해 우리는 확장 가능한 검색 에이전트 최적화를 위해 복잡한 과제 합성, 중간 훈련, 후속 훈련을 공동 설계하는 통합 프레임워크인 REDSearcher를 제안합니다. 구체적으로 REDSearcher는 다음과 같은 개선 사항을 도입합니다: (1) 과제 난이도를 그래프 토폴로지와 증거 분산으로 정밀하게 제어하여 복잡한 고품질 과제의 확장 가능한 생성을 가능하게 하는 이중 제약 최적화로 과제 합성을 구성합니다. (2) 수동적 회상이 아닌 능동적 도구 사용을 장려하기 위해 도구 강화 질의를 도입합니다. (3) 중간 훈련 동안 핵심 원자 능력(지식, 계획 수립, 함수 호출)을 강화하여 하류 훈련을 위한 고품질 경로 수집 비용을 상당히 절감합니다. (4) 강화 학습 실험을 위한 빠르고 저비용의 알고리즘 반복을 가능하게 하는 로컬 시뮬레이션 환경을 구축합니다. 텍스트 전용 및 멀티모달 검색 에이전트 벤치마크 전반에 걸쳐 우리의 접근 방식은 최첨단 성능을 달성합니다. 장기 검색 에이전트에 대한 향후 연구를 촉진하기 위해 10,000개의 고품질 복합 텍스트 검색 경로, 5,000개의 멀티모달 경로, 1,000개의 텍스트 RL 질의 세트와 함께 코드 및 모델 체크포인트를 공개할 예정입니다.
우리는 코드북 인덱스 대신 이진 시각 토큰을 예측하는 확장 가능한 자기회귀(AR) 이미지 생성기인 BitDance을 제안합니다. 높은 엔트로피를 지닌 이진 잠재 공간을 통해 BitDance은 각 토큰이 최대 2^{256}개의 상태를 표현할 수 있도록 하여, 압축적이면서도 매우 표현력 높은 이산 표현을 생성합니다. 이러한 방대한 토큰 공간에서 표준 분류 기법으로 샘플링하는 것은 어렵습니다. 이를 해결하기 위해 BitDance은 이진 디퓨전 헤드를 사용합니다: 소프트맥스를 통해 인덱스를 예측하는 대신, 연속 공간 디퓨전을 활용하여 이진 토큰을 생성합니다. 더 나아가, 우리는 넥스트-패치 디퓨전이라는 새로운 디코딩 방법을 제안합니다. 이 방법은 여러 토큰을 높은 정확도로 병렬 예측하여 추론 속도를 크게 향상시킵니다. ImageNet 256x256에서 BitDance은 FID 1.24를 달성하여 AR 모델 중 최고 성능을 기록했습니다. 넥스트-패치 디퓨전을 적용한 BitDance은 14억 개의 매개변수를 사용하는 최첨단 병렬 AR 모델들을 성능으로 앞지르면서, 5.4배 더 적은 매개변수(2억 6천만 개)를 사용하고 8.7배의 속도 향상을 달성했습니다. 텍스트-이미지 생성의 경우, BitDance은 대규모 다중모달 토큰에 대해 학습하여 고해상도, 사실적인 이미지를 효율적으로 생성하며, 강력한 성능과 유리한 확장성을 보여줍니다. 1024x1024 이미지를 생성할 때, BitDance은 기존 AR 모델 대비 30배 이상의 속도 향상을 달성합니다. AR 기초 모델에 대한 추가 연구를 촉진하기 위해 코드와 모델을 공개합니다. 코드와 모델은 다음에서 확인할 수 있습니다: https://github.com/shallowdream204/BitDance.
산업 규모의 사용자 표현 학습은 강력한 보편성과 세밀한 작업 민감성 사이의 균형을 요구합니다. 그러나 기존 패러다임은 주로 정적이고 작업에 무관심한 임베딩을 생성하며, 이는 통합 벡터 공간 내에서 상이한 다운스트림 시나리오 요구사항을 조화시키는 데 어려움을 겪습니다. 더욱이 이질적인 다중 출처 데이터는 내재적 노이즈와 양식 충돌을 초래하여 표현의 품질을 저하시킵니다. 본 연구는 정적 인코딩에서 동적이고 쿼리 인식 합성으로 사용자 모델링을 전환하는 Query-as-Anchor 프레임워크를 제안합니다. 대규모 언어 모델(LLM)에 깊은 사용자 이해 능력을 부여하기 위해, 먼저 다중 양식 행동 시퀀스와 사용자 이해 의미론을 정렬한 산업 규모의 사전 학습 데이터셋인 UserU를 구축합니다. 또한 Q-Anchor 임베딩 아키텍처는 계층적 coarse-to-fine 인코더를 이중 타워 LLM에 통합하여 쿼리 인식 사용자 표현을 위한 공동 대조-자기회귀 최적화를 수행합니다. 일반적인 사전 학습과 특화된 비즈니스 로직 간의 격차를 해소하기 위해, 클러스터 기반 소프트 프롬프트 튜닝을 추가로 도입하여 판별 잠재 구조를 강화하고 모델의 주의를 시나리오 특정 양식에 효과적으로 정렬합니다. 배포를 위해 시퀀스 말단에 쿼리를 고정함으로써 KV 캐시 가속 추론이 가능하며 증가 지연 시간은 무시할 수준입니다. Alipay의 10개 산업 벤치마크에 대한 평가에서 일관된 SOTA 성능, 강력한 확장성 및 효율적인 배포 가능성을 확인했습니다. Alipay 프로덕션 시스템 내 두 가지 실제 시나리오에서의 대규모 온라인 A/B 테스트는 이를 추가로 검증합니다. 본 연구의 코드는 공개 예정이며 https://github.com/JhCircle/Q-Anchor에서 확인할 수 있을 것입니다.
Best-of-N 및 Tree-of-Thoughts와 같은 추론 시간 계산(Inference-Time-Compute, ITC) 방법은 고품질이면서도 다양한 출력 후보를 생성하기 위한 것이지만, 높은 온도 샘플링을 사용함으로써 의미 있는 출력 다양성을 달성하는 데 종종 실패합니다. 더욱이 기존 ITC 방법은 추론을 수행하는 방식에 대한 제어가 제한적이어서 설명 가능성도 제한됩니다. 본 논문에서는 높은 수준의 추론 패턴을 탐색하는 해석 가능한 ITC 방법인 STATe-of-Thoughts(STATe)를 제시합니다. STATe는 확률적 샘플링을 이산적이고 해석 가능한 텍스트적 개입으로 대체합니다. 즉, 컨트롤러는 높은 수준의 추론 선택을 인코딩하는 액션을 선택하고, 생성기는 그 선택에 조건부된 추론 단계를 생성하며, 평가자는 탐색을 안내하기 위해 후보들을 채점합니다. 이러한 구조화된 접근 방식은 세 가지 주요 이점을 제공합니다. 첫째, 액션 기반 텍스트 개입은 온도 기반 샘플링보다 더 큰 응답 다양성을 생성합니다. 둘째, 논증 생성에 대한 사례 연구에서 STATe의 명시적 액션 시퀀스는 출력 품질을 매우 잘 예측하는 해석 가능한 특징들을 포착합니다. 셋째, 성능과 액션 선택 간의 연관성을 추정함으로써 유망하지만 아직 탐색되지 않은 액션 공간 영역을 식별하고 생성 과정을 해당 영역으로 직접 조종할 수 있습니다. 이러한 결과를 종합하면 STATe는 고품질이고 다양하며 해석 가능한 텍스트를 생성하기 위한 실용적인 프레임워크로 자리매김합니다. 우리의 프레임워크는 https://github.com/zbambergerNLP/state-of-thoughts에서 이용 가능합니다.
대규모 언어 모델의 급속한 발전은 과학적 아이디어 생산의 급증을 촉진했으나, 이러한 도약은 아이디어 평가의 동등한 발전을 동반하지 못했습니다. 과학적 평가의 본질적 특성은 전문적 기반 지식, 집단적 숙의, 다중 기준 의사 결정을 필요로 합니다. 그러나 기존 아이디어 평가 방법은 종종 제한된 지식 범위, 단순화된 평가 차원, 그리고 LLM-as-a-Judge의 내재된 편향 문제를 지니고 있습니다. 이를 해결하기 위해 우리는 아이디어 평가를 지식 기반의 다중 관점 추론 문제로 간주하고, 인간 수준의 아이디어 평가를 모방하도록 설계된 심층 혁신 평가 프레임워크인 InnoEval을 소개합니다. 우리는 다양한 온라인 소스로부터 동적 증거를 검색 및 기반으로 삼는 이종 심층 지식 검색 엔진을 적용합니다. 더 나아가 서로 다른 학문적 배경을 가진 평가자들로 구성된 혁신 검토 위원회를 통해 검토 합의를 달성함으로써, 여러 지표에 걸친 다차원적 분리 평가를 가능하게 합니다. 우리는 InnoEval의 성능을 벤치마크하기 위해 권위 있는 동료 검토 제출 자료에서 파생된 포괄적인 데이터셋을 구축했습니다. 실험 결과, InnoEval이 포인트별, 페어별, 그룹별 평가 과제에서 기준 모델들을 지속적으로 능가하며, 인간 전문가의 판단 패턴 및 합의와 높은 일치도를 보여줍니다.
데이터 품질이 파운데이션 모델의 성능을 결정하지만, 체계적인 처리 프레임워크는 부재한 실정이다. 본 연구에서는 데이터-모델 공진화(共進化)를 개념화하는 10단계 분류 체계(L0-L9)인 데이터 다윈니즘(Data Darwinism)을 소개한다. 즉, 고도화된 모델이 차세대 시스템을 위한 우수한 데이터를 생성한다는 것이다. 우리는 이를 과학 문헌 데이터에 적용하여 900B 토큰 규모의 Darwin-Science 코퍼스(L0-L5)를 구축하여 검증하였다. 원시 과학 텍스트에서 식별된 학습 가능성(learnability) 격차는 최첨단 LLM을 활용하여 추론 과정과 전문 용어를 명시화하는 L4(생성적 정제) 및 L5(인지적 완성) 단계를 통해 해소되었다. 엄격한 출처 추적을 위해 daVinci-origin-3B/7B 모델을 과학 콘텐츠를 배제한 상태에서 처음부터 사전 훈련하여 오염되지 않은 기준 모델을 구축하였다. 600B 토큰에 걸친 지속적 사전 훈련 후, Darwin-Science는 20개 이상의 벤치마크에서 기준 모델 대비 +2.12(3B) 및 +2.95(7B) 점수로 우수한 성능을 보였으며, 해당 도메인에 정렬된 과제에서는 +5.60 및 +8.40 점수까지 성능이 향상되었다. L5까지의 체계적 진행은 총 +1.36의 성능 향상을 가져와 상위 수준의 데이터 처리가 잠재된 데이터 가치를 활성화함을 확인하였다. 우리는 원칙에 기반한 공진화적 개발을 지원하기 위해 Darwin-Science 코퍼스와 daVinci-origin 모델을 공개한다.
통합 멀티모달 대규모 언어 모델(MLLM)은 높은 정밀도의 재구성, 복잡한 의미 추출, 생성 적합성을 동시에 지원하는 시각적 표현이 필요합니다. 그러나 기존 시각적 토크나이저는 일반적으로 단일 프레임워크 내에서 이러한 상충되는 목표를 충족시키는 데 어려움을 겪습니다. 본 논문에서는 대규모 이진 코드북(2^{128})을 활용하여 이러한 격차를 해소하기 위해 설계된 통합 이산 토크나이저인 UniWeTok을 소개합니다. 학습 프레임워크 측면에서는 이산 토큰의 의미 추출 및 생성 사전 지식을 향상시키기 위해 Pre-Post Distillation과 Generative-Aware Prior를 도입했습니다. 모델 아키텍처 측면에서는 SigLu 활성화 함수를 적용한 합성곱-어텐션 하이브리드 아키텍처를 제안합니다. SigLu 활성화는 인코더 출력을 제한하고 의미 추출 과정을 안정화할 뿐만 아니라 토큰 엔트로피 손실과 약속 손실 간의 최적화 충돌을 효과적으로 해결합니다. 또한 다양한 이미지 해상도와 인간 얼굴, 텍스트 콘텐츠와 같은 인식에 민감한 시나리오에서 UniWeTok의 적응성을 향상시키도록 설계된 3단계 학습 프레임워크를 제안합니다. ImageNet에서 UniWeTok은 현저히 낮은 학습 계산량(학습 토큰: UniWeTok 33B vs. REPA 262B)을 요구하면서도 최첨단 이미지 생성 성능(FID: UniWeTok 1.38 vs. REPA 1.42)을 달성했습니다. 일반 영역에서 UniWeTok은 멀티모달 이해, 이미지 생성(DPG Score: UniWeTok 86.63 vs. FLUX.1 [Dev] 83.84), 편집(GEdit Overall Score: UniWeTok 5.09 vs. OmniGen 5.06)을 포함한 광범위한 작업에서 매우 경쟁력 있는 성능을 입증했습니다. 통합 토크나이저와 MLLM에 대한 커뮤니티의 탐구를 지원하기 위해 코드와 모델을 공개합니다.
다중모드 대규모 언어 모델(MLLM)이 실제로 물리적 역학에 대해 추론하는지를 평가하는 것은 여전히 어려운 과제입니다. 기존 벤치마크 대부분은 시각 질의응답(VQA) 및 기대 위반(VoE)과 같은 인식 중심 프로토콜에 의존하는데, 이러한 방식은 명시적이고 검증 가능한 물리적 가설을 세우지 않아도 답변이 가능한 경우가 많습니다. 우리는 시각 관측을 통해 실행 가능한 시뮬레이터 코드를 생성하도록 요구함으로써 물리적 추론을 평가하는 실행 기반 프레임워크인 VisPhyWorld를 제안합니다. 실행 가능한 코드를 생성함으로써 추론된 세계 표현은 직접 검사, 편집 및 반증이 가능합니다. 이는 물리적 추론과 렌더링을 분리합니다. 이 프레임워크를 기반으로 108개의 물리적 템플릿에서 도출된 209개의 평가 장면과 모델의 외관 재현 및 물리적으로 타당한 운동 재생성 능력을 체계적으로 평가하는 프로토콜로 구성된 VisPhyBench를 소개합니다. 우리의 파이프라인은 벤치마크에서 97.7%의 유효한 재구성 동영상을 생성합니다. 실험 결과, 최첨단 MLLM은 강력한 의미론적 장면 이해 능력을 보이지만, 물리적 매개변수를 정확히 추론하고 일관된 물리적 역학을 시뮬레이션하는 데는 어려움을 겪는 것으로 나타났습니다.
본 논문은 양자 계산을 일급 실행 옵션으로 취급하는 양자 데이터베이스(Qute)를 제안한다. 양자 알고리즘을 고전 컴퓨터에서 실행하거나 기존 데이터베이스를 양자 시뮬레이션에 맞게 수정하는 기존의 시뮬레이션 기반 방식과 달리, Qute는 (i) 확장된 형태의 SQL을 게이트 효율적인 양자 회로로 컴파일하고, (ii) 양자와 고전 실행 계획을 동적으로 선택하는 하이브리드 최적화기를 활용하며, (iii) 선택적 양자 인덱싱을 도입하고, (iv) 현재의 큐비트 제약을 완화하기 위해 충실도 보존 저장 방식을 설계한다. 또한 양자 네이티브 데이터베이스로의 3단계 진화 로드맵을 제시한다. 마지막으로 실제 양자 프로세서(origin_wukong)에 Qute를 배포하여 대규모에서 고전 베이스라인을 능가함을 보였으며, 오픈소스 프로토타입을 https://github.com/weAIDB/Qute 에 공개한다.
LLM 기반 에이전트 시스템 구성은 방대한 조합 설계 공간에서 워크플로우, 도구, 토큰 예산 및 프롬프트를 선택하는 작업을 포함하며, 현재는 일반적으로 고정된 대형 템플릿이나 수동으로 조정된 휴리스틱으로 처리됩니다. 이는 동일한 번거로운 구성이 쉬운 입력 쿼리와 어려운 입력 쿼리 모두에 자주 적용되기 때문에 취약한 동작과 불필요한 컴퓨팅 리소스 사용으로 이어집니다. 우리는 에이전트 구성을 쿼리 단위 의사 결정 문제로 공식화하고, 강화 학습을 사용하여 이러한 구성을 동적으로 맞춤화하는 경량 계층적 정책을 학습하는 ARC(Agentic Resource & Configuration learner)를 소개합니다. 추론 및 도구 활용 질의응답을 아우르는 여러 벤치마크에서, 학습된 정책은 강력하게 수동 설계된 기준 모델 및 다른 기준 모델들을 꾸준히 능가하며, 작업 정확도를 최대 25% 높이는 동시에 토큰 및 실행 시간 비용도 절감했습니다. 이러한 결과는 쿼리별 에이전트 구성을 학습하는 것이 '일률적인' 설계에 대한 강력한 대안임을 입증합니다.
웹 에이전트는 일반화를 위해 대규모 궤적 데이터가 필요하지만, 실제 환경에서의 학습은 네트워크 지연,速率 제한 및 안전 위험으로 인해 제약을 받습니다. 본 연구에서는 대규모로 훈련된 최초의 오픈 웹 시뮬레이션 환경인 WebWorld 시리즈를 소개합니다. 기존 시뮬레이터가 수천 개의 궤적으로 제한된 폐쇄형 환경에 머물러 있는 반면, WebWorld는 확장 가능한 데이터 파이프라인을 활용하여 100만 건 이상의 오픈 웹 상호작용으로 학습하며, 추론 능력, 다중 형식 데이터 처리, 30단계 이상의 장기 시뮬레이션을 지원합니다. 내적 평가를 위해 9개 차원을 아우르는 이중 지표의 WebWorld-Bench를 도입했으며, WebWorld는 Gemini-3-Pro에 버금가는 시뮬레이션 성능을 달성했습니다. 외적 평가에서는 WebWorld로 합성된 궤적으로 훈련된 Qwen3-14B가 WebArena에서 +9.2% 성능 향상을 보여 GPT-4o에 준하는 수준에 도달했습니다. WebWorld는 효과적인 추론 시점 탐색을 가능하게 하여 세계 모델로서 GPT-5를 능가합니다. 웹 시뮬레이션을 넘어 WebWorld는 코드, GUI, 게임 환경으로의 교차 도메인 일반화 능력을 보여주며, 세계 모델 구축을 위한 재현 가능한 방법론을 제시합니다.
다양한 영역의 계획 및 도구 활용 능력이 점차 고도화되는 멀티모드 대규모 언어 모델(MLLMs)은 개방형 환경에서 멀티모드 웹 브라우징 및 심층 검색을 수행할 수 있는 자율 에이전트로 진화하고 있습니다. 그러나 기존 멀티모드 브라우징 벤치마크는 과제 복잡성, 증거 접근성, 평가 세분화 측면에서 여전히 제한적이어서 심층 검색 능력에 대한 포괄적이고 재현 가능한 평가를 저해하고 있습니다. 이러한 한계를 해결하기 위해 우리는 다양한 영역에 걸친 300개의 신중하게 선별된 도전적 질문으로 구성된 새로운 벤치마크인 BrowseComp-V^3를 소개합니다. 이 벤치마크는 심층적, 다단계, 크로스모드 다중 홉 추론에 중점을 두며, 핵심 증거는 웹 페이지 내 및 페이지 간 텍스트와 시각 모드에 걸쳐 상호 연계됩니다. 모든 지원 증거는 공정성과 재현성을 보장하기 위해 공개적으로 검색 가능해야 합니다. 최종 답변 정확도 외에도 전문가 검증을 거친 하위 목표 기반 프로세스 평가 메커니즘을 도입하여 중간 추론 행동에 대한 세분화된 분석과 능력 경계에 대한 체계적인 특성화를 가능하게 합니다. 또한 다양한 웹 검색 및 시각 인식 도구를 통합한 통합 멀티모드 브라우징 에이전트 프레임워크인 OmniSeeker를 제안합니다. 포괄적인 실험 결과, 최첨단 모델조차도 우리 벤치마크에서 36%의 정확도만 달성하여 멀티모드 정보 통합 및 세밀한 인식 분야의 심각한 병목 현상을 드러냈습니다. 우리의 결과는 현실 세계 환경에서의 견고한 멀티모드 심층 검색과 현재 모델 능력 간의 근본적인 격차를 부각시킵니다.
다양한 교차 모드 작업 해결을 위한 범용 멀티모달 임베딩(UME) 발전에 멀티모달 대규모 언어 모델(MLLM) 활용이 핵심적 역할을 하고 있다. 최근 연구에 따르면 생성형 사고 연쇄(CoT) 추론을 접목하면 판별식 방법론 대비 작업 특화 표현을 크게 향상시킬 수 있다. 그러나 기존 생성형 임베딩 방법론에서 생성된 추론 CoT는 질의에 대한 텍스트 분석에 국한되어 있으며 대상 검색과 무관한 한계가 있다. 이러한 한계를 해결하기 위해 우리는 추적 가능 CoT(T-CoT) 생성을 위해 Reasoner를 최적화하는 임베더 주도 강화 학습(EG-RL)을 통합한 추론 주도 UME 프레임워크를 제안한다. 주요 기여점은 세 가지이다: (1) 임베더가 Reasoner에 명시적 감독을 제공하여 생성된 CoT 추적이 임베딩 작업과 정렬되도록 보장하는 EG-RL 프레임워크를 설계하였다. (2) 검색 관련 요소에 집중하기 위한 핵심 멀티모달 단서를 추출하고 임베더에 멀티모달 입력을 제공하는 T-CoT를 도입하였다. (3) 제한된 계산 자원으로도 우리 프레임워크는 MMEB-V2와 UVRB 벤치마크 모두에서 선도적 임베딩 모델을 능가한다. 구조화된 추론에 멀티모달 증거를 통합하고 검색 지향 정렬을 결합함으로써 교차 모드 의미 일관성을 효과적으로 강화하며, 모델의 세분화된 매칭 능력과 복잡한 시나리오 간 일반화 성능을 향상시킨다. 본 연구는 표적 추론 최적화가 멀티모달 임베딩 품질을 크게 개선할 수 있음을 입증하며, 추론 주도 UME 개발을 위한 실용적이고 효율적인 해결책을 제시한다.
확산 언어 모델(dLLM)은 최근 자기회귀적 LLM의 유망한 대안으로 부상했습니다. 최신 연구들은 이를 다중모드 이해 및 생성 작업으로 더욱 확장했습니다. 본 연구에서는 다중모드 범용 추론 dLLM인 LaViDa-R1을 제안합니다. 기존 연구들이 작업별 강화 학습을 통해 추론 dLLM을 구축하는 것과 달리, LaViDa-R1은 다양한 다중모드 이해 및 생성 작업을 통합된 방식으로 포함합니다. 특히 LaViDa-R1은 지도 미세 조정(SFT)과 다중 작업 강화 학습(RL)을 원활하게 통합하는 새로운 통합 사후 학습 프레임워크로 구축되었습니다. 효과성과 확장성을 향상시키기 위해 응답 강제화, 트리 탐색, 상호 보완적 가능도 추정 등 여러 새로운 학습 기법을 활용합니다. 다양한 실험을 통해 LaViDa-R1이 시각적 수학 추론, 추론 집약적 기반화, 이미지 편집 등 광범위한 다중모드 작업에서 강력한 성능을 보임을 입증했습니다.
장기적인 시간 축에서 공간적 세계 일관성을 유지하는 것은 카메라 제어 가능 비디오 생성의 핵심 과제로 남아 있습니다. 기존 메모리 기반 접근법들은 일반적으로 역사 데이터에서 재구성된 기하학을 통해 앵커 비디오를 렌더링하여 전역적으로 재구성된 3D 장면을 조건으로 생성합니다. 그러나 다중 뷰에서 전역 3D 장면을 재구성할 때는 포즈 및 깊이 추정 오류로 인해 동일한 표면이 각 뷰마다 약간 다른 3D 위치에 재구성되는 교차 뷰 정렬 불일치가 불가피하게 발생합니다. 이러한 불일치가 융합되면 노이즈가 있는 기하학으로 누적되어 조건 신호를 오염시키고 생성 품질을 저하시킵니다. 우리는 단일의 정렬되지 않은 전역 메모리를 여러 개의 깨끗한 지역 기하학적 메모리로 대체하고 이들 간의 교차 뷰 불일치를 조정하는 방법을 학습하는 메모리 증강 비디오 생성 프레임워크인 AnchorWeave를 소개합니다. 이를 위해 AnchorWeave는 목표 궤적과 정렬된 커버리지 주도 지역 메모리 검색을 수행하고, 생성 과정 중 다중 앵커 위빙 컨트롤러를 통해 선택된 지역 메모리들을 통합합니다. 광범위한 실험을 통해 AnchorWeave가 우수한 시각적 품질을 유지하면서 장기적 장면 일관성을 크게 향상시킴을 입증하였으며, 애블레이션 및 분석 연구를 통해 지역 기하학적 조건화, 다중 앵커 제어, 커버리지 주도 검색의 효과를 추가로 검증하였습니다.
대화형 이미지 분할은 추상적이고 의도 기반의 개념을 픽셀 단위 정확도의 마스크로 구현합니다. 기존의 참조 이미지 기반화 연구는 범주적 및 공간적 질의(예: "가장 왼쪽에 있는 사과")에 집중한 반면, 기능적 및 물리적 추론(예: "칼을 안전하게 보관할 수 있는 곳은 어디인가요?")을 간과해 왔습니다. 본 연구는 이러한 격차를 해소하며, 개체, 공간 관계, 의도, 어포던스, 기능, 안전 및 물리적 추론을 포괄하는 벤치마크인 대화형 이미지 분할(CIS)과 ConverSeg를 소개합니다. 또한 강력한 분할 사전 지식과 언어 이해를 융합한 ConverSeg-Net과 인간의 감독 없이 프롬프트-마스크 쌍을 생성하는 AI 기반 데이터 엔진을 제시합니다. 우리는 현재의 언어 기반 분할 모델이 CIS에 부적합한 반면, 우리의 데이터 엔진으로 훈련된 ConverSeg-Net이 ConverSeg에서 상당한 성능 향상을 달성하고 기존 언어 기반 분할 벤치마크에서도 강력한 성능을 유지함을 보여줍니다. 프로젝트 웹페이지: https://glab-caltech.github.io/converseg/
인간 동작 이해 및 생성은 컴퓨터 비전과 로봇공학 분야에서 중요하지만, 여전히 추론 능력과 테스트 시점 계획 수립 측면에서 한계가 있습니다. 본 연구에서는 감독 미세 조정과 검증 가능한 보상을 활용한 강화 학습으로 훈련된 통합 멀티모달 모션 모델인 MoRL을 제안합니다. 과제 특화형 보상 설계는 이해를 위한 의미론적 정렬과 추론 일관성, 생성물을 위한 물리적 타당성과 텍스트-모션 일관성을 결합하여 논리적 추론과 지각적 현실감을 모두 향상시킵니다. 추론 성능을 더욱 향상시키기 위해 단계별 계획 수립과 성찰을 가능하게 하는 테스트 시점 추론 방법인 Chain-of-Motion(CoM)을 도입했습니다. 또한 모션 시퀀스와 추론 흔적 및 행동 설명을 정렬하기 위한 두 가지 대규모 CoT 데이터셋(MoUnd-CoT-140K 및 MoGen-CoT-140K)을 구축했습니다. HumanML3D와 KIT-ML에서의 실험 결과, MoRL이 최첨단 기준선 대비 상당한 성능 향상을 달성함을 보여줍니다. 코드: https://github.com/AIGeeksGroup/MoRL. 웹사이트: https://aigeeksgroup.github.io/MoRL.
본 논문에서는 지시 기반 이미지 편집을 위한 디퓨전 트랜스포머인 FireRed-Image-Edit을 제안하며, 데이터 큐레이션, 학습 방법론, 평가 설계의 체계적인 최적화를 통해 최첨단 성능을 달성합니다. 다양한 출처의 9억 개 텍스트-이미지 쌍과 7억 개 이미지 편집 쌍으로 구성된 16억 개 샘플의 학습 코퍼스를 구축했습니다. 엄격한 정제, 계층화, 자동 라벨링 및 2단계 필터링 과정을 거쳐 생성과 편집 간 균형이 잡힌 1억 개 이상의 고품질 샘플을 선별하여 강력한 의미론적 coverage와 지시 정렬을 보장합니다. 우리의 다단계 학습 파이프라인은 사전 학습, 지도 미세 조정, 강화 학습을 통해 편집 능력을 점진적으로 구축합니다. 데이터 효율성을 향상시키기 위해 가변 해상도 배치 처리를 위한 다중 조건 인식 버킷 샘플러와 동적 프롬프트 재색인을 통한 확률적 지시 정렬을 도입했습니다. 최적화 안정화와 제어 가능성 향상을 위해 DPO를 위한 비대칭 그래디언트 최적화, 텍스트 편집을 위한 레이아웃 인식 OCR 보상이 적용된 DiffusionNFT, 그리고 정체성 보존을 위한 미분 가능 일관성 손실을 제안합니다. 또한 미화 및 저수준 향상 작업 등 새로 도입된 15개 편집 범주를 아우르는 포괄적인 벤치마크 REDEdit-Bench를 구축했습니다. REDEdit-Bench와 공개 벤치마크(ImgEdit, GEdit)에서의 광범위한 실험을 통해 오픈소스 및 독점 시스템 대비 경쟁력 있거나 우수한 성능을 입증합니다. 향후 연구를 지원하기 위해 코드, 모델 및 벤치마크 제품군을 공개합니다.
AI 코딩 에이전트는 기능 개발, 디버깅, 테스팅과 같은 작업을 수행함으로써 소프트웨어 공학을 빠르게 변화시키고 있습니다. 이러한 영향력이 커지고 있음에도 불구하고, 연구 커뮤니티는 실제 프로젝트에서 이러한 에이전트가 어떻게 사용되는지를 포착하는 포괄적인 데이터셋을 갖추지 못하고 있습니다. 이러한 격차를 해소하기 위해 우리는 실제 GitHub 저장소에서 에이전트가 작성한 풀 리퀘스트(Agentic-PR)에 초점을 맞춘 대규모 데이터셋인 AIDev를 소개합니다. AIDev는 OpenAI Codex, Devin, GitHub Copilot, Cursor, Claude Code라는 5가지 에이전트가 생성한 932,791개의 Agentic-PR을 집계합니다. 이러한 PR들은 116,211개의 저장소에 걸쳐 있으며 72,189명의 개발자가 관여했습니다. 또한 AIDev는 별표 100개 이상을 받은 2,807개 저장소의 33,596개 Agentic-PR로 구성된 정제된 하위 집합을 포함하며, 여기에는 코멘트, 리뷰, 커밋, 관련 이슈 등의 추가 정보가 제공됩니다. 이 데이터셋은 새로운 시대의 소프트웨어 공학에서 AI 도입, 개발자 생산성, 인간-AI 협업에 대한 향후 연구의 기초를 마련합니다. > AI 에이전트, 에이전트형 AI, 코딩 에이전트, 에이전트형 코딩, 에이전트형 소프트웨어 공학, 에이전트형 엔지니어링
LM-Lexicon은 희소 전문가 혼합 아키텍처를 활용하여 데이터 클러스터링, 의미 전문가 학습 및 모델 병합을 통합한 혁신적인 정의 모델링 접근법을 소개합니다. 정의 모델링 과제를 특화된 의미 영역으로 분해하고, 소규모 언어 모델을 해당 영역 전문가로 학습시킴으로써, LM-Lexicon은 널리 사용되는 5개 벤치마크에서 기존 방법 대비 상당한 성능 향상(기존 최첨단 모델 대비 BLEU 점수 +7%)을 달성했습니다. 실증적으로 우리는 다음을 입증합니다: 1) 클러스터링 전략은 정의 품질에서 약 10%의 향상을 보이며 세분화된 전문가 특화를 가능하게 합니다; 2) 의미 인식 도메인 수준 라우팅 메커니즘은 기존 토큰 수준 라우팅보다 높은 전문가 효율성(+1%)을 달성합니다; 3) 테스트 시점 연산량 및 의미 전문가 규모 확장을 통해 추가적인 성능 향상을 얻을 수 있습니다. 본 연구는 정의 모델링을 발전시키는 동시에 의미 중심 응용 프로그램을 위한 효율적인 언어 모델 개발에 대한 통찰을 제공합니다.
소니피케이션(sonification)은 데이터를 비언어적 음향으로 매핑하는 기법으로, 복잡한 동역학 시스템을 표현하기 위해 아직 충분히 탐구되지 않은 채널을 제공한다. 본 연구에서는 저차원 기후 카오스의 대표적 사례인 엘니뇨-남방진동(ENSO)을 문화적 맥락에 기반한 소니피케이션의 테스트 케이스로 삼아 복잡 시스템 진단을 통해 평가한다. 니노 3.4 해수면 온도 편차 지수(1870–2024)의 매개변수 매핑 소니피케이션을 활용하여 ENSO 변동성을 자바 전통 가믈란의 두 가지 5음계 체계(펠로그와 슬렌드로)에 네 가지 작곡 전략으로 인코딩한 후, 결과 음향을 2차원 음향 위상 공간의 궤적으로 분석한다. 재귀 기반 진단, 볼록 껍질 기하학, 결합 분석을 통해 소니피케이션 파이프라인이 주요 동역학적 특성을 보존함을 확인한다: 교번 모드는 ENSO의 준주기성을 반영하여 가장 높은 궤적 재귀율을 생성하며, 중층 폴리포니 모드는 가장 넓은 위상 공간 영역을 탐색한다. 두 음계 계통은 스펙트럼 밝기와 에너지 간에 질적으로 뚜렷한 결합 체계를 유도하는데, 펠로그에서는 주로 역상 관계를 보이지만 슬렌드로에서는 거의 독립적이다. 위상 공간 궤적 분석은 복잡 시스템 맥락 내에서 소니피케이션 설계를 비교하기 위한 엄밀한 기하학적 프레임워크를 제공한다. 지각적 검증은 여전히 필요하며, 본 연구는 이러한 매핑을 평가하기 위한 동역학 시스템 방법론을 제안한다.
고충실도 생성형 비디오 편집은 사전 학습된 비디오 파운데이션 모델을 활용하여 화질이 크게 향상되었습니다. 그러나 이러한 모델들은 인페인팅 마스크의 크기와 관계없이 전체 비디오 컨텍스트를 비효율적으로 처리하도록 설계된 경우가 많아, 희소하고 지역적인 편집에도 높은 계산 비용이 주요 병목 현상으로 작용합니다. 본 논문에서는 계산을 필요한 부분에만 집중하는 효율적인 비디오 인페인팅 제어 프레임워크인 EditCtrl을 소개합니다. 우리의 접근 방식은 마스킹된 토큰만을 대상으로 작동하여 편집 규모에 비례하는 계산 비용을 산출하는 새로운 지역 비디오 컨텍스트 모듈을 특징으로 합니다. 이렇게 지역 우선 생성은 최소의 오버헤드로 비디오 전체의 컨텍스트 일관성을 보장하는 경량의 시간적 전역 컨텍스트 임베더에 의해 지휘됩니다. EditCtrl은 최신 생성형 편집 방법보다 계산 효율성이 10배 높을 뿐만 아니라, 전체 주의(Full-Attention)를 위해 설계된 방법들 대비 편집 품질까지 향상시킵니다. 마지막으로, EditCtrl이 텍스트 프롬프트를 이용한 다중 영역 편집 및 자기회귀적 콘텐츠 전파와 같은 새로운 기능을 가능하게 하는 방법을 보여줍니다.
마스크 확산 모델(MDM)에서 계획-채움 디코딩 방식은 수학 및 코드 추론 분야에서 잠재력을 보이지만, 슬롯 채움 순서에 대한 민감도가 높아 결과 변동성이 큰 한계가 있습니다. 본 연구에서는 슬롯 선택 문제를 의사 결정 과정으로 공식화하고 몬테카를로 트리 탐색(MCTS)을 통해 채움 순서를 최적화하는 McDiffuSE 프레임워크를 제안합니다. McDiffuSE는 확정 전 부분 완성본을 평가하는 선행 시뮬레이션을 활용하여 생성 순서의 조합 공간을 체계적으로 탐색합니다. 실험 결과, 자동회귀 기준 모델 대비 평균 3.2%, 기준 계획-채움 방식 대비 8.0%의 성능 향상을 보였으며, MBPP에서 19.5%, MATH500에서 4.9%의 두드러진 개선 효과를 확인했습니다. 분석 결과, McDiffuSE가 주로 순차적 생성을 따르지만 비순차적 생성을 통합하는 것이 성능 극대화에 필수적임을 발견했습니다. 또한 모델의 신뢰도 편향을 극복하고 효과적인 순서를 발견하기 위해서는 시뮬레이션 횟수 증가보다 탐색 상수 확대가 필요함을 관찰했습니다. 이러한 결과는 MCTS 기반 계획이 MDM의 생성 품질 향상을 위한 효과적 접근법임을 입증합니다.
단일 세포 RNA 시퀀싱(scRNA-seq)은 복잡한 조직에 대한 아틀라스 규모의 프로파일링을 가능하게 하여 희귀 계통과 과도기적 상태를 밝혀냅니다. 그러나 생물학적으로 타당한 세포 신원을 할당하는 것은 여전히 병목 현상으로 남아 있습니다. 이는 마커가 조직 및 상태에 의존적이며, 새로운 상태는 참조 자료가 부족하기 때문입니다. 본 연구에서는 전문가의 판단 방식을 모방하여 제로샷(zero-shot) 세포 유형 주석을 수행하는 AI 에이전트인 CellMaster를 제안합니다. 기존 자동화 도구와 달리, CellMaster는 LLM(예: GPT-4o)에 인코딩된 지식을 활용하여 사전 훈련이나 고정된 마커 데이터베이스 없이 해석 가능한 근거와 함께 실시간 주석을 수행합니다. 8개 조직에 걸친 9개 데이터셋에서 CellMaster는 자동 모드에서 최고 성능 기준 방법(CellTypist 및 scTab 포함) 대비 정확도를 7.1% 향상시켰습니다. 인간 연계(Human-in-the-loop) 정제 모드에서는 이 장점이 18.6%로 증가했으며, 특히 아형(subtype) 집단에서는 22.1%의 성능 향상을 보였습니다. 본 시스템은 기준 방법들이 종종 실패하는 희귀 및 새로운 세포 상태에서 특히 뛰어난 강점을 보입니다. 소스 코드와 웹 애플리케이션은 https://github.com/AnonymousGym/CellMaster에서 이용할 수 있습니다.
본 리소스 논문에서는 41개 다양한 언어로 구성된 통시적 코퍼스 오픈 컬렉션인 DHPLT를 소개한다. DHPLT는 웹 크롤링 방식의 HPLT 데이터셋을 기반으로 하며, 웹 크롤링 타임스탬프를 문서 생성 시점의 근사 신호로 활용한다. 본 컬렉션은 2011-2015년, 2020-2021년, 2024년-현재의 세 시기를 아우르며(각 언어별 시기당 100만 개 문서), 선정된 대상 단어에 대한 사전 계산된 단어 유형/토큰 임베딩 및 어휘 대체 항목을 추가로 제공한다. 동시에 다른 연구자들이 동일 데이터셋을 활용해 자체 대상 단어를 도출할 수 있는 개방성을 유지한다. DHPLT는 (고자원 언어 수십 개를 넘어선) 의미 변화 모델링을 위한 다국어 통시적 코퍼스의 현재 부재를 메우는 것을 목표로 하며, 해당 분야의 다양한 새로운 실험 설정을 위한 길을 연다. 본 논문에서 설명하는 모든 리소스는 언어별로 정렬되어 https://data.hplt-project.org/three/diachronic/에서 이용 가능하다.
실내 음향 분석은 건축 설계, 오디오 엔지니어링, 언어 명료도 평가, 청각 연구에서 핵심적인 역할을 수행합니다. 잔향 시간, 선명도, 언어전달지수와 같은 표준화된 지표들이 존재함에도 불구하고, 엄격한 신호 처리와 직관적인 시각화를 결합한 접근성 높은 도구는 여전히 부족한 실정입니다. 본 논문은 포괄적인 실내 임펄스 응답 분석을 위한 오픈소스 웹 기반 플랫폼인 AcoustiVision Pro를 소개합니다. 본 시스템은 업로드되거나 데이터셋에서 획득한 RIR로부터 12가지의 독립적인 음향 매개변수를 계산하며, 초기 반사음에 대한 인터랙티브 3D 시각화를 제공하고, 워터폴 플롯을 통해 주파수 종속 감쇠 특성을 생성하며, ANSI S12.60 및 ISO 3382를 포함한 국제 표준 준수 여부를 확인합니다. 또한 Hugging Face에 호스팅된 동반 데이터셋인 RIRMega 및 RIRMega Speech를 소개하는데, 이는 완전한 메타데이터를 포함하는 수천 개의 시뮬레이션된 실내 임펄스 응답으로 구성되어 있습니다. 본 플랫폼은 FFT 기반 컨볼루션을 통한 실시간 음향 가상화를 지원하며, 엔지니어링 문서화에 적합한 상세한 PDF 보고서를 생성하고, 추가 분석을 위한 CSV 데이터 내보내기 기능을 제공합니다. 본 논문은 각 음향 지표의 수학적 기초를 설명하고, 시스템 아키텍처를 상세히 기술하며, 교실 음향, 의료 시설 설계, 녹음 스튜디오 평가 등 다양한 응용 분야에서 플랫폼의 유용성을 입증하는 예비 사례 연구를 제시합니다.
검색 증대 생성(RAG)은 기업용 챗봇, 의료 지원 시스템, 에이전트 메모리 관리 등 지식 집약적 애플리케이션의 핵심 기술로 자리 잡았습니다. 그러나 최근 연구에 따르면 지식 추출 공격이 악의적으로 구성된 질의를 통해 민감한 지식 베이스 내용을 복구할 수 있어, 지식 재산권 침해 및 개인정보 유출에 대한 심각한 우려가 제기되고 있습니다. 기존 연구에서는 개별 공격 및 방어 기법을 탐구했으나, 이질적인 검색 임베딩 방식, 다양한 생성 모델, 비표준화된 평가 지표와 불일치하는 데이터셋에 기반한 분석으로 인해 연구 현황이 파편화되어 있습니다. 이러한 격차를 해결하기 위해 본 논문에서는 RAG 시스템에 대한 지식 추출 공격 최초의 체계적 벤치마크를 소개합니다. 저자의 벤치마크는 다양한 공격 및 방어 전략, 대표적인 검색 임베딩 모델, 오픈소스와 클로즈드소스 생성기를 포괄하며, 다중 데이터셋에 걸쳐 표준화된 프로토콜로 통합 실험 프레임워크 하에 평가를 수행합니다. 실험 환경을 통합하고 재현 가능하며 비교 가능한 평가를 제공함으로써, 이 벤치마크는 신흥 지식 추출 위협에 대응하는 개인정보 보호 RAG 시스템 개발을 위한 실행 가능한 통찰과 실용적 기반을 마련합니다. 구현 코드는 여기에서 확인할 수 있습니다.
대규모 언어 모델(LLM) 판단은 의미 정보를 더 잘 포착하고, 추론 능력이 뛰어나며, 파라프레이징에 더 강건하기 때문에 요약 같은 작업에서 전통적인 알고리즘 기반 평가 지표와 함께 종종 사용되어 왔습니다. 그러나 LLM 판단은 길이와 순서 등에 대한 편향을 보이며, 다양한 적대적 입력 프롬프트에 취약합니다. 최근 연구에서 이러한 편향을 조사했지만, 명확히 정의된 중첩 지표와 연관하여 보다 세부적인 수준에서 분석한 연구는 거의 없었습니다. 본 연구에서는 요약 영역에서 인간이 작성한 응답과의 중첩 정도에 따른 LLM 판단 편향 분석을 제공합니다. 우리는 10억에서 120억 개의 매개변수를 가진 Gemma 3 및 LLaMA 3 변형 모델을 포함한 9개의 최신 LLM을 실험했습니다. 그 결과, 평가 대상 요약문 간 유사도(ROUGE 및 BLEU로 측정)가 감소함에 따라 LLM 판단이 인간이 작성한 요약문보다 다른 LLM이 생성한 요약문을 점점 더 선호하며, 이러한 패턴은 한 모델을 제외한 모든 테스트 모델에서 나타나고, 모델 자체의 위치 편향과 무관하게 존재함을 발견했습니다. 또한 모델들은 제한된 중첩을 가진 요약문을 평가하는 데에도 어려움을 겪는 것으로 나타나, 요약 영역에서 LLM을 판단자로 활용할 때는 단순 비교를 넘어선 기법에 의존해야 함을 시사합니다.
대규모 언어 모델의 능력이 지속적으로 발전함에 따라 이들의 악용 가능성도 함께 증가하고 있습니다. 클로즈드소스 모델은 일반적으로 외부 방어 수단에 의존하는 반면, 오픈웨이트 모델은 유해한 행동을 완화하기 위해 주로 내부 안전장치에 의존해야 합니다. 기존 레드팀링 연구는 주로 입력 기반 재킹과 매개변수 수준 조작에 집중해 왔습니다. 그러나 오픈웨이트 모델은 생성 시작 전에 공격자가 초기 응답 토큰을 미리 정의할 수 있는 프리필 기능을 기본적으로 지원합니다. 이러한 공격 경로의 잠재력에도 불구하고, 이에 대한 체계적인 연구는 거의 이루어지지 않았습니다. 본 연구는 현재까지 가장 광범위한 프리필 공격 실증 연구를 제시하며, 여러 모델 계열과 최신 오픈웨이트 모델을 대상으로 20개 이상의 기존 및 신규 공격 전략을 평가합니다. 연구 결과에 따르면, 프리필 공격은 현존하는 모든 주요 오픈웨이트 모델에 대해 지속적으로 효과적인 것으로 나타나, 배치에 중대한 영향을 미치는 중요하면서도 이전까지 충분히 탐구되지 않은 취약점이 존재함을 보여줍니다. 일부 대규모 추론 모델은 일반적인 프리필 공격에 대해 어느 정도 견고성을 보이지만, 특정 모델에 맞춤화된 전략에는 여전히 취약합니다. 본 연구 결과는 오픈웨이트 LLM 개발자가 프리필 공격에 대한 방어 수단을 우선적으로 고려해야 할 필요성을 강조합니다.
LLM 기반 에이전트가 공개 웹에서 사용자의 작업을 자동화하기 시작했으며, 종종 이메일 및 캘린더와 같은 사용자 리소스에 접근합니다. 통제된 챗봇 환경에서 질문에 답하는 표준 LLM과 달리, 웹 에이전트는 "개방된 환경"에서 제3자와 상호작용하며 행동 흔적을 남깁니다. 따라서 우리는 다음과 같은 질문을 던집니다: 웹 에이전트가 실시간 웹사이트에서 사용자를 대신해 작업을 수행할 때 사용자 리소스를 어떻게 처리할까요? 본 논문에서는 '자연적 에이전트 과잉 공유' — 웹 상의 에이전트 행동 흔적을 통해 작업과 무관한 사용자 정보가 의도치 않게 유출되는 현상 — 를 정형화합니다. 우리는 채널(콘텐츠 대 행동)과 직접성(명시적 대 암묵적)이라는 두 차원을 따라 과잉 공유를 특징짓는 SPILLage 프레임워크를 소개합니다. 이 분류 체계는 중요한 맹점을 드러냅니다: 기존 연구가 텍스트 유출에 집중하는 동안, 웹 에이전트는 모니터링될 수 있는 클릭, 스크롤, 탐색 패턴을 통해 행동적으로도 과잉 공유합니다. 우리는 실시간 이커머스 사이트에서 180개 작업을 벤치마크하며, 작업 관련 속성과 무관한 속성을 구분하는 실제 기준 주석을 적용했습니다. 두 가지 에이전트 프레임워크와 세 가지 백본 LLM에 걸친 1,080회 실행을 통해 과잉 공유가 만연하며, 행동적 과잉 공유가 콘텐츠 과잉 공유보다 5배 더 우세함을 입증했습니다. 이 효과는 프롬프트 수준 완화 하에서도 지속되며, 경우에 따라 악화될 수 있습니다. 그러나 실행 전 작업 무관 정보를 제거하면 작업 성공률이 최대 17.9% 향상되어, 과잉 공유 감소가 작업 성공률 향상으로 이어짐을 보여줍니다. 우리의 연구 결과는 웹 에이전트의 프라이버시 보호가 근본적인 과제이며, 에이전트가 입력하는 내용뿐만 아니라 웹 상에서 수행하는 행동을 포함하는 더 넓은 시각의 "출력" 개념이 필요함을 강조합니다. 우리의 데이터세트와 코드는 https://github.com/jrohsc/SPILLage 에서 확인할 수 있습니다.
강화학습(Reinforcement Learning, RL)은 단일 종단간(end-to-end) 자율주행(Autonomous Driving, AD)을 위한 주요 패러다임으로 부상했습니다. 그러나 RL은 복잡한 시나리오에서 샘플 효율성이 낮고 의미론적 해석 가능성이 부족한 한계를 지닙니다. 파운데이션 모델, 특히 비전-언어 모델(Vision-Language Models, VLMs)은 풍부하고 상황 인식적인 지식을 제공하여 이러한 문제를 완화할 수 있지만, 높은 추론 지연시간으로 인해 고주파수 RL 훈련 루프에의 배포가 어렵습니다. 이러한 격차를 해결하기 위해 우리는 파운데이션 모델을 활용하여 자율주행 RL을 효율적으로 향상시키기 위해 특화된 플랫폼인 Found-RL을 제시합니다. 핵심 혁신은 비동기식 배치 추론 프레임워크로, 무거운 VLM 추론 작업을 시뮬레이션 루프에서 분리하여 지연시간 병목 현상을 효과적으로 해결하고 실시간 학습을 지원합니다. 우리는 전문가와 같은 VLM 행동 제안을 RL 정책에 효과적으로 증류하기 위해 다양한 지도 메커니즘인 값-마진 정규화(Value-Margin Regularization, VMR)와 Advantage-Weighted Action Guidance (AWAG)를 도입했습니다. 또한, 조밀한 보상 형성(reward shaping)을 위해 고처리량 CLIP을 채택합니다. 우리는 조건부 대조 행동 정렬(Conditional Contrastive Action Alignment)을 통해 CLIP의 동적 상황 인식 부족 문제를 해결하는데, 이는 이산화된 속도/주행 명령에 따라 프롬프트를 조건화하고 상황별 행동-기준점 채점에서 정규화된 마진 기반 보너스를 생성합니다. Found-RL은 미세 조정된 VLM 통합을 위한 종단간 파이프라인을 제공하며, 경량화된 RL 모델이 수십억 개의 파라미터를 가진 VLM에 버금가는 성능을 실시간 추론(약 500 FPS)을 유지하면서 달성할 수 있음을 보여줍니다. 코드, 데이터 및 모델은 https://github.com/ys-qu/found-rl에서 공개될 예정입니다.
대규모 언어 모델(LLM)의 지시어 미세 조정은 일반적으로 대상 작업의 소규모 질의 집합을 사용하여 방대한 후보 풀에서 지시어 훈련 데이터의 하위 집합을 선택하는 과정을 포함합니다. 이러한 대상 지시어 선택에 대한 관심이 높아지고 있지만, 관련 연구는 여전히 파편화되고 불명확한 실정입니다. 방법론마다 선택 예산이 크게 다르고, 제로샷 기준선을 종종 누락하며, 핵심 구성 요소들의 기여도를 혼동하는 경우가 빈번합니다. 그 결과 실무자들은 대상 작업에 적합한 지시어를 선택하는 데 필요한 실행 가능한 지침을 확보하지 못하고 있습니다. 본 연구에서는 데이터 표현과 선택 알고리즘이라는 두 가지 핵심 요소를 분리하고 체계적으로 분석함으로써 이 분야의 명확성을 제고하고자 합니다. 우리의 프레임워크는 모델, 작업, 예산에 걸쳐 통제된 비교를 가능하게 합니다. 연구 결과, 그래디언트 기반 데이터 표현만이 질의 집합과의 유사성이 데이터셋과 모델 전반에 걸쳐 일관되게 성능을 예측하는 하위 집합을 선택하는 것으로 나타났습니다. 단일 최적 방법은 존재하지 않지만, 그래디언트 기반 표현을 탐욕적 순차 선택 알고리즘과 결합할 경우 저예산에서 평균적으로 가장 우수한 성능을 보이는 경향이 있었습니다. 다만 이러한 이점은 예산이 증가함에 따라 감소했습니다. 마지막으로, 우리는 기존의 여러 선택 알고리즘을 선택된 하위 집합과 질의 집합 간의 근사 거리 최소화의 다양한 형태로 통합하고, 새로운 일반화 경계를 통해 이 관점을 지지합니다. 더 넓게 보면, 우리의 연구 결과는 LLM 미세 조정에서 보다 원칙적인 데이터 선택을 위한 중요한 통찰과 기반을 제공합니다. 코드는 https://github.com/dcml-lab/targeted-instruction-selection 에서 확인할 수 있습니다.
생성형 AI 에이전트는 명시적 질의를 해결하는 것을 이해와 동일시하며, 이는 상호작용을 사용자가 명시적으로 표현할 수 있는 범위로 한정하는 가정입니다. 이러한 가정은 사용자 스스로 무엇이 부족한지, 위험한지, 고려할 가치가 있는지 인지하지 못할 때 무너집니다. 이러한 조건에서 주도적 행동은 단순한 효율성 향상이 아니라 인식론적 필수요소입니다. 우리는 이러한 조건을 인식론적 불완전성이라 부릅니다. 즉, 효과적인 협력을 위해 '알지 못하는 미지의 영역'을 다루어야만 진전이 가능한 상태를 말합니다. 기존의 주도적 접근법은 여전히 제한적으로 예측에 그치며, 과거 행동을 외삽하고 목표가 이미 명확히 정의되었다고 가정함으로써 사용자에게 의미 있는 지원을 제공하지 못하고 있습니다. 그러나 사용자의 현재 인식 범위를 넘어선 가능성을 제시하는 것이 본질적으로 유익한 것은 아닙니다. 제약 없는 주도적 개입은 주의를 왜곡하거나 사용자를 압도하거나 해를 끼칠 수 있습니다. 따라서 주도적 에이전트는 행동적 기반, 즉 에이전트가 언제, 어떻게, 어느 정도 개입해야 하는지에 대한 원칙적 제약이 필요합니다. 우리는 생성적 주도성이 인식론적 및 행동적 측면 모두에 기반을 두어야 한다는 입장을 제안합니다. 무지의 철학과 주도적 행동 연구를 바탕으로, 우리는 이러한 이론들이 책임감 있게 협력하고 의미 있는 파트너십을 조성할 수 있는 에이전트 설계에 중요한 지침을 제공한다고 주장합니다.