번역이 포함된 일일 선별된 AI 연구 논문
Step 3.5 Flash는 첨단 수준의 에이전트 지능과 계산 효율성을 연결하는 희소 Mixture-of-Experts 모델입니다. 본 모델은 에이전트 구축에 가장 중요한 요소인 예리한 추론 능력과 빠르고 신뢰할 수 있는 실행에 중점을 두었습니다. Step 3.5 Flash는 효율적인 추론을 위해 1,960억 개의 파라미터 기반 모델에 110억 개의 활성 파라미터를 결합했습니다. 또한 다중 라운드 에이전트 상호작용의 지연 시간과 비용을 줄이기 위해 3:1 비율의 슬라이딩 윈도우/전체 어텐션을 교차 적용하고 다중 토큰 예측을 최적화했습니다. 첨단 수준의 지능을 달성하기 위해 검증 가능한 신호와 선호도 피드백을 결합한 확장 가능한 강화 학습 프레임워크를 설계하였으며, 대규모 오프-폴리시 학습에서도 안정성을 유지하여 수학, 코드, 도구 사용 전반에 걸쳐 일관된 자기 개선이 가능하도록 했습니다. Step 3.5 Flash는 에이전트, 코딩, 수학 과제에서 강력한 성능을 보여 IMO-AnswerBench에서 85.4%, LiveCodeBench-v6(2024.08-2025.05)에서 86.4%, tau2-Bench에서 88.2%, BrowseComp(컨텍스트 관리 포함)에서 69.0%, Terminal-Bench 2.0에서 51.0%를 달성하여 GPT-5.2 xHigh 및 Gemini 3.0 Pro와 같은 최첨단 모델에 버금가는 성과를 냈습니다. 효율성의 한계를 재정의함으로써 Step 3.5 Flash는 실제 산업 환경에서 정교한 에이전트를 배치하기 위한 고밀도 기반을 제공합니다.
최근 연구에서는 생성형 다중모달 대규모 언어 모델(MLLM)을 비전 작업을 위한 임베딩 추출기로 적용하는 사례가 늘고 있으며, 일반적으로 보편적 표현을 생성하도록 미세 조정하는 방식을 취합니다. 그러나 비디오 작업에서의 성능은 비디오 기반 모델(VFM)에 미치지 못하는 실정입니다. 본 논문에서는 비디오-텍스트 임베딩 및 검색을 위해 MLLM을 활용하는 방안에 집중합니다. 먼저 체계적인 계층별 분석을 수행하여, 중간 계층(사전 훈련된) MLLM이 이미 상당한 작업 관련 정보를 인코딩하고 있음을 보입니다. 이러한 통찰력을 바탕으로, 중간 계층 임베딩과 보정된 MLLM 헤드를 결합하면 별도의 훈련 없이도 강력한 제로샷 검색 성능을 달성할 수 있음을 입증합니다. 이러한 결과를 토대로, 밀집된 비디오 캡션을 짧은 요약으로 매핑하여 시각적 감독 없이도 작업 관련 비디오-텍스트 임베딩 학습을 가능하게 하는 경량의 텍스트 기반 정렬 전략을 제안합니다. 주목할 점은, 텍스트 이상의 미세 조정 없이도 우리 방법이 기존 방법들을 크게 앞지르는 성능을 보여주며, 일반적인 비디오 검색 벤치마크에서 최첨단 결과를 달성했다는 것입니다.
통합 멀티모달 모델(UMM)은 시각 생성 분야에서 놀라운 발전을 보여주고 있습니다. 그러나 기존 벤치마크는 주로 축적된 지식과 학습된 스키마에 의존하는 '결정화 지능'을 평가하는 데 집중되어 있습니다. 이러한 접근은 패턴을 추론하고, 제약 조건을 통해 추리하며, 새로운 시나리오에 즉각적으로 적응하는 능력인 '생성적 유동 지능'(GFI)을 간과하고 있습니다. 이 능력을 엄격하게 평가하기 위해 우리는 GENIUS(GEN Fluid Intelligence EvalUation Suite)를 소개합니다. 우리는 GFI를 세 가지 기본 요소의 종합으로 정형화합니다. 여기에는 암묵적 패턴 추론(예: 개인화된 시각적 선호도 추론), 임시 제약 조건 실행(예: 추상적 은유 시각화), 상황적 지식 적응(예: 반직관적 물리 시뮬레이션)이 포함됩니다. 이러한 기본 요소들은 모델이 오직 현재 상황에 기반하여 문제를 해결하도록 요구합니다. 12개의 대표 모델에 대한 체계적인 평가 결과, 이러한 과제에서 모델들의 성능이 현저히 부족한 것으로 나타났습니다. 중요한 것은 우리의 진단 분석이 이러한 실패 원인을 분리해 보여준다는 점입니다. 이 분석은 성능 부족이 본질적인 생성 능력의 한계가 아닌 제한된 상황 이해력에서 비롯됨을 입증합니다. 이러한 격차를 해소하기 위해 우리는 추가 학습이 필요 없는 주의 메커니즘 개입 전략을 제안합니다. 궁극적으로 GENIUS는 GFI에 대한 엄격한 기준을 수립하여, 해당 분야가 지식 활용을 넘어 동적이고 범용적인 추론 능력으로 나아가는 길을 제시합니다. 우리의 데이터셋과 코드는 https://github.com/arctanxarc/GENIUS 에서 공개될 예정입니다.
대규모 멀티모달 모델의 급속한 발전으로 개방형 평가와 선호도 정렬을 위해 신뢰할 수 있는 평가 및 비판 모델이 필수적으로 자리잡았으며, 이들은 모델 생성 응답을 평가하기 위해 쌍별 선호도, 수치 점수, 설명적 근거를 제공합니다. 그러나 기존 비판 모델들은 주로 캡셔닝이나 이미지 질의응답과 같은 일반적인 시각 영역에서 훈련되어, 인과 관계 추론 및 계획을 포함하는 물리적 AI 과제는 상당 부분 미개발된 상태로 남아 있습니다. 본 연구에서는 2단계 RLVR 파이프라인을 통해 물리적 AI에 최적화된 멀티모달 비판 모델인 PhyCritic을 소개합니다: 첫 번째 단계는 물리적 지향적 인지와 추론 능력을 향상시키는 물리적 기술 준비 단계이며, 두 번째 단계는 자기 참조적 비판 미세 조정 단계로, 비판 모델이 후보 응답들을 판단하기 전에 자체 예측을 내부 참조 자료로 생성하여 판단의 안정성과 물리적 정확성을 개선합니다. 물리적 및 일반 목적의 멀티모달 평가 벤치마크 전반에서 PhyCritic은 오픈소스 기준 모델들을 크게 능가하는 강력한 성능 향상을 달성했으며, 정책 모델로 적용될 때 물리적 기반 과제에서의 인지 및 추론 능력을 추가로 개선했습니다.
도메인 특화 도구 호출에 대한 LLM 에이전트 적응은 진화하는 인터페이스 하에서 여전히 취약한 것으로 나타납니다. 프롬프트 및 스키마 엔지니어링은 배포가 쉽지만 분포 변화와 엄격한 파서 하에서 종종 불안정한 반면, 지속적인 파라미터 효율 미세 조정은 훈련, 유지보수 및 잠재적 망각이라는 비용을 치르고 신뢰성을 향상시킵니다. 우리는 중간층 활성화에서 도구 필요성을 거의 완벽하게 디코딩할 수 있음에도 모델이 도구 모드 진입에 보수적으로 접근하는 '게으른 에이전트' 실패 모드를 확인하여 표현-행동 간격을 드러냈습니다. 우리는 훈련이 필요 없는 추론 시점 제어기인 Activation Steering Adapter(ASA)를 제안합니다. ASA는 단일 샷 중간층 개입을 수행하며, 프로브 기반 부호 게이트를 통해 진짜 의도를 증폭하고 허위 트리거를 억제하는 라우터 조건부 스티어링 벡터 혼합을 통해 도구 도메인을 대상으로 합니다. Qwen2.5-1.5B 모델과 MTU-Bench에서 ASA는 약 20KB의 휴대용 자산만을 사용하고 가중치 업데이트 없이도 엄격한 도구 사용 F1 점수를 0.18에서 0.50으로 개선하고 위양성률을 0.15에서 0.05로 감소시켰습니다.
최근 기초 모델의 발전으로 국제 수학 올림피아드에서 금메달 수준의 성과를 달성할 수 있는 추론 시스템이 등장했습니다. 그러나 경쟁 수준의 문제 해결에서 전문적인 연구로의 전환은 방대한 문헌을 탐색하고 장기적인 증명을 구성해야 하는 과제를 수반합니다. 본 연구에서는 자연어로 종단간 솔루션을 반복적으로 생성, 검증 및 수정하는 수학 연구 에이전트인 Aletheia를 소개합니다. 구체적으로 Aletheia는 (a) 도전적인 추론 문제를 위한 고도화된 Gemini Deep Think, (b) 올림피아드 수준 문제를 넘어서는 새로운 추론 시점 스케일링 법칙, 그리고 (c) 수학 연구의 복잡성을 탐색하기 위한 집중적인 도구 활용을 통해 구동됩니다. 우리는 Aletheia의 능력을 올림피아드 문제부터 박사 수준 연습문제에 이르기까지 증명하고, 특히 AI 지원 수학 연구의 몇 가지 독보적인 성과를 통해 입증합니다: (a) 산술기하학의 특정 구조 상수인 고유가중치 계산에 있어 인간의 개입 없이 AI가 생성한 연구 논문(Feng26), (b) 독립집합이라고 불리는 상호작용 입자 시스템의 경계를 증명하는 인간-AI 협업을 보여준 연구 논문(LeeSeo26), 그리고 (c) Bloom의 Erdos 추측 데이터베이스 내 700개의 미해결 문제에 대한 광범위한 반자율 평가(Feng et al., 2026a) 및 네 가지 미해결 문제에 대한 자율적 해결. 대중이 AI와 수학 관련 발전을 더 잘 이해할 수 있도록, AI 지원 결과의 자율성과 참신성을 정량화하는 표준 수준 체계를 정립할 것을 제안합니다. 마지막으로 수학 분야에서의 인간-AI 협력에 대한 성찰로 글을 마무리합니다.
긴 문맥에 대한 추론은 다양한 실제 애플리케이션에 있어 핵심적이지만, 문맥 길이가 증가함에 따라 성능이 저하되는 대규모 언어 모델(LLM)에게는 여전히 어려운 과제로 남아 있습니다. 최근 연구인 MemAgent는 RNN과 유사한 루프에서 문맥을 청크 단위로 처리하고 최종 응답을 위한 텍스트 메모리를 업데이트하는 방식으로 이 문제를 해결하려고 시도했습니다. 그러나 이러한 단순한 순환 메모리 업데이트 방식은 두 가지 중요한 단점을 가지고 있습니다: (i) 증거가 없는 청크에서도 무분별하게 업데이트가 이루어져 메모리가 급격히 증가할 수 있으며, (ii) 루프에 종료 메커니즘이 부재하여 충분한 증거가 수집된 후에도 불필요한 계산이 발생합니다. 이러한 문제를 해결하기 위해 우리는 보다 안정적이고 효율적인 장문맥 추론을 위한 두 개의 텍스트 제어 게이트를 도입한 GRU-Mem을 제안합니다. 구체적으로, GRU-Mem에서는 업데이트 게이트가 열렸을 때만 메모리가 업데이트되며, 종료 게이트가 열리면 순환 루프가 즉시 종료됩니다. 모델에 이러한 능력을 부여하기 위해 엔드투엔드 강화 학습 내에 두 가지 보상 신호 r^{update}와 r^{exit}를 도입하여 각각 올바른 업데이트 및 종료 행동을 보상합니다. 다양한 장문맥 추론 작업에 대한 실험을 통해 GRU-Mem의 효과성과 효율성을 입증하였으며, 이는 기존 MemAgent 대비 최대 400%의 추론 속도 가속화와 함께 일반적으로 더 나은 성능을 보였습니다.
본 논문은 명시적 타임스탬프를 포함한 연속적이고 세밀하며 구조화된 오디오-비주얼 서사를 생성하기 위한 새로운 과제인 Omni Dense Captioning을 제안한다. 밀집된 의미론적 coverage를 보장하기 위해, 영화 시나리오와 유사하게 독자가 장면별로 비디오 내용을 생생하게 상상할 수 있는 "스크립트 형식" 캡션을 생성하는 6차원 구조 스키마를 도입한다. 연구 촉진을 위해 고품질의 인간 주석 기반 벤치마크인 OmniDCBench을 구축하고, 장면 경계 모호성을 완화하면서 시간 인식 상세 설명을 평가하는 통합 지표인 SodaM을 제안한다. 더 나아가 학습 데이터셋인 TimeChatCap-42K를 구축하고, 과제 특화 보상 기반 SFT 및 GRPO로 학습된 강력한 베이스라인 모델인 TimeChat-Captioner-7B를 제시한다. 폭넓은 실험을 통해 TimeChat-Captioner-7B가 Gemini-2.5-Pro를 능가하는 최첨단 성능을 달성함을 입증하며, 해당 모델이 생성한 밀집 설명이 오디오-비주얼 추론(DailyOmni 및 WorldSense) 및 시간적 grounding(Charades-STA) 하위 과제 성능을 크게 향상시킴을 보인다. 모든 데이터셋, 모델 및 코드는 https://github.com/yaolinli/TimeChat-Captioner에서 공개될 예정이다.
디코더 전용 대규모 언어 모델이 사용자 표현 학습을 위한 행동 인코더로 점점 더 많이 사용되고 있지만, 어텐션 마스킹이 사용자 임베딩 품질에 미치는 영향은 아직 충분히 연구되지 않았습니다. 본 연구에서는 장기적 이질적 사용자 행동을 통합한 대규모 실질 알리페이 데이터로 학습된 통합 대조 학습 프레임워크 내에서 인과적, 하이브리드, 양방향 어텐션 마스크에 대한 체계적인 연구를 수행합니다. 인과적 어텐션에서 양방향 어텐션으로 전환 시 훈련 역학을 개선하기 위해, 최적화 과정에서 미래 어텐션을 점진적으로 여는 선형 스케줄러 전에 적용되는 그래디언트 기반 사전 워밍업 방법인 그래디언트 기반 소프트 마스킹을 제안합니다. 예측, 선호도, 마케팅 민감도 작업을 아우르는 9개의 산업용 사용자 인지 벤치마크에서 평가한 결과, 우리의 접근법은 인과적, 하이브리드, 스케줄러 전용 베이스라인 대비 더 안정적인 훈련과 더 높은 품질의 양방향 표현을 일관되게 생성하며, 디코더 사전 훈련과도 호환되는 것으로 나타났습니다. 전반적으로, 우리의 연구 결과는 효과적인 사용자 표현 학습을 위해 디코더 전용 LLM을 적용하는 데 마스킹 설계와 훈련 전환의 중요성을 강조합니다. 코드는 https://github.com/JhCircle/Deepfind-GGSM에서 확인할 수 있습니다.
대규모 언어 모델(LLM)이 최근 자동 휴리스틱 설계(AHD) 분야에서 유망한 성과를 보였지만, 기존 접근법은 일반적으로 AHD를 구성적 우선순위 규칙이나 매개변수화된 지역 탐색 지도 방식으로 정형화하여 탐색 공간을 고정된 휴리스틱 형태로 제한해왔습니다. 이러한 설계는 구조적 탐색 능력이 제한적이어서 복잡한 조합 최적화 문제(COP)에서 깊은 지역 최적점을 벗어나기 어렵습니다. 본 연구에서는 LLM 기반 AHD를 대규모 이웃 탐색(LNS) 연산자 자동 설계로 확장하는 생성형 진화 프레임워크인 G-LNS를 제안합니다. 기존 방법들이 휴리스틱을 독립적으로 진화시킨 것과 달리, G-LNS는 LLM을 활용하여 긴밀하게 결합된 파괴 및 복구 연산자 쌍을 공동 진화시킵니다. 협력적 평가 메커니즘은 이들 간의 상호작용을 명시적으로 포착하여, 효과적인 구조적 파괴와 재구성을 함께 수행하는 상호 보완적인 연산자 논리의 발견을 가능하게 합니다. 여행하는 외판원 문제(TSP) 및 용량 제약이 있는 차량 경로 문제(CVRP)와 같은 난제 COP 벤치마크에 대한 광범위한 실험을 통해 G-LNS가 LLM 기반 AHD 방법과 강력한 고전 솔버들을 크게 능가함을 입증했습니다. 발견된 휴리스틱은 계산 비용을 줄여 거의 최적에 가까운 해를 달성할 뿐만 아니라, 다양하고 보지 못한 인스턴스 분포에 걸쳐 강건한 일반화 성능을 보여줍니다.
대규모 언어 모델(LLM) 기반 에이전트가 소프트웨어 산업에서 점차 확산되며 협업자 또는 심지어 자율 개발자로서 코드를 기여하고 있습니다. 이러한 에이전트의 역할이 커짐에 따라 현재 그들의 코딩 능력 한계를 평가하는 것이 중요해졌습니다. 그러나 기존의 에이전트 코딩 벤치마크는 단일 풀 리퀘스트(PR) 내 버그 수정과 같이 제한된 작업 범위만을 다루며, 실행 불가능한 평가에 의존하거나 평가 커버리지를 지속적으로 업데이트하기 위한 자동화된 접근 방식이 부재한 경우가 많습니다. 이러한 문제를 해결하기 위해 본 논문은 종단 간(end-to-end), 기능 지향적 소프트웨어 개발에서 에이전트 코딩 성능을 평가하기 위한 벤치마크인 FeatureBench를 제안합니다. FeatureBench는 실행 기반 평가 프로토콜과 최소한의 인간 노력으로 코드 저장소에서 작업을 자동으로 도출하는 확장 가능한 테스트 주도 방법을 통합합니다. 의존성 그래프를 따라 단위 테스트를 추적함으로써, 우리의 접근 방식은 개발 타임라인 전체에 걸쳐 여러 커밋과 PR에 분산된 기능 수준 코딩 작업을 식별할 수 있으며, 분리 후 다른 기능의 정상 작동을 보장합니다. 이 프레임워크를 사용하여 우리는 벤치마크의 첫 번째 버전에서 24개의 오픈소스 저장소로부터 200개의 도전적인 평가 작업과 3825개의 실행 가능한 환경을 구성했습니다. 실증 평가 결과, SWE-bench에서 74.4%의 해결율을 달성한 Claude 4.5 Opus와 같은 최첨단 에이전트 모델이 단 11.0%의 작업에서만 성공하여 에이전트 코딩 발전을 위한 새로운 기회를 열었습니다. 더 나아가 자동화된 작업 수집 도구킷의 이점으로 인해 FeatureBench는 데이터 누출을 완화하기 위해 시간이 지남에 따라 쉽게 확장 및 업데이트될 수 있습니다. 구성된 환경의 내재적 검증 가능성은 우리 방법이 에이전트 학습에 잠재적으로 가치 있게 만들 수도 있습니다.
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 효과적인 접근법으로 부상하고 있습니다. 그러나 RLVR는 효율성에도 불구하고 메타학습 병목 현상에 직면해 있습니다: 즉, 연습과 검증을 넘어 인간 학습 주기에 내재된 오류 귀인 및 경험 내재화 메커니즘이 부족하여 세밀한 크레딧 할당과 재사용 가능한 지식 형성이 제한됩니다. 우리는 이러한 과거 오류에서 도출된 재사용 가능한 지식 표현을 메타-경험(meta-experience)이라고 명명합니다. 이러한 통찰을 바탕으로, 우리는 자기-증류(self-distilled)된 메타-경험을 모델의 매개변수적 기억에 통합하는 새로운 프레임워크인 메타-경험 학습(MEL)을 제안합니다. 표준 RLVR를 기반으로, 우리는 LLM의 자기-검증 능력을 활용하여 정답과 오답 궤적 쌍에 대한 대조 분석을 수행하고, 추론 오류가 발생하는 정확한 분기점을 식별하며, 이를 일반화 가능한 메타-경험으로 요약하는 추가 설계를 도입합니다. 메타-경험은 음의 로그 가능도를 최소화함으로써 LLM의 매개변수적 기억에 추가로 내재화되며, 이는 정답과 오답 추론 궤적을 연결하고 효과적인 지식 재사용을 촉진하는 언어 모델링된 보상 신호를 유도합니다. 실험 결과는 MEL이 다양한 모델 크기에서 3.92%~4.73%의 Pass@1 성능 향상을 달성하며 벤치마크에서 일관된 개선을 이루는 것을 보여줍니다.
현재 대규모 언어 모델(LLM) 분야에서는 대규모 고품질 학습 데이터의 선별이 모델 성능의 주요 동인으로 작용하고 있습니다. 여기서 핵심 요소는 원시 데이터 소스를 학습 코퍼스로 변환하는 데이터 처리 파이프라인으로 구성된 데이터 레시피입니다. 데이터 합성 및 필터링과 같은 개별 데이터 처리 단계를 자동화하기 위해 LLM의 활용이 증가하고 있음에도 불구하고, 데이터 레시피의 전반적인 설계는 여전히 대부분 수동적이며 노동 집약적입니다. 이는 상당한 수준의 인간 전문 지식과 반복 작업을 필요로 합니다. 이러한 격차를 해소하기 위해 우리는 LLM 적응을 위한 종단간 데이터 레시피 생성 방법을 정형화합니다. 목표 벤치마크와 사용 가능한 데이터 소스 풀이 주어졌을 때, 모델은 기본 LLM을 목표 작업에 적응시키는 완전한 데이터 레시피를 출력해야 합니다. 우리는 후보 레시피의 하류 작업 성능을 예측하는 프록시 보상을 사용하여 온라인 강화 학습을 수행하는 DataChef-32B를 제시합니다. 6개의 별도 보유 작업에 걸쳐 DataChef-32B는 인간 전문가가 선별한 레시피와 비슷한 수준의 하류 작업 성능에 도달하는 실용적인 레시피를 생성합니다. 특히 DataChef-32B의 레시피는 Qwen3-1.7B-Base 모델을 수학 영역에 적응시켜 AIME'25에서 66.7점을 달성하며 Qwen3-1.7B를 능가했습니다. 이 작업은 LLM 훈련의 자동화와 자기 진화 AI 시스템 개발에 새로운 통찰을 제공합니다.
우리는 인수분해, 구조적 희소화 및 동적 압축 기준선들과 비교하여 최첨단 성능을 달성하는 학습이 필요 없는 모델 압축 방법인 ROCKET을 제안한다. 전역 압축 예산 하에서 운영되는 ROCKET은 두 가지 핵심 혁신으로 구성된다. 첫째, 이 방법은 계층별 압축 할당을 다중 선택 배낭 문제로 공식화하여 목표 모델 크기를 준수하면서 전체 재구성 오류를 최소화하기 위해 각 계층에 대한 최적의 압축 수준을 선택한다. 둘째, 이 방법은 사전 학습에서 영감을 받은 단일 단계 희소 행렬 인수분해를 도입한다: 소량의 캘리브레이션 세트만 사용하여 활성화-가중치 민감도에 기반하여 가중치 계수를 희소화한 다음, 반복적 최적화, 희소 코딩 또는 역전파를 완전히 우회하는 최소 자승법을 통해 닫힌 형태로 사전을 업데이트한다. ROCKET은 20-50% 압축률에서 다양한 모델 아키텍처에 걸쳐 기존 압축 접근법들을 지속적으로 능가한다. 특히, 미세 조정 없이 30% 압축에서 원본 모델 성능의 90% 이상을 유지한다. 더욱이, 가벼운 미세 조정 단계를 적용할 경우 성능 회복이 크게 향상된다: 예를 들어, Qwen3-14B를 8B 매개변수 모델로 압축하고 단 3천만 토큰으로 치유하면 원본 Qwen3-8B와 거의 동등한 성능을 보인다. ROCKET의 코드는 github.com/mts-ai/ROCKET/tree/main에서 확인할 수 있다.
대규모 언어 모델의 강화 학습은 높은 분산을 보이는 토큰 수준 중요도 샘플링(IS) 비율로 인해 어려움을 겪으며, 이는 대규모 정책 최적화를 불안정하게 만듭니다. 안정성을 향상시키기 위해 최근 방법들은 일반적으로 시퀀스 내 모든 토큰에 대해 고정된 시퀀스 수준 IS 비율을 사용하거나 각 토큰의 IS 비율을 개별적으로 조정함으로써 시퀀스 내 토큰 간의 시간적 오프-정책 유도를 간과합니다. 본 논문에서는 먼저 토큰 수준에서 지역적 오프-정책 편차가 구조적으로 불일치함을 실증적으로 확인하며, 이는 인접 토큰 간의 정책 그래디언트 업데이트를 왜곡하고 학습 붕괴를 초래할 수 있음을 보입니다. 이 문제를 해결하기 위해 우리는 안정적이고 효과적인 정책 최적화를 위한 온라인 인과 칼만 필터링(KPO)을 제안합니다. 구체적으로, 원하는 IS 비율을 토큰 간에 변화하는 잠재 상태로 모델링하고, 칼만 필터를 적용하여 미래 토큰에 관계없이 과거 토큰의 상태를 기반으로 이 상태를 온라인 및 자기회귀적으로 업데이트합니다. 이를 통해 얻어진 필터링된 IS 비율은 토큰 단위의 지역 구조 인식 변동을 보존하면서 노이즈 스파이크를 강력하게 평활화하여 더 안정적이고 효과적인 정책 업데이트를 가능하게 합니다. 실험적으로 KPO는 도전적인 수학 추론 데이터셋에서 최첨단 대비 방법들보다 우수한 결과를 달성합니다.
루프 트랜스포머는 언어 영역에서 추론을 위한 효율적이고 강력한 모델 클래스로 부상했습니다. 최근 연구들은 이러한 모델들이 알고리즘 및 추론 과제에서 높은 성능을 달성함으로써, 루프 아키텍처가 잠재적 추론에 대한 귀납적 편향을 지니고 있음을 시사합니다. 그러나 기존 접근법들은 학습과 추론 동안 루프 반복 횟수를 고정하여, 이러한 모델들이 가변적인 계산 예산 하에서 계산 깊이를 유연하게 조절할 수 있는지에 대한 의문을 남겼습니다. 우리는 예산 조건 추론을 가능하게 하기 위해 가변 길이 트랙토리로 학습된 LoopFormer를 소개합니다. 우리의 핵심 기여는 서로 다른 길이의 트랙토리를 정렬하는 단축 일관성 학습 기법으로, 짧은 루프는 유익한 표현을 생성하면서도 긴 루프는 이를 계속 정제하도록 보장합니다. LoopFormer는 각 루프를 현재 시간과 스텝 크기에 조건화하여, 표현이 표류나 정체되지 않고 다양한 길이의 트랙토리에서 일관되게 발전하도록 합니다. 실험적으로 LoopFormer는 공격적인 계산 제약 조건 하에서도 언어 모델링 및 추론 벤치마크에서 견고한 성능을 보여주며, 추가 예산에 따라 유연하게 확장됩니다. 이러한 결과는 루프 트랜스포머가 적응형 언어 모델링에 본질적으로 적합함을 보여주며, 제어 가능하고 예산을 인지하는 대규모 언어 모델로 가는 길을 열어줍니다.
코딩 에이전트 분야에서의 빠른 발전에도 불구하고, 멀티모달 에이전트의 발전은 상대적으로 더딘 상황입니다. 핵심적인 과제는 소프트웨어 개발의 복잡성과 심층적인 멀티모달 이해의 필요성을 결합한 평가 테스트베드의 부족입니다. 게임 개발은 시각적 게임 장면 내에서 셰이더, 스프라이트, 애니메이션과 같은 본질적으로 멀티모달인 자산들을 조작하면서 방대하고 복잡한 코드베이스를 탐색해야 하므로 이러한 테스트베드를 제공합니다. 본 논문은 게임 개발 작업에 대한 에이전트 평가를 위한 최초의 벤치마크인 GameDevBench를 소개합니다. GameDevBench는 웹 및 비디오 튜토리얼에서 도출된 132개의 작업으로 구성됩니다. 이 작업들은 상당한 멀티모달 이해를 요구하며 매우 복잡합니다—평균적인 솔루션은 기존 소프트웨어 개발 벤치마크에 비해 3배 이상 많은 코드 라인 수와 파일 변경을 필요로 합니다. 에이전트들은 여전히 게임 개발에 어려움을 겪고 있으며, 가장 성능이 좋은 에이전트도 작업의 54.5%만 해결합니다. 우리는 인지된 작업 난이도와 멀티모달 복잡성 사이에 강한 상관관계가 있음을 발견했으며, 게임플레이 중심 작업의 46.9% 성공률에서 2D 그래픽 작업에서는 31.6%로 성공률이 하락했습니다. 멀티모달 능력을 향상시키기 위해, 우리는 에이전트를 위한 두 가지 간단한 이미지 및 비디오 기반 피드백 메커니즘을 도입합니다. 단순함에도 불구하고, 이러한 방법들은 지속적으로 성능을 향상시키며, 가장 큰 변화는 Claude Sonnet 4.5의 성능이 33.3%에서 47.7%로 증가한 것입니다. 에이전트 기반 게임 개발 연구의 추가 발전을 지원하기 위해 GameDevBench를 공개합니다.
사고 연쇄(chain-of-thought) 데이터에 대한 지도 미세 조정(SFT)은 추론 언어 모델에 있어 필수적인 사후 훈련 단계입니다. 표준 기계 학습의 직관에 따르면 더 많은 고유 훈련 샘플로 학습할수록 일반화 성능이 향상된다고 알려져 있습니다. 그러나 반직관적으로, 우리는 SFT가 반복 학습을 통해 이점을 얻음을 보여줍니다: 고정된 업데이트 예산 하에서, 더 작은 데이터셋으로 많은 에포크(epoch) 동안 학습하는 것이 더 큰 데이터셋으로 1 에포크만 학습하는 것보다 성능이 뛰어납니다. AIME'24/25 및 GPQA 벤치마크에서, 400개 샘플을 128 에포크 동안 학습한 Olmo3-7B 모델은 51,200개 샘플을 1 에포크 학습한 동등 조건 대비 12-26% 포인트 더 높은 성능을 보였으며, 추가적인 파국적 망각(catastrophic forgetting)도 발생하지 않았습니다. 우리는 훈련 토큰 정확도(training token accuracy)가 반복 학습의 포화 시점을 신뢰롭게 나타냄을 발견했습니다. 추가 에포크에 의한 성능 향상은 완전 암기(full memorization) 단계에 이르면 정체되는 패턴을 보였으며, 이는 모든 설정에서 일관되었습니다. 이러한 발견들은 추론 SFT를 위한 실용적인 접근법을 제시합니다. 즉, 비용이 많이 드는 무분별한 데이터 확장을 대체하여, 토큰 정확도를 중단 기준(stopping criterion)으로 삼아 에포크 수를 조정할 수 있습니다. 우리는 완전 암기가 향상된 일반화와 동시에 발생하는 이러한 반복 학습의 이점(repetition advantage)을 대규모 언어 모델의 훈련 역동성(trainig dynamics)을 이해하는 데 있어 커뮤니티가 풀어야 할 새로운 공개 문제로 제기합니다.
Group Relative Policy Optimization(GRPO)은 완성 텍스트의 모든 토큰에 단일 스칼라 어드밴티지를 할당합니다. 명시적 세그먼트와 목표를 가진 구조화된 생성의 경우, 이는 세그먼트 간 무관한 보상 신호를 결합하여 목표 간섭과 오인된 기여도를 초래합니다. 본 논문에서는 각 목표에 고유한 어드밴티지를 할당하고 해당 텍스트 블록 내 토큰에만 적용함으로써, 수작업 설계된 스칼라 보상에 대한 의존도를 줄이고 추가 목표로 자연스럽게 확장 가능한 GRPO 호환 방법군인 Blockwise Advantage Estimation을 제안합니다. 주요 과제는 샘플링된 접두사에 조건부인 보상을 가진 후속 블록의 어드밴티지를 추정하는 것으로, 표준 불편향 추정법은 중간 상태로부터의 계산 비용이 높은 중첩 롤아웃을 필요로 합니다. 구체적으로, 접두사에서 파생된 중간 결과에 따라 샘플을 계층화하여 그룹 내 통계만으로 중간 상태 가치를 근사하는 Outcome-Conditioned Baseline을 도입합니다. 불확실성 추정이 포함된 수학 과제에서 본 방법은 보상 간섭을 완화하며, 최첨단 보상 설계 접근법과 경쟁적 성능을 보이고, 신뢰도 가중 앙상블링의 테스트 시간 이점을 유지합니다. 더 넓게 보면, 이는 추가 롤아웃 없이 구조화된 생성에서 순차적 목표를 최적화하기 위한 모듈식 방법론을 제공합니다.
해리 포터의 세계에서는 덤블도어의 마음이 과중한 부담을 느낄 때, 그는 기억을 펜시브로 추출하여 나중에 다시 확인합니다. AI 세계에서는 우리가 펜시브에 해당하는 성숙한 데이터베이스와 검색 시스템을 보유하고 있음에도 불구하고, 우리 모델은 이를 운영할 "지팡이"를 설명할 수 없이 갖고 있지 않습니다. 그들은 마치 주체성 없는 덤블도어처럼, 수동적으로 수공업적으로 구성된 컨텍스트를 자신의 전체 기억으로 받아들일 뿐입니다. 본 연구는 마침내 모델의 손에 그 지팡이를 쥐어줍니다. 우리는 자체 상태를 관리하기 위한 내부 추론 루프를 부여받은 새로운 종류의 파운데이션 모델인 StateLM을 소개합니다. 우리는 모델에 컨텍스트 정리, 문서 색인 생성, 메모 작성과 같은 일련의 메모리 도구를 장착하고, 이 도구들을 능동적으로 관리하도록 훈련합니다. 자신의 컨텍스트를 동적으로 구성하는 법을 학습함으로써, 우리 모델은 고정된 창(컨텍스트 윈도우)이라는 구조적 감옥에서 벗어납니다. 다양한 모델 크기에서의 실험은 StateLM이 다양한 시나리오에서 효과적임을 입증합니다. 장문 문서 질의응답 작업에서는 모든 모델 규모에서 StateLM이 표준 LLM을 꾸준히 능가하며, 채팅 메모리 작업에서는 표준 LLM 대비 10%~20%의 절대 정확도 향상을 달성합니다. 심층 연구 작업인 BrowseComp-Plus에서는 성능 격차가 더욱 두드러집니다: StateLM은 최대 52%의 정확도를 달성한 반면, 표준 LLM 대조군은 약 5% 수준에 머뭅니다. 궁극적으로, 우리의 접근 방식은 LLM을 수동적인 예측기에서 상태를 인지하는 에이전트로 전환시키며, 이때 추론은 상태를 가지며 관리 가능한 프로세스가 됩니다.
대규모 언어 모델(LLM)을 위험도가 높은 임상 환경에 적용하기 위해서는 엄격하고 신뢰할 수 있는 평가가 필요합니다. 그러나 기존의 의료 벤치마크는 정적 상태로 남아 있어 두 가지 중요한 한계를 지닙니다: (1) 테스트 세트가 의도치 않게 학습 코퍼스에 유출되어 성능 추정치가 과장되는 데이터 오염 문제와 (2) 의학 지식의 빠른 진화를 제대로 반영하지 못하는 시간적 부정합 문제입니다. 더욱이 개방형 임상 추론을 위한 현재의 평가 지표는 피상적인 어휘 중첩(예: ROUGE)이나 주관적인 LLM-as-a-Judge 평가에 의존하는 경우가 많아, 임상적 정확성을 검증하기에는 부적합합니다. 이러한 격차를 해소하기 위해 우리는 LiveMedBench를 소개합니다. 이는 지속적으로 업데이트되며, 오염이 없고, 루브릭 기반의 벤치마크로, 온라인 의료 커뮤니티에서 실제 임상 사례를 주단위로 수집하여 모델 학습 데이터와의 엄격한 시간적 분리를 보장합니다. 우리는 원시 데이터의 노이즈를 필터링하고 근거 기반 의학 원칙에 따라 임상 무결성을 검증하는 다중 에이전트 임상 큐레이션 프레임워크를 제안합니다. 평가를 위해 우리는 의사의 응답을 세분화된 사례별 기준으로 분해하는 자동화된 루브릭 기반 평가 프레임워크를 개발하여 LLM-as-a-Judge 방식보다 전문 의사 평가와 훨씬 더 강력한 일치도를 달성했습니다. 현재까지 LiveMedBench는 38개 의학 전문 분야와 여러 언어에 걸친 2,756개의 실제 사례와 16,702개의 고유 평가 기준으로 구성되어 있습니다. 38개의 LLM에 대한 광범위한 평가 결과, 가장 성능이 좋은 모델조차 39.2%에 그치며, 84%의 모델이 컷오프 이후 사례에서 성능 저하를 보여 데이터 오염 위험이 만연함을 확인했습니다. 오류 분석은 더 나아가 사실적 지식이 아닌 맥락적 적용 능력을 주요 병목 현상으로 규정했으며, 실패 사례의 35-48%가 환자별 제약 조건에 맞게 의학 지식을 적용하지 못한 데서 비롯됨을 밝혔습니다.
강화학습(RL)은 대규모 언어 모델(LLM)의 사후 훈련에서 롤아웃 생성, 보상 평가, 중앙 집중식 학습 간의 반복적 상호작용을 포함하는 중요한 단계입니다. 롤아웃 실행을 분산화하면 더욱 비용 효율적인 추론 자원을 활용할 기회가 생기지만, 광역 조정 및 정책 전파 측면에서 과제가 발생합니다. 본 논문에서는 원격 추론 작업자와 무시할 수 없는 전파 지연을 수반하는 사후 훈련을 위한 분산 RL 프레임워크인 ECHO-2를 제시합니다. ECHO-2는 중앙 집중식 학습과 분산 롤아웃을 결합하고, 제한된 정책 부실을 사용자 제어 매개변수로 취급하여 롤아웃 생성, 전파 및 훈련이 중첩되도록 합니다. 또한 훈련 시간, 전파 지연 및 롤아웃 처리량을 연관짓는 중첩 기반 용량 모델을 도입하여 학습자 활용률을 유지하기 위한 실용적인 프로비저닝 규칙을 제공합니다. ECHO-2는 전파 병목 현상을 완화하고 비용을 절감하기 위해 피어 지원 파이프라인 브로드캐스트와 이기종 작업자의 비용 인식 활성화를 활용합니다. 실제 광역 대역폭 환경에서 4B 및 8B 모델에 대한 GRPO 사후 훈련 실험 결과, ECHO-2가 강력한 베이스라인 대비 비교 가능한 RL 보상을 유지하면서 비용 효율성을 크게 향상시키는 것으로 나타났습니다.
훈련 예산을 초월하여 지속적으로 향상될 수 있는 거대 언어 모델(LLM)은 테스트 시점에 적응함으로써 점점 더 어려운 문제를 해결할 수 있는데, 우리는 이러한 특성을 외삽(extrapolation)이라고 부른다. 그러나 표준 강화 학습(RL)은 고정된 문제 분포와 훈련 예산 내에서 운영되므로, 테스트 시점의 분포 변화 속에서 외삽 능력이 제한된다. 이를 해결하기 위해 우리는 훈련 및 추론 과정에서 표준 자기회귀 디코딩을 대체하는 반복적 디코딩 알고리즘인 RC를 제안한다. RC는 LLM의 응답 생성 능력과 요약 능력 간 비대칭성을 활용하여 반복을 거듭할수록 일관적으로 향상되는 추론 체인을 구성한다. RC 사용법을 훈련받은 모델은 훈련 과정에서 접했던 것보다 한 차례 이상 긴 추론 범위에서도 외삽 및 지속적 향상이 가능하다. 실증적으로, 16k 토큰의 훈련 예산으로 4B 모델을 RC와 함께 훈련시켰을 때, 테스트 시점에 0.5백만 토큰을 사용하여 HMMT 2025에서의 성능을 40%에서 약 70%로 향상시켰으며, 이는 유사 규모 모델과 많은 대형 추론 LLM들을 모두 능가하는 결과이다. 마지막으로, RC로 훈련된 모델은 훈련을 통해 습득된 향상된 요약-조건부 생성 능력 덕분에 기존 스캐폴드를 더 효과적으로 활용하여 테스트 시점 성능을 추가로 확장할 수 있음을 보여준다.
옴니모달 대규모 언어 모델(OLLMs)은 다중 모달 이해와 생성을 통합하는 것을 목표로 하지만, 자연스러운 상호작용에 중요함에도 불구하고 음성과 3D 얼굴 애니메이션을 통합하는 연구는 여전히 미흡한 실정입니다. 핵심 과제는 LLM의 이산적 토큰 수준 의미 추론과 3D 얼굴 운동에 필요한 조밀하고 세밀한 시간적 동역학 간의 표현 불일치에서 비롯되며, 이는 제한된 데이터 환경에서 직접적인 모델링의 최적화를 어렵게 만듭니다. 본 연구에서는 음성이 수반되는 3D 얼굴 애니메이션 기능을 OLLMs에 추가하는 오픈소스 옴니모달 프레임워크인 익스프레시브 옴니(Ex-Omni)를 제안합니다. Ex-Omni는 의미 추론과 시간적 생성을 분리하고, 음성 단위를 시간적 비계로 활용하며, 통제된 의미 주입을 위한 통합 토큰-어스-쿼리 게이트드 퓨전(TQGF) 메커니즘을 통해 학습 난이도를 낮춥니다. 또한 음성 수반 3D 얼굴 애니메이션으로 OLLMs의 성능 향상을 돕는 데이터셋인 InstructEx를 소개합니다. 폭넓은 실험을 통해 Ex-Omni가 기존 오픈소스 OLLMs와 비교하여 경쟁력 있는 성능을 보이면서도 안정적으로 정렬된 음성 및 얼굴 애니메이션 생성을 가능하게 함을 입증합니다.
장기 계획 수립은 자율적인 LLM 기반 에이전트의 핵심 능력으로 널리 인식되지만, 현재의 평가 체계는 대부분 일회성, 특정 도메인에 국한되거나 지속적인 경제 역동에 충분히 기반을 두지 못한 한계를 지닙니다. 본 연구에서는 상호작용 경제 환경에서의 연속적 계획-실행 의사 결정을 위한 일반화 가능한 벤치마크인 EcoGym을 소개합니다. EcoGym은 Vending, Freelance, Operation이라는 세 가지 다양한 환경으로 구성되며, 표준화된 인터페이스를 통한 통합 의사 결정 과정과 실질적으로 무제한에 가까운 시간 범위(평가용 365일 루프 기준 1000+ 단계) 내 예산이 할당된 행동으로 구현됩니다. EcoGym의 평가는 비즈니스 관련 결과(예: 순자산, 수입, DAU)에 기반하며, 부분 관찰 가능성과 확률적 요소 하에서 장기 전략적 일관성과 견고성을 목표로 합니다. 11개의 주요 LLM을 대상으로 진행한 실험은 체계적인 딜레마를 드러냈습니다: 세 가지 시나리오 모두에서 단일 모델이 우월한 성능을 보이지 않았습니다. 중요한 것은, 모델들이 높은 수준의 전략 또는 효율적인 행동 실행 중 한 측면에서 현저한 차선의 성능을 보인다는 점입니다. EcoGym은 투명한 장기 에이전트 평가와 현실적 경제 환경에서의 제어 가능성-유용성 상충 관계 연구를 위한 개방형 및 확장 가능한 테스트베드로 공개됩니다.
에이전트 코딩은 에이전트가 명령줄 인터페이스(CLI)와 같은 런타임 환경과 효과적으로 상호작용하여 의존성 문제 해결, 시스템 문제 수치 등의 작업을 완료할 수 있도록 요구합니다. 그러나 이러한 환경 집약적 작업을 대규모로 확보하여 에이전트의 능력을 향상시키는 방법은 아직 충분히 연구되지 않았습니다. 이를 해결하기 위해 Dockerfile과 에이전트 작업 간의 유사성에 기반하여, 실행 피드백을 안내자로 삼아 에이전트가 환경 기록을 시뮬레이션하고 탐색하도록 제안합니다. 정상적인 환경의 기록을 추적함으로써, 해당 상태를 런타임 오류가 발생한 이전 상태로 역전시킬 수 있으며, 여기서 버그가 있는 상태와 해당 오류 메시지를 패키징하여 작업을 도출할 수 있습니다. CLI-Gym이라는 우리의 방법을 통해 총 1,655개의 환경 집약적 작업이 도출되었으며, 이는 해당 분야 최대 규모의 컬렉션입니다. 더불어, 선별된 성공적인 궤적을 활용하여 LiberCoder라는 이름으로 미세 조정된 우리 모델은 Terminal-Bench에서 +21.1%p(46.1%로)의 상당한 절대적 성능 향상을 달성하여 다양한 강력한 베이스라인 모델을 능가했습니다. 우리가 아는 한, 이는 환경 집약적 작업의 확장 가능한 도출을 위한 최초의 공개 파이프라인입니다.
리깅된 3D 애셋은 3D 변형 및 애니메이션의 기초입니다. 그러나 기존 3D 생성 방법은 애니메이션 가능한 기하구조 생성에 어려움을 겪는 반면, 리깅 기술은 골격 생성에 대한 세밀한 구조적 제어가 부족합니다. 이러한 한계를 해결하기 위해 우리는 사용자 입력(2D로 그린 스트로크와 설명적 텍스트 프롬프트)으로부터 직접 리깅된 메시를 생성하는 새로운 프레임워크인 Stroke3D를 소개합니다. 우리의 접근 방식은 생성을 두 단계로 분리하는 이중 단계 파이프라인을 선구적으로 제시합니다: 1) 제어 가능한 골격 생성: 우리는 Skeletal Graph VAE(Sk-VAE)를 사용하여 골격의 그래프 구조를 잠재 공간에 인코딩하고, Skeletal Graph DiT(Sk-DiT)가 골격 임베딩을 생성합니다. 이 생성 과정은 의미를 위한 텍스트와 명시적 구조 제어를 위한 2D 스트로크 모두에 의해 조건화되며, VAE의 디코더는 최종적인 고품질 3D 골격을 재구성합니다. 2) TextuRig와 SKA-DPO를 통한 향상된 메시 합성: 그런 다음 생성된 골격을 조건으로 텍스처가 적용된 메시를 합성합니다. 이 단계를 위해 우리는 먼저 기존의 골격-메시 변환 모델을 향상시키기 위해, Objaverse-XL에서 선별된 캡션이 포함된 텍스처 및 리깅 메시 데이터셋인 TextuRig로 해당 모델의 학습 데이터를 증강합니다. 추가적으로, 우리는 골격-메시 정렬 점수를 기반으로 한 선호도 최적화 전략인 SKA-DPO를 사용하여 기하학적 정확도를 더욱 향상시킵니다. 이를 통해 우리의 프레임워크는 애니메이션 준비가 완료된 3D 콘텐츠를 생성하는 보다 직관적인 워크플로우를 가능하게 합니다. 우리가 알고 있는 한, 우리의 연구는 사용자가 그린 2D 스트로크를 조건으로 리깅된 3D 메시를 생성하는 최초의 사례입니다. 광범위한 실험을 통해 Stroke3D가 타당한 골격과 고품질 메시를 생성함을 입증합니다.
대규모 언어 모델(LLM)이 폴란드어 애플리케이션에 점점 더 많이 배포됨에 따라, 효율적이고 정확한 콘텐츠 안전 분류기의 필요성이 매우 중요해졌습니다. 본 논문에서는 두 가지 모델 변종(0.1B 매개변수 MMLW-RoBERTa-base 기반 모델과 0.5B 매개변수 PKOBP/polish-roberta-8k 기반 모델)으로 구성된 소형 폴란드어 안전 분류기 패밀리인 Bielik Guard를 소개합니다. 커뮤니티에서 주석을 단 6,885개의 폴란드어 텍스트 데이터셋으로 미세 조정된 이 모델들은 콘텐츠를 증오/공격성, 비속어, 성적 콘텐츠, 범죄, 자해의 다섯 가지 안전 범주로 분류합니다. 평가 결과, 두 모델 모두 여러 벤치마크에서 강력한 성능을 달성한 것으로 나타났습니다. 0.5B 변종은 테스트 세트에서 F1 점수 0.791(micro) 및 0.785(macro)로 최고의 전반적 판별 능력을 제공하는 반면, 0.1B 변종은 탁월한 효율성을 보여줍니다. 특히 Bielik Guard 0.1B v1.1은 실제 사용자 프롬프트에서 우수한 정밀도(77.65%)와 매우 낮은 거짓 양성 비율(0.63%)을 달성하여 동일한 모델 크기의 HerBERT-PL-Guard(정밀도 31.55%, FPR 4.70%)를 능가합니다. 해당 모델들은 공개되어 있으며, 특히 자해와 같은 민감한 범주에 대해 단순한 콘텐츠 차단이 아닌 적절한 응답을 제공하도록 설계되었습니다.
쿼리 처리(Query Processing, QP)는 대규모 소셜 네트워크 서비스(SNS) 검색 엔진에서 사용자 의도와 콘텐츠 공급을 연결하는 역할을 합니다. 기존 QP 시스템은 분리된 판별 모델(예: BERT)의 파이프라인에 의존하여 제한된 의미론적 이해와 높은 유지보수 부담을 겪어왔습니다. 대규모 언어 모델(LLM)이 잠재적인 해결책을 제시하지만, 기존 접근법들은 종종 하위 작업들을 고립적으로 최적화하여 본질적인 의미론적 시너지를 간과하고 독립적인 반복 작업을 필요로 합니다. 더욱이 표준 생성 방법론은 SNS 시나리오에 대한 기반이 부족한 경우가 많아, 개방형 도메인 코퍼스와 비공식적인 SNS 언어 패턴 사이의 격차를 해결하지 못하며 엄격한 비즈니스 정의를 준수하는 데 어려움을 겪습니다. 본 논문은 SNS 도메인에서 다중 작업 쿼리 이해를 위한 통합 생성형 LLM인 QP-OneModel을 제안합니다. 우리는 이질적인 하위 작업들을 통합된 시퀀스 생성 패러다임으로 재구성하고, 다중 보상 강화 학습으로 귀결되는 점진적인 3단계 정렬 전략을 채택했습니다. 더 나아가 QP-OneModel은 새로운 고충실도 의미 신호로서 의도 설명을 생성하여 쿼리 재작성 및 랭킹과 같은 다운스트림 작업을 효과적으로 증강시킵니다. 오프라인 평가 결과, QP-OneModel은 판별 기준 모델 대비 7.35%의 전반적 성능 향상을 달성했으며, NER(+9.01%) 및 용어 가중치 부여(+9.31%)에서显著的 F1 점수 상승을 보였습니다. 또한 뛰어난 일반화 능력을 나타내어 보이지 않는 작업에 대해 32B 모델을 7.60% 정확도로 능가했습니다. 샤오홍슈에 완전히 배포된 온라인 A/B 테스트를 통해 검색 관련성(DCG) 0.21% 최적화 및 사용자 재방문률 0.044% 상승이라는 산업적 가치를 확인했습니다.
대규모 이미지 편집 모델의 최근 발전은 텍스트 기반 지시에서 시각적 프롬프트 편집으로 패러다임을 전환하였으며, 여기서는 사용자 의도가 마크, 화살표, 시각-텍스트 프롬프트와 같은 시각적 입력으로부터 직접 추론됩니다. 이러한 패러다임은 사용성을 크게 확장하지만, 공격 표면 자체가 시각화된다는 중요한 그리고 충분히 탐구되지 않은 안전 위험을 동시에 도입합니다. 본 연구에서는 순수히 시각적 입력을 통해 악성 지시를 전달하는 최초의 시각-시각적 탈옥 공격인 Vision-Centric Jailbreak Attack(VJA)을 제안합니다. 이 새로운 위협을 체계적으로 연구하기 위해 이미지 편집 모델을 위한 안전 중심 벤치마크인 IESBench을 소개합니다. IESBench에 대한 광범위한 실험을 통해 VJA가 최신 상용 모델을 효과적으로 공격하여 Nano Banana Pro에서 최대 80.9%, GPT-Image-1.5에서 70.1%의 공격 성공률을 달성함을 입증합니다. 이 취약점을 완화하기 위해, 우리는 내성적 다중모달 추론에 기반한 학습 불필요 방어 기법을 제안하며, 이는 보조 보호 모델 없이 그리고 무시할 수 있는 계산 오버헤드로 낮은 정렬 수준의 모델의 안전성을 상용 시스템에 버금가는 수준으로 크게 향상시킵니다. 우리의 연구 결과는 새로운 취약점을 드러내며, 안전하고 신뢰할 수 있는 현대 이미지 편집 시스템 발전을 위한 벤치마크와 실용적인 방어 방안을 모두 제공합니다. 경고: 본 논문에는 대규모 이미지 편집 모델이 생성한 유해한 이미지가 포함되어 있습니다.
지식 그래프(KG)는 엔티티 간 관계를 연결하여 구조화된 사실 정보를 저장하며, 다양한 응용 분야에서 중요한 역할을 합니다. 이러한 응용 분야들은 KG의 사실 정확성에 의존하므로 사실 검증은 필수적이지만 여전히 어려운 과제입니다. 전문가의 수동 검증이 이상적이지만 대규모로 실행하기에는 실용적이지 않습니다. 자동화 방법은 가능성을 보여주지만 실제 KG에 적용하기에는 아직 부족한 점이 있습니다. 대규모 언어 모델(LLM)은 의미론적 이해와 지식 접근 능력으로 인해 잠재력을 가지고 있으나, KG 사실 검증에 대한 적합성과 효과는 아직 거의 연구되지 않았습니다. 본 논문에서는 LLM의 KG 사실 검증 능력을 세 가지 핵심 차원에서 평가하기 위한 벤치마크인 FactCheck를 소개합니다: (1) LLM의 내부 지식 활용; (2) 검증 증강 생성(RAG)을 통한 외부 증거 활용; (3) 다중 모델 합의 전략을 적용한 집계 지식 활용. 우리는 세 가지 다양한 실제 KG에 대해 오픈소스와 상용 LLM을 평가했습니다. FactCheck는 또한 KG 사실 검증에 특화된 200만 개 이상의 문서로 구성된 RAG 데이터셋을 포함합니다. 추가적으로 검증 결정을 분석하기 위한 대화형 탐색 플랫폼을 제공합니다. 실험 분석 결과, LLM이 유망한 결과를 보여주기는 하지만 실제 KG 검증 시나리오에 사용되기에는 아직 충분히 안정적이고 신뢰할 만하지 않음을 확인했습니다. RAG 방법을 통한 외부 증거 통합은 성능 변동을 보이며, 더 효율적인 접근법 대비 일관되지 않은 개선 효과를 제공합니다(더 높은 계산 비용과 함께). 마찬가지로, 다중 모델 합의 기반 전략도 개별 모델을 항상 능가하지는 않아, 만능 해결책의 부재를 강조합니다. 이러한 결과는 이 어렵지만 중요한 과제를 체계적으로 평가하고 발전시키기 위해 FactCheck와 같은 벤치마크의 필요성을 더욱 부각시킵니다.
명시적 사고 연쇄(Chain-of-Thought, CoT)는 대규모 언어 모델(LLM)에 강력한 추론 능력을 부여하지만, 모델이 모든 중간 단계를 텍스트 토큰으로 구술하도록 요구하여 모델의 사고를 이산적인 어휘 공간에 제한합니다. 최근 연속 잠재 공간에서의 추론이 유망한 대안으로 부상하며, 이산적인 토큰 제약을 넘어서는 더 강건한 추론과 유연한 계산을 가능하게 합니다. 그러나 현재의 잠재 패러다임은 은닉 상태를 반복적으로 입력 임베딩으로 사용할 때 발생하는 분포 불일치나, 보조 모델에 의존할 때 발생하는 정렬 문제로 인해 특징 붕괴와 불안정성을 겪는 경우가 많습니다. 이를 해결하기 위해 우리는 잠재 사고가 구성되고 배포되는 방식을 재정의하는 프레임워크인 잠재 사고 튜닝(Latent Thoughts Tuning, LT-Tuning)을 제안합니다. 우리의 방법은 원시 은닉 상태에만 의존하는 대신, 문맥적 은닉 상태와 어휘 임베딩 공간의 예측적 의미 지도를 공동으로 활용하는 Context-Prediction-Fusion 메커니즘을 도입합니다. 점진적인 3단계 커리큘럼 학습 파이프라인과 결합된 LT-Tuning은 잠재적 사고 모드와 명시적 사고 모드 간의 동적 전환도 가능하게 합니다. 실험 결과, 우리의 방법이 기존 잠재 추론 기준선을 능가하며 특징 붕괴를 효과적으로 완화하고 강건한 추론 정확도를 달성함을 입증합니다.
검증 가능한 보상을 통한 강화 학습(RLVR)은 최근 LLM 추론 능력을 강화했지만, 최종 답변 정확성에만 집중함으로써 중요한 한계를 남겼습니다. 바로 추론 과정 자체의 강건성을 보장하지 못한다는 점입니다. 우리는 '강건한 추론은 이를 생성한 주체를 넘어서도 유용하게 남아야 한다'는 단순한 철학적 관점을 채택하고, 추론을 단절, 재해석, 지속을 견뎌내야 하는 의미 전달의 한 형태로 간주합니다. 이 원칙에 기반하여 우리는 전이가능 보상 강화 학습(RLTR)을 제안합니다. RLTR은 한 모델에서 생성된 부분 추론 접두사가 별개의 모델로 하여금 정답에 도달하도록 안내할 수 있는지 테스트하는 전이 보상을 통해 강건성을 구현합니다. 이는 LLM이 안정적이고 해석 가능하며 진정으로 일반화 가능한 추론을 생성하도록 유도합니다. 우리의 접근 방식은 최종 답변 정확도를 향상시키면서 샘플링 일관성을 개선하며, 상당히 적은 훈련 단계로도 비슷한 성능에 도달합니다. 예를 들어 MATH500에서 RLTR은 RLVR 대비 Maj@64에서 +3.6%p 향상을 달성했으며, RLVR의 평균 정확도를 약 2.5배 더 적은 훈련 단계로 맞췄습니다. 이는 더 신뢰할 수 있는 추론과 상당히 향상된 샘플 효율성을 동시에 제공합니다.
추론 모델은 테스트 시점 연산 자원을 확장함으로써 문제 해결 능력을 향상시키지만, 지나친 사고 토큰이 성능 향상 대신 오히려 저하시키는 중요한 역설에 직면합니다. 우리는 이를 근본적인 아키텍처 결함으로 규정합니다: 표준 LLM은 "할당 전용(malloc-only)" 엔진처럼 작동하여 유효한 단계와 중복 단계를 가리지 않고 지속적으로 축적하지만, 쓸모없는 정보를 정리할 수 있는 메커니즘이 부재합니다. 이 악순환을 깨기 위해 우리는 Free()LM을 제안합니다. 이 모델은 플러그앤플레이 LoRA 어댑터인 Free-Module을 통해 본질적인 자기 망각 능력을 도입합니다. 추론 모드와 정리 모드 사이를 반복적으로 전환함으로써, Free()LM은 무의미한 콘텍스트 청크를 동적으로 식별하고 제거하여 간결하고 잡음이 없는 상태를 유지합니다. 광범위한 실험 결과, Free()LM은 모든 모델 규모(8B부터 685B까지)에서 일관된 성능 향상을 제공하는 것으로 나타났습니다. 이 모델은 최고 수준의 추론 베이스라인 대비 평균 3.3%의 성능 향상을 달성했으며, DeepSeek V3.2-Speciale를 사용한 IMOanswerBench에서 새로운 SOTA를 수립하기도 했습니다. 가장 주목할 만한 점은, 표준 Qwen3-235B-A22B 모델이 완전한 붕괴(0% 정확도)를 겪는 장기 과제에서 Free()LM이 성능을 50%로 회복시켰다는 것입니다. 우리의 연구 결과는 지속 가능한 지능이 사고하는 능력만큼이나 망각할 자유를 필요로 함을 시사합니다.
대규모 언어 모델(LLM) 기반 에이전트가 자율적으로 협상, 조정 및 거래를 수행할 것이라는 기대가 커지고 있지만, 기존 벤치마크는 다중 에이전트 간 언어 기반 경제적 상호작용을 평가하기 위한 체계적인 환경을 제공하지 못했습니다. 본 연구는 자연어로驱动的되는 다중 에이전트 구매자-판매자 협상을 위한 벤치마크 및 시뮬레이션 프레임워크인 AgenticPay를 소개합니다. AgenticPay는 구매자와 판매자가 각각 비공개 제약 조건과 제품 의존적 가치 평가를 보유하고, 숫자 입찰만이 아닌 다중 라운드 언어적 협상을 통해 합의에 도달해야 하는 시장을 모델링합니다. 본 프레임워크는 양자 간 협상에서 다대다 시장에 이르기까지 110개 이상의 다양한 작업을 지원하며, 구조화된 행동 추출 및 실행 가능성, 효율성, 후생을 측정하는 지표를 포함합니다. 최첨단 독점 및 오픈 웨이트 LLM에 대한 벤치마킹 결과, 협상 성능에서 상당한 격차가 나타났으며 장기 전략적 추론에서의 과제를 부각시켜, AgenticPay가 에이전트 기반 상거래 및 언어 기반 시장 상호작용 연구를 위한 기초를 마련함을 입증했습니다. 코드와 데이터셋은 다음 링크에서 이용 가능합니다: https://github.com/SafeRL-Lab/AgenticPay.
대규모 언어 모델(LLM) 코드 에이전트는 코드 수정, 도구 호출, 후보 패치 검증을 반복적으로 수행하며 저장소 수준 이슈 해결 능력을 점차 확대하고 있습니다. 이러한 워크플로우에서 에이전트는 실시간으로 테스트를 작성하는 방식을 자주 채택하는데, 이는 SWE-bench 리더보드 상위권 에이전트들이 흔히 사용하는 패러다임입니다. 그러나 흥미롭게도, 새로운 테스트를 거의 작성하지 않는 GPT-5.2 조차 최상위권 에이전트들과 유사한 성능을 달성할 수 있음을 관찰했습니다. 이는 중요한 질문을 제기합니다: 이러한 테스트가 실제로 이슈 해결을 의미 있게 개선하는지, 아니면 상당한 상호작용 예산을 소모하면서 단순히 인간의 테스트 관행을 모방하는 것에 불과한지입니다. 에이전트 작성 테스트의 영향을 규명하기 위해, 우리는 SWE-bench Verified에서 6개의 최신 LLM에 대한 에이전트 실행 궤적을 분석한 실증 연구를 제시합니다. 연구 결과에 따르면, 테스트 작성이 일반적으로 채택되기는 하지만, 동일 모델 내에서 해결된 작업과 해결되지 않은 작업이 유사한 테스트 작성 빈도를 보입니다. 더욱이 이러한 테스트는 일반적으로 관찰적 피드백 채널로 활용되며, 에이전트들은 형식적인 어설션 기반 검사보다 값을 출력하는 프린트 문을 선호하는 경향이 뚜렷합니다. 이러한 통찰을 바탕으로, 우리는 4개 에이전트의 프롬프트를 수정하여 테스트 작성을 증가시키거나 감소시키는 통제 실험을 수행했습니다. 결과는 에이전트 작성 테스트의 양 변화가 최종 결과에 유의미한 변화를 가져오지 않음을 시사합니다. 종합적으로, 우리의 연구는 현재의 테스트 작성 관행이 자율 소프트웨어 엔지니어링 작업에서 한계적인 효용만을 제공할 수 있음을 보여줍니다.
대규모 언어 모델(LLM)은 빠르고 비형식적인 개발 워크플로, 즉 속도와 편의성이 우선시되고 보안 요구사항이 명시적으로 제시되는 경우가 드문 '바이브 코딩(vibe coding)' 환경에서 코드 생성에 점점 더 많이 활용되고 있습니다. 이러한 환경에서 모델은 기능적으로는 정확하지만 안전하지 않은 코드를 빈번히 생성함으로써 점증하는 보안 위험을 초래하고 있습니다. 코드 보안을 개선하기 위한 기존 접근법은 전체 매개변수 미세 조정(full-parameter fine-tuning)이나 매개변수 효율적 적응(parameter-efficient adaptation)에 의존하는데, 이들은 비용이 많이 들고 치명적 망각(catastrophic forgetting)에 취약하거나, 제한된 해석 가능성과 제어력을 가진 거친 단위(coarse granularity)로 동작합니다. 본 논문에서는 코드 언어 모델의 보안을 기본적으로 개선하기 위한 뉴런 수준 프레임워크인 GoodVibe를 제시합니다. GoodVibe는 보안 관련 추론이 소수의 뉴런 하위 집합에 국한된다는 핵심 통찰에 기반합니다. 우리는 지도 보안 작업(supervised security task)의 그래디언트 기반 귀속 분석(gradient-based attribution)을 이용해 이러한 뉴런을 식별하고, 이 보안 핵심 부분 공간(security-critical subspace)만을 업데이트하는 뉴런 선택적 미세 조정(neuron-selective fine-tuning)을 수행합니다. 훈련 비용을 더욱 절감하기 위해 활성화 기반 뉴런 클러스터링(activation-driven neuron clustering)을 도입하여 최소의 오버헤드로 구조화된 업데이트를 가능하게 합니다. 우리는 C++, Java, Swift, Go를 포함한 보안 중점 프로그래밍 언어에 대해 6개의 LLM을 대상으로 GoodVibe를 평가했습니다. GoodVibe는 모델의 일반적인 유용성을 보존하면서 생성 코드의 보안을 상당히 개선하여, 기본 모델 대비 최대 2.5배 향상된 성능을 보였으며, 가변 매개변수 수를 4,700배 이상 적게 사용하여 전체 미세 조정 성능을 맞추거나 능가했고, 매개변수 효율적 기준 방법(LoRA) 대비 훈련 계산량을 3.6배 이상 감소시켰습니다. 우리의 결과는 뉴런 수준 최적화가 효율성이나 일반성을 희생하지 않으면서 코드 생성을 안전하게 만드는 효과적이고 확장 가능한 접근법을 제공함을 입증합니다.
자기 진화 메모리는 대규모 언어 모델(LLM) 기반 에이전트의 학습 가능한 매개변수 역할을 하며, 여기서 추출(경험으로부터 통찰을 추출)과 관리(메모리 저장소 업데이트)는 긴밀하게 조정되어야 합니다. 기존 방법은 주로 메모리 관리를 최적화하면서 메모리 추출을 정적 과정으로 취급하여, 에이전트가 강건한 메모리보다는 인스턴스 특이적 노이즈를 축적하는 일반화 성능 저하 문제가 발생했습니다. 이를 해결하기 위해 우리는 메모리 추출과 관리를 공동으로 최적화하는 자기 진화 에이전트 프레임워크인 UMEM(Unified Memory Extraction and Management)을 제안합니다. 특정 인스턴스에의 과적합을 완화하기 위해 의미론적 이웃 모델링을 도입하고 GRPO를 통해 이웃 수준 한계 효용 보상으로 모델을 최적화합니다. 이 접근 방식은 의미론적으로 관련된 질문 군집 전반에 걸쳐 메모리 효용성을 평가함으로써 메모리의 일반화 가능성을 보장합니다. 5개 벤치마크에서 진행한 폭넓은 실험 결과, UMEM이 경쟁력 있는 베이스라인을 크게 능가하며 다중 턴 상호작용 작업에서 최대 10.67%의 성능 향상을 달성함을 확인했습니다. 또한 UMEM은 지속적인 진화 과정에서 단조 증가 곡선을 유지합니다. 코드와 모델은 공개될 예정입니다.
동적이고 인간 중심 환경에서 로봇은 실시간 반응 제어를 유지하면서 언어 지시를 따라야 합니다. 비전-언어-행동(VLA) 모델은 유망한 프레임워크를 제공하지만, 의미론적 추론이 실시간 행동에 비해 본질적으로 지연됨에도 불구하고 시간적으로 정렬된 추론과 제어를 가정합니다. 우리는 행동 생성 중 지연된 의미론적 추론을 명시적으로 모델링하는 지연 인식 프레임워크인 Think-in-Control(TIC)-VLA를 소개합니다. TIC-VLA는 현재 관측값에 더해 지연된 비전-언어 의미론적 상태와 명시적 지연 메타데이터를 행동 생성의 조건으로 하는 지연된 의미론적-제어 인터페이스를 정의하여 정책이 비동기적 추론을 보상할 수 있도록 합니다. 또한 우리는 모방 학습 및 온라인 강화 학습 중 추론 지연을 주입하여 훈련을 비동기적 배치에 맞추는 지연 일관성 훈련 파이프라인을 제안합니다. 현실적인 평가를 지원하기 위해 우리는 동적 환경에서 언어 주도 내비게이션을 위한 물리학적으로 정확하고 사실적인 시뮬레이션 제품군인 DynaNav를 제시합니다. 시뮬레이션 및 실제 로봇에서의 광범위한 실험을 통해 TIC-VLA가 다중 초 단위 추론 지연 하에서도 견고한 실시간 제어를 유지하면서 기존 VLA 모델을 지속적으로 능가함을 보여줍니다. 프로젝트 웹사이트: https://ucla-mobility.github.io/TIC-VLA/
확산 모델은 뛰어난 생성 품질을 달성했지만, 다수의 순차적 노이즈 제거 단계에 의존하기 때문에 상당한 추론 비용이 발생하며, 이로 인해 추론 과정을 소수 단위 체제로 증류하려는 최근의 노력이 촉진되고 있습니다. 그러나 기존 증류 방법들은 일반적으로 선형 단축 경로를 사용하여 교사 궤적을 근사하는데, 이는 시간 단계에 따라 속도가 진화함에 따라 끊임없이 변화하는 교사 궤적의 접선 방향을 일치시키기 어렵게 만들어 품질 저하를 초래합니다. 이러한 한계를 해결하기 위해, 우리는 사전 학습된 교사 궤적을 근사하기 위해 명시적으로 비선형 흐름 궤적을 활용하는 소수 단계 증류 프레임워크인 ArcFlow를 제안합니다. 구체적으로 ArcFlow는 추론 궤적의 기저에 있는 속도장을 연속 운동량 프로세스의 혼합으로 매개변수화합니다. 이를 통해 ArcFlow는 속도 진화를 포착하고 일관된 속도를 외삽하여 각 노이즈 제거 단계 내에서 연속적인 비선형 궤적을 형성할 수 있습니다. 중요한 것은, 이 매개변수화를 통해 비선형 궤적의 해석적 적분이 가능해져 수치 이산화 오류를 회피하고 교사 궤적의 고정밀 근사가 이루어집니다. 이 매개변수화를 소수 단계 생성기로 학습시키기 위해, 우리는 경량 어댑터를 사용한 사전 학습 교사 모델에 대한 궤적 증류를 통해 ArcFlow를 구현합니다. 이 전략은 생성 다양성과 품질을 보존하면서 빠르고 안정적인 수렴을 보장합니다. 대규모 모델(Qwen-Image-20B 및 FLUX.1-dev)을 기반으로 구축된 ArcFlow는 원본 매개변수의 5% 미만만을 미세 조정하며, 원본 다단계 교사 대비 2회의 NFE로 40배의 속도 향상을 달성함과 동시도 품질 저하가 크지 않습니다. 벤치마크 실험은 ArcFlow의 정성적, 정량적 효과성을 모두 보여줍니다.
전문가 혼합(Mixture-of-Experts, MoE) 아키텍처의 빠른 도입은 대규모 언어 모델(LLM) 배포에 있어 중요한 전환점을 나타냅니다. MoE LLM은 토큰당 매개변수의 일부만 활성화하여 확장 효율성을 향상시키지만, 그 라우팅 구조는 새로운 안전 공격 표면을 도입합니다. 본 연구에서는 MoE LLM의 안전 관련 동작(예: 거절 응답)이 균일하게 분포되지 않고 소수의 전문가 집단에 집중되어 있음을 발견했습니다. 이를 바탕으로 우리는 라우팅 동역학을 활용하여 안전 정렬을 손상시키는 학습이 필요 없고 아키텍처에 구애받지 않는 공격 기법인 Large Language Lobotomy(L^3)을 제안합니다. L^3은 거절 응답과 상관관계가 있는 라우팅 패턴을 학습하고, 안전 동작을 특정 전문가에 귀속시킨 후, 유해한 출력이 생성될 때까지 가장 안전 관련성이 높은 전문가를 적응적으로 침묵시킵니다. 우리는 8개의 최첨단 오픈소스 MoE LLM에 대해 L^3을 평가했으며, 이 적응형 전문가 침묵 기법이 기존의 학습이 필요 없는 MoE 탈옥 방법을 능가하며 평균 공격 성공률을 7.3%에서 70.4%로, 최대 86.3%까지 증가시킨다는 것을 보여줍니다. 더욱이, 안전 장치를 우회하는 데는 일반적인 언어 유틸리티를 대부분 유지하면서 계층별 전문가의 20% 미만을 침묵시키는 것으로 충분했습니다. 이러한 결과는 효율성 중심의 MoE 설계와 강력한 안전 정렬 사이의 근본적인 긴장 관계를 드러내며, 향후 MoE LLM에서는 아키텍처 및 라우팅 인식 방법을 통해 안전 메커니즘을 보다 강력하게 분산시켜야 할 필요성을 시사합니다.
대규모 언어 모델(LLM) 개발의 주류 패러다임은 기본 모델을 사전 학습한 후 성능 및 모델 행동 향상을 위한 추가 학습을 수행하는 것이다. 그러나 하이퍼파라미터 최적화와 스케일링 법칙에 대한 연구는 주로 기본 모델의 검증 손실 관점에서 이루어져 하류 작업 적응 가능성을 간과해왔다. 본 연구에서는 사전 학습을 모델 가소성, 즉 기본 모델이 미세 조정을 통해 하류 작업에 성공적으로 적응하는 능력의 관점에서 분석한다. 우리는 사전 학습 과정의 핵심 정규화 매개변수인 가중치 감쇠의 역할에 주목한다. 체계적인 실험을 통해 더 큰 가중치 감쇠 값으로 학습된 모델이 더 높은 가소성을 보여, 하류 작업에서 미세 조정 시 더 큰 성능 향상을 나타낸다는 것을 입증한다. 이러한 현상은 사전 학습 후 성능이 낮게 나타난 기본 모델이 미세 조정 후에는 더 우수한 성능을 발휘할 수 있는 반직관적 트레이드오프를 초래할 수 있다. 가중치 감쇠가 모델 행동에 미치는 기제적 영향을 추가 분석한 결과, 이는 선형 분리 가능한 표현을 촉진하고 어텐션 행렬을 정규화하며 훈련 데이터에 대한 과적합을 감소시키는 것으로 나타났다. 결론적으로 본 연구는 교차 엔트로피 손실 이상의 평가 지표를 하이퍼파라미터 최적화에 활용하는 중요성을 입증하며, 단일 최적화 하이퍼파라미터가 모델 행동을 형성하는 다면적 역할을 규명한다.
컴퓨터 사용 에이전트(CUA)는 지난해 큰 진전을 이루었으나 여전히 사용자의 원래 의도에서 벗어나는 잘못된 조치를 빈번히 생성합니다. 이러한 잘못된 조치는 외부 공격(예: 간접 프롬프트 주입)이나 내부적 한계(예: 오류 추론)에서 비롯될 수 있습니다. 이는 CUA의 안전 위험을 초래할 뿐만 아니라 작업 효율성과 신뢰성을 저하시킵니다. 본 연구는 외부적으로 유발된 및 내부적으로 발생하는 잘못된 조치를 포괄적으로 다루며, CUA에서의 잘못된 조치 탐지 문제를 최초로 정의하고 연구합니다. 더 나아가 실제 CUA 배포 환경에서 흔히 나타나는 세 가지 범주를 식별하고, 인간이 주석을 단 행동 수준 정렬 레이블이 달린 현실적 궤적의 벤치마크인 MisActBench를 구축했습니다. 또한 실행 전 잘못된 조치를 탐지하고 구조화된 피드백을 통해 반복적으로 수정하는 실용적이고 보편적인 가드레일인 DeAction을 제안합니다. DeAction은 적절한 지연 오버헤드로 오프라인 및 온라인 평가에서 모든 기존 베이스라인을 능가합니다: (1) MisActBench에서 F1 점수 기준 절대값 15% 이상으로 베이스라인을 크게 앞섰으며, (2) 온라인 평가에서는 적대적 환경에서 공격 성공률을 90% 이상 감소시키면서 양성 환경에서는 작업 성공률을 유지하거나 오히려 향상시켰습니다.
지난 10년 동안 설명 가능한 AI는 주로 고정된 의사결정 구조 하에서 입력과 출력의 관계를 사후적으로 설명하는 개별 모델 예측 해석에 집중해왔습니다. 대규모 언어 모델(LLM)의 최근 발전은 다단계 경로를 통해 행동이 전개되는 자율적 AI 시스템을 가능하게 했습니다. 이러한 환경에서는 성공과 실패가 단일 출력이 아닌 일련의 의사결정 순서에 의해 결정됩니다. 유용하지만 정적 예측을 위해 설계된 설명 접근법이 시간에 따라 행동이 나타나는 자율적 환경에 어떻게 적용되는지는 여전히 불분명합니다. 본 연구에서는 속성 기반 설명과 경로 기반 진단을 두 환경에서 비교함으로써 정적 설명 가능성과 자율적 설명 가능성 간의 차이를 해소합니다. 이러한 차이를 명확히 하기 위해 정적 분류 작업에서 사용되는 속성 기반 설명과 자율적 벤치마크(TAU-bench Airline 및 AssistantBench)에서 사용되는 경로 기반 진단을 실증적으로 비교합니다. 연구 결과에 따르면 속성 방법이 정적 환경에서는 안정적인 특징 순위를 달성하지만(Spearman ρ=0.86), 자율적 경로에서 실행 수준 실패를 진단하는 데는 신뢰성 있게 적용될 수 없습니다. 반면 자율적 환경을 위한 경로 기반 루브릭 평가는 일관되게 행동 고장을 특정하며, 상태 추적 불일치가 실패한 실행에서 2.7배 더 빈번하게 발생하고 성공 확률을 49% 감소시킨다는 것을 보여줍니다. 이러한 결과는 자율적 AI 행동을 평가하고 진단할 때 자율적 시스템을 위한 경로 수준 설명 가능성으로의 전환을 촉구합니다.
연합 학습(Federated Learning, FL)은 여러 참여자가 원본 데이터를 공유하지 않고도 협력적으로 머신러닝 모델을 훈련할 수 있게 합니다. 그러나 훈련 전에 결측값, 일관성 없는 형식, 이질적 특성 스케일 등을 해결하기 위해 데이터 전처리가 반드시 수행되어야 합니다. 이러한 전처리 단계는 모델 성능에 매우 중요하지만, FL 연구에서는 대부분 간과되고 있습니다. 실제 FL 시스템에서는 개인정보 보호 제약으로 인해 원본 데이터의 중앙 집중화가 금지되며, 통신 효율성 요구로 인해 분산 전처리에 추가적인 어려움이 발생합니다. 본 논문에서는 집계 통계를 기반으로 한 연합 데이터 전처리 통합 프레임워크인 FedPS를 소개합니다. FedPS는 데이터 스케치 기법을 활용하여 지역 데이터셋을 효율적으로 요약하면서 핵심 통계 정보를 보존합니다. 이러한 요약 정보를 바탕으로 특성 스케일링, 인코딩, 이산화, 결측값 대체를 위한 연합 알고리즘을 설계하고, k-평균, k-최근접 이웃, 베이지안 선형 회귀와 같은 전처리 관련 모델을 수직 및 수평 FL 설정으로 확장합니다. FedPS는 실제 FL 배포를 위해 유연하고 통신 효율적이며 일관된 전처리 파이프라인을 제공합니다.
자기회귀 모델을 통한 생성적 추천은 검색과 순위 산정을 단일 조건부 생성 프레임워크로 통합해왔습니다. 그러나 이러한 모델을 강화학습(RL)으로 미세 조정할 경우 근본적인 확률-보상 불일치 문제가 자주 발생합니다. 기존의 가능도 중심 디코딩(예: 빔 서치)은 지역적으로 확률이 높은 접두사에 대한 근시안적 편향을 보이며, 이로 인해 두 가지 중요한 결함이 나타납니다: (1) 낮은 확률 분기 내 고보상 항목들이 조기에 제거되어 샘플링되기 어려운 탐색 부족 문제, (2) 높은 확률의 접두사를 공유하는 경로들이 낮은 그룹 내 분산을 지닌 높은 상관관계의 보상을 받아 RL의 비교 신호가 약화되는 이점 압축 문제입니다. 이러한 과제를 해결하기 위해 우리는 가치 지도 샘플링 및 트리 구조 이점 강화 프레임워크인 V-STAR를 제안합니다. V-STAR는 두 가지 상호 보완적 구성 요소를 통해 자기 진화형 루프를 형성합니다. 첫째, 결정적 노드를 식별하고 잠재력 높은 접두사를 선택적으로 심화시키는 가치 지도 효율 디코딩(VED)을 개발했습니다. 이는 포괄적인 트리 탐색 없이 탐색 효율을 향상시킵니다. 둘째, 유도된 트리 토폴로지를 활용하여 형제-상대적 이점을 계산하고 학습 신호를 결정적 분기 결정에 집중하는 Sibling-GRPO를 제안합니다. 오프라인 및 온라인 데이터셋에 대한 광범위한 실험을 통해 V-STAR가 최신 기준선을 능가하며, 엄격한 지연 시간 제약 하에서 우수한 정확도와 후보 집합 다양성을 제공함을 입증했습니다.
릴리즈 타임, 설정 시간, 자격 제약을 포함하는 비관련 병렬 머신 스케줄링 문제(UPMSP)는 중요한 다목적 최적화 과제를 제시한다. 기존 방법들은 총 가중 지연 시간(TWT)과 총 설정 시간(TST) 최소화 사이의 균형을 찾는 데 어려움을 겪는다. 본 논문은 Proximal Policy Optimization(PPO)과 그래프 신경망(GNN)을 활용한 심층 강화 학습 프레임워크를 제안한다. GNN은 작업, 머신, 설정의 복잡한 상태를 효과적으로 표현하여 PPO 에이전트가 직접적인 스케줄링 정책을 학습할 수 있도록 한다. 다목적 보상 함수의 지도 하에 에이전트는 TWT와 TST를 동시에 최소화한다. 벤치마크 인스턴스에 대한 실험 결과는 본 연구의 PPO-GNN 에이전트가 표준 디스패칭 규칙 및 메타휴리스틱을 크게 능가하며 두 목표 사이에서 우수한 균형을 달성함을 보여준다. 이는 복잡한 제조 스케줄링을 위한 강력하고 확장 가능한 솔루션을 제공한다.
AI 텍스트 탐지기들은 의미를 보존하면서 탐지를 회피하는 적대적 패러프레이징 공격으로 인해 심각한 강건성 문제에 직면해 있습니다. 본 연구에서는 현실적인 적대적 조건에서 탐지기 강건성을 스트레스 테스트하는 강화학습 프레임워크인 StealthRL을 소개합니다. StealthRL은 Qwen3-4B 모델에 LoRA 어댑터를 적용한 Group Relative Policy Optimization(GRPO)을 사용하여 다중 탐지기 앙상블에 대항하는 패러프레이징 정책을 학습하며, 탐지 회피와 의미 보존 사이의 균형을 맞추는 복합 보상 함수를 최적화합니다. 보안적으로 중요한 1% 오탐지율 운영 지점에서 세 가지 탐지기 패밀리(RoBERTa, FastDetectGPT, Binoculars)에 대해 6가지 공격 설정(M0-M5)을 평가했습니다. StealthRL은 거의 제로에 가까운 탐지율(평균 TPR@1%FPR 0.001)을 달성하고, 평균 AUROC를 0.74에서 0.27로 감소시키며, 99.9%의 공격 성공률을 보였습니다. 중요한 것은, 훈련 과정에서 노출되지 않은 별도의 탐지기 패밀리에 대해서도 공격이 효과적으로 전이되었으며, 이는 탐지기별 취약성이 아닌 공통적인 구조적 취약점이 존재함을 보여줍니다. 추가로 LLM 기반 리커트 점수 평가를 수행하고, 탐지 회피가 성공하는 원인을 설명하기 위해 탐지기 점수 분포를 분석하며, 부트스트랩 신뢰구간을 포함한 탐지기별 AUROC를 제시합니다. 우리의 결과는 현재 AI 텍스트 탐지 기술의 심각한 강건성 결함을 드러내고, StealthRL이 체계적인 적대적 평가 프로토콜로 자리매김함을 입증합니다. 코드와 평가 파이프라인은 https://github.com/suraj-ranganath/StealthRL에서 공개되어 있습니다.