번역이 포함된 일일 선별된 AI 연구 논문
계층적 추론 모델(Hierarchical Reasoning Model, HRM)은 서로 다른 주파수로 재귀하는 두 개의 작은 신경망을 사용하는 새로운 접근 방식이다. 이 생물학적으로 영감을 받은 방법은 스도쿠, 미로, ARC-AGI와 같은 어려운 퍼즐 과제에서 대규모 언어 모델(Large Language Models, LLMs)을 능가하며, 작은 모델(2,700만 개의 매개변수)과 적은 데이터(약 1,000개의 예시)로 학습되었다. HRM은 작은 네트워크로 어려운 문제를 해결하는 데 큰 잠재력을 가지고 있지만, 아직 충분히 이해되지 않았으며 최적이 아닐 수 있다. 우리는 HRM보다 훨씬 더 높은 일반화 성능을 달성하는 훨씬 간단한 재귀 추론 접근 방식인 Tiny Recursive Model(TRM)을 제안한다. TRM은 단 2개의 층으로 구성된 단일 작은 네트워크를 사용하며, 700만 개의 매개변수만으로 ARC-AGI-1에서 45%, ARC-AGI-2에서 8%의 테스트 정확도를 얻는다. 이는 대부분의 LLMs(예: Deepseek R1, o3-mini, Gemini 2.5 Pro)보다 높은 성능을 보이며, 매개변수의 0.01% 미만을 사용한다.
결과 중심 강화 학습(Outcome-driven reinforcement learning)은 대규모 언어 모델(LLMs)의 추론 능력을 발전시켜 왔지만, 현재 주류의 도구-보강 접근법은 전체 컨텍스트 하에서 사고와 도구 호출을 교차시키는 단일 통합 정책을 학습하는 방식으로, 이는 장기적인 작업과 다양한 도구에 대해 확장성이 떨어지며 새로운 시나리오에 대한 일반화 능력이 약합니다. 에이전트 시스템은 작업을 전문화된 모듈로 분해하여 유망한 대안을 제공하지만, 대부분은 학습 없이 동작하거나 다중 턴 상호작용의 실시간 동역학과 분리된 오프라인 학습에 의존합니다. 우리는 AgentFlow를 소개합니다. 이는 학습 가능한 실시간 에이전트 프레임워크로, 네 가지 모듈(플래너, 실행자, 검증자, 생성자)을 진화하는 메모리를 통해 조율하며, 다중 턴 루프 내에서 플래너를 직접 최적화합니다. 실시간 환경에서 온-정책 학습을 위해, 우리는 Flow-based Group Refined Policy Optimization(Flow-GRPO)을 제안합니다. 이는 장기적이고 희소한 보상의 신용 할당 문제를 해결하기 위해 다중 턴 최적화를 다루기 쉬운 단일 턴 정책 업데이트 시퀀스로 변환합니다. 이는 검증 가능한 단일 궤적 수준의 결과를 모든 턴에 브로드캐스트하여 지역적 플래너 결정을 전역적 성공과 일치시키고, 그룹 정규화된 이점을 통해 학습을 안정화합니다. 10개의 벤치마크에서, 7B 규모의 백본을 가진 AgentFlow는 검색 작업에서 14.9%, 에이전트 작업에서 14.0%, 수학 작업에서 14.5%, 과학 작업에서 4.1%의 평균 정확도 향상을 보이며 최고 성능의 베이스라인을 능가했고, GPT-4o와 같은 더 큰 독점 모델도 능가했습니다. 추가 분석은 실시간 최적화의 이점을 확인하며, 개선된 계획, 강화된 도구 호출 신뢰성, 모델 크기와 추론 턴에 따른 긍정적인 확장성을 보여줍니다.
도구 통합 추론은 에이전트 기반 애플리케이션을 가능하게 하는 핵심 초점으로 부상했습니다. 이 중에서도 DeepResearch 에이전트는 복잡하고 개방형 정보 탐색 작업에서 강력한 성능을 보이며 주목받고 있습니다. 우리는 두 가지 특화된 모델로 구성된 에이전트 시스템인 Fathom-DeepResearch를 소개합니다. 첫 번째는 Fathom-Search-4B로, Qwen3-4B를 기반으로 훈련된 DeepSearch 모델로, 실시간 웹 검색 및 타겟팅된 웹페이지 쿼리를 통해 증거 기반 조사에 최적화되었습니다. 이 모델의 훈련은 세 가지 혁신을 결합합니다: (i) 다중 에이전트 자기 대결을 통해 생성된 5K 샘플 데이터셋인 DUETQA로, 엄격한 웹 검색 의존성과 이질적 소스 근거를 강제합니다; (ii) GRPO의 제로 오버헤드 확장인 RAPO로, 커리큘럼 프루닝, 보상 인식 이점 스케일링, 프롬프트별 재생 버퍼를 통해 검증 가능한 보상과 함께 다중 턴 강화 학습을 안정화합니다; (iii) 각 도구 호출을 인지 행동 및 한계 효용으로 분류하는 조정 가능한 단계별 보상으로, 검색 궤적의 폭, 깊이, 범위에 대한 명시적 제어를 가능하게 합니다. 이러한 개선 사항들은 필요한 경우 20회 이상의 도구 호출을 안정적으로 확장할 수 있게 합니다. 두 번째는 Qwen3-4B를 기반으로 훈련된 Fathom-Synthesizer-4B로, 다중 턴 DeepSearch 흔적을 구조화되고 인용이 풍부한 DeepResearch 보고서로 변환하여 포괄적인 통합을 수행합니다. DeepSearch 벤치마크(SimpleQA, FRAMES, WebWalker, Seal0, MuSiQue) 및 DeepResearch-Bench에서 평가된 이 시스템은 오픈 가중치 범주에서 최첨단 성능을 달성하며, HLE, AIME-25, GPQA-Diamond, MedQA 등 다양한 추론 작업에서 강력한 일반화 능력을 보여줍니다.
프로세스 보상 모델(PRMs)은 최근 대규모 추론 모델(LRMs)의 추론 능력을 향상시키는 강력한 프레임워크로 부상했으며, 특히 테스트 타임 스케일링(TTS) 맥락에서 그 잠재력이 주목받고 있습니다. 그러나 테이블 기반 추론 영역에서 LRMs를 감독하는 데 있어서의 가능성은 아직 충분히 탐구되지 않았습니다. 본 연구는 실증적 분석을 통해 기존 PRMs가 텍스트 전용 추론 단계를 감독하는 데는 널리 채택되었지만, 하위 테이블 검색 및 스키마 상호작용과 같은 테이블 특화 작업에서는 어려움을 겪으며 심각한 성능 병목 현상을 초래한다는 점을 확인했습니다. 이러한 한계를 해결하기 위해, 우리는 TaTToo라는 새로운 테이블 기반 PRM 프레임워크를 제안합니다. TaTToo는 (i) 테이블 기반 추론 단계를 명시적으로 추론하고 (ii) 도구 기반 검증을 통합하여 정밀한 보상 감독을 제공합니다. 구체적으로, 우리는 먼저 테이블 검증 논리와 도구 기반 실행을 통합하여 60,000개 이상의 고품질 단계별 주석을 구성하는 확장 가능한 데이터 큐레이션 파이프라인을 설계했습니다. 수집된 데이터를 바탕으로, 우리는 TaTToo를 이중 단계 패러다임으로 학습시킵니다: 도구 사용 추론 패턴을 포착하기 위한 콜드 스타트 지도 미세 조정 단계와, 테이블 기반 검증과 모델을 정렬하기 위한 도구 기반 보상 형성 강화 학습 단계입니다. 우리는 새롭게 설계된 PRM이 유도하는 정책 개선에 대한 포괄적인 평가를 제공합니다. 수치 추론, 사실 확인, 데이터 분석을 아우르는 5개의 도전적인 테이블 기반 추론 벤치마크에서, TaTToo는 추론 시 하위 정책 LRMs를 30.9% 향상시켰으며, Qwen-2.5-Math-PRM-72B와 같은 강력한 PRM 베이스라인을 단 8B 파라미터로 능가했고, 다양한 TTS 전략에 걸쳐 강력한 일반화 능력을 입증했습니다.
자기회귀(AR) 대형 언어 모델(LLM)은 다양한 자연어 처리 작업에서 뛰어난 성능을 달성했지만, 그 내재적인 순차적 디코딩 방식은 추론 효율성을 제한합니다. 본 연구에서는 사전 학습된 AR 모델을 병렬 텍스트 생성을 위한 확산 언어 모델(dLLM)로 효율적으로 변환하는 Fast-dLLM v2를 제안합니다. 이 모델은 약 10억 개의 토큰만으로 미세 조정이 가능하며, 이는 Dream(5800억 토큰)과 같은 전체 주의력 확산 LLM에 비해 500배 적은 학습 데이터를 요구하면서도 원본 모델의 성능을 유지합니다. 우리의 접근 방식은 블록 확산 메커니즘과 보완적인 주의력 마스크를 결합한 새로운 학습 방법을 도입하여, AR 학습 목표를 희생하지 않으면서 블록 단위의 양방향 컨텍스트 모델링을 가능하게 합니다. 디코딩 속도를 더욱 가속화하기 위해, 우리는 계층적 캐싱 메커니즘을 설계했습니다: 블록 수준 캐시는 블록 간의 과거 컨텍스트 표현을 저장하고, 서브 블록 캐시는 부분적으로 디코딩된 블록 내에서 효율적인 병렬 생성을 가능하게 합니다. 우리의 병렬 디코딩 파이프라인과 결합된 Fast-dLLM v2는 표준 AR 디코딩 대비 최대 2.5배의 속도 향상을 달성하면서도 생성 품질을 저하시키지 않습니다. 다양한 벤치마크에서의 광범위한 실험을 통해 Fast-dLLM v2는 정확도 면에서 AR 기준 모델과 동등하거나 이를 능가하며, dLLM 중에서도 최고 수준의 효율성을 제공함을 입증했습니다. 이는 빠르고 정확한 LLM의 실용적 배포를 위한 중요한 진전을 의미합니다. 코드와 모델은 공개될 예정입니다.
확산 언어 모델은 자기회귀적 코더가 갖지 못한 양방향 컨텍스트와 중간 채우기 기능을 제공할 것으로 기대되지만, 실제 시스템은 여전히 무거운 편입니다. 우리는 TPU에서 훈련된 완전 오픈소스 훈련 파이프라인을 갖춘 1.7B 매개변수의 확산 코더인 CoDA를 소개합니다. CoDA는 대규모 확산 사전 훈련과 코드 중심의 중간 훈련 및 지시 튜닝을 결합하여, 추론 지연 시간을 경쟁력 있게 유지하는 신뢰도 기반 샘플링을 가능하게 합니다. Humaneval, MBPP, EvalPlus에서 CoDA-1.7B-Instruct는 7B 매개변수까지의 확산 모델을 능가하거나 동등한 성능을 보입니다. 우리의 릴리스에는 모델 체크포인트, 평가 도구 및 TPU 훈련 파이프라인이 포함되어 있어, 경량 확산 기반 코딩 보조 연구를 가속화할 수 있습니다.
확산(diffusion) 및 흐름 기반(flow-based) 비자기회귀(non-autoregressive, NAR) 모델들은 대규모 언어 모델링에서 강력한 가능성을 보여왔지만, 자동 음성 인식(automatic speech recognition, ASR)에서의 잠재력은 아직 크게 탐구되지 않았습니다. 우리는 ASR을 위한 효율적인 병렬 디코딩을 가능하게 하는 이산 흐름 매칭(discrete flow matching) 프레임워크인 Drax를 제안합니다. 학습과 추론을 더 잘 정렬하기 위해, 우리는 직접적인 무작위 노이즈에서 목표로의 전이 대신, 가능성이 높은 중간 추론 오류를 닮은 궤적을 통해 모델을 안내하는 오디오 조건부 확률 경로(audio-conditioned probability path)를 구성합니다. 우리의 이론적 분석은 일반화 격차(generalization gap)를 학습과 추론 점유율(occupancies) 간의 차이와 연결하며, 이는 누적 속도 오류(cumulative velocity errors)에 의해 제어됨을 보여줌으로써 우리의 설계 선택을 뒷받침합니다. 실험적 평가는 우리의 접근 방식이 최첨단 음성 모델과 동등한 인식 정확도를 달성하면서도 더 나은 정확도-효율성 균형을 제공함을 보여주며, 이산 흐름 매칭이 NAR ASR을 발전시키기 위한 유망한 방향임을 강조합니다.
추론 모델은 문제를 단계별로 접근하고 이를 하위 문제로 분해하며, 답을 도출하기 전에 긴 사고의 연쇄를 탐구함으로써 성능을 향상시킵니다. 그러나 모든 단계에 확장된 추론을 적용하면 상당한 중복이 발생하는데, 이는 하위 문제들이 난이도와 복잡성 면에서 크게 다르기 때문입니다. 소수의 핵심 단계만이 실제로 도전적이며 최종 답에 결정적인 반면, 많은 다른 단계들은 단순한 수정이나 간단한 계산만을 포함합니다. 따라서 자연스러운 아이디어는 추론 모델에 이러한 변동에 적응적으로 대응할 수 있는 능력을 부여하여 모든 단계를 동일한 수준의 정교함으로 처리하지 않는 것입니다. 이를 위해 우리는 단일 응답 내에서 추론의 깊이를 동적으로 조절하는 MixReasoning 프레임워크를 제안합니다. 그 결과, 사고의 연쇄는 어려운 단계에 대한 상세한 추론과 간단한 단계에 대한 간결한 추론이 혼합된 형태가 됩니다. GSM8K, MATH-500, AIME에서의 실험 결과, MixReasoning은 추론 길이를 단축시키고 정확도를 저해하지 않으면서도 효율성을 크게 개선함을 보여줍니다.
추론 능력은 대규모 언어 모델(LLM)이 복잡한 과제를 해결하는 데 있어 핵심적이지만, 신뢰할 수 있고 확장 가능한 추론을 달성하는 것은 여전히 어려운 과제로 남아 있습니다. 사고의 연쇄(Chain-of-Thought, CoT) 프롬프팅이 주류 접근법으로 자리 잡았지만, 기존 방법들은 통제되지 않은 생성, 불충분한 품질, 그리고 제한된 추론 경로 다양성 등의 문제를 겪고 있습니다. 최근 연구들은 코드를 활용하여 실행 가능한 단계에 기반을 둔 CoT를 강화하려는 시도를 보여주지만, 이러한 방법들은 일반적으로 미리 정의된 수학 문제에 국한되어 확장성과 일반화 능력이 제한됩니다. 본 연구에서는 코드 기반 증강을 통해 고품질, 검증 가능, 그리고 다양한 명령어-CoT 추론 데이터의 합성을 자동화하는 새로운 프레임워크인 Caco(Code-Assisted Chain-of-ThOught)를 제안합니다. 기존 연구와 달리, Caco는 먼저 통합 코드 형식으로 기존의 수학 및 프로그래밍 솔루션에 대해 코드 기반 CoT 생성기를 미세 조정한 후, 다양한 추론 흔적을 대규모로 데이터 생성합니다. 특히, 코드 실행과 규칙 기반 필터링을 통해 논리적 정확성과 구조적 다양성을 보장하는 자동화된 검증을 도입하고, 필터링된 출력을 자연어 명령어와 언어 CoT로 역설계하여 과제 적응성을 풍부하게 합니다. 이 폐쇄 루프 프로세스는 실행 가능성이 보장된 추론 데이터의 완전 자동화된, 확장 가능한 합성을 가능하게 합니다. 우리가 생성한 Caco-1.3M 데이터셋에 대한 실험은 Caco로 훈련된 모델이 수학적 추론 벤치마크에서 강력한 경쟁력을 보이며, 기존의 강력한 베이스라인을 능가함을 보여줍니다. 추가 분석은 Caco의 코드 기반 검증과 명령어 다양성이 보이지 않는 과제에 대한 우수한 일반화에 기여함을 보여줍니다. 우리의 연구는 인간의 개입 없이 자체 지속 가능하고 신뢰할 수 있는 추론 시스템을 구축하는 패러다임을 확립합니다.
대규모 언어 모델(LLMs)은 단일 턴 텍스트-to-SQL 작업에서 뛰어난 성능을 보여주었지만, 실제 데이터베이스 애플리케이션에서는 모호한 쿼리, 실행 오류, 그리고 변화하는 사용자 요구사항을 처리하기 위해 주로 다중 턴 상호작용이 필요합니다. 기존의 다중 턴 벤치마크는 대화 기록을 정적 컨텍스트로 취급하거나 읽기 전용 작업으로 평가를 제한함으로써, 프로덕션급 데이터베이스 어시스턴트의 도전 과제를 충분히 반영하지 못하고 있습니다. 우리는 BIRD-INTERACT를 소개합니다. 이 벤치마크는 다음과 같은 방식으로 현실성을 복원합니다: (1) 각 데이터베이스와 계층적 지식 베이스, 메타데이터 파일, 그리고 함수 기반 사용자 시뮬레이터를 결합한 포괄적인 상호작용 환경을 제공하여, 모델이 인간의 감독 없이도 명확화를 요청하고 지식을 검색하며 오류에서 복구할 수 있도록 합니다; (2) 사전 정의된 대화 프로토콜(c-Interact)과 모델이 사용자 시뮬레이터에 쿼리하거나 환경을 탐색할 시기를 자율적으로 결정하는 개방형 에이전트 설정(a-Interact)으로 구성된 두 가지 평가 설정; (3) 비즈니스 인텔리전스 및 운영 사용 사례를 위한 전체 CRUD 스펙트럼을 다루는 도전적인 작업 세트로, 실행 가능한 테스트 케이스로 보호됩니다. 각 작업은 동적 상호작용을 요구하는 모호하고 후속 작업을 포함합니다. 이 세트는 포괄적인 성능 평가를 위한 BIRD-INTERACT-FULL(600개 작업, 최대 11,796회 상호작용)과 상세한 행동 분석 및 빠른 방법 개발을 위한 BIRD-INTERACT-LITE(300개 작업, 단순화된 데이터베이스)로 구성됩니다. 우리의 실험 결과는 BIRD-INTERACT의 난이도를 강조합니다: GPT-5는 c-Interact에서 8.67%, a-Interact에서 17.00%의 작업만 완료했습니다. 메모리 그래프팅과 상호작용 테스트-타임 스케일링을 통한 분석은 복잡하고 동적인 텍스트-to-SQL 작업에 효과적인 상호작용의 중요성을 검증합니다.
비디오 기반 4D 형상 생성은 입력 비디오로부터 시간에 따라 변화하는 3D 기하학적 구조와 시점 일관적인 외관을 직접 복원하는 것을 목표로 합니다. 본 연구에서는 비디오로부터 단일 동적 3D 표현을 종단 간(end-to-end)으로 합성하는 네이티브 비디오-투-4D 형상 생성 프레임워크를 소개합니다. 우리의 프레임워크는 대규모 사전 학습된 3D 모델을 기반으로 세 가지 핵심 구성 요소를 도입합니다: (i) 모든 프레임에 대해 생성 조건을 부여하면서 시간 인덱스 동적 표현을 생성하는 시간적 주의 메커니즘(temporal attention), (ii) 시간적으로 일관된 기하학적 구조와 텍스처를 촉진하는 시간 인식 포인트 샘플링 및 4D 잠재 앵커링(time-aware point sampling and 4D latent anchoring), 그리고 (iii) 시간적 안정성을 향상시키기 위한 프레임 간 노이즈 공유(noise sharing across frames)입니다. 우리의 방법은 프레임별 최적화 없이도 비강체 운동, 부피 변화, 심지어 위상 전환까지 정확하게 포착합니다. 다양한 실제 비디오에서 우리의 방법은 기준선(baselines) 대비 견고성과 지각적 충실도를 향상시키고 실패 모드를 줄입니다.
최근의 대규모 언어 모델(LLM) 사후 훈련 방법들은 강화 학습(RL) 과정에서 토큰 수준의 클리핑 메커니즘에 의존하고 있습니다. 그러나 우리는 이러한 결과 지도 강화 학습(OSRL) 패러다임의 근본적인 결함을 발견했습니다: 긍정적 이점을 가진 토큰들의 중요도 샘플링(IS) 비율이 불일치하여, 긍정적 토큰과 부정적 토큰 간의 가중치가 불균형하게 됩니다. 이러한 불일치는 낮은 확률의 토큰 업데이트를 억제하는 동시에 이미 높은 확률의 토큰을 과도하게 증폭시킵니다. 이를 해결하기 위해, 우리는 비대칭 중요도 샘플링 정책 최적화(ASPO)를 제안합니다. 이 방법은 긍정적 이점 토큰의 IS 비율을 뒤집어, 부정적 토큰의 학습 동역학과 일치하도록 업데이트 방향을 조정하는 간단하면서도 효과적인 전략을 사용합니다. ASPO는 또한 극단적인 업데이트를 안정화하면서도 그래디언트 흐름을 유지하기 위해 소프트 듀얼 클리핑 메커니즘을 통합합니다. 코딩 및 수학적 추론 벤치마크에 대한 포괄적인 실험을 통해 ASPO가 조기 수렴을 크게 완화하고, 훈련 안정성을 개선하며, 강력한 GRPO 기반 베이스라인 대비 최종 성능을 향상시킴을 입증했습니다. 우리의 분석은 OSRL에서 토큰 수준 가중치의 역할에 대한 새로운 통찰을 제공하며, LLM RL에서 IS를 수정하는 것이 얼마나 중요한지 강조합니다. ASPO의 코드와 모델은 https://github.com/wizard-III/Archer2.0에서 확인할 수 있습니다.
학술 논문의 홍보는 연구 가시성을 높이는 중요한 수단이 되었습니다. 그러나 기존의 자동화된 방법들은 제한된 스토리텔링, 불충분한 미적 품질, 그리고 제약된 자기 조정 능력으로 인해 효율적이고 매력적인 전파를 달성하기 어려운 상황입니다. 이러한 도전 과제의 핵심에는 간단한 원칙이 있습니다: 올바르게 평가할 수 없다면 개선할 방법이 없습니다. 이를 해결하기 위해 우리는 EvoPresent를 소개합니다. 이는 일관된 내러티브, 미적 감각을 고려한 디자인, 그리고 가상 캐릭터를 통한 현실적인 발표 전달을 통합한 자기 개선 에이전트 프레임워크입니다. EvoPresent의 핵심은 PresAesth로, 다중 작업 강화 학습(RL) 미적 모델로서 신뢰할 수 있는 미적 점수, 결함 조정, 그리고 비교 피드백을 제공하여 제한된 미적 훈련 데이터 하에서도 반복적인 자기 개선을 가능하게 합니다. 이러한 방법을 체계적으로 평가하기 위해 우리는 EvoPresent 벤치마크를 도입했습니다. 이는 포괄적인 벤치마크로, 650편의 최상위 AI 컨퍼런스 논문과 멀티모달 리소스(슬라이드, 비디오, 스크립트)를 기반으로 한 발표 생성 품질 평가와, 다양한 미적 수준의 2,000쌍의 슬라이드로 구성된 미적 인식 평가를 포함하여 점수 매기기, 결함 조정, 그리고 비교에 대한 공동 훈련과 평가를 지원합니다. 우리의 연구 결과는 다음과 같은 점을 강조합니다: (i) 고품질의 피드백은 에이전트의 자기 개선에 필수적이며, 초기 능력만으로는 효과적인 자기 수정을 보장할 수 없습니다. (ii) 자동화된 생성 파이프라인은 시각적 디자인과 내용 구성 사이에서 트레이드오프를 보입니다. (iii) 다중 작업 RL 훈련은 미적 인식 작업에서 더 강력한 일반화 능력을 보여줍니다.
최근 생성형 의료 모델의 발전은 영상, 병리학, 임상 노트 등에서 보완적 증거를 통합하는 데 방해가 되는 모달리티 특정 시나리오에 의해 제약받고 있습니다. 이러한 단편화는 생의학 데이터 전반에 걸쳐 학습하고 추론할 수 있는 기초 모델로의 진화를 제한합니다. 우리는 모달리티 특정 구성 요소 없이 여러 모달리티 간의 공유 분포를 학습하는 최초의 의료 이산 확산 모델인 MeDiM을 제안합니다. MeDiM은 이미지와 텍스트 간 번역 및 프롬프트에 대한 응답으로 도메인 간 이미지-보고서 쌍을 공동으로 생성하는 여러 생성 작업을 통합합니다. 이산 확산 프레임워크를 기반으로 구축된 MeDiM은 공유 확률 공간을 통해 시각 및 언어 표현을 연결합니다. 통합적이고 유연한 의료 생성을 가능하게 하기 위해, 우리는 사전 지식과 교차 모달리티 추론을 활용하여 다중 모달리티 대형 언어 모델(MLLM)을 확산 백본으로 사용합니다. 두 가지 주요 설계가 도입되었습니다: (1) 양방향 컨텍스트를 위한 인과적 주의 마스크 제거, (2) 확산 인식을 위한 연속 시간 단계 임베딩 주입. 실험 결과, 고충실도 의료 생성(MIMIC-CXR에서 FID 16.60, PathGen에서 FID 24.19)과 정확한 보고서 생성(METEOR 0.2650 및 0.2580)이 입증되었습니다. 공동으로 생성된 이미지-보고서 쌍은 다운스트림 성능을 더욱 향상시켰으며(BLEU-1 +6.43%, BLEU-2 +18.57%, BLEU-3 +31.58%, METEOR +4.80%), MeDiM이 일관적이고 임상적으로 근거 있는 다중 모달리티 출력을 지원함을 보여줍니다.
최근 멀티모달 대형 언어 모델(MLLM)은 시각적 인식과 자연어 이해를 통합함으로써 방사선학 분야에서 주목할 만한 진전을 이루었습니다. 그러나 이러한 모델들은 종종 임상적으로 입증되지 않은 설명, 즉 의학적 환각(medical hallucinations)을 생성하는데, 이는 정확성과 영상 기반 출력을 요구하는 의료 응용 분야에서 심각한 위험을 초래합니다. 실증적 분석을 통해, 우리는 프롬프트 유도 환각이 방사선학 MLLM에서 여전히 만연하며, 이는 주로 임상 섹션에 대한 과도한 민감성 때문이라는 사실을 발견했습니다. 이를 해결하기 위해, 우리는 구조화된 임상 신호를 작업별 방사선학 전문가 모델에서 통합하는 학습 없고 검색 없는 추론 프레임워크인 임상 대조 코딩(Clinical Contrastive Coding, CCD)을 제안합니다. CCD는 생성 과정에서 토큰 수준의 로짓(logits)을 개선하기 위한 이중 단계 대조 메커니즘을 도입함으로써, 기본 MLLM을 수정하지 않고도 임상적 충실도를 향상시킵니다. 세 가지 데이터셋과 여러 모델에 대한 실험 결과, CCD는 방사선학 보고서 생성(RRG)에서 전반적인 성능을 꾸준히 개선하는 것으로 나타났습니다. MIMIC-CXR 데이터셋에서, 최첨단 RRG 모델에 CCD를 적용했을 때 RadGraph-F1 점수가 최대 17% 향상되었습니다. 우리의 접근 방식은 의학적 환각을 완화하기 위한 가볍고 일반화 가능한 솔루션을 제공함으로써, 방사선학 분야에서 전문가 모델과 MLLM을 효과적으로 연결합니다.
본 논문에서는 가변 길이 및 동시 다중 모드 생성을 가능하게 하는 최초의 비자기회귀적 다중 모델인 OneFlow를 소개한다. 텍스트와 이미지 생성 간의 엄격한 인과적 순서를 강제하는 자기회귀 모델과 달리, OneFlow는 이산적 텍스트 토큰을 위한 삽입 기반 Edit Flow와 이미지 잠재 변수를 위한 Flow Matching을 결합한다. OneFlow는 문법보다 내용을 우선시하는 계층적 샘플링을 통해 동시 텍스트-이미지 합성을 가능하게 한다. 1B에서 8B까지의 모델 크기에 걸친 통제된 실험을 통해, OneFlow가 최대 50% 적은 학습 FLOPs를 사용하면서도 생성 및 이해 작업에서 자기회귀적 기준 모델을 능가함을 입증한다. OneFlow는 자기회귀적 및 확산 기반 접근법을 모두 능가하면서 동시 생성, 반복적 정제, 자연스러운 추론과 같은 새로운 기능을 제공한다.
컨텍스트 내 추론의 핵심 요소는 언어 모델(LM)이 엔티티를 바인딩하여 나중에 검색할 수 있는 능력입니다. 예를 들어, LM은 "Ann loves pie"를 표현하기 위해 "Ann"을 "pie"에 바인딩함으로써, "누가 파이를 좋아하나요?"라는 질문에 "Ann"을 검색할 수 있습니다. 이전 연구에서는 바인딩된 엔티티의 짧은 목록을 대상으로 LM이 위치 기반 메커니즘을 통해 이러한 검색을 구현한다는 강력한 증거를 발견했습니다. 여기서 "Ann"은 컨텍스트 내 위치를 기반으로 검색됩니다. 본 연구에서는 이러한 메커니즘이 더 복잡한 설정으로 일반화되지 않음을 발견했습니다. 컨텍스트 내 바인딩된 엔티티의 수가 증가함에 따라, 위치 기반 메커니즘은 중간 위치에서 노이즈가 발생하고 신뢰성이 떨어집니다. 이를 보완하기 위해 LM은 위치 기반 메커니즘을 어휘 기반 메커니즘(바인딩된 대응물인 "pie"를 사용해 "Ann"을 검색)과 반사적 메커니즘(직접 포인터를 통해 "Ann"을 검색)으로 보강하는 것으로 나타났습니다. 9개의 모델과 10개의 바인딩 작업에 대한 광범위한 실험을 통해, LM이 이러한 메커니즘을 혼합하여 모델 동작을 이끌어내는 일관된 패턴을 발견했습니다. 이러한 통찰을 활용하여 세 가지 메커니즘을 모두 결합한 인과 모델을 개발했으며, 이 모델은 다음 토큰 분포를 95% 일치율로 추정합니다. 마지막으로, 본 모델이 엔티티 그룹이 교차된 더 긴 오픈엔드 텍스트 입력에도 일반화됨을 보여, 더 자연스러운 설정에서도 연구 결과의 견고성을 추가로 입증했습니다. 전반적으로, 본 연구는 LM이 컨텍스트 내에서 엔티티를 바인딩하고 검색하는 방식에 대한 더 완전한 그림을 제시합니다.
대규모 언어 모델(LLM)을 텍스트 인코더로 훈련하는 기존 방법들은 모델을 블랙박스 함수로 취급하여 정적 임베딩을 위해 생성 및 추론 능력을 버리고 대조 손실(contrastive loss)에 의존합니다. 우리는 GRACE(Generative Representation Learning via Contrastive Policy Optimization)라는 새로운 프레임워크를 소개합니다. 이 프레임워크는 대조 신호를 최소화해야 할 손실이 아니라 생성 정책을 안내하는 보상으로 재구성합니다. GRACE에서 LLM은 명시적이고 인간이 해석 가능한 근거(즉, 의미적 이해를 설명하는 구조화된 자연어 설명)를 생성하는 정책으로 작동합니다. 이러한 근거는 평균 풀링(mean pooling)을 통해 고품질 임베딩으로 인코딩됩니다. 정책 경사 최적화(policy gradient optimization)를 사용하여, 우리는 질문과 긍정적 쌍 간의 유사성을 최대화하고 부정적 쌍과의 유사성을 최소화하는 다중 구성 요소 보상 함수로 모델을 훈련합니다. 이를 통해 LLM은 불투명한 인코더에서 해석 가능한 에이전트로 변환되며, 그 추론 과정은 투명하고 검사 가능합니다. MTEB 벤치마크에서 GRACE는 광범위한 범주 간 이점을 제공합니다: 네 가지 백본 모델에 대해 평균적으로, 지도 학습 설정은 기본 모델 대비 전체 점수를 11.5% 향상시키고, 비지도 학습 변형은 6.9%를 추가하면서 일반적인 능력을 보존합니다. 이 작업은 대조 목표를 근거에 대한 보상으로 취급하여 표현 학습과 생성을 통합하여 더 강력한 임베딩과 투명한 근거를 생성합니다. 모델, 데이터 및 코드는 https://github.com/GasolSun36/GRACE에서 확인할 수 있습니다.
본 논문에서는 단안 카메라로 캐주얼하게 촬영된 비디오로부터 세계 좌표계에서 온라인 4D 인간-장면 재구성을 위한 통합된 피드포워드 프레임워크인 Human3R을 제안한다. 기존의 다단계 파이프라인, 인간과 장면 간의 반복적인 접촉 인식 정제, 그리고 인간 탐지, 깊이 추정, SLAM 전처리와 같은 높은 의존성을 요구하는 방법들과 달리, Human3R은 단일 순방향 패스("all-at-once")에서 전역 다중 인물 SMPL-X 신체("everyone"), 밀집 3D 장면("everywhere"), 그리고 카메라 궤적을 동시에 복원한다. 우리의 방법은 4D 온라인 재구성 모델인 CUT3R을 기반으로 하며, 파라미터 효율적인 시각적 프롬프트 튜닝을 사용하여 CUT3R의 풍부한 시공간 사전 지식을 보존하면서도 다중 SMPL-X 신체의 직접적인 판독을 가능하게 한다. Human3R은 높은 의존성과 반복적 정제를 제거한 통합 모델이다. 단일 GPU에서 단 하루 동안 비교적 소규모의 합성 데이터셋인 BEDLAM으로 훈련된 후, 실시간 속도(15 FPS)와 낮은 메모리 사용량(8 GB)으로 한 단계에서 다중 인간과 3D 장면을 일회성으로 재구성하는 우수한 성능을 달성한다. 광범위한 실험을 통해 Human3R이 전역 인간 운동 추정, 지역 인간 메쉬 복원, 비디오 깊이 추정, 카메라 포즈 추정 등 다양한 작업에서 최신 기술 수준 또는 경쟁력 있는 성능을 단일 통합 모델로 제공함을 입증한다. 우리는 Human3R이 간단하면서도 강력한 기준선으로서 하위 애플리케이션으로 쉽게 확장될 수 있기를 바란다. 코드는 https://fanegg.github.io/Human3R에서 확인할 수 있다.
현대 자연어 처리 모델은 전례 없는 규모를 달성했으나, 이들의 평가 도구는 종종 계산적 병목 현상으로 남아 연구 속도를 제한하고 있다. 이는 특히 강화 학습에서의 문장별 보상 신호와 같은 훈련 중 평가 지표에서 두드러지는데, 이러한 지표는 GPU에서 직접 토큰 ID 배치에 대해 효율적으로 작동해야 한다. 본 논문에서는 이러한 특정 사용 사례를 위해 처음부터 설계된 BLEU 지표의 새로운 구현체인 TensorBLEU를 소개한다. 우리의 접근 방식은 PyTorch 내에서 GPU 가속화된 문장별 계산을 위해 완전히 벡터화되었으며, 메모리 효율적인 카운팅 메커니즘을 도입했다. torch.unique를 사용하여 n-그램의 컴팩트하고 배치별 사전을 생성함으로써, 우리의 방법은 전통적인 해싱 기반 벡터화의 과도한 메모리 비용을 피해 대규모 어휘 모델에 실용적으로 적용할 수 있다. 우리는 TensorBLEU를 CPU 기반 토큰 ID BLEU 계산을 위한 표준 라이브러리인 NLTK와 비교 평가했다. 실험 결과, TensorBLEU는 소비자 등급 GPU(NVIDIA T4)에서 13배 이상, 데이터 센터 등급 하드웨어(NVIDIA A100)에서는 40배 이상의 속도 향상을 제공하는 것으로 나타났다. 이 성능은 상당한 병목 현상을 훈련 루프에서 무시할 수 있는 수준으로 전환한다. 개발 목적을 위한 "토큰 ID BLEU"로서의 역할을 명확히 정의하고 구현체를 오픈소스로 공개함으로써, 우리는 강화 학습 기반 모델 미세 조정과 같은 분야의 연구 가속화를 위한 강력한 도구를 제공한다.
문맥 내 순위 결정(In-context Ranking, ICR)은 정보 검색(Information Retrieval, IR)의 새로운 패러다임으로, 대형 언어 모델(LLM)의 문맥 이해 능력을 활용하여 작업 설명, 후보 문서 및 쿼리를 모델의 입력 프롬프트에 직접 통합하고, LLM에게 관련 문서를 식별하도록 요청하는 방식이다. 이 방법은 효과적이지만, 특히 후보 목록이 증가함에 따라 주의 연산(attention operation)이 문맥 길이에 대해 2차/초선형적으로 확장되기 때문에 효율성은 중요한 과제로 남아 있다. 이를 위해, 본 논문은 먼저 ICR을 위해 미세 조정된 LLM의 주의 메커니즘에서 내재적이고 활용 가능한 구조를 식별한다: (1) 문서 간 블록 희소성(inter-document block sparsity): 각 문서 블록 내에서는 주의가 밀집되어 있지만, 서로 다른 문서 간에는 희소하다; (2) 쿼리-문서 블록 관련성(query-document block relevance): 중간 레이어에서 특정 쿼리 토큰에서 문서 블록으로의 주의 점수는 해당 문서의 실제 관련성과 강한 상관관계를 가진다. 이러한 관찰에 동기를 부여하여, 우리는 BlockRank(Blockwise In-context Ranking)라는 새로운 방법을 제안한다. 이 방법은 (a) 관찰된 문서 간 블록 희소성을 구조적으로 강제하여 주의 복잡도를 2차에서 선형으로 줄이면서도 성능 저하 없이, (b) 미세 조정 중 보조적인 대조 학습 목표를 사용하여 실제 관련 문서에 대한 쿼리-문서 블록 관련성을 최적화하여 주의 기반 검색을 개선한다. BEIR, MSMarco 및 NQ에서 Mistral-7B를 사용한 실험 결과, FLARE Mistral은 기존의 최첨단 리스트와이즈 순위 결정기 및 통제된 미세 조정 기준선과 동등하거나 더 나은 성능을 보이면서도 추론 시 훨씬 더 효율적(100개의 MSMarco 문서에 대해 4.7배)이고, 약 500개의 문서(약 100K 문맥 길이)를 포함한 긴 문맥 단축 목록에 대해 1초 이내로 확장 가능하여, ICR을 위한 확장 가능하고 효과적인 솔루션을 제시한다.
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 강력한 패러다임이지만, 그 성공은 효과적인 탐색 전략에 달려 있습니다. 이상적인 탐색 전략은 두 가지 근본적인 과제를 극복해야 합니다: 샘플 품질을 유지하면서도 훈련 안정성을 보장해야 합니다. 표준 고정 온도 샘플링은 간단하지만, 높은 온도는 샘플 품질을 저하시키고 낮은 온도는 발견 가능성을 제한하기 때문에 이러한 상충되는 요구 사항을 균형 있게 조절하기 어렵습니다. 본 연구에서는 탐색이 시퀀스의 의미적 방향을 정의하는 초기 토큰에 가장 큰 영향을 미친다는 통찰에 기반하여, 더 간단하고 효과적인 전략인 탐색적 어닐링 디코딩(EAD)을 제안합니다. EAD는 생성 과정에서 샘플링 온도를 높은 값에서 낮은 값으로 점진적으로 조정함으로써 **초기에는 탐색, 후기에는 활용**이라는 직관적인 전략을 구현합니다. 이 동적 스케줄링은 초기에는 의미 있는 고수준의 다양성을 장려하고, 이후에는 샘플 품질을 유지하고 샘플링 분포를 목표 정책에 가깝게 유지하기 위해 온도를 점차 낮춥니다. 이는 안정적인 훈련에 필수적입니다. 우리는 EAD가 경량화된 플러그 앤 플레이 방식으로, 다양한 RLVR 알고리즘과 모델 크기에서 고정 온도 샘플링을 일관되게 능가하며 샘플 효율성을 크게 개선함을 입증합니다. 본 연구는 순차적 생성의 자연스러운 역학과 탐색을 조율하는 것이 LLM의 추론 능력을 향상시키는 견고한 방법임을 시사합니다.
다단계 추론 능력을 갖춘 대형 추론 모델(LRMs)은 놀라운 문제 해결 능력을 보여주지만, 여전히 잘 이해되지 않는 심각한 안전성 취약점을 드러내고 있습니다. 본 연구에서는 기계적 해석 가능성(mechanistic interpretability)의 관점에서 추론 모델에서 안전성 정렬(safety alignment)이 실패하는 이유를 조사합니다. 토큰 위치별 거부 의도를 추적하기 위해 선형 탐색(linear probing) 접근법을 사용하여, 우리는 '거부 절벽(refusal cliff)'이라는 현저한 현상을 발견했습니다: 잘 정렬되지 않은 많은 추론 모델이 유해한 프롬프트를 정확히 식별하고 사고 과정 동안 강한 거부 의도를 유지하지만, 출력 생성 직전 최종 토큰에서 거부 점수가 급격히 하락합니다. 이는 이러한 모델이 본질적으로 안전하지 않은 것이 아니라, 거부 의도가 체계적으로 억제되고 있음을 시사합니다. 인과적 개입 분석(causal intervention analysis)을 통해, 우리는 거부 행동에 부정적으로 기여하는 희소한 주의 헤드(attention heads) 집합을 식별했습니다. 이러한 헤드 중 단 3%만을 제거하면 공격 성공률을 10% 미만으로 줄일 수 있습니다. 이러한 기계적 통찰을 바탕으로, 우리는 가장 큰 거부 절벽을 보이는 훈련 예제를 식별하여 추론 모델의 안전성 정렬을 효율적으로 수리하는 새로운 데이터 선택 방법인 Cliff-as-a-Judge를 제안합니다. 이 접근법은 기존 안전성 훈련 데이터의 단 1.7%만을 사용하여 비슷한 수준의 안전성 개선을 달성함으로써, 안전성 정렬에서 '적을수록 더 많다(less-is-more)'는 효과를 입증합니다.
물리적 세계를 정확한 시뮬레이션 준비가 된 가상 환경으로 디지털화하는 것은 증강 현실, 가상 현실, 게임, 로보틱스 등 다양한 분야에서 상당한 기회를 제공합니다. 그러나 현재의 3D 재구성 및 장면 이해 방법들은 기하학적 완전성, 객체 상호작용, 물리적 타당성, 사실적인 렌더링, 또는 신뢰할 수 있는 동적 시뮬레이션을 위한 현실적인 물리적 특성 등 하나 이상의 중요한 측면에서 부족한 경우가 많습니다. 이러한 한계를 해결하기 위해, 우리는 이러한 요구 사항들을 동시에 달성하는 새로운 인터랙티브 3D 재구성 프레임워크인 HoloScene을 소개합니다. HoloScene은 객체의 기하학, 외관, 물리적 특성과 함께 계층적 및 객체 간 관계를 인코딩하는 포괄적인 인터랙티브 장면 그래프 표현을 활용합니다. 재구성은 관측 데이터, 물리적 제약 조건, 그리고 생성적 사전 지식을 통합된 일관된 목표로 통합하는 에너지 기반 최적화 문제로 공식화됩니다. 최적화는 샘플링 기반 탐색과 그래디언트 기반 정제를 결합한 하이브리드 접근 방식을 통해 효율적으로 수행됩니다. 결과적으로 생성된 디지털 트윈은 완전하고 정밀한 기하학, 물리적 안정성, 그리고 새로운 시점에서의 사실적인 렌더링을 보여줍니다. 여러 벤치마크 데이터셋에서 수행된 평가는 우수한 성능을 입증하며, 인터랙티브 게임과 실시간 디지털 트윈 조작에서의 실제 사용 사례는 HoloScene의 광범위한 적용 가능성과 효과를 보여줍니다. 프로젝트 페이지: https://xiahongchi.github.io/HoloScene.
대규모 언어 모델(LLMs)은 다양한 작업에서 인상적인 능력을 보여주지만, 이러한 성공이 진정한 추론 능력을 반영하는지 아니면 정교한 기억 능력을 반영하는지는 여전히 불분명합니다. 우리는 AInstein이라는 프레임워크를 소개합니다. 이 프레임워크는 LLMs가 도메인별 미세 조정, 검색 보강 또는 기타 외부 도움 없이 사전 학습된 파라미터 지식만을 사용하여 AI 연구 문제에 대한 유효한 해결책을 생성할 수 있는지를 테스트합니다. 우리의 접근 방식은 고품질 ICLR 2025 제출물에서 정제된 문제 설명을 추출한 후, 전문적인 솔버 에이전트가 제안과 비평의 반복적인 루프를 통해 기술적 해결책을 제안하고 개선하도록 합니다. 이는 과학적 탐구의 핵심인 제안, 검토, 수정의 사이클을 모방한 것입니다. 우리는 AInstein을 1,214개의 ICLR 논문에 대해 평가하며, 이 논문들은 수락 등급(Oral, Spotlight, Poster)에 따라 계층화되었습니다. 평가는 구조화된 루브릭에 따라 LLM-as-a-judge 패러다임을 사용하며, 이는 대상 수동 검사로 보완됩니다. 성능은 세 가지 메트릭으로 평가됩니다: 성공률(해결책이 문제를 해결하는가?), 재발견(인간이 제안한 방법과 일치하는가?), 그리고 독창성(유효하고 독창적인 접근법을 제공하는가?). 우리의 결과는 LLMs가 실행 가능한 해결책을 재발견하고 때로는 창의적인 대안을 제안할 수 있지만, 문제 해결 능력은 여전히 취약하며 문제의 프레이밍에 매우 민감하다는 것을 보여줍니다. 이러한 발견은 LLMs가 자율적인 과학적 문제 해결자로 작용할 수 있는 정도에 대한 첫 번째 대규모 증거를 제공하며, 그들의 잠재력과 현재의 한계를 강조합니다.
트레이닝 없이 가속화하는 방법은 디퓨전 모델 기반 비디오 생성 분야에서 진보된 연구 영역으로 부상하고 있습니다. 디퓨전 모델 추론 과정에서 잠재 변수의 중복성은 가속화를 위한 자연스러운 접근점을 제공합니다. 본 논문에서는 추론 과정을 인코딩, 노이즈 제거, 디코딩 단계로 분해하고, 캐시 기반 가속화 방법이 후반 두 단계에서 상당한 메모리 급증을 초래하는 것을 관찰했습니다. 이 문제를 해결하기 위해, 우리는 각 단계별 추론의 특성을 분석하고 메모리 소비를 줄이기 위한 단계별 전략을 제안합니다: 1) 비동기 캐시 스와핑, 2) 특징 청킹, 3) 잠재 변수 슬라이싱을 통한 디코딩. 동시에, 이 세 가지 전략으로 인해 발생하는 시간 오버헤드가 가속화로 얻는 이득보다 낮도록 보장합니다. 베이스라인과 비교했을 때, 우리의 접근 방식은 더 빠른 추론 속도와 더 낮은 메모리 사용량을 달성하면서도 품질 저하를 허용 가능한 범위 내로 유지합니다. 코드는 https://github.com/NKUShaw/LightCache 에서 확인할 수 있습니다.
직접 선호도 최적화(Direct Preference Optimization, DPO)는 대규모 언어 모델을 정렬하는 간단하면서도 효과적인 방법으로 부상했습니다. 그러나 고정된 온도 매개변수에 의존하기 때문에 다양한 선호도 데이터에 대한 학습이 최적화되지 못하고, 쉬운 예제에 과적합되거나 정보성이 높은 예제에서 충분히 학습하지 못하는 문제가 발생합니다. 이를 해결하기 위해 최근 몇 가지 방법이 제안되었습니다. IPO는 일반적인 과적합 문제를 해결하지만, 균일한 정규화로 인해 지나치게 보수적일 수 있습니다. 더 목표 지향적인 접근법인 베타-DPO는 자체적인 한계를 가지고 있습니다: 배치 수준의 적응 방식은 혼합된 마진 쌍에 단일의 타협된 온도를 적용하며, 선형 업데이트 규칙은 불안정한 음수 베타 값을 생성할 수 있고, 필터링 메커니즘은 잠재적으로 유용한 학습 신호를 버릴 수 있습니다. 본 연구에서는 안정적이고 데이터를 보존하며 인스턴스 수준의 해결책을 제공하는 마진 적응형 직접 선호도 최적화(Margin-Adaptive Direct Preference Optimization, MADPO)를 소개합니다. MADPO는 실용적인 두 단계 접근법을 사용합니다: 먼저 선호도 마진을 추정하기 위해 보상 모델을 학습시키고, 이 마진을 사용하여 각 학습 샘플에 대해 DPO 손실에 연속적이고 적응적인 가중치를 적용합니다. 이 재가중 방식은 어려운 쌍에 대해 증폭되고 쉬운 쌍에 대해 감쇠되는 효과적인 목표 마진을 생성하여 학습 신호에 대한 세밀한 제어를 가능하게 합니다. 우리는 MADPO가 잘 정의된 최적화 경계를 가지고 있으며 보상 모델 추정 오류에 강건하다는 것을 증명하는 포괄적인 이론적 분석을 제공합니다. 감정 생성 작업에 대한 실험을 통해 이론을 검증했으며, MADPO는 다양한 품질의 데이터셋에서 강력한 베이스라인을 일관되게 크게 능가했습니다. 고품질 데이터에서는 최고의 대비 방법 대비 최대 +33.3%, 저품질 데이터에서는 +10.5%의 성능 향상을 달성했습니다. 우리의 결과는 MADPO가 선호도 정렬에 있어 더 강건하고 원칙적인 접근법임을 입증합니다.
우리는 평형 역학 관점에서 구축된 생성 모델링 프레임워크인 Equilibrium Matching(EqM)을 소개한다. EqM은 기존의 확산 및 흐름 기반 생성 모델에서 사용되는 비평형적, 시간 조건적 역학을 버리고, 대신 암묵적 에너지 지형의 평형 기울기를 학습한다. 이를 통해 추론 시 최적화 기반 샘플링 프로세스를 채택할 수 있으며, 여기서 샘플은 학습된 지형에서 조정 가능한 스텝 크기, 적응형 최적화기, 그리고 적응형 계산을 통해 경사 하강법으로 얻어진다. EqM은 실험적으로 확산/흐름 모델의 생성 성능을 능가하며, ImageNet 256×256에서 1.90의 FID를 달성한다. 또한 EqM은 데이터 매니폴드에서 학습하고 샘플링하는 것이 이론적으로 타당하다. 생성 외에도 EqM은 부분적으로 노이즈가 추가된 이미지 노이즈 제거, OOD 탐지, 이미지 합성과 같은 작업을 자연스럽게 처리할 수 있는 유연한 프레임워크이다. 시간 조건적 속도를 통합된 평형 지형으로 대체함으로써, EqM은 흐름 모델과 에너지 기반 모델 사이의 더 긴밀한 연결을 제공하며, 최적화 주도 추론으로 가는 간단한 경로를 제시한다.
대규모 언어 모델(LLM)은 과학적 보조자로서의 잠재력을 가지고 있지만, 기존의 에이전트들은 알고리즘 진화에만 의존하거나 고립된 심층 연구에만 의존하는 방식으로 인해 중요한 한계에 직면해 있습니다. AlphaEvolve와 같은 순수 알고리즘 진화는 LLM의 내부 지식에만 의존하며 복잡한 도메인에서는 빠르게 정체에 이릅니다. 반면, 순수 심층 연구는 검증 없이 아이디어를 제안함으로써 비현실적이거나 구현 불가능한 해결책을 내놓는 경우가 많습니다. 우리는 DeepEvolve를 제안합니다. 이 에이전트는 심층 연구와 알고리즘 진화를 통합하여 외부 지식 검색, 크로스 파일 코드 편집, 그리고 피드백 기반 반복 루프 하에서의 체계적인 디버깅을 결합합니다. 각 반복은 새로운 가설을 제안할 뿐만 아니라 이를 개선, 구현, 테스트함으로써 피상적인 개선과 비생산적인 과도한 정제를 모두 피합니다. 화학, 수학, 생물학, 재료, 특허 등 9개의 벤치마크에서 DeepEvolve는 초기 알고리즘을 지속적으로 개선하며 실행 가능한 새로운 알고리즘을 생성하고 지속적인 성과를 보여줍니다. 무지도적 진화와 근거 없는 연구 사이의 간극을 메우는 DeepEvolve는 과학적 알고리즘 발견을 진전시키기 위한 신뢰할 수 있는 프레임워크를 제공합니다. 우리의 코드는 https://github.com/liugangcode/deepevolve에서 확인할 수 있습니다.
RAG(검색 증강 생성) 시스템과 웹 에이전트는 점점 더 다중 홉 심층 검색 작업에서 평가되고 있지만, 현재의 관행은 두 가지 주요 한계를 겪고 있습니다. 첫째, 대부분의 벤치마크는 질문 텍스트에 추론 경로를 노출시켜 모델이 자율적으로 추론 체인을 발견하기보다는 표면적인 단서를 따르도록 합니다. 둘째, 평가는 일반적으로 단일 통과율로 축소되어 다양한 행동을 하나의 점수로 압축하며, 실패가 부적절한 검색, 지식 활용의 미흡, 또는 부적절한 거부에서 비롯된 것인지 불분명하게 만듭니다. 이러한 문제를 해결하기 위해, 우리는 힌트가 없는 다중 홉 질문과 모델 행동의 완전한 추적성을 보장하는 통제된 위키피디아 샌드박스를 결합한 WebDetective 벤치마크와, 검색 충분성, 지식 활용, 거부 행동을 분리한 종합적인 평가 프레임워크를 제시합니다. 25개의 최신 모델에 대한 우리의 평가는 모든 아키텍처에서 체계적인 약점을 드러냈습니다: 모델들은 충분한 증거가 있음에도 불구하고 지식 활용에 어려움을 겪으며, 증거가 부족할 때 적절한 거부가 거의 없음을 보였습니다. 이러한 패턴은 오늘날의 시스템이 주어진 추론 경로를 실행하는 데는 뛰어나지만, 이를 발견해야 할 때는 실패한다는 근본적인 격차를 드러냅니다. 우리는 벤치마크가 식별한 도전을 명시적으로 타겟팅하는 에이전트 워크플로우인 EvidenceLoop를 개발했습니다. 이 워크플로우는 검증 루프와 체계적인 증거 추적을 통합하여 검색과 합성 능력을 모두 개선합니다. 이 베이스라인은 WebDetective의 진단 프레임워크가 구체적인 아키텍처 개선을 안내할 수 있음을 보여주며, 패턴을 따르는 에이전트가 아닌 진정으로 자율적인 추론 시스템을 개발하기 위한 중요한 도구로서 우리의 벤치마크를 확립합니다.
기존의 대부분의 에고센트릭 비전 이해 벤치마크는 주로 주간 시나리오에 초점을 맞추고 있어, 실제 응용에서 불가피한 저조도 조건을 간과하고 있습니다. 이러한 격차를 조사하기 위해, 우리는 야간 에고센트릭 비전을 위한 첫 번째 포괄적인 벤치마크인 EgoNight를 제안하며, 시각적 질의응답(VQA)을 핵심 과제로 삼습니다. EgoNight의 주요 특징은 주간과 야간이 정렬된 비디오를 도입하여, 주간 데이터를 활용해 야간 주석의 품질을 향상시키고 조명 조건 간의 명확한 성능 격차를 드러내는 것입니다. 이를 위해, 우리는 Blender로 렌더링된 합성 비디오와 실제 녹화물을 모두 수집하여 장면과 행동이 시각적 및 시간적으로 정렬되도록 보장합니다. 이러한 짝을 이루는 비디오를 활용하여, 우리는 새로운 주간-증강 야간 자동 라벨링 엔진과 광범위한 인간 검증을 통해 정제된 EgoNight-VQA를 구축합니다. 각 질의응답 쌍은 신뢰성을 위해 주석자에 의해 이중 검사됩니다. 총 90개의 비디오에 걸쳐 3658개의 질의응답 쌍이 포함된 EgoNight-VQA는 12가지 다양한 질의응답 유형을 포괄하며, 300시간 이상의 인간 작업이 투입되었습니다. 최첨단 멀티모달 대형 언어 모델(MLLMs)의 평가 결과, 주간에서 야간으로 전환할 때 상당한 성능 하락이 나타나 저조도 조건에서의 추론의 어려움을 강조합니다. VQA를 넘어, EgoNight는 주간-야간 대응 검색 및 야간 에고센트릭 깊이 추정이라는 두 가지 보조 과제를 도입하여 기존 모델의 한계를 더욱 탐구합니다. 우리는 EgoNight-VQA가 응용 중심의 에고센트릭 비전 연구를 발전시키고 조명 영역을 넘나드는 일반화된 모델 개발을 위한 강력한 기반을 제공할 것이라고 믿습니다. 모든 데이터와 코드는 승인 후 공개될 예정입니다.
헬스케어와 같은 민감한 영역에서 자율적 AI 에이전트를 배치하는 것은 안전, 보안, 개인정보 보호 측면에서 중대한 위험을 초래할 수 있습니다. 이러한 에이전트는 사용자의 목표에서 벗어나거나 데이터 처리 정책을 위반하거나 적대적 공격에 의해 손상될 가능성이 있습니다. 이러한 위험을 완화하기 위해서는 에이전트의 행동이 미리 정의된 안전 제약 조건을 준수함을 공식적으로 보장할 수 있는 메커니즘이 필요하며, 이는 기존 시스템이 완전히 해결하지 못한 과제입니다. 우리는 LLM 기반 에이전트를 위해 견고하고 검증 가능한 정확성을 목표로 이중 단계 아키텍처를 통해 공식적인 안전 보장을 제공하는 새로운 프레임워크인 VeriGuard를 소개합니다. 초기 오프라인 단계에서는 포괄적인 검증 프로세스가 진행됩니다. 이는 사용자의 의도를 명확히 하여 정확한 안전 사양을 수립하는 것으로 시작합니다. VeriGuard는 이후 행동 정책을 합성하고 이를 테스트 및 공식 검증에 적용하여 해당 사양을 준수함을 증명합니다. 이 반복적인 프로세스를 통해 정책이 정확하다고 판단될 때까지 개선됩니다. 이후 두 번째 단계에서는 온라인 행동 모니터링이 제공되며, VeriGuard는 런타임 모니터로 작동하여 실행 전에 제안된 각 에이전트 행동을 사전 검증된 정책에 대해 검증합니다. 이러한 철저한 오프라인 검증과 가벼운 온라인 모니터링의 분리는 공식적인 보장을 실질적으로 적용할 수 있게 하여 LLM 에이전트의 신뢰성을 크게 향상시키는 견고한 안전 장치를 제공합니다.
감정 지원 대화(ESC)는 대화를 통해 심리적 스트레스를 완화하고 감정적 가치를 제공하는 데 중요한 역할을 합니다. 최근 연구들은 주로 데이터 증강과 합성 코퍼스 구축에 초점을 맞추고 있지만, 효과적인 감정 지원의 기반이 되는 더 깊은 인지적 추론 과정을 간과하는 경우가 많습니다. 이러한 격차를 해결하기 위해, 우리는 대규모 합성 데이터에 의존하지 않고 ESC에서의 추론을 강화하는 새로운 프레임워크인 CARE를 제안합니다. CARE는 원본 ESC 훈련 데이터셋을 활용하여 모델이 논리적으로 일관되고 지원적인 응답을 생성하도록 유도함으로써 인지적 추론을 명시적으로 강화합니다. 이를 기반으로, 우리는 강화 학습을 추가적으로 활용하여 추론 과정을 세밀하게 조정하고 강화합니다. 실험 결과는 CARE가 응답의 논리적 타당성과 지원적 품질을 모두 크게 향상시켜, 공감적이고 인지적으로 견고하며 인간과 유사한 감정 지원 시스템의 발전을 이끌어냄을 보여줍니다.
대규모 언어 모델의 효율적인 배치를 위해 사후 양자화가 널리 채택되고 있지만, 양자화 견고성의 기저 메커니즘은 여전히 명확하지 않다. 우리는 32B 파라미터와 15T 학습 토큰에 이르는 오픈소스 언어 모델 학습 궤적 전반에 걸친 양자화 성능 저하를 포괄적으로 분석하여 학습 동역학과 양자화 성능 간의 관계를 정확히 평가하였다. 주요 발견은 대규모 학습 실행에서의 양자화 오류가 학습률과 다른 학습 하이퍼파라미터 간의 복잡한 상호작용에 의해 주도된다는 것이다. 특히, 학습률이 감소하면 검증 손실과 양자화 오류가 분기되며, 이는 학습 데이터 규모와 크게 무관하다. 학습 동역학에 대한 개입을 조사하고 양자화 견고성을 유리하게 조절할 수 있는 특정 구성을 식별하기 위해, 우리는 통제된 실험에서 최대 100B 토큰까지 자체 모델을 학습하였다. 우리의 결과는 데이터셋 규모 증가가 본질적으로 양자화 효과를 저해한다는 가정에 도전하며, 전략적인 학습 하이퍼파라미터 개입이 대규모에서 양자화 품질을 개선할 수 있음을 보여준다.
참조 비디오 객체 분할(Referring Video Object Segmentation, RVOS)은 자연어 설명을 기반으로 비디오 내 특정 객체를 분할하는 작업을 요구합니다. RVOS의 핵심 과제는 추상적인 언어적 개념을 특정 픽셀 집합에 고정시키고 비디오의 복잡한 동적 변화 속에서 이를 지속적으로 분할하는 것입니다. 이러한 어려움에 직면하여, 기존 연구는 종종 이 작업을 실용적인 '위치 파악 후 분할' 파이프라인으로 분해해 왔습니다. 그러나 이러한 계단식 설계는 의미를 대략적인 기하학적 프롬프트(예: 점)로 단순화함으로써 정보 병목 현상을 일으키며, 초기 언어 기반과 분할 과정이 분리되면서 시간적 일관성을 유지하기 어려운 문제가 있습니다. 이러한 근본적인 한계를 극복하기 위해, 우리는 RVOS를 조건부 연속 흐름 문제로 재개념화한 FlowRVS라는 새로운 프레임워크를 제안합니다. 이를 통해 사전 학습된 T2V 모델의 강점, 세밀한 픽셀 제어, 텍스트-비디오 의미 정렬, 그리고 시간적 일관성을 활용할 수 있습니다. 기존의 노이즈에서 마스크를 생성하거나 마스크를 직접 예측하는 방식 대신, 우리는 비디오의 전체적 표현에서 목표 마스크로의 언어 기반 직접 변형을 학습하는 방식으로 작업을 재구성합니다. 우리의 단일 단계 생성적 접근법은 모든 주요 RVOS 벤치마크에서 새로운 최첨단 결과를 달성했습니다. 구체적으로, MeViS에서 J&F 51.1(기존 SOTA 대비 +1.6), 제로샷 Ref-DAVIS17에서 73.3(+2.7)을 기록하며, 비디오 이해 작업을 연속 변형 과정으로 모델링하는 것의 상당한 잠재력을 입증했습니다.
대형 언어 모델(LLMs)은 사실적으로 보이지만 사실과는 다른 진술을 생성하는 환각(hallucination) 현상에 취약하다. 본 연구는 이러한 실패 모드의 내재적, 구조적 기원을 세 가지 주요 기여를 통해 탐구한다. 첫째, 내부 의미론적 실패를 신뢰성 있게 추적하기 위해, 우리는 분포적 의미론(distributional semantics)을 맥락의 함수로 간주하여 모델의 추론 과정을 인과적으로 매핑하는 통합 프레임워크인 분포적 의미론 추적(Distributional Semantics Tracing, DST)을 제안한다. 둘째, 환각이 불가피해지는 모델의 계층을 특정하여, 모델의 내부 표현이 사실성에서 되돌릴 수 없이 벗어나는 특정 결정 계층(commitment layer)을 식별한다. 셋째, 이러한 실패의 근본적인 메커니즘을 규명한다. 우리는 이중 과정 이론(dual-process theory)의 관점에서 해석할 수 있는 두 가지 구별되는 계산 경로 간의 충돌을 관찰한다: 빠르고 휴리스틱한 연상 경로(System 1에 유사)와 느리고 신중한 맥락적 경로(System 2에 유사)로, 이는 '추론 단축점 탈취(Reasoning Shortcut Hijacks)'와 같은 예측 가능한 실패 모드로 이어진다. 우리의 프레임워크는 맥락적 경로의 일관성을 정량화할 수 있으며, 이는 환각 발생률과 강한 음의 상관관계(rho = -0.863)를 보여주어 이러한 실패가 내부 의미론적 약점의 예측 가능한 결과임을 시사한다. 이를 통해 트랜스포머(Transformer) 아키텍처 내에서 환각이 어떻게, 언제, 왜 발생하는지에 대한 기계론적 설명을 제공한다.
가우시안 프로세스(GP) 회귀는 원자 좌표에 대한 에너지와 그 도함수를 평가해야 하는 횟수를 줄임으로써 고차원 에너지 표면에서의 안장점 탐색을 가속화하는 전략을 제공합니다. 그러나 하이퍼파라미터 최적화에서의 계산 오버헤드는 클 수 있으며, 이로 인해 접근 방식이 비효율적일 수 있습니다. 또한, GP 모델이 충분히 잘 표현하지 못하는 영역으로 탐색이 너무 멀리 진행되면 실패가 발생할 수도 있습니다. 본 연구에서는 이러한 문제를 기하학적 최적 수송 측정법과 원자 유형별 Wasserstein-1 거리의 합을 사용한 능동적 가지치기 전략을 통해 해결합니다. 이는 가장 먼 점 샘플링에서 기하학적으로 다양한 구성을 고정 크기 부분집합으로 선택하여, 더 많은 관측이 이루어짐에 따라 GP 업데이트 비용이 급격히 증가하는 것을 방지합니다. 또한, 순열 불변 메트릭을 통해 신뢰 반경을 제공하여 조기 중단을 가능하게 하고, 신호 분산의 증가에 대한 로그 장벽 페널티를 적용하여 안정성을 강화합니다. 이러한 물리적으로 동기를 부여받은 알고리즘 변경 사항은 이전에 발표된 화학 반응 데이터 세트에서 238개의 도전적인 구성에 대한 평균 계산 시간을 절반 이하로 줄임으로써 그 효능을 입증했습니다. 이러한 개선을 통해 GP 접근법은 에너지와 원자 힘의 평가에 상당한 계산 노력이 필요한 경우 안장점 탐색을 가속화하는 강력하고 확장 가능한 알고리즘으로 자리 잡았습니다.
비전-언어 모델(VLMs)은 일반적으로 짧은 텍스트 윈도우(<77 토큰)로 사전 학습되어, 긴 형식의 캡션을 잘라내야 하는 상황을 초래합니다. 그러나 대규모 오픈 소스 문헌에서 추출한 생물의학 캡션의 분포를 살펴보면, 상당 부분이 77 토큰을 훨씬 초과하는 것으로 나타났습니다. 이를 위해, 우리는 VLMs의 텍스트 인코더 컨텍스트 길이를 확장하여 긴 형식의 생물의학 캡션에 대한 사전 학습의 영향을 조사했습니다. 더 긴 컨텍스트(따라서 긴 형식 캡션에서 제공되는 추가적인 지도 학습)는 더 나은 검색 및 분류 성능과 상관관계가 있음을 발견했습니다. 이러한 발견을 바탕으로, 우리는 전체 텍스트 기사에서 컨텍스트 인식 설명을 포함한 1M개의 이미지-캡션 쌍으로 구성된 BIOMEDICA-LongCAP 데이터셋을 소개합니다. 이 데이터셋은 더 길고 추가적인 텍스트 지도 학습을 제공합니다. BIOMEDICA-LongCAP를 사용하여, 우리는 최대 512 토큰의 윈도우를 지원하는 텍스트 인코더를 가진 BMC-LongCLIP이라는 긴 컨텍스트 생물의학 VLM을 학습시켰습니다. 우리의 모델은 컨텍스트 용량을 6.6배 확장하여 토큰 낭비를 55%에서 단 2.2%로 줄였습니다. 긴 캡션 검색 벤치마크에서 BMC-LongCLIP은 Recall@1에서 최대 +30%의 절대적 향상과 분류에서 평균 +2%의 개선을 달성했으며, 짧은 컨텍스트보다 더 빠르게 수렴했습니다. 우리의 결과는 긴 컨텍스트 모델링이 생물의학 VLMs을 발전시키기 위한 유망한 방향임을 보여줍니다.
실제 세계에서의 대규모 언어 모델 배포(예: 대화형 AI 시스템, 코드 생성 보조 도구)는 사용자가 개선, 수정 및 선호 표현을 통해 더 나은 답변을 찾아가는 과정에서 자연스럽게 풍부한 암묵적 사용자 불만족(DSAT) 신호를 생성하는 반면, 명시적 만족(SAT) 피드백은 드물게 발생합니다. 기존의 선호 학습 접근법은 이러한 데이터 프로파일과 잘 맞지 않는데, 이는 비용이 많이 드는 인간 주석에 의존하거나 풍부한 긍정적 응답을 가정하기 때문입니다. 본 논문에서는 DRIFT(Dissatisfaction-Refined Iterative preFerence Training)를 소개합니다. DRIFT는 실제 세계의 DSAT 신호에 기반하여 학습을 고정하고, 진화하는 정책에서 긍정적 샘플을 동적으로 추출합니다. 실험적으로, 실제 세계의 WildFeedback 데이터셋과 합성 UltraFeedback 데이터셋으로 학습된 DRIFT 모델은 WildBench Task Score에서 7B 모델 기준 +6.23%, 14B 모델 기준 +7.61%의 성능 향상을 보였으며, AlpacaEval2 승률에서는 7B 모델 기준 +8.95%, 14B 모델 기준 +12.29%의 향상을 달성하여, 반복적 DPO 및 SPIN과 같은 강력한 베이스라인 방법을 능가했습니다. 더 큰 규모에서는 이러한 개선이 특히 두드러졌는데, DRIFT로 학습된 14B 모델은 WildBench에서 GPT-4o-mini를 능가했습니다. 추가 분석은 DRIFT가 탐색 능력을 유지하며, 좁은 부분 집합으로 수렴하지 않고 더 다양한 고수익 솔루션을 생성한다는 것을 보여줍니다. 이론적으로, 이 설계는 선호 마진을 유지하고 그래디언트 퇴화를 방지함을 입증합니다. 이러한 결과는 DRIFT가 가장 풍부하고 유익한 신호를 활용한 실제 세계의 사후 학습을 위한 효과적이고 확장 가능한 방법임을 보여줍니다. 코드와 데이터는 https://github.com/cacayaya/DRIFT.git에서 확인할 수 있습니다.
코드 데이터가 대형 언어 모델(LLM)의 추론 능력을 향상시킨다는 것이 입증되었지만, 코드의 어떤 측면이 가장 큰 영향을 미치는지는 여전히 명확하지 않습니다. 우리는 이 질문을 체계적이고 데이터 중심의 프레임워크를 통해 조사합니다. 우리는 10가지 프로그래밍 언어로 구성된 병렬 명령어 데이터셋을 구축하고, 코드의 구조적 또는 의미적 속성을 선택적으로 방해하는 제어된 변형을 적용합니다. 그런 다음 5개 모델 패밀리와 8가지 규모의 LLM을 각 변형에 대해 미세 조정하고, 자연어, 수학, 코드 작업에서의 성능을 평가합니다. 3,331개의 실험을 통해 우리는 LLM이 특히 수학 및 코드 작업에서 의미적 변형보다 구조적 변형에 더 취약하다는 것을 보여줍니다. 의사코드와 플로우차트와 같은 적절한 추상화는 코드만큼 효과적일 수 있으며, 원래 구문을 따르지 않고 동일한 정보를 더 적은 토큰으로 인코딩하면 종종 성능을 유지하거나 심지어 향상시킬 수 있습니다. 놀랍게도, 표면적 규칙성이 유지되는 경우 오류가 있는 코드도 여전히 경쟁력을 유지할 수 있습니다. 마지막으로, 구문 스타일도 작업별 이득을 형성하며, Python은 자연어 추론에 유리하고 Java 및 Rust와 같은 저수준 언어는 수학에 유리합니다. 우리의 체계적인 프레임워크를 통해 코드의 다양한 속성이 추론에 어떻게 영향을 미치는지 통찰을 제공하고, LLM의 추론 능력을 향상시키기 위한 훈련 데이터 설계에 정보를 제공하고자 합니다.
머신러닝 모델의 성능은 학습 데이터에 크게 의존합니다. 대규모로 잘 주석 처리된 데이터셋의 부족은 강력한 모델을 구축하는 데 있어 상당한 어려움을 야기합니다. 이를 해결하기 위해 시뮬레이션과 생성 모델을 통해 생성된 합성 데이터가 유망한 해결책으로 부상하며, 데이터셋의 다양성을 높이고 모델의 성능, 신뢰성 및 견고성을 개선하고 있습니다. 그러나 이러한 생성된 데이터의 품질을 평가하기 위해서는 효과적인 지표가 필요합니다. 본 논문은 모델 학습의 수렴을 요구하지 않고 객체 탐지 작업을 위한 데이터 품질을 평가하기 위해 합성 데이터셋 품질 지표(Synthetic Dataset Quality Metric, SDQM)를 소개합니다. 이 지표는 자원이 제한된 객체 탐지 작업에서 핵심적인 문제를 해결하며, 합성 데이터셋의 보다 효율적인 생성과 선택을 가능하게 합니다. 우리의 실험에서 SDQM은 선도적인 객체 탐지 모델인 YOLOv11의 평균 정밀도(mean Average Precision, mAP) 점수와 강한 상관관계를 보였으며, 기존 지표들은 중간 또는 약한 상관관계만을 보였습니다. 또한, 이 지표는 데이터셋 품질을 개선하기 위한 실행 가능한 통찰력을 제공하여 비용이 많이 드는 반복 학습의 필요성을 최소화합니다. 이 확장 가능하고 효율적인 지표는 합성 데이터 평가를 위한 새로운 기준을 제시합니다. SDQM의 코드는 https://github.com/ayushzenith/SDQM에서 확인할 수 있습니다.
딥러닝 모델을 통한 자동 코드 인식(Automatic Chord Recognition, ACR)은 점차적으로 유망한 인식 정확도를 달성해 왔지만, 여전히 두 가지 주요 과제가 남아 있습니다. 첫째, 기존 연구는 주로 오디오 도메인 ACR에 초점을 맞추어 왔으며, 악보와 같은 기호 음악(symbolic music)에 대한 ACR은 데이터 부족으로 인해 제한적인 관심만을 받아왔습니다. 둘째, 기존 방법들은 여전히 인간의 음악 분석 관행과 일치하는 전략을 간과하고 있습니다. 이러한 과제를 해결하기 위해 우리는 두 가지 기여를 합니다: (1) 템포가 정렬된 콘텐츠와 코드, 박자, 조성, 박자표에 대한 인간이 수정한 레이블을 포함한 개선된 버전의 POP909 데이터셋인 POP909-CL을 소개하며, (2) 코드 인식 작업을 경계 탐지 및 코드 루트, 품질, 베이스(인버전)의 반복적 순위 매기기와 같은 다양한 결정 단계로 분해하는 기호 코드 인식 모델인 BACHI를 제안합니다. 이 메커니즘은 인간의 청음 훈련 관행을 반영합니다. 실험 결과, BACHI는 클래식 및 팝 음악 벤치마크에서 최첨단 코드 인식 성능을 달성하며, 각 모듈의 효과를 검증하는 어블레이션 연구를 통해 그 유효성을 입증했습니다.
AI 모델은 데이터 분석 및 시각화에 점점 더 많이 사용되고 있지만, 벤치마크는 산점도 특화 작업을 거의 다루지 않아 성능에 대한 통찰이 제한적입니다. 가장 일반적인 차트 유형 중 하나인 산점도에 대한 이 격차를 해소하기 위해, 우리는 6개의 데이터 생성기와 17가지 차트 디자인에서 생성된 18,000개 이상의 주석이 달린 합성 데이터셋과 이를 기반으로 한 벤치마크를 소개합니다. OpenAI와 Google의 독점 모델을 클러스터 경계 상자, 중심 좌표, 이상치 좌표의 주석에서 도출된 5가지 작업에 대해 N-shot 프롬프팅을 사용하여 평가했습니다. OpenAI 모델과 Gemini 2.5 Flash, 특히 예제가 제공된 경우, 클러스터 개수 세기 작업에서 유용한 선택지로 나타났으며, Flash의 경우 이상치 식별에서도 90% 이상의 정확도를 보였습니다. 그러나 위치 관련 작업의 결과는 만족스럽지 못했습니다: 정밀도와 재현율이 50% 근처 또는 그 이하로 나타났으며, Flash의 이상치 식별(65.01%)을 제외하고는 예외가 없었습니다. 또한, 차트 디자인이 성능에 미치는 영향은 부차적인 요인으로 보이지만, 가로 세로 비율이 넓은(16:9 및 21:9) 산점도나 무작위로 색상이 지정된 산점도는 피하는 것이 좋습니다. 보조 자료는 https://github.com/feedzai/biy-paper에서 확인할 수 있습니다.
지난 20년 동안 음성 감정 인식(Speech Emotion Recognition, SER)은 점점 더 많은 관심을 받아왔다. SER 시스템을 훈련시키기 위해 연구자들은 미리 정의된 범주에서 감정을 선택하는 크라우드소싱 또는 내부 평가자들이 주석을 단 감정 음성 데이터베이스를 수집한다. 그러나 평가자들 간의 의견 불일치는 흔히 발생한다. 기존의 방법들은 이러한 불일치를 노이즈로 간주하고 레이블을 단일 합의 목표로 집계한다. 이는 SER을 단일 레이블 작업으로 단순화하지만, 인간의 감정 인식에 내재된 주관성을 무시한다. 이 논문은 이러한 가정에 도전하며 다음과 같은 질문을 제기한다: (1) 소수 감정 평가는 폐기되어야 하는가? (2) SER 시스템은 소수 개인의 인식에서만 학습해야 하는가? (3) SER 시스템은 샘플당 하나의 감정만 예측해야 하는가? 심리학 연구는 감정 인식이 주관적이고 모호하며 감정 경계가 중첩될 수 있음을 보여준다. 우리는 새로운 모델링 및 평가 관점을 제안한다: (1) 모든 감정 평가를 유지하고 이를 소프트 레이블 분포로 표현한다. 개별 평가자 레이블로 훈련된 모델은 표준 SER 시스템과 공동 최적화를 통해 합의 레이블 테스트에서 성능을 향상시킨다. (2) 모든 감정 데이터를 포함하고 공존하는 감정(예: 슬픔과 분노)을 허용함으로써 SER 평가를 재정의한다. 우리는 레이블 표현의 다양성을 극대화하기 위해 모든 평가를 집계하는 "포괄적 규칙"을 제안한다. 네 개의 영어 감정 데이터베이스에서의 실험은 다수결 및 복수 레이블링보다 우수한 성능을 보여준다. (3) 훈련 중에 발생 가능성이 낮은 감정 조합을 억제하기 위해 패널티 매트릭스를 구성한다. 이를 손실 함수에 통합하면 성능이 더욱 향상된다. 전반적으로, 소수 평가, 다중 평가자, 그리고 다중 감정 예측을 수용함으로써 더 강력하고 인간과 일치하는 SER 시스템을 구축할 수 있다.
비전-언어-행동 모델(VLAs)은 로봇 제어에서 뛰어난 성능을 입증했습니다. 그러나 단일 추론 패러다임으로 인해 높은 정밀도를 요구하는 작업에서는 근본적인 한계를 보입니다. 외부 검증기를 사용한 테스트 시간 스케일링 접근법이 유망한 결과를 보였지만, 추가적인 훈련이 필요하며 보이지 않는 조건에 일반화하지 못하는 문제가 있습니다. 우리는 추가 훈련이나 외부 모듈 없이 모델의 내부 속성을 활용하는 새로운 테스트 시간 스케일링 프레임워크인 마스킹 분포 가이드 선택(MG-Select)을 제안합니다. 우리의 접근법은 참조 행동 토큰 분포와의 KL 발산을 신뢰도 지표로 사용하여 여러 후보 중 최적의 행동을 선택합니다. 동일한 VLA에 의해 생성되지만 무작위로 마스킹된 상태와 언어 조건을 입력으로 사용하는 참조 분포를 도입하여, 목표 작업 분포와 일치하면서도 최대 불확실성을 보장합니다. 또한, 상태와 언어 조건에 드롭아웃을 적용하여 조건부 및 무조건부 분포를 모두 학습할 수 있는 공동 훈련 전략을 제안함으로써 참조 분포의 품질을 더욱 향상시킵니다. 우리의 실험 결과, MG-Select는 실제 세계의 분포 내/분포 외 작업에서 각각 28%/35%의 성능 향상을 달성했으며, 30개의 데모로 훈련된 RoboCasa 피크 앤 플레이스 작업에서 168%의 상대적 이득을 보였습니다.
최근의 멀티모달 LLM(Multimodal Large Language Model)들은 차트 기반 시각적 질문 응답에서 유망한 성과를 보여왔지만, 텍스트적 단서에 의존하기보다 정밀한 시각적 해석이 필요한 주석이 없는 차트에서는 성능이 급격히 저하됩니다. 이를 해결하기 위해, 우리는 ChartAgent라는 새로운 에이전트 기반 프레임워크를 소개합니다. 이 프레임워크는 차트의 공간적 영역 내에서 직접 시각적 추론을 명시적으로 수행합니다. 텍스트 기반의 사고 연쇄(chain-of-thought) 추론과 달리, ChartAgent는 질의를 시각적 하위 작업으로 반복적으로 분해하고, 주석 그리기, 영역 자르기(예: 파이 조각 분할, 막대 분리), 축 위치 지정 등과 같은 특화된 동작을 통해 차트 이미지를 능동적으로 조작하고 상호작용합니다. 이를 위해 차트 특화 시각 도구 라이브러리를 사용하여 각 하위 작업을 수행합니다. 이 반복적 추론 과정은 인간의 차트 이해를 위한 인지 전략을 밀접하게 반영합니다. ChartAgent는 ChartBench 및 ChartX 벤치마크에서 최첨단 정확도를 달성하며, 기존 방법 대비 최대 16.07%의 절대적 성능 향상과 주석이 없고 수치적으로 복잡한 질의에서 17.31%의 성능 향상을 보였습니다. 또한, 우리의 분석은 ChartAgent가 (a) 다양한 차트 유형에서 효과적이며, (b) 다양한 시각적 및 추론적 복잡도 수준에서 최고 점수를 달성하며, (c) 다양한 기반 LLM에 걸쳐 성능을 향상시키는 플러그 앤 플레이 프레임워크로 기능함을 보여줍니다. 우리의 작업은 도구가 강화된 멀티모달 에이전트를 사용하여 차트 이해를 위한 시각적 기반 추론을 입증한 초기 연구 중 하나입니다.
현대의 선호 정렬 기법, 예를 들어 Best-of-N(BoN) 샘플링은 쌍별 비교 데이터로 훈련된 보상 모델에 의존합니다. 상대적 선호도를 학습하는 데는 효과적이지만, 이 패러다임은 응답의 수용 가능성을 포착하지 못해 시스템이 여러 수용 불가능한 옵션 중에서 최악의 것을 선택할 위험에 노출됩니다. 이는 특히 어려운 프롬프트에서 더욱 문제가 되는데, 이러한 잘못된 수용의 위험은 샘플 수가 증가함에 따라 커집니다. 본 논문에서는 이러한 중요한 신뢰성 격차를 해결하기 위해 새로운 데이터 수집 및 모델링 프레임워크를 소개합니다. 이산 선택 모델에서 영감을 받아 외부 옵션을 선호 데이터에 추가함으로써, 무엇이 더 나은지뿐만 아니라 무엇이 충분히 좋은지를 구별할 수 있는 보상 모델을 훈련시킵니다. 우리는 이 능력을 활용하여 생성 예산을 순차적 루프로 분할하고 조정된 조기 종료 조건을 갖춘 적응형 추론 전략인 best of mini-N in-loop를 개발했습니다. 실험 결과, 정렬 가드레일로 조정했을 때 신뢰성 실패를 70% 감소시키고, 추론 가속기로 조정했을 때 IMDB 감정 설정에서 평균 추론 속도를 22% 이상 향상시켰습니다. 이를 통해 실무자들이 신뢰성과 계산 효율성 사이의 균형을 명시적으로 관리할 수 있는 원칙적이고 유연한 프레임워크를 제공합니다.
최근 컨텍스트 및 메모리 벤치마킹에 관한 연구는 주로 대화형 인스턴스에 초점을 맞추어 왔지만, 동적 기업 환경에서의 메모리 평가 필요성은 효과적인 적용을 위해 매우 중요합니다. 우리는 멀티 플랫폼 에이전트 환경에서 장기 메모리와 상태 추적을 평가하기 위해 설계된 벤치마크인 MEMTRACK을 소개합니다. MEMTRACK은 Slack, Linear, Git과 같은 여러 커뮤니케이션 및 생산성 플랫폼 간의 비동기적 이벤트를 통합하여 현실적인 조직 워크플로를 모델링합니다. 각 벤치마크 인스턴스는 시간 순으로 플랫폼이 교차된 타임라인을 제공하며, 노이즈가 포함되고 상충되며 상호 참조되는 정보와 잠재적인 코드베이스/파일 시스템 이해 및 탐색을 포함합니다. 결과적으로, 우리의 벤치마크는 획득, 선택 및 충돌 해결과 같은 메모리 능력을 테스트합니다. 우리는 MEMTRACK 데이터셋을 수동 전문가 주도 설계와 확장 가능한 에이전트 기반 합성을 통해 구축하여, 실제 소프트웨어 개발 프로세스에 기반한 생태학적으로 타당한 시나리오를 생성합니다. 우리는 단순한 질의응답 성능을 넘어 메모리 메커니즘의 효과를 포착하는 정확성, 효율성 및 중복성에 대한 적절한 메트릭을 도입합니다. 최신 언어 모델(SoTA LLM)과 메모리 백엔드에 대한 실험은 장기간에 걸친 메모리 활용, 크로스 플랫폼 의존성 처리 및 모순 해결에서의 어려움을 보여줍니다. 특히, 최고 성능을 보인 GPT-5 모델도 MEMTRACK에서 60%의 정확성 점수만을 달성했습니다. 이 작업은 기존의 대화형 설정에 초점을 맞춘 평가 연구를 넘어 메모리 증강 에이전트를 위한 확장 가능한 평가 프레임워크를 제공하며, 복잡한 조직 환경에서의 멀티 에이전트, 멀티 플랫폼 메모리 벤치마킹을 위한 기반을 마련합니다.
헤어 케어는 필수적인 일상 활동이지만, 제한된 운동 능력을 가진 개인들에게는 접근이 어려우며, 머리카락의 미세한 물리적 구조와 복잡한 역학 특성으로 인해 자율 로봇 시스템에게도 도전적인 과제로 남아 있습니다. 본 연구에서는 DYMO-Hair라는 모델 기반 로봇 헤어 케어 시스템을 제안합니다. 우리는 머리카락과 같은 체적적 특성을 가진 물질에 적합한 새로운 역학 학습 패러다임을 소개하며, 이는 동작 조건화된 잠재 상태 편집 메커니즘과 다양한 헤어스타일을 포함한 간결한 3D 잠재 공간을 결합하여 일반화 성능을 향상시킵니다. 이 잠재 공간은 새로운 헤어 물리 시뮬레이터를 사용해 대규모로 사전 학습되어, 이전에 보지 못한 헤어스타일 간의 일반화를 가능하게 합니다. 모델 예측 경로 적분(MPPI) 플래너와 함께 역학 모델을 사용함으로써, DYMO-Hair는 시각적 목표 조건화된 헤어 스타일링을 수행할 수 있습니다. 시뮬레이션 실험을 통해 DYMO-Hair의 역학 모델이 다양한, 이전에 보지 못한 헤어스타일의 국소 변형을 포착하는 데 있어 베이스라인을 능가함을 입증했습니다. DYMO-Hair는 또한 이전에 보지 못한 헤어스타일에 대한 폐루프 헤어 스타일링 작업에서 베이스라인을 능가하며, 최신 시스템 대비 평균 22% 낮은 최종 기하학적 오차와 42% 높은 성공률을 기록했습니다. 실제 환경 실험에서 우리 시스템은 위그에 대한 제로샷 전이 가능성을 보여주며, 최신 시스템이 실패하는 도전적인 이전에 보지 못한 헤어스타일에서도 일관된 성공을 달성했습니다. 이러한 결과들은 모델 기반 로봇 헤어 케어의 기초를 소개하며, 제약 없는 물리적 환경에서 더 일반화 가능하고 유연하며 접근 가능한 로봇 헤어 스타일링을 향해 나아가는 길을 열어줍니다. 더 자세한 내용은 프로젝트 페이지에서 확인할 수 있습니다: https://chengyzhao.github.io/DYMOHair-web/.
추론 능력을 갖춘 대형 언어 모델(LLM)의 사고 흔적을 더 작은 모델로 증류하는 것이 효과적임이 입증되었습니다. 그러나 증류 데이터의 양에 따라 모델 성능이 어떻게 확장되는지에 대한 연구는 부족한 실정입니다. 본 연구에서는 두 개의 작은 비추론 LLM에서 경쟁적 코딩 기술을 증류할 때의 확장 경향을 연구합니다. 우리는 코드 추론의 골짜기(valley of code reasoning)가 존재한다는 가설을 검증합니다: 경쟁적 코딩에서의 다운스트림 성능은 데이터 양이 증가함에 따라 처음에는 하락하다가, 이후 로그-선형보다 더 가파른 방식으로 꾸준히 증가합니다. 이러한 경향을 확인한 후, 우리는 동일한 데이터에 대해 두 가지 다른 증류 단계에서 모델을 추가로 미세 조정하여 각 학습 단계에 대한 결론을 도출합니다. 우리는 낮은 데이터 영역과 중간-낮은 데이터 영역에서의 단계를 거치며, 작은 모델이 더 어려운 코딩 문제보다 더 쉬운 코딩 문제에서 상당한 이점을 얻는다는 것을 발견합니다. 또한, 놀랍게도 훈련 데이터에서 출력의 정확성이 증류 결과에 영향을 미치지 않는다는 사실도 확인했습니다. 본 연구는 직관을 넘어 코드 추론 증류의 훈련 역학을 이해하는 데 한 걸음 더 나아간 것입니다.
대형 언어 모델(LLMs)은 많은 자연어 처리(NLP) 작업에서 뛰어난 성능을 보이지만, 여전히 환각(hallucination) 문제에 취약하여 실제 응용에서 신뢰를 얻기 어렵습니다. 본 논문에서는 검색 증강 생성(Retrieval-Augmented Generation, RAG)에서의 환각 현상을 완화하기 위해 40억 개의 파라미터를 가진 소형 추론 모델(Small Reasoning Model, SRM)인 HalluGuard를 제안합니다. HalluGuard는 문서-주장 쌍을 근거가 있는 것과 환각으로 분류하고, 투명성을 위해 근거 기반의 정당화를 생성합니다. 우리의 접근 방식은 (i) FineWeb에서 도출된 도메인에 구애받지 않는 합성 데이터셋을 다단계 선별 및 데이터 재구성을 통해 정제하고, (ii) 근거가 있는 합성 주장과 환각 주장을 생성하며, (iii) Odds Ratio Preference Optimization을 사용한 선호도 기반 미세 조정을 통해 대형 모델의 추론 능력을 더 작은 백본 모델로 증류하는 것을 결합합니다. LLM-AggreFact 벤치마크의 RAGTruth 부분 집합에서 HalluGuard는 84.0%의 균형 정확도(BAcc)를 달성하여, MiniCheck(7B; 84.0%) 및 Granite Guardian 3.3(8B; 82.2%)와 같은 전용 모델과 경쟁하면서도 약 절반의 파라미터를 사용합니다. 전체 벤치마크에서는 75.7%의 BAcc를 달성하며, GPT-4o(75.9%)와 같은 더 큰 범용 LLM과 비슷한 성능을 보입니다. HalluGuard와 데이터셋은 승인 후 Apache 2.0 라이선스 하에 공개될 예정입니다.