번역이 포함된 일일 선별된 AI 연구 논문
우리는 모든 분야의 포인트 클라우드가 하나의 모델로 통합되어 모두에게 혜택을 주는 미래를 꿈꿉니다. 이를 위한 첫걸음으로, 우리는 다양한 영역을 아우르는 단일 자기 지도 점변환기 인코더를 훈련하는 첫 번째 시도인 Utonia를 제안합니다. 이는 원격 탐사, 실외 LiDAR, 실내 RGB-D 시퀀스, 객체 중심 CAD 모델, 그리고 RGB 영상만으로부터 생성된 포인트 클라우드에 이릅니다. 서로 다른 센싱 기하학, 밀도, 사전 지식에도 불구하고, Utonia는 도메인 간에 일관된 표현 공간을 학습합니다. 이러한 통합은 인식 능력을 향상시키면서, 여러 도메인을 함께 훈련했을 때만 나타나는 흥미로운 창발적 행동을 보여줍니다. 인식을 넘어, Utonia 표현은 구체적 및 다중 모드 추론에도 도움이 됩니다: 시각-언어-행동 정책에 Utonia 특징을 조건으로 부여하면 로봇 매니퓰레이션이 개선되며, 이를 시각-언어 모델에 통합하면 공간 추론에서 성능 향상을 얻습니다. 우리는 Utonia가 희소 3D 데이터를 위한 파운데이션 모델로 나아가는 디딤돌이 되어 AR/VR, 로봇공학, 자율 주행 등의 다운스트림 애플리케이션을 지원하기를 바랍니다.
시각 세계는 기반 모델을 언어 이상으로 발전시키는 중요한 축을 제공합니다. 이러한 방향에 대한 관심이 증가하고 있지만, 본질적으로 다중모달인 모델의 설계 공간은 여전히 불투명합니다. 우리는 언어 사전학습의 간섭 없이 다중모달 사전학습을 지배하는 요인을 분리하여, 통제된 처음부터의 사전학습 실험을 통해 실증적 명확성을 제공합니다. 우리는 언어에는 다음 토큰 예측을, 비전에는 확산 모델을 사용하는 Transfusion 프레임워크를 채택하여 텍스트, 비디오, 이미지-텍스트 쌍, 심지어 행동 조건화 비디오 등 다양한 데이터로 학습을 진행했습니다. 우리의 실험은 네 가지 핵심 통찰을 도출했습니다: (i) 표현 오토인코더(RAE)는 시각 이해와 생성 모두에서 뛰어나 최적의 통합 시각 표현을 제공합니다; (ii) 시각 및 언어 데이터는 상호 보완적이며 하위 작업 능력에 시너지 효과를 냅니다; (iii) 통합 다중모달 사전학습은 자연스럽게 세계 모델링으로 이어지며, 일반적인 학습 과정에서 다양한 능력이 나타납니다; (iv) 전문가 혼합 모델(MoE)은 효율적이고 효과적인 다중모달 규모 확장을 가능하게 하면서 자연스럽게 모달리티 전문화를 유도합니다. IsoFLOP 분석을 통해 우리는 두 모달리티에 대한 규모 확장 법칙을 계산하고 규모 확장 비대칭성을 발견했습니다: 비전은 언어보다 훨씬 더 많은 데이터를 필요로 합니다. 우리는 MoE 아키텍처가 언어가 요구하는 높은 모델 용량을 제공하면서도 비전의 데이터 집약적 특성을 수용함으로써 이러한 규모 확장 비대칭성을 조화시키며, 진정한 통합 다중모달 모델로 가는 길을 열어준다는 것을 입증합니다.
통합 멀티모달 모델은 최근 강력한 생성 능력을 보여주고 있으나, 생성이 이해를 향상시키는지 여부와 그 시점은 여전히 불분명합니다. 기존 벤치마크는 생성이 이해를 촉진하는 구체적인 과제에 대한 체계적인 탐구가 부족합니다. 이를 위해 우리는 생성-이해(G2U) 평가를 7개 영역과 30개 세부 과제로 범주화한 포괄적인 벤치마크인 UniG2U-Bench를 소개합니다. 이는 다양한 수준의 암묵적 또는 명시적 시각 변환을 요구합니다. 30개 이상의 모델에 대한 광범위한 평가를 통해 세 가지 핵심 결과를 도출했습니다: 1) 통합 모델은 일반적으로 기반 시각-언어 모델(VLM)보다 성능이 낮으며, 생성-후-답변(GtA) 추론은 직접 추론 대비 일반적으로 성능을 저하시킵니다. 2) 공간 지능, 시각적 착시, 또는 다중 라운드 추론 세부 과제에서 일관된 향상이 나타나며, 여기서 향상된 공간 및 형태 인지와 다단계 중간 이미지 상태가 유익한 것으로 입증되었습니다. 3) 유사한 추론 구조를 가진 과제와 아키텍처를 공유하는 모델은 상관된 행동을 보여, 생성-이해 결합이 과제, 사전 학습 데이터 및 모델 아키텍처에 걸쳐 클래스 일관적 귀납 편향을 유발함을 시사합니다. 이러한 결과는 통합 멀티모달 모델링의 잠재력을 완전히 끌어내기 위해 보다 다양한 학습 데이터와 새로운 패러다임의 필요성을 강조합니다.
코딩 에이전트에 특화된 오픈 웨이트 언어 모델인 Qwen3-Coder-Next를 소개합니다. Qwen3-Coder-Next는 800억 개의 파라미터를 가지며 추론 시에는 30억 개의 파라미터만 활성화되어, 효율적인 추론 속도와 강력한 코딩 능력을 동시에 제공합니다. 본 연구에서는 강력한 학습 방법론이 적은 파라미터 규모의 모델 성능 한계를 어디까지 끌어올릴 수 있는지 탐구합니다. 이를 위해 실행 가능한 환경과 결합된 대규모 검증 가능 코딩 과제를 합성하여 에이전트 학습을 수행하고, 중간 학습 및 강화 학습을 통해 환경 피드백으로부터 직접 학습할 수 있도록 했습니다. SWE-Bench 및 Terminal-Bench를 포함한 에이전트 중심 벤치마크에서 Qwen3-Coder-Next는 활성 파라미터 수 대비 경쟁력 있는 성능을 달성했습니다. 연구 및 실제 코딩 에이전트 개발을 지원하기 위해 기본 모델과 지시어 튜닝 버전의 오픈 웨이트 모델을 모두 공개합니다.
기존 코드 에이전트 벤치마크는 주로 저장소에 국한된 단편적인 수정 과제를 평가하며, 교차 저장소 추론, 도메인 특화 문제 해결, 의존성 기반 마이그레이션, 전체 저장소 생성 등 실제 현장에서 부딪히는 중요한 도전 과제들을 간과하고 있습니다. 이러한 격차를 해소하기 위해 본 연구에서는 해결 범위와 지식 범위라는 두 가지 축을 통해 기존 평가 체계를 확장한 포괄적 벤치마크인 BeyondSWE를 소개합니다. 이는 4가지 상이한 설정 하에 500개의 실제 사례를 활용하여 구성되었습니다. 실험 결과에 따르면, 최첨단 모델조차도 45% 미만의 성공률에 그치는 등 현저한 역량 격차가 존재하며, 단일 모델로 모든 작업 유형에 걸쳐 일관된 성능을 발휘하는 경우는 없는 것으로 나타났습니다. 외부 지식의 역할을 체계적으로 규명하기 위해 우리는 심층 검색과 코딩 능력을 통합한 SearchSWE 프레임워크를 개발했습니다. 실험 결과, 검색 보강은 일관된 성능 향상을 보장하지 않으며 경우에 따라 오히려 성능을 저하시킬 수 있어, 코딩 작업 중 검색과 추론을 교차 수행하는 개발자 워크플로우를 모방하는 것이 얼마나 어려운지 확인할 수 있었습니다. 본 연구는 현실적이고 도전적인 평가 기준과 더불어 향상된 코드 에이전트 연구를 위한 유연한 프레임워크를 제시합니다.
최근 생성적 보상 모델(GRM)의 발전은 사고 연쇄(CoT) 추론의 길이를 확장함으로써 평가의 신뢰성을 크게 향상시킬 수 있음을 보여주었습니다. 그러나 기존 연구들은 주로 비구조적인 길이 확장에 의존하며, 다양한 추론 메커니즘(다차원 원칙 포괄성을 의미하는 폭-사고 연쇄(B-CoT)와 실질적 판단 건전성을 의미하는 깊이-사고 연쇄(D-CoT)) 간 효과의 차이를 간과해 왔습니다. 이를 해결하기 위해 우리는 모듈식 합성 파이프라인을 통해 원시 추론을 구조화된 B-CoT와 D-CoT로 재구성하고, 지도 미세 조정(SFT) 및 검증 가능한 보상 강화 학습(RLVR)을 통해 이러한 메커니즘을 내재화 및 최적화하는 Mix-GRM 프레임워크를 제안합니다. 포괄적인 실험 결과, Mix-GRM은 5개 벤치마크에서 새로운 최첨단 성능을 달성하며 주요 오픈소스 보상 모델들을 평균 8.2% 능가하는 것으로 나타났습니다. 우리의 결과는 추론 방식의 명확한 분기를 보여주는데, B-CoT는 주관적 선호도 과제에, D-CoT는 객관적 정확성 과제에 각각 유리했습니다. 따라서 과제 특성과 추론 메커니즘이 불일치할 경우 성능이 직접적으로 저하되었습니다. 더 나아가 RLVR이 스위칭 증폭기 역할을 하여, 모델이 과제 요구에 맞게 추론 방식을 자발적으로 할당하는 현상적 극화를 유도함을 입증했습니다. 합성된 데이터와 모델은 https://huggingface.co/collections/DonJoey/mix-grm에서, 코드는 https://github.com/Don-Joey/Mix-GRM에서 공개되었습니다.
캐릭터 애니메이션은 구동 동영상의 운동 역학을 참조 이미지에 전달하여 생생한 비디오를 생성하는 것을 목표로 합니다. 생성 모델의 최근 발전은 높은 충실도의 캐릭터 애니메이션을 위한 길을 열었습니다. 본 연구에서는 강력하고 정밀하며 표현력이 풍부한 전체적 캐릭터 애니메이션을 위해 특별히 설계된 통합 DiT 기반 프레임워크인 Kling-MotionControl을 제시합니다. 일관된 시스템 내에서 분할 정복 전략을 활용하여, 이 모델은 신체, 얼굴, 손의 고유한 특성에 맞춰 이질적인 운동 표현을 조율하며, 대규모 구조적 안정성과 세밀한 관절 표현력을 효과적으로 조화시킵니다. 강력한 교차 정체성 일반화를 보장하기 위해 적응형 정체성 불분명 학습을 도입하여, 현실적인 인간부터 스타일화된 만화 캐릭터에 이르기까지 다양한 대상에 대한 자연스러운 운동 재타겟팅을 용이하게 합니다. 동시에, 정교한 정체성 주입 및 융합 설계를 통해 충실한 외형 보존을 보장하며, 포괄적인 참조 컨텍스트를 활용하는 주체 라이브러리 메커니즘으로 추가적으로 지원됩니다. 실용적 유용성을 보장하기 위해 다단계 증류를 활용한 고급 가속 프레임워크를 구현하여 추론 속도를 10배 이상 향상시켰습니다. Kling-MotionControl은 지능적인 의미론적 운동 이해와 정밀한 텍스트 응답성을 통해 시각적 입력을 넘어선 유연한 제어를 가능하게 하는 점에서 두각을 나타냅니다. 인간 선호도 평가 결과, Kling-MotionControl이 주요 상용 및 오픈소스 솔루션 대비 우수한 성능을 제공하며, 전체적 운동 제어, 개방형 도메인 일반화, 시각적 품질 및 일관성에서 탁월한 충실도를 달성함을 보여줍니다. 이러한 결과는 Kling-MotionControl을 고품질, 제어 가능하며 생생한 캐릭터 애니메이션을 위한 강력한 솔루션으로 입증합니다.
대규모 언어 모델(LLM)이 사회적으로 민감한 영역에 점차 배포되고 있지만, 의도 불일치부터 일관성 없는 성격에 이르기까지 예측 불가능한 행동은 상당한 위험을 초래합니다. 본 연구에서는 언어 특성, 감정, 성격이라는 세 가지 영역에 걸쳐 LLM 제어 가능성을 평가하기 위한 계층적 벤치마크인 SteerEval을 소개합니다. 각 영역은 L1(표현 내용), L2(표현 방식), L3(구체적 구현)의 세 가지 명세 수준으로 구성되어 상위 수준의 행동 의도를 구체적인 텍스트 출력과 연결합니다. SteerEval을 활용하여 현대적 제어 방법을 체계적으로 평가한 결과, 제어가 세부 수준으로 갈수록 약화되는 경향이 나타났습니다. 본 벤치마크는 안전하고 제어 가능한 LLM 행동을 위한 원칙적이고 해석 가능한 프레임워크를 제공하며, 향후 연구의 기초를 마련합니다.
지시 기반 비디오 편집은 빠른 발전을 이루었으나, 자연어가 복잡한 시각적 뉘앙스를 설명하는 데 본질적 한계가 있어 현재 방법론들은 정확한 시각적 제어에 어려움을 겪고 있습니다. 참조 기반 편집이 강력한 해결책을 제공하지만, 고품질 짝지어진 학습 데이터의 부족으로 그 잠재력이 현재는 발목 잡히고 있습니다. 이러한 격차를 해소하기 위해 우리는 이미지 생성 모델을 활용하여 합성된 참조 구조물을 생성함으로써 기존 비디오 편집 데이터 쌍을 고품질 학습 4중주체로 변환하는 확장 가능한 데이터 생성 파이프라인을 소개합니다. 이 파이프라인을 활용하여 지시-참조 추종 작업에 특화된 대규모 데이터셋인 RefVIE를 구축하고, 포괄적 평가를 위한 RefVIE-Bench를 마련했습니다. 더 나아가, 학습 가능한 쿼리와 잠재 시각 특징을 결합하여 참조 의미론적 지도를 제공하는 통합 편집 아키텍처인 Kiwi-Edit을 제안합니다. 우리 모델은 점진적 다단계 학습 과정을 통해 지시 추종성과 참조 정확도에서 상당한 성능 향상을 달성했습니다. 폭넓은 실험을 통해 우리의 데이터와 아키텍처가 제어 가능한 비디오 편집 분야에서 새로운 최첨단 기술을 정립함을 입증했습니다. 모든 데이터셋, 모델 및 코드는 https://github.com/showlab/Kiwi-Edit에서 공개됩니다.
시간적 의존성 포착은 부분 관측 가능 고차원 도메인에서 모델 기반 강화 학습(MBRL)의 핵심 요소입니다. 본 연구에서는 잠재 상태 시퀀스로부터 다음 단계 인코더 임베딩을 예측하기 위해 시간적 트랜스포머를 활용하는 디코더 없는 MBRL 에이전트인 NE-Dreamer를 소개합니다. 이 접근법은 표현 공간에서 시간적 예측 정렬을 직접 최적화하여 재구성 손실이나 보조 감독 없이도 일관적이고 예측 가능한 상태 표현을 학습할 수 있게 합니다. DeepMind Control Suite에서 NE-Dreamer는 DreamerV3 및 주요 디코더 없는 에이전트들의 성능을 견줄 뿐만 아니라 능가하는 결과를 보였습니다. 기억과 공간 추론을 요구하는 도전적인 DMLab 작업 하위 집합에서는 상당한 성능 향상을 달성했습니다. 이러한 결과는 시간적 트랜스포머를 이용한 다음 임베딩 예측이 복잡한 부분 관측 가능 환경에서 효과적이고 확장 가능한 MBRL 프레임워크임을 입증합니다.
DEEPTHINK 방법론은 후보 해법 집단을 생성, 정제, 통합함으로써 추론 능력을 향상시켜 복잡한 수학 및 과학 과제에서 강력한 성능을 발휘합니다. 그러나 기존 프레임워크는 추론 과정에서 신뢰할 수 있는 정확도 신호가 부족해, 집단 정제 병목 현상이 발생합니다. 이로 인해 심화된 숙고가 오류를 증폭시키고, 정확한 소수 해법을 억제하며, 추가 계산 투자에 대한 성능 향상 효과가 미미해집니다. 본 논문에서는 DEEPTHINK 시스템의 기능적 분해를 소개하고, 단계별 검증을 통해 집단 정제와 해법 통합을 모두 안내하는 Process Reward Model(PRM) 기반 추론 알고리즘인 PRISM을 제안합니다. 정제 과정에서 PRISM은 후보 해법을 PRM이 정의한 에너지 풍경 내 입자로 간주하고, 점수 기반 재샘플링과 확률적 정제를 통해 집단을 재구성함으로써 확률 질량을 더 높은 품질의 추론 과정에 집중시키면서도 다양성을 유지합니다. 수학 및 과학 벤치마크에서 PRISM은 기존 DEEPTHINK 방법론과 비교하여 경쟁력 있거나 더 우수한 성능을 보였으며, gpt-oss-20b를 사용하여 AIME25에서 90.0%, HMMT25에서 75.4%, GPQA Diamond에서 71.4%를 달성하면서 gpt-oss-120b 성능에 버금가거나 이를 능가했습니다. 또한 우리의 분석 결과, PRISM은 정제 과정에서 지속적인 순방향 오류 수정을 수행하며, 초기 집단에 정확한 후보가 적게 포함된 경우에도 안정적이고, 종종 계산-정확도 파레토 최적선에 도달함을 보여줍니다.
대규모 언어 모델(LLM)의 수학적 능력이 국제수학올림피아드(IMO) 수준으로 발전함에 따라, 훈련 및 평가를 위한 도전적이고 고품질의 문제 부족이 심각한 병목 현상으로 대두되고 있습니다. 동시에, 최근의 코드 에이전트는 에이전트 기반 코딩 및 추론에서 정교한 능력을 보여주며, 코드 실행이 수학적 실험을 위한 확장 가능한 환경으로 기능할 수 있음을 시사합니다. 본 논문에서는 코드 에이전트가 기존 수학 문제를 더 복잡한 변형으로 자율적으로 진화시킬 수 있는 잠재력을 조사합니다. 우리는 문제 진화를 수행하면서 생성된 문제의 해결 가능성과 증가된 난이도를 검증하도록 설계된 다중 에이전트 프레임워크를 소개합니다. 우리의 실험은 충분한 테스트 시간 탐색이 주어지면 코드 에이전트가 원본 문제와 구조적으로 구별되며 더 도전적인, 새로운 해결 가능한 문제를 합성할 수 있음을 입증합니다. 이 연구는 코드 기반 에이전트가 확장 가능한 계산 환경 내에서 고난이도 수학적 추론 문제를 합성하는 실행 가능한 메커니즘으로 기능할 수 있다는 경험적 증거를 제시합니다. 우리의 데이터는 https://github.com/TarferSoul/Code2Math에서 확인할 수 있습니다.
인간의 추론은 종종 제한된 정보를 바탕으로 확률적 결론에 도달하는 과정을 수반합니다. 가장 단순한 형태로는 전제로부터 엄밀하게 필연적으로 도출되는 것이 아니라 전제가 주어졌을 때 개연성 있는 추론을 만들어내는 것을 포함합니다. 추론 능력을 갖춘 대규모 언어 모델(LLM)이 논리 및 수학적 과제에서 강력한 성능을 보여주었지만, 이러한 개방형 비결정적 추론에 대한 모델의 행동은 여전히 크게 탐구되지 않았습니다. 본 연구에서는 영어로 작성된 210개의 수제 확률적 추론 예시로 구성된 ProbCOPA 데이터셋을 소개합니다. 각 예시는 25~30명의 인간 참가자에 의해 추론 가능성이 주석 처리되었습니다. 우리는 인간의 응답이 등급화되고 다양하게 나타나, 데이터셋 내 추론에 대한 확률적 판단을 드러낸다는 것을 발견했습니다. 이러한 판단을 8개의 최첨단 추론 LLM의 응답과 비교한 결과, 모델들이 지속적으로 인간과 유사한 분포를 생성하지 못하는 것으로 나타났습니다. 마지막으로 LLM의 추론 사슬을 분석함으로써, 이러한 추론을 평가하는 데 사용되는 공통적인 추론 패턴의 증거를 발견했습니다. 우리의 연구 결과는 인간과 LLM 사이의 지속적인 차이를 드러내며, 결정론적 환경을 넘어선 추론 평가의 필요성을 강조합니다.
에이전트형 언어 모델은 채팅 모델과 근본적으로 다른 안전 체계에서 작동합니다. 이들은 계획을 수립하고 도구를 호출하며 장기적인 행동을 실행해야 하는데, 파일 접근이나 자격 증명 입력과 같은 단일 실수가 복구 불가능한 피해를 초래할 수 있습니다. 정적 생성 및 작업 완성을 위해 최적화된 기존 정렬 방법은 순차적 의사결정, 적대적 도구 피드백, 과도하게 확신하는 중간 추론으로 인해 이러한 환경에서 제대로 기능하지 못합니다. 본 연구에서는 안전 결정을 명시적이고 학습 가능하게 만들어 안전한 다단계 도구 사용을 위해 에이전트를 정렬하는 사후 훈련 프레임워크인 MOSAIC을 소개합니다. MOSAIC은 추론을 계획, 확인, 실행 또는 거부의 루프로 구조화하며, 명시적 안전 추론과 거부를 핵심 행동으로 삼습니다. 궤적 수준 레이블 없이 훈련하기 위해, 우리는 스칼라 보상으로는 종종 놓치기 쉬운 안전 관련 차이를 포착하는 쌍별 궤적 비교를 통한 선호도 기반 강화 학습을 사용합니다. 우리는 MOSAIC을 세 가지 모델 패밀리(Qwen2.5-7B, Qwen3-4B-Thinking, Phi-4)와 유해 작업, 프롬프트 인젝션, 정상적인 도구 사용, 크로스 도메인 개인정보 유출을 아우르는 분포 외 벤치마크에서 제로샷으로 평가했습니다. MOSAIC은 유해 행동을 최대 50%까지 감소시키고, 인젝션 공격 시 유해 작업 거부율을 20% 이상 증가시키며, 개인정보 유출을 줄이고, 정상적인 작업 성능을 유지하거나 개선하여 모델, 도메인, 에이전트 환경 전반에 걸쳐 강력한 일반화 성능을 입증했습니다.
단안 영상에서 모든 픽셀의 3차원 궤적을 추정하는 것은 영상의 3차원 동역학을 종합적으로 이해하는 데 있어 중요하고 유망한 과제입니다. 최근 단안 3차원 추적 연구들은 인상적인 성능을 보여주지만, 첫 프레임의 희소 점만 추적하거나 조밀 추적을 위한 느린 최적화 기반 프레임워크로 제한됩니다. 본 논문에서는 월드 중심 좌표계에서 모든 픽셀의 효율적인 전체론적 3차원 추적을 가능하게 하는 Track4World라는 피드포워드 모델을 제안합니다. VGGT 스타일 ViT로 인코딩된 전역 3차원 장면 표현을 기반으로 하는 Track4World는 임의의 프레임 쌍 간 픽셀 단위 2차원 및 3차원 조밀 흐름을 동시에 추정하기 위해 새로운 3차원 상관 관계 기법을 적용합니다. 추정된 장면 흐름과 복원된 3차원 기하 구조를 통해 이후 해당 영상의 모든 픽셀에 대한 효율적인 3차원 추적이 가능해집니다. 다양한 벤치마크에서의 광범위한 실험을 통해 우리의 접근 방식이 2차원/3차원 흐름 추정 및 3차원 추적에서 기존 방법들을 지속적으로 능가하며, 실제 세계 4차원 재구성 작업에 대한 강건성과 확장성을 입증하였습니다.
최종 Large Language Model(LLM) 소프트맥스 분류기를 Energy-Based Model(EBM)으로 재해석하며, 시퀀스-투-시퀀스 확률 체인을 추론 시 상호작용하는 다중 EBM으로 분해합니다. 이 원리 기반 접근법을 통해 디코딩 과정에서 발생하는 "에너지 누수(energy spills)"를 추적할 수 있으며, 우리의 실험 결과 이 현상이 사실 오류, 편향 및 실패와 상관관계가 있음을 보여줍니다. Orgad et al.(2025)과 유사하게, 우리의 방법은 정확한 답변 토큰을 특정한 후 환각 현상을 검증합니다. 그러나 중요한 차이점은, 훈련된 프로브 분류기나 활성화 차단(activation ablation) 없이도 이를 달성한다는 점입니다. 대신, 출력 로짓에서 직접 도출된 완전히 훈련이 필요 없는 두 가지 지표를 제안합니다: 이론적으로 일치해야 하는 연속적인 생성 단계 간 에너지 값의 불일치를 포착하는 spilled energy와 단일 단계에서 측정 가능한 marginalized energy입니다. 최첨단 LLM(LLaMA, Mistral, Gemma 포함)과 합성 대수 연산(Qwen3)에 대한 9개 벤치마크에서 평가 결과, 우리의 접근법은 강력하고 경쟁력 있는 환각 감지 및 크로스태스크 일반화 성능을 입증했습니다. 특히 이러한 결과는 어떠한 훈련 오버헤드도 도입하지 않으면서 사전 훈련된 모델과 지시 튜닝된 변형 모두에서 동일하게 나타납니다. 코드는 github.com/OmnAI-Lab/spilled-energy에서 확인할 수 있습니다.
대규모 언어 모델(LLM)의 추론 능력을 사후 훈련을 통해 향상시키는 것은 일반적으로 효율성과 파국적 망각 사이의 상충 관계로 인해 제약을 받습니다. 기존 연구에서는 정책 기반 데이터가 망각 완화에 중요한 역할을 강조해 왔지만, 본 연구에서는 직접 선호 최적화(DPO)의 보상 추정에 내재된 암묵적 정규화라는 간과되었던 핵심 메커니즘을 이론적 및 실증적으로 규명하고 검증합니다. 이는 추론 능력을 효율적으로 최적화하면서 습득된 사전 지식을 보존하도록 설계된 새로운 패러다임인 Surgical Post-Training(SPoT)의 동기가 됩니다. SPoT는 다음 두 가지로 구성됩니다: (1) 오라클을 활용하여 오류가 있는 추론 단계를 최소한의 편집으로 정밀하게 수정함으로써 모델의 분포에 근접한 데이터를 생성하는 데이터 정제 파이프라인, (2) 보상 기반 이진 교차 엔트로피 목적함수. DPO의 상대적 순위 결정과 달리, 이 목적함수는 추론 정확도를 이진 분류 문제로 취급하여 분리된 감독 신호를 적용합니다. 실험적으로, 단 4,000개의 정제된 수학 데이터 쌍만으로 SPoT는 Qwen3-8B의 정확도를 도메인 내 및 도메인 외 작업에서 평균 6.2% 향상시켰으며, 8개의 H800 GPU에서 약 28분의 훈련만을 필요로 합니다. 코드: https://github.com/Visual-AI/SPoT
텍스트-이미지 모델은 사실성과 제어 가능성 측면에서 빠르게 발전해 왔으며, 최근 접근법은 정교한 생성을 지원하기 위해 길고 상세한 캡션을 활용하고 있습니다. 그러나 근본적인 매개변수 간극이 존재합니다: 기존 모델은 설명적 언어에 의존하는 반면, 전문 작업 흐름에서는 객체 위치, 크기, 색상에 대한 정확한 수치적 제어가 필요합니다. 본 연구에서는 통합된 구조적 텍스트 프레임워크 내에서 수치적 바운딩 박스와 RGB 삼중항을 직접 조건으로 하는 대규모 텍스트-이미지 모델인 BBQ를 소개합니다. 우리는 아키텍처 수정이나 추론 시간 최적화 없이 매개변수 주석이 강화된 캡션으로 학습함으로써 정확한 공간 및 색채 제어를 달성합니다. 이는 객체 드래깅 및 컬러 피커와 같은 직관적인 사용자 인터페이스를 가능하게 하여, 모호한 반복적 프롬프팅을 정확하고 친숙한 제어 방식으로 대체합니다. 포괄적 평가를 통해 BBQ는 강력한 박스 정렬 성능을 보였으며 최첨단 기준선 대비 RGB 색상 정확도를 향상시켰습니다. 더 넓은 의미에서, 우리의 결과는 사용자 의도가 중간 구조적 언어로 변환되고, 렌더러 역할을 하는 흐름 기반 트랜스포머에 의해 소비되며 수치 매개변수를 자연스럽게 수용하는 새로운 패러다임을 지지합니다.
실제 환경에서 LLM 에이전트에 대한 사용자 요청은 종종 불충분하게 명세됩니다. 에이전트는 누락된 정보를 획득하고 올바른 하류 결정을 내리기 위해 상호 작용해야 합니다. 그러나 현재 다중 턴 GRPO 기반 방법들은 궤적 수준의 보상 계산에 의존하는 경우가 많아, 롤아웃 그룹 내에서 크레딧 할당 문제와 불충분한 어드밴티지 신호를 초래합니다. 실현 가능한 접근법은 보다 세분화된 수준에서 가치 있는 상호 작용 턴을 식별하여 더 타겟팅된 학습을 주도하는 것입니다. 이를 해결하기 위해 우리는 InfoPO(정보 기반 정책 최적화)를 소개합니다. InfoPO는 다중 턴 상호 작용을 능동적 불확실성 감소 과정으로 구성하고, 특정 턴의 피드백이 마스킹된 피드백 반사실적 시나리오와 비교하여 에이전트의 후속 행동 분포를 측정 가능하게 변화시킬 때 해당 턴에 크레딧을 부여하는 정보 이득 보상을 계산합니다. 그런 다음 이 신호를 작업 결과와 적응형 분산 게이트(d) 퓨전을 통해 결합하여 정보의 중요도를 식별함과 동시에 작업 지향적 목표 방향성을 유지합니다. 의도 명확화, 협력적 코딩, 도구 강화 의사 결정을 포함한 다양한 작업에서 InfoPO는 프롬프팅 및 다중 턴 RL 베이스라인을 꾸준히 능가합니다. 또한 사용자 시뮬레이터 변화 하에서 강건성을 보여주며 환경-상호작용 작업에 효과적으로 일반화됩니다. 전반적으로 InfoPO는 복잡한 에이전트-사용자 협업을 최적화하기 위한 원칙적이고 확장 가능한 메커니즘을 제공합니다. 코드는 https://github.com/kfq20/InfoPO 에서 이용 가능합니다.
최근 비디오 편집 모델은 인상적인 성과를 거두었으나, 대부분 여전히 대규모의 짝을 이룬 데이터셋을 필요로 합니다. 이러한 자연스럽게 정렬된 데이터 쌍을 대규모로 수집하는 것은 매우 어려운 과제로 남아 있으며, 특히 지역적 비디오 편집 데이터의 경우 핵심적인 병목 현상을 구성합니다. 기존의 우회 방법들은 글로벌 모션 제어를 통해 이미지 편집을 비디오로 전이하여 데이터 쌍이 필요 없는 비디오 편집을 구현하지만, 이러한 설계는 배경 및 시간적 일관성 유지에 어려움을 겪습니다. 본 논문에서는 짝을 이루지 않은 비디오 편집을 위한 새로운 프레임워크인 NOVA: Sparse Control & Dense Synthesis를 제안합니다. 구체적으로, 희소 분기(Sparse Branch)는 비디오 전반에 분포된 사용자 편집 키프레임을 통해 의미론적 지도를 제공하고, 조밀 분기(Dense Branch)는 원본 비디오의 모션 및 텍스처 정보를 지속적으로 통합하여 높은 정확도와 일관성을 유지합니다. 더불어, 우리는 인위적으로 저하된 비디오에 대한 학습을 통해 모델이 모션 재구성 및 시간적 일관성을 학습할 수 있는 저하 시뮬레이션 훈련 전략을 도입하여 짝을 이룬 데이터의 필요성을 제거합니다. 광범위한 실험을 통해 NOVA가 편집 정확도, 모션 보존, 시간적 일관성 측면에서 기존 접근법들을 능가함을 입증합니다.
Vision-Language-Action(VLA) 모델은 구현된 지능(embodied intelligence)을 향한 유망한 방향이지만, 시각 역학의 기저에 있는 예측 및 시간-인과 구조를 종종 간과합니다. World-model VLA는 미래 프레임을 예측함으로써 이 문제를 해결하지만, 중복된 배경을 재구성하는 데 용량을 낭비합니다. Latent-action VLA는 프레임 간 전환을 간결하게 인코딩하지만, 시간적으로 연속적인 동적 모델링과 세계 지식(world knowledge)이 부족합니다. 이러한 한계를 극복하기 위해 우리는 World-model의 시간적 추론과 분리된 잠재 운동 표현을 통합하는 새로운 "Chain of World" 패러다임인 CoWVLA(Chain-of-World VLA)를 소개합니다. 먼저, 사전 학습된 비디오 VAE가 잠재 운동 추출기 역할을 하여 비디오 세그먼트를 구조와 운동 잠재 변수로 명시적으로 분해합니다. 그런 다음, 사전 학습(pre-training) 단계에서 VLA는 지시(instruction)와 초기 프레임을 바탕으로 연속적인 잠재 운동 체인(chain)을 추론하고 해당 세그먼트의 종료 프레임을 예측하도록 학습합니다. 마지막으로, 공동 세밀 조정(co-fine-tuning) 단계에서는 통합된 자기회귀 디코더에서 희소 키프레임과 행동 시퀀스를 함께 모델링함으로써 이 잠재 동적 특성을 이산적 행동 예측과 정렬합니다. 이 설계는 시간적 추론과 세계 지식이라는 World-model의 이점을 유지하면서 잠재 행동의 간결성과 해석 가능성을 확보하여 효율적인 시각운동(visuomotor) 학습을 가능하게 합니다. 로봇 시뮬레이션 벤치마크에서의 광범위한 실험 결과, CoWVLA가 기존 World-model 및 Latent-action 접근법을 능가하며 적절한 수준의 계산 효율성을 달성하여 더 효과적인 VLA 사전 학습 패러다임으로서의 잠재력을 입증했습니다. 프로젝트 웹사이트는 https://fx-hit.github.io/cowvla-io에서 확인할 수 있습니다.
대규모 언어 모델(LLM)이 탐색적 도구에서 사회과학 분야의 능동적인 '실리콘 연구 대상'으로 전환되는 과정에는 운영 타당성에 대한 광범위한 검증이 부재한 상태입니다. 본 연구는 조건부 댓글 예측(CCP) 과제를 소개합니다. CCP는 모델이 생성된 출력을 실제 디지털 흔적과 비교하여 특정 자극에 대한 사용자의 댓글 작성 방식을 예측하는 과제입니다. 이 프레임워크를 통해 소셜 미디어 사용자 행동 시뮬레이션 측면에서 현재 LLM의 능력을 엄격하게 평가할 수 있습니다. 우리는 영어, 독일어, 룩셈부르크어 시나리오에서 오픈 웨이트 8B 모델(Llama3.1, Qwen3, Ministral)을 평가했습니다. 체계적으로 프롬프트 전략(명시적 vs. 암묵적)과 지도 미세 조정(SFT)의 영향을 비교함으로써, 저자원 환경에서 중요한 형태와 내용의 분리 현상을 확인했습니다: SFT는 텍스트 출력의 표면적 구조(길이와 구문)를 정렬하지만 의미론적 토대를 저하시킵니다. 더 나아가, 미세 조정 하에서는 모델이 행동 이력에서 직접 잠재적 추론을 성공적으로 수행하기 때문에 명시적 조건화(생성된 인물 소개)가 중복된다는 점을 입증했습니다. 우리의 연구 결과는 현재의 "단순 프롬프팅" 패러다임에 의문을 제기하며, 높은 정확도의 시뮬레이션을 위해 서술적 페르소나보다 실제 행동 흔적을 우선시하는 운영 가이드라인을 제시합니다.
시각 표현 학습과 텍스트-이미지(T2I) 생성을 단일 모델 내에서 통합하는 것은 멀티모달 학습의 핵심 과제로 남아 있습니다. 본 연구에서는 강력한 시각 표현을 학습하면서 판별적 목적과 생성적 목적을 공동으로 최적화하는 통합 프레임워크인 DREAM을 소개합니다. DREAM은 두 가지 핵심 기술을 기반으로 합니다: 학습 중에는 점진적 마스킹 스케줄인 '마스킹 워밍업'을 적용하여 표현 학습에 필요한 대조적 정렬을 확립하기 위해 최소 마스킹으로 시작한 후, 안정적인 생성 학습을 위해 점차 완전 마스킹으로 전환합니다. 추론 단계에서는 '의미론적 정렬 디코딩'을 통해 부분적으로 마스킹된 이미지 후보들을 대상 텍스트와 정렬시키고 최적의 후보를 선택하여 추가 디코딩을 수행함으로써, 외부 재순위 모델 없이도 텍스트-이미지 정확도를 향상시킵니다(+6.3%). CC12M 데이터만으로 학습된 DREAM은 ImageNet 선형 탐사 정확도 72.7%(CLIP 대비 +1.1%)와 FID 4.25(FLUID 대비 +6.2%)를 달성했으며, 퓨샷 분류, 의미론적 분할, 깊이 추정에서도 일관된 성능 향상을 보였습니다. 이러한 결과는 판별적 목적과 생성적 목적이 상호 시너지 효과를 발휘하여 시각적 이해와 생성 모두에서 뛰어난 통합 멀티모달 모델이 가능함을 입증합니다.
대규모 언어 모델을 활용한 자동화된 과학적 발견은 아이디어 구상부터 실험에 이르기까지 연구 생명주기를 혁신하고 있지만, 기존 에이전트는 과학 실험에서 수집된 원시 데이터를 자율적으로 처리하는 데 한계를 보입니다. 본 연구에서는 연구 생명주기를 자동화하는 데이터 중심의 종단간 시스템인 SciDER를 소개합니다. 기존 프레임워크와 달리, 당사의 전문화된 에이전트들은 협력적으로 원시 과학 데이터를 구문 분석 및 분석하고, 특정 데이터 특성에 기반한 가설과 실험 설계를 생성하며, 이에 상응하는 코드를 작성하고 실행합니다. 3가지 벤치마크에서의 평가 결과, SciDER는 전문화된 데이터 기반 과학 발견 분야에서 탁월한 성능을 보이며, 자체 진화 메모리와 비평가 주도 피드백 루프를 통해 범용 에이전트 및 최첨단 모델을 능가하는 것으로 나타났습니다. 모듈식 Python 패키지로 배포되는 SciDER는 가벼운 웹 인터페이스와 함께 사용하기 쉬운 PyPI 패키지를 제공하여 자율적이고 데이터 중심의 연구를 가속화하며, 모든 연구자와 개발자가 접근할 수 있도록 하는 것을 목표로 합니다.
Classifier-Free Guidance(CFG)는 흐름 기반 확산 모델에서 의미론적 정렬을 향상시키는 핵심 기법으로 부상했습니다. 본 논문에서는 CFG-Ctrl이라는 통합 프레임워크를 제안하며, 이를 통해 CFG를 1차 연속시간 생성 흐름에 적용되는 제어 기법으로 재해석합니다. 조건부-무조건부 불일치를 속도장을 조정하는 오류 신호로 활용하는 이 관점에서, 우리는 기본 CFG를 고정 이득을 가진 비례 제어기(P-제어)로 규정하고, 일반적인 후속 변형들은 이를 기반으로 확장된 제어 법칙 설계로 발전시켰음을 설명합니다. 그러나 기존 방법들은 주로 선형 제어에 의존하여, 특히 큰 guidance scale에서 불안정성, 오버슈트, 그리고 저하된 의미론적 충실도를 내재적으로 초래합니다. 이를 해결하기 위해 우리는 Sliding Mode Control CFG(SMC-CFG)를 도입합니다. 이는 생성 흐름을 빠르게 수렴하는 슬라이딩 다양체 쪽으로 강제합니다. 구체적으로, 의미론적 예측 오류에 대해 지수형 슬라이딩 모드 표면을 정의하고, 비선형 피드백 기반 보정을 구축하기 위한 스위칭 제어 항을 도입합니다. 더 나아가 유한 시간 내 수렴을 이론적으로 뒷받침하기 위해 Lyapunov 안정성 분석을 제공합니다. Stable Diffusion 3.5, Flux, Qwen-Image를 포함한 텍스트-이미지 생성 모델에 대한 실험 결과, SMC-CFG가 표준 CFG보다 의미론적 정렬에서 우수하고 광범위한 guidance scale에서 견고성을 향상시킴을 입증합니다. 프로젝트 페이지: https://hanyang-21.github.io/CFG-Ctrl
대규모 언어 모델(LLM)이 기초적인 벤치마크에서 포화 상태에 이르면서 연구 프론티어는 생성에서 자동화된 평가의 신뢰성으로 전환되고 있습니다. 본 연구는 표준 "LLM-as-a-Judge" 프로토콜이 고학년 학부부터 초기 대학원 수준의 수학 문제에 적용될 때 체계적인 정렬 격차(Alignment Gap)를 겪는다는 점을 보여줍니다. 이를 정량화하기 위해 우리는 QEDBench를 소개합니다. 이는 대학 수준 수학 증명에 대한 인간 전문가와의 정렬 정도를 체계적으로 측정하기 위한 최초의 대규모 이중 평가 기준(Dual-Rubric) 정렬 벤치마크로, 강의 특화 평가 기준과 전문가의 상식적 기준을 대비하여 평가합니다. 1,000시간 이상의 인간 평가를 바탕으로 7명의 평가자와 5개의 솔버로 구성된 이중 평가 매트릭스를 배포한 결과, Claude Opus 4.5, DeepSeek-V3, Qwen 2.5 Max, Llama 4 Maverick과 같은 특정 최신 평가 모델들이 각각 최대 +0.18, +0.20, +0.30, +0.36의 평균 점수 인플레이션으로 나타나는 상당한 양의 편향(Positive Bias)을 보임을 확인했습니다. 더 나아가 우리는 이산 수학 영역에서 중요한 추론 격차를 발견했습니다: Gemini 3.0 Pro는 최첨단 성능(평균 인간 평가 점수 0.91)을 달성한 반면, GPT-5 Pro 및 Claude Sonnet 4.5와 같은 다른 추론 모델들의 성능은 이산 영역에서 현저히 저하되었습니다. 구체적으로, 이들의 평균 인간 평가 점수는 이산수학에서 각각 0.72와 0.63으로, 그래프 이론에서는 0.74와 0.50으로 떨어졌습니다. 이러한 연구 결과와 함께, 우리는 AI 평가자의 성능을 평가하고 개선하기 위한 공개 벤치마크로 QEDBench를 공개합니다. 우리의 벤치마크는 https://github.com/qqliu/Yale-QEDBench 에서 공개되었습니다.
대규모 언어 모델(LLM) 기반 다중 에이전트 시스템(MAS)은 사전 정의된 상호작용 토폴로지를 통해 전문 에이전트들을 조정하며, 경쟁 수준의 코드 생성과 같은 복잡한 작업에서 잠재력을 보여주고 있습니다. 최근 연구들은 신중하게 설계된 다중 에이전트 워크플로우와 통신 그래프가 협력적 추론을 활용하여 코드 생성 성능을 크게 향상시킬 수 있음을 입증했습니다. 그러나 기존 방법들은 작업 난이도에 따라 토폴로지 밀도를 적응시키지도 않으며, 실행 피드백을 사용하여 인스턴스 내에서 토폴로지를 반복적으로 개선하지도 않아, 불필요한 통신과 성능 병목 현상을 초래합니다. 이러한 문제를 해결하기 위해 우리는 LLM 기반 오케스트레이터 에이전트를 핵심으로 하는 강화 학습 최적화 MAS인 AgentConductor를 제안합니다. 이는 종단간 피드백 기반 동적 상호작용 토폴로지 생성을 가능하게 합니다. AgentConductor는 각 질의에 대해 에이전트 역할과 작업 난이도를 추론한 후, 두 가지 핵심 혁신을 기반으로 작업에 적응되고 밀도를 고려한 계층적 방향성 비순환 그래프(DAG) 토폴로지를 구성합니다. 첫째, 다중 에이전트 상호작용의 통신 인식 수학적 특성을 포착하는 새로운 토폴로지 밀도 함수를 설계합니다. 둘째, 난이도 구간 분할을 채택하여 난이도별 정확한 토폴로지 밀도 상한 측정과 더 세분화된 제어를 위한 과도한 가지치기를 방지합니다. 실험적으로, 세 개의 경쟁 수준 및 두 개의 기초 코드 데이터셋에서 AgentConductor는 최첨단 정확도를 달성하며, 가장 강력한 기준 모델 대비 최대 14.6%의 pass@1 정확도 향상, 13%의 밀도 감소, 68%의 토큰 비용 절감 효과를 보였습니다.
대규모 언어 모델은 정교한 능력을 보여주지만, 그 내부 작동 방식을 이해하는 것은 여전히 핵심적인 과제로 남아 있습니다. 근본적인 장애물은 훈련이 회로가 아닌 행동을 선택하기 때문에 동일한 기능을 구현하는 다양한 가중치 구성이 가능하다는 점입니다. 어떤 내부 구조가 계산을 반영하고, 어떤 구조가 특정 훈련 과정의 부수적 결과일까요? 본 연구는 알고리즘 핵심(algorithmic core), 즉 과제 수행에 필요하고 충분한 컴팩트한 부분 공간을 추출합니다. 독립적으로 훈련된 트랜스포머는 서로 다른 가중치를 학습하지만 동일한 핵심으로 수렴합니다. 마르코프 체인 트랜스포머는 거의 직교하는 부분 공간에 3차원 핵심을 내장하지만 동일한 전이 스펙트럼을 복원합니다. 모듈러 덧셈(modular-addition) 트랜스포머는 그로킹(grokking) 시점에 컴팩트한 순환 연산자를 발견하고, 이후 팽창하여 암기에서 일반화로의 전환을 예측하는 모델을 제공합니다. GPT-2 언어 모델은 주어-동사 일치를 단일 축으로 제어하며, 이 축을 반전시킬 경우 규모에 관계없이 생성 과정 전체에서 문법적 수(number)가 뒤바뀝니다. 이러한 결과는 훈련 과정과 규모를 아우르며 지속되는 저차원 불변량을 보여주며, 트랜스포머 계산이 컴팩트하고 공유된 알고리즘 구조를 중심으로 조직되어 있음을 시사합니다. 구현체별 세부사항보다는 이러한 계산적 본질인 불변량을 목표로 삼는 것이 기계론적 해석성(mechanistic interpretability) 연구에 도움이 될 수 있습니다.
순차 컴퓨팅에서 병렬 컴퓨팅으로의 전환은 현대 고성능 애플리케이션에 필수적이지만, 동시성 프로그래밍의 높은 학습 곡선으로 인해 방해를 받고 있습니다. 이 문제는 정적 스케줄링이 실패하고 데이터 의존성이 예측 불가능한 불규칙 데이터 구조(예: 희소 그래프, 불균형 트리, 비정형 메쉬)에서 더욱 두드러집니다. 현재의 대형 언어 모델(LLM)은 이러한 작업에서 종종 치명적인 실패를 보이며, 미묘한 경쟁 조건, 교착 상태, 그리고 최적이 아닌 확장성을 지닌 코드를 생성합니다. 우리는 이러한 격차를 ParEVO로 메꿉니다. ParEVO는 불규칙 데이터를 위한 고성능 병렬 알고리즘을 합성하기 위해 설계된 프레임워크입니다. 우리의 기여는 다음과 같습니다: (1) 경험적으로 성능이 우수하고 Work-Span 병렬 기본 요소를 효과적으로 활용하는 알고리즘을 명시적으로 필터링하는 "Critic-Refine" 파이프라인을 통해 합성된 13,820개 작업으로 구성된 정제된 데이터셋인 Parlay-Instruct Corpus; (2) 확률적 생성이 ParlayLib 라이브러리의 엄격한 의미론과 일치하도록 미세 조정된 전용 DeepSeek, Qwen 및 Gemini 모델; (3) 컴파일러, 동적 경쟁 조건 검출기, 성능 프로파일러의 피드백을 사용하여 코드를 반복적으로 수정하여 정확도의 "라스트 마일"을 개선하는 진화형 코딩 에이전트(ECA)입니다. ParEval 벤치마크에서 ParEVO는 전체 스위트에서 평균 106배(최대 1103배)의 속도 향상을, 특히 복잡한 불규칙 그래프 문제에서는 견고한 13.6배의 속도 향상을 달성하여 최첨단 상용 모델을 능가했습니다. 더 나아가, 우리의 진화적 접근 방식은 최첨단 인간 전문가 기준선과 견줄 만하며, 특정 고도로 불규칙한 커널에서 최대 4.1배의 속도 향상을 달성했습니다. 소스 코드와 데이터셋은 https://github.com/WildAlg/ParEVO에서 이용할 수 있습니다.
검증 가능한 보상을 활용한 강화 학습(RLVR)은 수학적 추론 및 코드 생성과 같은 정확성이 요구되는 영역에서 자기회귀 모델의 성능 향상에 있어 뛰어난 성과를 거두었습니다. 그러나 이러한 패러다임을 Diffusion 대규모 언어 모델(dLLM)에 직접 적용하는 것은 정확한 가능도 계산의 어려움으로 인해 근본적으로 제한되며, 이로 인해 기존 방법들은 높은 분산을 가진 근사치에 의존할 수밖에 없었습니다. 이러한 격차를 해소하기 위해 본 논문에서는 벡터 장 흐름 매칭 개념을 이산 토큰 공간에 매핑하는 새로운 프레임워크인 Likelihood-Free Policy Optimization(LFPO)을 제안합니다. 구체적으로 LFPO는 정렬 문제를 기하학적 속도 보정으로 공식화하여 대조적 업데이트를 통해 노이즈 제거 로짓을 직접 최적화합니다. 이 설계는 가능도 근사에서 비롯되는 오류를 효과적으로 우회하여 정밀한 기울기 추정을 가능하게 합니다. 더불어 LFPO는 중간 단계에서 최종 해를 예측함으로써 일관성을 강화하며, 확률 흐름을 직교화하여 더 적은 반복 횟수로도 고품질 생성을 가능하게 합니다. 광범위한 실험을 통해 LFPO가 코드 및 추론 벤치마크에서 최첨단 기법들을 능가할 뿐만 아니라 확산 단계 감소를 통해 추론 속도를 약 20% 가속화함을 입증하였습니다.
MoE(Mixture-of-Experts) 아키텍처는 계산 효율성을 유지하면서 신경망 규모를 확장하기 위한 강력한 패러다임으로 부상했습니다. 그러나 표준 MoE 구현은 두 가지 경직된 설계 가정에 의존합니다: (1) 토큰당 정확히 K명의 전문가를 활성화하는 고정 Top-K 라우팅, (2) 모든 계층에 걸친 균일한 전문가 할당. 본 논문은 동적 토큰 수준 전문가 활성화와 계층별 적응형 용량 할당을 통해 이 두 가지 제약을 모두 완화하는 새로운 MoE 프레임워크인 DynaMoE를 소개합니다. DynaMoE는 입력 복잡성에 따라 토큰당 활성 전문가 수가 변하는 원칙 기반 라우팅 메커니즘을 도입합니다. 동시에 이 프레임워크는 하강형, 상승형, 피라미드형, 파동형 패턴을 포함하여 네트워크 깊이에 걸쳐 전문가 용량을 분배하는 여섯 가지 상이한 스케줄링 전략을 구현합니다. 우리는 동적 라우팅의 표현력 향상 이점을 이론적으로 분석하고 계산 효율성의 한계를 도출합니다. 다양한 모델 규모에서 MNIST, Fashion-MNIST, CIFAR-10(이미지 분류) 및 Recycling-the-Web(언어 모델링)에 대한 광범위한 실험을 통해 DynaMoE가 정적 기준선 대비 우수한 매개변수 효율성을 달성함을 입증합니다. 우리의 핵심 발견은 최적의 전문가 스케줄이 작업 및 규모에 의존적이라는 점입니다: 하강형 스케줄(초기 계층에 용량 집중)은 이미지 분류에서 균일 기준선을 능가합니다. 언어 모델링의 경우, 최적 스케줄은 모델 크기에 따라 다르며, Tiny 모델에는 하강형, Small 모델에는 상승형, Medium 모델에는 균일형이 적합합니다. 더 나아가 동적 라우팅은 훈련 중 그래디언트 분산을 줄여 수렴 안정성을 개선합니다. DynaMoE는 신경망에서 적응형 계산을 위한 새로운 프레임워크를 구축하며, MoE 아키텍처 설계에 원칙적인 지침을 제공합니다.
과학적 발견은 그 잠재력을 최대로 실현하기 위해 명확하게 전달되어야 합니다. 효과적인 의사소통 없이는 가장 획기적인 연구 결과조차 간과되거나 오해될 위험이 있습니다. 과학자들이 자신의 연구를 공유하고 동료들의 피드백을 받는 주요 방식은 동료 검토입니다. 그러나 현재 시스템은 종종 검토자 간 일관되지 않은 피드백을 제공하여 원고의 개선을 저해하고 그 잠재적 영향력을 제한합니다. 본 논문에서는 대규모 언어 모델(LLM)을 기반으로 한 새로운 방법론인 APRES를 소개합니다. APRES는 평가 기준에 따라 과학 논문의 텍스트를 수정합니다. 우리의 자동화된 방법은 미래 인용 횟수를 높은 정확도로 예측하는 기준을 발견하고, 이를 APRES와 통합하여 논문의 질과 영향력을 높이도록 개정하는 자동 시스템을 구축합니다. 핵심 과학적 내용을 변경하지 않으면서 이 목표를 달성하는 것이 중요합니다. 우리는 APRES의 성공을 입증했는데, 이는 기존 최고 기준치 대비 미래 인용 예측의 평균 절대 오차를 19.6% 개선하였으며, 우리의 논문 개정 과정을 거친 논문이 인간 전문 평가자들에게 원본보다 79%의 경우에서 선호된다는 점을 보여줍니다. 우리의 연구 결과는 LLM을 저자가 논문 제출 전 원고의 견고성을 검증하는 데 도움을 주는 도구로 활용하는 데 강력한 실증적 근거를 제공합니다. 궁극적으로, 우리의 연구는 인간 전문 검토자의 핵심적 역할을 대체하지 않고 보완하고자 합니다. 어떤 발견이 진정으로 중요한지를 판단하고, 과학이 지식을 발전시키고 삶을 풍요롭게 하는 방향으로 나아가도록 이끄는 주체는 인간이어야 하기 때문입니다.
기계 망각은 모델이 특정 데이터를 잊게 하는 기술로, 데이터 프라이버시와 모델 신뢰성 보장에 중요합니다. 그러나 실제 환경에서는 모델이 데이터 내 편향된 상관관계로부터 의도치 않은 편향을 학습할 수 있어 그 효과성이 크게 저하될 수 있습니다. 본 논문은 이러한 편향된 모델로부터 망각을 수행할 때 발생하는 독특한 과제를 탐구합니다. 우리는 모델이 "쉽게 학습되지만 잊기 어려운" 경향을 보이는 "숏컷 망각" 현상을 새롭게 규명합니다. 구체적으로, 모델은 쉽게 학습된 편향과 일치하는 샘플을 잊는 데 어려움을 겪으며, 대상 클래스 속성을 잊는 대신 편향 속성을 망각하여 역설적으로 잊혀져야 할 클래스에 대한 정확도를 오히려 향상시킵니다. 이를 해결하기 위해 우리는 서로 다른 편향을 가진 샘플이 상이한 손실 경관 민감도를 보인다는 관찰에 착안한 새로운 망각 프레임워크 CUPID를 제안합니다. 우리의 방법은 먼저 샘플의 민감도를 기반으로 망각 집합을 인과-근사 및 편향-근사 하위 집합으로 분할한 후, 모델 매개변수를 인과 경로와 편향 경로로 분리합니다. 마지막으로 정제된 인과 및 편향 기울기를 각각의 경로로 전달하는 대상 갱신을 수행합니다. Waterbirds, BAR, Biased NICO++ 등의 편향된 데이터셋에서 진행한 폭넓은 실험을 통해 우리 방법이 최첨단 망각 성능을 달성하고 숏컷 망각 문제를 효과적으로 완화함을 입증했습니다.
공간적으로 변동하는 동적 합성곱은 심층 신경망에 공간 적응성을 통합하는 원칙적인 접근법을 제공합니다. 그러나 의료 영상 분할 분야의 주류 설계는 일반적으로 평균 풀링을 통해 동적 커널을 생성하는데, 이는 암묵적으로 고주파 공간 세부 정보를 거친 공간 압축 표현으로 축소하여 과도하게 평활화된 예측을 초래하며, 세밀한 임상 구조의 정확도를 저하시킵니다. 이러한 한계를 해결하기 위해 본 연구에서는 명시적으로 지도되는 구조 추출 브랜치를 활용하여 구조 인식 특징 변조를 위한 동적 커널 및 게이팅 신호 생성을 안내하는 새로운 구조 기반 동적 합성곱(SGDC) 메커니즘을 제안합니다. 구체적으로, 이 보조 브랜치에서 얻은 높은 정확도의 경계 정보가 의미론적 특징과 융합되어 공간적으로 정밀한 특징 변조를 가능하게 합니다. 컨텍스트 집계 대신 픽셀 단위 구조 안내를 사용함으로써, 제안된 설계는 평균 풀링으로 인한 정보 손실을 효과적으로 방지합니다. 실험 결과, SGDC는 ISIC 2016, PH2, ISIC 2018 및 CoNIC 데이터셋에서 최첨단 성능을 달성하여 Hausdorff 거리(HD95)를 2.05 감소시키는 우수한 경계 정확도를 제공하고, 풀링 기반 기준 모델 대비 0.99%~1.49%의 지속적인 IoU 향상을 제공합니다. 더욱이, 이 메커니즘은 소형 객체 감지와 같은 다른 세밀하고 구조에 민감한 비전 작업으로의 확장에 대한 강력한 잠재력을 보여주며, 의료 영상 분석에서 구조적 무결성을 보존하기 위한 원칙적인 해결책을 제시합니다. 재현성을 용이하게 하고 추가 연구를 장려하기 위해 SGE 및 SGDC 모듈의 구현 코드는 https://github.com/solstice0621/SGDC에서 공개되었습니다.
놀라운 성능에도 불구하고, 현재의 텍스트-이미지(T2I) 모델들은 여전히 안전하지 않고 유해한 콘텐츠를 생성하는 경향이 있습니다. 활성화 조정(activation steering)이 추론 시점에 효과적인 개입 방법으로 주목받고 있지만, 선형 활성화 조정을 양성 프롬프트(benign prompt)에 적용할 경우 이미지 품질이 자주 저하된다는 점을 관찰했습니다. 이러한 트레이드오프를 해결하기 위해, 우리는 먼저 코사인 유사도가 높은 2,300개의 안전/불안전 프롬프트 쌍으로 구성된 대조 데이터셋인 SafeSteerDataset을 구축했습니다. 이 데이터를 활용하여, 우리는 기하학적 조건 설정 메커니즘과 비선형 변환 맵(transport map)을 사용하는 조건부 활성화 변환(Conditioned Activation Transport, CAT) 프레임워크를 제안합니다. 변환 맵이 불안전 활성화 영역 내에서만 작동하도록 조건을 설정함으로써, 양성 질의에 대한 간섭을 최소화합니다. 우리는 이 접근법을 두 가지 최신 아키텍처인 Z-Image와 Infinity에서 검증했습니다. 실험 결과, CAT가 이러한 백본 구조 전반에 효과적으로 일반화되며, 조정을 가하지 않은 생성 결과 대비 공격 성공률(Attack Success Rate)을 크게 낮추면서도 이미지 충실도(fidelity)를 유지함을 입증했습니다. 주의: 본 논문에는 공격적일 수 있는 텍스트와 이미지가 포함되어 있습니다.
대규모 언어 모델(LLM)의 최근 발전으로 점차 능력이 향상된 챗봇이 등장하고 있습니다. 그러나 기존 시스템 대부분은 단일 사용자 환경에 중점을 두고 있어, 복잡하고 변화하는 상황에서 에이전트가 보다 주도적이고 정확하게 개입해야 하는 다중 사용자 그룹 채팅으로는 잘 일반화되지 않습니다. 기존 접근법은 일반적으로 추론과 생성 모두에 LLM을 사용하여 높은 토큰 소비, 제한된 확장성 및 잠재적인 개인정보 보호 위험을 초래합니다. 이러한 문제를 해결하기 위해 본 연구에서는 다중 사용자 채팅 어시스턴트를 위한 토큰 효율적이고 개인정보를 보호하는 에이전트 프레임워크인 GroupGPT를 제안합니다. GroupGPT는 소형-대형 모델 협업 아키텍처를 채택하여 개입 시기와 응답 생성을 분리함으로써 효율적이고 정확한 의사 결정을 가능하게 합니다. 또한 이 프레임워크는 밈, 이미지, 동영상, 음성 메시지를 포함한 다중 모드 입력을 지원합니다. 우리는 더 나아가 다중 사용자 채팅 어시스턴트 개입 추론을 위한 벤치마크 데이터셋인 MUIR을 소개합니다. MUIR은 개입 레이블과 근거가 포함된 2,500개의 주석이 달린 그룹 채팅 세그먼트를 포함하며, 시기 정확성과 응답 품질 평가를 지원합니다. 우리는 대규모 언어 모델부터 소규모 모델에 이르기까지 다양한 모델을 MUIR에서 평가합니다. 광범위한 실험을 통해 GroupGPT가 정확하고 시기 적절한 응답을 생성하며, LLM 기반 평가에서 평균 4.72/5.0점을 달성하고 다양한 그룹 채팅 시나리오에서 사용자들에게 호응을 얻는 것으로 나타났습니다. 또한 GroupGPT는 기준 방법 대비 토큰 사용량을 최대 3배까지 줄이면서, 클라우드 전송 전 사용자 메시지에 대한 개인정보 정제 기능을 제공합니다. 코드는 https://github.com/Eliot-Shen/GroupGPT 에서 확인할 수 있습니다.
음성 인식의 방음향적 강건성을 평가하기 위한 클린 및 잔향 음성 쌍으로 구성된 벤치마크 데이터셋인 Whisper-RIR-Mega를 소개한다. 각 샘플은 클린 LibriSpeech 발화와 RIR-Mega 코퍼스의 실제 실내 임펄스 응답으로 컨볼루션 처리된 동일 발화를 쌍으로 구성하며, 잔향 시간(RT60)과 직접음-잔향음 비율(DRR)에 따라 계층화된 분할을 적용했다. 5개의 Whisper 모델(tiny부터 large-v3까지)을 1600개의 테스트 샘플로 평가하였으며, 클린 및 잔향 조건에서의 단어 오류율(WER)과 문자 오류율(CER)을 보고한다. 잔향은 모든 모델 크기에서 일관되게 성능을 저하시켰으며, 모델에 따른 WER 기반 잔향 패널티는 0.12~1.07% 포인트 범위를 보였다. 강건한 음성 인식 연구의 재현성을 지원하기 위해 데이터셋, 평가 코드 및 기준 결과를 공개한다.
온라인 안전 연구에서 미묘하고 간접적인 증오 표현은 여전히 충분히 탐구되지 않은 과제로 남아 있으며, 특히 유해한 의도가 오해를 불러일으키거나 조작된 서사에 내포된 경우 더욱 그러합니다. 기존 증오 표현 데이터셋은 주로 노골적인 독성을 포착할 뿐, 허위정보가 증오를 선동하거나 정상화하는 미묘한 방식을 제대로 반영하지 못하고 있습니다. 이러한 격차를 해소하기 위해 우리는 가짜 또는 왜곡된 서사에서 비롯된 증오에 대한 추론 및 설명 가능성 연구를 발전시키기 위해 설계된 'Faux Hate' 댓글의 새로운 데이터셋인 HateMirage를 소개합니다. 이 데이터셋은 팩트체크 출처에서 널리 반박된 허위정보 주장을 식별하고 관련 YouTube 논의를 추적하여 구성되었으며, 총 4,530개의 사용자 댓글로 구성됩니다. 각 댓글은 이해 가능한 세 가지 차원, 즉 대상(누가 영향을 받는가), 의도(댓글 뒤에 숨은 동기나 목표), 함의(잠재적 사회적 영향)에 따라 주석이 달려 있습니다. 토큰 수준 또는 단일 차원의 추론을 제공하는 HateXplain 및 HARE와 같은 기존 설명 가능성 데이터셋과 달리, HateMirage는 허위정보, 피해, 사회적 결과 간의 상호작용을 포착하는 다차원 설명 프레임워크를 도입합니다. 우리는 설명의 일관성을 평가하기 위해 ROUGE-L F1 및 Sentence-BERT 유사도를 사용하여 HateMirage에 대해 여러 오픈소스 언어 모델의 벤치마크를 수행했습니다. 결과에 따르면 설명의 질은 모델 규모 자체보다 사전 학습 데이터의 다양성과 추론 지향 데이터에 더 크게 의존할 수 있음을 시사합니다. 허위정보 추론과 피해 귀인을 결합함으로써, HateMirage는 해석 가능한 증오 탐지 및 책임 있는 AI 연구를 위한 새로운 벤치마크를 확립합니다.
다중 회차 상호작용을 위한 테스트 타임 정책 적응(T2PAM)은 추론 시간 동안 LLM(Large Language Model)을 변화하는 사용자 요구에 맞추는 데 필수적입니다. 그러나 기존 패러다임들은 테스트 타임 적응을 단일 축 문제, 즉 순수하게 지시문을 개선하거나(Prompt Engineering) 가중치만 조정하는 것(Test-Time Training)으로 흔히 간주하여, 상호작용 실패가 모호성과 부족한 능력이 결합된 데서 비롯된다는 점을 간과해 왔습니다. 우리는 이 두 최적화 경로가 단순히 추가적인 것이 아니라 시너지 효과를 낸다고 주장합니다. 즉, 의미론적 명료성이 효과적인 매개변수 업데이트의 사전 조건 역할을 합니다. 이를 위해 우리는 Words(단어)와 Weights(가중치)라는 이종 공간에서 상호작용을 공동 최적화 문제로 재정의하는 ROSA2 프레임워크를 제안합니다. 오류 신호를 수학적으로 분해함으로써, ROSA2는 텍스트 기울기(textual gradient)를 활용하여 의도 모호성을 수정하고 매개변수 업데이트를 통해 능력 격차를 해소합니다. 이론적으로, 우리는 이러한 공동 적응이 수렴에 필요한 매개변수 변화량을 엄격하게 줄인다는 것을 증명합니다. 실험적으로, ROSA2는 MATH 벤치마크에서 최신 기준선 대비 30% 성능 향상을 보였으며 상호작용 회차를 40% 줄여, 맥락을 정제하는 것이 매개변수 업데이트의 진정한 잠재력을 발휘하게 함을 입증했습니다.
비디오 대규모 언어 모델(VLLM)은 강력한 비디오 이해 능력을 보여주지만, 중복된 시각 토큰으로 인해 비효율성이 발생합니다. 기존의 프루닝 방법은 주로 프레임 내 공간적 중복성을 대상으로 하거나, LLM 내부의 얕은 계층 오버헤드를 제거하는 방식으로 최적의 시공간적 축소를 달성하지 못하고 장문맥 압축 가능성을 충분히 활용하지 못합니다. 또한 이러한 방법들은 병합되거나 제거된 토큰의 미세하지만 중요한 맥락을 종종 버리게 됩니다. 본 논문에서는 프레임 내 및 프레임 간 토큰 앵커를 정교하게 설정하여 지역-전역 최적 수송(Local-Global Optimal Transport, AOT)을 통해 정보성 있는 맥락을 포괄적으로 집계하는 새로운 관점을 제안합니다. 구체적으로, 우리는 먼저 어텐션 지도를 기반으로 각 프레임 내에서 지역 및 전역 인식 토큰 앵커를 설정한 후, 최적 수송을 통해 제거될 토큰들의 정보성 있는 맥락을 집계하여 프레임 내 토큰 앵커를 구성합니다. 그런 다음, 시간적 프레임 클립을 기반으로 각 클립의 첫 번째 프레임을 키프레임 앵커로 지정하여 최적 수송을 통해 연속된 프레임들의 유사 정보를 통합하되, 시간적 역동성을 나타내는 독특한 토큰들은 보존함으로써 학습 없이도 효율적인 토큰 축소를 달성합니다. 광범위한 평가를 통해, 우리가 제안한 AOT 방식이 주요 비디오 LLM들의 다양한 단기 및 장기 비디오 벤치마크에서 경쟁력 있는 성능을 보이며, 시간적 및 시각적 정확도를 유지하면서도 상당한 계산 효율성을 얻음을 확인했습니다. 프로젝트 웹페이지: https://tyroneli.github.io/AOT{AOT}.
플립 그래프 접근법을 활용한 고속 행렬 곱셈 방식 탐색을 위한 오픈소스 C++ 프레임워크를 소개한다. 본 프레임워크는 이진(Z_2), 모듈러 3진(Z_3), 정수 3진(Z_T = {-1,0,1}) 등 다양한 계수 환을 지원하며, 고정 차원 및 메타 차원 탐색 연산자를 모두 구현한다. 계수 벡터의 효율적인 비트 수준 인코딩과 OpenMP 병렬 처리를 통해 일반 상용 하드웨어에서 대규모 탐색이 가능하다. 본 연구는 (2×2×2)부터 (16×16×16)까지 총 680가지 방식을 다루며, 그중 276개는 Z_T 계수에서, 117개는 정수 계수에서 새롭게 제시된다. 이 프레임워크를 통해 79개 행렬 곱셈 방식의 곱셈 복잡도(랭크)가 개선되었다. 특히, 115회의 곱셈만 필요한 새로운 4×4×10 방식이 발견되어 ω ≈ 2.80478을 달성하며, 해당 크기에서 슈트라센의 지수를 능가하였다. 추가적으로, 유리수나 정수 계수에서만 알려졌던 93개의 3진 계수 방식과 분수가 필요했던 68개의 정수 계수 방식을 재발견하였다. 재현 가능한 연구를 위해 모든 도구와 발견된 방식은 공개되었다.
다중 도메인 그래프 사전 학습은 다양한 도메인의 지식을 통합하여 대상 도메인에서의 성능을 향상시키며, 이는 그래프 기초 모델 구축에 있어 중요합니다. 초기 성공에도 불구하고, 기존 솔루션들은 근본적인 질문에 대한 답을 제시하는 데 종종 부족합니다: 도메인 간 지식은 어떻게 통합되거나 전달되는가? 이러한 이론적 한계는 모델 사전 학습과 도메인 적응 간의 일관성과 전이 가능성을 재고하도록 동기를 부여합니다. 본 논문에서는 새로운 리만 기하학적 관점을 제안하며, 그 핵심 아이디어는 모든 그래프 데이터셋을 통합된 매끄러운 리만 다양체로 병합하여 지식 통합 및 전달에 대한 체계적인 이해를 가능하게 하는 것입니다. 이를 위해 우리의 주요 기여는 신경망 다양체 접합 이론을 정립한 것으로, 이는 먼저 적응형 직교 프레임을 사용하여 국소 기하학을 특징짓고 затем 국소 조각들을 응집성 있는 전체로 "접합"합니다. 이 이론을 바탕으로 EMA 프로토타이핑을 통한 배치 사전 학습을 지원하고 기하학적 일관성에 기반한 전이 가능성 측정을 제공하는 GraphGlue 프레임워크를 제시합니다. 다양한 그래프 도메인에서의 폭넓은 실험을 통해 그 우수한 성능을 입증했습니다. 더 나아가, 더 많은 데이터셋이 더 매끄러운 다양체를 생성함으로써 모델의 전이 가능성을 향상시킨다는 GraphGlue의 기하학적 스케일링 법칙을 실증적으로 검증했습니다. 코드는 https://github.com/RiemannGraph/GraphGlue에서 이용 가능합니다.
레이 트레이싱은 정확한 전파 전파 모델링을 위한 표준 기술로 자리 잡았지만, 후보 경로의 수가 상호작용 차수를 지수로 한 객체 수의 거듭제곱에 비례하여 증가함에 따라 기하급수적인 계산 복잡도를 가지는 문제가 있습니다. 이러한 병목 현상은 대규모 또는 실시간 응용 분야에서의 사용을 제한하며, 기존 도구들은 정확도가 저하될 수 있는 비용을 감수하면서 휴리스틱을 통해 경로 후보 수를 줄이는 방식에 의존해 왔습니다. 이러한 한계를 극복하기 위해, 우리는 생성적 흐름 네트워크를 통한 지능형 샘플링으로 철저한 경로 탐색을 대체하는 포괄적인 머신러닝 지원 프레임워크를 제안합니다. 이러한 생성 모델을 해당 분야에 적용하는 것은 상당한 도전 과제를 수반하는데, 특히 유효한 경로가 희소하여 보상이 드물게 발생함에 따라 복잡한 환경에서 고차원 상호작용을 평가할 때 수렴 실패나 trivial solution으로 이어질 수 있습니다. 강건한 학습과 효율적인 탐색을 보장하기 위해, 우리의 프레임워크는 세 가지 핵심 구조적 구성 요소를 포함합니다. 첫째, 희귀한 유효 경로를 포착하고 유지하기 위해 경험 재생 버퍼를 구현합니다. 둘째, 일반화 성능을 향상시키고 모델이 단순한 형상에 과적합되는 것을 방지하기 위해 균일 탐색 정책을 채택합니다. 셋째, 모델이 고려하기도 전에 물리적으로 불가능한 경로를 필터링하는 물리 기반 액션 마스킹 전략을 적용합니다. 실험적 검증에서 입증된 바와 같이, 제안된 모델은 철저한 검색 대비 GPU에서는 최대 10배, CPU에서는 1000배까지 상당한 속도 향상을 달성하면서도 높은 커버리지 정확도를 유지하고 복잡한 전파 경로를 성공적으로 발견합니다. 전체 소스 코드, 테스트 및 튜토리얼은 https://github.com/jeertmans/sampling-paths에서 이용할 수 있습니다.