번역이 포함된 일일 선별된 AI 연구 논문
멀티-LLM 시스템은 다양한 대형 언어 모델(LLM)의 상호 보완적 강점을 활용하여 단일 모델로는 달성할 수 없는 성능과 효율성 향상을 이룹니다. 기존 설계에서 LLM들은 텍스트를 통해 소통하며, 내부 표현을 출력 토큰 시퀀스로 변환해야 합니다. 이 과정은 풍부한 의미 정보를 잃게 하고 토큰별 생성 지연을 초래합니다. 이러한 한계를 바탕으로, 우리는 다음과 같은 질문을 던집니다: LLM이 텍스트를 넘어 소통할 수 있을까? 오라클 실험은 KV-Cache의 의미를 풍부하게 함으로써 캐시 크기를 늘리지 않고도 응답 품질을 개선할 수 있음을 보여주며, KV-Cache가 모델 간 소통의 효과적인 매체임을 입증합니다. 따라서 우리는 LLM 간 직접적인 의미 소통을 위한 새로운 패러다임인 Cache-to-Cache(C2C)를 제안합니다. C2C는 신경망을 사용하여 소스 모델의 KV-Cache를 타겟 모델의 KV-Cache에 투영하고 융합함으로써 직접적인 의미 전달을 가능하게 합니다. 학습 가능한 게이팅 메커니즘은 캐시 소통으로 이익을 얻는 타겟 레이어를 선택합니다. 텍스트 소통과 비교했을 때, C2C는 두 모델의 깊고 전문화된 의미를 활용하면서 명시적인 중간 텍스트 생성을 피합니다. 실험 결과, C2C는 개별 모델보다 평균 8.5-10.5% 더 높은 정확도를 달성했습니다. 또한 텍스트 소통 패러다임보다 약 3.0-5.0% 더 우수한 성능을 보였으며, 평균 2.0배의 지연 시간 단축을 이루었습니다. 우리의 코드는 https://github.com/thu-nics/C2C에서 확인할 수 있습니다.
시각적 토큰화는 자동회귀 패러다임 내에서 시각적 이해와 생성을 통합하는 데 있어 여전히 핵심적인 과제로 남아 있습니다. 기존 방법들은 일반적으로 이산 잠재 공간에서 토크나이저를 사용하여 대규모 언어 모델의 토큰과 정렬하지만, 양자화 오류로 인해 의미 표현력이 제한되고 시각-언어 이해 능력이 저하될 수 있습니다. 이를 해결하기 위해, 우리는 연속 잠재 공간을 가진 새로운 시각적 토큰화기 패밀리인 MingTok을 소개합니다. MingTok은 통합 자동회귀 생성과 이해를 위해 설계되었습니다. 이해 작업은 판별적 고차원 특징을 선호하는 반면, 생성 작업은 간결한 저수준 코드를 선호합니다. 따라서 이러한 상충되는 요구를 조화롭게 만족시키기 위해 MingTok은 저수준 인코딩, 의미 확장, 시각적 재구성의 세 단계 순차적 아키텍처를 채택합니다. 이를 기반으로 구축된 Ming-UniVision은 작업별 시각적 표현의 필요성을 없애고, 다양한 시각-언어 작업을 단일 자동회귀 예측 패러다임으로 통합합니다. 이해와 생성을 공유된 연속 공간에서의 다음 토큰 예측으로 공식화함으로써, 반복적 이해, 생성 및 편집과 같은 다중 라운드, 문맥 내 작업을 원활하게 지원합니다. 실험적으로, 통합된 연속 시각적 표현을 사용함으로써 이해와 생성 작업이 토큰화기에 요구하는 상충되는 요구 사항을 조화롭게 만족시켜, 두 영역 모두에서 최첨단 수준의 성능을 달성할 수 있음을 확인했습니다. 우리의 연구 결과가 연속 영역에서의 통합 시각적 토큰화를 촉진하기를 바랍니다. 추론 코드와 모델 가중치는 커뮤니티의 이익을 위해 공개되었습니다.
우리는 원활한 다중 모달 생성 및 이해를 위한 오픈소스 기반 모델인 Lumina-DiMOO를 소개한다. Lumina-DiMOO는 다양한 모달리티 간의 입력과 출력을 처리하기 위해 완전히 이산적인 확산 모델링을 활용함으로써 기존의 통합 모델들과 차별화된다. 이 혁신적인 접근 방식은 Lumina-DiMOO가 이전의 자기회귀(AR) 또는 하이브리드 AR-확산 패러다임에 비해 더 높은 샘플링 효율성을 달성하고, 텍스트-이미지 생성, 이미지-이미지 생성(예: 이미지 편집, 주제 기반 생성, 이미지 인페인팅 등), 그리고 이미지 이해를 포함한 광범위한 다중 모달 작업을 능숙하게 지원할 수 있게 한다. Lumina-DiMOO는 여러 벤치마크에서 최첨단 성능을 달성하며, 기존의 오픈소스 통합 다중 모달 모델들을 능가한다. 다중 모달 및 이산 확산 모델 연구의 추가 발전을 촉진하기 위해, 우리는 코드와 체크포인트를 커뮤니티에 공개한다. 프로젝트 페이지: https://synbol.github.io/Lumina-DiMOO.
현재의 대형 언어 모델(LLM)과 음성 언어 모델(SLM)은 사용자가 자신의 차례를 마친 후에야 사고하고 행동을 시작합니다. 이로 인해 모델은 사용자의 차례 중에 상호작용할 수 없으며, 사고를 위해 기다리는 동안 높은 응답 지연이 발생할 수 있습니다. 결과적으로, 전체 입력을 받은 후에 사고하는 방식은 실시간, 저지연 교환이 중요한 음성 대 음성 상호작용에는 적합하지 않습니다. 우리는 인간이 자연스럽게 "듣는 동안 사고한다"는 점에 주목하여 이 문제를 해결하고자 합니다. 본 논문에서는 SLM이 사용자 입력을 들으면서 말로 표현되지 않은 사고의 연쇄적 추론을 생성할 수 있도록 하는 일반적인 추론 프레임워크인 SHANKS를 제안합니다. SHANKS는 입력 음성을 고정된 길이의 청크로 스트리밍하고, 청크를 받자마자 이전의 모든 음성과 추론을 기반으로 말로 표현되지 않은 추론을 생성합니다. 이때 사용자는 계속해서 말을 이어갑니다. SHANKS는 이 말로 표현되지 않은 추론을 사용하여 사용자를 중단할지 여부를 결정하고, 작업을 완료하기 위해 도구 호출을 수행합니다. 우리는 SHANKS가 두 가지 시나리오에서 실시간 사용자-SLM 상호작용을 향상시킨다는 것을 보여줍니다: (1) 사용자가 수학 문제에 대한 단계별 해결책을 제시할 때, SHANKS는 듣고, 추론하며, 사용자가 실수를 했을 때 중단할 수 있어, 사고 없이 중단하는 기준선보다 37.1% 더 높은 중단 정확도를 달성합니다; (2) 도구가 보강된 대화에서, SHANKS는 사용자가 자신의 차례를 마치기 전에 56.9%의 도구 호출을 완료할 수 있습니다. 전반적으로, SHANKS는 대화가 끝난 후뿐만 아니라 대화 전체에 걸쳐 사고를 계속하는 모델로 나아갑니다. SHANKS의 애니메이션 예시는 https://d223302.github.io/SHANKS/에서 확인할 수 있습니다.
Video DiT는 비디오 생성 분야에서 진전을 이루었지만, 여전히 다중 인스턴스나 주체-객체 상호작용을 모델링하는 데 어려움을 겪고 있습니다. 이는 중요한 질문을 제기합니다: 이러한 모델들은 내부적으로 상호작용을 어떻게 표현할까요? 이를 해결하기 위해, 우리는 상호작용을 인지한 캡션과 다중 인스턴스 마스크 트랙을 포함한 MATRIX-11K 비디오 데이터셋을 구축했습니다. 이 데이터셋을 사용하여, 우리는 Video DiT의 두 가지 관점을 체계적으로 분석합니다: 첫째, 비디오-텍스트 어텐션을 통한 의미론적 접지(semantic grounding)로, 명사와 동사 토큰이 인스턴스와 그 관계를 포착하는지 평가합니다. 둘째, 비디오-비디오 어텐션을 통한 의미론적 전파(semantic propagation)로, 인스턴스 바인딩이 프레임 간에 지속되는지 평가합니다. 우리는 이 두 효과가 상호작용이 지배적인 소수의 레이어에 집중되어 있음을 발견했습니다. 이를 바탕으로, 우리는 MATRIX를 제안합니다. 이는 Video DiT의 특정 레이어에서의 어텐션을 MATRIX-11K 데이터셋의 다중 인스턴스 마스크 트랙과 정렬함으로써 접지와 전파를 모두 향상시키는 간단하면서도 효과적인 정규화 방법입니다. 또한, 우리는 상호작용을 인지한 비디오 생성을 평가하기 위한 InterGenEval 평가 프로토콜을 제안합니다. 실험에서 MATRIX는 상호작용 충실도와 의미론적 정렬을 모두 개선하면서 드리프트(drift)와 환각(hallucination)을 줄였습니다. 광범위한 어블레이션(ablation) 실험을 통해 우리의 설계 선택을 검증했습니다. 코드와 가중치는 공개될 예정입니다.
비전과 언어 기반 모델의 최근 발전은 다중 모달 이해, 추론 및 생성 능력을 크게 향상시켰으며, 이를 통해 비전-언어-행동(VLA) 모델을 통해 이러한 능력을 구체화된 환경으로 확장하려는 관심이 급증하고 있습니다. 그러나 대부분의 VLA 모델은 여전히 지도 미세 조정(SFT)으로 훈련되어 있어, 분포 변화에서의 일반화가 오류 누적으로 인해 어려움을 겪고 있습니다. 강화 학습(RL)은 상호작용을 통해 작업 성능을 직접 최적화하는 유망한 대안을 제공하지만, 기존의 시도들은 단편적이며 모델 아키텍처와 알고리즘 설계에 걸친 공정하고 체계적인 비교를 위한 통합 플랫폼이 부족합니다. 이러한 격차를 해결하기 위해, 우리는 RLinf-VLA를 소개합니다. 이는 VLA 모델의 확장 가능한 RL 훈련을 위한 통합적이고 효율적인 프레임워크입니다. 이 시스템은 RL+VLA 훈련에서 렌더링, 훈련 및 추론을 통합하는 도전 과제를 해결하기 위해 매우 유연한 자원 할당 설계를 채택합니다. 특히, GPU 병렬화 시뮬레이터의 경우, RLinf-VLA는 새로운 하이브리드 세분화된 파이프라인 할당 모드를 구현하여 훈련 속도를 1.61배에서 1.88배까지 향상시킵니다. 통합 인터페이스를 통해, RLinf-VLA는 다양한 VLA 아키텍처(예: OpenVLA, OpenVLA-OFT), 여러 RL 알고리즘(예: PPO, GRPO), 그리고 다양한 시뮬레이터(예: ManiSkill, LIBERO)를 원활하게 지원합니다. 시뮬레이션에서, 통합 모델은 130개의 LIBERO 작업에서 98.11%, 25개의 ManiSkill 작업에서 97.66%의 성능을 달성했습니다. 실험적 성능을 넘어, 우리의 연구는 VLA 훈련에 RL을 적용하기 위한 일련의 모범 사례를 정리하고, 이러한 통합에서 나타나는 새로운 패턴을 밝혀냅니다. 더 나아가, 우리는 실제 Franka 로봇에 대한 초기 배포를 제시하며, RL로 훈련된 정책이 SFT로 훈련된 정책보다 더 강력한 일반화 능력을 보여줍니다. 우리는 RLinf-VLA가 구체화된 지능 연구를 가속화하고 표준화하는 기반이 될 것으로 기대합니다.
대형 언어 모델(LLMs)은 사용자가 자연어 상호작용을 통해 코드를 생성하고 반복적으로 개선하여 자신의 '바이브 체크(vibe check)'를 통과할 때까지 다듬는 '바이브 코딩(vibe coding)'을 촉진시켰다. 바이브 체크는 실세계의 인간 선호도와 연관되어 있으며, 단순한 기능성 이상의 요소를 포함한다: 해결책은 적절하게 느껴져야 하고, 깔끔하게 읽혀야 하며, 의도를 보존하고 정확성을 유지해야 한다. 그러나 현재의 코드 평가는 여전히 pass@k에 기반을 두고 있으며, 기능적 정확성만을 포착하여 사용자가 일상적으로 적용하는 비기능적 지시사항을 간과하고 있다. 본 논문에서는 지시사항 준수가 바이브 체크의 핵심 요소이며, 기능적 정확성 외에도 코딩에서의 인간 선호도를 대표한다는 가설을 제시한다. 모델의 코드 지시사항 준수 능력을 측정 가능한 신호로 정량화하기 위해, 우리는 30개의 검증 가능한 코드 지시사항과 이에 상응하는 결정론적 검증기를 포함한 VeriCode 분류체계를 제안한다. 이 분류체계를 기존 평가 도구에 적용하여, 코드 지시사항 준수와 기능적 정확성을 모두 평가할 수 있는 Vibe Checker 테스트베드를 구축하였다. 31개의 주요 LLMs를 평가한 결과, 가장 강력한 모델들조차도 다중 지시사항을 준수하는 데 어려움을 겪으며 명백한 기능적 퇴보를 보임을 확인하였다. 가장 중요한 것은, 기능적 정확성과 지시사항 준수를 결합한 종합 점수가 인간 선호도와 가장 높은 상관관계를 보였으며, 실세계 프로그래밍 작업에서는 지시사항 준수가 주요 차별화 요소로 부각되었다는 점이다. 본 연구는 바이브 체크의 핵심 요소를 규명함으로써, 사용자 선호도와 더 잘 부합하는 모델을 벤치마킹하고 개발하기 위한 구체적인 방향을 제시한다.
대규모 언어 모델(LLMs)은 지식 집약적이고 복잡한 추론 작업을 위해 점점 더 다중 턴 도구 통합 계획에 의존하고 있다. 기존 구현은 일반적으로 단일 에이전트에 의존하지만, 제한된 컨텍스트 길이와 잡음이 있는 도구 응답으로 인해 어려움을 겪는다. 이러한 문제에 대한 자연스러운 해결책은 컨텍스트를 관리하기 위해 플래너 및 워커 에이전트를 포함한 다중 에이전트 프레임워크를 채택하는 것이다. 그러나 기존의 방법들은 도구 통합 다중 에이전트 프레임워크의 효과적인 강화 학습 사후 훈련을 지원하지 않는다. 이러한 격차를 해결하기 위해, 우리는 다중 에이전트 도구 통합 정책 최적화(Multi-Agent Tool-Integrated Policy Optimization, MATPO)를 제안한다. MATPO는 강화 학습을 통해 단일 LLM 인스턴스 내에서 플래너와 워커와 같은 구별된 역할을 역할별 프롬프트를 사용하여 훈련할 수 있게 한다. MATPO는 플래너와 워커 롤아웃 간의 원칙적인 크레딧 할당 메커니즘에서 도출된다. 이 설계는 메모리 집약적인 다중 LLM 배포의 필요성을 제거하면서도 전문화의 이점을 유지한다. GAIA-text, WebWalkerQA 및 FRAMES에 대한 실험에서 MATPO는 단일 에이전트 기준선 대비 평균 18.38%의 상대적 성능 향상을 보였으며, 잡음이 있는 도구 출력에 대해 더 큰 견고성을 나타냈다. 우리의 연구 결과는 단일 LLM 내에서 다중 에이전트 역할을 통합하는 효과를 강조하며, 안정적이고 효율적인 다중 에이전트 강화 학습 훈련을 위한 실용적인 통찰을 제공한다.
장기 시퀀스 모델링은 RNN(Recurrent Neural Network)과 유사한 모델에서의 압축된 고정 크기 메모리의 효율성과 어텐션 기반 트랜스포머(Transformer)에서의 무손실 확장 메모리의 충실도 사이의 근본적인 트레이드오프에 직면해 있습니다. 인지과학의 다중 저장소 모델(Multi-Store Model)에서 영감을 받아, 우리는 인공 신경망의 메모리 프레임워크를 제안합니다. 우리의 방법은 트랜스포머의 KV 캐시를 무손실 단기 메모리로 유지하는 슬라이딩 윈도우를 유지하면서, 인공 해마 네트워크(Artificial Hippocampus Network, AHN)라고 명명된 학습 가능한 모듈이 윈도우 밖의 정보를 고정 크기의 압축된 장기 메모리로 반복적으로 압축합니다. 이 프레임워크를 검증하기 위해, 우리는 Mamba2, DeltaNet, Gated DeltaNet과 같은 현대적인 RNN 유사 아키텍처를 사용하여 AHN을 구현했습니다. 장기 컨텍스트 벤치마크인 LV-Eval과 InfiniteBench에서의 광범위한 실험을 통해, AHN이 추가된 모델들이 슬라이딩 윈도우 베이스라인을 지속적으로 능가하고, 전체 어텐션 모델과 비슷하거나 더 우수한 성능을 달성하면서도 계산 및 메모리 요구 사항을 크게 줄이는 것을 확인했습니다. 예를 들어, Qwen2.5-3B-Instruct 모델에 AHN을 추가하면 추론 FLOPs를 40.5% 줄이고 메모리 캐시를 74.0% 줄이면서, LV-Eval(128k 시퀀스 길이)에서의 평균 점수를 4.41에서 5.88로 향상시켰습니다. 코드는 https://github.com/ByteDance-Seed/AHN에서 확인할 수 있습니다.
최신 프론티어 모델들은 컨텍스트 내에서 솔루션 공간을 탐색하고 더 강력한 성능을 달성하기 위해 긴 사고 사슬(chain-of-thought) 추론을 사용합니다. 많은 연구들이 더 작으면서도 능력 있는 모델을 구축하기 위해 지식 증류(distillation)를 연구하지만, 대부분 영어에 초점을 맞추고 있으며 언어별 추론에 대해서는 거의 알려져 있지 않습니다. 이러한 격차를 해소하기 위해, 우리는 먼저 **언어 혼합 사고 사슬(Language-Mixed CoT)**을 소개합니다. 이 추론 방식은 영어와 대상 언어 사이를 전환하며, 영어를 앵커로 사용하여 추론 능력을 극대화하고 번역 아티팩트를 최소화합니다. 한국어 사례 연구로, 우리는 **이상(Yi-Sang)** 데이터셋을 구축했습니다: 웹 Q&A, 시험, STEM, 코드에서 수집된 579만 개의 한국어 원본 프롬프트; Qwen3-32B에서 생성된 370만 개의 긴 추론 흔적; 그리고 26만 개의 고수익 타겟 서브셋입니다. 우리는 6개 모델 패밀리(Qwen2.5, Llama-3.1, Gemma-3 등)에 걸쳐 9개 모델(4B-35B)을 학습시켰습니다. 우리의 최고 모델인 **KO-REAson-35B**는 최첨단 성능을 달성하며, 전체 평균 점수(64.0 ± 25)에서 가장 높은 점수를 기록하고 9개 벤치마크 중 5개에서 1위, 나머지에서 2위를 차지했습니다. 더 작고 중간 크기의 모델들도 상당한 이점을 얻었으며, 평가된 9개 벤치마크에서 평균 +18.6점의 향상을 보였습니다. 어블레이션(ablation) 연구는 **언어 혼합 사고 사슬**이 단일 언어 사고 사슬보다 더 효과적이며, 또한 크로스-링구얼(cross-lingual) 및 멀티모달(multimodal) 성능 향상으로 이어짐을 보여줍니다. 우리는 언어별 추론 연구를 발전시키기 위해 데이터 큐레이션 파이프라인, 평가 시스템, 데이터셋 및 모델을 공개합니다. 데이터 및 모델 컬렉션: https://huggingface.co/KOREAson.
전 세계 언어의 거의 3분의 1을 차지함에도 불구하고, 아프리카 언어들은 현대 NLP 기술로부터 심각하게 소외되어 있으며, 88%가 계산 언어학에서 심각하게 저평가되거나 완전히 무시되고 있습니다. 우리는 이러한 기술적 격차를 체계적인 데이터 수집, 모델 개발, 역량 강화를 통해 해결하기 위한 포괄적인 연구 이니셔티브인 아프리카 언어 연구소(All Lab)를 소개합니다. 우리의 주요 기여는 다음과 같습니다: (1) 40개 언어에 걸쳐 190억 토큰의 단일 언어 텍스트와 12,628시간의 정렬된 음성 데이터를 포함한 최대 규모의 검증된 아프리카 다중 모드 음성 및 텍스트 데이터셋을 산출하는 품질 관리 데이터 수집 파이프라인; (2) 우리의 데이터셋과 미세 조정을 결합하여 기준 모델 대비 평균 +23.69 ChrF++, +0.33 COMET, +15.34 BLEU 점수의 상당한 개선을 달성한 31개 평가 언어에 대한 광범위한 실험적 검증; (3) 15명의 초기 경력 연구자를 성공적으로 멘토링하며 지속 가능한 지역 역량을 구축한 구조화된 연구 프로그램. Google 번역과의 비교 평가 결과, 여러 언어에서 경쟁력 있는 성능을 보이면서도 지속적인 개발이 필요한 영역을 확인하였습니다.
계산 효율성 추구는 트랜스포머 모델 학습을 위해 저정밀도 형식의 도입을 이끌어왔습니다. 그러나 이러한 진전은 종종 악명 높은 학습 불안정성에 의해 방해받곤 합니다. 본 논문은 저정밀도 설정에서 플래시 어텐션을 사용한 학습이 치명적인 손실 폭발로 이어지는 오랜 미해결 실패 사례에 대한 첫 번째 기계적 설명을 제공합니다. 심층 분석을 통해 이 실패가 무작위적 현상이 아니라 어텐션 메커니즘 내에서 유사한 저랭크 표현의 출현과 저정밀도 연산에 내재된 편향된 반올림 오류의 누적 효과라는 두 가지 상호 연관된 현상에 의해 발생함을 밝혔습니다. 이러한 요인들이 어떻게 오류 누적의 악순환을 만들어 가중치 업데이트를 손상시키고 궁극적으로 학습 역학을 무너뜨리는지 보여줍니다. 우리의 발견을 검증하기 위해, 플래시 어텐션에 최소한의 수정을 가해 반올림 오류의 편향을 완화하는 방법을 소개합니다. 이 간단한 변경은 학습 과정을 안정화시켜 우리의 분석을 확인하고 이 오랜 문제에 대한 실용적인 해결책을 제시합니다.
대규모 추론 모델(Large Reasoning Models, LRMs)은 복잡한 다단계 추론에서 강력한 능력을 보여주며, 최적화 모델링 자동화를 위한 새로운 가능성을 열었습니다. 그러나 기존의 도메인 적응 방법들은 초기 지시 튜닝 모델을 위해 설계된 경우가 많아, 현대 LRM의 고급 추론 패턴을 제대로 활용하지 못하는 경우가 많습니다. 특히, 우리는 전통적인 비반영적 데이터셋에 대한 직접적인 미세 조정이 제한된 성능 향상만을 가져온다는 것을 보여줍니다. LRM의 내재적 추론 능력을 최대한 활용하기 위해, 우리는 CALM(Corrective Adaptation with Lightweight Modification)이라는 프레임워크를 제안합니다. CALM은 최적화 모델링 작업을 위해 LRM의 기본 추론 모드 내에서 점진적으로 개선하는 방식입니다. CALM에서는 전문가 개입자가 추론 결함을 식별하고 간결한 수정 힌트를 제공하며, LRM은 이를 통합하여 개선된 추론 경로를 생성합니다. 이러한 개입은 생성된 토큰의 2.6% 미만을 수정하지만, 지도 미세 조정을 통한 소프트 적응을 위한 고품질 데이터를 생성합니다. 적응된 모델은 이후 강화 학습을 통해 더욱 개선됩니다. CALM을 기반으로, 우리는 STORM(Smart Thinking Optimization Reasoning Model)을 개발했습니다. STORM은 40억 개의 파라미터를 가진 LRM로, 5개의 인기 있는 최적화 모델링 벤치마크에서 평균 68.9%의 정확도를 달성하여 6710억 개의 파라미터를 가진 LRM의 성능과 맞먹는 새로운 최첨단 성능을 보여줍니다. 이러한 결과는 동적이고 힌트 기반의 데이터 합성이 현대 LRM의 기본 추론 패턴을 보존하고 증폭시켜, 도전적인 최적화 모델링 작업에서 전문가 수준의 성능을 달성하기 위한 더 효과적이고 확장 가능한 경로를 제공한다는 것을 입증합니다.
강화 학습(Reinforcement Learning, RL)은 최근 긴 사고 연쇄(Long Chain of Thought, LongCoT)를 생성하는 추론 대형 언어 모델(LLM)을 훈련시키는 강력한 방법으로 자리 잡았습니다. 그러나 표준 RL "사고 환경"에서는 상태가 프롬프트와 이전의 모든 사고 토큰으로 구성되기 때문에 상태가 무한히 커지고, 사고가 길어질수록 주의 기반 정책이 2차 계산 비용을 지불해야 합니다. 우리는 이 환경 자체를 재검토합니다. 우리는 Markovian Thinking이라는 패러다임을 제안합니다. 이는 정책이 일정한 크기의 상태를 조건으로 하여 사고를 진행하면서 사고 길이와 컨텍스트 크기를 분리하는 방식입니다. 이로 인해 즉각적인 결과로 선형 계산과 일정한 메모리 사용이 가능해집니다. 우리는 이 아이디어를 Delethink이라는 RL 환경으로 구체화했습니다. Delethink은 사고를 고정 크기의 청크로 구조화합니다. 각 청크 내에서는 모델이 평소처럼 사고를 진행하고, 경계에서는 환경이 컨텍스트를 재설정하고 짧은 이월 정보로 프롬프트를 다시 초기화합니다. RL을 통해 정책은 각 청크의 끝 부분에서 재설정 후에도 원활한 사고 연속을 위한 충분한 텍스트 상태를 작성하는 법을 배웁니다. 이 환경에서 훈련된 R1-Distill 1.5B 모델은 8K 토큰 청크 내에서 사고를 진행하면서도 최대 24K 토큰까지 사고할 수 있으며, 24K 예산으로 훈련된 LongCoT-RL과 동등하거나 더 나은 성능을 보입니다. 테스트 시 스케일링에서 Delethink은 LongCoT가 정체되는 지점에서도 계속해서 개선됩니다. 선형 계산의 효과는 상당합니다: 우리는 96K 평균 사고 길이에서 LongCoT-RL이 27 H100-월의 비용이 드는 반면, Delethink은 7 H100-월의 비용이 든다는 것을 실증적으로 추정했습니다. RL 초기화 시 분석은 다양한 벤치마크에서 기성 추론 모델(1.5B-120B)이 제로샷으로 Markovian 흔적을 샘플링하는 경우가 많음을 보여주며, 이는 RL이 대규모로 효과적일 수 있는 긍정적인 샘플을 제공합니다. 우리의 결과는 사고 환경을 재설계하는 것이 매우 강력한 도구임을 보여줍니다: 이는 2차 오버헤드 없이 매우 긴 사고를 가능하게 하고, 효율적이고 확장 가능한 추론 LLM을 향한 길을 열어줍니다.
장문맥 모델(Long-context models, LCMs)은 긴 시퀀스를 처리하는 데 있어서 큰 잠재력을 보여주며, 다양한 실제 응용 분야를 촉진하고 있다. LCM의 성공은 문맥 내에서 암묵적으로 중요한 정보를 찾아내고 이를 통해 예측을 수행할 수 있는 능력에 기인한다. 그러나 최근 연구에 따르면, LCM은 종종 문맥 노이즈, 즉 관련 없는 토큰들에 취약하여 모델의 주의를 오도할 수 있다. 본 논문에서는 문맥 노이즈에 대한 세밀한 분석을 수행하고, 문맥 내 노이즈 정보를 탐지하고 정량화하기 위한 효과적인 지표인 통합 그래디언트(Integrated Gradient, IG) 점수를 제안한다. 연구 결과, 탐지된 문맥 노이즈를 단순히 완화하는 것만으로도 모델이 중요한 토큰에 주의를 기울이는 데 상당한 향상을 가져오며, 이는 후속 예측에도 긍정적인 영향을 미치는 것으로 나타났다. 이러한 통찰을 바탕으로, 본 논문에서는 중요한 토큰에 대한 주의를 개선하고 모델 예측에 미치는 영향을 강화하는 간단하면서도 효과적인 훈련 전략인 문맥 노이즈 제거 훈련(Context Denoising Training, CDT)을 제안한다. 문맥 윈도우 확장 및 장문맥 정렬 설정 하에서 네 가지 작업에 걸친 광범위한 실험을 통해 CDT의 우수성을 입증하였다. 특히, CDT로 훈련된 오픈소스 8B 모델은 GPT-4o(51.00)에 필적하는 성능(50.92)을 달성할 수 있음을 보여준다.
트랜스포머(Transformers)는 시퀀스 모델링에서 뛰어난 성능을 보이지만, 이차 복잡도(quadratic complexity) 문제에 직면해 있습니다. 반면, 선형 어텐션(linear attention)은 효율성을 개선했지만, 긴 문맥에서의 리콜 정확도(recall accuracy)가 희생되는 경우가 많습니다. 본 연구에서는 선형 어텐션과 전체 어텐션(full attention)의 혼합 아키텍처인 Native Hybrid Attention(NHA)을 소개합니다. NHA는 계층 내(intra-layer) 및 계층 간(inter-layer) 혼합을 통합된 계층 설계로 통합한 새로운 구조입니다. NHA는 선형 RNN(Recurrent Neural Network)에 의해 업데이트되는 키-값 슬롯(key-value slots)에서 장기 문맥을 유지하고, 슬라이딩 윈도우(sliding window)에서 단기 토큰(short-term tokens)을 추가합니다. 그런 다음 모든 키와 값에 대해 단일 소프트맥스 어텐션(softmax attention) 연산을 적용하여, 추가적인 융합 파라미터(fusion parameters) 없이도 토큰별 및 헤드별 문맥 의존적 가중치(context-dependent weighting)를 가능하게 합니다. 계층 간 동작은 슬라이딩 윈도우 크기라는 단일 하이퍼파라미터를 통해 제어되며, 이는 모든 계층을 구조적으로 균일하게 유지하면서 순수 선형 어텐션과 전체 어텐션 사이를 원활하게 조정할 수 있게 합니다. 실험 결과, NHA는 리콜 집약적 작업 및 상식 추론(commonsense reasoning) 작업에서 트랜스포머 및 기타 혼합 베이스라인을 능가하는 성능을 보였습니다. 또한, 사전 훈련된 대형 언어 모델(LLMs)을 NHA와 구조적으로 혼합하면 경쟁력 있는 정확도를 유지하면서도 상당한 효율성 향상을 달성할 수 있습니다. 코드는 https://github.com/JusenD/NHA에서 확인할 수 있습니다.
대규모 텍스트-이미지 확산 모델은 강력한 성능을 자랑하지만, 과도한 계산 비용이 발생한다는 문제가 있습니다. 기존의 원샷 네트워크 프루닝 방법들은 확산 모델의 반복적인 노이즈 제거 특성으로 인해 이를 직접 적용하기 어렵습니다. 이러한 격차를 해소하기 위해, 본 논문은 대규모 텍스트-이미지 확산 모델의 정확하고 학습 없이도 압축을 가능하게 하는 새로운 원샷 프루닝 프레임워크인 OBS-Diff를 제안합니다. 구체적으로, (i) OBS-Diff는 고전적인 Optimal Brain Surgeon(OBS)을 재활용하여 현대 확산 모델의 복잡한 아키텍처에 적합하도록 조정하고, 비정형, N:M 준정형, 그리고 구조화된(MHA 헤드 및 FFN 뉴런) 희소성을 포함한 다양한 프루닝 세분화를 지원합니다; (ii) 프루닝 기준을 확산 과정의 반복적 역학과 일치시키기 위해, 오류 누적 관점에서 문제를 검토하여 로그 감소 가중치 방식을 통합한 새로운 시간 단계 인식 헤시안 구성을 제안합니다. 이는 초기 시간 단계에 더 큰 중요성을 부여하여 잠재적인 오류 누적을 완화합니다; (iii) 또한, 계산적으로 효율적인 그룹별 순차적 프루닝 전략을 제안하여 비용이 많이 드는 보정 과정을 분산시킵니다. 광범위한 실험을 통해 OBS-Diff가 확산 모델에 대한 최첨단 원샷 프루닝을 달성하고, 시각적 품질의 최소한의 저하로 추론 가속화를 제공함을 보여줍니다.
대규모 언어 모델(LLMs)과 현실 세계의 급속한 발전은 널리 사용되는 평가 벤치마크의 정적 특성을 앞지르며, LLM 사실성 평가에 대한 신뢰성 문제를 제기하고 있습니다. 상당수의 연구가 여전히 인기 있지만 오래된 벤치마크에 의존하고 있음에도 불구하고, 이러한 벤치마크의 현실 세계 사실 및 현대 LLM과의 시간적 불일치와 그들이 LLM 사실성 평가에 미치는 영향은 충분히 탐구되지 않고 있습니다. 따라서 본 연구에서는 이 문제를 체계적으로 조사하기 위해 5개의 인기 있는 사실성 벤치마크와 여러 해에 걸쳐 출시된 8개의 LLM을 검토합니다. 최신 사실 검색 파이프라인과 세 가지 메트릭을 활용하여 벤치마크의 노후화와 LLM 사실성 평가에 미치는 영향을 정량화합니다. 실험 결과와 분석을 통해 널리 사용되는 사실성 벤치마크의 상당 부분이 시대에 뒤떨어져 있어 LLM 사실성 평가의 신뢰성이 떨어지는 것으로 나타났습니다. 우리의 연구가 LLM 사실성 평가를 위한 벤치마크의 신뢰성을 평가하는 테스트베드를 제공하고, 벤치마크 노후화 문제에 대한 더 많은 연구를 촉발할 수 있기를 바랍니다. 코드는 https://github.com/JiangXunyi/BenchAge에서 확인할 수 있습니다.
강화 학습에서 보상 신호를 추출하기 위한 기존 방법들은 일반적으로 레이블이 지정된 데이터와 전용 훈련 분할에 의존하는데, 이는 인간이 환경에서 직접 학습하는 방식과 대조됩니다. 본 연구에서는 레이블이 지정된 데이터 없이도 추론 시점에 모델을 즉시 적응시켜 시각 언어 이해를 향상시키는 TTRV를 제안합니다. 구체적으로, 우리는 Group Relative Policy Optimization (GRPO) 프레임워크를 개선하여 기본 모델의 출력 빈도를 기반으로 보상을 설계하고, 각 테스트 샘플에 대해 여러 번 추론을 수행합니다. 또한, 출력 경험 분포의 엔트로피가 낮을 때 모델에 보상을 주어 출력의 다양성을 제어하는 방법도 제안합니다. 우리의 접근 방식은 객체 인식과 시각 질의 응답(VQA) 모두에서 일관된 성능 향상을 보여주며, 각각 최대 52.4%와 29.8%의 개선을 달성했고, 16개 데이터셋에서 평균 24.6%와 10.0%의 향상을 보였습니다. 특히, 이미지 인식에서 TTRV를 적용한 InternVL 8B는 GPT-4o를 8개 벤치마크에서 평균 2.3% 앞섰으며, VQA에서도 매우 경쟁력 있는 성능을 보여주어 테스트 시점 강화 학습이 가장 강력한 독점 모델을 능가하거나 맞먹을 수 있음을 입증했습니다. 마지막으로, 우리는 시각 언어 모델(VLM)에 대한 테스트 시점 강화 학습의 여러 흥미로운 특성을 발견했습니다. 예를 들어, 단일 무작위로 선택된 레이블 없는 테스트 예제에서 적응을 수행하는 극도로 데이터가 제한된 시나리오에서도 TTRV는 인식 작업에서 최대 5.5%의 유의미한 개선을 제공했습니다.
구현된 지능(embodied intelligence)에서의 근본적인 과제는 효율적인 세계 모델링과 의사결정을 위한 표현력이 풍부하면서도 간결한 상태 표현을 개발하는 것입니다. 그러나 기존 방법들은 이러한 균형을 달성하지 못해, 과도하게 중복되거나 작업에 필수적인 정보가 부족한 표현을 생성하는 경우가 많습니다. 우리는 강력한 생성적 사전 지식을 활용한 경량 인코더와 사전 학습된 Diffusion Transformer(DiT) 디코더를 사용하여 고도로 압축된 두 토큰 상태 표현을 학습하는 비지도 접근 방식을 제안합니다. 우리의 표현은 효율적이고 해석 가능하며, 기존 VLA 기반 모델에 원활하게 통합되어 LIBERO에서 14.3%, 실제 작업 성공률에서 30%의 성능 향상을 달성하면서도 최소한의 추론 오버헤드를 유지합니다. 더 중요한 것은, 잠재 보간(latent interpolation)을 통해 얻은 이 토큰들 간의 차이가 자연스럽게 매우 효과적인 잠재 행동(latent action)으로 작용하며, 이는 실행 가능한 로봇 동작으로 추가 디코딩될 수 있다는 점입니다. 이러한 자발적 능력은 우리의 표현이 명시적인 지도 없이도 구조화된 동역학을 포착한다는 것을 보여줍니다. 우리는 이 방법을 정적 이미지에서 인코딩된 간결한 상태 표현으로부터 일반화 가능한 로봇 동작(Motion)을 학습하는 능력 때문에 StaMo라고 명명하며, 이는 복잡한 아키텍처와 비디오 데이터에 의존하는 잠재 행동 학습의 일반적인 접근 방식에 도전합니다. 결과적으로 얻은 잠재 행동은 정책 공동 학습(policy co-training)을 강화하여 기존 방법보다 10.4% 우수한 성능을 보이면서도 해석 가능성을 개선합니다. 또한, 우리의 접근 방식은 실제 로봇 데이터, 시뮬레이션, 인간 중심 비디오 등 다양한 데이터 소스에서 효과적으로 확장됩니다.
최근 멀티모달 대형 언어 모델(MLLMs)의 추론 속도를 가속화하기 위한 노력은 주로 시각적 토큰 압축에 초점을 맞추고 있다. 이러한 방법의 효과는 일반적으로 기존 벤치마크에서의 정확도 하락을 측정하여 압축 전후의 모델 성능을 비교함으로써 평가된다. 그러나 이러한 벤치마크는 원래 MLLMs의 인지 및 추론 능력을 평가하기 위해 설계되었으며, 압축 기법을 평가하기 위한 목적으로는 설계되지 않았다. 결과적으로, 이를 시각적 토큰 압축에 직접 적용할 경우 작업 불일치가 발생한다. 흥미롭게도, 우리의 조사에 따르면 단순한 이미지 다운샘플링이 여러 널리 사용되는 벤치마크에서 많은 고급 압축 방법들을 일관되게 능가하는 것으로 나타났다. 광범위한 실험을 통해 우리는 다음과 같은 관찰을 얻었다: (i) 현재의 벤치마크는 시각적 토큰 압축 작업에 대해 노이즈가 많다. (ii) 다운샘플링은 시각적 토큰 압축 작업에서 샘플의 난이도를 평가하기 위한 데이터 필터로 기능할 수 있다. 이러한 발견에 동기를 받아, 우리는 VTC-Bench라는 평가 프레임워크를 소개한다. 이 프레임워크는 데이터 필터링 메커니즘을 통합하여 기존 벤치마크의 노이즈를 제거함으로써 시각적 토큰 압축 방법을 보다 공정하고 정확하게 평가할 수 있도록 한다. 모든 데이터와 코드는 https://github.com/Chenfei-Liao/VTC-Bench에서 확인할 수 있다.
최근 멀티모달 대형 언어 모델(MLLM)이 빠르게 발전하고 있습니다. 그러나 기존의 시각 작업 접근 방식은 탐지를 위해 텍스트로 좌표를 생성하는 것과 같은 간접적인 표현에 의존하는 경우가 많아, 성능이 제한되고 세그멘테이션과 같은 밀집 예측 작업을 수행하기 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 Patch-as-Decodable Token(PaDT)을 소개합니다. PaDT는 MLLM이 텍스트와 다양한 시각적 출력을 직접 생성할 수 있도록 하는 통합 패러다임입니다. PaDT의 핵심은 쿼리 이미지의 시각적 패치 임베딩에서 파생된 Visual Reference Token(VRT)으로, 이는 LLM의 출력 텍스트 토큰과 자연스럽게 결합됩니다. 경량 디코더는 LLM의 출력을 탐지, 세그멘테이션, 그리고 그라운딩 예측으로 변환합니다. 기존 방법과 달리, PaDT는 각 순방향 패스에서 VRT를 독립적으로 처리하고 임베딩 테이블을 동적으로 확장함으로써 유사한 객체 간의 위치 파악과 구분을 개선합니다. 또한, 우리는 PaDT를 위한 학습 전략을 맞춤화하여 지도 미세 조정을 위해 무작위로 VRT를 선택하고, 강력한 토큰별 교차 엔트로피 손실을 도입했습니다. 네 가지 시각적 인식 및 이해 작업에 대한 실험 결과, PaDT는 상당히 큰 MLLM 모델과 비교해도 꾸준히 최첨단 성능을 달성하는 것으로 나타났습니다. 코드는 https://github.com/Gorilla-Lab-SCUT/PaDT에서 확인할 수 있습니다.
최첨단 대규모 언어 모델의 개발은 일반적으로 사전 학습과 사후 학습의 두 단계로 이루어지는 과정으로 이해됩니다. 우리는 강화 중간 학습이라는 추가적인 중간 단계가 강력한 성능 향상의 잠재력을 가지고 있음을 지적합니다. 본 논문에서는 이 문제를 공식적으로 정의하고 세 가지 주요 과제를 식별합니다: (1) 과도한 추론 단계로 인한 비효율적인 학습, (2) 불균형적인 토큰 엔트로피 분포의 무시, (3) 토큰 정보의 미흡한 활용. 이러한 과제를 해결하기 위해, 우리는 다양한 혁신적인 구성 요소를 포함한 효율적이고 적응적이며 통합된 강화 중간 학습 프레임워크인 RMT를 제안합니다. 특히, 우리는 먼저 불필요한 추론 단계를 제한하고 모델의 과도한 사고를 완화하는 동적 토큰 예산 메커니즘을 소개합니다. 다음으로, 쉬운 토큰에서 어려운 토큰으로의 점진적인 학습 경로를 조성하는 커리큘럼 기반 적응 샘플링 방법을 설계합니다. 마지막으로, 강화 학습과 다음 토큰 예측을 결합한 이중 학습 전략을 제시하여 주요 토큰에 대한 목표 학습과 모든 토큰 정보의 완전한 활용을 보장합니다. 광범위한 실험을 통해 RMT가 최첨단 방법들을 능가하며, 언어 모델링에서 추론 길이의 21%만으로 최대 +64.91%의 성능 향상을 달성함을 입증합니다. 또한, 강화 중간 학습 후 얻은 체크포인트가 후속 사후 학습에 도움을 주어 수학적 영역에서 최대 +18.76%의 향상을 가져올 수 있음을 보여줍니다.
손목 시점 관찰은 VLA 모델에 있어 핵심적인 요소로, 세밀한 손-물체 상호작용을 포착하여 조작 성능을 직접적으로 향상시킵니다. 그러나 대규모 데이터셋은 이러한 기록을 거의 포함하지 않아, 풍부한 앵커 시점과 희소한 손목 시점 간에 상당한 격차가 존재합니다. 기존의 세계 모델은 이 격차를 해결할 수 없는데, 이는 손목 시점의 첫 프레임을 요구하기 때문에 앵커 시점만으로 손목 시점 비디오를 생성하는 데 실패하기 때문입니다. 이러한 격차 속에서, VGGT와 같은 최신 시각 기하학 모델은 기하학적 및 교차 시점 사전 지식을 통해 극단적인 시점 변화를 해결할 가능성을 제시합니다. 이러한 통찰에 영감을 받아, 우리는 앵커 시점만으로 손목 시점 비디오를 생성하는 최초의 4D 세계 모델인 WristWorld를 제안합니다. WristWorld는 두 단계로 작동합니다: (i) 재구성 단계에서는 VGGT를 확장하고 우리의 공간 투영 일관성(SPC) 손실을 통합하여 기하학적으로 일관된 손목 시점 포즈와 4D 포인트 클라우드를 추정합니다; (ii) 생성 단계에서는 재구성된 시점에서 시간적으로 일관된 손목 시점 비디오를 합성하기 위해 우리의 비디오 생성 모델을 사용합니다. Droid, Calvin, Franka Panda에 대한 실험은 우수한 공간 일관성을 갖춘 최첨단 비디오 생성을 보여주며, VLA 성능도 향상시켜 Calvin에서 평균 작업 완료 길이를 3.81% 증가시키고 앵커-손목 시점 격차의 42.4%를 해소합니다.
언어 모델(LMs)이 기계 학습 엔지니어링(MLE) 자동화에서 상당한 진전을 이루었음에도 불구하고, 고품질 MLE 학습 데이터의 획득은 여전히 큰 제약을 받고 있습니다. 현재의 MLE 벤치마크는 확장성이 낮고 적용 범위가 제한적이며, 이는 정적이고 수동으로 선별된 작업에 의존하기 때문입니다. 이러한 작업을 생산하기 위해서는 상당한 시간과 수동 노력이 필요합니다. 우리는 MLE-Smith를 소개합니다. 이는 완전히 자동화된 다중 에이전트 파이프라인으로, 원시 데이터셋을 경쟁 스타일의 MLE 도전 과제로 변환하기 위해 효율적인 생성-검증-실행 패러다임을 사용하여 검증 가능한 품질, 실세계 유용성, 그리고 풍부한 다양성을 갖춘 MLE 작업을 확장합니다. MLE-Smith에서 제안된 다중 에이전트 파이프라인은 구조화된 작업 설계와 표준화된 리팩토링을 주도하며, 엄격한 구조적 규칙과 높은 수준의 의미적 타당성을 강제하는 하이브리드 검증 메커니즘과 결합됩니다. 또한, 상호작용적 실행을 통해 경험적 해결 가능성과 실세계 충실도를 추가로 검증합니다. 우리는 MLE-Smith를 224개의 실세계 데이터셋에 적용하여 다양한 범주, 목표, 그리고 모달리티를 아우르는 606개의 작업을 생성함으로써, MLE-Smith가 다양한 실세계 데이터셋에서 효과적으로 작동할 수 있음을 입증했습니다. 생성된 작업에 대한 평가 결과, MLE-Smith 작업에서 8개의 주류 및 최첨단 LLM의 성능은 신중하게 인간이 설계한 작업에서의 성능과 강한 상관관계를 보였으며, 이는 MLE-Smith가 작업 품질을 유지하면서 MLE 작업을 확장하는 데 효과적임을 강조합니다.
디퓨전 및 플로우 모델에 온라인 강화 학습(RL)을 통합하는 것은 최근 생성 모델을 인간의 선호도와 맞추기 위한 유망한 접근 방식으로 부상했습니다. 디노이징 과정에서 확률적 미분 방정식(SDE)을 통한 확률적 샘플링이 사용되어 RL 탐색을 위한 다양한 디노이징 방향을 생성합니다. 기존 방법들은 잠재적 고가치 샘플을 효과적으로 탐색하지만, 희소하고 좁은 보상 신호로 인해 최적의 선호도 정렬을 달성하지 못하는 문제가 있습니다. 이러한 문제를 해결하기 위해, 우리는 플로우 모델의 강화 학습에서 샘플링 방향에 대한 정밀하고 포괄적인 보상 평가를 달성하는 새로운 Granular-GRPO(G^2RPO) 프레임워크를 제안합니다. 구체적으로, 단일 확률적 샘플링 전략을 도입하여 단계별 확률적 탐색을 지원하면서 보상과 주입된 노이즈 간의 높은 상관관계를 강제하여 각 SDE 섭동에 대한 충실한 보상을 가능하게 합니다. 동시에, 고정된 세분성 디노이징에 내재된 편향을 제거하기 위해, 여러 디퓨전 스케일에서 계산된 이점을 통합하는 다중 세분성 이점 통합 모듈을 도입하여 샘플링 방향에 대한 더 포괄적이고 강력한 평가를 생성합니다. 도메인 내 및 도메인 외 평가를 포함한 다양한 보상 모델에서 수행된 실험은 우리의 G^2RPO가 기존의 플로우 기반 GRPO 기준선을 크게 능가하며, 그 효과성과 견고성을 입증합니다.
균일 정보 밀도(Uniform Information Density, UID) 가설은 효과적인 의사소통이 안정적인 정보 흐름을 유지한다고 제안한다. 본 연구에서는 대규모 언어 모델(LLM)의 추론 과정에서 이 원칙을 재검토하며, 단계별 균일성이 추론 품질을 반영하는지 탐구한다. 이를 위해 엔트로피 기반의 단계별 정보 밀도 지표를 제안하고, 지역적 및 전역적 균일성 점수라는 두 가지 상호 보완적인 균일성 측정 방법을 소개한다. 여섯 가지 추론 벤치마크에 대한 실험을 통해, 단계별 균일성이 강력한 이론적 통찰을 제공할 뿐만 아니라 실질적인 성능 향상으로 이어짐을 확인했다. 예를 들어, 단계별로 더 균일한 정보 밀도를 가진 추론 과정을 선택하면 AIME2025 기준선 대비 10-32%의 정확도 상대적 향상을 달성했다. 또한, 분석 결과 올바른 추론 과정은 정보 밀도의 급격한 급증을 피하는 반면, 잘못된 추론 과정은 불규칙한 정보 폭발을 보이는 경향이 있음이 밝혀졌다. 이러한 결과는 UID에서 영감을 받은 정보 밀도 측정 방법이 추론 품질 예측을 위한 대안적인 내부 신호보다 우수함을 입증한다. 정보 밀도의 균일성은 더 신뢰할 수 있고 정확한 추론 시스템을 구축하기 위한 강력한 진단 및 선택 기준으로서의 역할을 강조한다.
지난 10년 동안 U-Net은 의료 영상 분할 분야에서 주도적인 아키텍처로 자리 잡았으며, 수천 가지의 U자형 변형 모델이 개발되었습니다. 그러나 이러한 모델들이 널리 채택되었음에도 불구하고, 이들의 성능과 유용성을 체계적으로 평가하기 위한 포괄적인 벤치마크는 여전히 부재한 상황입니다. 이는 주로 충분하지 않은 통계적 검증과 다양한 데이터셋 간의 효율성 및 일반화 능력에 대한 제한된 고려 때문입니다. 이러한 격차를 해소하기 위해, 우리는 28개의 데이터셋과 10가지 영상 모달리티에 걸쳐 100개의 U-Net 변형 모델을 평가한 첫 번째 대규모 통계적 벤치마크인 U-Bench를 소개합니다. 우리의 기여는 세 가지로 요약됩니다: (1) 포괄적 평가: U-Bench는 통계적 견고성, 제로샷 일반화 능력, 계산 효율성이라는 세 가지 핵심 차원에서 모델을 평가합니다. 우리는 성능과 효율성 간의 균형을 포괄적으로 반영한 새로운 메트릭인 U-Score를 도입하여, 모델의 발전을 배포 지향적 관점에서 평가합니다. (2) 체계적 분석 및 모델 선택 가이드: 대규모 평가에서 도출된 주요 결과를 요약하고, 데이터셋 특성과 아키텍처 패러다임이 모델 성능에 미치는 영향을 체계적으로 분석합니다. 이러한 통찰을 바탕으로, 특정 데이터셋과 작업에 가장 적합한 모델을 선택할 수 있도록 연구자들을 안내하는 모델 어드바이저 에이전트를 제안합니다. (3) 공개적 접근성: 모든 코드, 모델, 프로토콜 및 가중치를 제공하여, 커뮤니티가 우리의 결과를 재현하고 향후 방법론으로 벤치마크를 확장할 수 있도록 합니다. 요약하자면, U-Bench는 이전 평가의 격차를 드러내는 동시에, 향후 10년간 U-Net 기반 분할 모델에 대한 공정하고 재현 가능하며 실질적으로 관련성 높은 벤치마킹의 기반을 마련합니다. 이 프로젝트는 https://fenghetan9.github.io/ubench에서 접근할 수 있으며, 코드는 https://github.com/FengheTan9/U-Bench에서 이용 가능합니다.
일반적 이벤트 경계 탐지(Generic Event Boundary Detection, GEBD)는 긴 형식의 비디오를 인간의 인지 관점에서 해석하는 것을 목표로 합니다. 그러나 현재의 GEBD 방법들은 예측을 위해 전체 비디오 프레임을 처리해야 하며, 이는 실시간으로 데이터를 처리하는 인간의 방식과는 다릅니다. 이러한 차이를 해소하기 위해, 우리는 새로운 과제인 온라인 일반적 이벤트 경계 탐지(Online Generic Event Boundary Detection, On-GEBD)를 제안합니다. 이 과제는 스트리밍 비디오에서 즉각적으로 일반적 이벤트의 경계를 탐지하는 것을 목표로 합니다. 이 과제는 미래 프레임에 접근할 수 없는 상태에서 실시간으로 미묘하고 분류체계가 없는 이벤트 변화를 식별해야 하는 독특한 도전에 직면합니다. 이러한 도전을 해결하기 위해, 우리는 이벤트 분할 이론(Event Segmentation Theory, EST)에서 영감을 받은 새로운 On-GEBD 프레임워크인 Estimator를 제안합니다. EST는 인간이 예측된 정보와 실제 정보 간의 차이를 활용하여 진행 중인 활동을 이벤트로 분할하는 방식을 설명합니다. 우리의 프레임워크는 두 가지 주요 구성 요소로 이루어져 있습니다: 일관된 이벤트 예측기(Consistent Event Anticipator, CEA)와 온라인 경계 판별기(Online Boundary Discriminator, OBD). 구체적으로, CEA는 이전 프레임만을 기반으로 현재 이벤트 동역학을 반영한 미래 프레임 예측을 생성합니다. 그런 다음, OBD는 예측 오류를 측정하고 과거 오류에 대한 통계적 테스트를 사용하여 다양한 미묘한 이벤트 전환을 포착하기 위해 임계값을 적응적으로 조정합니다. 실험 결과는 Estimator가 최근의 온라인 비디오 이해 모델에서 적응된 모든 기준선을 능가하며, Kinetics-GEBD 및 TAPOS 데이터셋에서 기존의 오프라인-GEBD 방법과 비슷한 성능을 달성함을 보여줍니다.
우리는 언어 모델링의 기본 원칙을 준수하는 이미지 자기회귀 모델인 헵타포드(Heptapod)를 소개한다. 헵타포드는 인과적 주의 메커니즘을 사용하며, CFG(Class-Free Guidance)에 대한 의존성을 제거하고, 의미론적 토크나이저 사용 경향을 피한다. 우리의 핵심 혁신은 다음 2D 분포 예측이다: 재구축 중심의 시각적 토크나이저를 갖춘 인과적 트랜스포머는 각 시간 단계에서 이미지의 전체 2D 공간 그리드에 대한 분포를 예측하도록 학습한다. 이 학습 목표는 자기회귀 프레임워크의 순차적 모델링과 마스크된 자동 인코딩의 전체적 자기 지도 학습을 통합하여, 생성적 훈련을 통해 포괄적인 이미지 의미를 포착할 수 있도록 한다. ImageNet 생성 벤치마크에서 헵타포드는 2.70의 FID(Fréchet Inception Distance)를 달성하며, 기존의 인과적 자기회귀 접근법을 크게 능가한다. 우리의 연구가 시각 신호 및 그 이상의 영역에서 언어 모델링에 대한 원칙적인 재고를 촉발하기를 바란다.
대형 언어 모델(LLM) 또는 멀티모달 LLM(MLLM)으로 구동되는 컴퓨터 사용 에이전트(CUA) 프레임워크는 소프트웨어 환경 내에서 직접 컨텍스트를 인지하고, 추론하며, 행동할 수 있는 보조자로서 빠르게 성숙해지고 있습니다. 이들의 가장 중요한 응용 분야 중 하나는 운영 체제(OS) 제어입니다. OS 영역의 CUA가 일상적인 운영에 점점 더 깊이 통합됨에 따라, 특히 CUA가 현실적이고 보안과 관련된 공격을 수행하는 데 악용될 수 있는지 여부를 포함한 실제 보안 영향을 검토하는 것이 필수적입니다. 기존 연구는 네 가지 주요 한계를 보여줍니다: 전술, 기법 및 절차(TTP)에 대한 공격자 지식 모델의 부재, 엔드투엔드 킬 체인에 대한 불완전한 커버리지, 다중 호스트 및 암호화된 사용자 자격 증명이 없는 비현실적인 환경, 그리고 LLM-as-a-Judge에 의존하는 신뢰할 수 없는 판단. 이러한 격차를 해결하기 위해, 우리는 MITRE ATT&CK Enterprise Matrix의 실제 TTP와 일치하는 첫 번째 벤치마크인 AdvCUA를 제안합니다. AdvCUA는 140개의 작업(40개의 직접적인 악성 작업, 74개의 TTP 기반 악성 작업, 26개의 엔드투엔드 킬 체인 포함)으로 구성되어 있으며, 다중 호스트 환경 샌드박스에서 하드코딩된 평가를 통해 현실적인 기업 OS 보안 위협 하에서 CUA를 체계적으로 평가합니다. 우리는 ReAct, AutoGPT, Gemini CLI, Cursor CLI, Cursor IDE를 포함한 기존의 5가지 주요 CUA를 8개의 기반 LLM을 기반으로 평가했습니다. 결과는 현재 최첨단 CUA가 OS 보안 중심 위협을 충분히 커버하지 못한다는 것을 보여줍니다. CUA의 이러한 능력은 맞춤형 악성코드와 깊은 도메인 전문 지식에 대한 의존도를 줄여, 심지어 경험이 없는 공격자들도 복잡한 기업 침입을 수행할 수 있게 하여 CUA의 책임과 보안에 대한 사회적 우려를 불러일으킵니다.
옵티마이저 선택은 대규모 언어 모델(LLM)의 학습 효율성과 계산 비용에 상당한 영향을 미친다. 최근 Muon 옵티마이저는 매개변수 업데이트를 직교화하여 최적화 기하학을 개선함으로써 유망한 결과를 보여주었다. Muon이 Adam의 후속 후보로 부상했음에도 불구하고, 이들의 강점을 공동으로 활용할 가능성은 체계적으로 탐구되지 않았다. 본 연구에서는 NorMuon(Neuron-wise Normalized Muon)을 제안하여 직교화와 뉴런 수준의 적응형 학습률을 시너지적으로 결합함으로써 이러한 격차를 해소한다. 우리의 분석에 따르면, Muon은 조건수를 효과적으로 감소시키지만, 그 결과 업데이트는 매우 불균일한 뉴런 노름을 보여 특정 뉴런이 최적화 과정을 지배하게 된다. NorMuon은 각 뉴런에 대한 2차 모멘텀 통계를 유지하고 직교화 후 행 단위 정규화를 적용함으로써 이러한 불균형을 해결하며, Muon의 조건수 이점을 유지하면서 균형 잡힌 매개변수 활용을 보장한다. 대규모 실용적 배포를 가능하게 하기 위해, FSDP2 프레임워크 하에서 직교화 계산을 전략적으로 장치 간에 분배하는 효율적인 분산 구현을 개발하였다. 다양한 모델 규모에서의 실험 결과, NorMuon은 Adam과 Muon 모두를 일관되게 능가하며, 1.1B 사전 학습 설정에서 Adam 대비 21.74%, Muon 대비 11.31%의 학습 효율성 향상을 달성하면서 Muon과 유사한 메모리 사용량을 유지한다. 우리의 연구 결과는 직교화와 적응형 학습률이 상호 보완적이며 경쟁적이지 않음을 시사하며, 대규모 딥러닝에서 옵티마이저 설계를 위한 새로운 방향을 제시한다.
텍스트-투-비디오(T2V) 생성 기술은 자연어 프롬프트로부터 일관된 시각적 콘텐츠를 생성함으로써 교육, 마케팅, 엔터테인먼트, 시각적 또는 독해력에 어려움을 겪는 개인들을 위한 보조 기술 등 다양한 분야를 혁신할 잠재력을 지니고 있다. 이 분야는 초기의 적대적 생성 모델(GAN)에서 확산 기반 모델로 발전하며, 더 높은 충실도와 시간적 일관성을 갖춘 출력물을 제공해 왔다. 그러나 여전히 정렬, 장거리 일관성, 계산 효율성과 같은 과제가 남아 있다. 이러한 진화하는 환경을 고려하여, 본 논문은 텍스트-투-비디오 생성 모델에 대한 포괄적인 조사를 제공하며, 초기 GAN과 변분 오토인코더(VAE)에서 하이브리드 확산-트랜스포머(DiT) 아키텍처로의 발전 과정을 추적한다. 또한 이러한 모델들이 어떻게 작동하는지, 이전 모델들의 한계를 어떻게 해결했는지, 그리고 품질, 일관성, 제어와 관련된 과제를 극복하기 위해 새로운 아키텍처 패러다임으로의 전환이 왜 필요한지 상세히 설명한다. 본 논문은 조사된 텍스트-투-비디오 모델들이 훈련 및 평가된 데이터셋에 대한 체계적인 설명을 제공하며, 재현성을 지원하고 이러한 모델 훈련의 접근성을 평가하기 위해 하드웨어 사양, GPU 수, 배치 크기, 학습률, 최적화 알고리즘, 에포크 및 기타 주요 하이퍼파라미터를 포함한 훈련 구성을 상세히 기술한다. 더 나아가, 이러한 모델을 평가하는 데 일반적으로 사용되는 평가 지표를 개괄하고 표준 벤치마크에서의 성능을 제시하며, 이러한 지표의 한계와 더 포괄적이고 지각에 부합하는 평가 전략으로의 전환에 대해 논의한다. 마지막으로, 분석을 바탕으로 현재의 개방형 과제를 요약하고 몇 가지 유망한 미래 방향을 제안함으로써, T2V 연구와 응용을 발전시키기 위해 미래 연구자들이 탐구하고 구축할 수 있는 전망을 제시한다.
우리는 AlphaApollo라는 자가 진화 에이전트 추론 시스템을 소개합니다. 이 시스템은 기초 모델(FM) 추론의 두 가지 병목 현상, 즉 모델 고유의 제한된 용량과 신뢰할 수 없는 테스트 시간 반복을 해결하기 위해 설계되었습니다. AlphaApollo는 여러 모델을 전문 도구와 함께 조율하여 신중하고 검증 가능한 추론을 가능하게 합니다. 이 시스템은 (i) 계산 도구(수치 및 기호 라이브러리가 포함된 Python)와 (ii) 검색 도구(작업 관련 외부 정보)를 결합하여 정확한 계산과 근거 있는 결정을 실행합니다. 또한, AlphaApollo는 후보, 실행 가능한 검사 및 반복적 개선을 위한 피드백을 기록하는 공유 상태 맵을 통해 다중 라운드, 다중 모델 솔루션 진화를 지원합니다. AIME 2024/2025에서 여러 모델을 대상으로 한 평가에서 AlphaApollo는 일관된 성능 향상을 보였습니다: Qwen2.5-14B-Instruct의 경우 Average@32에서 +5.15%, Pass@32에서 +23.34%의 향상을, Llama-3.3-70B-Instruct의 경우 Average@32에서 +8.91%, Pass@32에서 +26.67%의 향상을 달성했습니다. 도구 사용 분석 결과, 80% 이상의 도구 호출이 성공적으로 실행되었으며, 도구를 사용하지 않은 기준선보다 일관되게 우수한 성능을 보여 FMs의 능력 한계를 높였습니다. 더 많은 실험 결과와 구현 세부 사항은 https://github.com/tmlr-group/AlphaApollo에서 업데이트될 예정입니다.
일반적인 대형 언어 모델(LLM) 평가는 모델의 응답을 원하는 스타일로 유도하기 위해 데모 예제에 의존합니다. 사용되는 예제의 수는 연구되고 표준화되었지만, 예제를 어떻게 포맷할지에 대한 선택은 덜 조사되었습니다. 평가 프로토콜과 실제 사용에서 사용자들은 컨텍스트 내 예제를 어떻게 구분할지 선택해야 합니다: 쉼표를 사용할까? 새 줄을 사용할까? 세미콜론을 사용할까? 해시태그를 사용할까? 등. 놀랍게도, 이렇게 사소해 보이는 선택이 모델 응답 품질에 극적인 영향을 미칠 수 있음을 발견했습니다. 주요 모델 패밀리(Llama, Qwen, Gemma)에서 MMLU 성능은 구분자 선택에 따라 최대 ±23%까지 변동할 수 있습니다. 사실, 예제를 구분하는 단일 문자만 수정함으로써 모델 순위를 조작하여 어떤 모델이든 선두에 놓을 수 있습니다. LLM의 취약성은 주제와 모델 패밀리 전반에 걸쳐 존재하며, 모델 규모가 커져도 개선되지 않음을 발견했습니다. 어텐션 헤드 점수를 탐구한 결과, 성능이 좋은 구분자는 입력의 핵심 토큰에 주의를 유도하는 것으로 나타났습니다. 마지막으로, 구분자 선택에 대한 LLM의 견고성을 개선하는 방법을 탐구했습니다. 선택한 구분자를 프롬프트에 명시하면 견고성이 향상되며, 최고 성능을 보이는 구분자를 선택하기 위한 실용적인 권장 사항을 제시합니다.
코드 스위칭(Code-switching, CSW)은 단일 발화 내에서 언어와 문자 체계를 교대로 사용하는 현상으로, 대규모 언어 모델(LLMs)의 급속한 발전 속에서도 다국어 NLP의 근본적인 과제로 남아 있습니다. 대부분의 LLMs는 혼합 언어 입력, 제한된 CSW 데이터셋, 평가 편향에 어려움을 겪으며, 이는 다국어 사회에서의 배포를 방해하고 있습니다. 본 조사는 CSW를 고려한 LLM 연구에 대한 첫 번째 포괄적인 분석을 제공하며, 5개의 연구 영역, 12개의 NLP 작업, 30개 이상의 데이터셋, 80개 이상의 언어를 아우르는 독자적인 연구들을 검토합니다. 우리는 최근의 발전을 아키텍처, 훈련 전략, 평가 방법론에 따라 분류하고, LLMs가 CSW 모델링을 어떻게 재구성했으며 어떤 과제들이 여전히 남아 있는지 개요를 제시합니다. 이 논문은 진정한 다국어 지능을 달성하기 위해 포용적인 데이터셋, 공정한 평가, 언어학적으로 기반을 둔 모델의 필요성을 강조하는 로드맵으로 마무리됩니다. 모든 리소스의 선별된 컬렉션은 https://github.com/lingo-iitgn/awesome-code-mixing/에서 유지됩니다.
검색 증강 생성(Retrieval-Augmented Generation, RAG)의 사용이 증가함에 따라 강력한 검색 모델의 중요성은 그 어느 때보다 커졌습니다. 의료 분야에서는 텍스트와 이미지 정보를 결합한 멀티모달 검색 모델이 질문 응답, 크로스모달 검색, 멀티모달 요약과 같은 다양한 다운스트림 작업에 큰 이점을 제공합니다. 이는 의료 데이터가 종종 두 형식을 모두 포함하기 때문입니다. 그러나 현재 이러한 모델이 의료 환경에서 얼마나 잘 수행되는지 평가할 수 있는 표준 벤치마크가 없습니다. 이러한 격차를 해결하기 위해 우리는 멀티모달 의료 검색 벤치마크인 M3Retrieve를 소개합니다. M3Retrieve는 5개 도메인, 16개 의료 분야, 4개의 구별된 작업을 포괄하며, 승인된 라이선스 하에 수집된 120만 개 이상의 텍스트 문서와 16만 4천 개의 멀티모달 쿼리로 구성되어 있습니다. 우리는 이 벤치마크에서 선도적인 멀티모달 검색 모델을 평가하여 다양한 의료 전문 분야에 특화된 과제를 탐구하고 검색 성능에 미치는 영향을 이해하고자 합니다. M3Retrieve를 공개함으로써 우리는 체계적인 평가를 가능하게 하고, 모델 혁신을 촉진하며, 의료 응용을 위한 더 능력 있고 신뢰할 수 있는 멀티모달 검색 시스템 구축을 위한 연구를 가속화하고자 합니다. 데이터셋과 베이스라인 코드는 https://github.com/AkashGhosh/M3Retrieve에서 확인할 수 있습니다.
대형 언어 모델(LLMs)은 장문의 질문에 대해 종종 사실적으로 틀린 듯 보이는 답변을 생성하는 환각 현상을 보입니다. 이를 완화하기 위한 일반적인 전략은 LLM 출력에 출처를 제공하는 것입니다. 그러나 기존 벤치마크는 주로 참조 자료로 사용할 수 있는 텍스트 증거를 검색하는 단순한 출처 제공에 초점을 맞추고 있습니다. 우리는 금융 애플리케이션과 같은 실제 시나리오에서 출처 제공이 단순한 참조 검색을 넘어선다고 주장합니다. 이에 따라 우리는 복잡한 금융 질문에 대해 신뢰할 수 있고 세밀한 출처를 포함한 장문 답변을 생성하는 LLM의 능력을 평가하기 위해 FinLFQA 벤치마크를 소개합니다. FinLFQA는 인간 주석을 통해 출처 제공의 세 가지 중요한 측면을 평가합니다: (1) 금융 보고서에서 추출한 지원 증거, (2) 중간 수치 추론 단계, (3) 추론 과정을 알려주는 도메인 특화 금융 지식. 또한, 답변 품질과 출처 제공 품질을 모두 포괄하는 자동 평가 프레임워크를 제공합니다. 다양한 출처 생성 패러다임을 적용한 8개의 LLM에 대한 광범위한 실험을 통해, 우리는 세분화된 지표가 모델 능력을 구분하는 데 중요하며, 엔드투엔드 생성이 사후 접근 방식과 비슷한 성능을 달성하고, 반복적 개선은 외부 피드백이 있을 때만 도움이 된다는 것을 발견했습니다.
여행 계획(TP) 에이전트는 최근 여행 일정 생성과 사용자 경험 향상을 위해 외부 도구 및 자원과 상호작용하는 새로운 구성 요소로 주목받고 있습니다. 그러나 기존 연구들은 수작업 프롬프트와 고정된 에이전트 워크플로우에 의존하여 더 유연하고 자율적인 TP 에이전트 개발을 방해하고 있습니다. 본 논문은 자율적인 여행 계획 에이전트를 구축하기 위한 종단 간 강화 학습 프레임워크인 DeepTravel을 제안합니다. DeepTravel은 다단계 추론 과정에서 중간 행동을 탐색, 검증 및 개선하기 위해 자율적으로 계획을 수립하고, 도구를 실행하며, 도구 응답을 반영할 수 있습니다. 이를 위해, 먼저 교통, 숙박 및 관광명소(POI) 데이터를 캐싱하여 실시간 API의 제약(예: 일관되지 않은 출력) 없이 TP 에이전트 훈련을 가능하게 하는 강력한 샌드박스 환경을 구축합니다. 또한, 계층적 보상 모델링 시스템을 개발하여 궤적 수준 검증기가 시공간적 타당성을 확인하고 불만족스러운 여행 일정을 필터링한 후, 턴 수준 검증기가 도구 응답과 일정 세부사항의 일관성을 추가로 검증함으로써 효율적이고 정확한 보상 서비스를 제공합니다. 마지막으로, TP 에이전트가 실패 경험 버퍼에서 주기적으로 재생하며 뛰어난 자율적 역량을 발휘할 수 있도록 하는 응답 증강 강화 학습 방법을 제안합니다. 훈련된 TP 에이전트를 DiDi Enterprise Solutions 앱에 배포하고 온라인 및 오프라인 평가를 종합적으로 수행한 결과, DeepTravel은 Qwen3 32B와 같은 소규모 LLM이 OpenAI o1, o3 및 DeepSeek R1과 같은 최신 LLM을 여행 계획 작업에서 크게 능가할 수 있음을 입증했습니다.
인상적인 시각적 충실도에도 불구하고, 현대의 비디오 생성 모델들은 종종 직관적인 물리 법칙을 위반하는 시퀀스를 생성합니다. 예를 들어, 물체가 공중에 떠 있거나, 순간이동하거나, 인과관계를 무시하는 방식으로 형태를 바꾸는 등의 현상이 발생합니다. 인간은 이러한 비현실적인 요소를 쉽게 감지할 수 있지만, 비디오에서 물리적 현실성을 정량적으로 평가할 수 있는 강력한 방법은 아직 존재하지 않습니다. 본 연구에서는 비디오-언어 모델(VLMs)이 물리적 타당성을 판단하는 신뢰할 수 있는 평가자로 훈련될 수 있는지 탐구합니다. 기존의 VLMs는 물리 법칙 위반을 식별하는 데 어려움을 겪으며, 이는 시간적 및 인과적 추론에서의 근본적인 한계를 드러냅니다. 이를 해결하기 위해, 우리는 TRAVL을 도입했습니다. 이는 균형 잡힌 훈련 데이터셋과 궤적 인식 주의 모듈을 결합하여 VLMs의 움직임 인코딩 및 판별 능력을 향상시키는 미세 조정 방법입니다. 물리적 추론을 더 엄격하게 평가하기 위해, 우리는 ImplausiBench를 제안합니다. 이는 언어적 편향을 제거하고 시각-시간적 이해를 분리한 300개의 비디오(실제 150개, 생성 150개)로 구성된 벤치마크입니다. 성능은 인간 판단의 금본위 기준과 더 엄격한 LLM-as-judge 지표를 통해 보고됩니다. TRAVL과 ImplausiBench는 다중모달 모델에서 물리적 타당성을 탐구하고 개선하기 위한 통합된 프레임워크를 제공하며, 시각-시간적 이해의 어려운 그리고 덜 탐구된 측면에 빛을 비춥니다.
본 연구는 기초 모델의 추론 및 계획 능력과 복잡하고 동적인 환경에서의 확장성을 탐구한다. 이를 위해 다양한 퍼즐을 통해 이러한 능력을 평가할 수 있는 벤치마크인 PuzzlePlex를 소개한다. PuzzlePlex는 다양한 난이도의 결정론적 및 확률론적 게임, 그리고 단일 플레이어 및 두 명의 플레이어 시나리오를 포함한 15가지 유형의 퍼즐로 구성된다. PuzzlePlex 프레임워크는 각 게임에 대한 포괄적인 환경을 제공하며, 기초 모델이 진화함에 따라 더 도전적인 인스턴스를 생성할 수 있는 확장성을 지원한다. 또한, 비교를 위해 맞춤형 게임 플레이 전략을 구현한다. 이 벤치마크를 기반으로, 성능을 측정하기 위한 세분화된 지표를 개발하고, 지시 기반 및 코드 기반 두 가지 설정에서 최첨단 기초 모델에 대한 심층 분석을 수행한다. 더 나아가, 이들의 확장 한계를 체계적으로 조사한다. 연구 결과, 추론 모델은 지시 기반 설정에서 다른 모델들을 능가하는 반면, 코드 기반 실행은 더 큰 도전을 제시하지만 확장 가능하고 효율적인 대안을 제공한다. PuzzlePlex는 기초 모델의 추론, 계획 및 일반화 능력에 대한 목표 지향적 평가를 가능하게 하고, 향후 개선을 위한 방향을 제시한다.
시각적 자기회귀(AR) 모델의 등장은 이미지 생성 분야에 혁신을 가져왔으며, 동시에 합성 이미지 탐지를 위한 새로운 도전 과제를 제시하고 있다. 기존의 GAN이나 확산 기반 방법과 달리, AR 모델은 이산 토큰 예측을 통해 이미지를 생성하며, 이미지 합성 품질에서 뚜렷한 개선을 보이는 동시에 벡터 양자화 표현에서 독특한 특성을 나타낸다. 본 논문에서는 실제 이미지와 가짜 이미지에 존재하는 코드북의 독특한 패턴과 주파수 분포 편향을 활용하여 AR 생성 이미지를 탐지하기 위해 이산 분포 불일치 인식 양자화 오차(D^3QE)를 제안한다. 우리는 동적 코드북 주파수 통계를 주의 메커니즘에 통합하고, 의미론적 특징과 양자화 오차 잠재를 융합하는 이산 분포 불일치 인식 트랜스포머를 소개한다. 제안 방법을 평가하기 위해, 7가지 주요 시각적 AR 모델을 포함한 ARForensics라는 포괄적인 데이터셋을 구축하였다. 실험 결과, D^3QE는 다양한 AR 모델에 걸쳐 우수한 탐지 정확도와 강력한 일반화 능력을 보였으며, 실제 세계의 섭동에 대한 견고성을 입증하였다. 코드는 https://github.com/Zhangyr2022/D3QE에서 확인할 수 있다.
시계열 데이터에서 누락된 값을 복원하는 것을 목표로 하는 시계열 대체(Time Series Imputation, TSI)는 현실 세계 시나리오에서 발생하는 복잡하고 높은 비율의 누락으로 인해 여전히 근본적인 과제로 남아 있습니다. 기존 모델들은 일반적으로 수치적 값(지역 정보)을 복원하는 데 초점을 맞춰 점별 재구성 손실을 최적화합니다. 그러나 우리는 높은 누락률에서 이러한 모델들이 훈련 단계에서는 여전히 잘 수행되지만, 추론 단계에서는 부정확한 대체 값과 왜곡된 잠재 표현 분포(전역 정보)를 생성한다는 것을 관찰했습니다. 이는 현재의 목표 함수가 전역적 지침을 제공하지 않아 모델이 지역적 노이즈에 과적합되고 데이터의 전역 정보를 포착하지 못하는 중요한 최적화 딜레마를 드러냅니다. 이 문제를 해결하기 위해, 우리는 새로운 훈련 패러다임인 Glocal Information Bottleneck(Glocal-IB)을 제안합니다. Glocal-IB는 모델에 독립적이며, 표준 IB 프레임워크를 확장하여 계산 가능한 상호 정보 근사에서 도출된 Global Alignment 손실을 도입합니다. 이 손실은 마스킹된 입력의 잠재 표현을 원래 관측된 입력의 잠재 표현과 정렬합니다. 이를 통해 모델이 누락된 값으로 인한 노이즈를 억제하면서 전역 구조와 지역 세부 사항을 유지할 수 있게 하여, 높은 누락률에서도 더 나은 일반화를 가능하게 합니다. 9개의 데이터셋에 대한 광범위한 실험을 통해 Glocal-IB가 누락 상황에서 일관되게 향상된 성능과 정렬된 잠재 표현을 제공한다는 것을 확인했습니다. 우리의 코드 구현은 https://github.com/Muyiiiii/NeurIPS-25-Glocal-IB에서 확인할 수 있습니다.