번역이 포함된 일일 선별된 AI 연구 논문
AI 코딩 에이전트는 과학 연구에 점점 더 많이 활용되고 있지만, 완전한 종단 간 자율 연구 능력을 검증하는 것은 여전히 어렵다. 본 연구에서는 10개 과학 분야의 40개 과제에 걸쳐 자율 과학 연구를 평가하기 위한 벤치마크인 ResearchClawBench를 제시한다. 각 과제는 실제 출판된 논문에 기반하며, 관련 문헌과 원시 데이터를 제공하고, 평가 중에는 목표 논문을 숨긴다. 전문가가 선별한 다중 모드 평가 루브릭은 목표 과학 결과물을 가중치 기준으로 분해하여, 목표 논문 수준의 재발견을 평가하면서도 새로운 발견의 여지를 남긴다. 우리는 통일된 프로토콜 하에 7개의 자율 연구 에이전트와 경량화된 ResearchHarness를 통해 17개의 네이티브 LLM을 평가한다. 현재 시스템은 신뢰할 수 있는 재발견 수준에 크게 미치지 못한다. 가장 강력한 자율 에이전트인 Claude Code는 평균 21.5점, 가장 강력한 ResearchHarness LLM인 Claude-Opus-4.7은 평균 20.7점, LLM 최전선 평균은 26.5점에 불과하다. 오류 분석 결과, 실패는 주로 실험 프로토콜 불일치, 증거 불일치, 과학적 핵심 요소 부재에 집중된다. ResearchClawBench는 자율 과학 연구를 향한 진전을 측정할 수 있는 재현 가능한 평가 최전선을 제공한다.
비전 언어 모델(VLM)은 다양한 작업에서 뛰어난 성능을 보이지만, 중요한 정보가 직접 관찰되지 않는 상황에서의 공간 추론에는 여전히 어려움을 겪는다. 이러한 문제 중 상당수는 상상적 지각, 즉 보이지 않는 시점에서 무엇이 보일지 추론하거나, 폐색된 공간을 통과하는 경로를 추적하거나, 부분적인 관찰을 일관된 공간 표현으로 통합하는 능력을 요구한다. 본 연구에서는 상상 지각 토큰(IPT)을 제안한다. 이는 관찰된 입력과의 일관성을 유지하면서, VLM이 대체 공간 구성 하에서 지각할 내용을 외부화하는 중간 지각 표현이다. 이러한 능력을 연구하기 위해, 우리는 시점 취하기(PET), 경로 추적(PT), 다중 시점 계수(MVC)의 세 가지 과제를 설계하고, 실측 상상, 정답, 평가 기준을 포함한 약 20,000개의 예제로 구성된 데이터셋을 구축한다. 통합 VLM인 BAGEL을 백본으로 사용한 결과, IPT 지도 학습은 공간 추론을 지속적으로 개선하며, 추론 시점에 이미지를 생성하지 않더라도 종종 텍스트형 사고 사슬 학습보다 우수한 성능을 보인다. MVC에서는 IPT가 정확도를 3.4% 향상시켰으며, PT에서는 강력한 폐쇄형 모델과 경쟁력 있는 성능을 달성했다. 또한 IPT와 레이블 전용 지도 학습을 결합하면 추가적인 성능 향상이 나타나는 반면, 텍스트형 사고 사슬은 성능을 상당히 저하시킬 수 있음을 발견했는데, 이는 공간 계산이 언어를 통해 강제될 때 양식 불일치가 발생함을 시사한다. 종합적으로 IPT는 관찰되지 않은 공간 구조에 대한 추론을 위한 원칙적 지도 신호를 제공하며, 해석 가능한 중간 표현을 생성하면서 일반화 능력을 향상시킨다.
대규모 언어 모델은 다양한 하위 작업에서 뛰어난 제로샷(zero-shot) 능력을 보여준다. 그러나 기성 임베딩 모델(off-the-shelf embedding model)로는 제대로 작동하지 못하여, 대규모 텍스트 임베딩 벤치마크에서 최적 이하의 성능을 보인다. 본 논문에서는 이러한 결함의 잠재적 원인을 식별한다. 우리의 동기는 예상치 못한 관찰에서 비롯되었다: 텍스트 임베딩이 어휘 공간에 투영될 때 빈번하지만 정보가 없는 토큰과 정렬되는 경향이 있다는 점이다. 우리는 이러한 고빈도 토큰의 과도한 표현이 모델의 미묘한 의미를 포착하는 능력을 억제한다고 주장한다. 이를 해결하기 위해, 우리는 EmbedFilter를 도입한다. 이는 LLM에서 직접 얻은 텍스트 임베딩을 정제하도록 설계된 간단한 선형 변환이다. 구체적으로, LLM 내의 언임베딩 행렬(unembedding matrix)이 이러한 빈번한 토큰을 임베딩 공간에 적극적으로 기록하는 잠재 공간을 인코딩하고 있음을 발견한다. 이 부분 공간을 필터링함으로써 EmbedFilter는 고빈도 토큰의 영향을 억제하여 의미 표현을 향상시킨다. 주목할 만한 부산물로, 이는 고유한 차원 축소를 가능하게 하여 정제된 임베딩 품질을 완전히 유지하면서 인덱스 저장 공간을 줄이고 검색 속도를 높인다. 여러 LLM 백본에 걸친 실험을 통해 EmbedFilter를 장착한 LLM이 임베딩 차원을 크게 줄인 상태에서도 뛰어난 제로샷 하위 작업 성능을 달성함을 입증한다. 우리의 연구 결과가 LLM 기반 표현의 메커니즘에 대한 더 깊은 통찰을 제공하고, 텍스트 임베딩 훈련을 개선하기 위한 더 원칙적인 설계에 영감을 주기를 기대한다. 코드는 https://github.com/CentreChen/EmbFilter에서 확인할 수 있다.
LLM 중재자를 평가하는 것은 여전히 어려운 과제이다. 중재는 분쟁 당사자의 변화하는 감정, 의도 및 맥락에 의해 형성되는 실시간 궤적으로 전개되기 때문이다. 기존 테스트베드는 소수의 전문가 작성 도메인에 의존하며, 주로 전략적 태세에서 차이를 보이고, 모든 발화를 모든 주제에 대해 점수화하여 주제 외 잡음을 유발한다. 우리는 SoCRATES를 소개한다. 이는 현실적이고 다중 도메인 테스트베드에서 능동적 LLM 중재자를 평가하기 위한 벤치마크이다. SoCRATES는 8개 도메인에 걸친 에이전트 파이프라인을 통해 실제 갈등에서 시나리오를 구축하고, 다섯 가지 사회인지적 적응 축(전략적 태세, 당사자 구성, 대화 이력 길이, 정서적 반응성, 문화적 정체성)을 탐구하며, 주제별 평가자를 통해 각 주제를 진전시키는 발화에 대해서만 점수화한다. 이 평가자는 인간 전문가와 0.82의 일치도를 달성하여, 발화별 기준선 대비 두 배 이상의 성능을 보인다. 8개의 최첨단 LLM을 벤치마킹한 결과, 가장 강력한 중재자조차도 다양하고 현실적인 테스트베드에서 중재되지 않은 합의 격차의 약 3분의 1만을 해소하며, 성능이 사회인지적 축에 따라 급격히 달라져, 진전은 다양한 조건에 대한 사회적 적응에 있음을 시사한다.
유전체 기반 모델의 발전은 파편화된 벤치마크, 호환되지 않는 평가 프로토콜, 과제별 보고 방식으로 인해 평가하기 어렵다. 그 결과, 모델 간 우월성이나 일반성에 대한 주장은 종종 직접 비교가 불가능하다. 본 연구에서는 GENEB를 소개한다. GENEB는 통합된 프로빙 기반 프로토콜(소수 샷(few-shot) 방식을 포함) 하에 13가지 기능 범주에 걸친 100개 과제에서 40개의 유전체 기반 모델로부터 추출된 고정 표현(frozen representation)을 평가하는 대규모 진단용 벤치마크이다. GENEB는 모델 규모, 구조, 토큰화 및 사전 학습 데이터에 걸친 통제된 비교를 가능하게 하면서, 과제 수준의 상충 관계를 명시적으로 드러낸다. 분석 결과, 종합 리더보드는 불안정하다. 즉, 모델 순위는 과제 범주에 따라 급격히 변하며, 규모 증가는 미미하고 일관되지 않은 이점만을 제공하고, 구조와 사전 학습 간의 정렬이 종종 파라미터 수보다 더 큰 영향을 미친다. 이러한 결과는 현재 평가 관행의 한계를 강조하며, GENEB를 유전체 머신러닝에서 원칙적 비교와 범주별 모델 선택을 위한 참조 프레임워크로 자리매김한다.
본 논문에서는 MMAE(Massive Multitask Audio Editing benchmark)를 소개한다. 이는 범용 명령 기반 오디오 편집을 위해 설계된 최초의 포괄적 평가 테스트베드이다. 지능형 창작으로의 전환에 힘입어, 이미지 분야의 Nano-banana 2, 비디오 분야의 Gemini-Omni와 같은 모델이 개척한 대화형 편집이 시각 영역에서 오디오로 급속히 확장되고 있다. 그러나 현재의 평가 인프라는 심각하게 뒤처져 있으며, 특정 하위 영역이나 기본 연산에 국한된 매우 파편화된 상태에 머물러 있다. 제한된 범위를 가진 기존 벤치마크와 달리, MMAE는 소리, 음성, 음악 및 이들의 혼합을 포함한 7가지의 서로 다른 오디오 모달리티에 걸쳐 실제 세계 시나리오의 광범위한 스펙트럼을 포괄한다. 또한, 기본 수정부터 다단계 추론 및 다중 라운드 편집에 이르기까지 6단계의 작업 복잡성, 2단계의 세분성, 그리고 8가지의 구별되는 연산 유형을 아우르는 포괄적인 분류 체계를 구축했다. 인간-에이전트 협업을 통해 세심하게 선별된 MMAE는 2,000개의 고충실도 샘플과 획기적인 루브릭 기반 평가 프레임워크를 결합하여 제공한다. 자유 형식의 작업을 17,741개의 검증 가능한 기준으로 분해함으로써, 이 강력한 루브릭 기반 패러다임은 명령 수행 능력과 맥락 일관성 모두에 대한 정밀하고 다차원적인 평가를 가능하게 한다. 주요 모델에 대한 광범위한 평가 결과, 현재의 시스템들은 신뢰할 수 있는 편집을 달성하는 데 아직 크게 미치지 못하는 것으로 나타났다. 놀랍게도, 정확 일치율(Exact Match Rate, EMR)은 지속적으로 5% 미만에 머물렀으며, 복잡한 혼합 모달리티 작업에서는 절대적인 0%까지 급락하여, 정밀한 실행과 구조적 견고성에 있어 심각한 병목 현상을 드러냈다. MMAE가 지능형 창작 커뮤니티의 미래 발전을 위한 촉매제가 되어, 명확한 진단 로드맵을 제공하고 차세대 오디오 편집 시스템을 위한 표준화되고 지속 가능한 평가 패러다임을 확립하기를 기대한다.
중추적 프론티어임에도 불구하고, 실제 시나리오에서 요구되는 다양한 제어 가능성 측면에서 상호작용 세계 모델링은 여전히 충분히 탐구되지 않은 상태이다. 이러한 격차를 해소하기 위해, 본 논문은 향상된 상호작용 완전성과 세계 맞춤 설정을 위한 유연한 메커니즘을 통해 자기중심 시뮬레이션을 발전시키는 프레임워크인 AnchorWorld를 제시한다. 첫째, 우리는 3차원 인간 동작을 주요 상호작용 양식으로 활용한다. 자기중심 시야에서 벗어나거나 잘린 신체 부위를 보완하기 위해, 우리는 에이전트의 일인칭 감각 기관에서 분리된 외인적 시점을 통합하는 보조 훈련 감독을 도입한다. 이를 통해 모델이 환경 대비 에이전트의 전신 위치를 관찰할 수 있게 되어, 인간-세계 상호작용의 보다 강건한 공간적 기반을 마련한다. 또한, 우리는 자기 진화적 세계를 맞춤 설정하기 위한 간단하면서도 효과적인 메커니즘을 제안한다. 이는 통합된 세계 좌표계 내에서 앵커 뷰를 정의하고, 국지적 장면의 동적 진화를 지시하는 텍스트 설명을 결합함으로써 달성된다. 실험 결과, AnchorWorld는 최첨단 기준 모델들을 크게 능가하며, 절제 연구를 통해 핵심 설계의 효과성을 검증한다. 특히, 우리의 맞춤 설정 기법은 유망한 시공간 기하학적 일관성을 보여줄 뿐만 아니라, 규정된 진화적 동역학을 엄격히 준수함을 입증한다.
범용 로봇 지능은 종종 정책 확장 문제로 프레임화된다: 더 많은 로봇 시연 데이터를 수집하고, 더 큰 시각-언어-행동(VLA) 모델을 훈련하며, 더 넓은 일반화를 기대하는 것이다. 본 논설에서는 이러한 프레임화가 불완전하다고 주장한다. 핵심 병목은 정책 학습만이 아니라, 세상에 풍부하게 존재하는 구조화되지 않은 행동 데이터를 기반 마련된 로봇 감독으로 변환하는 메커니즘의 부재에 있다. 인간의 움직임, 인터넷 영상, 시뮬레이션 실행 결과, 상호작용 시연 데이터는 작업, 목표, 접촉, 실패, 물리적 제약에 대한 풍부한 정보를 포함하지만, 이러한 정보 대부분은 구현체 특화 행동 레이블, 작업 의미론, 보상 구조가 부족하여 로봇 정책이 직접 사용할 수 없다. 우리는 차세대 로봇 공학을 위한 네 가지 누락 요소를 식별한다: 구조화되지 않은 행동을 자동 레이블링하기 위한 데이터 인터페이스, 인간의 움직임을 로봇 행동으로 재타겟팅하기 위한 구현체 인터페이스, 물리 기반 3D 추론을 위한 세계 모델 인터페이스, 그리고 영상과 언어로부터 작업 진행 및 성공을 추론하기 위한 보상 인터페이스이다. 우리는 로봇 기반 모델, 교차 구현체 데이터셋, 영상으로부터의 학습, 세계 모델, 보상 모델링 분야의 최근 진전을 살펴보고, 로봇 시연뿐만 아니라 더 넓은 물리적 세계로부터 학습할 수 있는 로봇 시스템을 구축하기 위한 연구 의제를 제안한다.
객체 삽입은 참조 객체를 배경 이미지의 특정 영역에 매끄럽게 합성하는 것을 목표로 한다. 최근 확산 기반 방법들은 높은 시각적 품질을 달성하지만, 삽입을 단순한 2D 인페인팅 작업으로 정의하여 객체의 3D 포즈에 대한 명시적 제어를 제공하지 않으며 실용적 적용 가능성을 제한한다. 본 논문에서는 상호작용적 포즈 조작과 고충실도 2D 이미지 합성을 통합하여 포즈 제어가 가능한 객체 삽입을 가능하게 하는 새로운 프레임워크인 DIRECT(Decomposed Injection for Reference Composition and Target-integration)를 제안한다. 우리의 방법은 삽입 조건을 세 가지 상호 보완적 구성 요소, 즉 참조 객체의 시각적 세부 사항을 포착하는 외형 가이던스, 사용자가 조정한 3D 프록시로부터 도출된 기하 가이던스, 그리고 대상 배경의 맥락 가이던스로 분해한다. 이들을 별도의 경로를 통해 주입함으로써 DIRECT는 특징 얽힘을 방지하고, 참조 외형을 보존하며, 사용자가 지정한 포즈를 따르고, 객체를 대상 장면에 적응시킨다. 또한 훈련 데이터의 다양성과 품질을 향상시키기 위해 자동화된 데이터 구축 파이프라인을 도입한다. 실험 결과는 DIRECT가 기하학적 제어 가능성과 시각적 품질 모두에서 이전 방법들을 능가함을 보여준다.
자기 진화 에이전트는 배포 후 적응이 필요하지만, 기존 접근법은 큐레이션된 기술, 성공적인 궤적, 또는 검증 신호와 같은 사용 가능한 학습 루프를 가정한다. 실제 개방형 세계 배포에서는 이러한 요소 중 어느 것도 제공되지 않을 수 있으며, 오직 작업 프롬프트만 주어질 수 있다. 본 연구에서는 에이전트가 대상 작업 감독 없이 개방형 세계 자원을 사용하여 자신의 기술과 검증 신호를 처음부터 구축해야 하는 개방형 세계 자기 진화를 탐구한다. 우리는 이 루프를 부트스트래핑하는 프레임워크인 OpenSkill을 제안한다. 이 프레임워크는 문서, 저장소 및 웹으로부터 기반 지식과 검증 앵커를 획득하고, 이를 전이 가능한 기술로 합성하며, 대상 답변이 아닌 앵커에 기반한 자체 구축 가상 작업에 대해 해당 기술을 개선한다. 따라서 개방형 세계는 학습해야 할 지식과 감독 독립적인 연습 환경을 모두 제공하며, 대상 작업 감독은 최종 평가를 위해 남겨둔다. 세 가지 벤치마크와 두 가지 대상 에이전트에 걸쳐 OpenSkill은 감독 없음 제약을 충족하면서 최고의 자동 통과율을 달성한다. 분석 결과, 이 기술은 모델 특화 적응 없이도 모델 간 전이가 가능하며, 자체 구축 검증기는 실제 결과에 접근하지 않고도 해당 결과와 일치함을 보여준다.
기존 벤치마크는 대규모 언어 모델(LLM)의 도구 통합 추론(TIR)을 이상적인 ‘해피 패스’ 상황에서만 평가하며, 실제 환경에서 발생하는 도구 오류를 대부분 간과해 왔다. 본 연구에서는 TIR 에이전트의 동적 경로 탐색 및 오류 복구 능력을 평가하기 위한 벤치마크인 ToolMaze를 제안한다. 체계적 재계획과 맹목적 시행착오를 구분하기 위해 ToolMaze는 2차원 설계를 채택한다. 즉, DAG 기반 위상 복잡성과 2×2 분류체계(명시적/암시적, 일시적/영구적)의 도구 교란을 포함한다. 평가 결과, 교란은 거의 모든 모델의 성능을 저하시켰으며, 특히 암시적 의미적 오류 상황에서 가장 큰 성능 하락이 관찰되었다. 손상된 출력에 대한 과도한 시스템적 신뢰로 인해, 이러한 시나리오에서 교란 복구율(PRR)은 약 37% 급감하였고, 복잡한 위상 구조는 에이전트를 무의미한 시행착오 루프에 빠뜨렸다. 중요한 점은, 에이전트의 내결함성은 모델 규모에 따라 기본 작업 실행보다 3.66배 느리게 향상된다는 사실이다. 이는 동적 재계획이 모델 스케일링이나 프롬프팅으로 해결되지 않는 별개의 병목 현상임을 시사한다. 데이터와 코드는 https://github.com/Zhudongsheng75/ToolMaze에서 확인할 수 있다.
비디오 이해는 멀티모달 대규모 언어 모델(MLLM)에 의해 빠르게 변화하고 있으며, 연구는 짧은 클립에서 길고, 멀티모달이며, 지식 집약적인 비디오 시나리오로 확장되고 있다. 이러한 시나리오에서는 모델이 제한된 계산 예산 하에서 희소 증거, 장거리 의존성, 멀티모달 정렬, 신뢰할 수 있는 추론을 처리해야 한다. 본 연구는 LLM 기반 비디오 이해에 대한 인간 관점의 시각을 제시하며, 이를 시청, 기억, 추론이라는 세 가지 기능적 능력으로 구성한다. 비디오 작업을 고립된 벤치마크로 다루기보다, 이 관점은 비디오 MLLM이 증거를 획득하고, 맥락을 유지하며, 근거 있는 출력을 생성하는 방식을 분석하기 위한 통합 구조를 제공한다. 우리는 비디오 이해 시스템을 지각적 표현, 메모리 상태, 추론 과정, 최종 예측으로 특성화하는 정식화를 도입한다. 이 정식화를 바탕으로 시공간 지각, 효율적인 장편 비디오 처리, 메모리 모델링, 스트리밍 이해, 신뢰할 수 있는 추론에서의 과제를 식별한다. 대표적인 방법들은 비디오 MLLM 시스템에서의 역할에 따라 정리된다. 시청은 세밀하고 포괄적이며, 시청각적이고 효율적인 지각을 다룬다. 기억은 오프라인 및 스트리밍 메모리를 포함하며, 추론은 텍스트 전용 추론과 비디오를 통한 사고를 다룬다. 또한 자아 중심, 스포츠, 교육, 의료, 서사 비디오와 같은 응용 도메인을 살펴보고, 작업 유형, 감독 형식, 모달리티, 능력 차원에 걸친 학습 데이터셋과 평가 벤치마크를 다룬다. 마지막으로, 확장 가능하고 메모리 인식적이며 증거 기반의 비디오 지능을 위한 미해결 문제와 미래 방향을 제시한다. 관련 연구는 https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding에서 지속적으로 추적될 것이다.
지속형 AI 어시스턴트(예: OpenClaw)는 장기 상호작용을 통해 방대한 관련 기억 컬렉션을 축적한다. 이러한 기억이 증가함에 따라 서로 강화되거나, 맥락에 따라 분기되거나, 직접적으로 충돌할 수 있으며, 이에 따라 올바른 지원은 고립된 회상보다는 기억 관계에 의존하게 된다. 기존 장기 기억 벤치마크는 에이전트가 하위 작업을 수행하는 동안 이러한 관계를 어떻게 활용하고 보존하는지 거의 평가하지 않는다. 이러한 격차를 해소하기 위해, 우리는 장기 실행 AI 에이전트에서 세분화된 관계형 기억 식별을 위한 벤치마크인 SubtleMemory를 소개한다. SubtleMemory는 관계 제어된 잠재 의미 인공물을 구성하며, 그 변형은 상호 보완적, 미묘하거나 모순적인 관계를 구체화하고, 이를 현실적인 사용자-에이전트 상호작용 기록에 내장하여, 이후의 질의와 지시에서 에이전트가 분산된 관계형 구조를 복구하도록 요구한다. 해당 벤치마크는 1,090개의 관계 제어된 기억 변형 세트를 기반으로 하여 사용자 관련 및 비사용자 관련 질의를 포괄하는 10개의 긴 기록에 걸쳐 1,522개의 평가 인스턴스를 포함한다. 여섯 개의 독립형 기억 시스템, 네이티브 기억 모듈을 갖춘 두 개의 Claw 스타일 에이전트, 그리고 플러그인 기억 모듈을 갖춘 세 개의 Claw 스타일 에이전트를 평가한 결과, 현재 시스템은 세분화된 관계형 기억 식별에서 여전히 취약함을 발견했다. 또한, 기억 보존, 검색 및 하향 추론 단계에 걸쳐 뚜렷한 역량 프로필을 드러내는 진단 프로토콜을 추가로 도입한다.
우리는 UnpredictaBench를 소개한다. 이는 대규모 언어 모델(LLM)이 실제 기저 분포를 포착하는 능력을 평가하는 벤치마크이다. LLM이 다른 개체(예: 경제 시뮬레이션에서 인간을 대신하는 용도)의 대체재로 점점 더 사용됨에 따라, 많은 모델이 단일한 그럴듯한 답변으로 수렴하는 경향은 실제 시스템의 예측 불가능성을 포착하지 못함을 의미한다. 최근 출력 다양성을 개선하려는 연구는 이러한 설정에 충분하지 않다. 시뮬레이션은 단순히 다양한 출력이 아닌, 목표 분포에 보정된 샘플을 필요로 한다. UnpredictaBench는 이 문제의 단순화되었지만 근본적인 버전을 분리한다. 즉, 개별 목표 분포(표준 통계 분포, 확률적 프로그램에 의해 유도된 분포, 무작위 과정을 기술하는 자연어 시나리오 포함)에서 결과를 샘플링하는 것이다. 우리는 448개의 이러한 문제와 함께 KS@N이라는 범용 평가 지표를 도입한다. 이 지표는 Kolmogorov-Smirnov 통계 검정을 통해 모델이 블랙박스 목표 분포를 얼마나 잘 근사하는 출력을 생성하는지 정량화한다. 이는 크기 N의 모델 샘플을 실제 샘플과 비교하여 기각하지 못하는 비율이며, N이 클수록 난이도가 높아짐을 의미한다. 오픈 및 독점 모델을 대상으로 테스트한 결과, 분포적 능력에 큰 차이가 있음을 발견했다. 예를 들어, 모델이 크기 100의 샘플을 생성할 때(KS@100, 우리의 표준 지표), 점수는 거의 0%에서 20% 이상까지 분포한다. 어떤 모델도 KS@100에서 40% 이상을 달성하지 못하여, 분포 샘플링이라는 능력에 상당한 개선 여지가 있음을 보여준다. 추론을 추가하면 점수가 다소 향상될 수 있지만, 이 문제에 대한 즉각적인 해결책은 발견되지 않았다. UnpredictaBench는 단순한 분포적 시뮬레이션조차 여전히 어려움을 시사하며, 이는 LLM을 복잡한 시스템의 대리자로 사용하기 위한 필수적인 첫걸음이 된다.
인과 그래프는 메커니즘을 투명하게 만들기 위한 고수준 언어를 제공한다. 최근 연구에서는 대규모 언어 모델(LLM)을 사용하여 외부 세계 프로세스의 인과 그래프를 복구한다. 대신, 본 논문에서는 LLM 추론 자체를 모델링하기 위해 인과 그래프를 사용하여, 모델이 예측을 생성하기 위해 고수준 개념을 어떻게 인식하고 구성하는지에 대한 투명한 관점을 이해관계자에게 제공한다. 우리는 이러한 그래프를 구성하기 위한 4단계 방법을 제안한다. 주어진 대상 LLM과 텍스트 예제 집합에 대해, 우리의 방법은 클래스 판별적이고 인간이 해석 가능한 개념을 발견하고 각 입력을 LLM이 인지한 개념 상태에 매핑한다. 그런 다음 MCMC에서 영감을 받은 반사실적 증강 절차를 도입하여, 반사실적 체인을 통해 희소한 관측 데이터를 확장한다. 이를 통해 σ-CG로 안정적인 인과 발견이 가능해지며, 정보성 있고 해석 가능한 그래프를 생성한다. 우리는 질병 진단, 감정 분석, 그리고 LLM-as-a-judge 분류 작업에 걸쳐 세 가지 LLM에 우리의 방법을 적용한다. 학습된 그래프의 예측 충실도와 구조적 안정성을 평가하고, MCMC에서 영감을 받은 증강의 수렴성과 하류 작업 유용성을 평가한다. 우리의 결과는 발견된 인과 그래프가 LLM의 추론과 일관된 의미 있는 의존성을 포착함을 보여준다. 종합적으로, 본 논문은 LLM의 개념 수준 설명 가능성을 위한 기초를 제공한다.
시각-언어 모델(VLM)은 강력한 시각적 추론 능력을 보여주고 있지만, 공간 추론 능력은 여전히 관찰된 이미지와 텍스트 중심의 사고 사슬에 크게 제약되어 있다. 제한된 자기중심적 관찰만 가능할 때, 관찰되지 않은 배치를 추론하고, 뷰 간 일관성을 유지하며, 대체 시점에서 추론하는 데 어려움을 겪는 경우가 많다. 본 연구에서는 이러한 문제를 상상을 통한 사고로 접근하며, VLM이 추론 과정에서 세계 시뮬레이터와 상호작용하여 상상된 시각적 증거를 능동적으로 획득하도록 한다. 우리는 VLM에 행동 조건부 시각적 상상력을 부여하는 에이전트 기반 공간 추론 프레임워크인 Astra를 제안한다. 구체적으로, Astra는 RL(강화학습)으로 훈련된 VLM 정책인 Astra-VL과 Bagel 기반 세계 시뮬레이터로서 맥락 이미지와 자연어 카메라 움직임으로부터 새로운 시점 관찰을 생성하는 Astra-WM을 결합한다. 신뢰할 수 있는 상상 증거를 제공하기 위해, Astra-WM은 뷰 일관성 튜닝으로 훈련되어 뷰 간 자세 및 내용 일관성을 향상시킨다. RL 단계에서는 세계 시뮬레이터를 포함한 2단계 RL 커리큘럼을 제안하여 도구 사용 탐색을 안정화하고, 상상된 관찰이 직접 응답보다 개선될 때에만 시뮬레이터를 호출하는 모델의 능력을 향상시킨다. 실험 결과, 세계 시뮬레이터와 에이전트 정책 모두 필요함을 보여준다. Astra-WM은 시뮬레이터로 보강된 Gemini-3-Flash의 MMSI-Bench 성능을 45.1에서 49.5로 향상시켰으며, Astra-VL은 Qwen3-VL 백본의 성능을 MMSI-Bench에서 29.8에서 38.8로, MindCube에서 36.8에서 42.7로 향상시켰다. 이러한 결과는 상상된 관찰이 유용한 공간 증거를 제공할 수 있지만, 효과적인 세계 모델 보강 추론을 위해서는 언제, 어디서, 어떻게 상상할지 학습해야 함을 보여준다.
본 연구에서는 기존의 사실적인 시점 합성 방법인 SHARP를 확장하여, 기존의 원근 카메라에서 광시야각, 어안 및 전방위 파노라마 설정에 이르는 다양한 카메라 시스템에 걸쳐 보편적인 단안 렌더링을 수행하는 데 초점을 맞춘다. SHARP의 핀홀 기반 가정을 극복하기 위한 핵심 아이디어는 다양한 이미지를 통합된 전방위 잠재 공간에 정렬하는 것이다. 이에 따라, 특징 공간과 가우시안 공간 모두에서 암시적 정렬을 수행하는 UniSHARP를 제안한다. 구체적으로, 가우시안 프리미티브는 광선 기반의 보편적 표현에서 광선과 반경 거리를 따라 배열되며, UniK3D에서 영감을 받은 인코더에서 추출된 2D 의미론적 특징과 3D 공간 특징을 공동으로 디코딩하여 완전한 가우시안 클라우드를 생성한다. 제안된 방법을 종합적으로 평가하기 위해, 다양한 장면에 걸친 여러 이미징 시스템을 포괄하는 벤치마크를 구축한다. 이 벤치마크는 시야각(FoV)에 따라 추가로 세분화되어 보편적 단안 렌더링 작업의 세밀한 평가를 가능하게 한다. 제안된 벤치마크에 대한 광범위한 실험을 통해 UniSHARP의 효과성을 입증하며, 다른 방법들에 비해 큰 폭으로 성능이 우수함을 보여준다. 프로젝트 페이지는 다음에서 확인할 수 있다: https://insta360-research-team.github.io/Unisharp-website/
우리는 고품질 모션 데이터가 학습 초기에 추적 정책을 더 나은 최적화 궤적으로 유도할 수 있다고 주장한다. 본 연구에서는 LIMMT(Less Is More for Motion Tracking)를 소개한다. 우리가 아는 한, 이는 물리 기반 휴머노이드 모션 추적에 대한 최초의 데이터 중심 연구이다. 단순히 저품질 및 오류가 있는 클립을 제거하는 것을 넘어, 모션 데이터 품질을 물리적 타당성, 다양성, 복잡성의 세 가지 차원으로 정의한다. AMASS의 3% 미만으로 학습해도 전체 데이터셋으로 학습한 것보다 더 나은 추적 성능을 보임을 입증한다. 또한 추정된 웹 기반 모션 캡처 데이터에 대해 데이터 정제를 수행한다. 광범위한 실험과 분석을 통해 우리 프레임워크의 효과성을 검증한다.
본 논문에서는 연속 잠재 공간에서 음성을 모델링하는 20억 파라미터 연속 자기회귀 텍스트 음성 변환(TTS) 기반 모델인 dots.tts를 제시한다. 기존 연속 자기회귀 모델과 비교하여 본 연구의 주요 혁신은 세 가지이다. 첫째, 다중 목적 함수를 사용하여 AudioVAE를 학습시킴으로써 의미론적으로 구조화되고 예측에 유리한 연속 음성 공간을 구축한다. 둘째, 플로우 매칭 헤드에서 전체 이력 조건화를 사용하여 장기적인 일관성을 유지하고 생성 중 드리프트를 줄인다. 셋째, 플로우 매칭 헤드에 보상 없이 자기 교정 후퇴련을 적용하여 강건성과 음향 품질을 추가로 향상시킨다. 대규모 다국어 코퍼스로 학습된 dots.tts는 Seed-TTS-Eval에서 최고 평균 성능을 달성하며, 중국어/영어/중국어-하드 테스트 세트에서 각각 0.94%/1.30%/6.60%의 단어 오류율(WER)과 81.0/77.1/79.5의 화자 유사도(SIM) 점수를 기록한다. 다른 벤치마크에서도 dots.tts는 일관되게 오픈소스 최첨단 성능을 보여주며, 강력한 생성 안정성, 음성 복제 능력, 감정 표현력을 입증한다. 효율적인 추론을 위해 CFG 인지 MeanFlow 증류를 추가로 적용하여 출력 스트리밍 및 이중 스트리밍 모드에서 각각 85ms 및 54ms의 첫 패킷 지연 시간을 갖는 저지연 음성 생성을 가능하게 한다. 재현 가능한 연구와 실제 배포를 지원하기 위해 사전 학습, 후퇴련, MeanFlow 증류된 체크포인트와 함께 학습 및 추론 코드를 Apache 2.0 라이선스 하에 공개한다.
이미지-비디오 확산 모델은 입력 이미지를 활용하여 시각적으로 뛰어난 콘텐츠를 생성하지만, 자주 물리 법칙을 위반하는 움직임을 생성합니다. 우리는 놀라운 발견을 밝힙니다: 2단계 생성이 동일 모델의 50단계 출력보다 더 나은 물리적 일관성을 보이는 경우가 많다는 것입니다. 스펙트럼 분석을 통해, 이를 잡음 제거 과정 중 위상 침식에서 기인하는 것으로 추적합니다; 위상이 크게 저하되며(2단계에서 50단계로 갈 때 약 18% 감소), 반면에 크기는 상대적으로 안정적으로 유지됩니다. 이 통찰을 바탕으로, 우리는 PhaseLock을 제안합니다. 이는 훈련이 필요 없는 프레임워크로, 잡음 제거 궤적 전반에 걸쳐 소수 단계 추론의 유효한 움직임 사전 정보를 보존합니다. 물리적 일관성을 위해 전체 단계 추론에 의존하는 대신, PhaseLock은 단 2단계에서 움직임 사전 정보를 추출하고 이를 잠재 델타 가이던스(Latent Delta Guidance)를 통해 고충실도 생성에 적용합니다. 우리의 접근 방식은 위상 저하를 효과적으로 완화하며, 다양한 모델에서 물리적 일관성을 평균 6.2포인트 향상시키고 시각적 충실도를 대부분 유지하면서, 무시할 수 있는 오버헤드(시간 1.06배, 메모리 1.02배)를 가지며 값비싼 외부 가이던스 방법에 대한 의존성을 줄입니다(시간 약 5배).
인간은 AI를 구축하고 개선하는 데 있어 병목 현상이다. 모델과 이를 감싸는 에이전트 모두 사람이 작성, 조정, 수정한다. 스스로 개선 방법을 찾아낼 수 있는 AI라는 장기적 목표는 여전히 미해결 과제이다. 크게 분리된 두 가지 연구 방향이 이 병목 현상을 해결하고자 한다. 하네스 업데이트 학파는 메타 에이전트가 모델 가중치는 고정한 채 작업별 에이전트의 스캐폴드(도구, 프롬프트, 재시도 로직, 검색 절차)를 다시 작성하게 한다. 테스트 타임 트레이닝 학파는 수작업으로 작성된 RL 파이프라인을 사용하여 하네스를 고정한 채 작업 피드백에 따라 모델의 가중치 자체를 업데이트한다. 이 두 사일로는 독립적으로 운영된다. 우리는 언어 모델 에이전트(피드백 에이전트)가 작업별 에이전트의 하네스와 가중치를 모두 업데이트하는 자기 개선 루프인 SIA를 제안한다. 우리는 중국 법률 혐의 분류, 저수준 GPU 커널 최적화, 단일 세포 RNA 잡음 제거라는 세 가지 대조적인 도메인에서 평가한다. 두 레버를 모두 결합하면 세 벤치마크 모두에서 스캐폴드 반복만으로는 성능이 뛰어나다. 성능 향상은 LawBench에서 56.6%, GPU 커널에서 실행 시간 91.9% 감소, 초기 기준선 대비 잡음 제거에서 502%이다. 하네스 업데이트는 모델을 에이전트적으로 만들어 검색 및 행동 방식을 형성하는 반면, 가중치 업데이트는 어떤 프롬프트나 스캐폴드도 주입할 수 없는 도메인 직관을 구축한다.
과학 논문 추천은 일반적으로 고정된 후보 집합에 대한 정적 순위 평가로 이루어지지만, 실제 학술 열람은 관심사가 변화하고 피드백이 축적되는 일상적이고 종단적인 과정으로 진행된다. 본 연구에서는 PaperFlow라는 프레임워크를 도입하여, 이를 세 가지 결합 단계로 구성한다. 프로파일링(Profiling) 단계에서는 이질적인 콜드 스타트 증거로부터 구조화되고 검사 가능한 학술 프로필을 구축 및 유지한다. 추천(Recommending) 단계에서는 고정된 표시 예산 하에서 다중 신호 집계를 통해 각 날짜별 논문 스트림을 순위화한다. 적응(Adapting) 단계에서는 의미적으로 구별되는 피드백 신호로부터 사용자 상태를 업데이트하고 며칠에 걸친 관심 표류를 모델링한다. 또한, 공유된 시간적 정보 경계 하에서 사용자, 날짜, 후보 풀, 가시적 입력, 숨겨진 시뮬레이션된 관련성 레이블을 고정하는 종단적 사용자-일 벤치마크를 정의한다. 이 벤치마크는 24명의 시뮬레이션된 연구 사용자, 50개의 일일 논문 스트림, 1,200개의 사용자-일 에피소드, 20,727개의 고유 논문, 497,448개의 에피소드-논문 기록을 포함한다. 또한, 자동 평가 지표와 전문가 판단 간의 일치성을 검증하기 위한 맹목적 인간 평가 프로토콜을 추가로 명시한다. 다섯 가지 과학 논문 추천 기준선에 대한 실험 결과, PaperFlow는 가장 강력한 오라클 기반 순위, 시뮬레이션된 읽기 선택과의 가장 높은 행동 일치성, 그리고 최고의 맹목적 인간 평가 점수를 달성함을 보여준다.
LLM 기반 소프트웨어 엔지니어링 에이전트는 실제 언어 모델 능력을 평가하는 핵심 시험장이 되었지만, 그 훈련은 고품질 SWE 작업의 가용성에 의해 제한되어 왔다. 기존의 합성 데이터 방법은 일반적으로 고정된 변형(mutation) 또는 버그 주입 절차를 통해 작업을 생성하므로, 결과적으로 생성된 분포는 에이전트 자체의 약점이나 훈련 진행 상황과 대체로 무관하다. 본 논문에서는 에이전트의 과거 해결 추적(solving traces)을 훈련 신호의 원천으로 재사용하는 폐쇄 루프 자기 진화 프레임워크인 Socratic-SWE를 제안한다. Socratic-SWE는 추적을 단순한 보상 계산의 증거로만 취급하지 않고, 반복되는 실패 패턴과 효과적인 수리 패턴을 요약하는 구조화된 에이전트 스킬로 추출한다. 이러한 스킬은 이후 실제 저장소에서 표적 수리 작업의 생성을 안내한다. 후보 작업은 실행 기반 검증을 통해 확인되고, 해결사-기울기 정렬 보상(solver-gradient alignment reward)으로 점수가 매겨져, 최종 유지된 작업이 검증 가능할 뿐만 아니라 Solver 개선에 유용하도록 보장한다. 업데이트된 Solver는 새로운 추적을 생성하며, 이를 통해 작업 커리큘럼이 연속적인 라운드에 걸쳐 적응할 수 있다. SWE-bench Verified, SWE-bench Lite, SWE-bench Pro 및 Terminal-Bench 2.0 전반에서 Socratic-SWE는 동일한 계산 예산 하에서 자기 진화 기준선(self-evolving baselines) 대비 일관된 성능 향상을 보여주며, 세 번의 반복 후 SWE-bench Verified에서 50.40%에 도달한다. 이러한 결과는 해결 추적이 자기 진화 SWE 에이전트를 위한 확장 가능한 기반 자료로 활용될 수 있음을 시사한다.
LLM 에이전트는 서로 다른 실행 패러다임을 요구하는 이질적인 작업 체계 전반에서 작동해야 하는 경우가 점점 더 많아지고 있다. 이는 고정된 에이전트 시스템에 도전 과제를 제기하며, 개별 구성 요소 업데이트를 넘어서는 시스템 수준의 메타 적응을 촉진한다. 기존 연구에서는 외부 하네스를 적응시키거나 기반 추론 정책을 학습시켰지만, 전체 시스템 적응은 여전히 충분히 특성화되지 않았다. 구조와 실행 사이의 적응 공간은 거의 명시적으로 드러나지 않으며, 외부 하네스와 내부 추론기 간의 호환성은 공동으로 최적화되지 않는다. 본 논문에서는 LLM 에이전트 시스템을 진화시키기 위한 메타 적응형 프레임워크인 HarnessForge를 제안한다. HarnessForge는 에이전트 시스템을 하네스-정책 쌍으로 공식화하여, 하네스 수준의 실행 구조와 정책 수준의 추론 행동을 분리하는 안정적인 적응 공간을 정의한다. 그런 다음 결함 기반 하네스 조정과 하네스 조건 정책 정렬을 통해 하네스-정책 공진화를 수행한다. 다양한 도메인의 5개 벤치마크에 걸친 실험 결과, HarnessForge는 Qwen3-4B와 Qwen3-8B 백본 모두에서 일관된 성능 향상을 보였으며, 하네스 전용 및 정책 전용 베이스라인보다 최대 12.0% 더 우수한 성능을 기록하고 유리한 롤아웃 효율성 절충을 달성했다. 이는 하네스-정책 공진화가 효과적이며, 하네스와 추론 정책 간의 실행 가능한 호환성이 에이전트 시스템 적응에 필수적임을 입증한다. 코드는 https://github.com/mingju-c/HarnessForge에서 확인할 수 있다.
시각-언어 모델(VLM)의 급속한 발전에도 불구하고, 해당 분야에는 이들의 진정한 추론 능력을 엄격히 진단하고 인간 수준의 다중 모달 지능을 향한 의미 있는 진전을 도표화하는 벤치마크가 부족한 실정이다. 기존의 대부분 평가는 단편적이거나 연결성이 떨어지는 작업에 초점을 맞춰 중요한 인지적 약점을 모호하게 하고, 목표 지향적 개선을 위한 통찰을 거의 제공하지 못한다. 이러한 격차를 해소하기 위해 우리는 Almieyar 벤치마킹 시리즈의 일부이자, 최초로 인간 인지에 기반을 둔 이중 언어(영어-아랍어) 다중 모달 벤치마크인 BloomBench를 소개한다. 블룸의 인지 분류체계(Bloom's Taxonomy)에 기반을 둔 BloomBench는 신중하게 설계된 이미지-질문-답변 작업을 통해 여섯 가지 인지 수준(기억, 이해, 적용, 분석, 평가, 창안)을 체계적으로 평가한다. 반자동화 파이프라인으로 구축되고 계층적 혼합 품질 보증 프로토콜을 통해 검증된 이 벤치마크는 확장성, 문화적 포용성, 언어적 충실성을 보장한다. 이 프레임워크를 활용하여 우리는 최첨단 VLM에 대한 포괄적 연구를 수행하여 이들의 인지 프로필을 진단한다. 분석 결과, 날카로운 인지적 비대칭성이 드러났다. 최첨단 모델들은 의미 이해에서 강력한 성능 상한선을 달성하지만, 사실 회상과 창의적 종합에서는 상당히 어려움을 겪는다. 이는 현재의 일반 다중 모달 능력이 특정 인지 계층의 더 깊은 한계를 가리고 있음을 보여준다. 더 나아가, 우리 연구는 아랍어와 영어 간의 심각한 성능 격차를 강조하며, 현재의 교차 언어 다중 모달 추론의 한계를 드러낸다. 이러한 발견은 보다 인지적으로 정합적이고 포용적인 VLM을 개발하기 위한 기초를 마련한다. 벤치마크 프레임워크와 데이터셋은 다음에서 확인할 수 있다: https://github.com/qcri/Almieyar-Oryx-BloomBench.
시각-언어 모델(VLM)이 구현 환경에 점점 더 많이 배치되면서, 행동 크기나 공간 좌표와 같은 수치 출력을 생성해야 하는 상황에 직면하고 있다. 이러한 숫자들은 의미 있는 것처럼 보이지만, 이러한 수치 출력이 실제로 공간 인식에 기반한 것인지는 여전히 불분명하다. 따라서 본 연구에서는 SpaceNum이라는 통합 프레임워크를 통해 공간적 수치 이해를 재조명한다. SpaceNum은 공간 탐색 중 나타나는 동적 전환으로서의 숫자와 공간 추론에서의 정적 배치로서의 숫자라는 두 가지 상호 보완적 설정을 포착한다. 우리는 Num2Space와 Space2Num이라는 두 가지 양방향 과제를 정식화하여, VLM이 시각 측의 공간 구조와 언어 측의 수치 표현 간의 매핑을 얼마나 잘 수행하는지 평가한다. 현재의 VLM이 공간 설정에서 수치 값을 진정으로 이해하는지 체계적으로 연구한다. 동적 전환과 정적 배치 모두에서, 모델들은 대부분 숫자를 공간적 의미로 grounding하지 못하며, 종종 무작위 추측에 가까운 성능을 보인다. 오류 분석, 추론 과정 분석, 통제된 중재 실험을 통해, 현재 VLM은 표면적 공간 단서에 크게 의존하고, 안정적인 좌표 인식 표현을 구축하는 데 어려움을 겪으며, 시각 관찰로부터 구조화된 공간 배치를 추상화하지 못함을 보여준다. 또한 명시적 추론은 미미한 개선만 제공하는 반면, 튜닝은 공간적 수치 이해를 부분적으로 향상시키고 외부 공간 추론 벤치마크로 전이될 수 있음을 추가로 보여준다.
3D 장면 이해의 발전에도 불구하고, 기존의 3D 대규모 멀티모달 모델은 완전한 장면 관측이나 사전 정의된 비디오 클립을 필요로 하는 오프라인 환경에서 작동한다. 본 논문에서는 스트리밍 비디오로부터 실시간 공간 이해를 가능하게 하는 온라인 3D 시각-언어 모델을 제시한다. 우리의 접근 방식은 LLM의 다음 토큰 예측 목표에 기반한 자기회귀적 스트리밍 제어 모델링을 채택하여 응답 시점을 학습하고, 경량의 시각-공간 특징 통합(VSFI) 모듈을 사용하여 시간적으로 정렬된 기하학적 사전 정보를 시각 스트림에 점진적으로 주입한다. 긴 맥락 디코딩 오버헤드를 완화하기 위해, 효율적인 시각 토큰 압축을 위한 플러그 앤 플레이 방식의 기하학 적응형 복셀 압축(GAVC) 모듈을 제안한다. 스트리밍 3D-언어 데이터의 부족을 해결하기 위해, 100만 개 이상의 온라인 시공간 3D QA 쌍을 선별하고 29개 작업에 걸친 포괄적인 벤치마크를 구축하는 확장 가능한 데이터 생성 파이프라인을 추가로 개발한다. 광범위한 실험을 통해 우리의 접근 방식이 온라인 및 오프라인 3D 공간 이해, 추론 및 접지 작업에서 독점 모델과 오픈소스 모델을 모두 크게 능가함을 보여준다. 프로젝트 페이지는 https://stream3d-vlm.github.io/ 에서 확인할 수 있다.
3D 비전은 점점 더 다양한 데이터 표현 방식, 학습 패러다임, 모델링 전략에 힘입어 빠르게 발전해 왔다. 그러나 이 분야는 여전히 표현 방식과 벤치마크 전반에 걸쳐 파편화되어 있어, 효율성, 충실도, 확장성에 대한 통합적 관점을 개발하기 어렵게 만든다. 본 연구는 기하학적 표현, 데이터셋, 학습 프레임워크, 응용을 하나의 개념적 지도로 연결하는 데이터 중심의 3D 비전 분류 체계를 제공한다. 먼저 3D 데이터의 주요 구조적 표현 방식(포인트 클라우드, 메시, 복셀, 3D 가우시안)과 그 획득 파이프라인을 분석한다. 이어서 데이터셋 설계, 벤치마크 구축, 감독 방식이 2D 감독 3D 학습, 암시적 신경 표현, 4D 세계 모델링에 이르기까지 최근의 발전을 어떻게 형성했는지 살펴본다. 이러한 통합적 렌즈를 통해 표현, 학습 패러다임, 재구성, 생성 및 비디오 모델링의 하위 작업 간의 관계를 명확히 하고, 효율성과 충실도의 균형 및 다중 양식 기하학적 기반 구축을 향한 새로운 추세에 대한 통합적 시각을 제시한다.
검색 에이전트를 위한 검색(retrieval)은 여전히 비에이전트 정보 검색(non-agentic information retrieval) 방식을 계승하고 있다: 검색기가 말뭉치(corpus)를 순위화하고 에이전트는 반환된 소수의 문서만 읽는다. 최근 직접 말뭉치 상호작용(DCI) 연구는 에이전트가 grep 및 파일 읽기와 같은 셸 도구를 통해 원시 말뭉치와 상호작용할 수 있음을 보여준다. 그러나 무제한 상호작용은 확장되지 않는다: 모든 광범위한 셸 명령어는 말뭉치 전체를 스캔하며, 말뭉치가 커질수록 지연 시간이 급격히 증가한다. 우리는 에이전트 검색을 위한 검색의 역할이 단순히 LLM 컨텍스트 윈도우에 맞는 문서를 선택하는 것이 아니라, 상호작용 공간(interaction space)을 구축하는 것이라고 주장한다. 이는 에이전트가 연관 도구를 사용하여 탐색할 수 있는 말뭉치의 경계가 있는 부분집합이다. 이로부터 두 가지 설계 결과가 따른다. 공간은 검색에 의해 제공되는 경계가 필요하며, 그 안의 객체들은 상호작용을 위해 처리되어야 한다. 개념 증명으로, 우리는 RISE(Retrieving Interaction SpacE)를 제안한다: BM25를 사용하여 상호작용 공간을 구축하는 동시에, 해당 문서들은 색인 과정에서 셸 스타일 탐색을 위해 처리된다. BrowseComp-Plus에서 RISE는 순수 셸 기반 DCI 기준선과 gpt-5.4-mini에서 78% 정확도로 일치하며, 쿼리당 비용은 약 4분의 1이다. 100만 문서에서 RISE-BM25는 gpt-5.4-mini에서 81%에 도달하는 반면, gpt-5.4-nano의 DCI는 33건의 벽시계 실패(wall-clock failure)로 60%로 저하된다.
일반적으로 생성 모델에서는 신뢰도 기반 손실 가중치(confidence-based loss weighting)가 사용되지 않는데, 이는 모델이 잘못된 예측을 확신할 때 오류를 가속화하기 때문이다. 그러나 이러한 직관은 지도 확산 학습(supervised diffusion training)에서는 성립하지 않는다. 우리는 DiT 출력의 공간적 에너지 분포 엔트로피로부터 도출된, 매개변수가 필요 없는 가중치인 Eisbach 로그 장벽(Eisbach log-barrier)을 소개한다. 높은 엔트로피는 기울기를 감쇠시키고, 낮은 엔트로피는 이를 보존한다. 이를 MusicCaps 데이터셋에서 Stable Audio 3 Medium의 LoRA 미세 조정에 적용했을 때, 예상외로 가중치 없는 학습보다 더 강한 주제 전개, 명확한 음향 구분, 높은 질감 다양성을 보여주었으며, 이는 모드 붕괴(mode collapse)와는 반대되는 결과이다. 이는 지도 확산 학습에서 기울기 방향이 실제값(ground truth)에 고정되어 있어 신뢰도가 단지 스텝 크기만 조정하고, 시간적 엔트로피가 평평한 샘플은 하향 가중치를 적용하는 반면 대비가 높은 샘플은 보존하기 때문에 작동한다. 그 결과 순전히 순전파(forward pass)에서만 비롯되는 온라인 자기참조적 데이터 커리큘럼(self-referential data curriculum)이 나타나며, 분석된 잡음 수준 동역학(noise-level dynamics)과 검증 가능한 예측이 수반된다.
언어 모델은 검증 가능한 보상을 활용하여 다양한 추론 과제에서 성능을 향상시킬 수 있다. 그러나 매개변수 기반(예: RLVR) 및 비매개변수 기반(예: 프롬프트 최적화) 접근법 모두 일반적으로 수백 개의 학습 샘플과 수천 회의 모델 롤아웃을 필요로 하여, 최상의 경우에도 비용이 많이 들고 최악의 경우에는 다루기 어렵다. 이러한 문제를 해결하기 위해, 우리는 대조 반성(Contrastive Reflection, CORE)이라는 비매개변수 학습 알고리즘을 소개한다. 이 알고리즘은 과거의 추론 흔적을 비교하여 통찰, 즉 성공과 실패한 문제 시도 간의 차이를 포착하는 추론 전략과 제약 조건에 대한 간결한 자연어 설명을 생성한다. 네 가지 추론 과제에서 CORE가 매개변수 기반(GRPO) 및 비매개변수 기반(GEPA, 에피소드 RAG, MemRL) 방법보다 더 적은 롤아웃으로 더 빠른 성능 향상을 가능하게 함을 보여준다. 또한 고정된 롤아웃 예산 하에서 최소 5개의 학습 샘플만으로도 CORE가 각 기준선과 유사하거나 더 큰 성능 향상을 달성함을 입증한다. 마지막으로, CORE가 비매개변수 기준선보다 훨씬 더 맥락 효율적이며, 학습된 지식을 간결하고 해석 가능한 자연어 통찰로 저장하면서 더 적은 프롬프트 토큰을 필요로 한다는 점을 강조한다. 따라서 본 연구 결과는 성공 및 실패 추론 흔적 간의 대조를 추상적이고 유용한 통찰로 증류하는 것이 가중치 업데이트, 프롬프트 최적화 또는 저장된 추론 흔적의 직접 재사용보다 모델 자기 개선을 위한 더 효율적이고 해석 가능한 경로를 제공할 수 있음을 시사한다.
LLM 평가자를 특정 작업이나 도메인에 맞게 사용자화하는 과정은 종종 여러 평가 기준에 걸쳐 프롬프트를 동시에 최적화하는 것을 수반한다. 텍스트 기울기(textual gradient) 방법은 단일 평가자 기준에 대해 이를 자동화하지만, 자연어 비판(critiques)을 생성할 뿐 수치 벡터는 산출하지 않는다. 따라서 다중 작업 학습의 충돌 해결 도구(PCGrad, MGDA)는 다중 목적 텍스트 기울기 설정에 적용되지 않는다. 우리는 손실, 기울기 및 최적화 LLM이 공유하는 교차 작업 정보의 양을 변화시켜 텍스트 기울기 최적화기의 다섯 가지 분해 모드를 테스트한다. 10개 구성 중 6개에서 최적화가 초기 프롬프트보다 개선되지 않는 것을 관찰한다. 기울기 LLM이 여러 기준을 공동으로 처리할 때 기울기 특이도(specificity)는 59% 감소한다(9.0에서 3.7로). 별도로, 작업별 지침을 단일 프롬프트로 단순 결합하면 Spearman의 rho가 -5.3% 저하되는 것을 관찰한다. 이러한 결과는 두 가지 분리 가능한 실패 모드, 즉 최적화 시점의 기울기 희석(optimization-time gradient dilution)과 추론 시점의 지침 간섭(inference-time instruction interference)을 식별하며, 이는 텍스트 피드백을 사용한 다중 목적 평가자 사용자화를 위한 설계 공간을 함께 제약한다.
추론 모델은 빠르게 발전해 왔지만, 검증 가능한 보상을 통한 강화 학습(RLVR)의 지배적인 방법은 여전히 놀라울 정도로 좁다. 즉, 많은 응답을 샘플링하고 최종 답변의 정확성 여부를 나타내는 단일 비트로 각각에 보상을 부여하는 것이다. 그러나 많은 설정에서 실행 추적, 도구 출력, 전문가 수정 및 모델 자기 평가를 포함한 풍부한 피드백이 제공된다. 본 연구에서는 고전적 모방 학습 알고리즘인 DAgger의 분포적 변형을 통해 이러한 피드백을 활용하는 방법을 연구한다. 여기서 학습자는 현재 정책이 방문한 상태에 대한 전문가 분포에 국소적으로 접근할 수 있다. 이는 블랙박스 전문가를 수용하는 단순한 순방향 교차 엔트로피 목적 함수를 생성하며, 이 목적 함수의 시퀀스 수준 그래디언트는 미래의 전문가-학생 불일치를 초기 결정으로 전파하여 풍부한 신용 할당을 수행한다. 우리는 역방향 KL 또는 Jensen-Shannon에 기반한 자기 증류 목적 함수를 사용한 사전 강화 학습이 단조 정책 개선을 보장하지 못함을 보여준다. 즉, 전문가가 더 높은 보상을 가지더라도 업데이트가 더 나쁜 행동에 대한 확률을 증가시킬 수 있다. 반대로, 순방향 교차 엔트로피가 단조 정책 개선을 허용하고 후회에 대한 보장을 제공함을 보여준다. 더 나아가 우리의 목적 함수가 교사 가중 성공 가능도의 하한을 최적화하여 Pass@N을 향상시킴을 보여준다. 실험적으로, 우리의 접근 방식인 DistIL은 과학적 추론, 코딩, 어려운 수학 문제 해결 등 다양한 영역에서 RLVR 및 자기 증류 기반 강화 학습 기준선보다 성능이 향상됨을 보여준다.
추론 모델은 증류 비용이 높고 학생 모델의 장황한 출력을 유도하는 긴 사고 사슬 추적을 생성합니다. 우리는 지식 증류 전에 이러한 추적의 사후 압축을 연구합니다. 두 교사 모델(Qwen3.5-397B-A17B 및 gpt-oss-120B)이 각각 약 283k개의 올바른 추적을 생성하고, 두 개의 명령어 튜닝 모델이 이를 원본 문자 길이의 8.6~21.0%로 압축합니다. 48회 실행의 주요 그리드와 7개의 Qwen 교사 절단 제거 실험 전반에 걸쳐, 압축된 추적은 훈련 토큰을 원본 대비 12~30%로 줄이고, 훈련 속도를 2.0~7.6배 가속화하며, 추론 출력을 3~19배 단축시키며, 더 짧은 gpt-oss 교사에서는 감소 폭이 더 작습니다. 그러나 원본 추적은 모든 규모와 두 교사에 대해 가장 높은 하위 작업 정확도를 유지합니다. 길이 일치 원본 추적 절단 제거 실험은 압축이 단순히 더 작은 토큰 예산의 이점을 얻는 것이 아님을 보여줍니다. 모델 압축 추적은 일반적으로 특히 더 작은 학생 모델에서 단순 절단을 능가하거나 일치하며, 더 짧은 추론 출력을 유지합니다. 전반적으로, 추론 추적 압축은 무료 개선이 아닌 정확도-효율 트레이드오프를 제공합니다. 학생 모델은 원본 추적 정확도의 최대 96%를 유지하면서 토큰당 효율성이 최대 18배 향상되며, 0.8B 규모에서 LoRA 하에서는 압축된 추적이 원본 대비 압축 간 격차를 줄이지만 원본을 초과하지는 않습니다.
에이전트 언어 모델 시스템은 구조적으로 구별되는 두 가지 단계 유형, 즉 구조화된 도구 호출(짧고, 결정론적이며, 낮은 퍼플렉시티)과 개방형 계획/추론 단계(길고, 복잡하며, 높은 퍼플렉시티)를 번갈아 수행한다. 이러한 이질성에도 불구하고, 현재의 추론 시스템은 모든 단계에 동일한 연산량을 적용한다. 본 논문에서는 입력별로 트랜스포머 블록을 선택적으로 건너뛰는 방법을 학습하는 경량 어댑터인 LayerRoute를 제안한다. LayerRoute는 Qwen2.5-0.5B-Instruct의 24개 트랜스포머 블록 각각에 다음 두 가지를 추가한다: (1) 직통 추정기를 통해 하드 이진 게이트를 출력하는 레이어별 라우터(약 897개 매개변수, Linear(896,1)), (2) Q/K/V/O 어텐션 투영에 적용되는 LoRA 어댑터(랭크 8, 약 108만 개 매개변수). 백본 가중치는 고정된 상태로 유지된다. 에이전트 데이터(Hermes, Glaive, GSM8K, Turing)에 대한 단일 종단 간 훈련 패스에 게이트 정규화 항을 추가함으로써 시스템이 입력 유형별로 건너뛸 수 있는 블록을 발견하도록 강제한다. 3,000스텝(A100 40GB에서 6.4분) 후, LayerRoute는 12.91%의 스킵 차이를 달성한다: 도구 호출은 FLOPs의 15.25%를 건너뛰는 반면, 계획 단계는 2.34%만 건너뛰며, 110만 개의 학습 가능 매개변수(4억 9400만 개의 백본 중 0.22%)만을 사용한다. LoRA 적응으로 인해 기본 모델 대비 품질이 향상되었으며, 도구 호출과 계획 단계에서 각각 -1.29와 -1.30의 퍼플렉시티 델타를 보인다.
최근 대규모 언어 모델(LLM)이 여론 시뮬레이션을 위한 합성 에이전트로 채택되어, 비용이 많이 들고 속도가 느린 인간 설문 조사에 대한 유망한 대안을 제공하고 있다. 확장성에도 불구하고, 현재의 LLM 기반 시뮬레이션 방법은 사회적 다양성을 포착하지 못하여 인구통계학적 집단 간 차이가 평면화되고 지나치게 동질적인 응답을 생성한다. 우리는 이러한 한계를 LLM 은닉 표현에서의 다양성 붕괴 현상으로 식별하며, 이는 뚜렷한 사회적 정체성이 계층을 거치면서 점차 구분 불가능해지는 현상이다. 이러한 관찰에 착안하여, 우리는 모수적 사회 정체성 주입(PSII)이라는 일반 프레임워크를 제안한다. 이는 인구통계학적 속성과 가치 지향성에 대한 명시적이고 모수적인 표현을 LLM의 중간 은닉 상태에 직접 주입한다. 프롬프트 기반 페르소나 조건화와 달리, PSII는 표현 수준에서 세밀하고 통제 가능한 정체성 조절을 가능하게 한다. 여러 오픈소스 LLM을 사용한 세계가치관조사에 대한 광범위한 실험 결과, PSII가 분포적 충실도와 다양성을 크게 향상시켜 실제 설문 데이터에 대한 KL 발산을 줄이면서 전반적인 다양성을 높이는 것으로 나타났다. 이 연구는 LLM 에이전트의 표현 수준 제어에 대한 새로운 통찰력을 제공하며, 확장 가능하고 다양성을 고려한 여론 시뮬레이션을 발전시킨다.
자동 음성 인식(ASR)은 인간-컴퓨터 상호작용의 핵심 구성 요소이며, LLM 기반 어시스턴트 및 에이전트를 위한 점점 더 중요한 프론트엔드입니다. 그러나 현재 대부분의 ASR 시스템은 여전히 단일 패스(single-pass) 패러다임을 따르고 있어, 반복적인 명확화 및 정제를 통해 오해를 해결하는 인간의 의사소통 방식과 잘 맞지 않습니다. 이러한 불일치로 인해 의미에 치명적인 오류가 발생했을 때 이를 수정하기 어렵습니다. 한편, WER이나 CER과 같은 토큰 수준 지표는 이러한 문제를 적절히 반영하지 못합니다. 이러한 한계를 해결하기 위해, 본 연구에서는 대화형 ASR(Interactive ASR)을 다중 턴 정제(multi-turn refinement) 작업으로 정식화하고, 단일 패스 ASR 프론트엔드와 의미 보정, 의도 라우팅, 추론 기반 편집을 결합한 폐루프(closed-loop) 프레임워크인 Agentic ASR을 제안합니다. 또한 확장 가능하고 재현 가능한 벤치마킹을 위한 대화형 시뮬레이션 시스템과 함께 LLM 기반 의미 평가 지표인 문장 수준 의미 오류율(Sentence-level Semantic Error Rate, S²ER)을 소개합니다. 다국어, 개체명 집약적, 코드 스위칭 벤치마크에 대한 실험 결과, 반복적인 상호작용이 의미 오류를 일관되게 줄이며, 기존 토큰 수준 지표에 비해 S²ER에서 훨씬 더 큰 개선을 보여줍니다. 인간-AI 정렬 및 절제 연구(ablation study)는 의미 판단자의 신뢰성과 제안된 프레임워크의 견고성을 추가로 검증합니다. 코드는 https://interactiveasr.github.io/ 에서, 라이브 데모는 https://i-asr.sjtuxlance.com/ 에서 확인할 수 있습니다.
증류(distillation) 공격은 모델 제공자에게 배포 상의 트레이드오프를 만든다: 모델을 더 유용하게 만드는 동일한 출력이 모방을 더 쉽게 만들 수도 있다. 우리는 효용이 제한된 교사(teacher)와 적응적 학생(adaptive student) 간의 미니맥스 게임(minimax game)을 통해 이 트레이드오프를 연구한다. 우리의 프레임워크는 다루기 쉬운 일방적 응답 규칙(one-sided response rules)을 제공한다: 학생이 고가치 예제를 재가중하는 적응적 평가 규칙(adaptive evaluation rule)과, 증류에 가장 유용한 출력을 억제하는 교사 측 방어 템플릿(teacher-side defense template)이다. 예제 가치에 대한 저비용 프록시(cheap proxy)로부터, 생성 중에 교사와 프록시 학생을 결합하는 단순한 순방향 전용 방어(forward-pass-only defense)인 전문가 곱(Product-of-Experts, PoE)을 도출한다. 실증적으로, 적응적 평가는 큰 수동-적응 간극(passive-adaptive gap)을 드러낸다: 최첨단 방어에서 적응적 학생은 GSM8K와 MATH에서 수동 평가가 시사하는 것보다 훨씬 더 많은 능력을 복원한다. 이 더 강력한 평가 하에서, 고비용 방어와 PoE 사이의 명백한 강건성 격차는 상당히 좁혀지며, PoE는 훨씬 더 저렴하고 더 높은 품질의 추론 흔적(reasoning traces)을 보존한다. 전반적으로, 우리의 결과는 강력한 증류를 막는 것이 여전히 어렵고, 반증류(antidistillation)의 진전은 수동 학생이 아닌 적응적 학생을 기준으로 판단되어야 함을 시사한다. 우리의 코드는 다음에서 확인할 수 있다: https://github.com/ysfalh/distillation-game.
StreamForce는 연속적인 힘 입력을 통해 물리적 기반 제어가 가능한 스트리밍 비디오 생성 프레임워크를 소개합니다. 기존 비디오 모델이 힘 유형별로 별도의 모델을 학습시키거나, 고정된 힘을 가정하거나, 비인과적 처리에 의존하는 것과 달리, StreamForce는 인과적이고 통합된 모델로서 국소적 및 전역적 시간에 따라 변화하는 힘에 즉각적이고 일관되게 반응합니다. 이를 위해 통합된 힘 표현을 제어 신호로 설계하고, 힘 제어 가능한 비디오 생성을 위한 증류 파이프라인을 개발합니다. 본 모델은 자기회귀 효율성과 힘 반응성을 결합하여 안정적인 광도 및 동적 사실성을 유지합니다. StreamForce는 단일 GPU에서 최대 16.6 FPS로 실행되며, 힘 준수 및 움직임 사실성 모두에서 최첨단 성능을 달성합니다. 프로젝트 웹사이트: https://neu-vi.github.io/StreamForce/
고밀도 검색(덴스 검색)을 위한 하드 네거티브 소스 선택은 일반적으로 미세 조정과 다운스트림 평가 후에만 결정된다. 본 논문에서는 효과적 대조 정보(ECI)의 의미 잔차 변종인 ECI_{sem}을 제안하며, 이는 고정된 타겟 인코더 임베딩을 사용하여 후보 네거티브 소스의 순위를 매긴다. ECI_{sem}은 학습이 필요 없지만, 레이블이 필요 없는 것은 아니다. 즉, 각 점수가 매겨진 예제는 쿼리, 레이블이 지정된 긍정 예제, 그리고 명시적인 후보 네거티브를 필요로 한다. ECI_{sem}은 타겟 일관성, 의미적 지역성, 어휘 잔차성, 그리고 로그 행렬식 다양성 목적 함수로부터 가중 잔차 정보 행렬을 구축한다. MS MARCO 네거티브 소스에 대해, 패밀리 내 ECI_{sem}은 비하이브리드 소스 중에서는 LLM 네거티브를 가장 높게, 하이브리드 소스 중에서는 Dense+LLM을 가장 높게 순위 매기며, DistilBERT, E5-base, Contriever에 걸쳐 가장 강력한 집계 BEIR 전이 결과와 일치한다. 통제된 절제 실험은 이러한 정렬이 타겟 인코더 패밀리를 사용하는 데 의존함을 보여주며, 추가 절제 실험은 샘플 크기, 온도, 토크나이저, IDF 코퍼스 변동에 대한 안정성을 보여준다. 이론은 손실 감소에 대한 국소 선형화 연결을 제공하는 반면, 경험적 연구는 다운스트림 평가를 최종 테스트로 간주한다.
개발자들은 점점 더 ChatGPT, Copilot, Claude와 같은 AI 도구를 일상적인 소프트웨어 워크플로우에서 사용하고 있지만, 기존 연구들은 종종 LLM 출력물을 단독으로 평가할 뿐, 실제 프로젝트에서 개발자들이 이를 어떻게 적용하는지는 분석하지 않는다. 본 연구에서는 AI 사용을 명시적으로 언급한 35,361개의 GitHub 코드 주석과 이와 연관된 코드 블록을 분석한다. 먼저 500개의 고유한 주석과 코드 블록을 개방 코딩하여 AI 지원 개발 활동의 분류 체계를 도출한 뒤, 두 개의 LLM 기반 분류기를 사용하여 전체 데이터셋에 주석을 달고 Dawid-Skene 기대값 최대화 방법으로 예측값을 종합한다. 또한 12,996개의 후속 커밋 메시지를 분석하여 AI 지원 코드가 도입된 후 어떻게 진화하는지 살펴보고, 2022년 12월부터 2026년 3월까지의 시간적 추세를 조사한다. 연구 결과에 따르면, 개발자들은 주로 코드 구현을 위해 LLM을 사용하며, 그 다음으로 코드 개선, 디버깅, 문서화, 테스트 순으로 활용한다. 후속 커밋에서는 리팩토링 및 정리, 기능 통합 및 확장, 버그 수정이 빈번하게 발생하여, AI 지원 코드를 적용하는 데 있어 지속적인 인간의 감독이 이루어짐을 시사한다. 시간이 지남에 따라 AI를 언급하는 주석은 직접적인 코드 생성에서 지식 및 개념적 지원과 코드 개선 쪽으로 변화한다. 이러한 결과는 AI 도구가 단순한 코드 생성 도구를 넘어 협력적 지원 메커니즘으로 자리 잡고 있으며, 그 출력물이 개발자에 의해 지속적으로 개선, 확장, 수정되고 있음을 시사한다.
심층 신경망의 강건성은 안전이 중요한 배포 환경에서 필수적이지만, 기존 평가 방법은 대개 공격에 의존적이며 해석 가능성이 부족하다. 본 논문에서는 피셔 정보 행렬(FIM)의 스펙트럼 노름에 기반한 원칙적이고 공격 독립적인 강건성 지표를 제안한다. 이 지표는 입력 섭동에 대한 모델 출력 분포의 최악 민감도를 정량화한다. 이론적으로, 우리는 FIM이 입력 야코비안의 분산과 같음을 규명하고, VGG, ResNet, DenseNet 및 Transformer를 포함한 일반적인 아키텍처에 대한 폐쇄형 스펙트럼 상한을 도출하여 최초의 이론적 강건성 순위를 제공한다. 확장 가능한 평가를 위해, 화이트박스 및 블랙박스 설정을 모두 지원하는 거듭제곱 반복법과 허친슨 기반 추정을 포함한 효율적인 알고리즘을 개발한다. CIFAR, ImageNet 및 의료 영상을 포함한 여러 데이터셋과 다양한 아키텍처에 걸친 광범위한 실험은 제안한 지표와 적대적 취약성 간의 강한 상관관계를 보여준다. 본 프레임워크는 공격 기반 평가를 보완하는 해석 가능한 진단 도구로 기능하며, 아키텍처 민감성에 대한 통찰을 제공하고 더 강건한 모델 설계를 안내한다. 코드는 https://github.com/franz-chang/SRP/ 에서 확인할 수 있다.
우리는 자기회귀 모델(ARLM)을 확산 언어 모델(DLM)로 변환하는 과정을 연구한다. 기존 연구는 처음부터 사전 학습을 진행하는 대신, ARLM의 인과적 어텐션을 양방향 어텐션으로 대체한 후 결과 모델을 DLM 목적 함수로 학습시킨다. 그러나 이러한 접근법은 두 가지 분포 이동을 초래한다. 첫째, 다음 토큰 예측 목적 함수에서 DLM 목적 함수로 전환할 때 ARLM이 학습 과정에서 획득한 지식이 소실될 수 있다. 둘째, 표준 DLM은 학습 손실이 추론 시 신뢰도 기반 디코딩에 의해 생성된 궤적이 아닌 무작위 마스킹된 시퀀스에 대해 정의되므로 학습-추론 불일치가 발생한다. 이러한 두 가지 문제를 해결하기 위해, 우리는 ARLM에서 DLM으로의 변환을 위해 정책 내 증류(OPD)를 사용하는 정책 내 확산 언어 모델(OPDLM)을 도입한다. 구체적으로, OPDLM은 자기-OPD를 통해 학습되며, 학생 모델(양방향 어텐션을 갖춘 ARLM)은 자체 궤적을 생성하고, 교사 모델(원래의 고정된 ARLM)은 해당 궤적에 대한 대상 로짓을 제공하여 지식을 증류한다. OPDLM은 정책 내 방식으로 직접 학습함으로써 DLM의 학습-추론 불일치를 제거하며, 원본 모델로부터의 증류를 통해 ARLM의 지식 보존을 강화한다. 실험 결과, OPDLM은 다양한 작업에서 강력한 성능을 보이면서도 15배에서 7,000배 더 적은 학습 토큰만을 필요로 한다. OPDLM은 DLM 사전 학습의 엄청난 비용을 피하고, DLM 변환을 ARLM 후속 학습의 한 형태로 자리매김한다.
이산적인 시각-언어-행동(VLA) 모델은 일반적으로 이산화된 행동 공간에서 다음 토큰 예측을 통해 행동 생성을 공식화하며, 각 토큰을 이전 맥락에 자기회귀적으로 조건화한다. 효과적이긴 하지만, 이 패러다임은 높은 추론 지연 시간을 초래하고 행동 궤적에 내재된 시간적 구조를 대부분 무시한다. 최근 병렬 디코딩을 도입하여 효율성을 개선하고 더 빠른 추론을 가능하게 하는 연구들이 있지만, 토큰 의존성을 명시적으로 모델링하는 메커니즘이 부족하다. 본 연구에서는 블록 확산을 통합하여 시간적 행동 생성을 가능하게 하는 이산적 토큰 기반 VLA 프레임워크인 TBD-VLA를 제안한다. 행동 시퀀스를 시간적 블록으로 분할하고 각 블록 내에서 마스킹된 이산 확산을 수행하면서, 블록 간에는 자기회귀 생성을 유지한다. 이 설계는 시간적 자기회귀와 병렬 행동 디코딩을 통합하여 강력한 시간적 일관성과 향상된 추론 속도를 모두 달성한다. 또한, 명시적인 시간적 모델링은 시간적 인페인팅을 통해 행동 청크(예: 실시간 청킹)의 비동기적 실행을 가능하게 한다. TBD-VLA는 시뮬레이션 및 실제 로봇 조작 작업 모두에서 기존 VLA 접근법을 크게 능가하며, 빠르고 시간 인식적인 이산 VLA 모델을 위한 확장 가능한 경로를 제공한다. 프로젝트 웹페이지: https://tbd-vla.github.io/
실제 응용 환경에서는 모델이 다양한 상황에서도 안정적으로 작동할 것으로 기대된다. 그러나 기존의 많은 멀티모달 벤치마크는 개방형 시각 입력을 처리하는 데 필요한 시각적 다양성을 포착하지 못한 채 과제 유형만 확장하고 있다. 우리는 Multimodal Large Language Models(MLLM)을 평가하기 위한 도전적이고 시각적으로 다양한 추론 벤치마크인 WorldBench를 제안한다. 우리는 여러 도메인(예: 생물)에 걸친 수천 개의 시각적 개념에 대한 분류 체계를 구축한다. 이 분류 체계를 기반으로 검색 엔진과 기존 데이터셋에서 광범위한 이미지 컬렉션을 선별하여 시각적 세계를 포괄적으로 표현한다. 구조화된 시행착오를 통해 최첨단 MLLM이 답하지 못하는 도전적인 질문을 수동으로 설계한다. 정량적 평가와 인간 평가 모두에서 WorldBench는 기존의 어떤 다양한 벤치마크보다 높은 시각적 다양성을 달성한다. WorldBench에서 15개의 MLLM을 평가한 결과 시각적 이해의 약점이 드러났다. 가장 강력한 모델조차 64.0%의 정확도에 도달하는 반면, 일부 모델은 우연 수준에 간신히 근접하는 성능을 보인다. 우리의 연구가 멀티모달 벤치마크 구축에 있어 시각적 다양성의 중요성을 강조하기를 바란다.
에이전트 검색 시스템은 복잡한 질의를 처리하기 위해 검색 모델과 반복적으로 상호작용한다. 상당한 진전이 있었음에도 불구하고, 에이전트 검색을 위한 검색 최적화는 여전히 어려운 과제로 남아 있으며, 실제 적용 가능성을 제한하는 과도한 공동 학습이나 금본위 주석이 종종 요구된다. 본 논문에서는 추론 과정과 검색 모델 간의 피드백 루프를 추론 및 학습 과정 모두에서 명시적으로 폐쇄하는 프레임워크인 Critic-R을 제안한다. Critic-R은 검색된 증거를 소비한 후 에이전트의 내성적 추론 과정을 평가하여, 검색된 문맥이 다음 추론 단계를 충분히 지원하는지 판단하는 비평 모델을 도입한다. Critic-R은 두 가지 상호 보완적 메커니즘을 갖는다: Critic-R-Zero는 추론 시 질의 정제 루프로, 질의와 검색 명령을 반복적으로 재작성하며, Critic-Embed는 수동 관련성 주석 없이 성공 및 실패 정제 궤적을 자동 감독으로 활용하여 검색 모델을 최적화하는 접근법이다. 우리는 Critic-R을 HotpotQA, 2WikiMultihopQA, MuSiQue, Bamboogle 데이터셋에서 평가한다. 실험 결과는 Critic-R이 검색 품질과 최종 답변 정확도를 모두 유의미하게 향상시킴을 보여준다.
효율적인 추론은 주의 계산과 KV-캐시 접근이 비용을 지배하는 장문맥 언어 모델에 매우 중요하다. 최근 연구인 RAT+는 추론 시점에서 유연한 확장 주의를 가능하게 하는 순환 증강 주의 백본을 도입한다. 본 논문에서는 이 지수적으로 감소하는 메모리가 기존의 쿼리 인식 희소 추론 방법을 개선할 수 있는지 조사한다. Quest, MoBA, SnapKV를 포함한 대표적인 방법을 사용하여, RAT+가 8가지 바늘 더미 속 바늘 찾기 과제에서 희소 예산 전반에 걸쳐 표준 주의보다 일관되게 정확도를 향상시킴을 보여준다. 이러한 개선은 RAT+ 논문에서 공개된 체크포인트와, 추가 메모리 모듈로 100억 토큰 동안 사전 학습을 계속한 OLMo2-7B에서 모두 검증한다. 마지막으로, 이 메모리 모듈이 쿼리 인식 희소 추론에 도움이 되는 이유를 설명하는 두 가지 가설을 제시하고 이를 뒷받침하기 위한 목표 실험을 설계한다.
화성(Harmony)은 수학적 음정 관계, 음향적 협화음, 그리고 음악적 관습이 만나는 간결한 기호적 층위이다. 이 보고서는 코드 기호 시퀀스를 음악의 완전한 표현이 아니라, 장르 국소적 화성 모델링을 위한 해석 가능하고 제어 가능한 시계열로 간주한다. 팝-재즈 음악 트랜스포머의 고정된 체크포인트에서 출발하여, 작은 적응 인터페이스가 모델을 블루스, 보사노바, 바흐 코랄, 컨트리, 일렉트로닉, 포크, 펑크, 가스펠, 힙합, R&B/소울, 록의 11개 대상 장르로 얼마나 확장할 수 있는지 평가한다. 주요 평가는 LoRA, IA3, BitFit, 프리픽스 튜닝, 전체 파인튜닝을 11개 장르와 3개 시드(seed)에 걸쳐 비교한 완전한 165개 셀 그리드이다. 다섯 가지 방법 모두 보류된 코드 예측에서 고정된 베이스 모델보다 개선되었으며, 거시적 이득은 +2.89에서 +3.61포인트 범위이다. LoRA와 IA3가 가장 높은 점수를 기록했으나, Holm 및 Benjamini-Hochberg 보정을 적용한 Wilcoxon 검정은 결정적 승자를 지지하지 않는다. 데이터 크기를 일치시킨 대조 실험은 이를 더욱 명확히 한다: 장르를 공통 코퍼스 크기로 하위 샘플링했을 때 IA3가 최상위를 유지하지만, LoRA의 전체 데이터 이점은 사라지고 최하위로 떨어지며, 이는 작은 차이가 부분적으로 데이터에 기인함을 시사한다. 대조 토큰 기준선도 강력하며, 잘못된 장르 어댑터가 종종 고정된 베이스 모델을 능가하는데, 이는 효과의 대부분이 특정 어댑터 계열보다는 재사용 가능한 화성 기반에 대한 경량 조건화(lightweight conditioning)에서 비롯됨을 시사한다. 추가 진단(랭크 스윕, 잘못된 장르 순환, 베이스 체크포인트 제거 실험, 코드 전용 장르 분류, 생성 출력 통계, 실제 곡 평가, 중복 분석)은 제한된 결론을 뒷받침한다: 코드 기호 적응은 장르 국소적 화성 예측을 신뢰성 있게 개선하지만, 코드 기호만으로는 완전한 장르 정체성을 전달하지 못한다. 따라서 이 보고서는 인지된 장르 진정성이나 완전한 음악적 품질에 대한 주장을 피하며, 이는 통제된 청취자 또는 연주자 평가를 필요로 한다.