번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM) 에이전트는 다양한 벤치마크에서 강력한 성능을 달성했지만, 대부분의 평가는 정적 환경을 가정한다. 반면, 실제 배포는 본질적으로 동적이며, 에이전트는 변화하는 환경과 업데이트된 작업 조건에 맞춰 지식, 기술 및 행동을 지속적으로 정렬해야 한다. 이러한 격차를 해소하기 위해, 우리는 터미널, 소프트웨어, 소셜 도메인에 걸쳐 환경 변화를 점진적 업데이트의 연속으로 모델링하는 벤치마크 제품군인 EvoArena를 소개한다. 또한, 메모리 진화를 구조화된 업데이트 이력으로 기록하여 에이전트가 메모리 변화를 통해 환경 진화를 추론할 수 있게 하는 패치 기반 메모리 패러다임인 EvoMem을 제안한다. 실험 결과, 현재 에이전트는 EvoArena에서 평균 39.6%의 정확도를 보이며 어려움을 겪는다. EvoMem은 성능을 일관되게 개선하여 EvoArena에서 평균 1.5% 향상시켰으며, GAIA 및 LoCoMo와 같은 표준 벤치마크에서도 각각 6.1%와 4.8%의 개선을 보였다. 개별 작업을 넘어, EvoMem은 연속된 관련 진화 하위 작업을 완료해야 하는 EvoArena에서 체인 수준 정확도를 3.7% 향상시킨다. 메커니즘 분석은 EvoMem이 메모리 내 증거 포착을 개선하여 완전한 진화 중인 환경 상태의 보존이 더 잘 이루어짐을 시사한다. 우리의 결과는 신뢰할 수 있는 에이전트 배포를 위해 평가와 메모리 모두에서 진화를 모델링하는 것의 중요성을 강조한다.
공간 추론, 즉 객체의 위치, 관계, 3D 공간에서의 움직임을 파악하는 능력은 시각-언어 모델(VLM)에게 여전히 근본적인 도전 과제로 남아 있다. 도구 확장 에이전트는 VLM에 전문 지각 모듈을 추가하여 이 문제를 해결하려 하지만, 그 효과는 해당 도구가 호출되는 행동 인터페이스에 의해 제한된다. 본 연구에서는 이 인터페이스의 설계가 에이전트의 개방형 공간 추론 능력을 어떻게 형성하는지 분석한다. 기존의 공간 에이전트는 중간 결과를 관찰하기 전에 완전한 분석 전략을 확정하는 단일 패스 코드 실행을 사용하거나, 작업별로 분석을 자유롭게 구성하거나 맞춤화하는 데 유연성이 떨어지는 구조화된 도구 호출 인터페이스에 의존한다. 두 설계 모두 개방형의 복잡한 3D/4D 공간 추론에 제한된 유연성만을 제공한다. 이에 본 논문에서는 코드를 행동 인터페이스로 채택하는 학습 없는 공간 추론 프레임워크인 SpatialClaw를 제안한다. SpatialClaw는 입력 프레임과 일련의 인식 및 기하학 기본 요소가 사전 로드된 상태 유지 Python 커널을 유지하여, VLM 기반 에이전트가 모든 이전 출력을 조건으로 단계별로 하나의 실행 가능한 셀을 작성할 수 있게 한다. 이를 통해 에이전트는 인식 결과를 유연하게 구성하고 조작할 수 있으며, 중간 텍스트 및 시각적 관찰과 각 문제의 요구사항에 맞춰 분석을 적응시킬 수 있다. 다양한 정적 및 동적 3D/4D 공간 추론 작업을 포괄하는 20개의 공간 추론 벤치마크에 걸쳐 평가한 결과, SpatialClaw는 평균 정확도 59.9%를 달성하여 최근 공간 에이전트보다 +11.2포인트 높은 성능을 보였으며, 두 모델 패밀리의 6개 VLM 백본에서 벤치마크나 모델별 적응 없이 일관된 성능 향상을 나타냈다.
초장거리 컨텍스트 능력은 최첨단 LLM(대규모 언어 모델)에 필수적인 요소가 되고 있습니다. 에이전트 기반 워크플로, 저장소 규모의 코드 추론, 지속적 메모리 모두 수십만에서 수백만 개의 토큰에 걸쳐 모델이 공동으로 주의를 기울여야 하지만, 소프트맥스 주의의 이차 비용으로 인해 배포 규모에서 이를 실현하기 어렵습니다. 본 논문에서는 그룹화된 질의 주의(GQA)를 기반으로 구축된 블록 단위 희소 주의인 MiniMax Sparse Attention(MSA)을 소개합니다. 경량 인덱스 분기가 키-값 블록을 점수화하고 각 GQA 그룹에 대해 독립적으로 Top-k 하위 집합을 선택하여 그룹별 희소 검색을 가능하게 하면서 효율적인 블록 수준 실행을 유지합니다. 이후 메인 분기는 선택된 블록에 대해서만 정확한 블록 희소 주의를 수행합니다. 단순성과 확장성이라는 원칙을 바탕으로 설계된 MSA는 의도적으로 간소화되어 다양한 GPU에서 효율적으로 배포하기 용이합니다. 희소성을 실제 속도 향상으로 전환하기 위해, 우리는 MSA와 함께 지수 함수 없는 Top-k 선택 및 KV-외부 희소 주의를 사용하여 블록 세분화 접근 하에서 텐서 코어 활용률을 개선하는 GPU 실행 경로를 공동 설계했습니다. 네이티브 멀티모달 학습이 적용된 109B 파라미터 모델에서 MSA는 GQA와 동등한 성능을 보이면서 1M 컨텍스트에서 토큰당 주의 연산을 28.4배 감소시킵니다. 공동 설계된 커널과 함께 MSA는 H800에서 14.2배의 프리필 및 7.6배의 디코딩 벽시계 속도 향상을 달성합니다. 추론 커널은 https://github.com/MiniMax-AI/MSA에서 확인할 수 있으며, MSA로 구동되는 프로덕션 등급의 네이티브 멀티모달 모델은 https://huggingface.co/MiniMaxAI/MiniMax-M3에서 공개적으로 출시되었습니다.
최근 이미지 생성 모델들은 단일 이미지 생성 및 편집에서 인상적인 사실성과 명령 수행 능력을 입증해 왔다. 그러나 구조적 한계로 인해 시각적 내러티브, 가이드라인, 임베디드 조작 등에 중요한 응용을 지닌 인터리브 생성(텍스트-이미지 시퀀스)을 구현할 수 없다. 심지어 최신 오픈소스 통합 멀티모달 모델(UMM)들도 이 측면에서 제한된 성능을 보인다. 본 논문에서는 기존의 모든 이미지 생성기에 인터리브 생성 능력을 부여하도록 설계된 최초의 다중 에이전트 파이프라인인 InterleaveThinker를 소개한다. 구체적으로, 계획 에이전트를 활용하여 이미지-텍스트 입력 시퀀스를 구성하고, 각 단계에서 이미지 생성기에 필요한 실행을 지시한다. 이후 비판 에이전트를 도입하여 생성기의 출력을 평가하고, 계획된 지시사항에서 벗어난 샘플을 식별한 뒤 재생성을 위한 지시사항을 개선한다. 이 파이프라인을 구현하기 위해 Interleave-Planner-SFT-80k와 Interleave-Critic-SFT-112k를 구축하여 형식적 콜드 스타트를 수행한다. 이후 GRPO를 사용하여 생성 궤적 내에서 단계별 지시 수정 능력을 강화하는 Interleave-Critic-RL-13k를 개발한다. 단일 인터리브 생성 궤적은 25회 이상의 생성기 호출을 포함할 수 있기 때문에 전체 궤적을 최적화하는 것은 계산적으로 비실용적이다. 따라서 정확도 보상과 단계별 보상을 제안하여 단일 단계 강화 학습이 전체 생성 궤적을 효과적으로 유도할 수 있도록 한다. 실험 결과, InterleaveThinker는 다양한 이미지 생성기에서 성능을 향상시킨다. 인터리브 생성 벤치마크에서는 Nano Banana 및 GPT-5와 견줄 만한 성능을 달성한다. 놀랍게도, 추론 기반 벤치마크에서도 기본 모델을 크게 향상시킨다. 예를 들어, 4단계 FLUX.2-klein에서 WISE 및 RISE에서 상당한 성능 향상을 관찰했다.
심층 검색 에이전트를 훈련하려면 검색을 통해 충분한 증거가 확보될 때까지 답변을 알 수 없는 검증 가능한 질문이 필요하다. 기존의 합성 방법은 종종 그래프 구조를 풍부하게 하여 겉보기 난이도를 높이지만, 구조적 복잡성만으로는 실제 검색 난이도가 보장되지 않는다. 의도된 검색 과정이 더 쉬운 식별 경로를 통해 붕괴될 수 있기 때문이다. 우리는 이러한 격차를 지름길 인식 난이도 프레임워크로 공식화하고, 네 가지 실행 가능한 지름길 위험(증거 공동 커버리지, 단일 단서 선택성, 노출된 상수, 사전 지식 결합)을 식별한다. 이들의 실제 효과를 진단하기 위해 해결 비용, 정답 도달 시간, 사전 지름길 비율을 포함한 궤적 시그니처를 사용한다. 이 프레임워크에 기반하여 지름길 저항 훈련 데이터 합성 프레임워크인 FORT를 도입한다. FORT는 개체 선택, 증거 그래프 구축, 질문 구성, 적대적 정제 과정에서 지름길 위험을 통제하여 지름길 저항 훈련 데이터를 구축한다. 실험 결과, FORT는 기존의 오픈소스 심층 검색 데이터셋보다 더 긴 사전 답변 검색과 더 적은 지름길 패턴을 유도한다. 결과 궤적을 사용하여 지도 미세 조정(SFT)만으로 FORT-Searcher를 훈련했으며, 이는 까다로운 심층 검색 벤치마크에서 유사 규모의 오픈소스 검색 에이전트 중 최고의 전반적 성능을 달성한다. 관련 자료는 https://github.com/RUCAIBox/FORT-Searcher에서 제공될 예정이다.
멀티모달 대규모 언어 모델(MLLM)은 시각적 이해에서 놀라운 성공을 거두었지만, 실제 환경의 시각적 손상 하에서는 성능이 현저히 저하된다. 기존의 강건성 향상 접근법이 존재하지만, 블랙박스 특징 정렬은 해석 가능성이 부족하고, 화이트박스 텍스트 기반 추론은 손실된 픽셀 수준의 세부 정보를 복원할 수 없다는 한계가 있다. 본 연구는 근본적인 연구 질문을 탐구한다: MLLM이 스스로 손상된 시각적 콘텐츠를 복구할 수 있는가? 이에 답하기 위해, 우리는 Robust-U1이라는 새로운 프레임워크를 제안한다. 이는 MLLM에 명시적인 시각적 자기 회복 능력을 부여하여 강건한 이해를 가능하게 한다. 접근법은 세 가지 핵심 단계로 구성된다: 초기 복원을 위한 지도 미세 조정, 높은 시각적 품질 정렬을 위한 이중 보상(픽셀 수준의 SSIM 및 의미 수준의 CLIP 유사도)을 활용한 강화 학습, 그리고 손상된 입력과 복구된 이미지를 함께 고려하는 멀티모달 추론이다. 광범위한 실험을 통해 Robust-U1은 실제 환경 손상 벤치마크에서 최첨단 강건성을 달성하고, 일반 VQA 벤치마크에서 적대적 손상 하에서도 우수한 성능을 유지함을 입증한다. 분석 결과, 고품질의 시각적 복구가 추론 성능을 직접적으로 향상시키며, 자기 회복이 강건한 시각적 이해를 위한 핵심 메커니즘임을 확인하였다. 소스 코드는 https://github.com/jqtangust/Robust-U1에서 공개된다.
본 논문에서는 경쟁 수준의 수학적 증명을 위한 집단 수준 테스트 시간 스케일링 프레임워크인 MaxProof를 MiniMax-M3 시리즈에서 제시한다. M3는 먼저 증명 생성, 증명 검증, 비평 기반 증명 수정이라는 세 가지 증명 중심 능력을 훈련하며, 낮은 거짓 양성률을 위해 설계된 심층 방어 생성형 검증기(verifier)를 활용한다. 이러한 능력들은 단일 공개 M3 모델로 통합된다. 테스트 시점에서 MaxProof는 모델을 생성기, 검증기, 정제기, 순위 매기기 도구로 취급하며, 후보 증명 집단을 탐색하고 토너먼트 선택을 통해 최종 증명 하나를 반환한다. MaxProof 테스트 시간 스케일링을 통해 M3 모델은 IMO 2025에서 35/42, USAMO 2026에서 36/42에 도달하여 두 대회 모두 인간 금메달 기준을 초과한다.
컴퓨터 사용 에이전트(CUA)는 점차 시각적 데스크톱 제어, 명령줄 실행, 코드 편집, 브라우저 및 외부 도구를 결합한 런타임 환경에서 작동하고 있다. 그러나 기존 벤치마크는 이러한 인터페이스를 분리된 기능으로 평가하는 경우가 많아, 장기적 시간 범위에서의 교차 인터페이스 조율(long-horizon cross-interface orchestration)은 충분히 테스트되지 않고 있다. 이에 우리는 실제 사용자 요청과 공개적으로 검증 가능한 산출물에 기반하여, 8개의 실제 작업 영역에 걸친 114개 과제로 구성된 장기적 하이브리드 인터페이스 벤치마크인 WeaveBench를 제안한다. 각 과제는 에이전트가 단일 궤적(trajectory) 내에서 GUI 관찰/행동과 CLI/코드 작업을 결합하도록 요구한다. 우리는 이러한 과제를 최소한의 데스크톱 제어 플러그인으로 보강된 배포된 CLI 에이전트 런타임 환경 내의 실제 Ubuntu 데스크톱에서 평가한다. 또한, 전달물, 파일, 스크린샷, 로그 및 행동 흔적을 검사하고, 조작된 시각적 증거나 하드코딩된 지표와 같은 단축 행동(shortcut behaviors)을 탐지하는 보조 궤적 인식 평가자(trajectory-aware judge)를 제안한다. 최첨단 모델-런타임 조합에서 최고 PassRate는 41.2%에 불과하여, 해당 벤치마크가 아직 포화 상태와는 거리가 멀음을 보여준다. 궤적 인식 평가자는 결과만 평가하는 채점(outcome-only grading)이 에이전트 성능을 상당히 과대평가함을 추가로 밝혀낸다. 종합하면, WeaveBench는 CUA 평가에서의 중요한 격차를 드러내며, 에이전트가 장기적 실제 작업에서 GUI, CLI 및 코드 작업을 조율할 수 있는지 측정하기 위한 효과적인 테스트베드를 제공한다.
과학 연구실은 점차 실험 추론을 위해 AI 시스템에 의존하고 있지만, 과학을 실제로 수행하는 물리적 행위는 여전히 AI의 범위를 크게 벗어나 있다. AI는 문헌 읽기, 가설 생성, 프로토콜 계획 수립을 도울 수 있지만, 실험대에서 해당 프로토콜을 실행하는 데는 여전히 인간 작업자가 필요하다. Vision-Language-Action(VLA) 모델은 문서화된 프로토콜과 로봇 실행 간의 한 가지 가능한 인터페이스를 제공하지만, 기존 정책들은 대부분 가정용 및 탁상형 시연 데이터에 훈련되어 있으며 과학 연구실에서 발견되는 장비, 투명한 액체, 또는 고정된 프로토콜 워크플로우를 거의 접하지 못한다. 이러한 격차를 해소하려면 연구실 특화된 지도 학습과 실험 프로토콜을 실행하는 데 사용되는 다양한 로봇 구현체를 수용할 수 있는 통합 학습 프레임워크가 모두 필요하다. 따라서 우리는 모델 설계와 함께 데이터와 구현체를 핵심 병목 지점으로 식별한다. 데이터 측면을 해결하기 위해, 우리는 RoboGenesis를 구축한다. 이는 시뮬레이션 기반 워크플로우이자 데이터 엔진으로, 구성된 연구실 워크플로우를 원자적 스킬로 조합하고, 롤아웃을 검증 및 필터링하며, 지원되는 로봇 프로파일 전반에 걸쳐 구조화된 시연 데이터를 내보낸다. 정책 측면에서는 LabVLA를 제시한다. 이는 2단계 훈련 레시피로 훈련된다. 먼저 FAST 행동 토큰 사전 훈련을 통해 연속 제어 학습 전에 Qwen3-VL-4B-Instruct 백본을 행동 인식하도록 만들고, 그 후 흐름 매칭 사후 훈련을 통해 지식 절연 하에 DiT 행동 전문가를 부착한다. LabUtopia 벤치마크에서 LabVLA는 분포 내 및 분포 외 설정 모두에서 평가된 모든 기준 모델 중 가장 높은 평균 성공률을 달성한다.
전체론적 시각 토크나이저는 다양한 시각 입력을 통합된 표현 공간으로 매핑함으로써 통합 멀티모달 모델(UMM)의 핵심을 이룬다. 본 논문에서는 단일 Vision Transformer(ViT) 내에서 이미지와 비디오 토큰화를 통합한 최초의 UMM인 HYDRA-X를 제시한다. 우리의 설계는 두 가지 핵심 과제, 즉 (1) 네이티브 ViT에 시공간 재구성 능력을 효율적으로 주입하는 것과, (2) 잠재 공간에 이미지 및 비디오 수준의 의미 인식을 내장하는 것에 의해 추진된다. 첫 번째 과제를 해결하기 위해 포괄적인 절제 실험을 통해 두 가지 주요 발견을 확인하였다: (1) 프레임 수준의 인과적 시간적 어텐션만으로도 시각 재구성이 충분하며, 전체 시공간 어텐션은 오히려 이를 저하시킨다는 점, (2) 계층적 시간적 압축이 단일 단계 대안보다 현저히 우수하다는 점이다. 두 번째 과제를 해결하기 위해, 공동 이미지-비디오 교사 감독 하에 시간적으로 압축된 특징을 업샘플링하는 경량 압축 해제기를 제안하며, 이를 통해 컴팩트한 잠재 공간 내에서 상호 보완적인 의미 구조를 강제한다. 이 포괄적 토크나이저를 기반으로, 편집 파이프라인의 원칙적인 개선을 추가로 제안한다: 소스-타겟 상호작용은 LLM 내부의 의미 수준이 아닌 토크나이저 내부의 잠재 수준에서 이루어져야 하며, 이는 편집 일관성을 크게 향상시키고 수렴을 가속화한다. 7B 밀집 모델로 구현된 HYDRA-X는 이미지 및 비디오 이해와 생성 작업 전반에서 강력한 성능을 달성하며, 향후 통합 토크나이저 기반 UMM의 길을 닦는다.
대규모 언어 모델의 수학적 추론 성공은 롤아웃 단계에서 다양하고 타당한 해결 경로를 생성하는 데 크게 의존합니다. 그러나 현재의 롤아웃 기술은 근본적인 상충 관계에 직면해 있습니다. 토큰 수준 샘플링은 표현 방식만 다를 뿐 중복된 궤적을 자주 생성하는 반면, 임의 노이즈를 활용하는 임베딩 수준 방법은 종종 의미적 일관성을 저해합니다. 이를 해결하기 위해, 우리는 그룹 상대 정책 최적화(GRPO) 프레임워크에 통합된 새로운 탐색 전략인 N-GRPO를 소개합니다. 우리의 접근 방식은 토큰 수준 샘플링이나 고유한 임베딩 수준 노이즈에 의존하는 대신 의미적 이웃 혼합(Semantic Neighbor Mixing)을 활용합니다. 이 메커니즘은 앵커 토큰과 그와 가장 가까운 의미적 이웃의 임베딩을 혼합하여 입력 표현을 동적으로 구축함으로써, 로컬 의미적 다양체를 엄격히 준수하면서 다양성을 주입합니다. 다양한 크기의 DeepSeek-R1-Distill-Qwen 모델에 대한 실험 평가 결과, N-GRPO는 수학 추론 벤치마크에서 강력한 기준 모델 대비 일관된 성능 향상을 보일 뿐만 아니라, 분포 외 과제에서도 강력한 일반화 능력을 입증합니다.
LLM 기반 에이전트는 과학적 발견 자동화에서 증가하는 잠재력을 보여주고 있다. 최적화 가능한 지표와 실행 환경이 주어지면, 이들은 과학적 해결책을 제안, 검증 및 반복할 수 있으며, 인간이 설계한 접근 방식을 능가하는 결과를 생성해 왔다. 모델 성능이 지속적으로 향상됨에 따라, 우리는 자율적 과학 발견의 병목 현상이 에이전트 워크플로우 처방에서 에이전트 환경 설계, 즉 에이전트 행동을 형성하는 자원, 제약 조건 및 인터페이스로 이동하고 있다고 주장한다. 우리는 이를 환경 공학(environment engineering)이라고 정의한다: 개방형 탐색, 체계적 아티팩트 관리, 에이전트 간 협업과 같은 생산적 행동을 증폭시키고, 보상 해킹 및 마찰이 큰 인간 감독과 같은 유해한 행동을 억제하는 환경을 구축하는 것이다. 우리는 지표 기반 자율 과학 발견을 위한 환경 공학 기반 에이전트 시스템인 EurekAgent를 제시한다. EurekAgent는 네 가지 차원에서 환경을 공학적으로 설계한다: 제한된 에이전트 실행과 격리된 평가를 위한 권한 공학; 파일시스템 및 Git 기반 협업을 위한 아티팩트 공학; 예산 인식 탐색을 위한 예산 공학; 쉬운 인간 감독 및 개입을 위한 인간-루프 공학. EurekAgent는 여러 수학, 커널 공학 및 머신러닝 과제에서 새로운 최고 수준의 결과를 달성했으며, 총 API 비용 11달러 미만으로 26개의 원 패킹 결과에서 새로운 최고 수준을 발견했다. 우리는 코드와 결과를 오픈소스로 공개하며, 신뢰할 수 있는 자율 연구 에이전트 개발을 위한 핵심 연구 방향으로 환경 공학을 제안한다.
잠재 사고사슬(latent chain-of-thought)은 가시적 추론 과정을 연속적인 은닉 상태 순환으로 대체하여 추론을 압축하지만, 기존 방식은 표준 온-정책 강화학습(RL)으로 최적화하기 어렵고 인과적으로 해석하기도 까다롭습니다. 본 연구의 핵심 통찰은 단 한 쌍의 명시적 경계 토큰이 이 두 문제를 동시에 해결할 수 있다는 점입니다: 이산적인 진입 및 이탈 앵커는 잠재 블록을 표준 온-정책 RL과 호환되게 하며, 동일한 앵커는 메커니즘 분석을 위한 자연스러운 발판을 제공합니다. 이에 착안하여 본 연구는 전환 가능한 잠재 추론 프레임워크인 SWITCH를 제안합니다. 모델은 <swi>를 출력하여 잠재 모드로 진입하고 </swi>를 출력하여 이탈합니다. 경계가 일반적인 이산 토큰이므로 모든 의사 결정 지점에서 GRPO 정책 비율이 명확히 정의됩니다. 또한 동일한 앙커는 잠재 단계를 직접적인 탐사 및 인과적 개입에 노출시킵니다. 본 연구는 가시적-잠재적 커리큘럼과 순환적 잠재 연산을 통해 그래디언트를 전파하는 Switch-GRPO 목적 함수로 모델을 학습합니다. SWITCH는 유사한 규모의 기존 은닉 상태 순환 잠재 추론 방식보다 일관되게 우수한 성능을 보입니다. 경계 토큰을 통한 메커니즘 분석은 다음 세 가지 발견점을 추가로 제시합니다: (i) <swi>는 문체적 인공물이 아닌 급격히 지역화된 학습된 전환 정책이며, (ii) 이를 통해 열리는 잠재 단계는 비활성 자리채움 역할이 아닌, 문제 특화적이고 인과적으로 중요한 연산을 수행하고, (iii) 해당 연산은 진입 시 단일 은닉 상태 전이에 집중됩니다. 이러한 결과는 은닉 상태 순환 잠재 추론이 RL 학습이 가능할 뿐만 아니라, 온-정책 RL 자체가 모델을 내부적으로 어떻게 개선하는지에 대한 직접적인 메커니즘 분석에도 개방적임을 종합적으로 보여줍니다.
본 논문에서는 단일 시점 영상에서 추출된 정확한 2D 포즈만을 사용하여, 3D 실측 자료 없이 직접 3D 인간 동작 사전을 학습하는 확산 기반 프레임워크인 VideoMDM을 소개한다. 사전 학습된 2D-3D 리프터는 근사적인 3D 포즈 시퀀스를 제공하며, 이는 잡음 교사(noisy teacher) 역할을 한다. 즉, 이 시퀀스에 확산을 적용하고, 모델이 3D에서 잡음을 제거한 후, 예측 결과를 재투영하여 정확한 키포인트와 비교함으로써 2D에서 지도 학습을 수행한다. 약한 가정 하에서 깊이 가중 2D 재투영 손실은 기댓값 측면에서 직접적인 3D 지도 학습과 동등하며, 표준 3D 동작 정규화 기법(속도 일관성 및 과잉 매개변수화된 표현 정렬)을 이 2D 설정에 맞게 조정함을 보인다. 추론 시에만 2D에서 3D로 리프팅하는 방법과 달리, VideoMDM은 학습 과정에서 일관된 3D 동작 다양체(motion manifold)를 학습한다. HumanML3D 데이터셋에서는 완전 3D 지도 학습 기반 MDM과의 성능 격차를 거의 좁혔으며(FID 0.88 대 0.54), 실제 영상 데이터셋인 Fit3D와 NBA에서는 인간이 일관되게 선호하는 동작을 생성하는 방법을 학습하여 강력한 정량적 결과를 보여준다.
점점 더 사실적인 이미지를 생성함에도 불구하고, 텍스트-이미지(T2I) 모델은 여전히 국소적이고 미묘하며 구조적으로 복잡한 실패를 보인다. 이러한 실패를 진단하려면 결함이 어디에서 발생하는지, 어떤 유형인지, 왜 결함인지, 그리고 전체 이미지 품질에 대한 중요도에 답하는 인스턴스 수준의 피드백이 필요하다. 최근의 밀집 피드백 방법은 스칼라 감독을 넘어서지만, 히트맵 중심 표현은 여전히 진단을 픽셀 필드 회귀로 정식화하여 가변 개수 결함을 국소화하고 개별 실패에 의미론적 이유를 결부시키기 어렵게 만든다. 이러한 표현 병목 현상을 해결하기 위해, 우리는 각 결함을 (위치, 유형, 이유, 중요도) 튜플로 모델링하여 T2I 진단을 구조적 집합 예측으로 전환하는 구조적 결함 근거 부여(SDG)를 제안한다. 이 정식화를 훈련 가능하고 측정 가능하게 만들기 위해, 우리는 4개의 최신 T2I 생성기에 걸친 박스 기반 주석이 포함된 30K 이미지 데이터셋인 SDG-30K와 전용 평가 프로토콜인 SDG-Eval을 도입한다. 이러한 구조적 표현을 기반으로, 우리는 시각-언어 모델(VLM)이 SDG 검출기 역할을 하고 BoxFlow-GRPO가 예측된 결함 집합을 박스에서 파생된 중요도 가중 공간 보상으로 변환하여 확산 모델 정렬에 활용하는 진단-정렬 프레임워크를 추가로 제시한다. 광범위한 실험을 통해 우리의 SDG 검출기가 구조적 결함 근거 부여에서 선도적인 독점 VLM보다 뛰어난 성능을 보이며, SDG 기반 보상이 T2I 정렬을 일관되게 개선하고 국소적 이미지 개선을 지원함을 보여준다. 이러한 결과는 SDG를 현대 생성 모델을 진단, 평가 및 개선하기 위한 통합된 인스턴스 수준 인터페이스로 확립한다.
추측 디코딩(SD)은 경량 초안 생성기가 대규모 검증기를 위해 후보들을 병렬로 생성하여 검증하도록 함으로써 대규모 언어 모델(LLM)의 높은 추론 비용을 해결한다. 기존의 초안-검증 방식은 수락 또는 완전 재계산이라는 이진 결정을 사용한다. 그러나 우리는 많은 거부된 토큰들이 전체 검증기 대신, 모델 내 라우팅을 통해 전체 검증기에서 파생된 간소화된 하위 모델에 의해 올바르게 검증될 수 있음을 발견한다. 이는 중간 수준의 검증 자원이 필요한 토큰을 처리하는 간소화 검증기에 대한 동기를 부여하며, 값비싼 대규모 모델 호출을 줄인다. 우리는 모델 내 라우팅을 통한 검증 기반 추측 디코딩(VIA-SD)을 제안한다. 이는 라우팅된 간소화 검증기를 사용하는 다중 계층 프레임워크이다. 초안 토큰은 계층적으로 처리된다: 높은 신뢰도의 경우 직접 수락, 중간 신뢰도의 경우 간소화 검증기 재생성, 불확실한 경우 전체 모델 검증. 네 가지 대표적인 작업과 여러 모델 계열에 걸쳐, VIA-SD는 거부율을 0.10~0.22 감소시키고 강력한 SD 기준선 대비 10~20%의 속도 향상을 제공하며, 초안 없는 디코딩 대비 2.5~3배의 가속을 달성한다. 또한 VIA-SD는 훈련 절차를 수정하지 않고 기존 SD 프레임워크와 호환 가능하다. 우리의 결과는 확장 가능하고 효율적인 LLM 추론을 위한 일반적인 패러다임으로서 다중 계층 SD를 제안한다. 프로젝트 페이지: https://zju-xyc.github.io/VIA-SD-Project-Page/
우리는 MoVerse를 제시한다. 이는 단일 협각 시야 이미지로부터 대화형으로 탐색 가능한 장면을 생성하는 실시간 비디오 월드 모델이다. 이 설정은 입력이 환경의 극히 일부만 관찰하는 반면, 대화형 로밍은 완전한 주변 세계, 지속적인 기하 구조, 제어 가능한 카메라 움직임, 시간적으로 일관된 고충실도 관측을 요구하기 때문에 어렵다. MoVerse는 세계 구축과 관측 렌더링을 분리하여 이 문제를 해결한다. 먼저 위상 인식 확산을 통해 중력 정렬 360° 파노라마로 입력을 확장하여 3D 추론 전에 누락된 시야를 채운다. 그런 다음 파노라마 인식 기하 잔차 예측을 사용하여 파노라마를 지속적인 3D 가우시안 스캐폴드로 변환하여, 조밀하고 직접 렌더링 가능한 공간 메모리를 얻는다. 마지막으로, 가우시안 조건부 비디오 렌더러가 사용자 지정 카메라 궤적을 따라 스캐폴드 렌더링을 사실적인 비디오로 변환한다. 이 렌더러를 상호작용에 실용적으로 만들기 위해, 우리는 고품질 조건부 렌더링을 위한 양방향 확산 교사를 훈련하고, 이를 제한된 지연 시간 스트리밍을 위한 인과적 자기회귀 학생으로 증류한다. 이 설계는 명시적 3D 표현의 제어 가능성과 장거리 일관성을 생성적 비디오 모델의 지각 품질과 결합한다. MoVerse는 단일 NVIDIA RTX 4090 GPU에서 8FPS의 실시간 장면 로밍을 지원하며, 대화형 비디오 출력을 통한 단일 이미지 세계 생성의 실용적인 경로를 보여준다.
멀티모달 이미지 융합은 서로 다른 모달리티의 상호 보완적 정보를 융합된 이미지로 통합하여, 풍부한 지역적 세부 정보를 보존하면서도 전역적으로 일관된 외관을 유지하는 것을 목표로 합니다. 기존 접근법은 2D 특징 그리드 상에 공유 표현을 구축하는데, 이는 지역적 구조를 모델링하는 데 탁월하지만 이미지 수준의 전역 외관 요소를 제어하는 데는 제한적인 능력을 제공합니다. 이러한 목표 간의 균형을 맞추기 위해, 우리는 비지역적 외관/기저 요소를 모델링하기 위해 고정된 사전 학습 이미지 토크나이저를 기반으로 한 간결한 1D 토큰 인터페이스를 도입합니다. 토크나이저를 재구성 백본으로 사용하는 대신, 우리의 설계는 1D 토큰 공간을 전역 전달체로 사용하면서 지역 구조 복원을 위해 2D 공간 경로를 유지합니다. 구체적으로, 우리는 선택적 토큰 편집(STE)을 도입합니다. 이는 소수의 중요한 토큰만을 희소하게 업데이트/교체하여, 융합 백본을 변경하지 않고 추가 손실을 피하면서 전역 외관 일관성을 조정하는 경량 메커니즘을 제공합니다. 네 가지 일반적으로 사용되는 벤치마크에 대한 실험 결과, 우리의 방법이 전역 일관성과 지역 충실도 모두에서 일관된 다중 지표 개선을 보이며 최고의 전반적 성능을 달성함을 보여줍니다. 프로젝트 페이지: https://zju-xyc.github.io/1D-Fusion-Project-Page/
심층 검색에서는 에이전트가 다단계 웹 검색, 브라우징, 증거 비교 및 종합을 통해 복잡한 질문에 답변해야 한다. 핵심적인 과제는 여러 방향이 그럴듯해 보이지만 일부만이 추후 신뢰할 수 있는 증거로 이어질 때 검색 방법을 결정하는 것이다. 에이전트가 현재 가장 좋아 보이는 방향을 탐욕적으로 추구하면 취약한 연속성을 계속 확장할 수 있다. 규율 없이 탐색하면 예산을 단절된 시행에 낭비할 수 있다. 우리는 심층 검색에서 통제된 시행착오를 위한 추론 시간 프레임워크인 TreeSeeker를 제안한다. TreeSeeker는 검색을 트리 구조 상태에 대한 분기 및 회귀 검색으로 구성하며, 각 분기는 하위 목표에 대한 잠정적 방향이다. 각 라운드에서 TreeSearch는 모든 하위 목표 트리를 읽고 활성 목표를 식별하며, 가치, 불확실성 및 위험에 대한 텍스트 UCB 신호를 사용하여 유망한 분기 활용, 불확실한 대안 탐색, 또는 비생산적인 연속성 가지치기 및 이전 분기점으로 회귀 중에서 선택한다. TreeMem은 증거, 불확실성, 충돌, 진행 상황 및 실패 신호를 이를 생성한 분기에 첨부함으로써 이 제어 루프를 지원하므로, 시행 결과가 이후 결정을 안내할 수 있다. XBench-DeepSearch, BrowseComp 및 BrowseComp-ZH에 대한 실험은 TreeSeeker가 강력한 오픈소스 베이스라인보다 일관되게 우수한 성능을 보여주며, 명시적 분기 및 회귀 제어가 더 강력한 추론 및 도구 실행을 보완함을 시사한다.
대규모 언어 모델(LLM)의 적대적 강건성 평가는 일반적으로 고정된 쿼리 예산 하에서 공격 성공률(ASR)을 보고하며, 모든 공격이 동일한 비용을 소모한다고 암묵적으로 가정한다. 실제로 서로 다른 공격 전략의 계산 비용은 수 배에서 수십 배까지 차이가 날 수 있다. 따라서 고정된 예산에서의 ASR은 모델을 탈옥(jailbreak)하는 데 필요한 실제 노력을 모호하게 만들어, 공격자가 특정 공격의 비용이 그 효과를 정당화하는지 판단하기 어렵게 만든다. 본 연구에서는 적대적 노력의 대리 지표로 누적 부동 소수점 연산(FLOPs)으로 측정된 계산 압력(computational pressure)에 기반한 계산 인식 평가 프레임워크를 제안한다. 계산 예산을 공격 위험에 매핑하는 위험-연산 곡선(risk-compute curve)을 도입하고, 주어진 공격이 성공하는 데 필요한 평균 압력을 요약하는 두 가지 지표를 도출한다. 세 가지 공격 전략(구배 기반, 반복 정제, 템플릿 기반)을 사용하여 언어 모델 훈련 및 정렬의 네 가지 서로 다른 단계에 걸친 세 가지 계열의 열 가지 모델을 두 가지 탈옥 강건성 벤치마크에서 평가한 결과, 다음과 같은 사실을 발견했다: (1) 정렬 훈련은 계산 공간 강건성에 비단조적 효과를 미친다; (2) 모델 크기를 확장하면 구배 기반 공격의 효과는 감소하지만, 비용이 저렴한 템플릿 기반 공격에는 제한적인 영향을 미친다; (3) 대리 모델(surrogate model)에서 최적화된 구배 기반 공격은 별도의 대상 모델로 전이될 수 있어 공격자의 비용 절감 수단을 제공한다; (4) 단일 모델 내에서도 위해 범주(harm category) 간 계산 비용이 최대 약 5배까지 차이 난다; (5) 안전 정렬 RL(safety-aligned RL)은 전체 비용을 증가시키지만 일부 범주는 불균형적으로 접근하기 쉬운 상태로 남겨둔다. 계산 인식 위험 평가 및 평가를 가능하게 하기 위해 본 프레임워크를 공개한다.
소단계 확산 증류 기술이 4-8단계 생성을 위한 분야에서 점차 성숙해졌으나, 2단계로 더욱 축소하는 것은 여전히 난제로 남아 있다. 본 연구에서는 8단계 Z-Image Turbo 교사 모델로부터 증류된 고품질 2단계 이미지 생성 모델인 Z-Image Turbo++를 소개한다. 제안하는 방법은 작업 난이도 증가와 제한된 모델 용량이라는 2단계 생성의 핵심 병목 현상을 해결하기 위해, 이 영역에 특화된 세 가지 단순하면서도 효과적인 설계 선택을 도입한다. 첫째, 분포 정렬 적대 학습을 제안하여 외부 실제 이미지 대신 교사 모델이 생성한 이미지를 GAN 학습의 실제 샘플로 사용함으로써, 보다 달성 가능하고 유용한 적대적 목표를 제공한다. 둘째, 단계 분리 매개변수화를 채택하여 두 개의 잡음 제거 단계에 독립적인 모델 매개변수를 할당함으로써 각 단계의 상이한 용량 요구 조건을 더 잘 충족시킨다. 셋째, 반복적 정규화를 통한 종단 간 학습을 수행하여 명시적인 단계-1 손실을 통해 의미 있는 중간 생성 결과를 유지하면서, 첫 번째 단계가 최종 이미지 품질로부터 기울기를 전달받을 수 있도록 한다. 이러한 설계들을 종합적으로 적용함으로써 정성적 및 정량적 평가 모두에서 2단계와 8단계 생성 간의 품질 격차를 현저히 좁혔으며, 이는 소단계 생성에서 품질-효율성 트레이드오프를 개선하기 위해 세심하게 설계된 증류 전략의 잠재력을 강조한다.
대규모 언어 모델은 점차 장기적 과제를 수행하는 에이전트로 배치되고 있지만, 그 성능은 모델의 역량과 환경 설계뿐만 아니라 에이전트-환경 상호작용을 중재하는 하네스(harness)에 의해서도 결정된다. 기존 하네스는 대부분 수동으로 설계되어 궤적이 길어지고 상호작용이 더 복잡해짐에 따라 확장이 어렵다. 본 연구에서는 하네스를 종단 간 학습이 가능한 학습 가능한 플러그인 모듈로 생성할 수 있는지 묻고자 한다. 우리는 HarnessBridge를 소개한다. 이는 에이전트-환경 인터페이스를 양방향 투영으로 매개변수화하는 경량의 학습 가능한 하네스 제어기이다. HarnessBridge는 두 가지 양방향 투영을 학습한다: 관찰 투영은 원시 궤적을 의사 결정에 관련된 간결한 상태로 증류하고, 행동 투영은 제안된 행동을 실행 가능한 전이 또는 궤적 기반 거부로 변환한다. 우리는 통합 명령어 튜닝을 통해 하네스 감독 데이터셋에서 HarnessBridge를 훈련한다. Terminal-Bench~2.0 및 SWE-bench Verified에서 HarnessBridge는 강력한 특수 하네스와 일치하거나 능가하면서 토큰 사용량과 궤적 길이를 크게 줄이고, 더 작은 생성기에서 더 큰 상용 모델로 일반화된다.
온-정책 증류(On-policy distillation, OPD)는 더 강력한 교사로부터의 밀집된 토큰별 감독을 활용하여 학생이 자체 궤적에서 학습하는 방식으로, 오프-정책 증류 및 표준 강화 학습보다 우수한 성능을 보이는 경우가 많다. 그러나 그 효과성은 실제로 자주 위반되는 두 가지 가정, 즉 학생과 교사 간의 궤적 수준 정렬과 교사 선호도의 균일한 토큰 수준 신뢰성에 암묵적으로 의존한다는 점을 발견했다. 이에 본 연구에서는 보완적인 두 가지 세분화 수준에서 이진 검증기를 교사에 대한 신뢰 신호로 사용하는 부호 일관성 게이트 온-정책 증류(Sign-Gated On-Policy Distillation, SG-OPD)를 제안한다. 단계적 교사 샘플링은 콜드 스타트 시 검증기가 승인한 교사 롤아웃을 혼합하며, 부호 일관성 게이트는 교사가 검증기-수정 방향에 동의하는 토큰에서는 증류 업데이트를 외삽하고, 동의하지 않는 토큰에서는 내삽한다. 경쟁 수준의 수학적 추론 벤치마크 실험에서 SG-OPD는 표준 OPD를 일관되게 능가하며, 표본별 및 질문별 수준에서 각각 평균 1.98 및 7.50의 향상을 보였다.
시각적 추론은 영역, 속성, 관계에 걸쳐 분포된 증거를 통합해야 하므로, 단일 체인 추론은 조기 지각적 결정과 할루시네이션에 취약해진다. 우리는 단일 정책 다중 에이전트 프레임워크인 Visual Para-Thinker++를 제안하며, 이 프레임워크에서는 하나의 공유 MLLM 정책이 역할 조건화된 메인, 워커, 서머리 에이전트로 인스턴스화된다. 메인 에이전트는 고정된 할당 패턴으로 작업을 분해하고, 워커 에이전트는 컨텍스트 격리 하에 병렬로 추론하며, 서머리 에이전트는 최종 레이블에 대한 다수결 투표 대신 워커의 전체 추론 과정을 조정한다. 공유 정책은 다중 에이전트 능력 주입(Multi-Agent Capability Injection)과 역할 분리 다중 에이전트 최적화(Role-Decoupled Multi-Agent Optimization)를 통해 훈련되며, 이 방법들은 협력 역할 간 그래디언트 충돌을 줄이기 위해 해당 토큰 세그먼트에 역할별 보상과 어드밴티지를 할당한다. 네이티브 추론 엔진은 공유 시각적 접두사와 KV 캐시 재사용을 통해 효율적인 다중 에이전트 롤아웃을 가능하게 한다. V*, CountBench, RefCOCO 계열, HallusionBench 전반에 걸쳐 Visual Para-Thinker++는 단일 궤적 및 추론 시 병렬 기반 모델을 일관되게 능가하며, 특히 할루시네이션에 민감한 시각적 추론에서 두드러진 성능 향상을 보인다.
검색 에이전트(Search Agents) -- 검색 도구로 증강된 대규모 언어 모델 -- 는 미래 지향적인 평가 벤치마크의 필요성을 강화시켰다. BrowseComp와 같은 기존 벤치마크는 정적 지식에 의존하기 때문에 테스트 세트 오염(test-set contamination)과 파라미터 기억(parametric memorization)에 취약하다. 결과적으로 모델은 진정한 검색보다는 사실 회상을 통해 높은 점수를 달성할 수 있으며, 이는 추론 지름길(reasoning shortcuts)을 통해 진정한 브라우징 능력을 모호하게 만든다. 본 논문에서는 실시간 웹 탐색(live-web traversal)을 통해 합성된 400개의 영어 및 400개의 중국어 오염 없는 복잡한 질문으로 구성된 진화형 벤치마크인 EvoBrowseComp를 소개한다. 이러한 질문을 수집하기 위해 우리는 세 가지 에이전트 협업 프레임워크를 설계하였다: (1) 실시간 웹에서 새로운 지식을 검색하여 QA 쌍을 합성하는 QA 합성 에이전트; (2) 검색된 지식을 신뢰성과 인기도 측면에서 필터링하여 파라미터 지름길(parametric shortcuts)을 차단하는 정보 필터링 에이전트; (3) 질문을 추론 그래프(reasoning graphs)로 공식화하여 합성된 QA 쌍의 논리적 중복성과 지름길을 줄이는 고수준 안내 에이전트. 이 프레임워크는 완전 자동 합성을 지원하기 때문에 EvoBrowseComp는 데이터 오염을 방지하고 시간적 신선도를 유지하기 위해 정기적으로 업데이트될 수 있다. 광범위한 실험 결과, 이 벤치마크는 광범위한 수평 검색(horizontal search)을 요구하는 매우 높은 난이도를 확인하였다. 이는 진화하는 세계 지식과 발전하는 에이전트 능력에 보조를 맞추는 자동 업데이트 가능한 고난이도 벤치마킹을 위한 확장 가능한 패러다임을 확립한다.
사전 훈련된 비전 모델과의 표현 정렬(representation alignment)이 최근 확산 트랜스포머(diffusion transformer) 학습을 가속화하는 데 강력한 잠재력을 보여주고 있다. 중간 확산 특징을 자기 지도 비전 인코더에서 추출한 깨끗한 이미지 표현과 정렬함으로써, 기존 방법들은 수렴 속도와 생성 품질을 개선한다. 그러나 이러한 정렬은 중요한 제약을 수반한다: 확산 모델은 시간 단계에 따라 유용한 정보량이 달라지는 잡음이 있는 입력을 다루는 반면, 참조 특징은 깨끗한 이미지에서 추출된다는 점이다. 본 논문에서는 이러한 불일치를 토큰 수준 관점에서 재검토한다. 전체 토큰 표현 정렬 하에서, 정렬 그래디언트 노름(alignment-gradient norm)이 큰 토큰들은 안정적인 공간적 선호도를 보이며, 이는 정렬 목적 함수가 모든 토큰에 균일하게 영향을 미치지 않으며 모델이 완전한 깨끗한 이미지 토큰 집합에 의존하도록 유도할 수 있음을 시사한다. 이 문제를 해결하기 위해, 학습 중 무작위로 샘플링된 토큰 부분집합에 정렬을 적용하는 토큰 부분집합 표현 정렬 방법인 MaskAlign을 제안한다. 다양한 반복에서 서로 다른 토큰 부분집합에 모델을 노출시킴으로써, MaskAlign은 완전한 토큰 집합에 대한 표현 정렬의 의존성을 줄이고 토큰 부분집합 변동 하에서 더 안정적인 정렬 행동을 장려한다. 토큰을 직접 제거함으로써 발생하는 정보 손실을 완화하기 위해, 마스킹 전에 토큰 간 정보를 공유하는 경량의 사전 마스크 토큰 혼합 블록(pre-mask token mixing block)을 추가로 도입한다.
다중모달 대규모 언어 모델(MLLM)은 일반적인 도메인에서 주목할 만한 추론 능력을 보여주었으나, 의료와 같은 특수한 환경, 특히 다국어 및 저자원 시나리오에서는 성능이 여전히 제한적이다. 이러한 격차는 환자들이 종종 토착 인도어로 복잡한 의료 질문을 표현하고 의료 영상과 같은 다중모달 입력에 의존하는 인도 농촌 지역과 같은 곳에서 매우 중요하다. 기존의 영어 중심 MLLM은 이러한 사용 사례를 지원하는 데 어려움을 겪어 AI 기반 의료 지원에 대한 공평한 접근을 제한한다. 이러한 문제를 해결하기 위해 우리는 ArogyaBodha를 소개한다. 이는 8개의 이종 소스로 구축된 대규모 다국어 다중모달 의료 질문-답변 데이터셋으로, 영어와 7대 주요 인도어에 걸쳐 31개의 신체 시스템, 6개의 영상 양식, 21개의 임상 도메인을 포괄한다. 또한 우리는 ArogyaSutra를 제안한다. 이는 도구 기반 추론과 이중 메모리 메커니즘을 통합하여 단계적이고 추론 인식적인 의사 결정을 수행하고, 저장된 행위자-비평가 시뮬레이션 궤적을 증류(distillation)에 활용하는 행위자-비평가 기반 다중 에이전트 프레임워크이다. 실험 결과, 우리의 데이터셋과 프레임워크는 모든 인도어에서 다국어 의료 추론 정확도를 향상시켰으며, 절제 연구(ablation study)를 통해 각 구성 요소의 기여를 검증하였다. 소스 코드와 데이터셋은 다음에서 확인할 수 있다: https://iitp-cse.github.io/ArogyaSutra/
기하는 시점에 불변하므로, 모든 이미지의 집합은 단일 3차원 상태의 중복 부호화에 해당한다. 기존의 순방향 재구성 모델은 이를 활용하지 못한다. 시점별 방법은 겹치고 정렬되지 않은 점 지도를 출력하며 입력 수에 따라 선형적으로 증가하는 반면, 전역 잠재 변수 방법은 고정된 저해상도 출력에 국한된다. 본 논문에서는 Surflo를 제안한다. Surflo는 자세가 주어지지 않은 다양한 수의 RGB 시점을 K개의 잠재 토큰, 즉 하나의 전역 상태로 압축하고, 흐름 정합을 통해 잡음에서 표면으로 독립적으로 점을 운반함으로써 방향성을 가진 3차원 표면 점을 복호화한다. 이는 출력이 고정된 격자나 토큰 예산에 얽매이지 않도록 한다. 동일한 잠재 변수로 단일 순방향 처리에서 수천 개부터 백만 개에 이르는 점을 생성할 수 있다. 독립적인 점별 복호화에 내재된 국소적 불일치를 억제하기 위해, 추론 시 유도 항이 ODE 적분 중에 측광 기울기를 주입하여 인접 점들을 상관시킨다. Surflo는 표면 평가 지표에서 순방향 기준 모델과 동등하거나 능가하며, 수백 개의 시점을 필요로 하는 최적화 기반 방법보다 한 자릿수 빠르게 실행된다. 또한 전역 잠재 변수와 임의 해상도 복호화를 결합한 유일한 순방향 접근법이다.
저비용 심리측정 도구를 통해 대규모 언어 모델(LLM)의 행동 경향성을 예측하는 것은 안전한 배치를 위해 중요하지만, 이는 자기보고(SR)가 행동을 신뢰성 있게 예측할 경우에만 해당된다. 최근 연구에서는 LLM에서 자기보고와 행동 간의 상당한 불일치가 보고되었으나, 이는 인간에게서도 특정 행동을 약하게 예측하는 광범위한 성격 특성(빅5)에 의존했다. 더욱이, 대화 세션의 분리와 약한 맥락 일치는 LLM이 진정으로 일관성을 결여하는지, 아니면 그러한 일관성을 탐지하는 데 필요한 조건이 충족되지 않았는지에 대한 의문을 남겼다. 본 연구는 빅5를 특정 행동을 대상으로 한 의도를 측정하며 인간 행동을 광범위한 성격 특성보다 훨씬 더 잘 예측하는 계획된 행동 이론(TPB)과 비교한다. 4가지 행동 과제와 11개의 최첨단 LLM을 대상으로 실험을 수행하고, 세션 맥락과 정체성 유도 조건도 함께 변화시켰다. 그 결과, 자기보고와 행동 간의 일관성은 존재하지만 선택적임을 발견했다. 1) 동일한 대화 내에서 계획된 행동 이론은 인간 수준의 일관성에 도달하는 반면, 빅5는 그렇지 않다. 2) 별도의 대화 간에는, 훈련을 통해 형성된 암묵적 편향처럼 즉각적인 프롬프트 외부에 기반한 행동에 대해서만 일관성이 유지되며, 아첨 행동처럼 맥락에 의해 강하게 점화된 행동의 경우 일관성이 붕괴된다. 3) 페르소나 프롬프팅은 대화 간 자기보고를 더 일관성 있게 만들지만, 행동을 일치시키지는 않는다. 이러한 발견은 빅5와 같은 거친 성격 프레임워크가 배치 행동을 테스트하기 위한 최상의 도구가 아닐 수 있음을 시사한다. 더 과제 및 행동 특화된 도구가 필요하며, 이러한 도구조차도 다양한 과제와 맥락에서 평가되어야 한다.
로봇 시뮬레이터는 현대 항공 로봇공학 연구의 초석으로, 새로운 제어 알고리즘 개발을 위한 도구이자 강화학습(RL) 정책 훈련을 위한 데이터 소스 역할을 수행합니다. 그러나 기존의 쿼드콥터 학습 환경은 종종 물리적 충실도, 다중 에이전트 지원, 그리고 현대 심층 RL 파이프라인에 요구되는 처리량 사이에서 절충을 강요받습니다. 본 논문에서는 MuJoCo 물리 엔진을 기반으로 구축된 오픈소스 Gymnasium 호환 다중 드론 환경인 MuJoCo-Drones-Gym을 소개합니다. MuJoCo-Drones-Gym은 임의 개수의 Bitcraze Crazyflie 2.x 나노 쿼드콥터를 지원하며, (i) 물리 모델(강체 MuJoCo, 명시적 Python 동역학, 또는 지면 효과, 블레이드 항력, 드론 간 다운워시의 임의 부분 집합), (ii) 행동 인터페이스(모터별 RPM, 집합 정규화 추력, 속도 설정점, 또는 PID 웨이포인트 명령), (iii) 관측 공간(운동학적 상태 벡터, RGB/깊이/분할 카메라, 또는 이웃 인접 정보)을 선택할 수 있는 모듈식 API를 제공합니다. PettingZoo ParallelEnv 래퍼를 통해 드롭인 다중 에이전트 강화학습이 가능하며, 호버링, 속도 추적, 다중 드론 호버링, 웨이포인트 항법, 편대 비행, 게이트 레이싱, 일반 다중 에이전트 템플릿이라는 일곱 가지 과제 환경 모음이 인터페이스의 폭을 입증합니다. 본 논문에서는 환경 설계, 기반 물리 및 쿼드콥터 동역학을 설명하고, 밀접하게 관련된 gym-pybullet-drones 프로젝트의 예제를 반영하면서도 MuJoCo의 향상된 접촉 처리, 렌더링 및 병렬화 가능성을 활용한 제어 및 학습 예시를 통해 그 사용법을 보여줍니다.
경량 언어 모델(LM)은 도구 에이전트의 비용, 지연 시간 및 배포 위험을 줄여준다. 그러나 MCP 스타일의 도구 사용은 단순한 함수 호출 이상을 요구한다. 에이전트는 라이브 카탈로그에서 도구를 발견하고, 스키마를 충족하며, 중간 출력 간의 의존성을 보존하고, 실행된 증거에 기반하여 최종 응답을 근거해야 한다. 소형 플래너는 종종 그럴듯한 워크플로 그래프를 생성하지만, 도구 해석, 매개변수 검증, 의존성 추적 또는 실행 과정에서 실패한다. 우리는 이러한 실패 모드가 소규모 코퍼스 증류(small-corpus distillation)로는 제대로 처리되지 않는다고 주장한다. 수백 개의 교사 궤적(teacher trace)으로 워크플로 형식을 가르칠 수는 있지만, 변화하는 도구 카탈로그에 대해 실패한 계획을 복구하는 데 필요한 복구 동작(recovery behavior)은 거의 다루지 못한다. 우리는 Evoflux를 소개한다. 이는 추론 시간 진화 검색(inference-time evolutionary search) 방법으로, 경량 도구 사용을 실행 가능한 도구 워크플로의 복구로 취급한다. 구조화된 편집, 실행 피드백, 적응형 강도, 메타 유도 재설계, 다양성 가지치기를 통해 유형화된 워크플로 그래프를 진화시킨다. 라이브 MCP 서버와 250개의 도구를 포함하는 독립적인 MCP-Bench 태스크에서 Evoflux는 소형 플래너들의 실행 가능성을 약 3%에서 17~24%로 향상시킨다. 이에 반해, 동일한 검색 기반 데이터에 대해 SFT 및 SFT+DPO는 제로샷 성능과 일치하거나, 저조하거나, 붕괴한다. ReAct는 더 높은 최고점에 도달하지만, 더 높은 분산과 토큰 비용을 보인다. 이러한 결과는 실행 기반 검색이 희소한 교사 궤적 예산 하에서 더 신뢰할 수 있음을 보여준다.
사전 학습된 비전 파운데이션 모델(VFM)을 기반으로 한 표현 오토인코더(RAE)는 최근 이미지 생성을 위한 의미적으로 풍부한 잠재 공간을 구축하는 유망한 접근 방식으로 부상했다. 그러나 이러한 모델의 재구성 품질은 종종 최적에 미치지 못하는데, 이는 주로 깊은 VFM 표현이 충분한 세부 시각 정보를 보존하지 못하기 때문이다. 이러한 한계는 이산화 후에 더욱 심각해지며, 누락된 저수준 정보를 복구하기 어려워진다. 실제로, 우리는 얕은 VFM 특징이 상당히 풍부한 국소적 외관 및 구조적 세부 정보를 유지하여, 기존 RAE에서 사용되는 깊은 특징이 제공하는 고수준 의미 정보를 보완한다는 것을 관찰했다. 이러한 상보적 특성에 착안하여, 우리는 이산 표현 오토인코딩을 위한 심층 정렬 프레임워크인 Ideal을 제안한다. Ideal은 양자화된 토큰을 얕은 VFM 특징과 깊은 VFM 특징 모두에 정렬함으로써, 결과적인 이산 시각 토큰이 시각적 충실도와 풍부한 의미 정보를 동시에 보존할 수 있도록 한다. 광범위한 실험을 통해 Ideal은 ImageNet에서 0.61의 rFID를 달성하여 이전 최고 방법보다 0.28 더 우수한 재구성 성능을 나타냄을 입증했다. 또한 자동회귀 이미지 생성에 사용될 때, Ideal은 1.89의 gFID를 달성하여 자동회귀 이미지 생성 분야에서 새로운 최고 성능을 수립한다.
멀티 에이전트 시스템은 주로 텍스트를 통해 통신하며, 이는 손실이 크고 비용이 많이 드는 디코딩 및 재인코딩 비용을 수반한다. KV-캐시 통신은 유망한 대안이지만, 대부분의 기존 연구는 동일한 모델의 복제본을 사용하는 동질적 환경에 국한되어 있어 교차 모델 잠재 정렬이라는 핵심 과제를 회피한다. 기존의 이질적 방법 역시 제한적이어서, 일반적으로 공유 입력을 가정하고 전달된 캐시를 주로 스티어링(steering) 용도로만 사용한다. 본 연구는 보다 근본적인 질문을 탐구한다. 이질적 에이전트들이 실제 '마인드 리딩'을 수행할 수 있을 만큼 충분히 정렬되어, 한 에이전트가 보는 것과 그 에이전트가 생각하는 방식을 모두 전달할 수 있는가? 우리의 정보 구조 분석은 이중성을 밝혀낸다. 컨텍스트 인식 전송은 희소한 추론 신호에 의해 구동되는 반면, 수신자가 입력을 전혀 보지 못하는 컨텍스트 비인식 전송은 밀집된 컨텍스트 지식 보존을 필요로 한다. 이에 착안하여, 우리는 경량의 교차 모델 캐시 변환과 재구성 후 생성의 2단계 학습을 통해 이질적 KV-캐시 통신을 위한 밀집 정렬 방법을 제안한다. {Qwen3-4B, 8B, 14B}의 여섯 방향 전부와 여섯 개의 도메인 내 및 도메인 외 벤치마크에서, 우리 방법은 기존 이질적 기준선을 능가하며, 컨텍스트 인식 환경에서는 텍스트 통신과 동등하거나 더 나은 성능을 약 2~3배 낮은 계산 비용으로 달성하고, 기존 방법이 붕괴하는 컨텍스트 비인식 전송에서도 효과적으로 작동한다.
대화형 LLM 에이전트는 일상 업무의 일부가 되고 있지만, 시간이 지남에 따라 신뢰할 수 있을 정도로 작업이 쉬워지지는 않는다. 한 세션에서 기억된 수정 사항이 다음 세션에서 여전히 위반될 수 있기 때문이다. 본 연구에서는 선호 접근(preference access)과 선호 준수(preference compliance) 사이의 이러한 격차를 살펴본다. 익명화된 실제 사용자 불편 사례에서 파생된 작업에서 Mem0 메모리는 여전히 적용 가능한 선호 검사 중 57.5%가 위반된 상태로 남아 있다. 우리는 테스트 시간 규칙 획득 및 컴파일된 강제 실행(TRACE)을 도입한다. 이는 코딩 에이전트 런타임을 위한 드롭인(drop-in) 스킬 계층 파이프라인으로, 사용자 수정 사항을 마이닝하고 이를 원자적 규칙으로 재작성한 후, 에이전트가 향후 작업을 완료하기 전에 반드시 통과해야 하는 런타임 검사로 컴파일한다. 개발자가 사전에 작성한 런타임 검사와 달리, TRACE 스킬은 사용자 자신의 채팅 수정 사항에서 비롯된다. 우리는 ClawArena 코딩 에이전트 작업과 MemoryArena에서 파생된 메모리 집약적 작업에 대해 시뮬레이션된 사용자-인-더-루프 실험으로 TRACE를 평가한다. ClawArena에서 TRACE는 보류된 선호 위반을 분포 내 작업에서 100.0%에서 37.6%로, 분포 외 작업에서 100.0%에서 2.0%로 감소시킨다. MemoryArena 파생 작업에서 TRACE는 분포 내 위반을 100.0%에서 60.5%로 줄이면서 작업 통과에서 가장 강력한 메모리 기준선과 동등하거나 더 나은 성능을 보인다. 이러한 결과는 수정 사항을 런타임 강제 실행으로 컴파일하는 것이 메모리 단독으로는 신뢰성 있게 해결하지 못하는 반복적인 마찰 실패 모드를 해결할 수 있음을 시사하며, 사용자가 향후 세션에서 동일한 수정 사항을 반복해야 하는 필요성을 줄여준다. 실험 코드는 https://github.com/YujunZhou/TRACE_exp 에서 확인할 수 있으며, 배포 가능한 스킬은 https://github.com/YujunZhou/tellonce 에서 확인할 수 있다.
세계 모델(WM, 즉 학습된 시뮬레이터)이 로봇공학에 미칠 잠재적 영향은 정책 평가, 정책 개선, 테스트 시점 계획에 이르기까지 광범위하며, 실제 환경과의 상호작용은 제한적이다. 이러한 하위 기능들을 활용하기 위해서는 WM이 세 가지 요구 사항, 즉 (i) 충실도(현실과 상관관계가 있는 시뮬레이션 궤적 생성), (ii) 일관성(장기간에 걸쳐 일관된 시뮬레이션 궤적 생성), (iii) 효율성(빠른 시뮬레이션 궤적 생성)을 동시에 충족해야 한다. 본 논문에서는 WEAVER(World Estimation Across Views for Embodied Reasoning)를 제안한다. 이는 세 가지 요구 사항을 모두 동시에 달성하는 WM 아키텍처로, 로봇 조작 작업에서 최첨단 결과를 제공한다. WEAVER는 흐름 일치 손실(flow-matching loss)을 통해 미래 잠재 변수와 보상 값을 예측하도록 학습된 다중 시점 WM이다. 우리는 기존 세계 모델링 접근법을 어렵게 만들었던 장기 동적 조작 작업을 가능하게 하는 데 필요한 모델 아키텍처, 메모리, 예측 목표에 걸친 핵심 설계 결정을 추출하여 제시한다. WEAVER를 로봇 하드웨어에 적용하여 정책 평가(실제 성공률과의 상관계수 ρ=0.870), 정책 개선(π_{0.5} 로봇 기반 모델 대비 실제 성공률 38% 향상), 테스트 시점 계획(기존 WM 대비 5~10배 속도 향상과 함께 실제 성공률 14% 향상)에서의 효과를 입증한다. 또한 WEAVER는 분포 외 시나리오에서 평가했을 때 기존 WM보다 더 나은 성능을 보여준다. 코드, 모델 및 비디오는 https://arnavkj1995.github.io/WEAVER/ 에서 확인할 수 있다.
표현적 연주 렌더링(EPR)은 음표 시퀀스를 기반으로 사실적인 연주를 생성하는 것을 목표로 한다. 그러나 플로우 매칭 오디오 편집 모델은 동일한 길이의 동기화된 음악 샘플만을 조작하므로 표현적 타이밍에 대한 이해가 제한적이다. 본 연구에서는 사전 학습된 Music2Latent 모델의 잠재 공간에서 가변 길이의 연주를 생성하는 클래식 피아노 음악을 위한 플로우 매칭 렌더링 모델인 PianoKontext를 소개한다. MIDI 악보를 무표정 오디오로 합성하고, 잠재 공간에서 동적 시간 워핑(DTW)을 적용하여 훈련용 쌍데이터를 구축한다. 정렬된 임베딩은 DiT 블록에서 연결되어 악보와 연주 간의 의존성을 간단하면서도 효과적으로 학습할 수 있게 한다. 오디오 샘플은 데모 페이지에서 확인할 수 있다: https://realfolkcode.github.io/pianokontext_demo/.
도구 호출 LLM 에이전트가 대화 전반에 걸쳐 동일한 안전성을 유지하는가? 그렇지 않다는 것을 발견했다. 에이전트는 세션 시작 시 가장 취약하며, 몇 번의 일반적인 에이전트 작업을 수행한 후에는 훨씬 더 안전해진다. 이를 콜드 스타트 안전 격차(cold-start safety gap)라고 명명한다. 이 현상을 체계적으로 연구하기 위해, 에이전트가 안전 위협에 직면하기 전에 완료하는 일반적인 에이전트 작업의 수를 제어하는 벤치마크인 에이전트 안전성 심도 평가(SODA)를 도입한다. 이 벤치마크는 최대 20개의 선행 작업을 지원한다. 4개 계열의 7개 모델을 평가한 결과, 선행 일반 에이전트 작업 수가 0에서 20으로 증가함에 따라 안전성이 9~52% 향상되었다. 표현 분석 결과, 선행 작업이 많을수록 모델의 은닉 상태가 점차 안전 정렬 영역으로 이동하는 것이 확인되었다. 선행 대화 중 어떤 부분이 가장 중요한지를 체계적으로 분석한 결과, 일반적인 에이전트 작업 자체가 안전성의 주요 동인임을 발견했으며, 에이전트의 이전 응답은 안전성에 미치는 영향이 적지만 이후 유용성을 유지하는 데 필수적이다. 이 결론은 오픈소스 안전성 벤치마크(AgentHarm, Agent Safety Bench)와 유용성 벤치마크(BFCL, API-Bank)에 대한 평가를 통해 추가로 뒷받침되며, 배포 전에 일반적인 에이전트 작업으로 에이전트를 워밍업하면 더 안전해지고 전체 기능이 유지된다는 것을 확인한다. 이러한 발견에 기반하여, 간단한 배포 전략을 권장한다: 안전에 중요한 요청에 노출되기 전에 에이전트가 몇 가지 일반적인 에이전트 작업을 완료하도록 하면 콜드 스타트 안전 격차를 완화할 수 있다. 우리의 코드는 https://github.com/Trustworthy-ML-Lab/Agent-Cold-Start-Safety-Gap에서 확인할 수 있다.
대규모 도구 카탈로그를 에이전트로 배포된 대규모 언어 모델은 심각한 도구 검색 병목 현상에 직면한다. 임베딩 기반 검색 접근법은 전문화된 도구 의미를 충분히 포착하지 못할 수 있는 소형 인코더에 의존하기 때문에, 파라메트릭 도구 검색은 각 도구를 LLM 어휘에 추가된 가상 토큰으로 인코딩하고 두 단계(암기 후 검색 SFT)로 미세 조정하여 LLM을 검색기로 사용함으로써 이를 해결하며, 표준 ToolBench 검색 벤치마크에서 강력한 성능을 달성한다. 그러나 이러한 벤치마크는 상세하고 완전히 지정된 쿼리를 사용하며, 평가는 출력을 유효한 토큰 경로로 제한하는 제약 디코딩을 적용하므로 모델이 실제로 도구를 이해하는지 여부를 밝히지 않는다. 우리는 모든 도구 카탈로그를 입력으로 받아 세 가지 벤치마크(세 가지 모호성 수준의 쿼리가 있는 현실적 검색 벤치마크(RRB), 객관식 프로빙 벤치마크, 질의응답 프로빙 벤치마크)를 자동 생성하는 오픈소스 LLM 기반 진단 프레임워크 ToolSense를 소개한다. ToolSense를 ToolBench(약 47,000개 도구)에 적용하고 다섯 가지 파라메트릭 모델 학습 구성을 평가한 결과 지식-검색 분리가 드러났다. RRB 쿼리에서 여러 구성은 완전히 지정된 ToolBench 벤치마크 대비 약 50~64퍼센트 포인트 하락하여 임베딩 모델 기준선 아래로 떨어졌다. 또한 강력한 검색 성능에도 불구하고 일부 모델은 사실 프로빙에서 거의 무작위 수준의 점수를 기록하여 지식-검색 분리를 시사한다. 우리는 ToolSense 프레임워크와 ToolBench 진단 벤치마크를 https://github.com/SAP/toolsense에서 오픈소스로 공개한다.
자율적 웹 탐색은 LLM 에이전트에게 여전히 어려운 과제로 남아 있으며, 가장 강력한 범용 시스템은 독점적 추론 모델에 의존하는데, 이러한 에이전트가 가장 유용하게 사용될 반복적인 작업에는 추론 비용이 prohibitive(부담스러운 수준)이다. 본 논문은 이러한 격차가 충분하지 않은 모델 능력이 아닌, 인간의 세 가지 인지적 이점, 즉 관련 페이지 영역에 대한 선택적 주의, 웹사이트 구조의 지속적 기억, 일반적인 상호작용 패턴에 대한 절차적 유창성을 재현하지 못하는 에이전트 아키텍처에서 비롯된다고 주장한다. 우리는 아키텍처 설계를 통해 각 격차를 해소하는 웹 에이전트 프레임워크인 WebChallenger를 소개한다. 이 프레임워크는 PageMem을 중심으로 구축되었으며, PageMem은 DOM으로부터 결정론적으로 구성된 구조화된 페이지 표현으로, 각 페이지를 짧은 요약과 함께 의미적 섹션의 계층 구조로 노출한다. 이 공유 기반 위에서 우리는 세 가지 인지적 이점을 반영한 세 가지 메커니즘을 구축한다: 에이전트가 섹션 요약을 훑어보고 작업 관련 영역에서만 세부 정보를 추출할 수 있게 하는 분할 정복 관찰 파이프라인; 각 웹사이트를 한 번 탐색하여 페이지와 요소 동작의 재사용 가능한 지도를 구축하는 경량 탐색 및 기억 시스템; 그리고 일반적인 다단계 상호작용을 단일 에이전트 행동으로 축소하고 부분 상태 변화를 자동으로 처리하는 복합 행동 워크플로우이다. 세 메커니즘 모두 PageMem 위에서 작동하기 때문에 프레임워크는 사이트별 어댑터 없이도 웹사이트 간 일반화된다. 미세 조정 없이 기성 오픈웨이트 모델을 사용하여, 우리 시스템은 WebArena에서 56.3%, VisualWebArena에서 48.7%, Online-Mind2Web에서 51.0%, WorkArena에서 70.9%의 성능을 달성하며, 극히 일부의 비용으로 최첨단 독점 시스템에 근접한다. 코드는 https://github.com/jayoohwang1/webchallenger 에 공개되어 있다.
호환 가능한 표현 학습은 모델이 업데이트될 때마다 시간이 지남에 따라 상호 교환적으로 사용할 수 있는 특징 표현을 학습하는 것을 목표로 한다. 본 논문에서는 d-심플렉스 고정 분류기에 의해 학습된 고정 표현이 공식적 정의에서의 호환성을 의미함을 입증한다. 이 결과는 향후 연구를 위한 기반을 마련하며 실제 학습 시나리오에서 직접 활용될 수 있다. 우리는 모델이 순차적으로 미세 조정될 때 d-심플렉스 고정 분류기를 사용하여 호환성을 학습하는 과제를 다룬다. 교차 엔트로피 손실을 사용한 d-심플렉스 고정 분류기 학습은 1차 통계량에서 특징 분포를 정렬한다. 따라서 모델 업데이트 간 표현의 고차 의존성을 완전히 포착하지 못할 수 있다. 이 문제를 해결하기 위해, 교차 엔트로피 손실과 대조 손실의 볼록 결합을 통해 d-심플렉스 고정 분류기를 사용하여 모델을 학습하는 것이 고차 의존성을 포착할 뿐만 아니라 호환성 제약 하에서의 교차 엔트로피 학습과 동등함을 보여준다. 우리는 사전 학습된 모델이 순차적으로 미세 조정되고 때때로 개선된 모델로 대체되는 새로운 시나리오도 고려하여 광범위한 실험을 통해 발견한 내용을 확인한다. 고정 표현이 갤러리 이미지를 재처리하지 않고도 중단 없는 검색 서비스를 가능하게 하면서 모델 업데이트 및 교체 시 성능을 향상시켜 최첨단 성능을 달성함을 보여준다. 코드는 https://github.com/miccunifi/iamcl2r에서 확인할 수 있다.
본 논문에서는 단일 GPU 패스에서 대규모 데이터에 대한 가우시안 혼합 모델(GMM)의 효율적 연산을 위한 융합 트리톤 커널인 Flash-GMM을 제시한다. 전체 책임 행렬을 GPU 메모리에 구체화할 필요를 없앰으로써, Flash-GMM은 기존 구현 대비 20배의 속도 향상을 달성하며, 기존에 한 장치에서 가능했던 것보다 100배 이상 큰 데이터셋에서의 학습을 가능하게 한다. 그 영향력을 입증하기 위해, Flash-GMM을 근사 최근접 이웃(ANN) 검색을 위한 IVF 조대 양자화기에 통합한다. 부드러운 GMM 클러스터링이 이제 k-평균을 대체할 수 있는 실용적인 대안이며, GMM 책임도를 활용하여 경계 벡터를 다중 클러스터에 할당할 수 있음을 보여준다. 본 접근법은 최대 1.7배 적은 거리 연산으로 고정된 재현율 목표에 도달하거나, 동등한 계산 비용에서 2~12포인트의 recall@10 향상을 제공한다. 해당 커널을 오픈소스 프로젝트로 공개한다.
필기체 텍스트 인식의 발전으로 역사 문서의 대규모 전사가 가능해졌지만, 고문자학(역사 필체 연구)을 위한 해석 가능한 시각적 측정치에 대한 접근은 여전히 제한적이다. 본 논문의 주요 통찰은 형태학적 필체 분석, 특히 행 수준 전사로부터 문자 원형을 학습하는 능력이 확장 가능하고 의미 있으며 안정적인 고문자학적 측정치를 정의할 수 있게 한다는 점이다. 보다 구체적으로, 우리는 변압기 기반 검출 아키텍처와 원형 기반 행 재구성 모듈을 활용하여 원형 문자와 그 출현, 변형, 위치를 학습한다. 본 연구의 기여는 두 가지이다. 첫째, 행 수준 전사 지도만으로 효율적인 문자 모델링을 가능하게 하는 심층 아키텍처와 학습 방법론을 도입하여, Learnable Typewriter 기준선 대비 크게 개선하고 정확한 문자 경계 상자 예측을 가능하게 함으로써 고문자학적 측정을 위한 잠재력을 발휘한다. 둘째, 우리 아키텍처가 가능하게 하는 문자, 바이그램, 그래픽 단위 간 공백에 대한 자동 측정의 고문자학적 관련성을 소개하고 입증한다. 이 시연을 위해, 14세기 후반 샤를 5세가 의뢰하고 네 명의 필사자가 필사한 코덱스 파리 BnF fr. 2813의 주석을 160페이지로 확장한다. 우리는 이 페이지들에 걸친 측정치를 시각화하여, 이를 통해 그래픽 프로파일을 구분할 수 있을 뿐만 아니라 미묘한 변이를 발견하고 분석할 수 있음을 보여준다. 이 사례 연구는 우리 접근법의 확장성과 요구되는 훈련 데이터의 경제성을 보여주는데, 160페이지 각각에 대해 측정치를 계산하는 데 한 열의 텍스트만으로 충분하기 때문이다. 데이터와 코드는 다음에서 공개적으로 이용 가능하다: https://malamatenia.github.io/morphology4metrology-analysis
우리는 상자, 손잡이, 문 등과 같이 움직이고 관절로 연결된 다양한 부품을 가진 객체들에 둘러싸여 있다. 관절 부품에 대한 정확하고 일반화 가능한 인식은 로봇 조작 능력을 향상시키는 데 필수적이다. 이러한 필요성에 기반하여, 최근 관절 부품 인식 연구는 두 가지 주요 방향으로 진행되어 왔다: 한 계열은 높은 수작업 비용을 요구하는 자세 기반 표현을 사용하며, 이와 병행하여 어포던스 기반 방법은 추가적인 수작업 없이 점 추적(point tracking)을 통해 미래 객체 움직임을 추출하지만 낮은 품질의 데이터로 인해 어려움을 겪는다. 본 논문에서는 확장성과 품질의 균형을 맞추기 위한 부품 기하 구조의 추상화인 기하학적 기본 구조(Geometric Primary Structure, GPS)라는 새로운 관절 부품 표현을 제안한다. 효율적이고 확장 가능한 데이터 수집을 위해 GPS는 휴대용 가상현실(VR) 장치와 통합되며, 하나의 객체 시퀀스에 주석을 다는 데 1분밖에 소요되지 않는다. 이러한 직접적인 인간 주석은 추정된 어포던스보다 더 높은 품질을 제공한다. 이 효율적인 VR-GPS 시스템을 통해 우리는 여섯 개의 부품 클래스에 걸쳐 234개 객체에 대한 41K 프레임을 수집하고, 단일 RGB-D 객체 이미지를 입력으로 하는 일반화 가능한 GPS 모델을 학습한다. 객체 조작을 위해 GPS 예측에 기반한 휴리스틱 정책을 배치한다. 어떠한 도메인 내 미세 조정 없이도 우리의 방법은 9개 객체에 대한 270개의 초기 상태를 포함하여 73%의 성공률을 달성한다. 코드, 데이터 및 재사용 가능 도구는 https://enlighten0707.github.io/gps에서 확인할 수 있다.
대규모 언어 모델(LLM)은 제로샷 주석 및 LLM-심판(LLM-as-a-judge) 작업에 점점 더 많이 사용되고 있지만, 그 신뢰성은 모델 내재적 사전 지식과 사용자가 제공한 지시가 상호작용하는 방식에 달려 있다. 우리는 이러한 상호작용의 세 가지 차원, 즉 (1) 데이터와 작업 정의에 대한 LLM의 친숙도가 성능에 미치는 영향, (2) 프롬프트의 추가 정보가 제로샷 오류를 얼마나 교정할 수 있는지("결정 고착성"), (3) 모델이 잘못 정렬된 작업 정의에 취약한 정도를 조사한다. 밀집 모델과 혼합 전문가 모델을 모두 사용하여 다양한 데이터셋(소셜 미디어, 게임, 뉴스, 포럼)에 걸친 독성 탐지 실험을 통해, 제로샷 오류의 거의 3분의 2가 교정에 저항하며, 전반적인 구제율(프롬프트로 교정된 초기 오류의 비율)은 34.8%에 불과함을 발견했다. 특히 신뢰도가 높은 오류는 교정에 더욱 강한 저항성을 보였다. 잘못 정렬된 정의가 주어졌을 때, LLM은 그 정의를 따르면서도 신뢰도 수준은 정렬된 조건과 동일하게 유지했다. 결정적으로, 우리는 모델의 내재적 개념과 작업 정의 간의 정렬을 측정하는 정의 특화 친숙도(DSF)를 도입한다. 데이터셋 수준의 혼란 변수를 통제한 후, DSF는 모델 성능과 양의 상관관계를 보였으며(부분 상관계수 r = +0.41), 반면 세 가지 서로 다른 암기 지표(ROUGE-L, BERTScore, 임베딩 코사인 유사도)는 모두 양의 상관관계를 나타내지 않았다. 이러한 발견은 주석 작업에서 프롬프트 기반 교정의 한계를 보여주며, 텍스트 수준의 암기보다 정의 정렬의 중요성을 강조한다.