번역이 포함된 일일 선별된 AI 연구 논문
10B 수준의 산업용 기반 모델이 이미지 인페인팅의 새로운 지평을 열었지만, 이들의 엄청난 계산 비용은 실제 배포를 심각하게 저해합니다. 고도로 최적화된 작업 특화 전문가를 구축하는 것은 유망한 해결책이지만, 극단적인 구조 압축은 필연적으로 심각한 표현 병목 현상을 유발합니다. 이를 극복하기 위해, 우리는 고효율 경량 인페인팅 프레임워크인 Moebius를 제안합니다. 우리는 Local-λ 혼합 상호작용(LλMI) 블록을 도입하여 확산 백본을 체계적으로 재구성합니다. Local-λ 및 Interactive-λ 모듈로 구성된 이 블록은 공간적 맥락과 전역 의미 사전 정보를 고정 크기의 선형 행렬로 우아하게 요약하여, 매개변수를 대폭 줄이면서도 복잡한 잠재 상호작용을 보존합니다. 또한, 이 고도로 컴팩트한 아키텍처의 완전한 표현 능력을 활용하기 위해, 적응형 다중 세분화 증류 전략을 상승적으로 결합합니다. 이 전략은 값비싼 픽셀 공간 디코딩을 피하고 잠재 공간 내에서 엄격하게 작동하며, 여러 그래디언트 기반 손실을 동적으로 균형 조정하여 고충실도 정렬을 달성합니다. 자연 및 인물 벤치마크에 걸친 광범위한 실험을 통해, 이러한 최적의 시너지 덕분에 Moebius가 10B 수준의 산업용 범용 모델인 FLUX.1-Fill-Dev의 생성 품질에 필적하거나 능가할 수 있음을 입증합니다. 놀랍게도, Moebius는 매개변수의 2% 미만(0.22B 대 11.9B)을 사용하면서 전체 추론 시간에서 15배 이상의 가속을 달성하여 고충실도 인페인팅의 새로운 효율성 기준을 제시합니다. 프로젝트 페이지: https://hustvl.github.io/Moebius.
관절체와의 정교한 상호작용은 가정용, 보조용 및 휴머노이드 조작에서 중요하며, 다지 손은 평행 조 파지(parallel-jaw grasping)를 넘어 순응적 접촉 패턴을 제공할 수 있다. 그러나 관절체 조작은 정적 물체 조작과 다르다. 대상 부품을 직접 구동할 수 없으며, 그 움직임은 지속적인 물리적 손-핸들 접촉을 통해 발생해야 한다. 이로 인해 물체 중심의 관절 생성(object-centric articulated generation)에서 손 기반의 정교한 손-물체 상호작용(hand-driven dexterous hand–object interaction)으로의 전환은 간단하지 않다. 기하학적 궤적 재생이나 개방 루프 실행은 관절 부품을 움직이는 데 필요한 접촉 동역학을 모델링하지 않기 때문이다. 더욱이 고정된 동역학 하에서 작업 완료만을 위해 훈련된 정책은 공칭 접촉 하중에 과적합될 수 있으며, 특히 촉각이나 힘 피드백이 없는 경우 접촉 하중이 변할 때 성능이 저하될 수 있다. 이러한 문제를 해결하기 위해, 우리는 관절체와의 정교한 상호작용을 위한 접촉 기반 프레임워크인 DragMesh-2를 제시한다. 이는 관절 상호작용을 물체 중심 생성에서 물리적 접촉을 통해 관절 움직임이 발생해야 하는 손 기반의 정교한 손-물체 상호작용으로 확장한다. 또한, 물리 정보를 활용한 접촉 인지 훈련 메커니즘인 PICA(Physically Informed Contact-Aware training mechanism)를 제안한다. 이는 촉각이나 힘 피드백 없이 정책 학습에 물리적 신호를 주입하여 접촉 하중 변화 하에서 강건성과 작업 성공률을 향상시킨다. 마지막으로, 다양한 감쇠 조건과 관절체 범주에 걸쳐 체계적인 평가를 수행하여 접촉 하중 변화에 따른 강건성을 연구하고, 향후 보행-조작(loco-manipulation) 및 휴머노이드 손-물체 상호작용 연구를 지원하기 위한 순수 기하학적 정교한 상호작용 리소스를 제공한다. 7개의 GAPartNet 객체에 대해 DragMesh-2는 감쇠 조건 전반에서 높은 작업 성공률을 유지하면서 접촉 하중 변화 하에서 비교 방법보다 더 강력한 강건성을 달성한다.
LiveCodeBench(LCB)는 최근 코드 생성 작업에서 대규모 언어 모델(LLM)을 평가하기 위해 널리 채택된 벤치마크가 되었습니다. 경쟁 프로그래밍 문제를 선별하고, 지속적으로 새로운 문제를 세트에 추가하며, 출시일별로 필터링함으로써 LCB는 오염 인식 평가를 제공하고 코딩 능력에 대한 전체적인 관점을 제공합니다. 그러나 LCB는 Python에만 국한되어 있어, LLM이 실제 소프트웨어 엔지니어링에 필요한 다양한 프로그래밍 언어에 걸쳐 일반화할 수 있는지에 대한 의문이 남아 있습니다. 우리는 Python을 포함한 12가지 프로그래밍 언어에 걸쳐 LLM을 평가하는 벤치마크인 Multi-LCB를 소개합니다. Multi-LCB는 LCB 데이터셋의 Python 작업을 다른 언어의 동등한 작업으로 변환하면서 LCB의 오염 제어 및 평가 프로토콜을 유지합니다. 원래 LCB 형식과 완벽하게 호환되므로 Multi-LCB는 향후 LCB 업데이트를 자동으로 추적하여 교차 언어 코드 생성 능력의 체계적인 평가를 가능하게 하며, 모델이 Python을 훨씬 넘어서는 성능을 유지하도록 요구합니다. 우리는 Multi-LCB에서 명령어 및 추론에 대해 24개의 LLM을 평가하여 Python 과적합, 언어별 오염, 다국어 성능의 상당한 격차 증거를 발견했습니다. 우리의 결과는 Multi-LCB를 다중 프로그래밍 언어 코드 평가를 위한 엄격한 새 벤치마크로 확립하며, LCB의 주요 한계를 직접 해결하고 현재 LLM 역량의 중요한 격차를 드러냅니다.
현재 에이전트 로봇 시스템은 실행 가능한 Code-as-Policy 프로그램을 작성하고, 피드백을 관찰하며, 여러 시도에 걸쳐 행동을 수정할 수 있지만, 여전히 대부분 작업 중심적(task-driven)입니다. 재사용 가능한 기술(skill)은 명시적인 지시가 있을 때에만 획득됩니다. 본 연구에서는 하위 작업(downstream tasks)이 도착하기 전에 내장된 코딩 에이전트(embodied coding agent)가 자기 주도적 놀이(self-directed play)를 지속적인 기술 학습 단계로 사용하는 놀이형 에이전트 로봇 학습(Playful Agentic Robot Learning)을 연구합니다. 우리는 놀이 시간 동안 기술을 습득하도록 설계된 로봇 에이전트 팀인 RATs(Robotics Agent Teams)를 소개합니다. 놀이 중 RATs는 새롭고도 학습 가능한 탐색적 작업을 제안하고, 로봇-코드 정책을 계획 및 실행하며, 중간 진행 상황을 검증하고, 실패를 진단하며, 밀집된 단계별 피드백으로 재시도하고, 성공적인 실행을 지속적인 코드 기술 라이브러리로 추출합니다. 테스트 시에는 에이전트가 이 고정된 라이브러리에서 관련 기술을 재사용하여 새로운 작업을 해결하는 데 도움을 줍니다. LIBERO-PRO와 MolmoSpaces에서의 실험 결과, 놀이를 통해 학습된 기술은 놀이 없음 및 무작위 놀이 기준선에 비해 하위 작업 성능을 향상시켰으며, CaP-Agent0 대비 LIBERO-PRO에서 20.6%p, MolmoSpaces에서 17.0%p의 성능 향상을 보였습니다. 또한 학습된 기술은 추론 시 Code-as-Policy 에이전트의 컨텍스트에 단순히 검색하여 삽입함으로써 다른 에이전트에 적용 가능하며, 기본 모델을 미세 조정하지 않고도 RoboSuite 및 실제 환경 전이에서 각각 8.9%p 및 8.8%p의 성능 향상을 달성했습니다.
현실 세계의 공간 지능은 연속적이고 진화하는 3D 세계에 대한 추론을 필요로 하지만, 기존의 VLM 및 도구 보강 에이전트는 대체로 고립된 시각 관찰로부터의 정적이고 상태 비보존적 추론에 머물러 있습니다. 본 논문에서는 연속적인 다시점 이미지와 비디오를 이해하고 추론하기 위한 공간적 도구 사용 에이전트 패러다임인 \textsc{S-Agent}를 소개합니다. 공간 추론을 개별 프레임 수준 예측이 아닌 시공간적 증거 축적으로 정식화함으로써, S-Agent는 프레임 중심 인식을 넘어 장면 중심 이해로 공간 지각을 재구성합니다. 구체적으로, S-Agent는 VLM을 어떤 증거가 필요한지 결정하는 의미론적 계획자로 설정하는 동시에, 계층적 공간 도구와 전문가가 객체를 2D에 고정시키고 이를 3D 기하 증거로 승격시키며, 이 증거를 집계하여 개수, 측정, 방향, 상대적 위치와 같은 고수준 공간 지식으로 통합합니다. 또한, 진화하는 장면 상태를 유지하는 장면 메모리(Scene Memory)와 추론 맥락을 축적하는 에이전트 메모리(Agent Memory)를 포함한 시간적 메모리 메커니즘을 통해 프레임과 추론 단계를 넘나드는 증거 통합이 가능합니다. 다시점 및 비디오 공간 추론 벤치마크에 대한 포괄적인 실험 결과, S-Agent가 훈련 없이도 오픈소스 및 폐쇄형 VLM 모두를 일관되게 개선함을 보여줍니다. 추론 시점 증강을 넘어, S-Agent가 생성한 공간적 궤적 S-300K에 대한 지도 미세 조정(SFT)을 통해 S-Agent-8B라는 소형 공간 에이전트를 얻었으며, 이는 유사 규모의 기준 모델(예: Qwen3-VL-8B)을 크게 능가하고, 고급 폐쇄형 모델(예: GPT-5.4 및 Gemini 3)과 비슷한 성능을 나타냅니다.
에이전트 벤치마크는 빠르게 성장하고 있지만, 어떤 단일 벤치마크도 실제 배포에서 드러나는 차원 중 네다섯 개 이상을 다루지 못한다. 본 논문은 현재까지 진행된 MCP 기반 산업용 에이전트 벤치마크 중 가장 큰 규모의 조율된 심층 분석을 종합한다: 새로운 자산 클래스(멀티모달 시각 확장 포함), 대안적 오케스트레이션, 검색 전략, 추론 모드, 인프라 최적화, 그리고 평가 방법론 탐사를 다루는 14개의 병렬 구현 연구를 포함한다. 이러한 연구들을 7개의 이전 에이전트 벤치마크와 통합하여, 우리는 종합 점수 리더보드가 배포된 에이전트 평가를 체계적으로 과소 명세한다고 주장한다. 종합 점수에서 도출된 순위는 분포 외 설정으로 이전되지 않으며, 최근 공개 대 비공개 대회에 대한 회고적 분석은 이러한 순위 불안정성에 대한 직접적인 경험적 증거를 제공한다. 우리는 표본 내 평균이 아닌, 표본 내와 표본 외 순위 간 상관관계인 예측 타당도에 따라 설정을 순위화할 것을 제안한다. 또한, HELM과 그 이후 에이전트 시대의 후속 모델들이 간과한 배포 관련 차원을 드러내는 12계층 측정 장치를 보고한다. 이러한 입장은 명시적 임계값을 가진 세 가지 반증 가능한 분포 외 기준을 통해 구체화되며, 기존 증거는 이를 부분적으로 지지하지만 확인하기에는 너무 빈약하다. 우리는 사전 등록된 파일럿 설계와 차세대 에이전트 벤치마크가 보고해야 할 사항에 대한 현장 수준의 비전을 제시하며 마무리한다.
방사 필드의 발전으로 사실적인 새로운 시점 합성이 가능해졌다. 여러 분야에서 대규모 실제 세계 데이터셋이 개발되어 포괄적인 벤치마킹을 지원하고 장면 특정 재구성을 넘어선 발전을 촉진하고 있다. 그러나 방해 요소 제거 방사 필드의 경우, 장면별로 깨끗한 이미지와 혼잡한 이미지를 포함한 대규모 데이터셋이 여전히 부족하여 발전이 제한되고 있다. 이러한 격차를 해소하기 위해, 우리는 DF3DV-1K를 소개한다. 이는 1,048개의 장면으로 구성된 대규모 실제 세계 데이터셋으로, 각 장면은 벤치마킹을 위한 깨끗한 이미지 세트와 혼잡한 이미지 세트를 제공한다. 전체적으로 데이터셋은 일상 촬영을 모방하기 위해 소비자용 카메라로 촬영된 89,924개의 이미지를 포함하며, 실내 및 실외 환경에서 128가지 방해 요소 유형과 161가지 장면 테마에 걸쳐 있다. 41개의 장면으로 구성된 선별된 하위 세트인 DF3DV-41은 까다로운 시나리오에서 방해 요소 제거 방사 필드 방법의 강건성을 평가하기 위해 체계적으로 설계되었다. DF3DV-1K를 사용하여, 우리는 최근의 9가지 방해 요소 제거 방사 필드 방법과 3D 가우시안 스플래팅을 벤치마킹하여 가장 강건한 방법과 가장 까다로운 시나리오를 식별한다. 벤치마킹 외에도, 우리는 확산 기반 2D 강화 모델을 미세 조정하여 방사 필드 방법을 개선하는 DF3DV-1K의 응용을 시연하며, 보류 세트(예: DF3DV-41)와 On-the-go 데이터셋에서 평균 0.96 dB PSNR 및 0.057 LPIPS의 개선을 달성한다. 우리는 DF3DV-1K가 방해 요소 제거 비전의 개발을 촉진하고 장면 특정 접근법을 넘어선 진전을 촉진하기를 기대한다. 데이터셋과 리더보드는 https://johnnylu305.github.io/df3dv1k_web/에서 확인할 수 있다.
스타일-내용 이중 참조 생성은 내용 참조의 구조와 의미를 보존하면서 별도의 스타일 참조의 스타일을 채택한 이미지를 합성하는 것을 목표로 한다. 최근의 진전에도 불구하고, 모델이 내용 충실도, 스타일 정렬, 스타일 참조로부터의 의미 누출을 방지하는 명령 추종 간의 균형을 맞춰야 하기 때문에 이 설정은 여전히 도전적이다. 핵심 병목은 깨끗한 내용-스타일 분리와 광범위한 긴 꼬리 스타일 범위를 갖춘 대규모 삼중 데이터의 부재이다. 본 연구에서는 커뮤니티 LoRA 마이닝에 기반한 확장 가능한 이중 참조 생성 프레임워크인 FreeStyle을 제안한다. 우리는 커뮤니티 LoRA를 스타일과 내용에 대한 구성적 앵커로 취급하고, 엄격한 생성 및 필터링 파이프라인을 설계하여 여러 기본 모델에 걸쳐 대규모 스타일 참조 및 내용 참조 삼중 데이터를 구축한다. 내용 누출을 해결하기 위해, 우리는 단계별 분리 메커니즘을 갖춘 2단계 커리큘럼을 채택한다: 스타일 전이 단계에서 스타일 참조 누출을 억제하는 어텐션 수준 강화 제약 조건과, 더 어려운 이중 참조 단계에서 위치 대응 기반 누출을 대상으로 하는 주파수 인식 RoPE 변조 전략이다. 또한 스타일 참조 및 이중 참조 생성을 모두 포괄하는 벤치마크를 도입하며, 스타일 유사성, 내용 보존, 미학, 명령 추종 및 누출 거부에 대한 평가를 포함한다. 이 벤치마크는 스타일 불변 내용 정렬 점수(CAS)를 통합하고, 생성 신뢰성과 누출 억제를 평가하기 위해 보정된 VLM 기반 거부 점수를 도입한다. 광범위한 실험을 통해 우리의 모델이 스타일 정렬, 내용 보존 및 누출 억제 간의 강력한 균형을 달성함을 보여준다.
조건부 확산 및 플로우 모델은 자신이 수행해야 할 과제를 정의하는 제약 조건조차 충족하지 못하는 경우가 빈번하다. 예를 들어, 깊이 조건부 모델은 훈련 및 추론 과정에서 제약 조건을 정의하는 순방향 연산자(깊이 예측기)를 사용할 수 있음에도 불구하고, 입력과 재추출된 깊이가 일치하지 않는 이미지를 생성하는 경우가 많다. 기존 접근법은 일반적으로 두 가지 범주로 나뉜다: 조건 신호를 정적 단서로 취급하고 추론 시 정렬 정보를 무시하는 지도 학습 모델과, 수동 조정된 선형 업데이트를 통해 이를 참조하지만 일반적으로 생성된 샘플의 타당성과 조건에 대한 충실도 사이에서 절충하는 유도 기반 방법이다. 우리는 두 패러다임의 근본적인 차이가 모델이 자신의 정렬 오류를 활용하도록 훈련된 적이 없다는 점에 있다고 주장한다. 우리는 FlowBender를 소개한다. 이는 이러한 오류를 일급 입력으로 취급하고, 추론 시 피드백에 조건화된 보정 정책을 학습하도록 네트워크를 훈련하는 폐루프 프레임워크이다. 각 단계에서 비유도 사전 탐색 단계가 깨끗한 신호를 추정하고, 순방향 연산자를 통해 작업별 편차를 계산한 후, 정제 단계가 이 신호를 소비하여 보정된 속도를 생성한다. 우리는 미분 가능 연산자를 위한 경사 기반 공식화와 JPEG 압축과 같은 미분 불가능 설정을 위한 영차 변형을 포함한 여러 FlowBender 변형을 제안한다. 효율적인 샘플링을 위해, 최소한의 추가 계산 비용으로 폐루프 보정을 가능하게 하는 사전 단계 지름길을 도입한다. 이미지 간 변환, 복원 및 3D 메시 텍스처링 전반에 걸쳐 FlowBender는 표준 지도 학습 기준선, 정렬 손실 증강 훈련 및 최신 추론 시 유도보다 일관되게 뛰어난 성능을 보이며, 충실도와 타당성을 서로 절충하는 대신 동시에 향상시킨다. 프로젝트 페이지: https://flow-bender.github.io/
3D 시각적 착시를 생성하는 것, 즉 다양한 관점에서 완전히 다른 의미를 드러내는 단일 3D 메시를 만드는 것은 매력적이면서도 까다로운 도전 과제입니다. 기존의 최적화 기반 방법은 속도가 느리고 과포화된 색상을 생성할 수 있습니다. 반면, 단순한 이어붙이기 방식은 기하학적으로 일관된 객체를 생성하지 못하여 눈에 띄는 부자연스러운 이음새와 의미 누출을 초래합니다. 본 논문에서는 텍스트 기반 3D 시각적 착시를 생성하기 위한 빠르고 훈련이 필요 없는 프레임워크를 제시합니다. 우리의 접근 방식은 생성을 두 단계로 분리합니다. 첫째, 교차 공간 이중 가지 잡음 제거 과정을 제안합니다. 이 과정은 3D 잠재 변수를 복셀 공간으로 동적으로 디코딩하여 CLIP 기반 방향 정렬 및 부호 거리 필드(SDF) 블렌딩을 수행하며, 이를 통해 매끄러운 기하학적 융합을 보장합니다. 둘째, 융합된 기하 구조에 시점별 2D 확산 사전 정보를 투영하고 집계하는 시점 조건부 텍스처 합성 모듈을 도입합니다. 광범위한 실험을 통해 우리의 방법이 단 3~5분 만에 매우 사실적이고 이중 의미를 가진 3D 착시를 생성함을 입증했습니다. 이 방법은 기존 방법들에 비해 기하학적 완전성, 의미 인식 가능성, 효율성 측면에서 현저히 뛰어납니다. 프로젝트 페이지: https://siang1105.github.io/JanusMesh.github.io/
세계 행동 모델(WAM)은 일반적으로 비디오 생성을 활용하여 시각적 세계 모델링과 로봇 제어를 연결한다. 그러나 비디오 기반 WAM은 세 가지 상호 연관된 한계에 직면한다: 밀집된 다중 프레임 미래 토큰으로 인해 추론 비용이 높아지고, 전체 비디오 예측이 행동과 무관한 시간적 및 외관 세부 사항에 용량을 소모하며, 장기 미래 상상이 행동 예측을 오도하는 오류를 유발할 수 있다. 이러한 문제는 단순한 질문을 제기한다: 세계 행동 모델이 정말로 비디오 생성을 필요로 하는가? 본 논문에서는 사전 학습된 이미지 편집 모델을 로봇 행동 예측에 재활용하는 간단한 WAM 프레임워크인 ImageWAM을 제안한다. 비디오 생성과 달리 이미지 편집은 더 나은 사전 지식을 제공한다: 목표 프레임 변환만 모델링하면 되고, 행동 관련 현재-목표 시각적 차이에 집중하며, 편집 사전 학습을 통해 작업 명령을 국소적 시각적 변화로 구체화한다. 실제로 ImageWAM은 추론 시 목표 프레임을 디코딩하지 않고, 이미지 편집 잡음 제거 과정에서 생성된 KV 캐시를 이용해 흐름 정합 행동 전문가를 조건화하여, 이를 간결한 세계-행동 맥락으로 사용한다. ImageWAM은 추가 정책 사전 학습 없이도 다양한 시뮬레이터 및 실제 실험에서 표준 VLA 기준선 및 경쟁력 있는 WAM을 능가하는 성능을 보인다. 또한 FLOPs를 1/6, 지연 시간을 비디오 기반 WAM의 1/4로 줄인다. 주의 분석은 편집 캐시가 작업 관련 변화 영역에 집중함을 보여주며, 비디오 기반 세계-행동 모델링의 효과적인 대안으로서 이미지 편집을 뒷받침한다.
세계 모델은 점점 인공일반지능을 향한 결정적 단계로 간주되고 있지만, 물리적 세계를 모델링하려면 요청 시 설득력 있는 프레임을 생성하는 것 이상이 요구된다. 즉, 관찰과 분리되어 시간이 지남에 따라 계속 진화하는 내부 세계 상태가 필요하며, 이를 통해 카메라가 지켜보고 있지 않을 때에도 마치 아무도 보지 않을 때 달이 궤도를 유지하듯, 객체는 지속되고 사건은 결말까지 진행되어야 한다. 이러한 요구사항은 기존 벤치마크의 사각지대인데, 이들은 충실도, 움직임, 카메라 제어 가능성과 같은 표면적 속성에 보상을 주면서도, 생성된 세계가 관찰되지 않을 때에도 계속 진화하는지 여부는 묻지 않는다. 본 논문에서는 카메라 움직임을 관찰 가능성에 대한 개입으로 취급하고, 평가를 인간이 보정한 체인으로 해소하는 최초의 체계적 진단 벤치마크인 WRBench를 소개한다. 이 체인은 카메라가 요청된 상호작용을 수행하는지, 장면이 보이는 동안 연속성과 식별 가능성을 유지하는지, 그리고 돌아오는 대상이 시작된 사건과 일관성을 유지하는지를 질문한다. 23개 모델(4가지 제어 패러다임)에서 얻은 9,600개의 비디오를 대상으로 한 결과, 한 가지 사실이 완강하게 드러난다. 현재 시스템은 관찰된 세계를 추적 샷으로 유지하며, 돌아오는 대상을 그것이 버려진 상태 그대로 재개할 뿐, 보이지 않는 동안 사건을 진행시키지 않는다. 이 실패는 제어 패러다임, 모델 계열, 규모 증가에 걸쳐 반복적으로 나타나므로, 견고한 세계 상태 진화는 더 깨끗한 이미지, 더 정밀한 제어, 더 풍부한 기하학적 사전 지식, 또는 단순한 파라미터 수에서 비롯되지 않는다. 따라서 우리는 물리적 상태 커널의 안정성과 시점 개입 하에서의 세계선 일관성이 세계 모델 설계의 일차적 목표가 되어야 하며, 그래야 세계 모델이 다음 프레임이 어떻게 보일지가 아니라 세계가 어떻게 전개될지를 포착할 수 있다고 주장한다.
대규모 언어 모델(LLM)은 긴 맥락이나 복잡한 맥락 내에서 작지만 결정적인 증거(예: 도구 추적 내의 단일 줄, 이미지 내의 미묘한 세부 사항)를 식별해야 하는 질문에 응답할 때 종종 실패합니다. 본 논문에서는 간접적인 보조 목표를 통해 장기적 추론 및 멀티모달 성능을 개선하는 맥락 인식 강화 학습(ContextRL) 방법을 제안합니다. ContextRL은 최종 답변만을 감독하는 대신, 모델에게 질의, 답변 및 두 개의 매우 유사한 맥락을 제시하고, 질의-답변 쌍을 지지하는 맥락을 선택하도록 보상함으로써 세밀한 근거 찾기를 장려합니다. 우리는 두 가지 영역에서 대조 맥락 데이터를 구축합니다. 코딩 에이전트의 경우, 궤적을 맥락으로 사용하여 조건 필터링을 통해 1,000쌍을 구축합니다. 멀티모달 추론의 경우, 이미지를 맥락으로 사용하여 생성적 편집 및 유사성 검색을 통해 7,000쌍을 구축합니다. ContextRL은 5가지 장기적 추론 벤치마크에서 표준 GRPO 대비 평균 +2.2%, 12가지 다양한 시각적 질의응답 벤치마크에서 평균 +1.8%의 성능 향상을 달성합니다. 제안된 목표의 효과를 추가 데이터의 효과와 분리하기 위해, 동일한 대조 맥락을 표준 질의-맥락-답변 예시로 재사용하는 데이터 증강 기준선과 비교합니다. 이러한 기준선은 거의 또는 전혀 개선을 보이지 않으며, 이는 성능 향상이 대조 데이터 자체가 아닌 제안된 맥락 선택 목표에서 비롯됨을 보여줍니다.
현실 세계에서 정교한 로봇 조작을 달성하는 것은 인간의 감독과 알고리즘 엔지니어링에 크게 의존하며, 이는 일반 물리적 지능을 추구하는 데 핵심적인 병목이 된다. 최신 코딩 에이전트는 알고리즘 탐색을 자동화하는 코드를 생성할 수 있지만, 그 성공은 대부분 디지털 환경에 국한되어 있다. 우리는 로봇 연구를 자동화하는 데 부재하는 추상화가 현실 세계 정책 개선을 위한 반복 가능한 피드백 루프, 즉 장면 재설정, 정책 실행, 결과 검증, 다음 반복 개선이라고 추측한다. 이 격차를 해소하기 위해, 우리는 ENPIRE를 소개한다. 이는 코딩 에이전트를 위한 하네스 프레임워크로, 네 가지 핵심 모듈을 통해 이 물리적 피드백 루틴을 구현한다: 자동 재설정 및 검증을 위한 환경 모듈 (EN), 정책 개선을 시작하는 정책 개선 모듈 (PI), 병렬로 작동하는 하나 또는 여러 물리적 로봇으로 정책을 평가하는 롤아웃 모듈 (R), 그리고 코딩 에이전트가 로그를 분석하고 문헌을 참고하며 훈련 인프라와 알고리즘 코드를 개선하여 실패 모드를 해결하는 진화 모듈 (E). 이 폐쇄 루프 시스템은 현실 세계 조작 학습을 통제 가능한 최적화 절차로 변환하여, 인간의 노력을 최소화하면서 훈련 레시피와 에이전트 변형 간의 공정한 절제 실험을 가능하게 한다. ENPIRE의 힘으로, 최첨단 코딩 에이전트는 핀 상자 정리, 케이블 타이 조이기, 도구 사용과 같은 까다롭고 정교한 조작 작업에서 99%의 성공률을 달성하는 정책을 자율적으로 훈련할 수 있으며, 이 과정은 로봇 함대에 에이전트 팀을 배치할 때 더욱 가속화된다. 우리의 결과는 물리적 세계에서 로봇 기술을 자율적으로 발전시키기 위해 코딩 에이전트를 배포하는 실용적이고 확장 가능한 경로를 제시한다.
시각적 사고는 단지 논리적으로 옳게 들리는 것에 그쳐서는 안 되며, 그 증거를 시각적으로 보여줄 수 있어야 한다. 최근의 시각-언어 모델(VLM)은 자연어 추론 과정을 생성할 수 있지만, 이러한 추론 과정은 종종 뒷받침하는 이미지 영역을 암시적으로만 남겨두어 검증이 어렵고 지도 학습을 적용하기 힘들게 만든다. 본 논문에서는 시각적 근거 기반 사고(visually grounded thinking)를 소개한다. 이는 모델이 각 추론 단계에서 사용된 시각적 증거에 대한 명시적인 점(point) 또는 박스(box) 근거 정보(grounding)를 자연어 사고 과정 사이에 삽입하는 추론 방식이다. 이를 통해 모델은 중간 추론 과정을 언어로 표현하면서도, 핵심 객체가 참조하는 이미지 영역에 명시적으로 근거를 둘 수 있다. 이러한 행동을 학습시키기 위해, 우리는 확장 가능한 합성 파이프라인을 구축한다. 이 파이프라인은 올바른 시각적 추론 과정을 증류(distill)하고, 추론 과정에 필요한 시각적 객체를 추출한 뒤, SAM3 기반 에이전트를 사용하여 이를 이미지에 근거시키고, 결과 마스크로부터 정렬된 점 및 박스 지도 신호를 도출한다. 또한, 우리는 근거 인식 강화 학습(grounding-aware reinforcement learning)을 제안한다. 이는 정답 정확도 보상과 함께, 생성된 객체 참조가 올바른 이미지 증거와 일치하는지를 평가하는 조밀한 근거 보상(dense grounding reward)을 결합한다. 두 개의 개수 세기(counting) 벤치마크와 네 개의 공간 추론(spatial reasoning) 벤치마크에 걸쳐, Gemma3-4B-IT에 시각적 근거 기반 사고를 추가하면 원본 모델 및 근거가 없는 사고(non-grounded thinking) 기준선에 비해 성능이 일관되게 향상되었다. 공간 추론의 경우, 시각적 근거 기반 사고를 적용한 4B 모델은 동일 모델 계열의 Gemma3-27B-IT와 성능이 일치하거나, 일부 경우 이를 능가했다. 분석 결과, 점 근거 방식은 개수 세기 작업에 매우 적합한 반면, 박스 근거 방식은 공간 작업에서 명시적인 근거 보상의 혜택을 가장 많이 받는 것으로 나타났다. 전반적으로, 본 연구 결과는 VLM의 중간 사고 과정이 해당 추론을 참으로 만드는 이미지 영역과 연결될 때, 더 나은 추론 성능을 보여준다는 것을 입증한다.
다단계 LLM 파이프라인은 검색, 추론, 형식화 단계 간 상호작용으로 인해 실패하므로, 프롬프트만 최적화하는 방식은 체인의 병목 지점을 놓칠 수 있습니다. 본 논문에서는 Claude Code가 표준화된 코드베이스 내에서 LLM 파이프라인을 최적화할 수 있는 프레임워크인 FAPO(완전 자율 프롬프트 최적화)를 제시합니다. FAPO는 파이프라인을 평가하고, 중간 단계를 검사하며, 실패를 진단하고, 범위가 제한된 변경 사항을 제안한 후, 변형을 반복적으로 검증하여 점수 함수에 대해 최적화를 수행합니다. 먼저 프롬프트 편집을 시도하고, 프롬프트 최적화만으로 충분하지 않다고 판단될 때만(속성 분석 결과 구조적 병목 현상이 식별된 경우) 허용 범위 내에서 체인 구조를 변경합니다. 6개의 벤치마크와 3개의 태스크 모델에 걸쳐, FAPO는 18개 모델-벤치마크 비교 중 15개에서 기준 모델인 GEPA를 능가합니다. 11개의 모델-벤치마크 비교에서 FAPO는 평균 ± 시행 표준편차 범위가 겹치지 않는 차이로 승리했으며, 평균 FAPO-GEPA 이득은 +14.1%p입니다. 프롬프트 우선 탐색이 구조적 변경으로 확대된 6개의 HoVer 및 IFBench 비교에서는 FAPO가 모두 승리하여 평균 +33.8%p의 이득을 기록했습니다. FAPO는 보안 태스크에서도 성능을 향상시킵니다. 보안 CVE-to-CWE 태스크인 CTIBench-RCM에서 프롬프트 전용 FAPO는 GPT-5에서 테스트 정확도를 +4.0%p, Foundation-Sec-8B-Instruct에서 +7.1%p, Foundation-Sec-8B-Reasoning에서 +2.0%p 향상시켰습니다. 이러한 결과는 FAPO가 범용 및 보안 중심 태스크 모두에 대한 최신 기술 수준의 파이프라인 최적화 기법임을 입증합니다.
구현 기반 파운데이션 모델은 대규모 언어 모델과 마찬가지로 데이터 스케일링의 이점을 누릴 것으로 기대되지만, 훨씬 더 심각한 데이터 병목 현상에 직면해 있다. 원격 조작 실제 로봇 궤적은 정밀한 행동 감독과 구현 정렬 덕분에 여전히 지배적인 사전 학습 소스로 남아 있지만, 높은 수집 비용, 획득 난이도, 낮은 행동 및 환경 다양성으로 인해 확장성이 제한적이다. 이러한 한계로 인해 구현 모델 사전 학습을 위한 확장 가능하고 비용이 훨씬 저렴하며 더 다양한 대안으로서 에고센트릭 인간 비디오에 대한 관심이 촉발되었다. 그러나 원격 조작 실제 로봇 데이터와 비교한 그 효과성은 아직 충분히 탐구되지 않았다. 이 질문에 답하기 위해, 우리는 고정된 후속 학습 및 검증 프로토콜 하에서 구현 기반 파운데이션 모델의 사전 학습 데이터 소스로서 에고센트릭 인간 비디오와 원격 조작 실제 로봇 궤적을 비교하는 체계적인 연구를 수행한다. 놀랍게도, 우리는 에고센트릭 데이터가 신중하게 설계된 필터링 및 레이블링 파이프라인을 통해 처리될 때, 모델 사전 학습의 실현 가능한 대체재일 뿐만 아니라 우수한 성능으로 이어질 수 있음을 발견한다. 동일한 양의 사전 학습 데이터로, 에고센트릭 데이터로 사전 학습된 모델은 실제 로봇 행동 예측에서 24% 낮은 검증 손실을 달성하고, 분포 내 및 분포 외 실제 로봇 작업 실행에서 각각 52.5% 및 90% 더 높은 성공률을 달성한다. 이 발견은 구현 기반 파운데이션 모델을 위한 확장 가능한 패러다임을 입증한다: 다양한 세계 표현을 학습하기 위해 에고센트릭 인간 비디오로 사전 학습한 후, 행동 공간 정렬을 위해 소량의 레이블링된 실제 로봇 데이터로 적응하는 것이다. 우리는 이 연구가 에고센트릭 데이터에 대한 더 광범위한 탐구를 장려하고, 비용이 많이 드는 로봇 데이터 수집 전에 데이터 품질 평가에 대한 지침을 제공하기를 기대한다.
비디오 세계 모델은 제어 가능한 카메라 및 객체 움직임 하에서 관찰된 세계를 보존하면서 환경 상태를 변화시킬 수 있는 방향으로 발전하고 있다. 그러나 이러한 제어는 여전히 개별적으로 이루어지며, 날씨 생성은 일반적으로 미래 구조를 이미 명시한 소스 비디오나 재구성된 장면에 의존한다. 본 연구는 첫 프레임 기반의 소스-상태 설정을 다룬다. 이 설정에서 모델은 단일 이미지로부터 시작하여 명시적인 카메라 및 객체 제어와 선택적 날씨 명령을 따르며, 소스 세계를 보존하거나 목표 날씨 상태로 전환하는 비디오를 생성한다. 이러한 과제를 해결하기 위해, 먼저 다양한 비디오를 카메라, 객체, 날씨 감독을 위한 통합 제어 샘플로 변환하는 상태 비디오 데이터셋 HoloStateData를 구축한다. 둘째, 단일 이미지로부터 장면을 공동 제어하는 통합 제어 가능 비디오 세계 모델 Holo-World를 소개한다. 이 모델의 통합 장면 어댑터(Unified Scene Adapter)는 세계 보존과 날씨 전환을 별개의 파라미터 부분 공간으로 분해하며, 렌더링된 배경, 지오메트리 버퍼, 객체 제어를 활용하여 제어된 장면 구조를 유지하면서 날씨에 따른 외관 및 입자 효과를 모델링한다. 또한, 장면-날씨 분해 CFG(Scene-Weather Decomposed CFG)는 장면 잔차와 날씨 잔차를 별도로 안내하여 전체 조건을 과도하게 증폭시키지 않으면서 목표 날씨 효과를 강화한다. 양적 및 질적 실험 결과, Holo-World는 일관된 장면 구조를 유지하며 정밀한 카메라 및 객체 제어를 제공하면서, 다양한 목표 날씨 상태로 장면을 전환하여 날씨 상태 생성에서 비디오-투-비디오 날씨 편집 기준선을 능가하는 성능을 보였다. 프로젝트 페이지는 https://xiangchenyin.github.io/Holo-World/에서 확인할 수 있다.
FP4 훈련은 LLM 사전학습에서 메모리와 연산 비용의 실질적인 감소를 약속하지만, NVIDIA Blackwell/Rubin급 시스템과 AMD MI350 시리즈 GPU를 포함한 현재의 FP4 하드웨어 경로 및 레시피는 여전히 E2M1 데이터 요소에 집중되어 있습니다. 본 연구에서 우리는 이러한 선택의 근본적인 한계를 식별합니다: E2M1과 같은 비균일 형식은 본질적으로 수축 편향(Shrinkage Bias), 즉 표현 가능한 빈의 기하학적 비대칭성으로 인한 체계적인 음수 반올림 오류를 겪습니다. 우리는 이 편향이 계층 간에 곱셈적으로 축적되고 무작위 하다마드 변환(RHT)에 의해 증폭되어, 기존 E2M1 기반 FP4 레시피에서 관찰되는 훈련 불안정성에 대한 통합된 설명을 제공함을 보여줍니다. 대조적으로, 균일 격자(E1M2/INT4)는 이러한 격자-기하학 오류를 회피하고 RHT로부터 개선된 버킷 활용도를 더 높은 양자화 품질로 더 잘 변환합니다. 이 발견을 바탕으로, 우리는 세 가지 훈련 GEMM 모두에 RHT를 적용하면서 확률적 반올림을 dY에만 제한하는 균일 4비트 훈련 레시피인 UFP4를 제안합니다. Dense 1.5B, MoE 7.9B 및 MoE 124B 장기 사전학습에서 UFP4는 스케일링 법칙 분석 및 절제 연구를 통해 강력한 E2M1 기반 기준선보다 지속적으로 더 낮은 BF16 대비 손실 성능 저하를 달성합니다. 우리의 결과는 향후 가속기가 E2M1과 함께 일급 훈련 기본 요소로 E1M2/INT4 스타일의 균일 4비트 격자를 지원해야 함을 시사합니다.
법률 AI의 발전은 점점 더 방대한 규모의 권위 있는 법률 텍스트에 대한 접근에 의존하고 있다. 그러나 미국 법 체계에서 가장 중요한 층위 중 하나인 조례(ordinances)는 기존의 기계 판독 가능 코퍼스에서 거의 찾아볼 수 없는 실정이다. 지역 조례는 구역, 주택, 영업 허가, 공중 보건, 소음, 동물 규제 및 일상적인 규제의 다른 여러 영역을 규율하지만, 이는 대량 연구 접근보다는 인간의 열람을 위해 설계된 벤더 플랫폼에 분산되어 있다. 본 연구에서는 LOCUS(Local Ordinance Corpus for the United States), 즉 미국 지방 조례 코퍼스와 카운티 단위로 통합된 접근 레이어를 소개한다. 연구자에게 공개 가능한 원시 코퍼스는 공개적으로 이용 가능한 거의 모든 지방자치단체 및 카운티 조례를 대표하며, 결과적으로 9,239개 시와 카운티의 조례를 포함한다. 더 작은 규모의 카운티 통합 LOCUS 접근 레이어는 미국 3,144개 카운티 중 가장 큰 2,309개 카운티를 대상으로 하며, 이는 인구의 대다수를 차지한다. 법률이 공공 자원이 되는 것을 막아온 다양한 문서 형식을 처리하기 위해 OCR을 사용한다. 재현성, 차후 법률 AI 연구, 그리고 지역 법률에 대한 기계 판독 가능 접근의 점진적 확장을 지원하기 위해 커버리지 메타데이터와 함께 코퍼스를 공개한다. ModernBERT 기반의 분류기와 점수화기 집합을 학습시켜, 이전에는 이러한 규모로 연구된 적이 없는 불투명성(opacity)과 가부장제(paternalism) 등 여러 차원에서 미국 지역 법률을 분석할 수 있도록 했다. LOCUS-v1 및 파생 모델은 다음에서 확인할 수 있다: https://huggingface.co/datasets/LocalLaws/LOCUS-v1
프레셰 인셉션 거리(Fréchet Inception Distance, FID)는 이미지 생성 분야의 사실상의 평가 기준이지만, 대부분의 논문은 단일 학습 모델에서 단일 샘플링 시드를 사용해 얻은 단일 숫자만을 보고한다. 모델을 재학습하거나 단순히 재샘플링할 경우, 그 숫자는 얼마나 재현 가능할까? 본 논문에서는 FID를 학습 및 생성 시드의 두 축 패널 위에서의 확률 변수로 간주하고, 클래스 조건부 ImageNet 256x256에서 학습된 수백 개의 SiT 네트워크에 대해 그 분산을 직접 측정한다. 우리는 놀라운 결과를 발견했다: (a) 동일한 레시피로 다른 시드를 사용해 모델을 재학습하면, 고정된 네트워크에서 표본을 다시 추출하는 것보다 FID가 (인셉션 특징 공간에서) 3.2배 더 크게 변동한다. (b) 이러한 차이는 무작위 초기화, 데이터 순서, 그리고 흐름 매칭 손실의 단계별 가우시안 노이즈라는 세 가지 요인에 의해 발생한다. (c) 계산량이나 모델 크기를 늘려도 변동 폭이 거의 줄어들지 않으며, FID의 변동 계수(CoV)는 1-2% 범위 내에 머문다. (d) 셀별 무분류자 안내 조정(per-cell classifier-free-guidance tuning)은 변동 폭을 절반으로 줄이지만 어떤 시드가 가장 잘 작동하는지 재배열하며, 운 좋은 학습 시드는 운 나쁜 시드보다 최대 2배 적은 계산량으로 동일한 FID에 도달한다. 이러한 발견을 바탕으로, 우리는 새로운 FID 평가 프로토콜을 제안한다: 셀별 최적 안내 하에 평가하고, 경험적으로 측정된 약 1.3% CoV 미만의 FID 차이는 불확실한 것으로 간주하며, 단일 FID 숫자 대신 여러 학습 시드에 대한 오차 막대를 보고한다.
최근 검색 증강 생성(RAG) 접근법은 복잡한 질의를 처리하는 데 강력한 성능을 입증했지만, 현재 연구는 중요한 과제를 간과하고 있다: 서로 다른 검색기는 최적의 성능을 위해 근본적으로 다른 질의 구성 전략을 필요로 한다는 점이다. 본 연구에서는 강화 학습(RL)을 통해 LLM이 다양한 검색기에 맞춰 질의 구성 전략을 학습할 수 있는 방법에 대한 최초의 체계적 분석을 제시한다. 실증 연구를 통해 RL이 LLM이 특정 검색기 특성에 맞춰 질의를 조정하는 데 효과적임을 밝혀냈다. 또한 다양한 검색기가 각기 현저히 다른 최적 질의 스타일(예: 기술적 vs. 질문형)을 보여, 한 검색기에서 학습된 전략이 다른 검색기에는 비효율적임을 시사한다. 나아가 검색기별 인간 가이드라인을 통합하고 모델 크기를 확장함으로써 성능을 향상시킬 수 있음을 보여준다. 다중 검색 단계 궤적에 대한 학습을 촉진하기 위해 훈련 안정성을 개선하는 분기 기반 롤아웃 기법을 도입한다. 본 연구는 진정한 검색기 인식 RAG 시스템 구축을 위한 최초의 실증적 증거와 실용적 통찰력을 제공한다. 코드와 자료는 https://github.com/LCO-Embedding/Envs-aware-Information-Retrieval에서 확인할 수 있다.
정책 준수 도구 호출 에이전트는 고객 서비스 도메인에서 도구를 호출하는 과정에서 턴 간 작업 상태를 유지하고 도메인 정책을 준수해야 한다. 작업 상태는 사용자 상호작용 및 도구 호출을 통해 관찰된 관련 사실, 식별자, 제약 조건 및 조건으로 구성된다. 표준 에이전트에서는 작업 상태가 별도로 표현되지 않는다. 관찰 결과, 도구 반환값, 정책 지침이 프롬프트에 배치되어, 에이전트는 다음 행동을 결정할 때마다 프롬프트로부터 관련 상태를 재구성해야 한다. 이러한 설계는 상태 관리를 암시적으로 만들어 두 가지 일반적인 실패 모드를 유발한다. 에이전트가 올바른 사실을 검색했더라도 이후 의사 결정이 오래되거나 누락되거나 부정확한 정보에 근거할 수 있으며, 구문적으로 유효한 도구 호출이 현재 작업 상태에 의존하는 도메인 정책을 위반할 수도 있다. 본 논문에서는 관찰된 작업 상태를 별도의 원장(ledger)에 유지하고 이를 프롬프트에 렌더링하는 도구 호출 에이전트를 위한 추론 시 방법인 LedgerAgent를 소개한다. 또한 이 원장은 환경을 변경하는 도구 호출이 실행되기 전에 상태 의존적 정책 제약 조건을 확인하여 정책 위반을 차단하는 데 사용된다. 네 가지 고객 서비스 도메인과 오픈웨이트 및 클로즈드웨이트 모델의 혼합 패널에 걸쳐, LedgerAgent는 표준 프롬프트 기반 도구 호출 방식 대비 평균 passk를 개선하며, 더 엄격한 다중 시행 일관성 지표에서 가장 큰 향상을 보인다.
하이브리드 선형 어텐션 모델은 긴 문맥 추론을 더 빠르게 수행할 수 있는 매력적인 경로를 제공한다. 전체 소프트맥스 어텐션의 이차 비용과 KV-캐시 부담을 줄이면서도 트랜스포머 모델의 품질을 상당 부분 유지하기 때문이다. 이러한 모델을 얻는 실용적인 방법은 새로운 아키텍처를 처음부터 사전 학습하는 대신 사전 학습된 트랜스포머를 변환하는 것이지만, 이러한 변환은 여전히 깨지기 쉽다. 단순히 교사 어텐션 투영을 게이티드 델타넷(GDN) 학생 모델에 복사하는 것만으로는 새로운 순환 감쇠, 쓰기 및 출력 게이팅 동역학이 명시되지 않는다. 결과적으로 변환된 모델은 종종 좋지 않은 동역학 영역에서 시작하여, 교사의 나머지 행동을 학습하기보다는 초기화를 복구하는 데 많은 증류 토큰을 소비해야 한다. 본 논문에서는 하이브리드 GDN 학생을 위한 경량 초기화 방법인 테일러-캘리브레이트를 제안한다. 이 방법은 테일러 유도 교사 어텐션 통계를 사용하여 값 투영, 메모리 시간 척도, 쓰기 게이트 및 출력 게이트를 설정한 후, 짧은 레이어별 정렬 단계를 적용하여 변환된 각 레이어를 교사 출력에 맞춘다. 네 가지 교사 설정과 세 가지 유지 레이어 정책에서 테일러-캘리브레이트는 대표적인 절제 실험에서 최대 88배 개선된 훨씬 강력한 제로샷 학생 모델을 제공하며, 단순 변환보다 4.9배에서 9.2배 적은 학습 토큰으로 일치된 복구 목표에 도달한다.
정확한 기계적 물성(영률 E, 푸아송 비 ν, 밀도 ρ)은 디지털 세계의 신뢰성 있는 물리 시뮬레이션에 필수적이지만, 대부분의 3D 자산에는 이 정보가 부족하다. 본 논문에서는 표현 방식에 관계없이 입력 3D 객체에 대해 정밀한 공간 가변 (E, ν, ρ)을 예측하는 방법인 AdaVoMP를 제안하며, 최신 기술 대비 분해능, 정확도 및 메모리 효율성을 향상시킨다. 제안 기법의 기반은 희소 적응형 복셀 구조 SAV로, 입력 3D 형상과 물질 필드 출력을 모두 효율적으로 표현한다. 가장 정확한 기존 방법인 VoMP의 고정 복셀 모델을 새로운 희소 트랜스포머 인코더-디코더 모델로 대체하여, 입력 형상마다 물질을 표현하는 고유한 SAV를 자기회귀적으로 생성하도록 학습하며, 기존 대비 16³배 높은 분해능을 달성한다. 실험 결과, AdaVoMP는 기존 모든 방법보다 적은 테스트 시간 연산으로도 더 정확한 체적 물성을 추정함을 보여준다. 이를 통해 고해상도 복잡 3D 객체를 시뮬레이션 준비 자산으로 변환하여 사실적인 변형 시뮬레이션을 구현할 수 있다.
법률 워크플로우에 배포된 AI 시스템은 종합 지표가 약 52%로 보고하는 비율로 환각을 일으키지만, 이 평균값은 오류가 어디에 집중되고 어떤 방향으로 발생하는지를 가려 규정 준수 담당자가 신뢰할 수 있는 배포를 위한 실행 가능한 신호를 얻지 못하게 한다. 본 연구에서는 LegalHalluLens라는 감사 프레임워크를 제시한다. 이 프레임워크는 세 가지 구성요소로 이루어져 있다: CUAD(Hendrycks et al., 2021)를 기반으로 네 가지 법적 동기 부여 주장 범주(수치적, 시간적, 의무/권리, 사실적)에 걸친 유형별 환각 프로필, 누락 대 창작 편향을 단일 배포 비교 가능 스칼라로 축소하는 위험 방향 지수(RDI), 그리고 크기와 방향 모두에 맞춰 보정된 유형별 논쟁 파이프라인이다. 510개의 계약서와 249,252개의 조문 수준 인스턴스에 걸쳐, 종합 보고가 숨기는 의무/수치적 주장과 시간적 주장 간의 모델 내 격차가 약 38~40퍼센트포인트임을 측정했으며, 일치하는 52% 비율을 가진 두 시스템이 반대되는 RDI를 가질 수 있음을 보여준다. 논쟁 파이프라인은 진단을 추적하는 범주별 이득과 함께 허위 탐지를 45% 감소시키며, 훨씬 더 작은 백본(40억 활성 파라미터)으로 상용 API와 성능이 일치한다. 유형별 프로필과 RDI는 종합 지표가 숨기는 실패 모드를 표면화하며, 더 나아가 이러한 진단이 다중 에이전트 논쟁 파이프라인의 보정 입력으로 작용하여, 측정된 실패 모드를 대상으로 하는 회의론자 도전과 비대칭 게이트가 일반 조정된 논쟁보다 우수한 성능을 보임을 입증한다. 이 프레임워크는 실제 환경에 배포된 법률 AI의 방향 인식 조달, 책임성, 에이전트 설계를 지원한다.
환자 맥락은 수백 개의 이질적인 문서와 수천 개의 구조화된 데이터 포인트에 걸쳐 있지만, AI 시스템이 검색 및 분류에 필요로 하는 문서 수준의 메타데이터는 존재하지 않거나 불완전하다. 표준 검색 증강 생성은 이러한 데이터에서 실패하며, 시간적 추론, 문서 간 의존성, 누락된 메타데이터를 적절히 처리하지 못한다. 우리는 에센 대학 병원(University Medicine Essen)에서 ACIE(에이전트 임상 정보 추출)를 배포한다: 이는 온프레미스 에이전트 기반 RAG 파이프라인으로, 전체 환자 맥락을 추론하고 모든 답변을 임상의 검증을 위해 출처 구절에 근거한다. 우리는 메타데이터 격차를 정량화하고, 이로 인해 형성된 아키텍처 결정을 추적하며, 추출을 평가하는 동시에 독립적인 후향적 림프종 등록 연구를 수행하였으며, 이 연구에서 핵의학 의사들은 추출된 모든 값을 인용된 출처에 대비하여 검증하였다. 7,326건의 판단에서 임상의는 추출 결과의 96.5%를 수용하였으며, 유형별 수용률은 80%에서 99%에 이르렀다.
텍스트-비디오 생성 작업에서 정밀한 3차원 공간 조율은 여전히 중요한 과제로 남아 있으며, 특히 의미론적 배치와 시간적 역학이 종종 얽히는 다중 객체 장면에서 더욱 그렇다. 기존의 심층 조건화 모델은 우수한 구조적 충실도를 달성하지만, 변형 가능한 객체를 포함하는 동적 이벤트에 대해 프레임 단위의 정확한 안내를 필요로 하며, 이를 제작하는 데 많은 노동력이 소요된다. 본 논문에서는 희박하고 방향성을 가진 3D 박스를 '차단' 프록시로 활용하여 직관적이고 표현력 있는 제어를 가능하게 하는 LooseControlVideo 프레임워크를 제안한다. 이를 통해 사용자는 높은 수준의 배치와 궤적을 저작하는 동시에 비디오 생성 모델이 현실적인 폐색, 역학 및 상호작용을 생성하도록 할 수 있다. 우리는 3D 크기, 방향 및 깊이 순서 폐색에 대한 새로운 인코딩인 DNOCS로 주석이 달린 비디오 데이터셋에서 Wan 2.2 백본을 미세 조정하여 이를 달성한다. 또한, 본 방법은 점프 궤적 조정이나 상호작용 추가와 같은 국소적 개선을 전역 장면 맥락을 최소한으로 교란하면서 가능하게 한다. nuScenes, HO-3D 및 BEHAVE 벤치마크에 대한 광범위한 평가는 LooseControlVideo가 기존의 2D 박스 및 흐름 기반 기준선을 크게 능가함을 보여준다. 우리의 결과는 최신 배치 조건화 모델 대비 궤적 오차에서 1.2배에서 3배 개선, 강체 운동 일관성에서 2배 개선, 폐색 정확도에서 1.5배에서 2배 증가를 나타내며, 이는 방향성 3D 프리미티브가 복잡한 다중 에이전트 비디오 저작을 위한 우수한 기하학적 사전을 제공함을 입증한다.
현재 AI 기반 게임 개발은 에셋 생성, 게임플레이 설계, 웹 기반 게임 코딩 분야에서 상당한 진전을 이루었으나, 대규모 데이터셋과 결정론적 평가 방법의 부재로 인해 전문 게임 엔진에서의 프로젝트 수준 코드 엔지니어링은 대부분 탐구되지 않은 상태로 남아 있다. 본 연구에서는 전문 게임 엔진 기반의 최초 프로젝트 수준 게임 코드 프레임워크 데이터셋이자 벤치마크인 JamSet과 JamBench를 제시한다. 핵심 통찰은 개발자들이 짧은 시간 제약 내에 완전한 게임을 구축하는 커뮤니티 행사인 게임 잼(Game Jam) 대회가 이 목적에 적합한 수천 개의 오픈소스 프로젝트를 산출한다는 점이다. Godot 엔진의 텍스트 기반 형식과 헤드리스 실행 모드를 활용하여, 파일 무결성 검사부터 런타임 동작 수집까지 결정론적 검증 파이프라인을 설계하고 240,000개 이상의 저장소에서 8,133개의 검증된 프로젝트를 추출했다. 이 중 300개의 수동 검증 프로젝트는 JamBench를 구성하고, 나머지는 JamSet을 구성한다. JamBench는 테마 기반 생성 및 코드 완성 작업을 정의하며, 컴파일 통과율, 구조적 완전성 점수(SCS), 행동 정렬 점수(BAS)를 결합한 파이프라인으로 평가된다. 9개 최첨단 모델 평가 결과, 프로젝트 규모가 증가함에 따라 능력 격차가 나타나 런타임 통과율이 소규모 프로젝트의 80.4%에서 대규모 프로젝트의 5.7%로 급감했다(Task2a). 코드 에이전트는 컴파일율을 향상시키지만 런타임 행동 품질에는 개선을 가져오지 못했으며, 이는 병목 현상이 구문적 정확성이 아닌 아키텍처 설계에 있음을 시사한다. 실험 결과는 JamSet이 효과적인 훈련 데이터임을 입증한다. 모든 데이터와 코드는 공개적으로 제공된다.
전형적인 비디오 객체 중심 학습(VOCL) 접근법은 재구성 기반의 인코더-디코더 아키텍처에 의존하는 슬롯 기반 프레임워크를 사용하며, 이때 학습은 두 가지 공간 맵, 즉 인코더의 주의 맵(attention map)과 디코더의 객체 맵(object map)에 의해 매개된다. 이 두 맵은 서로 다른 속성을 나타내므로, 최근의 조밀 정렬(dense alignment) 전략은 대조 학습(contrastive learning)을 통해 모든 시공간 패치 간의 일치를 강제함으로써 이러한 차이를 조정하려고 시도했다. 그러나 이러한 무분별한 정렬은 잡음이 많은 인코더 예측과 흐릿한 디코더 경계와 같은 각 모듈의 고유한 약점을 의도치 않게 전파한다. 게다가 모든 쌍 간의 조밀 유사도를 계산하는 것은 총 시공간 패치 수에 대해 이차(quadratic)의 계산 비용을 초래하여 확장성을 심각하게 제한한다. 이에 착안하여 우리는 선택적 시너지 학습(Selective Synergistic Learning, SSync)을 제안한다. SSync는 모든 패치 간의 정렬을 수행하는 대신, 가장 신뢰할 수 있는 단서만을 선택적으로 증류하여 오류 전파를 방지한다. 즉, 인코더는 경계 정제에, 디코더는 내부 잡음 제거에 엄격히 활용한다. 이는 선형 복잡도를 갖는 의사 레이블링(pseudo-labeling)을 통해 실현되며, 이차적 공간 비교의 필요성을 제거한다. 또한, 슬롯 중복과 같은 구조적 편향의 강화를 방지하기 위해, 시공간 활성화 일관성에 기반하여 중첩되는 슬롯을 통합하는 전이적 의사 레이블 병합(transitive pseudo-label merging)을 도입한다. 광범위한 실험을 통해 SSync가 분할 품질을 향상시키고 플러그 앤 플레이(plug-and-play) 방식의 다용도 모듈로 기능할 뿐만 아니라 슬롯 구성에 대해 탁월한 견고성을 보임을 입증한다. 코드는 github.com/wjun0830/SSync에서 확인할 수 있다.
딥러닝에서 이론과 실제 사이에는 상당한 격차가 존재한다. 일반화 및 근사 오차 한계는 종종 단순화된 모델에 대해 도출되거나 너무 느슨하여 유의미한 정보를 제공하지 못한다. 많은 연구가 다양체 가설과 내재 차원, 곡률, 도달 거리와 같은 기하학적 정규성에 의존한다. 진전을 위해서는 데이터-다양체 기하학에 대한 통찰력과 적절한 벤치마크가 필요하지만, 기존 선택지는 알려진 기하학을 가지나 적용 가능성이 제한적인 분석적 다양체와, 기하학이 대략적으로만 추정 가능한 실제 세계 데이터셋 사이에서 양극화되어 있다. 우리는 데이터 기하학 연구를 위한 벤치마킹 프레임워크를 소개한다. dSprites와 COIL-20을 추가 변환 차원과 조밀한 축 정렬 샘플링으로 재구성 및 확장하고, 이를 유한 차분 추정기와 결합하여 범용 추정기가 신뢰할 수 없거나 배포하기 어려운 영역에서 거의 실제 값에 가까운 정확도로 곡률, 도달 거리, 부피를 복원한다. 이 프레임워크는 기하학적 추정기를 위한 교정 환경이자 이론적 가정을 탐구하기 위한 실험 도구로서 유용한 통제된 테스트베드로 설계되었다. 그 사용법을 설명하기 위해, Genovese 등과 Fefferman 등의 한계의 스케일링 행동을 평가하고 β-VAE의 층별 기하학을 추적하는 두 가지 응용 연구를 제시하며, 현재 한계의 행동과 미래 이론을 안내하고 검증하기 위한 통제된 벤치마크의 가치를 강조한다. 참조 구현은 https://github.com/koulakis/manifold-microscope에서 확인할 수 있다.
대규모 언어 모델(LLM)은 소프트웨어 공학 작업의 자동화를 크게 발전시켰다. 대표적인 예로 코드 생성을 들 수 있는데, LLM이 자연어 설명을 바탕으로 특정 프로그래밍 언어로 코드를 생성하는 방식이다. 이 분야의 대부분 연구는 풍부한 훈련 데이터의 혜택을 받는 Python이나 Java 같은 고자원 언어에 초점을 맞춰 왔다. 상대적으로 적은 연구가 훈련 코퍼스에서 과소대표되는 저자원 언어를 탐구했으며, 반대로 LLM이 사실상 훈련 데이터를 전혀 접하지 못한 무자원 언어는 거의 연구되지 않은 상태로 남아 있다. 이러한 언어는 종종 산업 현장에서 등장하는데, 조직이 GitHub Copilot과 같은 상용 도구가 지원하지 않는 독점 언어나 도메인 특화 언어를 개발하는 경우가 이에 해당한다. 이로 인해 기업은 자체 사내 코드 추천 시스템을 구축해야 할 필요성이 발생한다. 이러한 맥락에서 가능한 해결책을 조사하기 위해, 우리는 훈련 데이터가 극히 적게 존재하는 최근 제안된 두 프로그래밍 언어를 기반으로 무자원 언어용 코드 생성 벤치마크 세 가지를 구축하여 공개한다. 이 벤치마크를 활용하여, 프롬프트 기반 기법뿐 아니라 사용 가능한 소량의 데이터를 활용한 사전 학습 및 미세 조정을 포함한 여러 해결책을 실험하여 LLM에 무자원 언어를 가르친다. 무자원 언어에 대해 추가 사전 학습이 가장 큰 성능 향상을 제공하지만, 이를 명령어 튜닝 모델에 직접 적용하면 명령어를 따르는 능력이 저하된다. 이 문제를 해결하기 위해, 기본 모델에서 시작하여 대상 언어에 대해 추가 사전 학습을 수행한 후, 명령어 모델의 가중치 차이 전이를 통해 명령어 수행 능력을 주입한다. 이러한 접근 방식은 무자원 환경에서 코드 생성 능력을 크게 향상시켜, 기업이 명령어 미세 조정의 계산 비용을 감당하지 않고도 특화된 명령어 모델을 저렴하게 배포할 수 있게 한다.
대규모 자동 음성 인식(ASR) 서빙 파이프라인의 스케줄링 정책은 종단 간(E2E) 지연 시간을 결정하는 데 핵심적인 역할을 한다. 그러나 널리 사용되는 서빙 엔진은 선입선출(FCFS) 스케줄링에 의존하는데, 이는 요청 지속 시간의 변동성을 무시하고 워크로드 변동 아래에서 선두 차단(Head-of-Line Blocking)을 초래한다. 우리는 Whisper와 같은 ASR 모델에서 오디오 지속 시간이 작업 처리 시간의 정확한 대리 변수임을 보여주고, 이 통찰력을 활용하여 지속 시간 인식 스케줄링을 가능하게 한다. 우리는 두 가지 고전 알고리즘인 최단 작업 우선(SJF)과 최고 응답 비율 우선(HRRN)을 vLLM에 통합하고, 현실적 및 변동된 워크로드에서 평가한다. LibriSpeech test-clean에서 기준선과 비교할 때, SJF는 높은 부하에서 E2E 중간 지연 시간을 최대 73% 감소시키지만, 긴 요청의 기아 현상으로 인해 90번째 백분위 꼬리 지연 시간을 최대 97% 증가시킨다. HRRN은 이러한 절충점을 해결한다: 꼬리 지연 시간 저하를 최대 24%로 제한하면서 E2E 중간 지연 시간을 최대 28% 감소시킨다. 이러한 이점은 워크로드 변동 아래에서도 지속되며, 처리량 손실이 없고 요청당 0.1ms 미만의 스케줄링 오버헤드가 발생한다.
기존의 예제 기반 프로그래밍(PBE) 시스템은 깊은 중첩과 잦은 합집합 연산 등 실제 정규식의 높은 구조적 복잡성을 포착하지 못하는 단순화된 벤치마크에 의존하는 경우가 많다. 이로 인해 발생하는 성능 저하를 극복하기 위해, 우리는 복잡한 합성 문제를 관리 가능한 하위 문제로 분해하는 합성기-비의존적 분할 정복 프레임워크인 ReSyn을 제안한다. 또한, 예제의 순열 불변성을 포착하는 매개변수 효율적인 합성기인 Set2Regex를 도입한다. 실험 결과는 ReSyn이 다양한 합성기 전반에서 정확도를 크게 향상시키며, Set2Regex와의 결합이 까다로운 실제 벤치마크에서 새로운 최첨단 성능을 확립함을 보여준다. 전체 소스 코드, 데이터셋, 사전 훈련된 모델 체크포인트는 https://github.com/mrseongminkim/ReSyn에서 공개적으로 이용 가능하다.