번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)에서 고품질 데이터에 대한 급증하는 수요는 확장 가능하고 신뢰할 수 있으며 의미론적으로 풍부한 데이터 준비 파이프라인의 필요성을 더욱 긴급하게 만들었습니다. 그러나 현재의 관행은 임시 스크립트와 느슨하게 정의된 워크플로우가 주를 이루어, 원칙에 기반한 추상화가 부족하고 재현성을 저해하며 모델-인-더-루프 데이터 생성에 대한 지원이 제한적입니다. 이러한 문제를 해결하기 위해 우리는 통합적이고 확장 가능한 LLM 기반 데이터 준비 프레임워크인 DataFlow를 제시합니다. DataFlow는 모듈화되고 재사용 가능하며 구성 가능한 데이터 변환을 가능하게 하는 시스템 수준의 추상화로 설계되었으며, 디버깅 및 최적화가 가능한 데이터 흐름을 구축하기 위한 PyTorch 스타일의 파이프라인 구성 API를 제공합니다. 이 프레임워크는 약 200개의 재사용 가능한 연산자와 텍스트, 수학적 추론, 코드, Text-to-SQL, 에이전트 기반 RAG, 대규모 지식 추출 등 6가지 영역을 아우르는 범용 파이프라인으로 구성됩니다. 사용성을 더욱 개선하기 위해, 자연어 명세를 연산자 합성, 파이프라인 계획, 반복적 검증을 통해 실행 가능한 파이프라인으로 자동 변환하는 DataFlow-Agent를 도입했습니다. 6가지 대표적인 사용 사례에서 DataFlow는 하류 LLM 성능을 지속적으로 향상시켰습니다. 우리의 수학, 코드, 텍스트 파이프라인은 정제된 인간 데이터셋과 특화된 합성 기준선을 능가하며, Text-to-SQL에서 SynSQL 대비 최대 +3% 실행 정확도, 코드 벤치마크에서 평균 +7% 향상, MATH, GSM8K, AIME에서 1-3점 향상을 달성했습니다. 더 나아가, DataFlow로 생성된 통합 10K 샘플 데이터셋은 기초 모델이 1M개의 Infinity-Instruct 데이터로 훈련된 대조군을 능가하게 합니다. 이러한 결과는 DataFlow가 신뢰할 수 있고 재현 가능하며 확장 가능한 LLM 데이터 준비를 위한 실용적이고 고성능의 기반을 제공하며, 미래 데이터 중심 AI 개발을 위한 시스템 수준의 기초를 마련함을 입증합니다.
다양한 양식의 심층 표현은 본질적으로 긴밀하게 연관되어 있습니다. 본 논문에서는 다양한 의미 및 픽셀 인코더의 스펙트럼 특성을 체계적으로 분석합니다. 흥미롭게도, 우리 연구는 인코더의 특징 스펙트럼과 그 기능적 역할 사이에 매우 영감을 주면서도 거의 탐구되지 않은 대응 관계가 있음을 밝혀냅니다: 의미 인코더는 주로 추상적 의미를 인코딩하는 저주파 성분을 포착하는 반면, 픽셀 인코더는 추가로 세밀한 디테일을 전달하는 고주파 정보를 유지합니다. 이 발견은 인코더의 동작을 그 기저에 있는 스펙트럼 구조와 연결하는 통합적 관점을 제시합니다. 우리는 이를 각 데이터 양식이 마치 프리즘처럼 자연 세계를 공유된 특징 스펙트럼 위에 투영한 것으로 볼 수 있다는 '프리즘 가설(Prism Hypothesis)'로 정의합니다. 이러한 통찰을 바탕으로, 우리는 혁신적인 주파수 대역 변조기를 통해 의미 구조와 픽셀 디테일을 조화롭게 통합하고 이들의 원활한 공존을 가능하게 하는 통합 자동 인코딩(Unified Autoencoding, UAE) 모델을 제안합니다. ImageNet 및 MS-COCO 벤치마크에 대한 광범위한 실험을 통해 우리의 UAE가 의미 추상화와 픽셀 수준 정확도를 최첨단 성능으로 단일 잠재 공간에 효과적으로 통합함을 검증합니다.
인컨텍스트 생성 패러다임은 최근 데이터 효율성과 합성 품질 모두에서 지시 기반 이미지 편집에 강력한 성능을 입증했습니다. 그러나 지시 기반 비디오 편집을 위한 이러한 인컨텍스트 학습을 구축하는 것은 간단하지 않습니다. 편집 영역을 명시하지 않으면 편집 영역의 부정확함 문제와 디노이징 과정에서 편집 영역과 비편집 영역 간 토큰 간섭이 발생할 수 있습니다. 이를 해결하기 위해 우리는 인컨텍스트 생성 과정 중 편집 영역과 비편집 영역 간 제약 조건 모델링을 새로운 방식으로 탐구하는 새로운 지시 비디오 편집 패러다임인 ReCo를 제안합니다. 기술적으로 ReCo는 소스 비디오와 타겟 비디오를 폭 방향으로 연결하여 공동 디노이징을 수행합니다. 비디오 확산 학습을 보정하기 위해 ReCo는 두 가지 정규화 항, 즉 잠재 정규화와 어텐션 정규화를 활용하며, 이들은 각각 one-step backward 디노이징된 잠재 변수와 어텐션 맵에 적용됩니다. 전자는 소스 비디오와 타겟 비디오 간 편집 영역의 잠재적 차이를 증가시키는 동시에 비편집 영역의 차이는 감소시켜 편집 영역의 수정을 강조하고 외부의 예기치 않은 콘텐츠 생성을 완화합니다. 후자는 편집 영역의 토큰들이 소스 비디오의 대응 영역 토큰들에 주의를 기울이는 것을 억제함으로써 타겟 비디오에서 새로운 객체 생성 시 발생하는 간섭을 완화합니다. 더 나아가, 모델 학습에 도움이 되는 50만 개의 지시-비디오 쌍으로 구성된 대규모 고품질 비디오 편집 데이터셋인 ReCo-Data를 제안합니다. 4가지 주요 지시 기반 비디오 편집 작업에 대한 광범위한 실험을 통해 우리 제안의 우수성을 입증했습니다.
최근 비디오 확산 모델의 발전으로 동적 장면에 대한 카메라 제어 신시점 비디오 생성에 대한 관심이 높아지고 있으며, 이는 제작자에게 포스트 프로덕션 단계에서 시네마틱 카메라 제어 기능을 제공하는 것을 목표로 합니다. 카메라 제어 비디오 생성의 핵심 과제는 지정된 카메라 포즈에 대한 정확성을 보장하면서 시점 일관성을 유지하고 제한된 관찰만으로 가려진 기하구조를 추론하는 것입니다. 이를 해결하기 위해 기존 방법들은 궤적-비디오 쌍 데이터셋으로 궤적 조건부 비디오 생성 모델을 훈련하거나, 입력 비디오에서 깊이를 추정하여 목표 궤적을 따라 재투영하고 재투영되지 않은 영역을 생성합니다. 그러나 기존 방법들은 두 가지 주요 이유로 카메라 포즈에 충실한 고품질 비디오 생성에 어려움을 겪습니다: (1) 재투영 기반 접근법은 부정확한 깊이 추정으로 인한 오류에 매우 취약하며, (2) 기존 데이터셋의 제한된 카메라 궤적 다양성이 학습된 모델의 성능을 제한합니다. 이러한 한계를 해결하기 위해 우리는 높은 포즈 정확도를 갖춘 깊이 정보 불필요(depth-free) 카메라 제어 비디오-투-비디오 생성 프레임워크인 InfCam을 제안합니다. 이 프레임워크는 두 가지 핵심 구성 요소를 통합합니다: (1) 비디오 확산 모델의 2D 잠재 공간 내에서 3D 카메라 회전을 직접 인코딩하는 무한 호모그래피 워핑(infinite homography warping). 이 잡음이 없는 회전 정보를 조건으로 삼아, end-to-end 훈련을 통해 잔여 시차(parallax) 항을 예측하여 높은 카메라 포즈 정확도를 달성합니다. (2) 기존 합성 다중 시점 데이터셋을 다양한 궤적과 초점 거리를 가진 시퀀스로 변환하는 데이터 증강 파이프라인. 실험 결과는 InfCam이 카메라 포즈 정확도와 시각적 충실도에서 기준 방법들을 능가하며, 합성 데이터에서 실제 데이터로 잘 일반화됨을 보여줍니다. 프로젝트 페이지 링크: https://emjay73.github.io/InfCam/
동적 검색 증강 생성은 대규모 언어 모델(LLM)의 환각 현상을 완화하기 위해 생성 과정 중 언제 검색을 수행할지 적응적으로 결정합니다. 그러나 기존 방법은 모델 내부 신호(예: 로짓, 엔트로피)에 의존하는데, LLM은 일반적으로 보정이 잘되지 않고 잘못된 출력에 대해 높은 확신을 보이는 경우가 많기 때문에 이러한 신호는 근본적으로 신뢰할 수 없습니다. 우리는 주관적 확신에서 사전 학습 데이터로 계산된 객관적 통계로 전환하는 QuCo-RAG를 제안합니다. 우리의 방법은 두 단계를 통해 불확실성을 정량화합니다: (1) 생성 전, 장기꼬리 지식 격차를 나타내는 저빈도 개체를 식별합니다; (2) 생성 중, 사전 학습 코퍼스 내 개체 동시 발생을 검증하며, 동시 발생이 전혀 없는 경우 종종 환각 위험 신호로 작용합니다. 두 단계 모두 4조 토큰에 대해 밀리초 수준의 지연 시간으로 질의가 가능한 Infini-gram을 활용하여 불확실성이 높을 때 검색을 트리거합니다. 다중 홉 질의응답 벤치마크에서의 실험 결과, QuCo-RAG는 OLMo-2 모델을 사용한 최첨단 기준선 대비 5-12점의 EM(Exact Match) 향상을 달성했으며, 사전 학습 데이터가 공개되지 않은 모델(Llama, Qwen, GPT)에도 효과적으로 전이되어 최대 14점까지 EM을 향상시켰습니다. 생의학 QA에 대한 도메인 일반화 실험은 우리 패러다임의 강건성을 추가로 입증합니다. 이러한 결과는 코퍼스 기반 검증이 동적 RAG를 위한 원칙적이고 실질적으로 모델에 구애받지 않는 패러다임임을 입증합니다. 우리의 코드는 https://github.com/ZhishanQ/QuCo-RAG 에서 공개적으로 이용 가능합니다.
문항(질문 또는 과제) 난이도의 정확한 추정은 교육 평가에 있어 핵심적이지만, 콜드 스타트 문제로 어려움을 겪고 있습니다. 대규모 언어 모델이 인간을 초월한 문제 해결 능력을 보여주지만, 이러한 모델이 인간 학습자의 인지적 어려움을 인지할 수 있는지 여부는 여전히 해결되지 않은 과제입니다. 본 연구에서는 의학 지식 및 수학적 추론과 같은 다양한 영역에 걸쳐 20개 이상의 모델을 대상으로 인간-AI 난이도 정합성에 대한 대규모 실증 분석을 제시합니다. 연구 결과, 모델 규모 확장이 신뢰할 만한 도움이 되지 않는 체계적인 정합 실패를 확인했습니다. 모델들은 인간과 정합하기보다는 오히려 공유된 기계적 합의로 수렴하는 경향을 보였습니다. 높은 성능은 종종 정확한 난이도 추정을 방해하는 것으로 관찰되었으며, 이는 모델들이 특정 숙련도 수준을 채택하도록 명시적으로 지시를 받은 경우에도 학생들의 능력 한계를 시뮬레이션하는 데 어려움을 겪기 때문입니다. 더 나아가, 모델들이 자신의 한계를 예측하지 못하는 중요한 내성 부족 현상을 확인했습니다. 이러한 결과는 일반적인 문제 해결 능력이 인간의 인지적 어려움에 대한 이해를 의미하지는 않음을 시사하며, 현재 모델을 자동 난이도 예측에 활용하는 데 따른 과제를 부각시킵니다.
장거리 기하학적 일관성 영상 생성은 근본적인 딜레마에 직면합니다: 일관성은 픽셀 공간에서 3D 기하학을 엄격히 준수할 것을 요구하지만, 최첨단 생성 모델은 카메라 조건화 잠재 공간에서 가장 효과적으로 작동하기 때문입니다. 이러한 단절로 인해 기존 방법은 가려진 영역과 복잡한 카메라 궤적에서 어려움을 겪습니다. 이 간극을 해소하기 위해 우리는 3D 구조적 앵커와 2D 생성 정교화기를 결합한 WorldWarp 프레임워크를 제안합니다. 기하학적 기반을 마련하기 위해 WorldWarp는 Gaussian Splatting(3DGS)을 통해 구축된 온라인 3D 기하학적 캐시를 유지합니다. 이 캐시는 역사적 콘텐츠를 명시적으로 새로운 시점으로 변환함으로써 구조적 비계 역할을 하여 각 새 프레임이 기존 기하학을 준수하도록 보장합니다. 그러나 정적 변환은 가림 현상으로 인해 필연적으로 공백과 아티팩트를 남깁니다. 우리는 이를 "채우기 및 수정" 목적을 위해 설계된 Spatio-Temporal Diffusion(ST-Diff) 모델로 해결합니다. 우리의 핵심 혁신은 시공간 변동 노이즈 스케줄입니다: 공백 영역은 생성을 촉발하기 위해 완전한 노이즈를 받는 반면, 변환된 영역은 정교화를 가능하게 하기 위해 부분적 노이즈를 받습니다. 매 단계마다 3D 캐시를 동적으로 업데이트함으로써 WorldWarp는 비디오 청크 전반에 걸쳐 일관성을 유지합니다. 결과적으로 3D 논리가 구조를 안내하는 동시에 디퓨전 논리가 텍스처를 완성하도록 보장하여 최첨단 정확도를 달성합니다. 프로젝트 페이지: https://hyokong.github.io/worldwarp-page/.
구조화되지 않은 환경에서의 경로 계획은 이동 로봇의 기본적이면서도 어려운 능력입니다. 기존의 모듈식 파이프라인은 인식, 위치 추정, 매핑 및 계획 모듈 간의 지연 및 오류 전파 문제를 겪습니다. 최근의 종단간 학습 방법은 원시 시각 관측을 제어 신호나 궤적에 직접 매핑하여 개방형 환경에서 더 높은 성능과 효율성을 약속합니다. 그러나 대부분의 기존 종단간 접근법은 여전히 정확한 센서 외부 파라미터 보정에 의존하는 별도의 위치 추정 모듈을 사용함으로써 다양한 구현체와 환경 간 일반화를 제한합니다. 본 연구에서는 이러한 한계를 해결하는 위치 추정 기반 종단간 주행 프레임워크인 LoGoPlanner를 소개합니다. 이 프레임워크는 (1) 장기 시각-기하학 백본을 미세 조정하여 절대적 미터 단위 스케일로 예측을 기반으로 함으로써 정확한 위치 추정을 위한 암묵적 상태 추정을 제공하고, (2) 과거 관측으로부터 주변 장면 기하학을 재구성하여 신뢰할 수 있는 장애물 회피를 위한 조밀하고 세분화된 환경 인식을 공급하며, (3) 상기 보조 작업으로 부트스트랩된 암묵적 기하학에 정책을 조건화함으로써 오류 전파를 줄입니다. 우리는 LoGoPlanner를 시뮬레이션과 실제 환경에서 평가했으며, 완전한 종단간 설계는 누적 오류를 줄이는 한편 미터 단위 인식 기하학 메모리는 계획 일관성과 장애물 회피 성능을 향상시켜 기준선 대비 27.3% 이상의 성능 향상과 다양한 구현체 및 환경에서의 강력한 일반화 능력을 입증했습니다. 코드와 모델은 https://steinate.github.io/logoplanner.github.io/{프로젝트 페이지}에서 공개되었습니다.
대규모 언어 모델(LLM)은 코드 생성 작업에서 뛰어난 능력을 입증해왔습니다. 그러나 그 효과성은 방대한 양의 레이블 지정 데이터(예: 질문-응답 쌍) 또는 비레이블 데이터(예: 코드 조각)를 활용한 지도 학습에 크게 의존하며, 이러한 데이터는 대규모로 확보하기에 비용이 많이 들고 어려운 경우가 많습니다. 이러한 한계를 해결하기 위해, 본 논문은 외부 코퍼스(비레이블 코드 조각조차도) 없이 LLM의 내부 지식을 탐색(Internal Probing)하여 코드 생성을 수행하는 비지도 프레임워크인 IPC 방법을 소개합니다. 우리는 문제 공간 탐색, 테스트 이해 탐색, 해결 공간 탐색, 그리고 지식 통합 및 강화를 도입하여 LLM 내에 존재하는 내부 지식과 신뢰도 패턴을 탐색합니다. 나아가 IPC는 자기 일관성 메커니즘과 표현 기반 품질 추정을 통해 신뢰할 수 있는 코드 후보를 식별하여 UCoder(비지도 학습을 적용한 코드 생성기)를 학습시킵니다. 우리는 제안된 접근 방식을 여러 코드 벤치마크에서 검증하며, 레이블 지정 데이터와 컴퓨팅 자원에 대한 의존성을 크게 줄이면서도 비지도 방법이 지도 방법에 버금가는 성능을 달성할 수 있음을 입증합니다. 분석 실험을 통해 모델의 내부 상태에는 코드 품질과 정확성에 대한 풍부한 신호가 포함되어 있으며, 이러한 신호를 적절히 활용하면 코드 생성 작업을 위한 효과적인 비지도 학습이 가능함을 확인했습니다. 이는 자원이 제한된 시나리오에서 코드 LLM을 훈련시키는 새로운 방향을 제시합니다.
능력 있는 대규모 언어 모델(LLM) 에이전트의 훈련은 실제 상호작용 데이터의 높은 비용과 정적인 특성으로 인해 심각한 병목 현상에 직면해 있습니다. 우리는 이러한 문제를 해결하기 위해 에이전트와 확장 가능한 생성형 환경 시뮬레이터 간에 난이도가 조정된 공진화 게임을 구축하는 GenEnv 프레임워크를 제안합니다. 정적 데이터셋에서 모델을 진화시키는 기존 방법과 달리, GenEnv는 데이터를 진화시키는 방식을 구현합니다. 시뮬레이터는 동적인 커리큘럼 정책 역할을 하여 에이전트의 '근접 발달 영역'에 맞춤화된 작업을 지속적으로 생성합니다. 이 과정은 작업 난이도를 에이전트의 현재 역량에 맞추는 간단하면서도 효과적인 α-커리큘럼 보상에 의해 안내됩니다. 우리는 GenEnv를 API-Bank, ALFWorld, BFCL, Bamboogle, TravelPlanner 등 5가지 벤치마크에서 평가했습니다. 다양한 작업에서 GenEnv는 70억 파라미터 기준 모델 대비 최대 +40.3%의 에이전트 성능 향상을 보였으며, 더 큰 모델들의 평균 성능을 따라잡거나 능가했습니다. Gemini 2.5 Pro 기반 오프라인 데이터 증강 방법과 비교 시, GenEnv는 3.3배 적은 데이터를 사용하면서도 더 나은 성능을 달성했습니다. 정적인 지도 학습에서 적응형 시뮬레이션으로의 전환을 통해 GenEnv는 에이전트 역량 확장을 위한 데이터 효율적인 경로를 제시합니다.
확산 대형 언어 모델(dLLM)은 고속 추론에서 상당한 잠재력을 입증했습니다. 그러나 현재의 신뢰도 기반 디코딩 전략은 제한된 병렬성에 의해 제약을 받아, 일반적으로 순전파 패스당(TPF) 1~3개의 토큰만 처리합니다. 본 연구에서는 dLLM 추론 시 병렬성 정도가 토큰 채우기 순서(TFO)에 매우 민감함을 규명합니다. 이에 따라 학습 없이 즉시 적용 가능한 플러그인 알고리즘인 Lookahead PArallel Decoding(LoPA)를 제안하여 더 우수한 TFO를 식별함으로써 추론 속도를 가속화합니다. LoPA는 병렬 브랜치를 통해 서로 다른 후보 TFO들을 동시에 탐색하고, 브랜치 신뢰도를 기반으로 향후 병렬성 잠재력이 가장 높은 순서를 선택합니다. 최첨단 D2F 모델에 LoPA를 적용한 결과 디코딩 효율이 크게 향상되었습니다. 특히 LoPA는 D2F-Dream의 TPF를 GSM8K에서 10.1로 향상시키면서도 Dream 기준 모델보다 우수한 성능을 유지했습니다. 더 나아가 이처럼 전례 없는 수준의 병렬성을 지원하기 위해 브랜치 병렬 처리(BP)를 특징으로 하는 전문 다중 장치 추론 시스템을 개발했으며, 다중 GPU 환경에서 샘플당 초당 1073.9 토큰의 처리량을 달성했습니다. 코드는 https://github.com/zhijie-group/LoPA에서 확인할 수 있습니다.
시각적 스토리텔링은 영화적 품질과 장면 간 일관성을 갖춘 다중 샷 비디오 생성이 필요합니다. 인간의 기억에서 영감을 받아, 우리는 장편 비디오 스토리텔링을 명시적 시각 메모리에 기반한 반복적 샷 합성으로 재구성하는 StoryMem 패러다임을 제안합니다. 이는 사전 학습된 단일 샷 비디오 확산 모델을 다중 샷 스토리텔러로 변환합니다. 이는 과거 생성된 샷들의 키프레임으로 구성된 간결하고 동적으로 업데이트되는 메모리 뱅크를 유지하는 새로운 M2V(Memory-to-Video) 설계를 통해 달성됩니다. 저장된 메모리는 잠재 공간 연결과 음의 RoPE 이동을 통해 LoRA 파인튜닝만으로 단일 샷 비디오 확산 모델에 주입됩니다. 의미론적 키프레임 선택 전략과 미적 선호도 필터링은 생성 전반에 걸쳐 유익하고 안정적인 메모리를 추가로 보장합니다. 더 나아가, 제안된 프레임워크는 부드러운 샷 전환과 맞춤형 스토리 생성 애플리케이션을 자연스럽게 수용합니다. 평가를 용이하게 하기 위해, 우리는 다중 샷 비디오 스토리텔링을 위한 다양한 벤치마크인 ST-Bench를 소개합니다. 광범위한 실험을 통해 StoryMem이 높은 미적 품질과 프롬프트 준수를 유지하면서 기존 방법 대비 뛰어난 샷 간 일관성을 달성함을 입증하며, 일관성 있는 분 단위 장편 비디오 스토리텔링을 위한 중요한 진전을 이루었습니다.
탐색 능력은 확률적 샘플링이 높은 수준의 다양성이 부족한 중복 추론 경로를 산출하는 경우가 많기 때문에, 대규모 (비전-) 언어 모델의 추론 시 성능과 강화 학습 훈련 모두에 영향을 미칩니다. 본 논문은 모델에 전략적 문맥화를 위한 확률적 잠재 변수를 부여하여 토큰 생성 전 내부 계획을 안내하는 새로운 잠재 변조 프레임워크인 Reasoning Palette를 제안합니다. 이 잠재 문맥은 변분 오토인코더(VAE)를 통해 질문-답변 쌍의 평균 풀링 임베딩으로부터 추론되며, 각 샘플링된 잠재 변수는 서로 다른 추론 문맥을 인코딩할 수 있습니다. 추론 시에는 샘플링된 잠재 변수가 학습 가능한 토큰 접두사로 디코딩되어 입력 프롬프트 앞에 추가되며, 이를 통해 모델의 내부 추론 궤적을 변조합니다. 이렇게 함으로써 모델은 출력 생성 전에 추론 전략에 대한 내부 샘플링을 수행하여 전체 응답 시퀀스의 스타일과 구조를 형성합니다. 간단한 지도 미세 조정(SFT) 준비 단계를 통해 모델은 이 잠재 조건화에 적응할 수 있습니다. 강화 학습 최적화 내에서 Reasoning Palette는 다양한 추론 모드의 온디맨드 주입을 가능하게 하여 구조화된 탐색을 용이하게 하고, 탐색 효율성과 지속적 학습 능력을 크게 향상시킵니다. 여러 추론 벤치마크에서의 실험을 통해 본 방법이 (비전-) 언어 모델의 전략적 행동에 대해 해석 가능하고 제어 가능한 조절을 가능하게 하여, 표준 강화 학습 방법 대비 일관된 성능 향상을 달성함을 입증합니다.
기존 온라인 모바일 사용 벤치마크 중 AndroidWorld는 재현 가능한 환경과 결정론적 평가로 인해 가장 널리 사용되는 벤치마크로 자리잡았습니다. 그러나 최근 에이전트들이 90% 이상의 성공률을 달성하며 포화 상태에 도달함에 따라 더욱 도전적인 벤치마크의 필요성이 대두되었습니다. 또한 AndroidWorld 환경은 전자상거래 및 기업용 커뮤니케이션과 같은 핵심 애플리케이션 범주가 부족하고, 모호한 사용자 지시와 복합적 도구 사용으로 특징지어지는 현실적인 모바일 사용 시나리오를 반영하지 못합니다. 이러한 격차를 해소하기 위해 우리는 AndroidWorld와 동일한 수준의 재현 가능한 평가를 유지하면서 실제 모바일 사용을 더 잘 반영하도록 설계된, 20개 애플리케이션에 걸친 201개 작업으로 구성된 훨씬 더 도전적인 벤치마크인 MobileWorld를 소개합니다. MobileWorld의 난이도는 두 측면에서 나타납니다. 첫째, 애플리케이션 간 상호작용을 수반하는 장기 과제를 강조합니다: MobileWorld는 평균 작업 완료 단계 수가 AndroidWorld 대비 약 2배(27.8 vs. 14.3)에 달하며, 다중 애플리케이션 작업 비율도 훨씬 더 높습니다(62.2% vs. 9.5%). 둘째, MobileWorld는 표준 GUI 조작을 넘어 에이전트-사용자 상호작용 및 MCP(Mobile Communication Protocol) 강화 작업을 포함한 새로운 작업 범주를 도입합니다. 강력한 평가를 보장하기 위해 스냅샷 기반 컨테이너 환경과 백엔드 데이터베이스 검사 및 작업 콜백 API를 포함한 정밀한 기능 검증을 제공합니다. 우리는 또한 사용자 상호작용과 MCP 호출을 지원하기 위해 확장된 액션 공간을 가진 플래너-실행자 에이전트 프레임워크를 추가로 개발했습니다. 실험 결과 AndroidWorld 대비 성능이 급격히 하락했으며, 최고의 에이전트 프레임워크와 엔드투엔드 모델이 각각 51.7%, 20.9%의 성공률을 기록했습니다. 우리의 분석은 현재 모델들이 사용자 상호작용 및 MCP 호출에서 상당한 어려움을 겪고 있음을 보여주며, 이는 더욱 강력한 차세대 모바일 인텔리전스를 위한 전략적 로드맵을 제시합니다.
벤처 캐피탈 투자 유치를 마감하기 전에, 변호사들은 자본 구성표 검증을 포함한 실사 절차를 수행합니다. 이는 모든 증권(예: 주식, 옵션, 권리증)과 발행 조건(예: 베스팅 일정, 가속화 조건, 양도 제한)이 방대한 기초 법률 문서로 뒷받침되는지 확인하는 작업입니다. 대형 언어 모델(LLM)이 법률 벤치마크에서 지속적으로 개선되고 있지만, 자본 구성표 검증과 같은 전문 법률 업무 흐름은 강력한 에이전트 시스템으로도 아직 달성하기 어렵습니다. 해당 작업은 다중 문서 추론, 엄격한 증거 추적성, 그리고 결정론적 출력을 요구하는데, 현재의 접근법으로는 이를 안정적으로 제공하지 못합니다. 우리는 자본 구성표 검증을 법률 AI의 실제 벤치마크 사례로 규정하고, 기존 에이전트 시스템의 성능을 분석 및 비교하며, 검증 자동화를 위한 월드 모델 아키텍처를 제안합니다. 더 나아가 이는 적용 지향적 법률 인텔리전스의 기반으로 널리 활용될 수 있습니다.
로봇 학습의 최근 발전은 대규모 데이터셋과 강력한 시각-운동 정책 아키텍처에 의해 주도되어 왔으나, 정책의 강건성은 다양한 데모 데이터 수집의 상당한 비용, 특히 조작 작업에서의 공간적 일반화를 위해 필요한 데이터 수집 비용으로 인해 여전히 제한적입니다. 이러한 반복적인 데이터 수집 부담을 줄이기 위해, 본 연구에서는 3D 제어 인터페이스를 통해 3D 편집 기능과 2D 시각 데이터를 연결하여 새로운 데모 데이터를 생성하는 Real2Edit2Real 프레임워크를 제안합니다. 우리의 접근 방식은 먼저 미터 단위 규모의 3D 재구성 모델을 사용하여 다중 시점 RGB 관측으로부터 장면 기하구조를 재구성합니다. 재구성된 기하구조를 기반으로 포인트 클라우드에 대해 깊이 신뢰도가 높은 3D 편집을 수행하여 새로운 조작 궤적을 생성함과 동시에 로봇 자세를 기하학적으로 보정하여 물리적으로 일관된 깊이를 복원하며, 이는 새로운 데모 데이터 합성을 위한 신뢰할 수 있는 조건으로 작용합니다. 마지막으로, 깊이를 주요 제어 신호로 하고 동작, 에지, 광선 맵을 함께 활용하는 다중 조건 비디오 생성 모델을 제안하여 공간적으로 증강된 다중 시점 조작 비디오를 합성합니다. 4가지 실제 조작 작업에 대한 실험 결과, 단 1-5개의 원본 데모 데이터로부터 생성된 데이터로 학습된 정책이 50개의 실제 데모 데이터로 학습된 정책의 성능을 따라가거나 능가할 수 있으며, 데이터 효율성을 최대 10-50배 향상시킬 수 있음을 입증했습니다. 또한, 높이 및 텍스처 편집에 대한 실험 결과는 본 프레임워크의 유연성과 확장성을 보여주며, 통합 데이터 생성 프레임워크로서의 잠재력을 시사합니다.
우리는 의미론적 3D 부품 분할, 즉 객체를 의미 있는 이름을 가진 부품들로 분해하는 과제를 다룹니다. 부품 주석이 포함된 데이터셋이 존재하지만, 해당 정의는 데이터셋마다 일관성이 없어 강건한 학습에 한계가 있습니다. 기존 방법들은 레이블이 없는 분해 결과를 생성하거나 완전한 형태 주석 없이 단일 부품을 검색해왔습니다. 우리는 부품 명명을 직접적인 집합 정렬 작업으로 공식화하는 ALIGN-Parts를 제안합니다. 우리의 방법은 형상을 암묵적 3D 부품 표현인 '파틀릿(partlet)'으로 분해한 후, 이분 매칭을 통해 부품 설명과 연결합니다. 여기에는 3D 부품 필드의 기하학적 단서, 다중 시점 시각 특징의 외관, 그리고 언어 모델이 생성한 어포던스 설명의 의미론적 지식이 결합됩니다. 텍스트 정렬 손실은 파틀릿이 텍스트와 임베딩 공간을 공유하도록 보장하여, 충분한 데이터가 주어질 경우 이론적으로 개방형 어휘 매칭 설정을 가능하게 합니다. 우리의 효율적이고 새로운 1-shot 3D 부품 분할 및 명명 방법은 확장 가능한 주석 엔진 역할을 포함한 여러 다운스트림 작업에 적용됩니다. 우리 모델은 임의의 설명에 대한 제로샷 매칭과 알려진 범주에 대한 신뢰도 보정 예측을 지원하므로, 인간 검증을 통해 PartNet, 3DCoMPaT++, Find3D를 정렬하는 1,794개의 고유 3D 부품으로 구성된 통합 온톨로지를 생성했습니다. 또한 새로 구축한 Tex-Parts 데이터셋의 예시를 보여줍니다. 아울러 명명된 3D 부품 분할 작업에 적합한 2가지 새로운 평가 지표를 소개합니다.
비전-언어 모델(VLM)은 일반적으로 사전 훈련된 비전 인코더에서 추출한 이미지 토큰을 언어 모델의 텍스트 스트림에 삽입하는 방식으로 훈련됩니다. 이 방법은 모델 내에서 텍스트와 이미지 정보가 서로 완전히 상호작용할 수 있게 하지만, 고해상도 이미지, 긴 대화, 스트리밍 비디오의 경우 메모리와 계산 비용 측면에서 매우 비효율적이 됩니다. 크로스 어텐션을 활용하는 VLM은 토큰 삽입 방식에 비해 효율적인 대안이지만, 특히 세부적인 시각 정보를 다루는 작업에서 명확한 성능 격차를 보입니다. 우리는 이러한 모델 성능 향상의 핵심이 전용 크로스 어텐션 레이어 내에서 지역적인 텍스트-텍스트 상호작용을 가능하게 하는 데 있음을 발견했습니다. 이를 바탕으로 우리는 CASA(Cross-Attention via Self-Attention)를 제안합니다. CASA는 간단하면서도 효율적인 패러다임으로, 일반적인 이미지 이해 벤치마크에서 전체 토큰 삽입 방식과의 성능 격차를 크게 줄이면서, 스트리밍 비디오 캡셔닝과 같은 장문의 멀티모달 작업에 적용할 때 크로스 어텐션 모델과 동일한 확장성을 유지합니다. 샘플 및 코드는 https://kyutai.org/casa 프로젝트 페이지에서 확인하실 수 있습니다.
우리는 LLM의 삼단논법 추론 능력을 논리적 및 자연어 관점에서 연구한다. 이 과정에서 LLM의 기본적인 추론 능력과 이 연구가 나아가는 방향을 탐구한다. 연구를 지원하기 위해 14개의 대규모 언어 모델을 사용하며, 이들의 삼단논법 추론 능력을 기호론적 추론과 자연어 이해 측면에서 조사한다. 이러한 추론 메커니즘이 모든 LLM에서 균일하게 나타나는 속성은 아니지만, 특정 모델에서 보여준 완벽한 기호론적 성능은 LLM이 인간 추론의 미묘한 차이를 구현하기보다 점점 더 형식적인 추론 메커니즘으로 진화하고 있는 것은 아닌지 의문을 제기한다.
재료 매개변수와 3D 형상의 수동 모델링은 게임 및 영화 산업에서 시간이 많이 소요되지만 필수적인 작업입니다. 최근 3D 재구성 기술의 발전으로 장면 형상과 외관을 정확하게 근사화할 수 있게 되었지만, 이러한 방법들은 정밀한 공간 변동 재료 매개변수의 부족으로 인해 재조명 시나리오에서 종종 한계를 보입니다. 동시에 2D 이미지 기반 확산 모델들은 알베도, 거칠기, 금속성 등 물리 기반 렌더링(PBR) 속성 예측에서 강력한 성능을 보여주고 있습니다. 그러나 이러한 2D 재료 맵을 재구성된 3D 형상에 전사하는 것은 여전히 큰 과제로 남아 있습니다. 우리는 새로운 학습 기반 및 투영 기반 접근법을 결합하여 2D 재료 데이터를 3D 형상에 융합하는 프레임워크를 제안합니다. 먼저 Gaussian Splatting을 통해 장면 형상을 재구성합니다. 입력 이미지로부터 확산 모델이 알베도, 거칠기, 금속성 매개변수에 대한 2D 맵을 생성합니다. 이미지나 비디오를 PBR 재료로 변환할 수 있는 기존 확산 모델은 모두 적용 가능합니다. 예측 결과는 이미지 기반 손실 최적화 또는 Gaussian 레이 트레이싱을 사용하여 재료 매개변수를 Gaussian에 직접 투영함으로써 3D 표현에 통합됩니다. 미세 규모 정확도와 다중 시점 일관성을 향상시키기 위해, 우리는 레이 트레이싱된 재료 특징을 입력으로 받아 세부 조정을 생성하는 경량 신경망 정제 단계(Neural Merger)를 추가로 도입합니다. 우리의 결과는 제안 방법이 정량적 지표와 지각적 시각적 사실감 모두에서 기존 기술을 능가함을 보여줍니다. 이를 통해 재구성된 장면으로부터 더 정확하고 재조명 가능하며 사실적인 렌더링이 가능해져, 콘텐츠 제작 파이프라인에서 에셋 생성 워크플로우의 사실성과 효율성을 크게 향상시킵니다.
AI 어시스턴트는 보안 관련 시나리오의 45%에서 취약한 코드를 생성하여 대규모로 프로덕션 시스템에 결함을 도입합니다. 그러나 기존의 보안 코딩 데이터셋은 한계를 보입니다. 사고 기반이 부족하고, 현대적 훈련에 필요한 규모를 제공하지 않으며, 개발자가 프로덕션 배포에 필요한 운영 보안 맥락을 누락하고 있습니다. 우리는 구조적 검증과 전문가 보안 검토를 통과한 1,215개의 보안 중심 코딩 예제로 구성된 프로덕션 등급 데이터셋인 SecureCode v2.0을 소개합니다. 모든 예제는 CVE 참조가 포함된 실제 문서화된 보안 사고와 연결되어 있으며, 취약한 구현과 안전한 구현을 제공하고, 구체적인 공격을演示하며, 심층 방어 운영 가이드라인을 포함합니다. 이 데이터셋은 11개 언어(Python, JavaScript, Java, Go, PHP, C#, TypeScript, Ruby, Rust, Kotlin 및 인프라스트럭처-as-code용 YAML)에 걸쳐 11개 취약점 범주(완전한 OWASP Top 10:2025 및 AI/ML 보안 위협 포함)를 다룹니다. 우리의 품질 보증 프레임워크는 완전한 사고 기반을 보장합니다. 각 예제에는 SIEM 통합 전략, 인프라 강화 권장사항(Docker, AppArmor, WAF 구성), 그리고 언어에 적합한 프레임워크를 사용한 테스트 접근법이 포함됩니다. 이 데이터셋은 실제 개발자-AI 상호작용을 반영한 4턴 대화 구조를 사용하여 기본 구현부터 고급 보안 고려사항 및 심층 방어 지침으로 단계적으로 확장됩니다. 우리의 기여점은 다음과 같습니다: (1) 989개 훈련 세트, 122개 검증 세트, 104개 테스트 세트로 구분된 1,215개의 엄격하게 검증된 예제, (2) 데이터셋 일관성을 보장하는 자동화된 검증 프레임워크, (3) 현실적인 보안 워크플로우를 포착하는 4턴 대화 구조, (4) SIEM 통합 전략을 포함한 포괄적인 운영 보안 지침, (5) 완전한 언어별 구현 정확도, (6) 데이터, 검증 도구 및 벤치마킹 프로토콜의 오픈소스 공개.
전문 영상 합성 워크플로우에서는 아티스트들이 전경 피사체와 배경 레이어 간의 그림자, 반사, 먼지, 물보라와 같은 환경적 상호작용을 수동으로 생성해야 합니다. 기존 영상 생성 모델들은 이러한 효과를 추가하면서 입력 영상을 보존하는 데 어려움을 겪으며, 현재의 영상 인페인팅 방법들은 프레임별로 고비용의 마스크를 요구하거나 비현실적인 결과를 생성합니다. 본 연구에서는 텍스트 프롬프트와 입력 영상 레이어를 조건으로 하여 원본 장면을 보존하면서 사실적인 반투명 환경 효과를 합성하는 새로운 과제인 증강 합성(augmented compositing)을 소개합니다. 이 과제를 해결하기 위해 카메라 포즈, 장면 정지 상태, 깊이 감독에 대한 가정 없이 동작하는 영상 효과 생성 프레임워크인 Over++를 제안합니다. 본 과제에 특화된 paired 효과 데이터셋을 구축하고 텍스트 기반 편집 가능성을 보존하는 unpaired 증강 전략을 도입했습니다. 또한 우리의 방법은 조밀한 주석 없이도 선택적 마스크 제어와 키프레임 안내를 지원합니다. 제한된 데이터로 훈련되었음에도 Over++는 다양하고 사실적인 환경 효과를 생성하며 효과 생성과 장면 보존 측면에서 기존 베이스라인을 능가합니다.
대규모 언어 모델(LLM)의 해석 가능성 방법은 일반적으로 외부 근거가 부족할 수 있는 텍스트 기반 지도(supervision)에서 방향성을 도출한다. 우리는 인간 뇌 활동을 훈련 신호가 아닌 LLM 상태를 읽고 조종(steering)하기 위한 좌표계로 사용하는 것을 제안한다. SMN4Lang MEG 데이터셋을 이용해 위상 동기화 값(PLV) 패턴의 단어 수준 뇌 아틀라스를 구축하고 ICA를 통해 잠재 축을 추출한다. 독립적인 어휘 목록(lexica)과 NER 기반 레이블(POS/로그 주파수는 정성 검증용으로 사용)로 축을 검증한 후, LLM을 미세 조정하지 않고 LLM 은닉 상태를 이러한 뇌 축에 매핑하는 경량 어댑터를 훈련시킨다. 결과적으로 도출된 뇌 기반 방향을 따라 조종하면 TinyLlama 중간 계층에서 강력한 어휘적(주파수 연관) 축이 나타나며, 이는 perplexity가匹配된 대조군에서도 유지된다. 뇌 대 텍스트 프로브 비교에서는 뇌 축에서 텍스트 프로브에 비해 더 큰 로그 주파수 변화와 더 낮은 perplexity를 보인다. 기능/내용 축(축 13)은 TinyLlama, Qwen2-0.5B, GPT-2에서 일관된 조종 효과를 보이며, PPL이匹配된 텍스트 수준의 입증을 얻는다. TinyLlama의 4번째 계층 효과는 크지만 불일치하여 이차적인 것으로 간주한다(부록). 아틀라스를 GPT 임베딩 변화 특징 없이 또는 word2vec 임베딩으로 재구성할 때 축 구조는 안정적이며(匹配된 축 간 |r|=0.64-0.95), 순환성 문제를 줄여준다. 탐색적 fMRI 기반 고정(anchoring)은 임베딩 변화와 로그 주파수에 대한 잠재적 정렬 가능성을 시사하지만, 효과는 혈역학적 모델링 가정에 민감하여 집단 수준 증거로만 간주한다. 이러한 결과는 새로운 인터페이스를 지지한다: 신경생리학에 기반한 축은 LLM 행동에 대한 해석 가능하고 제어 가능한 핸들을 제공한다.