번역이 포함된 일일 선별된 AI 연구 논문
스토리텔러가 자신의 이야기를 잊어버리면 어떤 일이 발생할까요? 대규모 언어 모델(LLM)은 이제 수만 단어에 달하는 서사를 생성할 수 있지만, 종종 처음부터 끝까지 일관성을 유지하지 못합니다. 장편 서사를 생성할 때 이러한 모델은 이미 확립된 사실, 등장인물 특성, 세계관 규칙과 모순되는 내용을 만들어낼 수 있습니다. 기존의 스토리 생성 벤치마크는 주로 플롯의 질과 유창성에 초점을 맞추고 있어 일관성 오류는 크게 탐구되지 않고 있습니다. 이러한 격차를 해결하기 위해, 우리는 장편 스토리 생성에서 서사 일관성을 평가하기 위해 설계된 벤치마크인 ConStory-Bench을 소개합니다. 이 벤치마크는 4가지 작업 시나리오에 걸친 2,000개의 프롬프트를 포함하며, 19개의 세분화된 하위 유형을 가진 5가지 오류 범주 체계를 정의합니다. 또한 우리는 모순을 감지하고 각 판단을 명시적인 텍스트 증거에 기반하게 하는 자동화 파이프라인인 ConStory-Checker를 개발했습니다. 5개의 연구 질문을 통해 다양한 LLM을 평가한 결과, 일관성 오류는 다음과 같은 뚜렷한 경향을 보입니다: 사실적 및 시간적 차원에서 가장 흔하게 나타나고, 서사 중간 부분 주변에 발생하는 경향이 있으며, 토큰 수준 엔트로피가 높은 텍스트 세그먼트에서 발생하고, 특정 오류 유형은 함께 발생하는 경향이 있습니다. 이러한 발견들은 향후 장편 서사 생성의 일관성 개선 노력에 정보를 제공할 수 있습니다. 우리의 프로젝트 페이지는 https://picrew.github.io/constory-bench.github.io/에서 확인할 수 있습니다.
공간 지능의 추구는 근본적으로 대규모의 정밀한 3D 데이터에 대한 접근에 의존합니다. 그러나 기존 접근법들은 새로운 대규모 3D 장면을 원본 웹 데이터로부터 체계적으로 주석 처리하기보다는 제한된 수의 수동 주석 데이터셋에서 질문-답변(QA) 쌍을 생성하여 공간 이해 벤치마크를 구축하는 데 주력해 왔습니다. 그 결과, 확장성이 심각하게 제한되며, 모델 성능은 이러한 협소하게 선별된 데이터셋에 내재된 도메인 간격으로 인해 더욱 저해됩니다. 본 연구에서는 제안된 데이터 선별 파이프라인을 사용하여 인간의 개입 없이 원본 비디오 입력으로부터 구축된 최초의 완전 자동화된 대규모 공간 인식 멀티모달 데이터셋인 Holi-Spatial을 제안합니다. Holi-Spatial은 렌더링된 깊이 맵과 함께 기하학적으로 정확한 3D Gaussian Splatting(3DGS) 재구성부터 객체 수준 및 관계적 의미론 주석, 그리고 이에 상응하는 공간 질문-답변(QA) 쌍에 이르기까지 다중 수준의 공간 감독을 지원합니다. 원칙적이고 체계적인 파이프라인에 따라, 우리는 12K개의 최적화된 3DGS 장면, 130만 개의 2D 마스크, 32만 개의 3D 바운딩 박스, 32만 개의 인스턴스 캡션, 120만 개의 3D 그라운딩 인스턴스, 그리고 다양한 기하학적, 관계적, 의미론적 추론 작업을 아우르는 120만 개의 공간 QA 쌍을 포함하는 최초의 대규모 고품질 3D 의미론 데이터셋인 Holi-Spatial-4M을 추가로 구축했습니다. Holi-Spatial은 데이터 선별 품질에서 탁월한 성능을 보여주며, ScanNet, ScanNet++, DL3DV와 같은 데이터셋에서 기존의 피드포워드 및 장면별 최적화 방법들을 크게 능가합니다. 더 나아가, 이 데이터셋을 사용하여 공간 추론 작업에 대해 Vision-Language Models(VLMs)을 미세 조정함으로써 모델 성능에도 상당한 개선이 이루어졌습니다.
피드포워드 기하학적 기초 모델은 짧은 구간 재구성에서 우수한 성능을 달성하지만, 분 단위 영상으로 확장 적용 시 순환 설계의 2차 어텐션 복잡도나 제한된 유효 메모리로 인해 병목 현상이 발생합니다. 본 논문에서는 사후 최적화 없이 극도로 긴 시퀀스에 대한 조밀한 3차원 재구성을 확장하는 새로운 아키텍처인 LoGeR(Long-context Geometric Reconstruction)을 제시합니다. LoGeR은 영상 스트림을 청크 단위로 처리하며 강력한 양방향 사전 정보를 활용하여 높은 정밀도의 청크 내 추론을 수행합니다. 청크 경계 간 일관성이라는 핵심 과제를 관리하기 위해 학습 기반 하이브리드 메모리 모듈을 제안합니다. 이 이중 구성 요소 시스템은 글로벌 좌표계를 고정하고 스케일 드리프트를 방지하는 파라메트릭 테스트 타임 트레이닝(TTT) 메모리와, 고정밀 인접 정렬을 위해 비압축 컨텍스트를 보존하는 비파라메트릭 슬라이딩 윈도우 어텐션(SWA) 메커니즘을 결합합니다. 주목할 점은 이 메모리 아키텍처로 인해 LoGeR이 128프레임 시퀀스로 훈련된 후 추론 시 수천 프레임까지 일반화가 가능하다는 것입니다. 표준 벤치마크와 최대 19,000프레임 시퀀스로 재구성된 새로운 VBR 데이터셋에서 평가한 결과, LoGeR은 기존 최첨단 피드포워드 방법을 크게 능가하며(KITTI에서 ATE 74% 이상 감소) 전례 없는 범위에서 견고하고 전역적으로 일관된 재구성을 달성합니다.
검증 가능한 보상을 활용한 비지도 강화 학습(URLVR)은 정답 레이블 없이 보상을 도출함으로써 LLM 훈련을 감독 병목 현상을 넘어 확장할 수 있는 길을 제시합니다. 최근 연구들은 모델 내재 신호를 활용하여 초기 성과를 보여주지만, 그 잠재력과 한계는 여전히 불분명합니다. 본 연구에서는 URLVR을 재검토하고 분류체계, 이론, 광범위한 실험을 아우르는 종합적 분석을 제공합니다. 먼저 URLVR 방법을 보상 출처에 따라 내재적 방법과 외부적 방법으로 분류한 후, 모든 내재적 방법이 모델의 초기 분포를 선명하게 만드는 방향으로 수렴한다는 것을 밝히는 통일된 이론적 프레임워크를 정립합니다. 이러한 선명화 메커니즘은 초기 신뢰도가 정답과 일치할 때 성공하지만, 불일치할 경우 치명적으로 실패합니다. 체계적인 실험을 통해 우리는 내재적 보상이 방법론에 관계없이 일관되게 상승 후 하락 패턴을 따르며, 붕괴 시점이 엔지니어링 선택보다 모델 사전 지식에 의해 결정됨을 보여줍니다. 이러한 확장 한계에도 불구하고, 내재적 보상은 소규모 데이터셋의 테스트 타임 훈련에서 여전히 가치가 있으며, 우리는 모델 사전 지식을 측정하는 Model Collapse Step을 제안하여 RL 훈련 가능성의 실용적 지표로 활용합니다. 마지막으로, 계산 비대칭성에 기반한 검증을 수행하는 외부 보상 방법을 탐구하며, 이들이 신뢰도-정확도 한계를 벗어날 가능성을 보여주는 예비 증거를 제시합니다. 우리의 연구 결과는 내재적 URLVR의 경계를 규명하는 동시에 확장 가능한 대안을 위한 길을 제시합니다.
대규모 추론 모델은 테스트 시간 스케일링 기법의 발전으로 인해 여러 후보 응답을 생성하고 가장 신뢰할 수 있는 답변을 선택함으로써 예측 정확도를 향상시키는 놀라운 성능을 보여주고 있습니다. 기존 연구에서는 신뢰도 점수와 같은 내부 모델 신호가 응답 정확성을 부분적으로 나타내며 정확도와 분포적 상관관계를 보인다고 분석했지만, 이러한 분포 정보가 답변 선택을 안내하는 데 완전히 활용되지는 못했습니다. 이에 동기를 부여받아, 우리는 분포적 사전 정보를 투표 과정에서 신뢰도와 함께 또 다른 신호로 통합하는 DistriVoting을 제안합니다. 구체적으로, 우리의 방법은 (1) 먼저 가우시안 혼합 모델을 사용하여 혼합된 신뢰도 분포를 긍정 및 부정 구성 요소로 분해하고, (2) 이를 통해 얻은 긍정/부정 샘플을 기반으로 한 불량 필터를 적용하여 두 분포 간의 중첩을 완화합니다. 또한 분포 자체의 관점에서 중첩을 추가적으로 완화하기 위해, 단계별 신뢰도를 사용하여 추론 과정을 동적으로 조정하여 두 분포 간의 분리를 증가시키고 투표 시 신뢰도의 신뢰성을 향상시키는 SelfStepConf를 제안합니다. 16개 모델과 5개 벤치마크에 걸친 실험을 통해 우리의 방법이 최첨단 접근법을 크게 능가함을 입증합니다.
통합 멀티모달 모델(UMM)의 최근 발전은 사고 연쇄(CoT) 추론의 통합을 통해 텍스트-이미지(T2I) 생성 기술을 크게 진전시켰습니다. 그러나 기존 CoT 기반 T2I 방법은 대부분 추상적인 자연어 기반 계획에 의존하여 복잡한 공간 배치, 구조화된 시각 요소, 밀집된 텍스트 콘텐츠를 정확하게 표현하는 데 한계가 있습니다. 본 연구에서는 추론 과정을 실행 가능한 코드로 표현하여 이미지 생성을 위한 명시적이고 검증 가능한 중간 계획을 가능하게 하는 코드 기반 추론 프레임워크인 CoCo(Code-as-CoT)를 제안합니다. 텍스트 프롬프트가 주어지면 CoCo는 먼저 장면의 구조적 레이아웃을 명시하는 실행 코드를 생성하며, 이 코드는 샌드박스 환경에서 실행되어 결정론적인 초안 이미지를 렌더링합니다. 이후 모델은 이 초안을 세밀한 이미지 편집을 통해 정제하여 최종 고품질 결과물을 생성합니다. 이러한 훈련 패러다임을 지원하기 위해 구조화된 초안-최종 이미지 쌍으로 구성된 정제된 데이터셋인 CoCo-10K를 구축하여 구조화된 초안 구성과 수정적 시각 정제를 학습하도록 설계했습니다. StructT2IBench, OneIG-Bench, LongText-Bench에 대한 실험적 평가 결과, CoCo는 직접 생성 방식 대비 각각 +68.83%, +54.8%, +41.23%의 성능 향상을 달성했으며, CoT를 활용한 다른 생성 방법들보다도 우수한 성능을 보였습니다. 이러한 결과는 실행 가능한 코드가 정밀하고 제어 가능하며 구조화된 텍스트-이미지 생성을 위한 효과적이고 신뢰할 수 있는 추론 패러다임임을 입증합니다. 코드는 https://github.com/micky-li-hd/CoCo 에서 확인할 수 있습니다.
통합 디퓨전 편집기는 다양한 작업에 고정된 공유 백본을 사용함으로써 작업 간섭과 이질적 요구사항(예: 지역적 vs 전역적, 의미론적 vs 광도적)에 대한 낮은 적응력을 겪습니다. 특히 널리 사용되는 ControlNet 및 OmniControl 변종들은 정적 연결(concatenation) 또는 가법 어댑터(additive adapters)를 통해 여러 조건 신호(예: 텍스트, 마스크, 참조 이미지)를 결합하는데, 이는 상충되는 모달리티를 동적으로 우선시하거나 억제할 수 없어 마스크 경계를 넘는 색상 번짐(color bleeding), 정체성 또는 스타일 드리프트(drift), 다중 조건 입력 시 예측 불가능한 동작과 같은 아티팩트를 초래합니다. 이를 해결하기 위해 우리는 모델 계산을 특정 편집 능력과 정렬하는 조건 인식 전문가 라우팅(Condition-Aware Routing of Experts, CARE-Edit)을 제안합니다. 핵심적으로, 경량의 잠재 주의력 라우터(latent-attention router)는 다중 모달 조건과 디퓨전 타임스텝에 따라 인코딩된 디퓨전 토큰을 네 명의 전문가(Text, Mask, Reference, Base)에게 할당합니다: (i) 마스크 리페인트(Mask Repaint) 모듈은 먼저 정확한 공간적 guidance를 위해 사용자가 정의한 coarse 마스크를 개선합니다; (ii) 라우터는 sparse top-K 선택을 적용하여 가장 관련성 높은 전문가에게 계산을 동적으로 할당합니다; (iii) 잠재 혼합(Latent Mixture) 모듈은 이후 전문가들의 출력을 융합하여 의미론적, 공간적, 스타일 정보를 기본 이미지에 일관성 있게 통합합니다. 실험을 통해 CARE-Edit이 삭제, 대체, 텍스트 기반 편집, 스타일 변환을 포함한 문맥 기반 편집 작업에서 강력한 성능을 보임을 입증했습니다. 실증 분석은 더 나아가 전문가들의 작업 특화적 행동을 보여주며, 다중 조건 충돌을 완화하기 위한 동적이고 조건 인식적인 처리의 중요성을 부각합니다.
자기회귀(AR) 확산 모델은 이론적으로 무한한 길이의 비디오를 생성할 수 있는 유망한 프레임워크를 제공합니다. 그러나 시간적 연속성을 유지하면서 오류 누적으로 인한 점진적인 화질 저하를 방지하는 것이 주요 과제로 남아있습니다. 기존 방법들은 연속성을 보장하기 위해 일반적으로 고도로 잡음이 제거된 컨텍스트를 조건으로 사용하지만, 이 방식은 예측 오류를 높은 확신도로 전파하여 화질 저하를 악화시킵니다. 본 논문에서는 고도로 깨끗한 컨텍스트가 불필요함을 주장합니다. 양방향 확산 모델에서 영감을 얻어, 공유된 잡음 수준에서 프레임의 잡음을 제거하면서 일관성을 유지하는 방식에 기반하여, 현재 블록과 동일한 잡음 수준의 컨텍스트를 조건으로 사용하는 것이 시간적 일관성을 위한 충분한 신호를 제공하면서 오류 전파를 효과적으로 완화한다고 제안합니다. 이러한 통찰을 바탕으로, 우리는 기존 생성 순서를 반전하는 계층적 잡음 제거 프레임워크인 HiAR를 제안합니다. HiAR는 각 블록을 순차적으로 완성하는 대신, 모든 잡음 제거 단계에서 모든 블록에 걸쳐 인과적 생성을 수행하여 각 블록이 항상 동일한 잡음 수준의 컨텍스트를 조건으로 갖도록 합니다. 이 계층적 구조는 파이프라인 병렬 추론을 자연스럽게 허용하여, 우리의 4단계 설정에서 1.8배의 실제 시간 속도 향상을 가져옵니다. 또한, 우리는 이 패러다임 하에서의 자기 롤아웃 증류가 최빈값을 찾는 역 KL 목적함수에 내재된 저운동 단축 경로를 증폭시킨다는 것을 관찰했습니다. 이를 상쇄하기 위해, 우리는 양방향 어텐션 모드에서 순방향 KL 정규화기를 도입하여, 증류 손실에 간섭하지 않으면서 인과적 추론을 위한 운동 다양성을 보존합니다. VBench(20초 생성)에서 HiAR는 비교 대상 모든 방법 중 최고의 종합 점수와 가장 낮은 시간적 드리프트를 달성했습니다.
언어 모델(LM)이 채팅 어시스턴트에서 다단계 추론과 도구 사용이 가능한 장기적 에이전트로 진화함에 따라, 기존 벤치마크는 여전히 실제 전문직 업무 수요를 충분히 반영하지 못하는 구조화되거나 시험 형식의 과제에 한정되어 있습니다. 이를 위해 우리는 경제적으로 중대한 시나리오에서 에이전트를 평가하기 위해 법률, 금융, 산업, 의료, 자연과학 분야를 아우르는 400개의 전문가 검증 과제로 구성된 벤치마크인 OneMillion-Bench를 소개합니다. 기존 연구와 달리, 본 벤치마크는 권위 있는 출처 검색, 상충되는 증거 해결, 도메인 특화 규칙 적용, 제약 조건 하의 의사결정을 요구하며, 정확도는 최종 답변뿐만 아니라 추론 과정에 크게 의존합니다. 우리는 사실적 정확성, 논리적 일관성, 실무적 실행 가능성, 전문성 준수를 평가하는 루브릭 기반 평가 프로토콜을 채택하여, 전문가 수준의 문제에 집중함으로써 에이전트 간 의미 있는 성능 차별화를 보장합니다. 종합적으로, OneMillion-Bench는 도메인 집약적 시나리오에서 에이전트의 신뢰성, 전문성 깊이, 실무 준비도를 평가하는 통합 테스트베드를 제공합니다.
자동회귀(AR) LLM 기반 음성 인식 시스템은 높은 정확도를 달성하지만 순차적 디코딩으로 인해 병렬 처리가 제한되고 높은 지연 시간이 발생합니다. 본 연구에서는 음성 인식을 조건부 텍스트 편집으로 재구성하여 완전 병렬 예측이 가능한 비자동회귀(NAR) 방식인 NLE를 제안합니다. NLE는 사전 학습된 음성 인코더에서 음향 임베딩과 초기 가설을 추출한 후, 잠재 정렬 목적함수로 학습된 양방향 LLM 편집기를 사용하여 가설을 정제합니다. 인터리브 패딩 전략은 Transformer의 항등 매핑 편향을 활용하여 모델이 전체 재구성이 아닌 수정에 집중할 수 있도록 합니다. Open ASR 리더보드에서 NLE++는 5.67%의 평균 WER과 1630의 RTFx(실시간 계수의 역수)를 달성했습니다. 단일 발화 시나리오에서 NLE는 AR 기준 대비 27배의 속도 향상을 보여 실시간 응용에 적합함을 입증했습니다.
AutoResearch-RL을 소개합니다. 이는 인간의 감독 없이 강화 학습 에이전트가 개방형 신경망 구조 및 하이퍼파라미터 연구를 수행하는 프레임워크로, 종료 오라클이 수렴 또는 자원 고갈을 신호할 때까지 영구적으로 실행됩니다. 각 단계에서 에이전트는 대상 학습 스크립트에 대한 코드 수정을 제안하고, 고정된 벽시계 시간 예산 내에서 이를 실행하며, 검증 비트퍼바이트(val-bpb)에서 도출된 스칼라 보상을 관찰한 후, Proximal Policy Optimisation(PPO)을 통해 정책을 업데이트합니다. 핵심 설계 통찰은 세 가지 관심사의 분리에 있습니다: (i) 공정한 교차 실험 비교를 보장하는 고정 환경(데이터 파이프라인, 평가 프로토콜, 상수); (ii) 에이전트의 편집 가능한 상태를 나타내는 변경 가능한 대상 파일(train.py); (iii) 실험 결과의 증가하는 궤적을 축적하고 이를 후속 제안에 활용하는 메타 학습기(RL 에이전트 자체)입니다. 이를 Markov Decision Process로 공식화하고, 완만한 가정 하에서 수렴 보장을 유도하며, 단일 GPU 나노챗 프리트레이닝 벤치마크에서 경험적으로 입증한 바에 따르면 AutoResearch-RL은 약 300회의 야간 반복 후 인간 개입 없이 수동 튜닝 기준선을 맞추거나 능가하는 구성을 발견합니다.
대규모 도구 생태계에서 작동하는 에이전트 시스템은 약하거나 검증 불가능한 감독 하에 장기간 워크플로우를 계획하고 실행해야 합니다. 최첨단 모델들은 규모와 큰 컨텍스트 예산을 통해 이러한 문제를 완화하지만, 소형 언어 모델(SLM)은 여전히 취약합니다: 과도한 도구 로딩은 컨텍스트를 포화시키고, 실행 오류는 시간이 지남에 따라 누적되며, 희소한 보상은 학습을 제한합니다. 우리는 ATLAS를 소개합니다. 이는 강화 미세조정 프레임워크로, SLM이 컨텍스트를 획득하고 행동을 실행하는 방법을 학습하여 대규모 도구 공간 환경에서 효과적으로 작동할 수 있게 합니다. 우리의 접근 방식은 두 가지 주요 기여를 합니다. 첫째, 컨텍스트 제어와 실행 구조를 학습 가능한 결정으로 간주하여, 반복적인 도구 로딩과 프로그램 방식의 도구 오케스트레이션을 결합해 컨텍스트 증가를 제한하고 장기간 궤적을 안정화합니다. 둘째, 루브릭 기반 강화 미세조정을 제안합니다. 이는 작업 성공을 구조화되고 작업에 부합하는 기준으로 분해하고 소형 판단 모델을 사용한 확장 가능한 훈련을 가능하게 합니다. MCP 벤치마크 전반에서 이러한 설계 선택은 일반적인 RL 기준선 대비 크고 일관된 성능 향상을 가져와, 4B SLM이 훨씬 더 제한된 매개변수 및 컨텍스트 예산 내에서 최첨단 에이전트 성능에 근접할 수 있게 합니다.
확산 모델은 노이즈를 통해 이미지를 저하시키며, 이 과정을 역으로 진행하면 타임스텝에 걸친 정보 계층 구조가 드러납니다. 스케일 공간 이론은 저대역 통과 필터링을 통해 유사한 계층 구조를 보여줍니다. 본 연구에서는 이러한 연관성을 공식화하고, 고도로 노이즈가 첨가된 확산 상태가 작은 다운샘플링 이미지보다 더 많은 정보를 포함하지 않음을 입증하며, 왜 이러한 상태를 전체 해상도로 처리해야 하는지에 대한 의문을 제기합니다. 이를 해결하기 위해 일반화된 선형 저하와 실용적인 구현을 통해 확산 과정에 스케일 공간을 융합한 새로운 확산 모델 패밀리를 제안합니다. 다운샘플링을 저하 방식으로 사용하는 것이 우리가 제안하는 스케일 공간 확산입니다. 스케일 공간 확산을 지원하기 위해, 네트워크의 필요한 부분만 사용하여 해상도 유지 및 해상도 증가 디노이징을 수행하는 UNet 변형인 Flexi-UNet을 소개합니다. 우리는 CelebA와 ImageNet 데이터셋을 통해 본 프레임워크를 평가하고, 해상도와 네트워크 깊이에 따른 확장 성능을 분석합니다. 프로젝트 웹사이트(https://prateksha.github.io/projects/scale-space-diffusion/)는 공개되어 있습니다.
현재 그래픽 사용자 인터페이스(GUI) 에이전트는 주로 반응적 패러다임 하에서 운영됩니다. 사용자는 에이전트가 작업을 수행하기 위해 명시적인 지시를 제공해야 합니다. 그러나 지능형 AI 어시스턴트는 능동적이어야 하며, 모바일이나 데스크톱 스크린샷과 같은 연속적인 시각적 입력에서 직접 사용자 의도를 예측하고 명시적인 사용자 요청 없이도 적시에 권장 사항을 제공할 수 있어야 합니다. 이러한 능동적 패러다임으로의 전환은 상당한 과제를 안고 있습니다. 실제 화면 활동은 선형적인 경우가 거의 없으며, 노이즈가 많은 브라우징, 의미 없는 작업, 다중 스레드 작업 전환으로 가득한 장기 궤적으로 구성됩니다. 이러한 격차를 해결하기 위해 우리는 PIRA-Bench(Proactive Intent Recommendation Agent Benchmark)를 소개합니다. 이는 연속적이고 약한 감독을 받는 시각적 입력에 대한 멀티모달 대규모 언어 모델(MLLM)의 성능을 평가하기 위한 새로운 벤치마크입니다. 반응형 데이터셋과 달리, PIRA-Bench는 여러 개의 얽힌 의도와 다양한 사용자 프로필 컨텍스트를 가진 노이즈 세그먼트로 구성된 복잡한 궤적을 특징으로 하며, 에이전트가 사용자 선호도에 맞추면서 실행 가능한 이벤트를 탐지하도록 요구합니다. 더 나아가, 우리는 PIRF 베이스라인을 제안합니다. 이는 메모리 인식 상태 추적 프레임워크로, 범용 MLLM이 여러 작업 스레드를 관리하고 오해의 소지가 있는 시각적 입력을 처리할 수 있도록 합니다. PIRA-Bench는 강력하고 능동적인 GUI 기반 개인 어시스턴트를 향한 초기 단계를 제공합니다.
대규모 언어 모델(LLM)을 자율 에이전트로 훈련할 때는 모방 학습으로 시작하는 경우가 많지만, 이는 에이전트에게 '무엇을 해야 하는지'만 가르칠 뿐 '왜 그래야 하는지'를 이해시키지는 못합니다. 에이전트는 성공적인 행동과 차선의 행동 대안을 대조해 보지 않기 때문에 행동의 질에 대한 인식이 부족합니다. 최근 연구들은 전문가의 행동과 대안 행동을 대조하여 도출된 자기 성찰 감독을 도입하여 이 문제를 해결하려고 시도합니다. 그러나 이러한 훈련 패러다임은 근본적으로 여전히 모방 학습에 머물러 있습니다. 즉, 모델이 자율적으로 추론하는 법을 배우기보다는 미리 구성된 성찰 텍스트를 모방하는 것입니다. 우리는 강화 학습 패러다임인 행위주도적 비판 훈련(Agentic Critical Training, ACT)을 제안합니다. ACT는 에이전트가 여러 대안 행동 중 더 나은 행동을 식별하도록 훈련합니다. 모델의 판단이 정확한지 여부에 대해 보상을 부여함으로써, ACT는 모델이 행동의 질에 대한 추론 능력을 자율적으로 발전시키도록 유도하며, 성찰을 모방하는 것이 아닌 진정한 자기 성찰을 생성하게 합니다. 세 가지 도전적인 에이전트 벤치마크에서 ACT는 다양한 사후 훈련 방법과 결합되었을 때 에이전트 성능을 지속적으로 향상시켰습니다. 이는 모방 학습 대비 평균 5.07점, 강화 학습 대비 평균 4.62점의 향상을 달성했습니다. 지식 증류를 통해 성찰 능력을 주입하는 접근법과 비교해서도 ACT는 평균 2.42점의 향상으로 뚜렷한 이점을 보였습니다. 더 나아가, ACT는 에이전트 벤치마크에서 강력한 분포 외 일반화 능력을 가능하게 했으며, 추론 특화 훈련 데이터 없이도 일반 추론 벤치마크에서 성능을 향상시켜 우리 방법의 가치를 부각했습니다. 이러한 결과는 ACT가 더 성찰적이고 유능한 LLM 에이전트를 개발하기 위한 유망한 방향임을 시사합니다.
현재 비디오 생성 모델은 높은 계산 지연 시간으로 인해 실시간 응용 프로그램 구현에 과도한 비용이 발생하는 문제점을 안고 있습니다. 본 논문에서는 비디오 잠재 패치에 내재된 시간적 중복성을 활용하여 이러한 한계를 해결하고자 합니다. 이를 위해 중복된 잠재 패치의 재계산을 탐지하고 생략하는 LIPAR(Latent Inter-frame Pruning with Attention Recovery) 프레임워크를 제안합니다. 더불어 프루닝된 토큰의 어텐션 값을 근사화하여 순수 프루닝 방식 적용에서 발생하는 시각적 결함을 제거하는 새로운 어텐션 복원 메커니즘을 도입합니다. 실험 결과, 본 방법은 비디오 편집 처리량을 1.45배 향상시켰으며, NVIDIA A6000에서 기준치 8.4 FPS 대비 평균 12.2 FPS를 달성했습니다. 제안 방법은 생성 품질을 저하시키지 않으며 추가 학습 없이 모델에 원활하게 통합될 수 있습니다. 본 접근법은 기존 압축 알고리즘과 현대 생성 파이프라인 간의 격차를 효과적으로 연결합니다.
대규모 언어 모델(LLM)은 강력한 일반적 능력을 보여주었으나, 집약된 도메인 특화 용어, 엄격한 수치 추론 요구사항, 사실 오류에 대한 낮은 허용 오차로 인해 금융 분야에서의 활용은 여전히 어려움을 겪고 있습니다. 본 연구는 특화된 수직 도메인에서 성능이 사후 훈련 데이터의 품질과 난이도/검증 가능성 프로필에 크게 좌우된다는 것을 통제된 실증 연구를 통해 보여줍니다. 우리는 고품질의 생각의 사슬(Chain-of-Thought) 감독을 생성하기 위해 다단계 정제 및 검증 과정을 거쳐 구축한 ODA-Fin-SFT-318k와, 보상 정밀도와 작업 다양성의 균형을 맞춘 검증 가능한 고난이도 과제를 위해 선별된 ODA-Fin-RL-12k 데이터셋을 소개합니다. 표준 SFT(지도 미세 조정) 및 RL(강화 학습) 파이프라인을 사용하여, 고품질 CoT 정제가 SFT 단계에서 견고한 기반을 마련하는 한편, 난이도 및 검증 가능성을 고려한 샘플링이 RL 일반화를 개선함을 입증합니다. 일반 금융 과제, 감정 분석, 수치 추론을 아우르는 9개 벤치마크에서 평가한 결과, 우리의 ODA-Fin-RL-8B 모델은 동일 규모의 오픈소스 최첨단(SOTA) 금융 LLM들을 지속적으로 능가했습니다. 데이터 중심 금융 AI 연구의 발전을 위해 ODA-Fin-SFT-318k 및 ODA-Fin-RL-12k 데이터셋과 훈련된 모델을 공개합니다.
소수-스텝 생성 모델이 훨씬 낮은 비용으로 강력한 이미지 및 동영상 생성을 가능하게 했지만, 소수-스텝 모델을 위한 일반적인 강화 학습 패러다임은 여전히 해결되지 않은 문제로 남아 있습니다. 기존의 소수-스텝 확산 모델에 대한 강화 학습 접근법은 미분 가능한 보상 모델을 통한 역전파에 크게 의존하여, 인간의 이진적 선호도나 객체 개수 등과 같은 비미분 가능한 보상을 포함한 대부분의 중요한 실제 세계 보상 신호를 배제해 왔습니다. 비미분 가능한 보상을 적절히 통합하여 소수-스텝 생성 모델을 개선하기 위해, 우리는 주요 소수-스텝 모델인 궤적 분포 매칭(TDM)을 기반으로 한 새로운 강화 학습 패러다임인 TDM-R1을 소개합니다. TDM-R1은 학습 과정을 대리 보상 학습과 생성기 학습으로 분리합니다. 더 나아가, 우리는 TDM의 결정론적 생성 궤적을 따라 스텝별 보상 신호를 얻는 실용적인 방법을 개발하여, 소수-스텝 모델의 일반적인 보상 처리 능력을 크게 향상시키는 통합된 강화 학습 사후 학습 방법을 도출했습니다. 텍스트 렌더링, 시각적 품질, 선호도 정렬에 이르는 광범위한 실험을 수행했습니다. 모든 결과는 TDM-R1이 소수-스텝 텍스트-이미지 모델을 위한 강력한 강화 학습 패러다임이며, 도메인 내 및 도메인 외 메트릭 모두에서 최첨단 강화 학습 성능을 달성함을 보여줍니다. 또한 TDM-R1은 최근 강력한 Z-Image 모델에도 효과적으로 확장되어, 단 4 NFE로 100-NFE 변형 및 소수-스텝 변형 모델을 모두 꾸준히 능가합니다. 프로젝트 페이지: https://github.com/Luo-Yihong/TDM-R1
비전 트랜스포머(ViT)는 의미론적으로 의미 있는 특징보다 배경 단서와 같은 허위 상관관계에 의존하기 때문에 분포 변화 하에서 성능이 저하되는 경우가 많습니다. 기존 정규화 방법은 일반적으로 단순한 전경-배경 마스크에 의존하는데, 이는 객체를 정의하는 세분화된 의미 개념(예: '새'의 '긴 부리'와 '날개')을 포착하지 못합니다. 결과적으로 이러한 방법은 분포 변화에 대한 견고성이 제한적입니다. 이러한 한계를 해결하기 위해 우리는 모델의 추론을 개념 수준의 의미론으로 이끄는 새로운 파인튜닝 프레임워크를 소개합니다. 우리의 접근 방식은 모델의 내부 관련성 맵이 공간적으로 근거된 개념 마스크와 일치하도록 최적화합니다. 이러한 마스크는 수동 주석 없이 자동으로 생성됩니다: LLM 기반의 레이블 없는 방법을 사용하여 클래스 관련 개념을 먼저 제안한 다음, VLM을 사용하여 분할합니다. 파인튜닝 목표는 이러한 개념 영역과의 관련성을 정렬하는 동시에 허위 배경 영역에 대한 집중을 억제합니다. 특히 이 과정은 최소한의 이미지 집합만 필요로 하며 데이터셋 클래스의 절반을 사용합니다. 5개의 분포 외 벤치마크에 대한 광범위한 실험을 통해 우리의 방법이 여러 ViT 기반 모델의 견고성을 향상시킴을 입증했습니다. 더 나아가, 결과적인 관련성 맵이 의미론적 객체 부분과 더 강력하게 정렬되어 더 견고하고 해석 가능한 비전 모델로 가는 확장 가능한 경로를 제공함을 보여줍니다. 마지막으로 개념 주도 마스크가 기존 분할 맵보다 모델 견고성에 더 효과적인 감독을 제공하여 우리의 핵심 가설을 지지함을 확인했습니다.
콜드 스타트 초기화 단계는 다중모달 대규모 추론 모델(MLRM) 학습에서 핵심적인 역할을 수행하지만, 그 작동 메커니즘은 아직 충분히 이해되지 않고 있습니다. 본 연구에서는 이 단계를 분석하기 위해 시각적 어텐션 점수(VAS)를 제안합니다. VAS는 모델이 시각 토큰에 할당하는 어텐션 양을 정량화하는 어텐션 기반 지표입니다. 우리는 추론 성능이 VAS와 강한 상관관계(r=0.9616)를 보인다는 것을 발견했습니다: 높은 VAS를 보이는 모델이 훨씬 더 강력한 다중모달 추론 성능을 달성했습니다. 놀랍게도, 다중모달 콜드 스타트는 VAS를 높이지 못해 기본 모델과 유사한 어텐션 분포를 보인 반면, 텍스트 전용 콜드 스타트는 VAS의 명확한 증가를 이끌었습니다. 우리는 이러한 직관에 반하는 현상을 '게으른 어텐션 지역화(Lazy Attention Localization)'라고 명명했습니다. 이 현상의 인과적 역할을 검증하기 위해 추론 과정에서 어텐션 할당을 직접 조절하는 학습 불필요형 인터벤션을 설계하였으며, 이를 통해 재학습 없이 1-2%의 성능 향상을 확인했습니다. 이러한 통찰을 바탕으로 우리는 시각 앵커 데이터 합성, 어텐션 유도 목적함수, 시각 앵커 보상 형성을 통합한 포괄적인 콜드 스타트 프레임워크인 어텐션 유도 시각 앵커링 및 리플렉션(AVAR)을 추가로 제안합니다. Qwen2.5-VL-7B에 적용된 AVAR는 7개의 다중모달 추론 벤치마크에서 평균 7.0%의 성능 향상을 달성했습니다. 어블레이션 연구를 통해 AVAR의 각 구성 요소가 단계적으로 전체 성능 향상에 기여함을 추가로 확인했습니다. 코드, 데이터 및 모델은 https://github.com/lrlbbzl/Qwen-AVAR에서 확인할 수 있습니다.
기존 개념 맞춤화 방법들은 높은 정확도와 다중 개념 맞춤화에서 뛰어난 성과를 거두었습니다. 그러나 새로운 개인화 개념을 학습할 때 원본 모델의 동작과 능력에 미치는 영향을 종종 간과합니다. 이러한 문제를 해결하기 위해 우리는 PureCC를 제안합니다. PureCC는 개념 맞춤화를 위한 새로운 분리 학습 목표를 도입하여 대상 개념의 암묵적 안내와 원본 조건부 예측을 결합합니다. 이러한 분리 형태는 PureCC가 학습 중 원본 모델에 집중할 수 있게 합니다. 더불어 이 목표를 기반으로 PureCC는 정제된 대상 개념 표현을 암묵적 안내로 제공하는 고정 추출기와 원본 조건부 예측을 생성하는 학습 가능한 흐름 모델을 포함하는 이중 분기 학습 파이프라인을 설계하여 개인화 개념에 대한 순수 학습을 공동으로 달성합니다. 또한 PureCC는 새로운 적응형 안내 규모 λ^star를 도입하여 대상 개념의 안내 강도를 동적으로 조절하여 맞춤화 정확도와 모델 보존 사이의 균형을 맞춥니다. 폭넓은 실험을 통해 PureCC가 높은 정확도의 개념 맞춤화를 가능하게 하면서도 원본 동작과 능력을 보존하는 데 최첨단 성능을 달성함을 입증했습니다. 코드는 https://github.com/lzc-sg/PureCC에서 확인할 수 있습니다.
AI 코딩 지원의 환경은 복잡한 IDE 플러그인에서 다기능의 터미널 네이티브 에이전트로 근본적인 전환을 겪고 있습니다. 개발자가 소스 제어를 관리하고 빌드를 실행하며 환경을 배포하는 바로 그 위치에서 직접 운영되는 CLI 기반 에이전트는 장기간의 개발 작업에 있어 전례 없는 자율성을 제공합니다. 본 논문에서는 이러한 새로운 패러다임을 위해 특별히 설계된 오픈소스 명령줄 코딩 에이전트인 OPENDEV를 소개합니다. 효과적인 자율 지원을 위해서는 컨텍스트 비대증과 추론 성능 저하를 방지하기 위한 엄격한 안전 제어와 고효율 컨텍스트 관리가 필요합니다. OPENDEV는 워크로드 특화 모델 라우팅, 계획과 실행을 분리하는 이중 에이전트 구조, 지연 도구 발견, 그리고 오래된 관찰 내용을 점진적으로 축소하는 적응형 컨텍스트 압축을 포함한 복합 AI 시스템 아키텍처를 통해 이러한 과제를 극복합니다. 더 나아가, 세션 간 프로젝트별 지식을 축적하기 위한 자동화된 메모리 시스템을 활용하고 이벤트 기반 시스템 알림을 통해 지시 사항 소실을 방지합니다. 명시적인 추론 단계를 강제하고 컨텍스트 효율성을 우선시함으로써, OPENDEV는 터미널 우선 AI 지원을 위한 안전하고 확장 가능한 기반을 제공하며, 견고한 자율 소프트웨어 엔지니어링을 위한 청사진을 제시합니다.
자기회귀(AR) 언어 모델은 인과적 토큰화에 의존하지만, 이러한 패러다임을 시각 영역으로 확장하는 것은 여전히 쉽지 않다. 기존 시각 토큰화 방법은 2D 패치를 비인과적 시퀀스로 평탄화하거나 "다음 토큰 예측" 패턴과 정렬되지 않은 휴리스틱 순서를 강제한다. 최근의 확산 오토인코더도 유사한 한계를 보인다: 디코더에 모든 토큰을 조건으로 주는 것은 인과성을 결여하고, 중첩 드롭아웃 메커니즘을 적용하면 불균형이 발생한다. 이러한 문제를 해결하기 위해 우리는 MeanFlow 디코더를 갖춘 1D 인과적 이미지 토큰화기 CaTok을 제안한다. 그림 1에서와 같이 시간 간격에 걸쳐 토큰을 선택하고 이를 MeanFlow 목적 함수에 연결함으로써, CaTok은 빠른 one-step 생성과 고품질 multi-step 샘플링을 모두 지원하면서 토큰 간격에 걸친 다양한 시각 개념을 자연스럽게 포착하는 인과적 1D 표현을 학습한다. 훈련의 안정화와 가속화를 더욱 위해, 우리는 인코더 특징을 Vision Foundation Model(VFM)과 정렬하는 간단한 정규화 방법 REPA-A를 제안한다. 실험 결과, CaTok은 더 적은 훈련 에포크로 ImageNet 재구성에서 0.75 FID, 22.53 PSNR, 0.674 SSIM의 최첨단 성능을 달성했으며, AR 모델은 선도적 접근법에 버금가는 성능을 보였다.
차세대 코드 생성 모델의 훈련에는 고품질 데이터셋이 필요하지만, 기존 데이터셋은 난이도 불균형, 형식 불일치, 데이터 품질 문제에 직면해 있습니다. 우리는 체계적인 데이터 처리와 난이도 스케일링을 통해 이러한 과제를 해결합니다. 본 연구는 수집, 처리, 필터링, 검증의 4단계로 구성된 데이터 처리 프레임워크를 도입하며, LLM 기반 예측-보정-선택 프레임워크를 통한 자동 난이도 필터링을 통합했습니다. 이는 5개의 가중 치수를 가진 다차원 난이도 지표를 활용하여 단순한 문제는 제거하면서도 도전적인 문제는 보존합니다. 그 결과 생성된 MicroCoder 데이터셋은 다양한 플랫폴에서 수집된 수만 개의 정제된 실전 경쟁 프로그래밍 문제로 구성되며, 최신성과 난이도에 중점을 둡니다. 엄격하게 공개되지 않은 LiveCodeBench에 대한 평가 결과, MicroCoder는 유사한 규모의 널리 사용되는 기준 데이터셋 대비 300회의 훈련 스텝 내에서 3배 더 큰 성능 향상을 달성했으며, GRPO 및 그 변형 훈련 알고리즘 모두에서 일관된 이점을 보였습니다. MicroCoder 데이터셋은 다양한 모델 크기에서 중간 및 어려운 문제에 대해 뚜렷한 개선을 제공하며, 모델 능력이 가장 극한으로 요구되는 영역에서 전체 성능 기준 최대 17.2%의 상대적 향상을 달성했습니다. 이러한 결과는 난이도 인식 데이터 큐레이션이 도전적인 과제에 대한 모델 성능을 향상시킴을 검증하며, 코드 생성 분야의 데이터셋 구축에 여러 통찰을 제공합니다.
반구조화된 N:M 희소성과 낮은 비트 양자화(예: 1.58비트 BitNet)는 대규모 언어 모델(LLM)의 효율성을 향상시키는 두 가지 유망한 접근법이지만, 지금까지는 주로 별도로 연구되어 왔습니다. 본 연구에서는 이들의 상호작용을 조사하고 1.58비트 BitNet이 완전 정밀도 모델보다 N:M 희소성과 자연스럽게 더 높은 호환성을 보인다는 것을 입증합니다. 이러한 효과를 연구하기 위해 우리는 1.58비트 양자화와 동적 N:M 희소화를 통합적으로 적용하면서도 최초로 안정적인 학습을 보장하는 통합 프레임워크인 Sparse-BitNet을 제안합니다. 다양한 모델 규모와 학습 방식(희소 사전 학습 및 조밀-희소 학습 스케줄)에서 1.58비트 BitNet은 동일한 희소성 수준에서 완전 정밀도 기준 모델보다 항상 더 작은 성능 저하를 보였으며, 정확도가 급감하기 전에 더 높은 구조적 희소성을 견딜 수 있었습니다. 더 나아가, 우리가 개발한 맞춤형 희소 텐서 코어를 활용하면 Sparse-BitNet이 학습과 추론 모두에서 최대 1.30배에 달하는 상당한 속도 향상을 달성합니다. 이러한 결과는 극도로 낮은 비트 양자화와 반구조화된 N:M 희소성을 결합하는 것이 효율적인 LLM을 위한 유망한 방향임을 강조합니다. 코드는 https://github.com/AAzdi/Sparse-BitNet에서 확인할 수 있습니다.
비전-언어 모델(VLM)은 시각 관측, 주행 컨텍스트, 언어 기반 추론을 통합적으로 모델링함으로써 엔드투엔드 자율 주행(AD)의 유망한 방향으로 부상했습니다. 그러나 기존 VLM 기반 시스템은 고수준 추론과 모션 계획 간의 상충 관계에 직면해 있습니다. 대규모 모델은 강력한 의미론적 이해 능력을 제공하지만 정밀한 제어를 위해 적용하는 데 비용이 많이 들고, 반면 소규모 VLM 모델은 효율적으로 미세 조정될 수 있지만 종종 약한 추론 능력을 보입니다. 우리는 대규모 네비게이터와 경량화된 훈련 가능한 드라이버를 사용하여 추론과 행동 생성을 분리하는 분리형 프레임워크인 NaviDriveVLM을 제안합니다. 이 설계는 추론 능력을 보존하고 훈련 비용을 절감하며, 다운스트림 계획을 위한 명시적이고 해석 가능한 중간 표현을 제공합니다. nuScenes 벤치마크에서의 실험 결과, NaviDriveVLM이 엔드투엔드 모션 계획에서 대규모 VLM 기준 모델들을 능가하는 성능을 보였습니다.
비디오 콘텐츠 제작이 장편 서사 중심으로 전환됨에 따라, 짧은 클립을 일관된 스토리라인으로 구성하는 능력이 점점 더 중요해지고 있습니다. 그러나 현재 널리 사용되는 검색 방식은 추론 시점에 문맥을 고려하지 않아, 지역적 의미론적 정렬을 우선시하는 반면 상태와 정체성의 일관성을 간과하고 있습니다. 이러한 구조적 한계를 해결하기 위해, 본 연구는 일관된 비디오 검색(CVR) 작업을 공식화하고 YouCook2, COIN, CrossTask에 걸친 진단 벤치마크를 소개합니다. 우리는 다양한 고정된 시각-언어 임베딩 공간과 호환되는 경량의 플러그앤플레이 어댑터인 CAST(Context-Aware State Transition)를 제안합니다. CAST는 시각적 기록으로부터 상태 조건부 잔차 업데이트(Δ)를 예측함으로써, 잠재 상태 변화에 대한 명시적인 귀납적 편향을 도입합니다. 광범위한 실험을 통해 CAST가 YouCook2와 CrossTask에서 성능을 향상시키고, COIN에서는 경쟁력을 유지하며, 다양한 파운데이션 백본 전반에 걸쳐 제로샷 기준선을 꾸준히 능가함을 확인했습니다. 더 나아가, CAST는 블랙박스 비디오 생성 후보(예: Veo)에 대한 유용한 재순위 지정 신호를 제공하여 시간적으로 더 일관된 연속 장면 생성을 촉진합니다.
CLIP 기반 프롬프트 튜닝은 사전 학습된 시각-언어 모델(VLM)이 다운스트림 작업에 효율적으로 적응할 수 있게 합니다. 기존 연구들이 상당한 진전을 이루었음에도 불구하고, 튜닝 과정에서 VLM의 내부 어텐션 표현 변화에는 상대적으로 적은 주의를 기울여 왔습니다. 본 논문에서는 프롬프트 튜닝 예측의 실패 모드를 시각 인코더의 전경(foreground) 어텐션 변화로 귀결시키고, 이러한 변화를 완화하기 위해 적응형 플러그 앤 플레이 전경 어텐션 가이던스 모듈인 FVG-PT(Foreground View-Guided Prompt Tuning)를 제안합니다. 구체적으로, FVG-PT는 학습 가능한 전경 신뢰도 게이트(Foreground Reliability Gate)를 도입하여 전경 뷰 품질을 자동으로 향상시키고, 전경 지식 증류 보상(Foreground Distillation Compensation) 모듈을 적용하여 시각 어텐션이 전경에 집중하도록 유도하며, 더 나아가 전경에 대한 과도한 집중으로 인한 일반화 성능 저하를 완화하기 위한 사전 교정(Prior Calibration) 모듈을 도입합니다. 다양한 백본 모델과 데이터셋에서의 실험을 통해 FVG-PT의 효과성과 호환성을 입증합니다. 코드는 https://github.com/JREion/FVG-PT에서 확인할 수 있습니다.
현대 코드 생성 모델은 더 긴 출력 길이, 가속화된 능력 성장, 변화된 학습 동역학을 보여주며, 이로 인해 기존의 학습 방법론, 알고리즘, 데이터셋은 성능 향상에 효과적이지 않게 되었습니다. 이러한 학습 병목 현상을 해결하기 위해 우리는 세 가지 혁신을 도입한 개선된 그룹 상대 정책 최적화(GRPO) 접근법인 MicroCoder-GRPO를 제안합니다: 학습 안정성을 유지하면서 긴 출력 잠재력을 향상시키는 조건부 트렁케이션 마스킹, 출력 다양성을 유지 및 촉진하는 다양성 기반 온도 선택, 해결책 다양성을 용이하게 하는 높은 클리핑 비율과 KL 손실 제거입니다. MicroCoder-GRPO는 LiveCodeBench v6에서 강력한 베이스라인 대비 최대 17.6%의 상대적 성능 향상을 달성했으며, 확장된 컨텍스트 평가 하에서 더 두드러진 향상을 보였습니다. 또한 우리는 300 학습 단계 내에서 LiveCodeBench v6에서 주류 데이터셋보다 3배 큰 성능 향상을 달성하는 더 도전적인 학습 코퍼스인 MicroCoder-Dataset와, 평가 정확도가 약 25% 개선되고 실행 속도가 약 40% 빨라진 강력한 평가 프레임워크인 MicroCoder-Evaluator를 공개합니다. 30개 이상의 통제 실험에 걸친 포괄적 분석을 통해 우리는 7가지 주요 측면에서 34개의 학습 통찰력을 제시하며, 적절히 학습된 모델이 더 큰 규모의 모델과 경쟁력 있는 성능을 달성할 수 있음을 입증합니다.
자기회귀(AR) 언어 모델은 좌측에서 우측으로의 예측을 통해 점진적으로 표현을 형성하는 반면, 확산 언어 모델(dLLM)은 전체 시퀀스 잡음 제거를 통해 학습됩니다. 최근 dLLM이 AR 성능을 따라잡았지만, 확산 목표 함수가 내부 표현을 깊이에 걸쳐 근본적으로 재구성하는지 여부는 여전히 불분명합니다. 본 연구에서는 기본 dLLM(LLaDA), 기본 AR 모델(Qwen2.5), AR 초기화 dLLM(Dream-7B)을 비교하는 최초의 계층별 및 토큰별 표현 분석을 수행합니다. 분석 결과, 확산 목표 함수는 상이하고 더 위계적인 추상화를 초래하며, 초기 계층에서 상당한 중복성과 최신성 편향 감소를 보이는 반면, AR 목표 함수는 긴밀하게 결합되고 깊이에 의존적인 표현을 생성합니다. 중요한 것은, AR 초기화 dLLM은 확산 학습에도 불구하고 AR과 유사한 표현 역학을 유지하여 지속적인 초기화 편향을 드러냅니다. 관찰된 이러한 표현 중복성을 활용하여, 우리는 아키텍처 변경이나 KV 캐시 공유가 필요 없는 정적이고 작업에 독립적인 추론 시점 계층 생략 방법을 제안합니다. 기본 dLLM은 추론 및 코드 생성 벤치마크에서 90% 이상의 성능을 유지하면서 최대 18.75%의 FLOPs 감소를 달성한 반면, AR 모델은 유사한 생략 하에서 성능이 급격히 저하되었습니다. 이러한 결과는 학습 목표 함수와 표현 구조를 연결하며, 캐시와 독립적인 실용적인 효율성 향상을 가능하게 합니다.
파운데이션 모델은 오프라인 예측 모델에서 장기간 운영될 것으로 기대되는 배포 시스템으로 전환되고 있습니다. 실제 배포 환경에서는 목표가 고정되어 있지 않습니다: 도메인은 변화하고, 사용자 선호도는 진화하며, 모델 출시 후 새로운 작업이 등장합니다. 이로 인해 지속 학습과 즉각적인 개인화는 선택적 기능에서 핵심 아키텍처 요구 사항으로 격상되었습니다. 그러나 대부분의 적응 파이프라인은 여전히 정적 가중치 패러다임을 따릅니다: 학습(또는 어떤 적응 단계) 이후에는 사용자 의도, 도메인, 또는 인스턴스별 제약 조건에 관계없이 추론 시 단일 매개변수 벡터를 실행합니다. 이는 학습되거나 적응된 모델을 매개변수 공간 내의 단일 지점으로 취급하는 것입니다. 이질적이고 지속적으로 진화하는 환경에서는 서로 다른 목표가 매개변수에 대해 분리된 실현 가능 영역을 유도할 수 있으며, 이로 인해 단일 공유 업데이트는 타협, 간섭 또는 과도한 특수화를 강요받습니다. 그 결과, 지속 학습과 개인화는 공유 가중치의 반복적인 덮어쓰기로 구현되는 경우가 많으며, 이전에 학습된 동작의 저하 위험을 초래합니다. 우리는 HY-WU(Weight Unleashing)를 제안합니다. 이는 메모리 중심 적응 프레임워크로, 단일 공유 매개변수 지점을 덮어쓰는 압력에서 적응 부하를 전환합니다. HY-WU는 기능적(연산자 수준) 메모리를 신경망 모듈, 즉 인스턴스 조건에서 실시간으로 가중치 업데이트를 합성하는 생성기로 구현하여 테스트 타임 최적화 없이 인스턴스별 연산자를 생성합니다.
OfficeQA Pro를 소개합니다. 이는 방대하고 이질적인 문서 코퍼스에 대한 근거 기반 다중 문서 추론 능력을 AI 에이전트가 평가하기 위한 벤치마크입니다. 해당 코퍼스는 약 100년에 걸친 미국 재무부 공보(Bulletin)로 구성되어 있으며, 89,000페이지가 넘고 2,600만 개 이상의 수치 데이터를 포함합니다. OfficeQA Pro는 비정형 텍스트와 표 형식 데이터 모두에 걸쳐 정밀한 문서 구문 분석, 검색 및 분석적 추론을 요구하는 133개의 질문으로 구성되어 있습니다. Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro Preview 등 최첨단 대규모 언어 모델(LLM)들은 매개변수 지식에 의존할 경우 OfficeQA Pro에서 5% 미만의 정확도를 보였으며, 웹 접근 권한이 추가되어도 12% 미만에 그쳤습니다. 문서 코퍼스에 직접 접근할 수 있게 제공된 경우에도 최첨단 에이전트들은 절반 이상의 질문에서 어려움을 겪으며 평균 34.1%의 점수를 기록했습니다. Databricks의 ai_parse_document로 생성된 구조화된 문서 표현을 에이전트에 제공하면 에이전트 전반에 걸쳐 평균 16.1%의 상대적 성능 향상을 가져오는 것을 확인했습니다. 모델 선택, 테이블 표현 방식, 검색 전략, 테스트 시간 스케일링이 성능에 미치는 영향을 연구하기 위해 추가적인 Ablation 실험을 수행했습니다. 이러한 개선에도 불구하고, 에이전트가 기업 수준의 근거 기반 추론에 신뢰할 수 있을 정도로 성능을 발휘하기까지는 여전히 상당한 개선 여지가 남아 있습니다.
최근의 생성형 비디오 세계 모델은 시각적 환경의 변화를 시뮬레이션하여 관찰자가 카메라 제어를 통해 장면을 상호작용적으로 탐색할 수 있도록 하는 것을 목표로 합니다. 그러나 이러한 모델은 세계가 관찰자의 시야 내에서만 진화한다고 암묵적으로 가정합니다. 객체가 관찰자의 시야를 벗어나면 그 상태는 메모리에서 "고정"되며, 나중에 동일한 영역을 다시 방문했을 때 그동안 발생했어야 할 사건들이 제대로 반영되지 않는 경우가 많습니다. 본 연구에서는 이 간과된 한계를 "시야 외 역학" 문제로 규명하고 공식화하며, 이로 인해 비디오 세계 모델이 지속적으로 진화하는 세계를 표현하는 데 어려움을 겪는다고 지적합니다. 이 문제를 해결하기 위해 우리는 비디오 세계 모델을 확장하여 지속적인 세계 진화를 지원하는 새로운 프레임워크인 LiveWorld를 제안합니다. LiveWorld는 세계를 정적인 관찰 메모리로 취급하는 대신, 정적인 3D 배경과 관찰되지 않을 때도 계속 진화하는 동적 개체들로 구성된 지속적인 전역 상태를 모델링합니다. 이러한 보이지 않는 역학을 유지하기 위해 LiveWorld는 활성 개체들의 시간적 진행을 자율적으로 시뮬레이션하고 재방문 시 진화된 상태를 동기화하여 공간적으로 일관된 렌더링을 보장하는 모니터 기반 메커니즘을 도입합니다. 평가를 위해 우리는 시야 외 역학 유지 작업을 위한 전용 벤치마크인 LiveBench를 추가로 소개합니다. 광범위한 실험을 통해 LiveWorld가 지속적인 사건 진화와 장기적 장면 일관성을 가능하게 하며, 기존의 2D 관찰 기반 메모리와 진정한 4D 동적 세계 시뮬레이션 간의 격차를 해소함을 입증합니다. 베이스라인과 벤치마크는 https://zichengduan.github.io/LiveWorld/index.html에서 공개될 예정입니다.
본 논문에서는 접촉이 빈번한 작업을 위한 촉각 시뮬레이션-현실 정책 전달 문제를 다룹니다. 기존 방법은 주로 시각 기반 센서에 초점을 맞추고 이미지 렌더링 품질을 강조하는 반면, 힘과 전단력에 대한 지나치게 단순화된 모델을 제공합니다. 결과적으로 이러한 모델은 많은 정밀 작업에서 큰 시뮬레이션-현실 간극을 보입니다. 본 연구에서는 비홀로노믹 하이드로엘라스틱 촉각 시뮬레이터인 HydroShear를 제안하며, 이는 최신 기술을 발전시켜 다음을 모델링합니다: a) 점착-미끄럼 전환, b) 경로 의존적 힘 및 전단력 축적, c) 완전 SE(3) 객체-센터 상호작용. HydroShear는 Signed Distance Functions(SDF)를 사용한 하이드로엘라스틱 접촉 모델을 확장하여 센서 막과의 물리적 상호작용 동안 압입기 표면 점들의 변위를 추적합니다. 우리의 접근 방식은 기본 물리 엔진에 구애받지 않으면서 임의의 수밀 형상에서 물리 기반의 계산적으로 효율적인 힘장을 생성합니다. GelSight Mini를 사용한 실험에서 HydroShear는 기존 방법에 비해 실제 촉각 전단력을 더 충실하게 재현합니다. 이러한 정밀도는 강화 학습 정책의 제로샷 시뮬레이션-현실 전달을 네 가지 작업(핍 삽입, 빈 패킹, 책 꽂기를 위한 삽입, 미끄럼 하의 정밀 그리퍼 제어를 위한 서랍 당기기)에 걸쳐 가능하게 합니다. 우리의 방법은 93%의 평균 성공률을 달성하여 촉각 이미지(34%) 및 대체 전단력 시뮬레이션 방법(58%-61%)으로 학습된 정책을 능가합니다.
직접적인 프롬프트 기반 편집은 복잡한 변환 작업에서 종종 실패하는데, 이는 모호하고 주관적인 프롬프트가 이미지에서 변경되어야 할 부분에 대한 미묘한 이해를 요구하기 때문입니다. 우리의 핵심 직관은 직접적인 프롬프팅보다 구성적 이미지 편집 도구를 활용하는 것이 명시적 추론을 수반하는 구조화된 에이전트 수준의 계획을 통해 더 나은 결과를 얻을 수 있다는 것입니다. 이 구조화된 계획 프레임워크는 품질 점수가 부여된 궤적에 대한 효율적인 오프라인 강화학습 사후 훈련을 가능하게 하여 성능을 향상시킵니다. 우리는 사고 연쇄 추론을 통한 구조화된 계획으로 이 문제를 해결하는 도구 기반 에이전트 강화학습 사후 훈련 프레임워크를 제시합니다. 우리의 주요 기여점은 다음과 같습니다: (1) 직교적인 기본 변환들의 구성적 라이브러리, 구조화된 컨텍스트 표현, 단계별 명시적 추론을 결합하여 복잡한 스타일링을 해석 가능한 도구 시퀀스로 분해하는 도구 기반 에이전트 계획 방법론. (2) 기존 데이터셋에서 이러한 지도 신호를 제공하지 않아 추론 체인, 계획, 품질 점수를 포함하는 3가지 대규모 데이터셋(각각 10K 궤적 시뮬레이션)을 생성하는 합성 데이터 생성 파이프라인. 우리의 데이터셋과 코드는 HuggingFace 저장소에서 공개되었습니다. (3) 추론 능력을 갖춘 계획자를 학습하기 위한 오프라인 강화학습 훈련 방법으로, 우리의 핵심 알고리즘 기여점이며 시각적 품질과 지시문 준수 측면에서 Edit-Only 기준선을 꾸준히 개선합니다. (4) 4B 및 8B 매개변수 Qwen3-VL 모델을 대상으로 한 포괄적 평가를 통해 우리 방법이 대부분의 구성 작업에서 다른 기준선들을 능가함을 보여주며, 인간 평가를 통해 검증되었습니다.
슬라이드는 학계, 교육, 비즈니스와 같은 발표 중심 시나리오에서 정보를 전달하는 중요한 매체 역할을 합니다. 그 중요성에도 불구하고, 고품질 슬라이드 데크를 제작하는 작업은 여전히 시간이 많이 소요되고 인지적 부담이 큽니다. Nano Banana Pro와 같은 생성 모델의 최근 발전으로 자동 슬라이드 생성이 점점 더 실현 가능해지고 있습니다. 그러나 기존의 슬라이드 생성 평가는 대체로 거시적이며 전체론적 판단에 의존하기 때문에, 모델 능력을 정확히 평가하거나 해당 분야의 의미 있는 발전을 추적하기가 어렵습니다. 실제로 세분화되고 검증 가능한 평가 기준의 부족은 연구와 실제 배포 양측에 걸친 중요한 병목 현상으로 작용합니다. 본 논문에서는 실제 환경의 자동 슬라이드 생성을 평가하기 위한 세분화된 루브릭 기반 벤치마크인 PresentBench를 제안합니다. 여기에는 238개의 평가 인스턴스가 포함되어 있으며, 각 인스턴스는 슬라이드 제작에 필요한 배경 자료로 보완됩니다. 더 나아가 생성된 슬라이드 데크에 대한 세분화되고 인스턴스별 평가를 가능하게 하기 위해, 각 인스턴스당 평균 54.1개의 체크리스트 항목(각각 이진 질문 형태)을 수작업으로 설계했습니다. 광범위한 실험을 통해 PresentBench가 기존 방법보다 더 신뢰할 수 있는 평가 결과를 제공하며 인간의 선호도와 훨씬 더 강한 일치성을 보임을 확인했습니다. 또한, 본 벤치마크를 통해 NotebookLM이 다른 슬라이드 생성 방법들을 크게 앞지르는 것으로 나타나, 이 분야의 최근 상당한 진전을 부각시킵니다.
GPU 커널을 수동으로 최적화하는 것은 어렵고 시간이 많이 소요되는 작업입니다. LLM의 급속한 발전으로 자동화된 GPU 커널 최적화가 점차 현실화되고 있습니다. 그러나 현재 LLM 기반 자동 최적화 방법은 PyTorch 연산자 최적화와 같은 머신러닝 애플리케이션에만 집중하고 과학 컴퓨팅의 희소 행렬 연산과 같은 더 넓은 영역을 간과하고 있습니다. 이러한 광범위한 응용 분야로의 확장은 벤치마크와 알고리즘에 새로운 도전 과제를 제기합니다. 따라서 범용 자동 커널 최적화 방법의 개발이 우리의 주요 관심사가 되었습니다. 본 논문에서는 다중 시나리오 설정에 대한 체계적인 평가의 부재를 해결하기 위해 MSKernelBench를 소개합니다. 이 벤치마크는 기본 대수 연산, 일반적인 LLM 커널, 희소 행렬 연산자, 과학 컴퓨팅 루틴을 아우르며, 각각 FP32 및 BF16 정밀도를 모두 지원합니다. 이 벤치마크를 기반으로 프로파일링 정보를 활용하고 전체 컴파일 및 실행 도구 체인을 자동으로 구축하는 다중 에이전트 하드웨어 인식 커널 최적화 시스템인 CUDAMaster를 제안합니다. 실험 결과 CUDAMaster가 대부분의 연산자에서 상당한 속도 향상을 달성하며 Astra보다 약 35% 우수한 성능을 보여주었습니다. 여러 경우에서 그 성능이 cuBLAS와 같은 고도로 최적화된 독점 라이브러리의 성능에 필적하거나 이를 능가했습니다. 각 연산자에 대한 원본 및 최적화된 코드를 보여주는 데모는 https://hanyx2021.github.io/MSKernelBenchDemo/에서 확인할 수 있습니다.
현대 언어 모델은 여전히 고정된 사전 정의 서브워드 토크나이제이션에 의존합니다. 토크나이저가 한 번 훈련되면 언어 모델은 이 고정된 세분화 수준에서만 작동할 수 있으며, 이는 강력한 추론 모델에서도 취약하고 직관에 반하는 동작을 초래하는 경우가 많습니다. 본 논문에서는 토크나이저를 완전히 제거하고 모델이 원시 바이트 스트림을 의미론적으로 의미 있는 단위로 자체 분할하도록 하는 새로운 계층적 아키텍처인 ByteFlow Net을 소개합니다. ByteFlow Net은 잠재 표현의 코딩률을 기반으로 압축 주도 분할을 수행하며, Top-K 선택을 통해 정적 계산 그래프를 유지하면서 적응형 경계를 생성합니다. 인간이 설계한 귀납적 편향에 의존하는 취약한 휴리스틱을 사용하는 기존의 자체 토크나이징 방법과 달리, ByteFlow Net은 내부 표현의 세분화 정도를 입력 자체에 맞춰 조정합니다. 실험 결과, 이 압축 기반 청킹 전략은 상당한 성능 향상을 가져오며, ByteFlow Net이 BPE 기반 Transformer 및 기존 바이트 수준 아키텍처를 모두 능가하는 것으로 나타났습니다. 이러한 결과는 종단간 토크나이저 없는 모델링이 실현 가능할 뿐만 아니라 더 효과적임을 시사하며, 더욱 적응적이고 정보에 기반한 언어 모델로 나아가는 길을 열어줍니다.
지식 증류(KD)는 대형 모델을 압축하기 위해 의미 분할에 널리 적용되어 왔지만, 기존 접근법은 주로 도메인 내 정확도를 유지하는 데 중점을 두는 반면 분포 변화 상황에서 필수적인 도메인 외 일반화를 간과해 왔습니다. 이러한 한계는 비전 파운데이션 모델(VFM)의 등장으로 더욱 두드러집니다: VFM이 보이지 않는 데이터에서 강력한 견고성을 보여주지만, 기존 KD를 사용하여 이를 증류하면 이러한 능력이 희생되는 경우가 많습니다. 우리는 일반화를 명시적으로 향상시키는 다단계 프레임워크인 일반화 가능 지식 증류(GKD)를 제안합니다. GKD는 표현 학습과 작업 학습을 분리합니다. 첫 번째 단계에서는 학생 모델이 선택적 특징 증류를 통해 도메인에 구애받지 않는 표현을 습득하고, 두 번째 단계에서는 이러한 표현을 고정하여 작업 적응을 수행함으로써 가시적인 도메인에의 과적합을 완화합니다. 전이를 추가로 지원하기 위해, 학생 특징이 쿼리 역할을 하여 VFM으로부터 전이 가능한 공간 지식을 선택적으로 검색하는 쿼리 기반 소프트 증류 메커니즘을 도입합니다. 5개의 도메인 일반화 벤치마크에서 진행한 폭넓은 실험을 통해 GKD가 기존 KD 방법들을 지속적으로 능가하며, 파운데이션-투-파운데이션(F2F) 증류에서 평균 +1.9%, 파운데이션-투-로컬(F2L) 증류에서 평균 +10.6%의 성능 향상을 달성함을 입증했습니다. 코드는 https://github.com/Younger-hua/GKD에서 공개될 예정입니다.
텍스트 생성에서 다양한 출력은 코드 생성 및 수학 문제 해결과 같은 복잡한 추론 과제에서 효과적인 탐색을 위해 필수적입니다. 이러한 Pass@k 문제는 해결 공간을 포괄하는 서로 다른 후보들로부터 이점을 얻습니다. 그러나 기존의 샘플링 접근법은 종종 반복적인 실패 모드에 계산 자원을 낭비합니다. Diffusion 언어 모델이 기존의 자기회귀 패러다임에 대한 경쟁력 있는 대안으로 부상했지만, 독립적인 샘플들이 유사한 모드로 수렴하는 이러한 중복 문제에 취약합니다. 이를 해결하기 위해 우리는 Diffusion 언어 모델의 생성 다양성을 향상시키는 학습이 필요 없고 저비용인 개입 방법을 제안합니다. 우리의 접근법은 배치 내 중간 샘플들을 순차적으로 수정하며, 각 샘플이 이전 샘플들의 특징 공간에서 반발하도록 하여 적극적으로 중복을 억제합니다. 재학습이나 빔 서치가 필요한 기존 방법과 달리, 우리의 전략은 무시할 만한 계산 오버헤드만을 발생시키면서 각 샘플이 배치에 고유한 관점을 제공하도록 보장합니다. 우리는 LLaDA-8B-Instruct 모델을 사용하여 HumanEval 및 GSM8K 벤치마크에서 우리의 방법을 평가합니다. 결과는 다양한 temperature 설정에서 Pass@k 성능과 다양성이 크게 향상됨을 보여줍니다. 샘플링 과정에 대한 간단한 수정으로, 우리의 방법은 다양한 해결책 탐색이 필요한 과제에서 현재와 미래의 Diffusion 언어 모델에 즉각적이고 저비용의 개선을 제공합니다. 우리는 코드를 https://github.com/sean-lamont/odd 에서 공개합니다.
임의의 점 추적(TAP)은 높은 정밀도와 장기적인 운동 추론을 요구하는 컴퓨터 비전의 기본적이면서도 어려운 과제입니다. 최근 RGB 프레임과 이벤트 스트림을 결합하려는 시도가 가능성을 보여주고 있지만, 대부분 동기적 또는 비적응적 융합에 의존하여 한 모달리티가 실패할 때 시간적 불일치와 심각한 성능 저하를 초래합니다. 우리는 강력하고 고주파 임의 점 추적을 위해 프레임과 이벤트를 비동기적이며 시간 일관성 있게 융합하는 트랜스포머 기반 프레임워크인 TAPFormer를 소개합니다. 우리의 핵심 혁신은 TAF 메커니즘으로, 연속적인 이벤트 업데이트를 통해 이산 프레임 간의 시간적 변화를 명시적으로 모델링하여 저속 프레임과 고속 이벤트 간의 격차를 해소합니다. 또한 CLWF 모듈은 모달리티 신뢰도에 따라 공간 주의를 적응적으로 조정하여 흐림이나 낮은 조도 조건에서도 안정적이고 판별력 있는 특징을 생성합니다. 실제 조건에서 접근법을 평가하기 위해 다양한 조명 및 운동 조건에서 새로운 실제 세계 프레임-이벤트 TAP 데이터셋을 구축했습니다. 우리 방법은 기존 점 추적기를 능가하며 임계값 내 평균 픽셀 오류에서 28.2%의 향상을 달성했습니다. 또한 표준 점 추적 벤치마크에서 우리의 추적기는 지속적으로 최고 성능을 달성했습니다. 프로젝트 웹사이트: tapformer.github.io
도시 교통 흐름은 토지 이용 구성과 시공간적으로 이질적인 이동 수요 간의 복잡한 비선형 상호작용에 의해 결정됩니다. 기존의 전역 회귀 분석 및 시계열 모델은 여러 이동 수식을 가로지르는 이러한 다중 규모 역동성을 동시에 포착하지 못합니다. 본 연구는 자동차, 대중교통, 능동형 교통이라는 세 가지 이동 수단에 걸쳐 교통 흐름 패턴의 시공간적 이질성과 토지 이용 간의 상호작용을 모델링하기 위해 다중 규모 지리적 가중 회귀(MGWR), 랜덤 포레스트(RF), 시공간 그래프 합성곱 신경망(ST-GCN)을 순차적으로 통합한 GeoAI 하이브리드 분석 프레임워크를 제안합니다. 대비되는 두 가지 도시 형태를 가진 여섯 개 도시에 걸친 350개 교통 분석 구역의 경험적으로 보정된 데이터셋에 본 프레임워크를 적용한 결과, 네 가지 주요 발견점이 도출되었습니다: (i) GeoAI 하이브리드 모델은 0.119의 RMSE와 0.891의 R^2를 달성하여 모든 벤치마크 대비 23-62% 우수한 성능을 보였음; (ii) SHAP 분석 결과, 토지 이용 혼합도는 자동차 흐름에 대한 가장 강력한 예측 변수로, 대중교통 정류장 밀도는 대중교통에 대한 가장 강력한 예측 변수로 확인됨; (iii) DBSCAN 클러스터링은 실루엣 점수 0.71로 기능적으로 구별되는 5가지 도시 교통 유형을 식별했으며, GeoAI 하이브리드 모델의 잔차는 Moran's I=0.218 (p<0.001)을 나타내 OLS 기준선 대비 72% 감소했음; (iv) 도시 간 전이 실험은 클러스터 내 중간 수준의 전이 가능성(R^2>=0.78)과 제한된 클러스터 간 일반화 능력을 보여주어 도시 형태적 맥락의 중요성을 강조함. 본 프레임워크는 계획가 및 교통 기술자에게 증거 기반의 다중 교통 수단 이동 관리 및 토지 이용 정책 설계를 위한 해석 가능하고 확장 가능한 도구를 제공합니다.
생성적 확산 모델이 의료 영상 데이터 증강에 점차 활용되고 있지만, 텍스트 프롬프팅만으로는 인과적 훈련 데이터를 생성할 수 없습니다. 재프롬프팅은 생성 경로 전체를 재설정하여 해부학적 구조, 질감 및 배경을 변경합니다. 반전 기반 편집 방법은 재구성 오류를 유발하여 구조적 변형을 초래합니다. 본 연구에서는 내시경 합성을 위한 훈련 없이 적용 가능한 활성화 조정 프레임워크인 MedSteer를 제안합니다. MedSteer는 확산 트랜스포머의 교차 주의 계층에서 각 대조 프롬프트 쌍에 대한 병리 벡터를 식별합니다. 추론 시에는 이 벡터를 따라 이미지 활성화를 조정하여, 조정된 개념만이 유일한 차이인 반사실적 쌍을 처음부터 생성합니다. 그 외 모든 구조는 구성에 의해 보존됩니다. 우리는 Kvasir v3 및 HyperKvasir 데이터셋을 이용한 세 가지 실험을 통해 MedSteer를 평가합니다. 세 가지 임상 개념 쌍에 대한 반사실적 생성에서 MedSteer는 0.800, 0.925, 0.950의 반전 비율을 달성하여 개념 반전 비율과 구조 보존 측면에서 최고의 반전 기반 기준 방법을 능가했습니다. 염료 분리 실험에서 MedSteer는 75%의 염료 제거율을 달성한 반면, PnP는 20%, h-Edit는 10%의 성능을 보였습니다. 하류 작업인 용종 검출에서 MedSteer 반사실적 쌍을 사용한 데이터 증강은 ViT AUC 0.9755를 달성하여, 양적으로 동일하게 재프롬프팅한 경우의 AUC 0.9083보다 우수하였으며, 반사실적 구조 보존이 성능 향상의 핵심임을 확인했습니다. 코드는 https://github.com/phamtrongthang123/medsteer 에서 확인할 수 있습니다.
플로우 맵은 단일 순방향 전달로 고품질 이미지 생성을 가능하게 합니다. 그러나 반복적 확산 모델과 달리 명시적인 샘플링 궤적이 부족하여 조건부 생성 및 역문제 해결을 위한 외부 제약 조건 적용이 어렵습니다. 본 연구에서는 조건부 샘플링을 위한 프레임워크인 Variational Flow Maps(VFM)를 제안하며, 이는 조건화의 관점을 "샘플링 경로 안내"에서 "적절한 초기 노이즈 학습"으로 전환합니다. 구체적으로, 주어진 관측값에 대해 노이즈 어댑터 모델을 학습하여 노이즈 분포를 출력하고, 이를 플로우 맵을 통해 데이터 공간으로 매핑한 후 샘플이 관측값과 데이터 사전 분포를 준수하도록 합니다. 이를 위해 노이즈 어댑터와 플로우 맵을 공동으로 훈련하여 노이즈-데이터 정렬을 개선하는 원리 기반 변분 목적 함수를 개발하였으며, 이를 통해 복잡한 데이터 사후 분포에서의 샘플링이 간단한 어댑터로 달성됩니다. 다양한 역문제에 대한 실험 결과, VFM은 단일(또는 소수) 단계로 잘 보정된 조건부 샘플을 생성합니다. ImageNet에서 VFM은 경쟁력 있는 충실도를 유지하면서 대안적인 반복적 확산/플로우 모델 대비 샘플링 속도를 수 orders of magnitude 가속화합니다. 코드는 https://github.com/abbasmammadov/VFM에서 확인할 수 있습니다.
우리는 구형 화학 활성 입자의 평면적 비투과성 벽 근처에서의 자가확산영동을 연구하며, 특히 입자 방향이 추진에 미치는 영향에 초점을 맞춘다. 우리는 촉매 활성 캡 내부에 작은 비활성 영역이 존재하는 비대칭 표면 화학 활성을 가진 야누스 입자를 분석한다. 이러한 입자를 연구하는 데 수치 시뮬레이션이 사용되어 왔지만, 기하학적 구속과 급격한 용질 농도 구배로 인해 벽 근접 영역에서의 흐름과 전달 현상을 해석하는 데 어려움이 있다. 우리는 입자와 벽 사이의 간격이 좁은 근접 접촉 한계에서의 점근적 분석을 통해 이러한 한계를 해결한다. 특히, 비활성 영역의 크기가 윤활 영역과 점근적으로 비슷한 distinguished limit를 고려한다. 우리는 비활성 면이 벽과 평행하게 배향된 축대칭 구성을 분석하고, 이를 약간 기울어진 배향으로 확장한다. 분석 결과, 캡사이징은 기울어진 입자가 축대칭 상태로 회전하여 되돌아가는지, 아니면 계속 재배향되는지를 결정함으로써 근접 접촉 영역에서의 회전 안정성을 규명한다는 것을 발견한다.
유전자 변형에 대한 세포 반응을 예측하는 것은 유전자 기능, 질병 메커니즘 및 치료법 개발을 이해하는 데 핵심적입니다. 최근 딥러닝 접근법이 단일 세포 변형 반응 모델링에서 유망한 성과를 보였으나, 생성 과정에서 제한된 맥락 정보로 인해 다양한 세포 유형과 변형 조건 간 일반화에는 어려움을 겪고 있습니다. 본 연구에서는 검색 증강 생성(Retrieval-Augmented Generation)을 기존 언어 모델 응용 분야를 넘어 세포 생물학으로 확장한 새로운 프레임워크인 PT-RAG(Perturbation-aware Two-stage Retrieval-Augmented Generation)를 소개합니다. 사전 훈련된 대형 언어 모델(LLM)을 위한 텍스트 검색을 위해 설계된 표준 RAG 시스템과 달리, 변형 검색 분야에는 정립된 유사도 메트릭이 부재하며 관련 맥락을 구성하는 요소를 학습해야 하므로 미분 가능 검색이 필수적입니다. PT-RAG는 이를 두 단계 파이프라인으로 해결합니다: 첫째, GenePT 임베딩을 사용하여 후보 변형 K를 검색하고, 둘째, 세포 상태와 입력 변형을 모두 조건으로 하는 Gumbel-Softmax 이산 샘플링을 통해 검색 결과를 적응적으로 정제합니다. 이렇게 구현된 세포 유형 인식 미분 가능 검색은 검색 목표를 생성 단계와 함께 종단간 최적화할 수 있게 합니다. Replogle-Nadig 단일 유전자 변형 데이터셋에서 PT-RAG는 동일한 실험 조건에서 STATE 및 기본 RAG 방법을 모두 능가하며, 특히 분포 유사도 메트릭(W_1, W_2)에서 가장 큰 성능 향상을 보였습니다. 주목할 점은, 기본 RAG의 현저한 실패 자체가 중요한 발견이라는 것입니다: 이는 해당 분야에서 미분 가능하고 세포 유형을 인식하는 검색이 필수적이며, 단순한 검색 방식이 오히려 성능을 저해할 수 있음을 입증합니다. 우리의 결과는 검색 증강 생성이 유전자 변형에 대한 세포 반응 모델링을 위한 유망한 패러다임임을 입증합니다. 실험 재현 코드는 https://github.com/difra100/PT-RAG_ICLR에서 확인할 수 있습니다.
현대 시각-언어 모델(VLM) 기반 그래픽 사용자 인터페이스(GUI) 에이전트는 동작을 정확하게 실행할 뿐만 아니라 낮은 지연 시간으로 사용자 명령에 응답할 것이 요구됩니다. GUI 에이전트 보안에 대한 기존 연구는 주로 동작 정확성 조작에 초점을 맞추는 반면, 응답 효율성과 관련된 보안 위험은 크게 탐구되지 않았습니다. 본 논문에서는 VLM 기반 GUI 에이전트의 응답성(responsiveness)을 표적으로 하는 새로운 백도어 공격인 SlowBA를 소개합니다. 핵심 아이디어는 특정 트리거 패턴에서 과도하게 긴 추론 체인을 유도하여 응답 지연 시간을 조작하는 것입니다. 이를 위해 장문 응답 형식을 먼저 정렬하고 강화 학습을 통해 트리거 인식 활성화를 학습하는 두 단계의 보상 수준 백도어 주입(RBI) 전략을 제안합니다. 또한 GUI 환경에서 자연스럽게 나타나는 현실적인 팝업 창을 트리거로 설계하여 공격의 은밀성을 향상시켰습니다. 여러 데이터셋과 기준 모델에서 수행한 폭넓은 실험을 통해 SlowBA가 작업 정확성을 크게 유지하면서도 응답 길이와 지연 시간을 유의미하게 증가시킬 수 있음을 입증했습니다. 이 공격은 적은 양의 데이터 오염 비율에서와 여러 방어 설정 하에서도 효과적으로 동작합니다. 이러한 결과는 GUI 에이전트에서 이전에 간과되었던 보안 취약점을 드러내며, 동작 정확성과 응답 효율성 모두를 고려한 방어의 필요성을 강조합니다. 코드는 https://github.com/tu-tuing/SlowBA에서 확인할 수 있습니다.
모방 학습(Imitation Learning, IL)은 로봇이 전문가 데모를 통해 조작 기술을 습득할 수 있게 합니다. 확산 정책(Diffusion Policy, DP)은 다중 모드 전문가 행동을 모델링하지만 관측 지평이 증가함에 따라 성능 저하를 겪어 장기간 조작에 한계가 있습니다. 본 연구에서는 게이트 어텐션을 통해 시간에 따라 진화하는 잠재 상태를 유지하는 시간 모듈인 Self-Evolving Gated Attention(SEGA)을 제안합니다. 이를 통해 장기간 관측 정보를 고정 크기 표현으로 압축하면서 관련 없는 시간 정보를 필터링하는 효율적인 순환 업데이트가 가능합니다. SEGA를 DP에 통합한 Self-Evolving Diffusion Policy(SeedPolicy)는 시간 모델링 병목 현상을 해결하고 적절한 오버헤드로 확장 가능한 지평 확장을 가능하게 합니다. 50개의 조작 작업으로 구성된 RoboTwin 2.0 벤치마크에서 SeedPolicy는 DP 및 다른 IL 기준 모델들을 능가했습니다. CNN과 Transformer 백본을 평균했을 때, SeedPolicy는 DP 대비 정상 설정에서 36.8%, 무작위 어려운 설정에서 169%의 상대적 성능 향상을 달성했습니다. 12억 개의 매개변수를 가진 RDT와 같은 vision-language-action 모델들과 비교했을 때, SeedPolicy는 1~2배수 적은 매개변수로 경쟁력 있는 성능을 달성하여 뛰어난 효율성과 확장성을 입증했습니다. 이러한 결과는 SeedPolicy를 장기간 로봇 조작을 위한 최첨단 모방 학습 방법으로 확립합니다. 코드는 https://github.com/Youqiang-Gui/SeedPolicy에서 확인할 수 있습니다.
월드 모델은 예측된 미래 공간에서의 계획 수립을 가능하게 하여, 구현형 내비게이션에 유망한 프레임워크를 제공합니다. 그러나 기존 내비게이션 월드 모델은 종종 행동 조건 일관성이 부족하여, 시각적으로 그럴듯한 예측도 다단계 롤아웃 시 드리프트를 일으키고 계획 성능을 저하시킬 수 있습니다. 더욱이 효율적인 배포를 위해서는 Few-Step 디퓨전 추론이 필요하지만, 기존의 증류 방법은 롤아웃 일관성을 명시적으로 보존하지 않아 훈련-추론 불일치를 초래합니다. 이러한 문제를 해결하기 위해 우리는 계획 기반 이미지 목표 내비게이션을 위한 이동형 월드 모델인 MWM을 제안합니다. 구체적으로, 행동 조건 롤아웃 일관성을 향상시키기 위해 구조적 사전 훈련과 행동 조건 일관성(ACC) 사후 훈련을 결합한 2단계 훈련 프레임워크를 도입합니다. 또한 향상된 롤아웃 일관성을 갖춘 Few-Step 디퓨전 증류를 위한 추론 일관 상태 증류(ICSD)를 제안합니다. 벤치마크 및 실제 과제에 대한 실험을 통해 시각적 정확도, 궤적 정확도, 계획 성공률 및 추론 효율성에서 지속적인 성능 향상을 입증합니다. 코드: https://github.com/AIGeeksGroup/MWM. 웹사이트: https://aigeeksgroup.github.io/MWM.