번역이 포함된 일일 선별된 AI 연구 논문
다중모달 추론에는 언어와 시각 간의 반복적 조정이 필요하지만, 무엇이 의미 있는 교차형 사고 사슬을 구성하는지 여전히 명확하지 않습니다. 우리는 텍스트와 이미지 사고가 동형이 아닌 상호 보완적 양식으로 작동하며 추론을 상호 발전시켜야 한다고 가정합니다. 이 원칙에 따라 다양한 시각적 참여도를 가진 과제들을 아우르는 24K 고품질 교차 추론 궤적으로 미세 조정된 통합 모델 ThinkMorph를 구축했습니다. ThinkMorph는 일관된 언어적 논리를 유지하면서 시각적 내용을 구체적으로 조작하는 점진적인 텍스트-이미지 추론 단계를 생성하도록 학습합니다. 이 모델은 시각 중심 벤치마크에서 기본 모델 대비 평균 34.7%의 큰 성능 향상을 보이며, 외부 영역 과제로도 일반화되어 더 크고 독점적인 VLM을 능가하거나 버금가는 성과를 냅니다. 성능 이상으로 ThinkMorph는 새로운 시각 조작 기술, 추론 모드 간 적응형 전환, 다양화된 다중모달 사고를 통한 향상된 테스트 시간 확장성을 포함한 창발적 다중모달 지능을 나타냅니다. 이러한 발견들은 다중모달 추론을 위한 통합 모델의 창발적 능력 특성화에 유망한 방향을 제시합니다.
NVIDIA의 Blackwell 아키텍처와 같은 현대 AI 하드웨어는 대규모 언어 모델(LLM)에서 보편적으로 나타나는 활성화 이상치(activation outlier)를 처리하기 위해 저정밀도 부동소수점(FP) 형식을 점점 더 많이 채택하고 있습니다. 이러한 산업 동향에도 불구하고, 다양한 세분화 수준(granularity)에서 FP와 정수(INT) 양자화를 통합적으로 비교한 연구가 부재하여 알고리즘과 하드웨어의 공동 설계에 명확한 지침이 없었습니다. 본 논문은 FP와 INT 형식 간의 trade-off를 체계적으로 조사하여 이러한 공백을 메웁니다. 우리는 중요한 성능 교차점을 밝혀냈습니다: FP는 coarse-grained 양자화에서 뛰어난 성능을 보이지만, fine-grained(block-wise) 수준의 비교는 더 미묘합니다. 우리의 포괄적 비교에 따르면, 널리 사용되는 8비트 fine-grained 형식(예: 블록 크기 32의 MX)의 경우 MXINT8이 알고리즘 정확도와 하드웨어 효율성 모두에서 FP 대응 형식보다 우수합니다. 그러나 4비트 형식의 경우 FP(예: MXFP4, NVFP4)가 정확도 측면에서 우위를 보이는 경우가 많지만, Hadamard 회전과 같은 이상치 완화 기술이 적용되면 NVINT4가 NVFP4를 능가할 수 있음을 보여줍니다. 또한 우리는 fine-grained 저비트 INT 학습에서 그래디언트 편향을 해결하는 대칭 클리핑(symmetric clipping) 방법을 도입하여 MXINT8 학습에서 거의 손실 없는 성능을 가능하게 합니다. 이러한 연구 결과는 현재의 하드웨어 발전 방향에 의문을 제기하며, '일반적' FP 접근법이 최적이 아니며, 특히 MXINT8과 같은 fine-grained INT 형식이 미래 AI 가속기를 위한 정확도, 전력, 효율성의 더 나은 균형을 제공함을 입증합니다.
대규모 언어 모델(LLM)의 효율성은 근본적으로 토큰 단위의 순차적 생성 과정에 의해 제한됩니다. 본 연구에서는 이러한 병목 현상을 극복하기 위해 LLM 확장의 새로운 설계 축, 즉 생성 단계별 의미론적 대역폭(semantic bandwidth) 증대가 필요하다고 주장합니다. 이를 위해 우리는 이산적 다음 토큰 예측에서 연속적 다음 벡터 예측으로의 패러다임 전환을 이루는 CALM(Continuous Autoregressive Language Models)을 제안합니다. CALM은 고해상도 오토인코더를 사용하여 K개의 토큰 덩어리를 단일 연속 벡터로 압축하며, 원본 토큰을 99.9% 이상의 정확도로 복원할 수 있습니다. 이를 통해 언어를 이산적 토큰의 연속이 아닌 연속 벡터의 시퀀스로 모델링하여 생성 단계 수를 K배 줄일 수 있습니다. 이러한 패러다임 전환은 새로운 모델링 도구 키트를 필요로 하므로, 우리는 연속 영역에서 강건한 학습, 평가 및 제어 가능한 샘플링을 가능하게 하는 포괄적인 가능도 무관(likelihood-free) 프레임워크를 개발했습니다. 실험 결과, CALM은 성능-계산 절충 관계를 크게 개선하여 강력한 이산 기준 모델들의 성능을 훨씬 낮은 계산 비용으로 달성함을 보여줍니다. 더욱 중요한 것은, 이러한 결과가 다음 벡터 예측이 초고효율 언어 모델을 위한 강력하고 확장 가능한 경로임을 입증한다는 점입니다. 코드: https://github.com/shaochenze/calm. 프로젝트: https://shaochenze.github.io/blog/2025/CALM.
비전-언어 모델(VLM) 기반 컴퓨터 사용 에이전트는 모바일 플랫폼과 같은 디지털 환경 운영에서 인간과 유사한 능력을 보여주고 있습니다. 이러한 에이전트는 디지털 자동화 발전에 큰 가능성을 지니고 있지만, 시스템 침해 및 개인정보 유출과 같은 안전하지 않은 운영 가능성으로 인해 심각한 우려가 제기되고 있습니다. 방대하고 복잡한 모바일 환경 운영 공간 전반에 걸쳐 이러한 안전 문제를 탐지하는 것은 여전히 심각하게 연구가 부족한 어려운 과제입니다. 모바일 에이전트 안전성 연구의 기반을 마련하기 위해, 우리는 상세한 주석이 달린 현실적인 궤적으로 구성된 안전성 탐지 벤치마크와 함께 동적 샌드박스 환경인 MobileRisk-Live를 소개합니다. 이를 기반으로 명시적 시스템 수준 위반 탐지를 위한 형식 검증기(Formal Verifier)와 상황별 위험 및 에이전트 행동 평가를 위한 VLM 기반 상황 판단기(Contextual Judge)를 시너지적으로 결합한 새로운 하이브리드 안전성 탐지 프레임워크인 OS-Sentinel을 제안합니다. 실험 결과, OS-Sentinel은 여러 메트릭에서 기존 접근법 대비 10%-30%의 성능 향상을 달성했습니다. 추가 분석을 통해 더 안전하고 신뢰할 수 있는 자율 모바일 에이전트 개발을 촉진하는 중요한 통찰을 제시합니다.
비전-언어-행동(Vision-Language-Action, VLA) 모델은 로봇이 다중 모드 입력을 통해 복잡한 작업을 이해하고 수행할 수 있게 합니다. 최근 연구에서는 지도 미세 조정(Supervised Fine-Tuning, SFT)의 규모 확장 시 수반되는 노동 집약적 데이터 수집 과정을 자동화하기 위해 강화 학습(Reinforcement Learning, RL)을 활용하는 방안을 탐구하고 있으나, 반복적 노이즈 제거 과정에서 발생하는 계산 불가능한 행동 로그 가능도로 인해 흐름 기반 VLA(예: π_0, π_{0.5})에 대규모 RL을 적용하는 것은 여전히 어려운 과제입니다. 본 연구는 이러한 과제를 pi_{RL}로 해결합니다. pi_{RL}은 병렬 시뮬레이션 환경에서 흐름 기반 VLA를 훈련하기 위한 오픈소스 프레임워크로, 두 가지 RL 알고리즘을 구현합니다: (1) **Flow-Noise**는 노이즈 제거 과정을 이산 시간 MDP로 모델링하고 학습 가능한 노이즈 네트워크를 통해 정확한 로그 가능도 계산을 수행합니다. (2) **Flow-SDE**는 노이즈 제거 과정을 에이전트-환경 상호작용과 통합하여, 효율적인 RL 탐사를 위해 ODE-to-SDE 변환을 활용하는 두 계층 MDP를 구성합니다. 우리는 pi_{RL}을 LIBERO 및 ManiSkill 벤치마크에서 평가했습니다. LIBERO에서 pi_{RL}은 소수 샷 SFT 모델 π_0과 π_{0.5}의 성능을 각각 57.6%에서 97.6%로, 77.1%에서 98.3%로 크게 향상시켰습니다. ManiSkill에서는 320개의 병렬 환경에서 pi_{RL}을 훈련하여, 4352개의 피크-앤-플레이스 작업에 대해 π_0의 성능을 41.6%에서 85.7%로, π_{0.5}의 성능을 40.0%에서 84.8%로 개선하였으며, 이질적 시뮬레이션 하에서 확장 가능한 다중 작업 RL의 가능성을 입증했습니다. 전체적으로, pi_{RL}은 SFT 모델 대비显著的한 성능 향상과 더 강력한 일반화 능력을 달성하여, 흐름 기반 VLA에 대한 온라인 RL의 효과성을 검증했습니다.
대규모 언어 모델(LLM)의 강화 학습(RL) 미세 조정은 학습 정책과 추론 정책 간의 수치적 불일치로 인해 불안정성을 겪는 경우가 많습니다. 기존 연구에서는 알고리즘적 보정이나 엔지니어링적 조정을 통해 이 문제를 완화하려 시도해왔지만, 우리는 그 근본 원인이 부동소수점 정밀도 자체에 있음을 보여줍니다. 널리 채택된 BF16은 넓은 동적 범위에도 불구하고, 큰 반올림 오차를 유발하여 학습과 추론 간의 일관성을 해칩니다. 본 연구에서는 단순히 FP16으로 되돌리는 것만으로도 이러한 불일치를 효과적으로 해소할 수 있음을 입증합니다. 이 변경은 간단하며, 현대 프레임워크에서 완벽히 지원되어 단 몇 줄의 코드 변경만으로 구현 가능하고, 모델 구조나 학습 알고리즘 수정이 필요하지 않습니다. 우리의 실험 결과는 FP16을 일관적으로 사용할 때 더 안정적인 최적화, 더 빠른 수렴, 다양한 작업과 알고리즘 및 프레임워크에서 더 강력한 성능을 얻을 수 있음을 시사합니다. 이러한 발견이 RL 미세 조정에서 정밀도 트레이드오프에 대한 폭넓은 재고를 촉진하기를 바랍니다.
공간 이해는 대규모 시각-언어 모델(LVLM)의 약점으로 남아 있습니다. 기존의 지도 미세 조정(SFT)과 최근의 검증 가능한 보상을 활용한 강화 학습(RLVR) 파이프라인은 비용이 많이 드는 감독, 전문 도구, 또는 규모 확장을 제한하는 제약된 환경에 의존합니다. 본 연구에서는 일반 RGB 또는 RGB-D 이미지에서 직접 검증 가능한 신호를 도출하는 자기 지도 강화 학습 패러다임인 Spatial-SSRL을 소개합니다. Spatial-SSRL은 2D 및 3D 공간 구조를 포착하는 다섯 가지 프리텍스트 작업(패치 셔플 재정렬, 패치 뒤집기 인식, 패치 크롭핑 인페인팅, 지역적 깊이 순서 지정, 상대적 3D 위치 예측)을 자동으로 구성합니다. 이러한 작업들은 인간 또는 LVLM 주석이 필요 없이 쉽게 검증 가능한 정답을 제공합니다. 우리의 작업을 통해 학습하면 일반적인 시각 능력을 유지하면서 공간 추론 능력이 크게 향상됩니다. 이미지 및 비디오 설정의 7가지 공간 이해 벤치마크에서 Spatial-SSRL은 Qwen2.5-VL 기준선 대비 3B 모델에서 4.63%, 7B 모델에서 3.89%의 평균 정확도 향상을 달성했습니다. 우리의 결과는 단순하고 내재적인 감독이 대규모 RLVR을 가능하게 하며 LVLM의 더 강력한 공간 지능을 위한 실용적인 경로를 제공함을 보여줍니다.
분포 매칭 증류(DMD)는 교사 모델의 샘플링 궤적과 일대일 대응을 요구하지 않으면서 점수 기반 생성 모델을 효율적인 단일 단계 생성기로 증류합니다. 그러나 제한된 모델 용량으로 인해 단일 단계 증류 모델은 텍스트-비디오 생성에서 복잡한 객체 운동을 합성하는 것과 같은 정교한 생성 작업에서 성능이 낮습니다. DMD를 다중 단계 증류로 직접 확장하면 메모리 사용량과 계산 깊이가 증가하여 불안정성과 효율성 저하를 초래합니다. 기존 연구에서는 확률적 경사도 절단을 잠재적 해결책으로 제안했지만, 우리는 이 방법이 다중 단계 증류 모델의 생성 다양성을 단일 단계 모델 수준으로 크게 감소시킨다는 사실을 관찰했습니다. 이러한 한계를 해결하기 위해 우리는 단계별 증류 개념과 전문가 혼합(MoE)을 결합하여 학습 난이도를 줄이면서 모델 용량을 향상시키는 다중 단계 증류 프레임워크인 단계적 DMD를 제안합니다. 단계적 DMD는 두 가지 핵심 아이디어인 점진적 분포 매칭과 부분 구간 내 점수 매칭을 기반으로 합니다. 먼저, 우리 모델은 SNR 범위를 부분 구간으로 나누어 더 높은 SNR 수준으로 모델을 점진적으로 정제함으로써 복잡한 분포를 더 잘 포착합니다. 다음으로, 각 부분 구간 내 학습 목표의 정확성을 보장하기 위해 엄격한 수학적 유도를 수행했습니다. 우리는 Qwen-Image(200억 매개변수) 및 Wan2.2(280억 매개변수)를 포함한 최첨단 이미지 및 비디오 생성 모델을 증류하여 단계적 DMD를 검증했습니다. 실험 결과는 단계적 DMD가 핵심 생성 능력을 유지하면서 DMD보다 출력 다양성을 더 잘 보존함을 보여줍니다. 우리는 코드와 모델을 공개할 예정입니다.
다중모달 위치 인코딩은 시각-언어 모델에 필수적이지만, 다중모달 위치 인코딩에 대한 체계적인 연구는 거의 이루어지지 않았습니다. 우리는 다중모달 Rotary Positional Embedding(RoPE)의 두 가지 핵심 구성 요소인 위치 설계와 주파수 할당을 분석하여 포괄적인 연구를 수행합니다. 광범위한 실험을 통해 우리는 세 가지 핵심 지침, 즉 위치 일관성, 전체 주파수 활용, 그리고 사전 훈련된 LLM으로부터의 충실한 전이를 보장하는 텍스트 사전 지식 보존을 확인했습니다. 이러한 통찰을 바탕으로 우리는 아키텍처 변경 없이 적용 가능한 간단한 변형인 Multi-Head RoPE(MHRoPE)와 MRoPE-Interleave(MRoPE-I)를 제안합니다. 우리의 방법은 다양한 벤치마크에서 기존 접근법을 꾸준히 능가하며, 일반적 및 세분화된 다중모달 이해 과제 모두에서 상당한 향상을 보입니다. 코드는 https://github.com/JJJYmmm/Multimodal-RoPEs에서 공개될 예정입니다.
자율 그래픽 사용자 인터페이스(GUI) 에이전트는 사용자 명령을 실행하기 위해 언어 지시를 화면 좌표에 매핑하는 정확한 GUI 그라운딩에 의존합니다. 그러나 감독 미세 조정(SFT) 또는 강화 미세 조정(RFT)을 통해 훈련된 현재 모델들은 자신의 능력 한계에 대한 자기 인식이 부족하여 과도한 자신감과 신뢰할 수 없는 예측을 보입니다. 우리는 먼저 일반 및 GUI 특화 모델에서 확률적 및 언어화된 신뢰도를 체계적으로 평가하여, 단일 오류가 작업 실패로 이어질 수 있는 동적 GUI 자동화 작업에서 특히 중요한, 신뢰도와 실제 정확도 간의 불일치를 밝혔습니다. 이를 해결하기 위해 우리는 불확실성 보정을 통해 신뢰할 수 있는 GUI 그라운딩을 향상시키는 새로운 프레임워크인 HyperClick을 제안합니다. HyperClick은 정확한 행동에 대한 이진 보상과 Brier 점수를 사용하여 보정된 절단 가우시안 기반 공간 신뢰도 모델링을 결합한 이중 보상 메커니즘을 도입합니다. 이 접근 방식은 그라운딩 정확도와 신뢰도 안정성을 공동으로 최적화하며 성찰적 자기 비판을 촉진합니다. 7개의 도전 벤치마크에 대한 광범위한 실험 결과, HyperClick이 잘 보정된 신뢰도를 제공하면서도 최첨단 성능을 달성함을 보여줍니다. 명시적 신뢰도 보정과 성찰적 자기 비판을 가능하게 함으로써 HyperClick은 과도한 자신감을 줄이고 더 신뢰할 수 있는 GUI 자동화를 지원합니다.
Chain-of-Thought(CoT) 추론의 과도한 언어적 표현은 효율성이 중요한 애플리케이션에서의 대규모 적용을 저해합니다. 최근 등장한 암묵적 CoT 접근법은 추론 단계를 명시적 토큰 대신 LLM의 은닉 임베딩 내에 인코딩함으로써(이를 '암묵적 추론'이라 칭함) 추론 길이를 단축하고 일부 LLM 구성 요소를 우회하여 CoT를 가속화합니다. 그러나 기존 암묵적 CoT 방법은 두 가지 주요 과제에 직면합니다: (1) 암묵적 추론(자연어로 변환될 때)과 실제 추론 간의 의미적 정렬을 유지하지 못해 CoT 성능이 현저히 저하되며, (2) 암묵적 추론의 길이 축소에만 집중하여 개별 암묵적 추론 토큰을 생성하는 LLM의 상당한 시간 비용을 간과합니다. 이러한 과제를 해결하기 위해 본 논문은 SemCoT라는 새로운 의미 정렬 암묵적 CoT 프레임워크를 제안합니다. 첫 번째 과제에 대해서는 암묵적 추론과 명시적 추론 간의 의미적 정렬을 평가하는 대조 학습 기반 문장 변환기를 설계하여 암묵적 추론 최적화 과정에서 의미 보존을 강제합니다. 두 번째 과제를 해결하기 위해 지식 증류를 활용한 경량 언어 모델 미세 조정을 통한 효율적인 암묵적 추론 생성기를 도입합니다. 이 생성기는 실제 추론을 의미적으로 정렬된 암묵적 추론으로 증류하도록 문장 변환기의 지도를 받으며, 정확도 또한 함께 최적화합니다. SemCoT는 토큰 수준 생성 속도 최적화와 실제 추론과의 의미적 정렬 보존을 함께 수행하여 CoT 효율성을 향상시키는 최초의 접근법입니다. 폭넓은 실험을 통해 SemCoT가 효율성과 효과성 모두에서 최신 방법 대비 뛰어난 성능을 보임을 입증합니다. 코드는 https://github.com/YinhanHe123/SemCoT/에서 확인할 수 있습니다.
스케일된 점곱 어텐션의 2차 비용은 장기간 문맥으로 자기회귀 언어 모델을 확장하는 데 있어 핵심적인 장애물입니다. 선형 시간 어텐션과 상태 공간 모델(SSM)은 확장 가능한 대안을 제공하지만, 일반적으로 1차 또는 커널 기반 근사에 제한되어 표현력을 제한할 수 있습니다. 우리는 컴팩트한 접두사 충분 통계량을 통해 고차 상호작용을 실현하는 인과적 스트리밍 메커니즘인 고차 선형 어텐션(HLA)을 소개합니다. 2차 경우에서 HLA는 일정한 크기의 상태를 유지하며 n x n 행렬을 구체화하지 않고 선형 시간에 토큰별 출력을 계산합니다. 우리는 폐쇄형 스트리밍 항등식, 두 개의 추가 요약 통계량을 사용하는 엄격한 인과적 마스킹 변형, 그리고 직렬 순환의 활성화를 정확히 재현하는 결합 스캔에 기반한 청크 병렬 훈련 기법을 제시합니다. 우리는 더 나아가 3차 및 고차로의 확장을 개요합니다. 종합적으로, 이러한 결과는 HLA를 어텐션과 유사한 데이터 기반 혼합과 현대적 순환 구조의 효율성을 결합한 원칙적이고 확장 가능한 구성 요소로 위치시킵니다. 프로젝트 페이지: https://github.com/yifanzhang-pro/HLA.
멀티모달 대규모 언어 모델(MLLM)은 시각 입력으로부터 직접적인 인지, 추론, 작업 지향적 행동 계획을 가능하게 함으로써 구현 에이전트의 성능을 향상시켜 왔습니다. 그러나 이러한 시각 주도형 구현 에이전트는 새로운 공격 표면을 열었습니다: 시각 백도어 공격으로, 에이전트는 일반적으로 동작하다가 환경에서 시각적 트리거가 나타나면 공격자가 지정한 다단계 정책을 지속적으로 실행합니다. 본 연구는 환경 내 객체를 트리거로 활용하여 MLLM 기반 구현 에이전트에 이러한 시각 백도어를 주입하는 최초의 프레임워크인 BEAT를 소개합니다. 텍스트 트리거와 달리 객체 트리거는 시점과 조명에 따라 광범위한 변화를 보여 신뢰성 높은 주입이 어렵습니다. BEAT는 (1) 다양한 장면, 작업, 트리거 배치를 아우르는 훈련 세트를 구축하여 에이전트가 트리거 변동성에 노출되도록 하고, (2) 지도 미세 조정(SFT)을 먼저 적용한 후 새로운 대조 트리거 학습(CTL)을 도입하는 두 단계 훈련 방식을 제시하여 이 문제를 해결합니다. CTL은 트리거 식별을 트리거 존재 입력과 트리거 무입력 간의 선호도 학습으로 공식화하여 명시적인 결정 경계를 선명하게 만들어 정확한 백도어 활성화를 보장합니다. 다양한 구현 에이전트 벤치마크와 MLLM에서 BEAT는 최대 80%의 공격 성공률을 달성하면서도 강력한 정상 작업 성능을 유지하고, 분포 외 트리거 배치에도 안정적으로 일반화합니다. 특히, 단순 SFT 대비 CTL은 제한된 백도어 데이터 조건에서 백도어 활성화 정확도를 최대 39%까지 향상시켰습니다. 이러한 결과는 MLLM 기반 구현 에이전트의 중요하지만 탐구되지 않은 보안 위험을 드러내며, 실제 배치 전에 견고한 방어 체계의 필요성을 강조합니다.
LLM이 사회에서 점점 더 중요한 역할을 차지함에 따라, 이들은 일반적인 지식을 활용할 뿐만 아니라 특정 인간 가치 체계에 부합하도록 답변해야 하는 질문을 점점 더 많이 접하게 됩니다. 따라서 LLM의 인간 가치 정렬(alignment)을 연구하는 것은 중요한 연구 분야가 되었습니다. 그러나 기존 연구는 대부분 완전히 훈련된 모델의 정렬 성능을 평가하는 데 집중하여, 모델이 인간 가치를 표현하는 법을 학습하는 훈련 역동성(training dynamics)을 간과해 왔습니다. 본 연구에서는 모델의 사후 훈련(post-training) 과정에서 가치 정렬이 어떻게, 그리고 어떤 단계에서 발생하는지 조사합니다. 우리의 분석은 사후 훈련 알고리즘과 데이터셋의 효과를 분리하여 훈련 동안 발생하는 가치 변화(v value drift)의 규모와 시점을 측정합니다. 다양한 크기의 Llama-3 및 Qwen-3 모델과 널리 사용되는 지도 미세 조정(SFT) 및 선호도 최적화(preference optimization) 데이터셋과 알고리즘을 실험한 결과, SFT 단계에서 일반적으로 모델의 가치가 확립되며, 이후의 선호도 최적화는 이러한 가치를 재정렬하는 경우가 드물다는 사실을 발견했습니다. 더 나아가, 가치를 통제적으로 조작할 수 있는 합성 선호도 데이터셋(synthetic preference dataset)을 사용하여, 선호도 데이터가 동일하게 유지되더라도 서로 다른 선호도 최적화 알고리즘이 상이한 가치 정렬 결과를 초래한다는 점을 확인했습니다. 우리의 연구 결과는 사후 훈련 과정에서 가치가 어떻게 학습되는지에 대한 실질적인 통찰을 제공하며, 인간 가치에의 모델 정렬을 개선하기 위한 데이터 관리(curation) 및 선호도 최적화를 위한 모델과 알고리즘 선택에 유용한 정보를 제공합니다.
최근 비전-언어-행동 모델(VLA)에 세계 모델링을 접목하는 방식이 로봇 정책 학습 성능 향상에 효과적임이 입증되고 있다. 그러나 관측 정보와 행동 시퀀스라는 두 양상 간의 본질적 차이로 인해 다음 상태 관측과 행동 시퀀스를 동시에 예측하는 것은 여전히 과제로 남아 있다. 이를 해결하기 위해 우리는 양상 간 충돌 문제를 처리하고 다양한 작업에서 VLA 성능을 향상시키는 세계 모델 기반 VLA 프레임워크인 DUAL-STream diffusion(DUST)을 제안한다. 구체적으로 우리는 명시적으로 분리된 양상 스트림을 유지하면서도 교차 양상 지식 공유가 가능한 다중모드 확산 트랜스포머 아키텍처를 설계하였다. 또한 각 양상에 독립적인 노이즈 섭동 기법과 분리형 흐름 매칭 손실 함수를 도입하였다. 이 설계는 통합 잠재 공간이 필요 없이 양방향 방식으로 결합 분포를 학습할 수 있게 한다. 훈련 시 양상 분리 구조를 기반으로, 우리는 행동 토큰과 비전 토큰이 서로 다른 속도로 비동기적으로 발전하는 테스트 시간 스케일링을 지원하는 결합 샘플링 방법도 제안한다. RoboCasa 및 GR-1과 같은 시뮬레이션 벤치마크 실험에서 DUST는 기준 방법 대비 최대 6% 성능 향상을 보였으며, 테스트 시간 스케일링 기법을 통해 추가로 2-5% 성능 향상을 달성했다. Franka Research 3을 이용한 실제 환경 작업에서 DUST는 성공률을 13% 향상시켜 시뮬레이션을 넘어선 유효성을 입증했다. 더 나아가 BridgeV2의 행동 정보 없는 영상으로 사전 훈련 시 RoboCasa에서显著的한 전이 효과가 관찰되어 DUST의 대규모 VLA 사전훈련 적용 가능성을 확인하였다.
우리는 과학 연구 보조자 역할을 수행하도록 설계된 AI 멀티 에이전트 시스템인 Denario를 소개한다. Denario는 아이디어 생성, 문헌 조사, 연구 계획 수립, 코드 작성 및 실행, 플롯 생성, 과학 논문 초안 작성 및 검토 등 다양한 작업을 수행할 수 있다. 본 시스템은 모듈식 아키텍처를 갖추고 있어 특정 작업(예: 아이디어 생성)을 수행하거나 Cmbagent를 심층 연구 백엔드로 활용한 종단간 과학 분석을 실행할 수 있다. 본 연구에서는 Denario와 해당 모듈을 상세히 설명하고, 천체물리학, 생물학, 생물물리학, 생의학정보학, 화학, 재료과학, 수리물리학, 의학, 신경과학, 행성과학 등 다양한 과학 분야에서 생성된 여러 AI 생성 논문을 제시함으로써 그 성능을 입증한다. Denario는 또한 서로 다른 분야의 아이디어를 결합하는 데 뛰어나며, 양자물리학과 기계 학습 방법을 천체물리학 데이터에 적용한 논문을 예시로 이러한 능력을 보여준다. 우리는 해당 분야 전문가들이 이러한 논문에 대해 수행한 평가를 보고하며, 전문가들은 숫자 점수와 함께 심사 의견 형태의 피드백을 제공했다. 이후 현재 시스템의 강점, 약점 및 한계점을 부각한다. 마지막으로 AI 주도 연구의 윤리적 함의를 논의하고, 이러한 기술이 과학 철학과 어떻게 관련되는지 고찰한다. 우리는 코드를 https://github.com/AstroPilot-AI/Denario 에 공개한다. Denario 데모는 https://huggingface.co/spaces/astropilot-ai/Denario 에서 웹에서 직접 실행해 볼 수 있으며, 전체 애플리케이션은 클라우드에 배포될 예정이다.
수학적 추론은 올바른 답변뿐만 아니라 신뢰할 수 있는 추론 과정을 요구한다는 점에서 대규모 언어 모델(LLM)의 핵심 과제입니다. 검증 가능한 보상을 활용한 강화 학습(RLVR)은 이러한 능력을 향상시키는 유망한 접근법으로 부상했지만, 진정한 추론 능력을 키울 수 있는지 여부는 여전히 불분명합니다. 본 연구에서는 고유한 최적해를 가진 신중하게 구성된 데이터셋을 사용하여 완전히 검증 가능한 해법을 갖는 두 가지 조합 최적화 문제(활동 스케줄링 및 최장 증가 부분 수열)에 대해 RLVR을 분석합니다. 다양한 보상 설계를 통해 RLVR이 평가 지표는 개선하지만, 새로운 추론 전략을 습득하기보다는 피상적인 휴리스틱을 강화하는 경우가 많다는 사실을 확인했습니다. 이러한 결과는 RLVR의 일반화 한계를 부각시키며, 진정한 수학적 추론과 단순한 단축 해법 활용을 구분하고 진전을 정확히 측정할 수 있는 벤치마크의 중요성을 강조합니다. 코드는 https://github.com/xashru/rlvr-seq-generalization에서 확인할 수 있습니다.
비전-언어-행동 모델(VLAs)은 디지털 지식과 물리적 세계 상호작용의 간극을 메우는 것을 목표로 하는 구현형 인공지능의 중요한 전선을 대표합니다. 이러한 모델은 놀라운 일반화 능력을 입증했으나, 그 기반이 되는 대규모 파운데이션 모델의 본질적인 방대한 계산 및 데이터 요구사항으로 인해 실제 배포가 심각하게 제한되고 있습니다. 이러한 과제 해결의 시급한 필요성에 동기를 부여받아, 본 설문 연구는 데이터-모델-훈련 전 과정에 걸친 효율적 비전-언어-행동 모델(Efficient VLAs)에 대한 최초의 포괄적인 검토를 제시합니다. 구체적으로, 본 연구는 이 분야의 다양한 연구 노력을 체계적으로 정리하기 위한 통합 분류 체계를 도입하며, 현재 기술을 (1) 효율적인 아키텍처와 모델 압축에 초점을 맞춘 효율적 모델 설계, (2) 모델 학습 과정의 계산 부담을 줄이는 효율적 훈련, (3) 로봇 데이터 확보 및 활용의 병목 현상을 해결하는 효율적 데이터 수집이라는 세 가지 핵심 기둥으로 분류합니다. 이 프레임워크 내에서 최첨단 방법들에 대한 비판적 검토를 통해, 본 설문 연구는 커뮤니티를 위한 기초 참고 자료를 마련할 뿐만 아니라 대표적인 응용 사례를 요약하고, 주요 과제를 delineate하며, 향후 연구를 위한 로드맵을 제시합니다. 최신 개발 동향을 추적하기 위해 지속적으로 업데이트되는 프로젝트 페이지를 유지합니다: https://evla-survey.github.io/
대규모 언어 모델(LLM)은 사용자가 대화를 통해 선호도를 표현하고 추천을 받을 수 있게 함으로써 추천 시스템 패러다임을 재편하고 있습니다. 그러나 LLM을 추천 작업에 맞추는 것은 여전히 어려운 과제입니다: 사전 학습된 LLM은 종종 카탈로그에 없는 항목을 생성하거나, 요구되는 출력 형식을 위반하며, 생성된 목록의 끝으로 갈수록 순위 지정 품질이 급격히 저하됩니다. 이를 위해 우리는 LLM 기반 대화형 추천 시스템의 종단간 학습을 위한 2단계 프레임워크인 ConvRec-R1을 제안합니다. 1단계에서는 Remap-Reflect-Adjust 파이프라인을 통해 행동 복제 데이터셋을 구축하여, 강력한 블랙박스 LLM으로부터 카탈로그에 기반한 고품질 데모를 생성하여 RL 학습을 웜스타트합니다. 2단계에서는 순위 스타일 출력을 가진 작업에 맞춰 그룹 상대 정책 최적화(GRPO)를 체계적으로 확장한 Rank-GRPO를 제안합니다. Rank-GRPO는 추천 목록의 각 순위를 토큰(너무 세분화됨)이나 시퀀스(너무 포괄적) 대신 단위로 취급하며, 인과 관계에 기인하지 않는 크레딧 할당을 제거하기 위해 보상을 재정의하고, 순위별 토큰 확률의 기하 평균에 기반한 순위 수준 중요도 비율을 도입하여 정책 업데이트를 안정화합니다. 공개 Reddit-v2 데이터셋에 대한 실험 결과, ConvRec-R1이 GRPO 스타일 베이스라인보다 더 빠르게 수렴하고 더 높은 Recall 및 NDCG를 달성함을 보여줍니다. 코드와 데이터셋은 https://github.com/yaochenzhu/Rank-GRPO 에 공개되어 있습니다.
텍스트-이미지(T2I) 모델은 합성 데이터셋 생성에 점점 더 많이 활용되고 있지만, 분류 작업을 위한 효과적인 합성 훈련 데이터를 생성하는 것은 여전히 어려운 과제입니다. 소수의 실제 예시로 T2I 모델을 미세 조정하면 합성 훈련 데이터의 품질을 향상시키는 데 도움이 될 수 있지만, 이는 과적합을 유발하고 생성된 샘플의 다양성을 감소시킬 수도 있습니다. 본 논문에서는 세분화된 분류를 위한 이러한 문제점을 완화하기 위한 미세 조정 전략인 BOB(BeyondOBjects)을 제안합니다. 소규모의 실제 예시 집합이 주어지면, 먼저 장면 배경 및 객체 포즈와 같은 범주-불변 속성을 추출합니다. 그런 다음 T2I 모델 미세 조정 시 이러한 속성을 명시적으로 조건으로 지정하고, 생성 단계에서는 이를 주변화합니다. 이러한 설계는 과적합을 완화하고, T2I 모델의 생성적 사전 지식을 보존하며, 추정 오차를 줄이고, 의도하지 않은 클래스 간 연관을 추가로 최소화합니다. 여러 T2I 모델, 백본 및 데이터셋에 걸친 포괄적인 실험을 통해, 본 방법이 합성 데이터로 증강된 저샷 세분화 분류에서 최첨단 성능을 달성함을 보여줍니다. 구체적으로, BOB은 Aircraft 데이터셋에서 DataDream보다 7.4% 우수한 성능을 보였습니다(5개의 실제 이미지와 100개의 합성 이미지로 증강하여 CLIP 분류기를 미세 조정했을 때 50.0%에서 57.4%로 향상). 4개의 벤치마크 중 3가지에서, BOB으로 증강된 5개의 실제 이미지로 하류 모델을 미세 조정한 결과가 10개의 실제 이미지로 미세 조정한 것보다 더 나은 성능을 달성했습니다. 전체적으로 BOB은 24개의 실험 설정 중 18가지에서 기존 기술을 능가했으며, 이 중 14가지 설정에서 2% 이상의 정확도 향상을 보였습니다.
정확한 건물 인스턴스 분할 및 높이 분류는 도시 계획, 3차원 도시 모델링 및 인프라 모니터링에 매우 중요합니다. 본 논문은 위성 영상으로부터 건물 추출과 이산적 높이 분류를 결합한 응용에 초점을 맞춰, 딥러닝 모델 YOLO 시리즈의 최신 발전인 YOLOv11을 상세히 분석합니다. YOLOv11은 서로 다른 규모의 특징을 더 효율적으로 결합하고, 객체 위치 정확도를 개선하며, 복잡한 도시 환경에서의 성능을 향상시키는 더 효율적인 구조를 도입하여 기존 YOLO 모델의 장점을 발전시켰습니다. 12개 도시에 걸쳐 125,000개 이상의 주석이 달린 건물을 포함하는 DFC2023 Track 2 데이터셋을 사용하여 정밀도, 재현율, F1 점수, 평균 평균 정밀도(mAP) 등의 지표로 YOLOv11의 성능을 평가했습니다. 연구 결과에 따르면 YOLOv11은 5개의 사전 정의된 높이 계층 전반에서 견고한 분류 정확도를 유지하면서 60.4%의 mAP@50과 38.3%의 mAP@50–95로 강력한 인스턴스 분할 성능을 달성했습니다. 특히 드문 고층 구조물에 대해 가림 현상, 복잡한 건물 형태, 클래스 불균형을 효과적으로 처리하는 것으로 나타났습니다. 비교 분석 결과, YOLOv11은 탐지 정확도와 추론 속도 모두에서 기존 다중 작업 프레임워크를 능가하며, 이는 실시간 대규모 도시 매핑에 매우 적합함을 확인했습니다. 본 연구는 YOLOv11이 간소화된 범주형 높이 모델링을 통해 의미론적 도시 재구성을 발전시킬 잠재력을 강조하며, 향후 원격 탐사 및 지리공간 정보 분야 발전을 위한 실행 가능한 통찰을 제공합니다.
건강 관련 허위정보는 매우 만연하며 잠재적으로 해로울 수 있습니다. 특히 과학적 연구 결과를 왜곡하거나 오해하는 주장인 경우 이를 식별하기 어렵습니다. 본 연구에서는 MISSCI 데이터셋과 프레임워크를 활용하여 합성 데이터 생성과 경량화된 파인튜닝 기법이 대규모 언어 모델(LLM)의 오류 논리 인식 능력에 미치는 영향을 조사합니다. 본 논문에서는 검색 증강 생성(RAG)을 적용해 합성 오류 샘플을 생성한 후 이를 LLM 모델 파인튜닝에 활용하는 MisSynth 파이프라인을 제안합니다. 실험 결과, 파인튜닝된 모델이 기본 기준 모델 대비 정확도에서 상당한 향상을 보였습니다. 예를 들어, LLaMA 3.1 8B 파인튜닝 모델은 MISSCI 테스트 분할에서 기본 기준 대비 35% 이상의 절대적 F1-점수 향상을 달성했습니다. 우리는 제한된 주석 리소스를 증강하기 위해 합성 오류 데이터를 도입하면 계산 자원이 제한된 상황에서도 실제 과학 허위정보 분류 과제에 대한 LLM의 제로샷 분류 성능을 크게 향상시킬 수 있음을 입증합니다. 코드와 합성 데이터셋은 https://github.com/mxpoliakov/MisSynth에서 확인할 수 있습니다.
카드 게임은 불확실성 하에서의 순차적 의사결정 연구에 널리 사용되며, 협상, 금융, 사이버보안 등 실제 상황과 유사한 특징을 지닙니다. 이러한 게임은 일반적으로 제어 흐름에 따라 세 가지 범주로 나뉩니다: 엄격한 순차적 진행(플레이어가 단일 행동을 교대로 수행), 결정적 응답(특정 행동이 고정된 결과를 유발), 무제한 상호 응답(교대로 대응 행동이 허용). 덜 연구되었지만 전략적으로 풍부한 구조는 제한된 단방향 응답으로, 한 플레이어의 행동이 상대방에게 잠시 제어권을 이전하며, 상대방은 턴이 해결되기 전에 하나 이상의 행동으로 고정된 조건을 충족해야 합니다. 우리는 이러한 메커니즘을 갖춘 게임을 제한된 단방향 응답 게임(BORG)으로 명명합니다. 본 연구에서는 이러한 역학을 분리한 벤치마크 환경으로 수정된 모노폴리 딜 버전을 소개하며, 여기서 임대 행동은 상대방이 지불 자산을 선택하도록 강제합니다. 금표준 알고리즘인 반사실적 후회 최소화(CFR)는 새로운 알고리즘 확장 없이 효과적인 전략으로 수렴합니다. 경량 풀스택 연구 플랫폼은 환경, 병렬화된 CFR 런타임, 인간이 플레이 가능한 웹 인터페이스를 통합합니다. 학습된 CFR 에이전트와 소스 코드는 https://monopolydeal.ai에서 이용할 수 있습니다.