번역이 포함된 일일 선별된 AI 연구 논문
GLM-4.5를 소개합니다. 이는 총 355B 파라미터와 32B 활성화 파라미터를 가진 오픈소스 Mixture-of-Experts(MoE) 대규모 언어 모델로, 사고 모드와 직접 응답 모드를 모두 지원하는 하이브리드 추론 방식을 특징으로 합니다. 23T 토큰에 대한 다단계 학습과 전문가 모델 반복 및 강화 학습을 포함한 포괄적인 사후 학습을 통해, GLM-4.5는 에이전트, 추론, 코딩(ARC) 작업에서 강력한 성능을 보이며, TAU-Bench에서 70.1%, AIME 24에서 91.0%, SWE-bench Verified에서 64.2%의 점수를 기록했습니다. 경쟁 모델들보다 훨씬 적은 파라미터를 사용하면서도, GLM-4.5는 평가된 모든 모델 중 전체적으로 3위, 에이전트 벤치마크에서는 2위를 차지했습니다. 우리는 추론 및 에이전트 AI 시스템 연구를 발전시키기 위해 GLM-4.5(355B 파라미터)와 컴팩트 버전인 GLM-4.5-Air(106B 파라미터)를 공개합니다. 코드, 모델 및 추가 정보는 https://github.com/zai-org/GLM-4.5에서 확인할 수 있습니다.
가상 피팅(Virtual try-on)은 특정 의상을 입은 사람의 현실적인 이미지를 합성하는 것을 목표로 하지만, 특히 자세와 외모 변화 하에서 의상과 신체 간의 정확한 대응을 모델링하는 것은 여전히 지속적인 과제로 남아 있습니다. 본 논문에서는 단일 디퓨전 트랜스포머(Diffusion Transformer)를 통해 가상 피팅과 가상 탈의(Try-off)를 통합적으로 학습하는 Voost라는 통합적이고 확장 가능한 프레임워크를 제안합니다. 두 작업을 함께 모델링함으로써, Voost는 각 의상-사람 쌍이 양방향을 모두 감독할 수 있도록 하며, 생성 방향과 의상 카테고리에 대한 유연한 조건 설정을 지원함으로써, 작업별 네트워크, 보조 손실 함수 또는 추가 레이블 없이도 의상과 신체 간의 관계적 추론을 강화합니다. 또한, 우리는 두 가지 추론 시 기술을 도입했습니다: 해상도 또는 마스크 변화에 대한 견고성을 위한 주의 온도 스케일링(Attention Temperature Scaling)과 작업 간의 양방향 일관성을 활용한 자기 수정 샘플링(Self-corrective Sampling)입니다. 광범위한 실험을 통해 Voost가 피팅 및 탈의 벤치마크에서 최첨단 결과를 달성하며, 정렬 정확도, 시각적 충실도 및 일반화 측면에서 강력한 베이스라인을 지속적으로 능가함을 입증했습니다.
대형 언어 모델(LLMs) 기반 에이전트는 다양한 작업에서 뛰어난 성능을 보이지만, 수동으로 설계되거나 정적 매개변수에 얽힌 취약한 절차적 메모리로 인해 한계를 겪는다. 본 연구에서는 에이전트에게 학습 가능하고 업데이트 가능하며 평생 지속되는 절차적 메모리를 부여하기 위한 전략을 탐구한다. 우리는 과거 에이전트 궤적을 세분화된 단계별 지침과 더 높은 수준의 스크립트 형태의 추상화로 정제하는 Memp를 제안하고, 절차적 메모리의 구축, 검색, 업데이트를 위한 다양한 전략의 영향을 탐구한다. 이 저장소는 새로운 경험과 동시에 진화하며, 내용을 지속적으로 업데이트, 수정, 폐기하는 동적 체제와 결합된다. TravelPlanner와 ALFWorld에서의 실험적 평가는 메모리 저장소가 개선됨에 따라 에이전트가 유사한 작업에서 꾸준히 더 높은 성공률과 더 큰 효율성을 달성함을 보여준다. 또한, 더 강력한 모델로부터 구축된 절차적 메모리는 그 가치를 유지한다: 절차적 메모리를 더 약한 모델로 이전하면 상당한 성능 향상을 얻을 수 있다.
멀티모달 대형 언어 모델(MLLMs)의 등장은 순수 시각 입력을 통해 그래픽 사용자 인터페이스(GUIs)에서 작동하는 자율 에이전트의 개발을 촉진시켰습니다. 근본적인 과제는 자연어 명령어를 견고하게 기반으로 삼는 것입니다. 이는 각 요소의 좌표를 정확히 찾아내는 공간적 정렬과, 더욱 중요하게는 명령어를 기능적으로 적절한 UI 요소와 일치시키는 의미적 정렬을 요구합니다. 검증 가능한 보상을 통한 강화 학습(RLVR)이 이러한 MLLMs의 공간적 정렬을 개선하는 데 효과적임이 입증되었지만, 비효율적인 탐색이 의미적 정렬을 방해하여 모델이 어려운 의미적 연관성을 학습하지 못하게 하는 것으로 나타났습니다. 이 탐색 문제를 해결하기 위해, 우리는 새로운 정책 최적화 프레임워크인 적응형 탐색 정책 최적화(AEPO)를 제시합니다. AEPO는 더 넓은 탐색을 강제하기 위해 다중 답변 생성 전략을 사용하며, 이는 효율성의 기본 원리인 eta=U/C에서 도출된 이론적으로 근거 있는 적응형 탐색 보상(AER) 함수에 의해 안내됩니다. AEPO로 훈련된 모델인 InfiGUI-G1-3B와 InfiGUI-G1-7B는 여러 도전적인 GUI 기반 벤치마크에서 새로운 최첨단 결과를 달성하며, 일반화와 의미적 이해를 테스트하기 위해 설계된 벤치마크에서 순진한 RLVR 기준에 비해 최대 9.0%의 상대적 개선을 이루었습니다. 리소스는 https://github.com/InfiXAI/InfiGUI-G1에서 확인할 수 있습니다.
최근 대규모 추론 모델(Large Reasoning Models, LRMs)은 사고의 연쇄(Chain-of-Thought, CoT) 길이를 확장함으로써 코드 추론에서 놀라운 능력을 보여주고 있습니다. 그러나 지나치게 긴 추론 흔적은 훈련 비용, 추론 지연 시간, 배포 가능성 측면에서 상당한 어려움을 야기합니다. 이러한 문제를 해결하기 위해 다양한 CoT 압축 방법이 등장했지만, 이들은 본질적인 절충점을 안고 있습니다: 토큰 수준의 방법은 구문적 및 논리적 일관성을 해치는 반면, 혼란도(perplexity)에 기반한 단계 수준의 방법은 논리적으로 중요한 추론 단계를 안정적으로 포착하지 못합니다. 본 논문에서는 CoT 압축을 위한 새로운 coarse-to-fine 프레임워크인 ASAP(Anchor-guided, Surprisal-based Pruning)을 제안합니다. ASAP은 먼저 핵심 추론 구조를 보존하기 위해 앵커 기반 가지치기를 수행하여 후속 처리의 탐색 공간을 효율적으로 줄입니다. 그런 다음, 새로운 첫 토큰 혼란도 메트릭을 기반으로 논리적으로 필수적인 추론 단계를 선택함으로써 논리 인식 가지치기를 가능하게 합니다. 마지막으로, ASAP은 모델이 추론 시 이러한 간결한 CoT를 자율적으로 생성하고 활용하도록 가르쳐 코딩 작업에서 효율적인 추론을 가능하게 합니다. 실험 결과, ASAP은 여러 코드 생성 벤치마크에서 최첨단 정확도를 달성하면서도 훈련 및 추론 비용을 크게 절감했습니다. 특히 도전적인 LiveCodeBench v4_v5 벤치마크에서, 우리의 접근 방식은 가장 강력한 베이스라인 대비 토큰 생성을 23.5% 줄이고 추론 지연 시간을 43.5% 단축하면서도 Pass@1에서 36.19%의 경쟁력 있는 정확도를 달성했습니다. 이러한 결과는 강력하고 효율적인 LRM 구축을 위한 유망한 방향성을 제시합니다.
대규모 활성화는 트랜스포머 은닉 상태에서 일반적인 활성화보다 수 차례 더 큰 스칼라 값으로, 모델 기능에 중요한 역할을 하는 것으로 밝혀졌다. 기존 연구에서는 완전히 학습된 모델에서 이러한 현상을 특성화했으나, 학습 과정 중 이들의 발생 시점과 동역학에 대한 이해는 여전히 부족한 상태이다. 본 연구에서는 Pythia 모델 패밀리를 테스트베드로 활용하여 트랜스포머 학습 전반에 걸친 대규모 활성화 발달에 대한 첫 번째 포괄적인 분석을 제시한다. 다양한 모델 크기와 학습 체크포인트에 대한 체계적인 분석을 통해, 대규모 활성화의 발생이 다섯 가지 주요 매개변수를 갖는 지수적으로 조절된 로그 함수로 정확하게 모델링될 수 있는 예측 가능한 수학적 패턴을 따른다는 것을 입증한다. 또한, 아키텍처 사양만으로 이러한 수학적 매개변수를 예측하기 위한 머신러닝 프레임워크를 개발하여, 정상 상태 동작에 대해 높은 정확도를, 발생 시점과 크기에 대해 중간 정도의 정확도를 달성한다. 이러한 연구 결과는 설계 선택을 통해 대규모 활성화 발생의 주요 측면을 예측하고 잠재적으로 제어할 수 있게 함으로써 모델 안정성, 학습 주기 길이, 해석 가능성 및 최적화에 중요한 시사점을 제공한다. 본 연구는 대규모 활성화의 발생이 모델 설계에 의해 지배되며, 학습 시작 전에 예측하고 잠재적으로 제어할 수 있음을 입증한다.
Neural Radiance Fields(NeRF)와 Gaussian Splatting(GS)는 최근 3D 장면 표현과 렌더링 방식을 혁신적으로 변화시켰습니다. NeRF는 신경망을 통해 볼륨 기반 표현을 학습함으로써 고품질의 새로운 시점 합성을 달성하지만, 암묵적 인코딩 방식으로 인해 편집과 물리적 상호작용이 어려운 단점이 있습니다. 반면, GS는 장면을 명시적인 가우시안 프리미티브 집합으로 표현하여 실시간 렌더링, 빠른 학습, 그리고 더 직관적인 조작을 가능하게 합니다. 이러한 명시적 구조는 GS를 인터랙티브 편집 및 물리 기반 시뮬레이션과의 통합에 특히 적합하게 만듭니다. 본 논문에서는 NeRF의 사실적인 렌더링 품질과 GS의 편집 가능한 구조적 표현을 결합한 하이브리드 모델인 GENIE(Gaussian Encoding for Neural Radiance Fields Interactive Editing)를 소개합니다. 구면 조화 함수를 사용하는 대신, 각 가우시안에 학습 가능한 특징 임베딩을 할당합니다. 이러한 임베딩은 각 쿼리 포인트에 대해 가장 가까운 k개의 가우시안을 기반으로 NeRF 네트워크를 조건화하는 데 사용됩니다. 이 조건화를 효율적으로 수행하기 위해, 수정된 레이 트레이싱 파이프라인을 기반으로 한 빠른 최근접 가우시안 탐색 기법인 Ray-Traced Gaussian Proximity Search(RT-GPS)를 도입했습니다. 또한, 가우시안 특징을 초기화하고 업데이트하기 위해 다중 해시 그리드를 통합했습니다. 이러한 구성 요소들은 실시간으로 지역 인식 편집을 가능하게 합니다: 가우시안 프리미티브가 재배치되거나 수정되면, 그들의 보간된 영향이 렌더링된 출력에 즉시 반영됩니다. 암묵적 표현과 명시적 표현의 강점을 결합함으로써, GENIE는 직관적인 장면 조작, 동적 상호작용, 그리고 물리 시뮬레이션과의 호환성을 지원하며, 기하학 기반 편집과 신경 렌더링 간의 간극을 메웁니다. 코드는 (https://github.com/MikolajZielinski/genie)에서 확인할 수 있습니다.
비전-언어 모델(VLMs)은 다양한 작업에서 뛰어난 일반화 능력을 입증해 왔습니다. 그러나 특정 다운스트림 시나리오에 직접 적용할 때는 작업별 적응 없이는 성능이 종종 최적에 미치지 못합니다. 데이터 효율성을 유지하면서 유용성을 높이기 위해, 최근 연구에서는 레이블이 없는 데이터에 의존하지 않는 비지도 적응 방법에 점점 더 초점을 맞추고 있습니다. 이 분야에 대한 관심이 증가하고 있음에도 불구하고, 비지도 VLM 적응에 전념한 통일된 작업 지향적 조사가 여전히 부족합니다. 이러한 격차를 해소하기 위해, 우리는 이 분야에 대한 포괄적이고 구조화된 개요를 제시합니다. 우리는 레이블이 없는 시각 데이터의 가용성과 특성을 기반으로 한 분류 체계를 제안하며, 기존 접근 방식을 네 가지 주요 패러다임으로 분류합니다: 데이터 없는 전이(Data-Free Transfer), 비지도 도메인 전이(Unsupervised Domain Transfer), 에피소딕 테스트 타임 적응(Episodic Test-Time Adaptation), 그리고 온라인 테스트 타임 적응(Online Test-Time Adaptation). 이 프레임워크 내에서, 우리는 각 패러다임과 관련된 핵심 방법론과 적응 전략을 분석하여 이 분야에 대한 체계적인 이해를 확립하고자 합니다. 또한, 다양한 애플리케이션에서의 대표적인 벤치마크를 검토하고, 미래 연구를 위한 열린 과제와 유망한 방향을 강조합니다. 관련 문헌의 적극적으로 유지되는 저장소는 https://github.com/tim-learn/Awesome-LabelFree-VLMs에서 확인할 수 있습니다.
아이언맨의 J.A.R.V.I.S와 같이 능력 있고 다재다능한 AI 어시스턴트를 만들고자 하는 꿈은 오랫동안 사람들의 상상력을 사로잡아 왔습니다. (멀티모달) 대형 언어 모델((M)LLM)의 진화와 함께, 이 꿈은 현실에 더 가까워졌습니다. 운영 체제(OS)가 제공하는 환경과 인터페이스(예: 그래픽 사용자 인터페이스(GUI)) 내에서 작동하여 컴퓨팅 장치(예: 컴퓨터 및 휴대폰)를 사용해 작업을 자동화하는 (M)LLM 기반 에이전트가 크게 발전했기 때문입니다. 본 논문은 이러한 고급 에이전트를 OS 에이전트로 지정하고, 이에 대한 포괄적인 조사를 제시합니다. 먼저 OS 에이전트의 기본 원리를 설명하고, 환경, 관찰 공간, 행동 공간을 포함한 주요 구성 요소를 탐구하며, 이해, 계획, 접지와 같은 필수 능력을 개요합니다. 그런 다음 도메인 특화 기반 모델과 에이전트 프레임워크에 초점을 맞춰 OS 에이전트를 구축하는 방법론을 검토합니다. 평가 프로토콜과 벤치마크에 대한 상세한 검토를 통해 다양한 작업에서 OS 에이전트가 어떻게 평가되는지 강조합니다. 마지막으로, 현재의 도전 과제를 논의하고, 안전 및 프라이버시, 개인화 및 자기 진화를 포함한 미래 연구의 유망한 방향을 식별합니다. 이 조사는 OS 에이전트 연구의 현황을 통합하여 학문적 탐구와 산업 발전을 안내할 통찰력을 제공하는 것을 목표로 합니다. 이 분야의 추가 혁신을 촉진하기 위해 동적 리소스로 오픈소스 GitHub 저장소를 유지합니다. ACL 2025에서 채택된 9페이지 버전의 작업을 제시하여 해당 도메인에 대한 간결한 개요를 제공합니다.
우리는 대규모 언어 모델(LLM)을 활용하여 텍스트로 직렬화된 3D 메시를 이해하고 생성하는 새로운 프레임워크인 MeshLLM을 소개합니다. 우리의 접근 방식은 LLM의 토큰 길이에 맞춘 데이터셋 규모의 한계와 메시 직렬화 과정에서 발생하는 3D 구조 정보의 손실과 같은 기존 방법의 주요 한계를 해결합니다. 우리는 3D 메시를 구조적으로 의미 있는 하위 단위로 분할하는 Primitive-Mesh 분해 전략을 도입했습니다. 이를 통해 150만 개 이상의 샘플로 구성된 대규모 데이터셋을 생성할 수 있었으며, 이는 이전 방법보다 거의 50배 더 큰 규모로, LLM 스케일링 법칙 원칙에 더 잘 부합합니다. 또한, 정점에서 면 연결성을 추론하고 로컬 메시 조립 훈련 전략을 제안함으로써, LLM이 메시 토폴로지와 공간 구조를 포착하는 능력을 크게 향상시켰습니다. 실험 결과, MeshLLM은 메시 생성 품질과 형태 이해 모두에서 최신 기술인 LLaMA-Mesh를 능가하며, 텍스트 직렬화된 3D 메시 처리에서의 큰 잠재력을 보여줍니다.
다중모드 대형 언어 모델(MLLMs)은 고자원 언어에서 뛰어난 성능을 보여왔습니다. 그러나 저자원 언어 환경에서는 그 효과가 크게 감소합니다. 현재의 다국어 향상 방법들은 주로 텍스트 모달리티에 국한되거나 기계 번역에만 의존하는 경우가 많습니다. 이러한 접근 방식은 모델이 기본적인 언어 능력을 습득하고 "얇은 설명"을 생성하는 데는 도움이 되지만, 저자원 언어 사용자에게 효과적으로 서비스를 제공하기 위해 중요한 다중모드 정보성과 문화적 토대를 간과하고 있습니다. 이러한 격차를 해소하기 위해 본 연구에서는 저자원 언어 환경에서 진정으로 효과적인 MLLM을 위한 두 가지 중요한 목표, 즉 1) 언어 능력과 2) 문화적 토대를 식별하며, 특히 문화적 인식에 중점을 둡니다. 이 두 가지 목표를 달성하기 위해, 우리는 각 목표에 맞춰 데이터를 수집하는 이중 소스 전략을 제안합니다. 문화적 토대를 위해 네이티브 웹 alt-text를, 언어 능력을 위해 MLLM이 생성한 캡션을 소스로 활용합니다. 구체적인 구현으로, 우리는 다중모드 다국어 데이터셋인 MELLA를 소개합니다. 실험 결과, MELLA로 미세 조정한 후 다양한 MLLM 백본에서 8개 언어에 대한 전반적인 성능 향상이 관찰되었으며, 모델이 "두꺼운 설명"을 생성하는 것을 확인했습니다. 우리는 이러한 성능 향상이 문화적 지식 향상과 언어 능력 향상 모두에서 비롯됨을 검증합니다. 우리의 데이터셋은 https://opendatalab.com/applyMultilingualCorpus에서 확인할 수 있습니다.
비전 언어 모델(VLMs)은 언어적 및 시각적 추론을 통합하는 데 있어 뛰어난 능력을 보여왔지만, 동적인 시공간 상호작용을 이해하는 데 있어 근본적인 한계를 지니고 있다. 인간은 물체의 움직임, 회전, 시점 변화를 쉽게 추적하고 추론할 수 있는 반면, 이러한 능력은 현재의 VLMs에서 현저히 부족하며, 이는 강력한 동적 현실 세계 이해에 필수적이다. 본 논문에서는 VLMs의 시공간 추론 능력을 평가하기 위해 특별히 설계된 첫 번째 벤치마크인 VLM4D를 소개한다. 우리의 벤치마크는 다양한 실제 및 합성 비디오와 함께, 병진 및 회전 운동, 시점 인식, 그리고 운동 연속성을 강조하는 신중하게 선별된 질문-답변 쌍으로 구성되어 있다. 최신 오픈소스 및 클로즈드소스 VLMs에 대한 포괄적인 평가를 통해 인간 기준과 비교했을 때 상당한 성능 격차를 확인하였으며, 이는 기존 모델들의 근본적인 결함을 강조한다. 광범위한 분석을 통해 VLMs이 특히 여러 시각적 단서를 통합하고 시간적 일관성을 유지하는 데 어려움을 겪고 있음을 밝혔다. 또한, 4D 특징 필드 재구성 및 대상 시공간 지도 미세 조정과 같은 유망한 방향을 탐구하며, 이를 통해 시공간 이해를 향상시키는 데 효과적임을 입증하였다. 본 연구는 VLMs의 공간적 및 시간적 기반을 개선하기 위한 더 깊은 탐구를 장려하며, 동적 환경을 위한 더 능력 있고 신뢰할 수 있는 시각 지능으로 나아가는 길을 열고자 한다.
멀티모달 대형 언어 모델(MLLM)의 등장은 그래픽 사용자 인터페이스(GUI) 에이전트의 능력에 있어 상당한 발전을 이끌어냈습니다. 그러나 기존의 GUI 에이전트 훈련 및 추론 기술은 여전히 추론 설계의 딜레마, 비효율적인 보상, 그리고 시각적 노이즈와 같은 문제에 직면해 있습니다. 이러한 문제를 해결하기 위해, 우리는 훈련과 추론 단계 모두에서 GUI 에이전트를 향상시키는 포괄적인 프레임워크인 UI-AGILE을 소개합니다. 훈련 단계에서는, 지도 미세 조정(SFT) 과정에 대한 일련의 개선 사항을 제안합니다: 1) 고정밀 그라운딩을 장려하기 위한 연속 보상 함수; 2) 계획과 속도, 그라운딩 정확도 사이의 균형을 맞추기 위한 "단순 사고" 보상; 그리고 3) 복잡한 작업에서의 학습을 개선하고 희소 보상 문제를 완화하기 위한 크롭핑 기반 리샘플링 전략. 추론 단계에서는, 고해상도 디스플레이에서 그라운딩 정확도를 크게 향상시키기 위해 이미지를 더 작고 관리 가능한 부분으로 나누는 새로운 방법인 분해된 그라운딩과 선택을 제시합니다. 실험 결과, UI-AGILE은 ScreenSpot-Pro와 ScreenSpot-v2 두 벤치마크에서 최첨단 성능을 달성했습니다. 예를 들어, 우리가 제안한 훈련 및 추론 개선 방법을 모두 사용했을 때 ScreenSpot-Pro에서 최고의 베이스라인 대비 23%의 그라운딩 정확도 향상을 보였습니다.
최근 3D 재조명 기술은 2D 이미지 재조명 생성 사전 지식을 통합하여 3D 표현의 외관을 변경하면서도 기본 구조를 보존하는 데 유망한 성과를 보여주고 있다. 그러나 입력 이미지에서 직접 재조명을 수행하는 2D 재조명을 위한 생성 사전 지식은 추론 가능한 피사체의 내재적 특성을 활용하지 못하거나 대규모 다중 뷰 데이터를 고려하지 못해 재조명 결과가 저조한 경우가 많다. 본 논문에서는 Lightswitch라는 새로운 미세 조정된 재료 재조명 확산 프레임워크를 제안한다. 이 프레임워크는 추론된 내재적 특성의 단서를 통합하여 임의의 수의 입력 이미지를 목표 조명 조건으로 효율적으로 재조명한다. 다중 뷰 및 재료 정보 단서와 확장 가능한 노이즈 제거 기법을 함께 사용함으로써, 본 방법은 다양한 재료 구성의 물체에 대한 밀집 다중 뷰 데이터를 일관되게 효율적으로 재조명한다. 우리는 2D 재조명 예측 품질이 이미지에서 직접 재조명하는 기존 최첨단 재조명 사전 지식을 능가함을 보여준다. 또한 LightSwitch는 합성 및 실제 물체를 단 2분 만에 재조명하는 데 있어 최첨단 확산 역렌더링 방법과 동등하거나 더 나은 성능을 보임을 입증한다.