번역이 포함된 일일 선별된 AI 연구 논문
최근 이미지 생성 및 편집 기술의 발전으로 가상 피팅 분야에 새로운 기회가 열렸습니다. 그러나 기존 방법론들은 여전히 복잡한 현실 세계의 수요를 충족시키는 데 어려움을 겪고 있습니다. 본 논문은 강건성, 현실성, 다양성, 높은 효율성을 갖춘 상용 규모의 가상 피팅 시스템인 Tstars-Tryon 1.0을 소개합니다. 첫째, 본 시스템은 극단적인 자세, 심한 조명 변화, 모션 블러 등 다양한 실제 환경에서도 높은 성공률을 유지합니다. 둘째, 의상의 텍스처, 재질 특성, 구조적 특성을 충실히 보존하면서 일반적인 AI 생성 아티팩트를 크게 피한 정교한 디테일의 고품질 사실적 결과를 제공합니다. 셋째, 의류 피팅을 넘어 8개의 패션 카테고리에서 최대 6개의 참조 이미지를 활용한 유연한 다중 이미지 합성을 지원하며, 사용자 신원과 배경을 조화롭게 제어합니다. 넷째, 상용 배포의 지연 시간 병목 현상을 극복하기 위해 추론 속도를 중점적으로 최적화하여 원활한 사용자 경험을 위한 준실시간 생성을 가능하게 합니다. 이러한 기능은 종단간 모델 아키텍처, 확장 가능한 데이터 엔진, 강건한 인프라, 다단계 학습 패러다임을 아우르는 통합 시스템 설계를 통해 구현되었습니다. 광범위한 평가와 대규모 제품 배포를 통해 Tstars-Tryon 1.0이 전반적으로 선도적인 성능을 달성함을 입증하였습니다. 향후 연구를 지원하기 위해 포괄적인 벤치마크도 공개합니다. 본 모델은 타오바오 앱에서 산업 규모로 배포되어 수백만 명의 사용자에게 수천만 건의 요청을 처리하며 서비스되고 있습니다.
사람-객체 상호작용(HOI) 동영상 합성은 전자상거래, 디지털 광고, 가상 마케팅 분야에서 폭넓은 실용적 가치를 지닙니다. 그러나 현재의 확산 모델은 사실적인 렌더링 능력을 갖췄음에도 불구하고 (i) 손과 얼굴과 같은 민감한 영역의 구조적 안정성과 (ii) 물리적으로 타당한 접촉(예: 손-객체 간 침투 방지) 측면에서 여전히 종종 실패합니다. 본 논문에서는 사람 참조 이미지, 제품 참조 이미지, 텍스트 프롬프트, 음성 오디오를 조건으로 하는 HOI 동영상 합성을 위한 종단 간(end-to-end) 프레임워크인 CoInteract를 제시합니다. CoInteract는 Diffusion Transformer(DiT) 백본에 내장된 두 가지 상호 보완적인 설계를 도입합니다. 첫째, 공간 기반 지도 라우팅을 통해 토큰을 경량화된 영역 특화 전문가 모듈로 전달하는 Human-Aware Mixture-of-Experts(MoE)를 제안하여, 최소한의 매개변수 오버헤드로 미세한 구조적 정확도를 향상시킵니다. 둘째, RGB 외관 스트림과 보조 HOI 구조 스트림을 공동으로 모델링하여 상호작용 기하학적 사전 지식을 주입하는 이중 스트림 학습 패러다임인 Spatially-Structured Co-Generation을 제안합니다. 학습 동안 HOI 스트림은 RGB 토큰에 주의를 기울이고, 해당 지도 신호는 공유 백본 가중치를 규제합니다. 추론 시에는 HOI 분기를 제거하여 오버헤드 없이 RGB를 생성합니다. 실험 결과, CoInteract가 구조적 안정성, 논리적 일관성 및 상호작용 현실감 측면에서 기존 방법을 크게 능가함을 입증합니다.
언어 모델 에이전트 시스템은 일반적으로 반응형 프롬프팅에 의존하는데, 이는 단일 명령어로 모델이 개방형 추론 및 도구 사용 단계를 수행하도록 유도합니다. 이로 인해 제어 흐름과 중간 상태가 암시적으로 남아 에이전트 동작을 제어하기 어려울 수 있습니다. LangGraph, DSPy, CrewAI와 같은 오케스트레이션 프레임워크는 명시적 워크플로 정의를 통해 구조를 강화하지만, 워크플로 로직을 Python에 밀접하게 결합하여 에이전트 유지보수와 수정이 어렵습니다. 본 논문에서는 명시적 제어 흐름과 모듈식 구조를 갖춘 LLM 에이전트 워크플로를 정의하기 위한 AgentSPEX(에이전트 명세 및 실행 언어)와 사용자 정의 가능한 에이전트 하네스를 소개합니다. AgentSPEX는 타입 지정 단계, 분기 및 반복, 병렬 실행, 재사용 가능한 하위 모듈, 명시적 상태 관리를 지원하며, 이러한 워크플로는 도구 접근, 샌드박스 가상 환경, 체크포인팅, 검증, 로깅을 제공하는 에이전트 하네스 내에서 실행됩니다. 또한 저자는 그래프와 워크플로 뷰가 동기화된 시각적 편집기를 통해 작성 및 검사 기능을 제공합니다. 딥 리서치 및 과학적 연구를 위한 즉시 사용 가능한 에이전트를 포함하며, 7개 벤치마크에서 AgentSPEX를 평가합니다. 마지막으로 사용자 연구를 통해 AgentSPEX가 기존 인기 에이전트 프레임워크보다 해석 가능성과 접근성이 뛰어난 워크플로 작성 패러다임을 제공함을 입증합니다.
희소 시점 3D 재구성은 캐주얼 캡처로부터 장면을 모델링하는 데 필수적이지만, 비생성적 재구성에서는 여전히 어려운 과제로 남아 있습니다. 기존 확산 기반 접근법은 새로운 시점을 합성하여 이 문제를 완화하지만, 종종 단일 또는 두 개의 캡처 프레임에만 의존하므로 기하학적 일관성이 제한되고 대규모 또는 다양한 장면으로의 확장성이 떨어집니다. 우리는 명시적인 기하학적 제어를 보존하면서 유연한 조건화 개수를 지원하는, 임의적이고 비정렬된 희소 입력으로부터의 재구성을 위한 확장 가능한 프레임워크인 AnyRecon을 제안합니다. 장거리 조건화를 지원하기 위해 우리의 방법은 선행된 캡처 뷰 캐시를 통해 지속적인 전역 장면 메모리를 구성하고, 큰 시점 변화에서도 프레임 수준 대응을 유지하기 위해 시간적 압축을 제거합니다. 더 나은 생성 모델을 넘어, 생성과 재구성 간의 상호작용이 대규모 3D 장면에 중요함을 발견했습니다. 따라서 우리는 명시적인 3D 기하학적 메모리와 기하학 기반 캡처-뷰 검색을 통해 생성과 재구성을 결합하는 기하학 인식 조건화 전략을 도입합니다. 효율성을 보장하기 위해 4단계 확산蒸馏과 컨텍스트-윈도우 희소 주의를 결합하여 2차 복잡도를 줄입니다. 다양한 실험을 통해 불규칙한 입력, 큰 시점 차이, 긴 궤적에 걸쳐 견고하고 확장 가능한 재구성이 가능함을 입증합니다.
테스트 타임 트레이닝(TTT)은 추론 단계에서 레이블이 없는 테스트 인스턴스를 기반으로 모델 파라미터를 적응시키며, 오프라인 훈련의 한계를 지속적으로 확장합니다. 초기 성능 향상에도 불구하고, 기존 대규모 추론 모델(LRM)용 TTT 방법들은 빠르게 정체에 이르며 추가적인 테스트 시간 컴퓨팅 자원을 활용하지 못합니다. 외부 보정이 없는 경우, 정책 모델이 진화함에 따라 자체 생성된 보상 신호가 점점 더 표류하여 성능 정체와 다양성 붕괴를 동시에 초래합니다. 우리는 레이블이 없는 질문에 대한 정책 정제와 레이블된 데이터셋을 이용한 주기적인 비평가 재보정을 교차 수행하는 TTT 프레임워크인 TEMPO를 제안합니다. 기대값 최대화(EM) 알고리즘을 통해 이 교번 절차를 정형화함으로써, 기존 방법들이 중요한 재보정 단계를 생략한 불완전한 변형으로 해석될 수 있음을 밝힙니다. 이 단계를 재도입하면 증거 하한(ELBO)이 강화되고 지속적인 개선이 가능해집니다. 다양한 모델 패밀리(Qwen3 및 OLMO3)와 추론 과제에서 TEMPO는 OLMO3-7B의 AIME 2024 성적을 33.0%에서 51.1%로, Qwen3-14B의 성적을 42.3%에서 65.8%로 향상시키면서 높은 다양성을 유지합니다.
대규모 언어 모델(LLM)은 코드 생성에서 강력한 성과를 보였으나, GUI 애플리케이션, 특히 게임 생성 능력에 대한 연구는 여전히 부족합니다. 기존 벤치마크는 주로 테스트 케이스를 통해 정확성을 평가하는데, GUI 애플리케이션은 상호작용적이고 이벤트 주도적이며 일련의 사용자 작업에 걸쳐 정확한 상태 전환이 필요하기 때문에 이러한 평가 방식은 부적합합니다. 따라서 GUI 애플리케이션의 평가는 단순한 통과/실패 결과보다 상호작용 흐름과 UI 논리를 고려해야 합니다. 이 문제를 연구하기 위해 우리는 Python, TypeScript, JavaScript로 작성된 43개의 다국어 GUI 애플리케이션으로 구성된 저장소 인식(repository-aware) 벤치마크인 PlayEval을 소개합니다. 데스크톱 환경에 적용하기 어려운 기존 GUI 벤치마크와 달리, PlayEval은 6가지 주요 GUI 애플리케이션 범주를 포괄하며 코드 생성 평가를 직접 지원합니다. 우리는 더 나아가 생성된 *k*개의 후보 코드 중 적어도 하나가 논리 오류 없이 끝까지 실행 가능한지를 측정하는 지표인 Play@k를 제안합니다. 신뢰할 수 있는 평가를 지원하기 위해, 작업 지향적 GUI 실행을 수행하고 논리 위반을 자동으로 감지하는 LLM 기반 에이전트인 PlayTester를 개발했습니다. 10개의 최첨단 코드 LLM에 대한 실험 결과, 높은 컴파일률에도 불구하고 이들의 Play@3 점수가 거의 0%에 가까워 논리적으로 정확한 GUI 애플리케이션 생성에 중대한 약점이 있음이 드러났습니다. 이 한계를 해결하기 위해, 우리는 생성, 평가, 반복적 수정을 폐쇄 루프(closed loop) 방식으로 수행하는 다중 에이전트 저장소 인식 프레임워크인 PlayCoder를 제시합니다. PlayCoder는 오픈소스 및 클로즈드소스 모델 모두에서 기능적 정확성과 의미적 일치도를 크게 향상시켜 최대 38.1%의 Exec@3 및 20.3%의 Play@3에 도달했습니다. 사례 연구를 통해 이 프레임워크가 기존 지표에서 놓친 침묵적 논리 버그(silent logic bug)를 발견하고 표적 수정(targeted edit)을 통해 해결할 수 있음을 추가로 보여줍니다.
매개변수 효율적 미세 조정(PEFT)은 사전 학습된 백본을 고정한 채 소수의 작업 특화 매개변수만 훈련함으로써 대규모 언어 모델(LLM)의 전체 매개변수 미세 조정 비용을 줄입니다. 그러나 LoRA(Low-Rank Adaptation)와 같은 기존 접근법은 개별 가중치에 독립적인 저순위 섭동을 직접 삽입하여 적응을 달성함으로써 지역적 매개변수화를 초래합니다. 본 논문은 계층 수준 정제를 깊이 공유 섀도우 모듈을 통해 수행하는 중앙집중식 PEFT 프레임워크인 ShadowPEFT를 제안합니다. ShadowPEFT는 각 트랜스포머 계층에서 병렬 섀도우 상태를 유지하며 이를 반복적으로 발전시켜 점점 더 풍부한 은닉 상태를 생성합니다. 이 설계는 적응 방식을 분산된 가중치 공간 섭동에서 공유 계층 공간 정제 과정으로 전환합니다. 섀도우 모듈은 백본과 분리되어 깊이에 걸쳐 재사용될 수 있으며, 독립적으로 사전 학습이 가능하고, 필요시 분리 모드로 배치될 수 있어 에지 컴퓨팅 시나리오에 유리합니다. 생성 및 이해 벤치마크 실험 결과, ShadowPEFT는 유사한 학습 가능 매개변수 예산 하에서 LoRA 및 DoRA와 성능이 동등하거나 더 우수함을 보였습니다. 섀도우 사전 학습, 교차 데이터셋 전이, 매개변수 스케일링, 추론 지연 시간 및 시스템 수준 평가에 대한 추가 분석은 중앙집중식 계층 공간 적응이 기존 저순위 PEFT에 대한 경쟁력 있고 유연한 대안임을 시사합니다.
현재 실행 가능한 비주얼 워크플로우는 실제 산업 현장에서 주류 패러다임으로 자리 잡아 강력한 신뢰성과 제어 가능성을 제공하고 있습니다. 그러나 현행 방식에서는 이러한 워크플로우가 거의 전적으로 수동 엔지니어링을 통해 구축됩니다. 개발자는 워크플로우를 신중하게 설계하고, 각 단계별 프롬프트를 작성하며, 요구사항 변화에 따라 논리를 반복적으로 수정해야 하므로 개발 비용과 시간이 많이 소모되고 오류 발생 가능성도 높습니다. 대규모 언어 모델이 이러한 다중 라운드 상호작용 과정을 자동화할 수 있는지 연구하기 위해, 우리는 자연어에서 직접 실행 가능한 비주얼 워크플로우를 생성하는 벤치마크인 Chat2Workflow를 도입하고 반복적 실행 오류를 완화하기 위한 강력한 에이전트 프레임워크를 제안합니다. Chat2Workflow는 대규모 실제 비즈니스 워크플로우 컬렉션으로 구축되었으며, 생성된 워크플로우가 Dify나 Coze 같은 실전 워크플로우 플랫폼에서 변환 및 직접 배포 가능하도록 각 인스턴스가 설계되었습니다. 실험 결과에 따르면, 최첨단 언어 모델이 높은 수준의 사용자 의도를 종종 파악할 수는 있지만 특히 복잡하거나 변화하는 요구사항 하에서 정확하고 안정적이며 실행 가능한 워크플로우를 생성하는 데 어려움을 겪습니다. 우리의 에이전트 프레임워크가 최대 5.34%의 문제 해결률 향상을 가져왔음에도 불구하고, 남아있는 현실적 격차는 Chat2Workflow가 산업 등급 자동화 기술 발전을 위한 기반으로 자리매김하도록 합니다. 코드는 https://github.com/zjunlp/Chat2Workflow에서 확인할 수 있습니다.
강화 학습을 통한 대규모 언어 모델 기반 에이전트의 훈련 규모가 지속적으로 확대됨에 따라, 복잡한 환경에서 에이전트 행동을 신뢰성 있게 검증하는 것은 점점 더 어려운 과제가 되었습니다. 기존 접근법은 규칙 기반 검증기나 LLM-as-a-Judge 모델에 의존하고 있으나, 이러한 방법들은 제한된 영역을 벗어나면 일반화에 어려움을 겪습니다. Agent-as-a-Judge는 검증 가능한 증거를 확보하기 위해 환경 및 도구와 능동적으로 상호작용함으로써 이러한 한계를 해결하지만, 그 역량은 아직 충분히 탐구되지 않았습니다. 본 연구에서는 세 가지 영역(검색, 데이터 시스템, 그래픽 사용자 인터페이스)에 걸쳐 155개 작업과 516개의 주석이 달린 궤적으로 구성된 벤치마크 AJ-Bench를 도입하여 Agent-as-a-Judge를 체계적으로 평가합니다. 이 벤치마크는 판단 에이전트의 정보 획득, 상태 검증, 프로세스 검증 능력을 포괄적으로 평가합니다. 실험 결과, LLM-as-a-Judge 기준선 대비 일관된 성능 향상을 확인했으며, 동시에 에이전트 기반 검증에서 해결해야 할 상당한 과제들이 여전히 존재함을 보여줍니다. 우리의 데이터와 코드는 https://aj-bench.github.io/에서 이용 가능합니다.
명령어-따르기 정보 검색(IF-IR)은 단순히 질의와 관련된 문서를 찾는 것을 넘어, 필수 속성, 제외 조건, 출력 선호도 등 명시적 사용자 제약을 준수해야 하는 검색 시스템을 연구합니다. 그러나 대부분의 검색기는 의미적 관련성을 위주로 훈련되어 주제와 일치하는 문서와 명령어를 충족하는 문서를 구분하지 못하는 경우가 많습니다. 본 연구에서는 극성 반전(polarity reversal)에 기반한 이중 관점 데이터 합성 전략을 제안합니다. 즉, 특정 질의, 명령어 하에서 관련성이 있는 문서, 그리고 질의에는 부합하지만 명령어를 위반하는 하드 네거티브(hard negative) 문서가 주어졌을 때, LLM을 활용하여 두 문서의 관련성 레이블이 뒤바뀌는 상보적 명령어를 생성합니다. 동일한 문서 쌍을 관련성 레이블이 반전된 상보적 명령어 하에 제시함으로써, 훈련 신호는 검색기로 하여금 고정된 주제적 단서에 의존하기보다는 명령어를 통해 동일한 후보 집합을 재평가하도록 강제합니다. 3억 5백만 개 파라미터 인코더에서 본 방법은 FollowIR 벤치마크 성능을 45% 향상시켜, 규모가 유사하거나 더 큰 범용 임베딩 모델을 능가했습니다. 동일한 데이터 예산 하에서의 직접 비교를 통해 데이터 다양성과 명령어 감독이 상보적 역할을 한다는 점을 추가로 입증했습니다. 즉, 전자는 일반적인 검색 품질을 유지하는 반면, 후자는 명령어 민감도를 향상시킵니다. 이러한 결과는 광범위한 능력과 명령어 인식을 모두 갖춘 검색 시스템 구축을 위한 표적 데이터 합성의 가치를 부각합니다.
코드 스위칭은 글로벌 커뮤니케이션에서 보편적인 언어 현상이지만, 현대 정보 검색 시스템은 여전히 단일 언어 환경을 위해 설계되고 평가되는 경우가 대부분입니다. 이러한 중요한 괴리를 해소하기 위해, 본 연구는 코드 스위칭 정보 검색에 대한 종합적인 연구를 제시합니다. 우리는 혼합 언어 질의의 진정한 자연스러움을 포착하기 위해 인간의 주석을 통해 데이터셋을 구축한 CSR-L(Code-Switching Retrieval benchmark-Lite)을 소개합니다. 통계적, 조밀, 후기 상호작용 패러다임에 걸친 평가를 통해 코드 스위칭이 강력한 다국어 모델의 성능마저 저하시키는 근본적인 성능 병목 현상으로 작용함을 밝혔습니다. 우리는 이러한 실패가 순수 텍스트와 코드 스위칭 텍스트 간 임베딩 공간에서의 상당한 차이에서 비롯됨을 입증합니다. 이러한 조사를 확장하여 11가지 다양한 작업을 포괄하는 종합 벤치마크인 CS-MTEB를 제안하며, 여기서 최대 27%까지의 성능 저하를 관찰했습니다. 마지막으로, 어휘 확장과 같은 표준 다국어 기술만으로는 이러한 결함을 완전히 해결하기에 부족함을 보여줍니다. 이러한 발견들은 현행 시스템의 취약성을 강조하고 코드 스위칭을 향후 정보 검색 최적화의 중요한 과제로 확립합니다.
태스크 산술은 사전 학습된 모델을 편집하는 효율적이고 훈련이 필요 없는 방법을 제공하지만, 그 성공에 대한 근본적인 이론적 설명이 부족합니다. 기존의 "가중치 분리" 개념은 간섭 없는 태스크 구성의 이상적인 결과를 설명하지만 그 근본 원인을 밝히지는 못합니다. 중요한 것은, 사전 학습된 모델(θ_0)이나 태스크 벡터(τ_t)의 어떤 본질적 특성이 이러한 분리를 가능하게 하는지가 충분히 탐구되지 않았다는 점입니다. 본 논문에서는 근본 원리로서, 모델이 서로 다른 태스크에 별도의 내부 특징을 할당하는 능력인 태스크-특징 전문화(TFS)를 제시합니다. 우리는 먼저 TFS가 가중치 분리를 위한 충분 조건임을 증명합니다. 더 중요하게는, TFS가 관측 가능한 기하학적 결과인 가중치 벡터 직교성 또한 발생시킨다는 것을 발견했습니다. 이는 TFS가 원하는 기능적 결과(분리)와 측정 가능한 기하학적 특성(직교성) 모두의 공통 원인으로 자리매김합니다. 이러한 관계는 우리 방법의 핵심 통찰력을 제공합니다. 추상적인 TFS 특성을 직접 강제하기는 어렵기 때문에, 우리는 구체적인 기하학적 결과인 직교성을 형성함으로써 가중치 분리를 촉진할 수 있습니다. 따라서 우리는 미세 조정 중에 τ_t를 구성하는 가중치 업데이트(ΔW)에 대해 내부 직교 구조를 능동적으로 강제하는 간단하고 효과적인 정규화 방법인 OrthoReg를 제안합니다. 또한 우리는 OrthoReg가 분리를 촉진한다는 것을 이론적으로 증명합니다. 다양한 실험을 통해 OrthoReg가 다양한 태스크 산술 방법의 성능을 일관되게 그리고 상당히 향상시킨다는 것을 입증합니다. 코드는 https://github.com/RL-MIND/OrthoReg{https://github.com/RL-MIND/OrthoReg}에서 확인할 수 있습니다.
본 논문은 실제 공간을 기반으로 한 3D 일관성 및 탐색 가능 환경 생성, 즉 실제 위치의 시뮬레이션 문제를 다룹니다. 기존 영상 생성 모델은 텍스트(T2V) 또는 이미지(I2V) 프롬프트와 일관된 그럴듯한 연속 영상을 생성할 수 있습니다. 그러나 임의의 기상 조건과 동적 객체 구성 하에서 현실 세계를 재구성하는 능력은 자율 주행 및 로봇 시뮬레이션을 포함한 다운스트림 애플리케이션에 필수적입니다. 이를 위해 우리는 대규모 지리 참조 데이터를 컨텍스트로 활용하여 생성 과정을 물리적 장면에 정착시키면서도 복잡한 운동 및 외관 변화에 대한 학습된 사전 지식을 유지하는 영상 생성 모델 CityRAG를 제시합니다. CityRAG는 시간적으로 정렬되지 않은 훈련 데이터에 의존하며, 이를 통해 모델이 기본 장면과 일시적 속성을 의미론적으로 분리하는 방법을 학습합니다. 우리의 실험 결과, CityRAG는 수분 길이의 물리적으로 정착된 일관된 영상 시퀀스를 생성하고, 수천 프레임에 걸쳐 기상 및 조명 조건을 유지하며, 루프 클로저를 달성하고, 복잡한 궤적을 탐색하여 실제 세계 지형을 재구성할 수 있음을 보여줍니다.
자기회귀 비디오 확산은 스트리밍 비디오 합성을 위한 유망한 패러다임으로 부상하고 있으며, 단계 증류가 추론 가속화의 주요 수단으로 활용되고 있다. 대규모 언어 모델의 지배적 가속화 전략인 추측 디코딩이 자기회귀 비디오 생성에 효과적으로 적용될 수 있는지는 공개된 질문으로 남아있는데, 이는 비디오 블록이 토큰 수준 분포가 없는 연속 시공간 텐서이므로 정확한 기각 샘플링이 불가능하기 때문이다. 우리는 토큰 검증을 이미지 품질 라우터로 대체하여 블록 기반 자기회귀 비디오 확산에 추측 디코딩을 도입한 SDVG를 제안한다. 13억 파라미터 드래프터가 4회의 노이즈 제거 단계를 통해 후보 블록을 제안하면, 각 블록은 VAE로 디코딩된 후 ImageReward가 최악 프레임 집계(평균화가 가려버릴 단일 프레임 결함을 포착하기 위해 프레임별 보상 최솟값을 채택) 방식으로 점수를 매긴다. 고정 임계값 τ 이상의 점수를 받은 블록은 140억 파라미터 타겟의 KV 캐시에 수용되며, 나머지는 타겟에 의해 재생성된다. 두 가지 추가 설계 선택이 결정적으로 중요함이 입증되었는데: 첫 번째 블록은 장면 구도를 고정하기 위해 항상 강제 기각되며, τ는 원활한 품질-속도 파레토 프론티어를 추적하는 단일 조정 장치로 작용한다. MovieGenVideoBench의 1003개 프롬프트(832x480)에서 SDVG는 τ=-0.7일 때 타겟 전용 VisionReward 품질의 98.1%(0.0773 vs. 0.0788)를 유지하면서 1.59배 가속을 달성했으며, 95.7% 품질 유지율에서 2.09배 가속에 도달했다—동시에 드래프트 전용 생성보다 consistently +17% 이상 우수한 성능을 보였다. 이 프레임워크는 학습이 필요 없으며, 아키텍처 변경이 불필요하고, 기존 자기회귀 비디오 생성 파이프라인에 원활하게 통합될 수 있다.
일상적인 과제에는 목표가 수반되며, 이 목표를 중심으로 모델을 사전 학습하는 것이 바로 모델을 전문가로 만드는 방법입니다. 본 논문에서는 목표 지향 언어 모델(LM) 사전 학습을 연구하기 위해 훈련 없이 적용 가능하고 해석 가능한 목표 사전 학습 데이터 선별 프레임워크인 뉴런 활성화 그래프 순위 지정(NAG 기반 순위 지정)을 소개합니다. 블랙박스 표현을 사용하는 대신, 본 접근법은 기성 대형 언어 모델(LLM) 내에서 각 대상 입력을 높은 영향을 미치는 희소 뉴런 집합으로 직접 특성화합니다. 구체적으로, 우리는 뉴런 영향력을 정량화하고 계층별로 가장 영향력 있는 뉴런을 선별하여 간결한 뉴런 활성화 그래프(NAG)로 구성하며, 후보 데이터를 대상 예제와의 NAG 유사도에 따라 순위를 매깁니다. 우리는 6개의 벤치마크에서 실험을 수행한 결과, NAG 기반 순위 지정이 무작위 샘플링 대비 목표 지향 사전 학습 성능을 평균 4.9% 향상시켰으며, HellaSwag에서도 최신 기준선(baseline)들을 5.3% 정확도로 앞섰습니다. 또한 보다 실용적인 다중 목표 설정에서도 효과를 유지했으며, 우리의 최적 설정이 두 기준선을 각각 1.1%와 4.1% 능가했습니다. 나아가, NAG가 왜 그리고 어떻게 작동하는지에 대한 포괄적인 분석을 제공합니다. 예를 들어, NAG로 선별된 뉴런(전체의 0.12%에 불과)을 비활성화하면 성능이 23.5% 급락하며, NAG를 최종 계층으로 제한할 경우 평균 4.1% 하락이 발생하여, NAG가 목표 특징 학습을 위한 희소 "기능적 백본(functional backbone)"을 포착함을 시사합니다. 코드는 https://github.com/asillycat/NAG 에서 공개합니다.
기존의 사진 이미지 편집 방식은 일반적으로 사용자가 이미지 품질과 카메라 매개변수 조정을 위한 적절한 지시를 내리기 위해 충분한 미적 이해를 갖출 것을 요구합니다. 그러나 이러한 패러다임은 미적 의도의 명시적 인간 지시에 의존하는데, 이는 종종 모호하거나 불완전하거나 비전문가 사용자에게는 접근하기 어렵습니다. 본 연구에서는 이미지 편집을 강력하게 결합된 추론-생성 과정으로 공식화하는 자동 사진 이미지 편집 방법인 SmartPhotoCrafter를 제안합니다. 제안 모델은 먼저 Image Critic 모듈을 통해 이미지 품질을 이해하고 결함을 식별한 다음, Photographic Artist 모듈이 이미지 매력을 향상시키기 위한 표적 편집을 수행하여 명시적 인간 지시의 필요성을 제거합니다. 다단계 학습 파이프라인을 채택하였습니다: (i) 기본 미적 이해와 편집 능력을 확립하기 위한 기초 사전 학습, (ii) 풍부한 의미론적 지도를 통합하기 위한 추론 기반 다중 편집 지도 학습, (iii) 추론과 생성을 공동 최적화하기 위한 조정된 추론-생성 강화 학습. 학습 과정에서 SmartPhotoCrafter는 사실적인 이미지 생성을 중시하면서도 색조 및 톤 관련 의미론을 일관되게 준수하며 이미지 복원 및 리터칭 작업을 모두 지원합니다. 또한 단계별 데이터셋을 구축하여 추론과 제어 가능한 생성, 효과적인 모듈 간 협업, 그리고 궁극적으로 고품질의 사진 향상을 점진적으로 구현합니다. 실험 결과, SmartPhotoCrafter는 자동 사진 향상 작업에서 기존 생성 모델을 능가하며 사실적인 결과를 달성함과 동시에 리터칭 지침에 대한 더 높은 톤 민감도를 보여줍니다. 프로젝트 페이지: https://github.com/vivoCameraResearch/SmartPhotoCrafter.
3D 비전의 최근 발전은 3D 이해(예: 형상 분류, 분할, 재구성) 또는 3D 생성(예: 합성, 완성, 편집) 중 특정 영역에 특화된 모델들을 양산해왔습니다. 그러나 이러한 작업들은 종종 독립적으로 접근되어, 지식 전달과 전체적 장면 모델링을 저해하는 단편적인 아키텍처와 표현 방식을 초래했습니다. 이러한 문제를 해결하기 위해 우리는 단일 아키텍처 내에서 3D 생성과 이해를 공동으로 학습하는 통합 프레임워크인 UniMesh를 제안합니다. 첫째, 디퓨전 기반 이미지 생성과 암묵적 형상 디코더를 연결하는 교차 모델 인터페이스 역할을 하는 새로운 Mesh Head를 도입합니다. 둘째, 폐쇄형 루프의 잠재 공간, 프롬프팅, 재생성 주기를 통해 사용자 주도 의미론적 메쉬 편집을 가능하게 하는 반복적 추론의 기하학적 구현체인 Chain of Mesh(CoM)를 개발합니다. 셋째, 3D 캡셔닝과 같은 높은 수준의 작업에서 실패를 진단하고 수정하기 위해 Actor-Evaluator-Self-reflection 삼중주 기반의 자기 반성 메커니즘을 통합합니다. 실험 결과는 UniMesh가 표준 벤치마크에서 경쟁력 있는 성능을 달성할 뿐만 아니라 반복적 편집 및 생성과 이해 간의 상호 향상이라는 새로운 능력을 개방함을 보여줍니다. 코드: https://github.com/AIGeeksGroup/UniMesh. 웹사이트: https://aigeeksgroup.github.io/UniMesh.
대규모 언어 모델(LLM)의 미세 조정은 LoRA(Low-Rank Adaptation)와 같은 매개변수 효율적 방법이 등장했음에도 구조적으로 불확실한 상태로 남아 있습니다. 이는 내부 표현의 계층별 역할에 대한 이해가 부족하여, 어느 계층에 적용해야 하는지에 대한 경험적 결정에 의존하게 되기 때문입니다. 우리는 은닉 상태의 변화를 고차원 기하학적 궤적으로 모델링하고, 전역적 구조적 전이는 보존하면서 국소적 중복 변화를 제거하는 매개변수 불필요 및 학습 불필요 다각형 단순화 방법인 Ramer-Douglas-Peucker(RDP) 알고리즘을 활용하여 표현 경로 상의 중요한 전환점을 식별하는 방법을 제안합니다. 핵심적으로, 이러한 기하학적 중심점을 단순한 분석 도구가 아닌, 매개변수 효율적 미세 조정 과정에서 실제로 어떤 계층을 적용해야 할지를 결정하는 직접적인 의사 결정 신호로 활용합니다. Qwen3-8B-Base 모델의 LoRA 미세 조정에 이 기하학 인식 계층 선택 전략을 통합한 결과, RDP로 선택된 13개 계층(81.67%)만을 사용하여 MMLU-Math에서 우수한 성능을 달성했습니다. 이는 전체 36개 계층 적용(79.32%)과 무작위 13개 계층 선택(75.56%), 그리고 기준 Qwen3-8B-Base 모델(74.25%)을 모두 크게 능가하는 수치입니다. 이러한 결과는 표현 궤적의 내재적 기하학을 활용하는 것이 모델 적용 과정에서 계층 선택을 최적화하기 위한 강력하고 해석 가능하며 학습이 필요 없는 신호를 제공함을 입증합니다.
멀티모달 대규모 언어 모델(MLLM)은 MLLM-as-a-Judge로 알려진 패러다임 하에 자동 평가자로 점점 더 많이 활용되고 있습니다. 그러나 그 신뢰성과 편향에 대한 취약성은 아직 충분히 연구되지 않았습니다. 우리는 많은 MLLM 평가자가 핵심 시각적 또는 텍스트적 단서를 안정적으로 통합하지 못해, 증거가 누락되거나 불일치할 경우 신뢰할 수 없는 평가를 내리고 의미론적으로 무관한 변화에도 불안정성을 보인다는 사실을 발견했습니다. 이를 해결하기 위해 우리는 MLLM-as-a-Judge 시스템의 구성적 편향(Compositional Bias)을 체계적으로 정의하고, 이를 평가하기 위한 벤치마크인 MM-JudgeBias를 소개합니다. MM-JudgeBias는 질의(Query), 이미지(Image), 응답(Response)에 걸쳐 통제된 변화를 도입하고, 두 가지 상호 보완적인 지표를 통해 모델 동작을 평가합니다: 민감도를 측정하는 편향-편차(Bias-Deviation, BD)와 안정성을 측정하는 편향-일관성(Bias-Conformity, BC). 29개의 소스 벤치마크에서 추출하고 정제한 1,800개 이상의 멀티모달 샘플로 구성된 우리의 데이터셋은 다양한 작업과 도메인에 걸친 9가지 편향 유형에 대한 세분화된 진단을 가능하게 합니다. 26개의 최첨단 MLLM에 대한 실험은 체계적인 모달리티 간과 및 비대칭적 평가 경향을 드러내며, 더 신뢰할 수 있는 평가자의 필요성을 강조합니다.
트랜스포머 기반 클릭률 예측 모델의 매개변수 증가에 따른 규모 확장은 계산 및 저장 오버헤드를 증가시켜, 확장 목표와 엄격한 산업 환경 배포 요구사항 간의 격차를 점점 더 넓히고 있습니다. 본 연구에서는 공유 모델 계층의 재귀적 재사용을 통해 학습 시간 계산량을 증가시키면서 매개변수 증가와 계산량을 분리하는 루프 스케일링 패러다임을 제안하는 LoopCTR을 소개합니다. LoopCTR은 하이퍼 연결 잔차와 전문가 혼합 모델로 강화된 샌드위치 아키텍처를 채택하며, 모든 루프 깊이에서 프로세스 감독을 적용하여 다중 루프의 이점을 공유 매개변수에 인코딩합니다. 이를 통해 루프를 전혀 사용하지 않는 단일 순전파만으로도 모든 기준 모델을 능가하는 '다중 루프 학습, 제로 루프 추론' 전략이 가능해집니다. 3개의 공개 벤치마크와 1개의 산업 데이터셋에서의 실험은 최첨단 성능을 입증했습니다. 오라클 분석을 통해 추가로 0.02~0.04 AUC의 미개척 성능 향상 잠재력이 확인되었으며, 더 적은 루프로 학습된 모델이 더 높은 오라클 성능 한계를 보여 적응형 추론을 위한 유망한 발전 방향을 제시합니다.
균일 이산 확산 모델(Uniform Discrete Diffusion Model, UDM)은 최근 이산 생성 모델링의 유망한 패러다임으로 부상했으나, 강화 학습과의 통합은 여전히 미개척 분야로 남아 있습니다. 우리는 GRPO를 UDM에 단순 적용할 경우 훈련 불안정성과 미미한 성능 향상만 발생함을 확인했습니다. 이를 해결하기 위해 우리는 UDM과 RL을 통합한 최초의 프레임워크인 \Ours를 제안합니다. 우리의 방법은 두 가지 핵심 통찰에 기반합니다: (i) 최종 정제된 샘플을 행동으로 간주함으로써 더 정확하고 안정적인 최적화 신호를 제공하며, (ii) 확산 순방향 과정을 통한 궤적 재구성이 사전 훈련 분포와 확률 경로를 더 잘 정렬합니다. 또한 훈련 효율을 추가로 개선하기 위한 Reduced-Step과 CFG-Free 두 전략을 도입했습니다. \Ours는 다양한 T2I 작업에서 기본 모델 성능을 크게 향상시켰습니다. 특히 GenEval 정확도는 69%에서 96%로, PickScore는 20.46에서 23.81로 상승하여 연속 및 이산 설정 모두에서 최첨단 성능을 달성했습니다. OCR 벤치마크에서는 정확도가 8%에서 57%로 증가하여 우리 방법의 일반화 능력을 추가로 입증했습니다. 코드는 https://github.com/Yovecent/UDM-GRPO에서 확인할 수 있습니다.
일반적인 이미지 편집 작업은 실제 콘텐츠 편집을 위한 주류 패러다임으로 강력한 생성형 확산 모델을 주로 채택합니다. 한편, Diffusion-DPO 및 Flow-GRPO와 같은 강화 학습(RL) 방법들이 생성 품질을 더욱 향상시켰음에도 불구하고, 인간 피드백 강화 학습(RLHF)을 확산 기반 편집에 효율적으로 적용하는 방법은 확장 가능한 인간 선호도 데이터셋과 다양한 편집 요구에 맞춤화된 프레임워크의 부족으로 인해 아직까지 본격적으로 탐구되지 않았습니다. 이러한 공백을 메우기 위해 우리는 인간 선호도에 정렬된 편집을 위한 사후 학습 프레임워크인 HP-Edit와 8가지 일반적인 작업에 걸친 실제 데이터셋이면서 일반적인 객체 편집 균형을 맞춘 RealPref-50K 데이터셋을 제안합니다. 구체적으로, HP-Edit는 소량의 인간 선호도 점수 데이터와 사전 학습된 시각적 대규모 언어 모델(VLM)을 활용하여 자동화된 인간 선호도 정렬 평가기인 HP-Scorer를 개발합니다. 그런 다음 HP-Scorer를 사용하여 확장 가능한 선호도 데이터셋을 효율적으로 구축하고, 편집 모델을 사후 학습하기 위한 보상 함수로 동시에 활용합니다. 또한 실제 편집 성능을 평가하기 위한 벤치마크인 RealPref-Bench를 소개합니다. 폭넓은 실험을 통해 우리의 접근 방식이 Qwen-Image-Edit-2509와 같은 모델을 크게 향상시켜 출력을 인간의 선호도에 더욱 부합하도록 정렬함을 입증합니다.
밀도 범함수 이론(DFT)은 현대 계산 화학 및 재료 과학의 핵심 기반이다. 그러나 실험적으로 측정 가능한 특성에 대한 DFT 기반 예측의 신뢰도는 알려지지 않은 교환-상관(XC) 범함수를 근사화해야 한다는 근본적인 한계를 지닌다. 정확도를 향상시키기 위한 기존 패러다임은 점점 더 정교하게 손수 설계된 범함수 형태에 의존해왔다. 이러한 접근 방식은 계산 효율성과 정확도 사이의 오랜 트레이드오프를 초래했으며, 이는 실험실 실험을 신뢰성 있게 예측 모델링하기에는 여전히 불충분하다. 본 연구에서는 주류 화학 벤치마크 세트 GMTKN55에서 2.8 kcal/mol의 오차로 최첨단 하이브리드 범함수들을 정확도에서 능가하는 동시에 준-국소 DFT 특유의 낮은 계산 비용을 유지하는 딥러닝 기반 XC 범함수 'Skala'를 소개한다. 이러한 정확도와 효율성 간 역사적 트레이드오프의 탈피는 데이터로부터 전자 구조의 비-국소적 표현을 직접 학습함으로써 점점 비용이 증가하는 수공학적 특징 설계의 필요성을 우회하여 가능해졌다. 파동함수 기반 방법으로부터 전례 없는 양의 고정확도 참조 데이터를 활용함으로써, 우리는 현대 딥러닝이 훈련 데이터셋의 확장에 따라 체계적으로 개선 가능한 신경망 교환-상관 모델을 가능하게 하며 제일원리 시뮬레이션이 점점 더 예측적으로 발전할 수 있는 기반을 마련함을 입증한다.
최근 연구에서는 진화 및 에이전트 기반 최적화 시스템 내에서 대규모 언어 모델(LLM)을 조정하는 접근법의 가능성이 입증되었습니다. 그러나 이러한 최적화 성능 향상을 주도하는 메커니즘은 여전히 명확히 이해되지 않고 있습니다. 본 연구에서는 LLM 주도 진화 탐색에 대한 대규모 연구를 통해 8개 작업에 걸쳐 15개 LLM의 최적화 궤적을 수집하였습니다. 제로샷 문제 해결 능력은 최종 최적화 결과와 상관관계를 보이지만, 이는 변동성의 일부만을 설명합니다: 유사한 초기 능력을 가진 모델들도 극적으로 다른 탐색 궤적과 결과를 초래하는 경우가 많습니다. 이러한 궤적을 분석한 결과, 강력한 LLM 최적화기는 지역 정제자(local refiner)처럼 행동하여 의미 공간 내에서 탐색을 점차 국소화하면서 빈번한 점진적 개선을 생성하는 것으로 나타났습니다. 반대로, 약한 최적화기는 큰 의미적 변위(semantic drift)를 보이며, 간헐적인 돌파구 이후 정체 상태에 빠지는 특징을 보였습니다. 특히, 다양한 솔루션 신규성(novelty) 측정 지표들은 최종 성능을 예측하지 못했습니다. 신규성은 탐색이 솔루션 공간의 고성능 영역 주변으로 충분히 국소화되었을 때만 유익한 것으로 나타났습니다. 우리의 결과는 LLM 기반 최적화 시스템을 이해하고 개선하기 위한 궤적 분석의 중요성을 강조하며, 해당 시스템의 설계 및 학습을 위한 실질적인 통찰을 제공합니다.
해석 가능성 도구들은 대규모 언어 모델(LLM)의 실패를 분석하는 데 점점 더 많이 사용되고 있지만, 기존 연구는 주로 짧은 프롬프트나 단순한 설정에 집중하여 일반적으로 사용되는 벤치마크에서의 도구 행동은 충분히 탐구되지 않았습니다. 이러한 공백을 해소하기 위해 우리는 현실적인 설정에서 LLM 실패를 분석하는 실용적 도구로서 대조적 LRP 기반 귀속 방법을 연구합니다. 우리는 실패 분석을 대조적 귀속으로 공식화하며, 잘못된 출력 토큰과 정답 대안 간의 로짓 차이를 입력 토큰과 내부 모델 상태에 귀속시키고, 장문 맥락 입력에 대한 교차 계층 귀속 그래프 구성을 가능하게 하는 효율적인 확장 기법을 소개합니다. 이 프레임워크를 사용하여 다양한 벤치마크에 걸쳐 체계적인 실증 연구를 수행하며, 데이터셋, 모델 크기, 학습 체크포인트별 귀속 패턴을 비교합니다. 우리의 결과는 이 토큰 수준 대조적 귀속이 일부 실패 사례에서 유의미한 신호를 제공할 수 있지만 보편적으로 적용 가능한 것은 아니어서, 현실적 LLM 실패 분석에 대한 해당 방법의 유용성과 한계를 동시에 부각합니다. 우리의 코드는 https://aka.ms/Debug-XAI에서 확인할 수 있습니다.
언어 모델은 가설 생성, 후보 해법 제안, 시스템 구현 및 반복적 개선을 위해 과학적 발견 과정에 점차 더 많이 활용되고 있습니다. 이러한 시행착오 루프의 핵심에는 검증기, 시뮬레이터 또는 작업별 점수 함수를 통해 후보 해법에 대한 피드백을 얻는 평가 과정이 자리잡고 있습니다. 기존 연구에서 평가의 중요성을 강조해왔지만, 평가 주도 발견 루프를 어떻게 체계적이고 효과적으로 확장하여 과학적 발견의 한계를 넓힐 수 있을지라는 문제를 명시적으로 정립하지는 않았으며, 본 논문은 이 문제를 해결하고자 합니다. 우리는 병렬 탐색, 피드백 주도 개선 및 지역적 선택을 전략적으로 결합하는 일반 프레임워크인 Simple Test-time Evaluation-driven Scaling(SimpleTES)을 소개합니다. 이를 통해 올바른 차원으로 평가 주도 발견 루프의 규모를 확장함으로써 얻을 수 있는 상당한 성능 향상을 확인했습니다. 6개 분야에 걸친 21개의 과학적 문제에서 SimpleTES는 GPT-OSS 모델을 사용하여 최첨단 해법을 발견했으며, 최신 프론티어 모델 베이스라인과 정교한 최적화 파이프라인 모두를 일관되게 능가했습니다. 특히, 우리는 널리 사용되는 LASSO 알고리즘의 속도를 2배 이상 향상시켰고, 게이트 오버헤드를 24.5% 줄이는 양자 회로 라우팅 정책을 설계했으며, 기존 최고 결과를 능가하는 새로운 에르되시 최소 중복 구성을 발견했습니다. 새로운 발견을 넘어, SimpleTES는 피드백 주도 학습을 자연스럽게 지도하는 궤적 수준의 기록을 생성합니다. 성공적인 궤적에 대해 사후 학습을 수행하면 모델은 기존에 접했던 문제의 효율성을 개선할 뿐만 아니라 접하지 못한 문제로도 일반화되어 기본 모델이 찾아내지 못하는 해법을 발견합니다. 종합적으로, 우리의 결과는 효과적인 평가 주도 루프 확장이 LLM 주도 과학적 발견을 진전시키는 핵심 축임을 입증하며, 이러한 성과를 실현하기 위한 간단하면서도 실용적인 프레임워크를 제공합니다.
현재 AI 에이전트 프레임워크는 개별 작업 자동화에서 놀라운 발전을 이루었으나, 기존의 모든 시스템은 단일 사용자를 위해 동작합니다. 인간의 생산성은 사람들이 조정, 협상, 위임을 통해 이루어지는 사회적 및 조직적 관계에 기반합니다. 에이전트가 한 사람을 위한 작업 수행을 넘어 해당 사용자를 대표하여 타인과 협력할 때, 사용자 간 에이전트 협업을 위한 인프라는 전혀 존재하지 않으며, 이를 안전하게 확보하기 위한 거버넌스 메커니즘은 더욱 부재합니다. 우리는 AI 에이전트의 다음 프론티어가 더 강력한 개별 능력이 아닌 인간의 협력 관계 디지털화에 있다고 주장합니다. 이를 위해 우리는 인간 공생형 에이전트 패러다임을 제안합니다. 각 사용자는 영구적으로 결속된 에이전트 시스템을 소유하며, 이 시스템은 소유자를 대신하여 협력하여 에이전트가 아닌 인간을 노드로 하는 네트워크를 형성합니다. 이 패러다임은 세 가지 거버넌스 기본 요소에 기반합니다. 계층적 신원 아키텍처는 관리자 에이전트와 여러 상황별 신원 에이전트를 분리하며, 관리자 에이전트는 전역 지식을 보유하지만 아키텍처상 외부 통신으로부터 격리됩니다. 범위 기반 권한 부여는 신원별 접근 제어를 강제하고 경계 위반 사항을 소유자에게 보고합니다. 행동 수준 책임 추적성은 모든 작업을 소유자의 신원 및 권한 부여와 연계하여 기록함으로써 완전한 감사 가능성을 보장합니다. 우리는 이 패러다임을 ClawNet에 구현하였으며, 이는 중앙 오케스트레이터를 통해 신원 결속과 권한 부여 검증을 강제하는 신원 기반 거버넌스 에이전트 협업 프레임워크로, 여러 사용자가 각자의 에이전트를 통해 안전하게 협업할 수 있게 합니다.
대규모 시각-언어 모델(LVLMs)은 여전히 생성된 응답이 시각 입력과 불일치하는 시각 환각 현상에 어려움을 겪고 있습니다. 기존 방법들은 대규모 주석 데이터에 의존하여 미세 조정을 수행하거나(이는 막대한 계산 오버헤드를 초래함), 환각 발생의 동적 특성을 간과하는 정적 사후 전략을 사용합니다. 이러한 문제를 해결하기 위해 우리는 외부 감독 없이 추론 시점에 동적으로 환각을 완화할 수 있는 새로운 자기 보상 프레임워크를 제안합니다. 실증적 측면에서 우리는 시각 환각이 의미 단계별 동적 패턴을 보이며, 각 의미 단계의 시작 시점에 정점에 도달한다는 것을 발견했습니다. 이러한 통찰을 바탕으로, 단계별 자기 보상 신호에 기반한 온라인 환각 보정 기법인 PSRD(Phase-wise **Self-Reward Decoding**)를 제안합니다. 디코딩 과정에서 반복적인 자기 평가의 비용을 줄이기 위해, 우리는 LVLM에서 환각 유도 신호를 경량 보상 모델로 증류합니다. 이 보상 모델은 이후 디코딩 과정에서 표적 중재를 위한 실시간 지도를 제공하여 정밀한 환각 억제를 가능하게 합니다. 제안된 PSRD는 LLaVA-1.5-7B 모델의 환각 비율을 50.0% 크게 감소시키며, 4가지 LVLM에 대한 5개의 환각 평가 벤치마크에서 기존 사후 방법들을 일관되게 능가합니다. 추가 분석을 통해 PSRD가 환각 전파를 효과적으로 완화하고, 강력한 성능과 추론 효율성 사이의 높은 수준의 제어 가능한 균형을 달성함을 확인했습니다.
스마트워치와 스마트 글래스 같은 엣지 디바이스는 전력 및 컴퓨팅 성능의 제약으로 100M-1B 매개변수 규모의 가장 작은 언어 모델도 지속적으로 구동할 수 없으며, 클라우드 추론은 수 초에 이르는 지연 시간을 초래하여 반응형 어시스턴트의 경험을 해칩니다. 본 논문은 마이크로 언어 모델(μLM)을 소개합니다. μLMs는 초소형 모델(8M-30M 매개변수)로, 컨텍스트에 기반한 응답의 첫 4-8단어를 디바이스에서 즉시 생성하는 동시에 클라우드 모델이 응답을 완성하여 클라우드 지연 시간을 효과적으로 가립니다. 우리는 이 극한의 축소 규모에서도 유용한 언어 생성 능력이 유지됨을 보여주며, 우리 모델이 기존 70M-256M급 모델 여러 개와 성능을 맞섰습니다. 또한 클라우드 모델을 응답 생성기가 아닌 *연속자*로 재정의하는 협력 생성 프레임워크를 설계하여, 문장 중간에 매끄러운 작업 인계와 로컬 개시 응답이 잘못되었을 때 3가지 오류 수정 방법을 통한 구조적인 우아한 복구를 달성했습니다. 실험 결과, μLMs가 더 큰 모델이 매끄럽게 완성할 수 있는 응답을 시작할 수 있음을 보여주며, 이는 수준 차이가 큰 비대칭 협력이 가능함을 입증하고 극한의 자원 제약을 가진 디바이스에 반응형 AI를 구현할 길을 열어줍니다. 모델 체크포인트와 데모는 https://github.com/Sensente/micro_language_model_swen_project에서 이용할 수 있습니다.
우리는 정수 또는 정수의 부분 범위로 제한된 숫자 레이블 예측 문제를 연구한다. 예를 들어 소셜 미디어 게시물의 추천 수나 공공 대여소의 이용 가능한 자전거 수가 이에 해당한다. 이러한 레이블을 연속값으로 모델링하고 기존 회귀 방법을 적용하는 것도 가능하지만, 이 접근법은 레이블의 기본 분포를 이산형에서 연속형으로 변경한다. 이산 분포는 특정 장점을 지니므로, 이러한 정수 레이블을 주어진 인스턴스의 특징으로부터 매개변수를 예측하는 이산 분포로 직접 모델링할 수 있는지에 대한 의문이 제기된다. 더욱이 우리는 신경망의 출력 분포 사용 사례에 주목하며, 이는 역전파와 경사 하강법을 통해 네트워크 가중치 학습이 가능하도록 분포의 매개변수가 연속형이어야 한다는 요구사항을 추가한다. 우리는 기존에 존재하는 것과 새로 제안하는 것을 포함하여 이러한 분포에 대한 여러 옵션을 조사하고, 표 형식 데이터 학습, 순차 예측, 이미지 생성 등 다양한 작업에 대해 이를 실험한다. 전반적으로 가장 우수한 성능을 보인 분포는 두 가지로 확인되었는데, 하나는 목표 정수를 비트로 표현하고 각 비트에 베르누이 분포를 적용하는 Bitwise 분포이며, 다른 하나는 연속 평균 주위로 지수적으로 감소하는 꼬리를 가진 분포를 사용하는 라플라스 분포의 이산 형태이다.
최근 음성 간 번역(S2ST) 시스템은 강력한 의미론적 정확도를 달성했지만, 화용적 의도를 전달하는 웃음이나 울음과 같은 비언어적 발성(NV)을 지속적으로 제거하여 실제 활용에 심각한 한계를 보입니다. 우리는 세 가지 기여를 통해 이 문제를 해결합니다. 첫째, 데이터 부족 문제를 극복하기 위해 확장 가능한 표현적 데이터셋 구축을 위한 합성 파이프라인을 제안합니다. 둘째, 하이브리드 표현 상태를 포착하기 위해 전문가를 융합하는 표현 특화 어댑터와 소프트 가중치 라우터를 갖춘 MoVE(Mixture-of-LoRA-Experts) 아키텍처를 제안합니다. 셋째, 사전 학습된 AudioLLM이 획기적인 데이터 효율성을 가능하게 함을 보여줍니다. 30분의 선별된 데이터만으로도 강력한 성능을 달성할 수 있습니다. 영어-중국어 S2ST에서 강력한 기준 모델과 비교했을 때, MoVE는 대상 NV를 76%의 경우에서 재현했으며 비교된 모든 시스템 중 인간 평가에서 가장 높은 자연스러움과 정서적 충실도를 달성했습니다. 기존 S2ST 시스템은 최대 14%의 NV만 보존합니다.
분산 자율 조직(DAO)은 제안을 검토하고 의미론적 사회 공학을 완화하기 위해 에지-네이티브 헌법 방화벽으로 소형 언어 모델(SLM)을 탐색하려는 경향이 있습니다. 추론 시간 계산(System 2)을 확장하면 형식 논리가 강화되지만, 이 방법이 매우 적대적인 암호경제 거버넌스 환경에서 가지는 효과는 아직 충분히 연구되지 않았습니다. 이를 해결하기 위해 우리는 840회 추론 실험 프레임워크인 Sentinel-Bench를 도입하여 Qwen-3.5-9B 모델에 대해 엄격한 내부 모델 제거 실험을 수행합니다. 고정된 가중치 내에서 잠재 추론을 전환함으로써, 우리는 적대적 Optimism DAO 데이터셋에 대한 추론 시간 계산의 영향을 분리하여 관찰합니다. 우리의 연구 결과는 심각한 계산-정확도 역전 현상을 보여줍니다. 자기회귀 기준 모델(System 1)은 100%의 적대적 강건성, 100%의 법적 일관성을 달성했으며 13초 미만으로 상태 최종성에 도달했습니다. 반대로, System 2 추론은 26.7%의 '추론 비수렴'(인지 붕괴)율에 의해 근본적으로 유발된 치명적인 불안정성을 초래했습니다. 이 붕괴는 시행 간 합의 안정성을 72.6%로 저하시켰고, 17배의 지연 시간 오버헤드를 부과하며 거버넌스 추출 가치(GEV)와 하드웨어 중앙화에 대한 심각한 취약점을 도입했습니다. 드물게(적대적 시험의 1.5%) 관찰된 '추론 유도 아첨' 현상에서는 모델이 적대적 함정에 빠져 실패를 합리화하기 위해 상당히 긴 내적 독백(평균 25,750자)을 생성했습니다. 우리는 비잔틴 장애 허용(BFT) 제약 하에서 운영되는 에지-네이티브 SLM의 경우, 분산 합의를 위해 System 1 매개변수화 직관이 System 2 반복적 숙고보다 구조적 및 경제적으로 우월하다고 결론지었습니다. 코드 및 데이터셋: https://github.com/smarizvi110/sentinel-bench
체인 오브 쏘트(CoT) 기반 사고를 활용한 다중모달 추론 모델(MRM)은 수학 및 논리적 문제 해결 분야에 혁명을 일으켰습니다. 그러나 본 연구에서는 이러한 패러다임이 일반화된 공간 지능 과제에는 취약함을 보여줍니다. 저희는 13개의 공간 벤치마크에서 17개 모델을 종합적으로 평가한 결과, 중요한 결격점을 확인했습니다: CoT 프롬프팅은 시각적 공간 추론 과제에서 지속적으로 성능을 저하시킵니다. 더 나아가, 새로운 No-Image++ 애블레이션 실험을 통해 MRM과 CoT가 적용된 MLM이 심각한 단축 학습(shortcut learning) 문제를 겪으며, 이미지가 없을 때도 텍스트 선행 지식(textual priors)에서 시각적 세부 사항을 환각(hallucinate)한다는 것을 입증했습니다. 이러한 연구 결과는 공간 과제에 대한 텍스트 단독 CoT의 효용성에 의문을 제기하며, 시각 중심(vision-centric) 추론 패러다임의 필요성을 강조합니다.
멀티모달 대규모 언어 모델(MLLM)은 비전 언어 벤치마크에서 인상적인 발전을 이루었으나, 시각 인지 및 시공간 추론 능력은 여전히 잘 이해되지 않고 있습니다. 본 연구에서는 고전적인 인간 지능 검사에서 영감을 받고 새로운 "A-R-T" 분류 체계(추상화, 관계, 변환)로 구성된 8가지 시각 인지 과제의 객관식 벤치마크인 "Mind's Eye"를 소개합니다. 이 과제들은 패턴 귀납, 유사 관계 매핑, 심적 변환과 같은 유동 지능의 핵심 과정을 탐구합니다. 다양한 종류의 클로즈드 소스 및 오픈소스 MLLM을 평가하고 인간 참가자의 성능과 비교합니다. 인간은 80%의 정확도를 달성한 반면, 최고 성능의 MLLM은 50% 미만에 머물렀습니다. 오류 분석을 통해 (i) 시각 주의 할당, (ii) 내적 지각 조작, (iii) 기본 시각 개념에 대한 약한 추상화의 실패를 확인했습니다. 우리의 연구 결과는 현재 MLLM이 인간 참가자에 비해 제한된 시공간 추론 능력을 보여주며, 더 인지적으로 근거 있는 평가 프레임워크의 필요성을 강조합니다.
게임 UI 구현은 스타일이 적용된 목업을 상호작용이 가능한 엔진 개체로 변환하는 과정을 필요로 합니다. 그러나 현재의 '스크린샷-투-코드' 도구들은 게임 인터페이스의 전형적인 특징인 불규칙한 기하학적 구조와 깊은 시각적 계층 구조를 다루는 데 종종 어려움을 겪습니다. 이러한 격차를 해소하기 위해, 우리는 정적 스크린샷을 편집 가능한 엔진 에셋으로 변환하는 SPRITE 파이프라인을 소개합니다. Vision-Language Models(VLM)과 구조화된 YAML 중간 표현을 통합함으로써, SPRITE는 복잡한 컨테이너 관계와 비직사각형 레이아웃을 명시적으로 포착합니다. 우리는 선별된 게임 UI 벤치마크를 대상으로 SPRITE를 평가하고, 재현 정확도와 프로토타이핑 효율성을 평가하기 위해 전문 개발자들과의 전문가 리뷰를 수행했습니다. 우리의 연구 결과는 SPRITE가 지루한 코딩 작업을 자동화하고 복잡한 중첩 구조를 해결함으로써 개발 과정을 효율화한다는 것을 보여줍니다. 엔진 내 빠른 반복 작업을 용이하게 함으로써, SPRITE는 게임 개발에서 예술적 디자인과 기술적 구현의 경계를 효과적으로 흐리게 합니다. 프로젝트 페이지: https://baiyunshu.github.io/sprite.github.io/