번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)은 자연어 설명을 기능적 코드로 직접 변환함으로써 자동화된 소프트웨어 개발을 근본적으로 변혁했으며, Github Copilot(Microsoft), Cursor(Anysphere), Trae(ByteDance), Claude Code(Anthropic)와 같은 도구들을 통해 상용화를 주도하고 있습니다. 이 분야는 규칙 기반 시스템에서 Transformer 기반 아키텍처로 극적으로 발전하여 HumanEval과 같은 벤치마크에서 단일 자릿수 성공률에서 95% 이상의 성공률로 성능 향상을 이루었습니다. 본 연구에서는 코드 LLM에 대한 포괄적인 종합 및 실용 가이드(일련의 분석 및 탐색 실험)를 제공하며, 데이터 큐레이션부터 사후 훈련에 이르는 완전한 모델 생명주기를 고급 프롬프팅 패러다임, 코드 사전 훈련, 지도 미세 조정, 강화 학습 및 자율 코딩 에이전트를 통해 체계적으로 검토합니다. 우리는 일반 LLM(GPT-4, Claude, LLaMA)과 코드 특화 LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)의 코드 능력을 분석하고, 기술, 설계 결정 및 트레이드오프를 비판적으로 검토합니다. 나아가, 학계 연구(예: 벤치마크 및 과제)와 실제 배포(예: 소프트웨어 관련 코드 작업) 간의 연구-실무 간극(코드 정확성, 보안, 대규모 코드베이스에 대한 맥락 인식, 개발 워크플로우와의 통합 포함)을 명확히 하고, 유망한 연구 방향을 실용적 요구에 매핑합니다. 마지막으로, 코드 사전 훈련, 지도 미세 조정, 강화 학습에 대한 포괄적 분석을 제공하기 위해 일련의 실험을 수행하며, 스케일링 법칙, 프레임워크 선택, 하이퍼파라미터 민감도, 모델 아키텍처 및 데이터셋 비교를 다룹니다.
대규모 멀티모달 모델(LMM)은 텍스트적 사고 연쇄(Chain-of-Thought)를 통한 비디오 추론에서 큰 잠재력을 보여왔습니다. 그러나 특히 증거가 희소하고 시간적으로 분산된 장편 비디오를 처리할 때 환각(hallucination) 현상에 취약한 한계가 여전히 존재합니다. 인간이 장편 비디오를 이해하는 방식—전체를 훑어본 후 관련 클립을 세부적으로 검토하는—에서 영감을 받아, 우리는 교차된 멀티모달 도구-사고 연쇄(Multimodal Chain-of-Tool-Thought)를 통해 "장편 비디오와 함께 사고하기"를 가능하게 하는 종단 간 에이전트 프레임워크인 LongVT를 소개합니다. 구체적으로, 우리는 LMM의 내재적 시간 정착(temporal grounding) 능력을 특정 비디오 클립으로 확대/축소하고 더 세분화된 비디오 프레임을 재샘플링하는 기본 비디오 크롭핑 도구로 활용합니다. 이 전역-국소(global-to-local) 추론 루프는 답변이 검색된 시각적 증거에 기반할 때까지 지속됩니다. 장편 비디오 추론 과제를 위한 세부 질의응답(QA) 데이터의 부족을 고려하여, 우리는 훈련과 평가를 모두 용이하게 하기 위해 VideoSIAH라는 데이터 세트를 정리하여 공개할 예정입니다. 구체적으로, 우리의 훈련 데이터셋은 각각 도구 통합 콜드 스타트 지도 미세 조정을 위한 247.9K 개 샘플, 에이전트 강화 학습을 위한 1.6K 개 샘플, 그리고 에이전트 강화 미세 조정을 위한 15.4K 개 샘플로 구성됩니다. 우리의 평가 벤치마크는 인간 참여 검증(Human-in-the-loop) 반자동 데이터 파이프라인을 통해 신중하게 선별된 1,280개의 QA 쌍으로 구성됩니다. 정교하게 설계된 3단계 훈련 전략과 광범위한 실증적 검증을 통해 LongVT는 네 가지 도전적인 장편 비디오 이해 및 추론 벤치마크에서 기존의 강력한 베이스라인들을 일관되게 능가합니다. 우리의 코드, 데이터 및 모델 체크포인트는 https://github.com/EvolvingLMMs-Lab/LongVT 에서 공개되었습니다.
현재 다중모달 모델은 단일 양식 표현의 한계를 극복하고 이해와 생성을 통일하기 위해 노력하며, 의미론적 일관성을 보정하는 도구로 텍스트-이미지(T2I) 생성 과제를 자주 활용합니다. 그러나 훈련 및 평가 과정에서 정적 단일 이미지 생성에 의존함으로써 정적인 패턴 매칭과 의미 융합에 과적합되는 동시에, 시간에 따라 전개되는 동적 과정을 모델링하는 능력이 근본적으로 제한됩니다. 이러한 한계를 해결하기 위해 우리는 인과적 사건 진행 벤치마크인 Envision을 제안합니다. 이는 세계 지식에 기반하고 시공간적 인과관계로 구조화되어, 기존 평가 차원을 재구성하고 6개의 과학 및 인문학 분야에 걸친 1,000개의 4단계 프롬프트를 포함합니다. 평가를 단일 이미지에서 순차적 프레임으로 전환하고 모델이 인과-시간적 제약을 준수하면서 진정으로 세계 지식을 내재화하는지 평가하기 위해 다차원적 일관성, 물리적 타당성, 미적 요소를 통합한 종합 지표인 Envision-Score를 도입했습니다. 15개 모델(전문 T2I 모델 10종, 통합 모델 5종)에 대한 포괄적 평가 결과는 다음과 같습니다. 전문 T2I 모델은 미적 렌더링에서는 능숙하나 본질적인 세계 지식이 부족합니다. 통합 다중모달 모델은 이 격차를 줄이며 인과적 서사 일관성에서 전문 모델을 꾸준히 앞섰습니다. 그러나 이러한 통합 아키텍처조차도 클로즈드소스 모델에는 미치지 못하며 시공간 일관성이라는 핵심 과제를 극복하지 못했습니다. 이는 인과적으로 고립된 단일 이미지에 집중하는 것이 다중 프레임 추론 및 생성을 저해하고, 동적 세계 모델링보다 정적 패턴 매칭을 촉진함으로써 궁극적으로 세계 지식의 내재화와 생성을 제한함을 보여줍니다.
본 논문은 대규모 언어 모델을 활용한 강화 학습(RL)에 대한 새로운 공식을 제안하며, REINFORCE와 같은 정책 경사 방법에서 실제 시퀀스 수준 보상을 대리 토큰 수준 목적 함수를 통해 최적화할 수 있는 이유와 조건을 설명합니다. 구체적으로, 1차 근사를 통해 이 대리 목적 함수는 훈련-추론 불일치와 정책 부실화가 모두 최소화될 때만 점점 더 유효해짐을 보입니다. 이러한 통찰은 중요도 샘플링 보정, 클리핑, 그리고 특히 전문가 혼합(MoE) 모델을 위한 라우팅 재생과 같이 RL 훈련 안정화에 널리 채택된 여러 기법들의 중요한 역할에 대한 원리 기반 설명을 제공합니다. 총 수십만 GPU 시간에 달하는 30B 규모의 MoE 모델을 이용한 폭넓은 실험을 통해, 온-정책 훈련의 경우 중요도 샘플링 보정이 적용된 기본 정책 경사 알고리즘이 가장 높은 훈련 안정성을 달성함을 보여줍니다. 수렴 속도를 높이기 위해 오프-정책 업데이트가 도입될 때는, 클리핑과 라우팅 재생을 결합하여 정책 부실화로 인한 불안정성을 완화하는 것이 필수적입니다. 특히, 일단 훈련이 안정화되면 장기간의 최적화는 콜드-스타트 초기화 방식과 무관하게 일관되게 비슷한 최종 성능을 보입니다. 안정적인 RL 훈련을 위한 본 논문의 통찰과 개발된 방법론이 향후 연구에 기여하기를 바랍니다.
딥 리서치 에이전트(DRA)는 반복적인 정보 검색 및 종합을 통해 분석가 수준의 보고서를 자동으로 생성하는 것을 목표로 합니다. 그러나 기존 DRA 대부분은 질의응답 벤치마크에서 검증되었으며, 포괄적인 보고서 생성에 대한 연구는 여전히 간과되고 있습니다. 더욱이 현재 보고서 종합을 위한 벤치마크는 과제 복잡성과 주관적 평가指標로 인해 사용자 요구를 반영하지 못하고 생성된 보고서의 실용성을 제한하고 있습니다. 이러한 격차를 해결하기 위해 본 연구에서는 FINDER(Fine-grained DEepResearch bench)를 제안합니다. FINDER는 100개의 인간이 직접 선별한 연구 과제와 419개의 구조화된 체크리스트 항목으로 구성된 향상된 벤치마크로, 보고서 구조, 분석 깊이, 사실적 근거를 표준화합니다. 주류 DRA가 생성한 약 1,000건의 보고서를 바탕으로 우리는 딥 리서치 에이전트 최초의 실패 분류 체계인 DEFT(Deep rEsearch Failure Taxonomy)를 추가로 제안합니다. DEFT는 추론, 검색, 생성 영역 전반에 걸친 14개의 세분화된 실패 모드를 포함하며, 근거 이론(Grounded Theory)에 기반하여 인간-대형언어모델 공동 주석 달기 및 주석자 간 신뢰도 검증을 통해 구축되었습니다. 우리의 실험 결과는 현재 DRA가 과제 이해보다는 증거 통합, 검증, 그리고 추론에 견고한 계획 수립에 어려움을 겪고 있음을 보여줍니다.
최근의 비디오 확산 모델은 시각적으로 매력적인 클립을 합성할 수 있지만, 물체가 떠다니거나 가속도가 표류하며 충돌이 일관되지 않게 동작하는 등 기본적인 물리 법칙을 위반하는 경우가 많아 시각적 현실성과 물리적 현실성 사이에 지속적인 격차가 존재함을 보여줍니다. 우리는 검증 가능한 보상을 기반으로 한 최초의 물리 기반 사후 학습 비디오 생성 프레임워크인 NewtonRewards를 제안합니다. NewtonRewards는 인간 또는 VLM 피드백에 의존하는 대신, 고정된 유틸리티 모델을 사용하여 생성된 비디오에서 측정 가능한 프록시를 추출합니다: 광학 흐름은 속도의 프록시로, 고수준 외형 특징은 질량의 프록시로 기능합니다. 이러한 프록시를 통해 두 가지 상호 보완적인 보상을 통해 뉴턴 역학 구조를 명시적으로 강제합니다: 등가속도 역학을 강제하는 뉴턴 운동학적 제약과, 사소하고 퇴화된 해를 방지하는 질량 보존 보상입니다. 우리는 새로 구축한 대규모 벤치마크인 NewtonBench-60K를 사용하여 5가지 뉴턴 운동 기본 요소(자유 낙하, 수평/포물선 투척, 경사면 미끄러짐)에 대해 NewtonRewards를 평가합니다. 시각적 및 물리적 메트릭에서 모든 기본 요소에 걸쳐 NewtonRewards는 기존 사후 학습 방법 대비 물리적 타당성, 운동 부드러움, 시간적 일관성을 지속적으로 향상시킵니다. 또한 높이, 속도, 마찰력의 분포 외 변화에서도 강력한 성능을 유지합니다. 우리의 결과는 물리 기반 검증 가능한 보상이 물리 인식 비디오 생성으로 가는 확장 가능한 경로를 제공함을 보여줍니다.
기존 연구에서는 참조 이미지가 주어졌을 때 다양한 맞춤형 생성 과제를 탐구해왔으나, 일관된 세밀한 디테일 생성에는 여전히 한계가 존재합니다. 본 논문에서는 참조 기반 후처리 접근법을 적용하여 생성 이미지의 불일치 문제를 해결하고 ImageCritic을 제안합니다. 먼저 VLM 기반 선택 및 명시적 저하를 통해 획득한 참조-저하-대상 삼중항 데이터셋을 구축하여, 기존 생성 모델에서 흔히 관찰되는 부정확성이나 불일치를 효과적으로 모사합니다. 더 나아가 모델의 어텐션 메커니즘과 내재적 표현에 대한 체계적 분석을 바탕으로, 어텐션 정렬 손실과 디테일 인코더를 설계하여 불일치를 정밀하게 보정합니다. ImageCritic은 에이전트 프레임워크에 통합되어 복잡한 시나리오에서 다중 라운드 및 지역 편집을 통해 불일치를 자동으로 감지하고 수정할 수 있습니다. 폭넓은 실험을 통해 ImageCritic이 다양한 맞춤형 생성 시나리오에서 디테일 관련 문제를 효과적으로 해결하며 기존 방법 대비 현저한 성능 향상을 제공함을 입증합니다.
현재의 자기회귀 비디오 확산 모델은 세 가지 핵심 병목 현상에 의해 제약을 받습니다: (i) 기본 모델의 3D 회전 위치 임베딩(3D-RoPE)에 의해 부과된 유한한 시간 범위, (ii) 장편 롤아웃 동안 세부 동작 제어를 유지하는 데 있어 느린 프롬프트 반응성, (iii) 단일 생성 스트림 내에서 불연속적인 시네마틱 전환을 구현할 수 없는 점. 우리는 이 세 가지 한계를 상호 연결된 세 가지 구성 요소(블록-상대론적 RoPE, KV 플러시, RoPE 컷)를 통해 해결하는 통합 추론 시점 프레임워크인 infty-RoPE를 소개합니다. 블록-상대론적 RoPE는 시간 인코딩을 움직이는 지역 기준 좌표계로 재구성하여, 새로 생성된 각 잠재 블록은 기본 모델의 최대 프레임 범위를 기준으로 회전시키는 동시에 이전 블록들은 상대적 시간 기하학을 보존하기 위해 역방향으로 회전시킵니다. 이 상대론적 공식화는 고정된 시간 위치를 제거하여 기본 위치 한계를 훨씬 넘어선 연속적인 비디오 생성을 가능하게 합니다. 재인코딩 없이 세부적인 동작 제어를 얻기 위해, KV 플러시는 글로벌 싱크와 마지막으로 생성된 잠재 프레임 단 두 개의 잠재 프레임만을 보유하여 KV 캐시를 갱신함으로써 즉각적인 프롬프트 반응성을 보장합니다. 마지막으로, RoPE 컷은 시간 RoPE 좌표에 제어된 불연속성을 도입하여 단일 연속 롤아웃 내에서 다중 컷 장면 전환을 가능하게 합니다. 이러한 구성 요소들이 함께 작동하여 infty-RoPE는 무한 시간 범위, 제어 가능, 시네마틱한 비디오 확산을 위한 학습 불필요 기반을 마련합니다. 포괄적인 실험을 통해 infty-RoPE가 전체 VBench 점수에서 기존 자기회귀 모델들을 지속적으로 능가함을 보여줍니다.
통합 멀티모달 모델(UMMs)은 단일 프레임워크 내에서 멀티모달 이해와 생성을 동시에 수행하는 것을 목표로 합니다. 본 논문에서는 VAE 인코더와 표현 인코더를 계층적으로 결합하여 통합된 연속 시각 표현을 구축하는 네이티브 UMM인 TUNA를 제안합니다. 이 통합 표현 공간은 이미지와 비디오에 대한 이해 및 생성 작업을 엔드투엔드로 처리할 수 있게 합니다. 분리된 표현을 사용하는 기존 UMM들과 비교했을 때, TUNA의 통합 시각 공간은 별도의 인코더로 인한 표현 형식 불일치를 방지하여 이해와 생성 모두에서 분리형 대안들을 능가합니다. 더 나아가, 더 강력한 사전 학습된 표현 인코더가 모든 멀티모달 작업에서 일관되게 향상된 성능을 보여주며, 표현 인코더의 중요성을 부각합니다. 마지막으로, 이러한 통합 환경에서 이해와 생성 데이터를 함께 학습하면 두 작업이 상호 간섭하지 않고 서로 혜택을 얻을 수 있습니다. 멀티모달 이해 및 생성 벤치마크에 대한 폭넓은 실험을 통해 TUNA가 이미지/비디오 이해, 이미지/비디오 생성, 이미지 편집 분야에서 최첨단 성능을 달성함으로써 통합 표현 설계의 효과성과 확장성을 입증하였습니다.
저희는 효율적인 온디바이스 배포와 강력한 태스크 성능을 위해 설계된 Liquid Foundation Models(LFM2) 패밀리를 소개합니다. 에지 장치의 레이턴시 및 메모리 제약 조건 하에서 하드웨어 인 더 루프 아키텍처 탐색을 통해, 게이트된 단순 합성곱과 소수의 그룹화된 쿼리 어텐션 블록을 결합한 컴팩트 하이브리드 백본을 확보하여, 유사 규모 모델 대비 CPU에서 최대 2배 빠른 프리필 및 디코드 속도를 제공합니다. LFM2 패밀리는 350M-8.3B 파라미터 규모를 커버하며, 조밀 모델(350M, 700M, 1.2B, 2.6B)과 mixture-of-experts 변형 모델(총 8.3B, 활성 1.5B)을 포함하며, 모두 32K 컨텍스트 길이를 가집니다. LFM2의 학습 파이프라인은 지원 불일치를 회피하는 완화된 분리형 Top-K 지식 증류 목표, 난이도 순 데이터 구성 커리큘럼 학습, 그리고 지도 미세 조정, 길이 정규화 선호도 최적화, 모델 병합의 3단계 사후 학습 레시피로 구성됩니다. 10-12T 토큰으로 사전 학습된 LFM2 모델은 다양한 벤치마크에서 강력한 성과를 보입니다. 예를 들어, LFM2-2.6B는 IFEval에서 79.56%, GSM8K에서 82.41%를 달성했습니다. 또한 멀티모달 및 검색 변형 모델인 비전-언어 태스크용 LFM2-VL, 음성용 LFM2-Audio, 검색용 LFM2-ColBERT를 구축했습니다. LFM2-VL은 토큰 효율적인 시각 처리 방식을 통해 조정 가능한 정확도-레이턴시 트레이드오프를 지원하며, LFM2-Audio는 오디오 입력/출력 경로를 분리하여 규모가 3배 큰 모델과 경쟁 가능한 실시간 음성 간 상호작용을 가능하게 합니다. LFM2-ColBERT는 쿼리와 문서를 위한 저지연 인코더를 제공하여 다중 언어에 걸친 고성능 검색을 가능하게 합니다. 모든 모델은 ExecuTorch, llama.cpp, vLLM용 오픈 가중치 및 배포 패키지와 함께 공개되어, LFM2가 빠르고 메모리 효율적인 추론과 강력한 태스크 성능이 필요한 에지 애플리케이션을 위한 실용적인 기반이 되도록 합니다.
지식 그래프(KG)는 대규모 언어 모델(LLM)에 구조화되고 검증 가능한 기반을 제공하지만, 현재 LLM 기반 시스템은 일반적으로 KG를 텍스트 검색을 위한 보조 구조로 활용하여 그 내재적 품질을 충분히 탐구하지 못하고 있다. 본 연구에서는 오픈 도메인 텍스트로부터 KG를 구축하는 다단계 파이프라인인 Wikontic을 제안한다. 이는 한정자가 포함된 후보 트리플릿을 추출하고, Wikidata 기반 유형 및 관계 제약 조건을 적용하며, 중복을 줄이기 위해 엔티티를 정규화하는 과정으로 구성된다. 그 결과 생성된 KG는 간결하고 온톨로지에 부합하며 연결성이 뛰어나다. MuSiQue에서 정답 엔티티는 생성된 트리플릿의 96%에 나타난다. HotpotQA에서 우리의 트리플릿 전용 설정은 76.0 F1, MuSiQue에서 59.8 F1을 달성하여 여전히 텍스트 컨텍스트가 필요한 여러 검색 증강 생성 기준 모델을 능가하거나 그에 버금간다. 또한 Wikontic은 MINE-1 벤치마크에서 최첨단 정보 보존 성능(86%)을 달성하여 기존 KG 구축 방법들을 능가한다. Wikontic은 구축 시간 측면에서도 효율적이다. KG 구축에 1,000개 미만의 출력 토큰을 사용하며, 이는 AriGraph보다 약 3배, GraphRAG의 1/20 미만에 해당한다. 제안된 파이프라인은 생성된 KG의 품질을 향상시키고 LLM에서 구조화된 지식을 활용하기 위한 확장 가능한 솔루션을 제공한다.
대규모 언어 모델(LLM)의 최근 발전은 새로운 추론 능력, 특히 사고 연쇄(CoT) 프롬프팅을 통한 철저한 탐색과 숙고가 가능해지면서 주도되어 왔습니다. 이러한 발전에도 불구하고, 장황한 CoT를 사용하는 LLM은 종종 과도한 사고나 지나치게 길어진 추론 과정과 같은 비효율적인 추론 행태를 보이며, 이는 성능 저하를 초래할 수 있습니다. 본 논문에서는 추론 과정을 최적화 관점에서 분석하여, 각 추론 단계가 문제 해결을 위한 업데이트로 구성된 경사 하강법 절차로서 CoT를 재구성합니다. 이러한 관점을 바탕으로, 사후 훈련 중 LLM 추론을 개선하는 새로운 접근법인 RePro(과정 수준 보정)를 소개합니다. RePro는 CoT의 기반이 되는 최적화 과정을 평가하기 위한 대리 목적 함수를 정의하며, 그 강도와 안정성을 정량화하는 이중 점수 메커니즘을 활용합니다. 이러한 점수는 복합 과정 수준 보상으로 집계되어, 검증 가능한 보상을 활용한 강화 학습(RLVR) 파이프라인에 원활하게 통합되어 LLM을 최적화합니다. 수학, 과학, 코딩 분야의 벤치마크를 통해 다양한 강화 학습 알고리즘과 여러 LLM을 대상으로 진행한 광범위한 실험 결과, RePro가 추론 성능을 지속적으로 향상시키고 비효율적인 추론 행태를 완화하는 것으로 나타났습니다.
디퓨전 모델은 생성 모델의 주요 계층으로 부상했지만, 반복적인 샘플링 과정은 계산 비용이 높은 문제를 지니고 있습니다. 타임스텝 디스틸레이션은 생성 속도를 높이기 위한 유망한 기술이지만, 종종 대규모 학습을 필요로 하고 이미지 품질 저하를 초래합니다. 더욱이 미적 매력이나 사용자 선호도와 같은 특정 목적을 위해 강화학습(RL)을 사용하여 이러한 디스틸레이션 모델을 미세 조정하는 것은 불안정하고 보장 해킹에 쉽게 빠지는 것으로 알려져 있습니다. 본 연구에서는 디스틸레이션과 결합된 RL 기반 정교화를 통해 빠른 수렴을 가능하게 하는 새로운 프레임워크인 Flash-DMD를 소개합니다. 구체적으로, 우리는 먼저 향상된 현실감과 함께 학습 비용을 크게 절감하는 효율적인 타임스텝 인식 디스틸레이션 전략을 제안하며, DMD2 대비 단 2.1%의 학습 비용만으로 더 우수한 성능을 달성합니다. 둘째, 타임스텝 디스틸레이션 학습이 지속되는 동시에 RL 목적 함수를 통해 모델을 미세 조정하는 결합 학습 방식을 도입합니다. 지속되는 디스틸레이션으로부터의 안정적이고 명확한 손실이 강력한 정규화자로 작용하여 RL 학습 과정을 효과적으로 안정화하고 정책 붕괴를 방지한다는 것을 입증합니다. 스코어 기반 및 플로우 매칭 모델에 대한 광범위한 실험을 통해, 제안된 Flash-DMD가 유의미하게 빠르게 수렴할 뿐만 아니라 Few-Step 샘플링 영역에서 최첨단 생성 품질을 달성하여 시각적 품질, 인간 선호도, 텍스트-이미지 정렬 메트릭에서 기존 방법들을 능가함을 보여줍니다. 우리의 연구는 효율적이고 높은 충실도를 가지며 안정적인 생성 모델을 학습시키는 효과적인 패러다임을 제시합니다. 코드는 곧 공개될 예정입니다.
비전-언어-행동 모델(VLA)은 다양한 로봇 작업에서 점점 더 높은 성능을 보여주고 있습니다. 그러나 실제 현장 적용 속도는 여전히 느리고 비효율적입니다. 데모 영상들은 대개 부드러워 보이도록 5~10배 가속되며, 행동 정지나 환경 변화에 대한 지연된 반응이 눈에 띕니다. 비동기 추론은 로봇이 행동 실행과 추론을 동시에 수행하도록 함으로써 연속적이고 저지연 제어를 달성할 수 있는 유망한 해결책입니다. 그러나 추론 과정에서 로봇과 환경이 계속 변화하기 때문에 예측 구간과 실행 구간 사이에 시간적 불일치가 발생합니다. 이는 심각한 행동 불안정성을 초래하는데, 기존 방법들은 이를 완화하기 위해 정확도를 희생하거나 런타임 오버헤드를 추가합니다. 우리는 추가 오버헤드나 구조 변경 없이 부드럽고 정확하며 빠른 반응 제어를 제공하는 범용 VLA 비동기 추론 프레임워크인 VLASH를 제안합니다. VLASH는 이전에 생성된 액션 청크를 사용하여 로봇 상태를 미래 실행 시점까지 롤포워드함으로써 예측과 실행 간의 격차를 해소합니다. 실험 결과, VLASH는 동기식 추론 대비 최대 2.03배의 속도 향상과 최대 17.4배의 반응 지연 감소를 달성하면서 원본 정확도를 완전히 유지했습니다. 더 나아가, 기존 동기식 추론으로는 불가능했던 탁구 치기나 두더지 잡기와 같은 빠른 반응과 높은 정밀도를 요구하는 작업을 VLA가 수행할 수 있도록 합니다. 코드는 https://github.com/mit-han-lab/vlash에서 이용할 수 있습니다.
본 논문에서는 일반적인 시각-언어-행동(VLA) 정책을 장기간 정밀 조작에 특화된 고성능 전문가로 전환하는 로봇 학습 프레임워크인 GR-RL을 제안한다. 기존 VLA 정책은 인간의 데모스트레이션이 최적이라고 가정하는 것이 핵심이다. 그러나 고도로 정교하고 정밀한 조작 작업에서는 인간의 데모스트레이션이 노이즈가 많고 차선책일 수 있다고 주장한다. GR-RL은 강화 학습을 통해 데모스트레이션을 필터링, 증강, 강화하는 다단계 학습 파이프라인을 제안한다. 먼저 GR-RL은 시각-언어 조건부 작업 진행도를 학습하여 데모스트레이션 궤적을 필터링하고, 진행에 긍정적으로 기여하는 전이만을 선별한다. 구체적으로, 희소 보상을 사용한 오프라인 강화 학습을 직접 적용함으로써 얻어진 Q-값을 강건한 진행도 함수로 활용할 수 있음을 보인다. 다음으로, GR-RL의 일반화 성능과 성능을 크게 향상시키는 형태적 대칭 증강 기법을 도입한다. 마지막으로 고정밀 제어를 위해 VLA 정책과 실제 실행 행동을 더 잘 정렬하기 위해 잠재 공간 노이즈 예측기를 학습하는 온라인 강화 학습을 수행한다. 이 파이프라인을 통해 GR-RL은 우리가 아는 한, 여러 개의 구멍에 신발끈을 끼워 신발을 묶는 작업(83.3% 성공률)을 자율적으로 수행할 수 있는 최초의 학습 기반 정책이다. 이 작업은 장기간 추론, 밀리미터 수준의 정밀도, 그리고 순응성 있는 연성체 상호작용을 요구한다. GR-RL이 일반적인 로봇 파운데이션 모델이 신뢰할 수 있는 실제 전문가로 특화되는 방향으로 나아가는 디딤돌이 되기를 기대한다.
대규모 비디오-텍스트 사전 학습은 강력한 성능을 달성하지만 의미론적 범위가 제한된 노이즈가 많은 합성 캡션에 의존하며, 종종 객체 운동, 3D 기하학, 물리적 단서와 같은 암묵적인 세계 지식을 간과합니다. 이에 반해 마스크된 비디오 모델링(MVM)은 시공간 구조를 직접 활용하지만 일반 작업에서 텍스트 지도 방법들보다 뒤처집니다. 우리는 이러한 격차가 간과된 구조적 문제에서 비롯됨을 발견했습니다: 픽셀 수준 재구성은 수렴에 어려움을 겪고 그 낮은 수준의 요구사항은 의미론과 종종 충돌하는 반면, 잠재적 예측은 종종 단축 학습을 유도합니다. 이를 해결하기 위해 우리는 기존 인코더-디코더 설계를 Encoder-Predictor-Decoder(EPD) 프레임워크로 분리하며, 여기서 예측기는 잠재적 세계 모델 역할을 하고, 이 세계 모델을 위해 의미론적으로 일관되면서도 세부 사항을 보존하는 잠재 공간을 구축하는 2단계 사전 학습 방식인 InternVideo-Next를 제안합니다. 첫째, 픽셀 MVM의 기존 선형 디코더는 예측기 출력 잠재 변수가 픽셀 공간으로 선형 투영되어 분리 가능하도록 강제하므로 의미론적 추상화와 충돌을 일으킵니다. 우리의 1단계는 조건부 확산 디코더를 제안하고 신뢰할 수 있는 이미지 수준 의미론적 사전 지식을 주입하여 의미론과 수렴성을 향상시켜 픽셀 수준 정확도와 높은 수준의 의미론적 추상화를 연결합니다. 2단계는 이 공간 내에서 고정된 1단계 목표를 예측함으로써 세계 지식을 추가로 학습하며 단축 학습을 완화합니다. 공개된 비레이블 비디오로 학습된 InternVideo-Next는 다양한 벤치마크에서 최첨단 결과를 달성하며 일반적인 비디오 표현 학습을 위한 확장 가능한 경로를 제공합니다.
Flow 기반 생성 모델은 최근 강력한 성능을 보여주고 있지만, 샘플링에는 일반적으로 비용이 많이 드는 상미분방정식(ODE)의 수치적분이 필요합니다. Rectified Flow는 거의 직선적인 확률 경로를 학습함으로써 원샷 샘플링을 가능하게 하지만, 이러한 직선성을 달성하기 위해서는 계산량이 많은 여러 번의 리플로우(reflow) 반복이 필요합니다. MeanFlow는 시간에 따른 평균 속도를 직접 모델링하여 원샷 생성을 달성하지만, 곡률이 높은 흐름에서 학습할 경우 수렴 속도가 느리고 노이즈가 많은 지도 신호로 인해 어려움을 겪습니다. 이러한 한계를 해결하기 위해 우리는 단일 리플로우 단계만을 사용하여 정류된(rectified) 궤적을 따라 평균 속도장을 모델링하는 프레임워크인 Rectified MeanFlow를 제안합니다. 이는 완벽하게 직선화된 궤적을 필요로 하지 않으면서도 효율적인 학습을 가능하게 합니다. 더 나아가, 잔여 곡률을 줄이고 성능을 추가로 개선하기 위한 간단하면서 효과적인 트렁케이션 휴리스틱을 도입합니다. 64, 256, 512 해상도의 ImageNet에 대한 대규모 실험을 통해 Re-MeanFlow가 샘플 품질과 학습 효율성 모두에서 기존의 원샷 플로우 디스틸레이션(flow distillation) 및 Rectified Flow 방법들을 지속적으로 능가함을 보여줍니다. 코드는 https://github.com/Xinxi-Zhang/Re-MeanFlow에서 확인할 수 있습니다.
본 논문에서는 검색 알고리즘의 목표가 LLM과의 정렬에 있음이 LLM의 지식 증류 목표와 유사함을 지적합니다. 우리는 정보 이론 관점에서 증류 언어 모델(DLM)과 원본 LLM 간 정보 초점의 유사성을 분석하고, 이를 바탕으로 검색 알고리즘으로 DLM을 활용하는 새로운 패러다임을 제안합니다. 이러한 통찰을 바탕으로 장문맥 추론을 위한 알고리즘 및 시스템 공동 설계인 SpeContext를 제시합니다. (1) 알고리즘 수준에서 SpeContext는 DLM의 헤드 수준 어텐션 가중치를 기반으로 한 경량화된 검색 헤드를 제안하여 중복성을 제거함으로써 90% 이상의 매개변수 감소를 달성합니다. (2) 시스템 수준에서 SpeContext는 탄력적 로딩 전략을 통한 비동기적 프리페치 데이터플로우를 설계하여 KV 캐시 검색과 LLM 연산을 효과적으로 중첩합니다. (3) 컴파일 수준에서 SpeContext는 이론적 메모리 모델을 구성하고 적응형 메모리 관리 시스템을 구현하여 GPU 메모리 활용도를 극대화함으로써 가속화를 달성합니다. 우리는 SpeContext를 클라우드와 엣지라는 두 가지 자원 제약 환경에 배포 및 평가했습니다. 광범위한 실험 결과, Huggingface 프레임워크 대비 SpeContext는 클라우드에서 최대 24.89배의 처리량 향상, 엣지에서 10.06배의 속도 향상을 정확도 손실은 미미한 수준으로 달성하여 정확도와 처리량의 파레토 최적 경계를 확장했습니다.
스트리밍 비디오 대규모 언어 모델(VideoLLMs)은 다양한 비디오 이해 작업에서 인상적인 성능을 보여주지만, 연속적인 비디오 스트림에서 발생하는 밀집된 시각적 토큰 처리의 높은 계산 비용으로 인해 실시간 배포에 상당한 어려움을 겪고 있습니다. 스트리밍 비디오 시나리오에서 주요 병목 현상은 Vision Transformer(ViT) 인코딩 단계에 있으며, 시간적으로 유사한 프레임을 중복 처리함으로써 비효율이 발생합니다. 또한 LLM 사전 채우기(pre-filling) 단계에서 팽창된 토큰 시퀀스는 대기 시간과 메모리 오버헤드를 더욱 악화시킵니다. 이러한 문제를 해결하기 위해 우리는 기존 스트리밍 VideoLLMs에 원활하게 통합되어 ViT 인코딩과 LLM 사전 채우기 단계를 모두 최적화하여 처리 속도를 높이는 플러그 앤 플레이(plug-and-play) 계층적 프레임워크인 STC(Streaming Token Compression)를 제안합니다. STC는 두 가지 토큰 수준 가속기를 도입합니다: 첫째, STC-Cacher는 시간적으로 유사한 프레임의 특징을 캐싱 및 재사용하여 ViT 인코딩 오버헤드를 줄이고, 둘째, STC-Pruner는 LLM에 입력되기 전에 시각적 토큰 시퀀스를 압축하여 공간적 및 시간적 관련성을 기준으로 가장 salient한 토큰만 보존합니다. 5개 벤치마크에서 4개의 기준 스트리밍 VideoLLMs에 대한 폭넓은 실험을 통해 STC가 다른 압축 방법들을 능가함을 입증했습니다. 특히 STC는 ReKV 프레임워크에서 최대 99%의 정확도를 유지하면서 ViT 인코딩 대기 시간과 LLM 사전 채우기 대기 시간을 각각 24.5%, 45.3% 줄였습니다.
대규모 언어 모델(LLM)은 코드 생성, 수학적 추론, 에이전트 기반 워크플로우 애플리케이션의 기반이 됩니다. 실제 시스템에서는 상용 API나 오픈소스 배포를 통해 LLM에 접근하며, GPT, Claude, Llama 등 모델 생태계는 빠르게 진화하고 있습니다. 이러한 급속한 발전은 성능, 비용, 배포 제약 조건, 프라이버시 등의 이유로 빈번한 모델 전환을 필요로 합니다. 그러나 프롬프트는 모델에 매우 민감합니다: 한 모델에 맞게 설계된 프롬프트를 다른 모델에 재사용할 경우, 대상 모델에 최적화된 프롬프트보다 성능이 현저히 저하되는 경우가 많습니다. 우리는 이러한 현상을 '모델 드리프팅(Model Drifting)'이라고 명명합니다. 다양한 LLM 구성에 대한 광범위한 실증 분석을 통해 모델 드리프팅이 흔히 발생하며 그 영향이 심각함을 보여줍니다. 이 문제를 해결하기 위해 우리는 모델 전환 시 프롬프트 효과성을 유지하고, 비용이 많이 드는 태스크별 또는 모델별 재최적화 없이 크로스모델 프롬프트 전송을 가능하게 하는 학습이 불필요한 프레임워크인 PromptBridge를 소개합니다. PromptBridge는 캘리브레이션을 위해 소규모의 얼라인먼트 태스크 집합만을 요구합니다. 먼저 모델 적응형 반성적 프롬프트 진화(MAP-RPE)를 적용하여 반복적인 반성적 개선과 정량적 평가를 통해 태스크 및 모델 특화 최적 프롬프트를 획득합니다. 이를 통해 생성된 소스 모델과 대상 모델용 캘리브레이션된 프롬프트 쌍을 이용해 PromptBridge는 크로스모델 프롬프트 매핑을 학습합니다. 테스트 시, 즉 새로운 태스크에 대해 소스 모델용 프롬프트가 주어지면 이 매핑을 통해 대상 모델용 최적화된 프롬프트를 직접 생성합니다. 단일 에이전트 및 다중 에이전트 환경에서의 실험 결과, PromptBridge가 이전 노력을 줄이면서 다운스트림 정확도를 지속적으로 향상시킴을 확인했습니다. 코드는 곧 공개될 예정입니다.
테스트 타임 계산 확장(Test-time compute scaling)은 추론 과정에서 추가적인 계산 자원을 할당함으로써 대규모 언어 모델(LLM)의 수학적 추론 능력을 향상시키는 강력한 패러다임으로 부상했습니다. 그러나 기존 방법들은 모든 추론 하위 문제에 균일하게 자원을 분배하여, 어려운 하위 문제는 충분한 주의를 받지 못하는 반면 일상적인 연산은 과도한 자원을 소모하는 근본적인 병목 현상을 야기합니다. 이러한 균일 할당 방식은 추가 계산 자원 투입에 따른 성능 향상이 점차 줄어드는 한계를 만듭니다. 이중 처리 이론에서 영감을 받아, 우리는 하위 문제 난이도에 따라 선택적으로 계산 자원을 할당하는 SCALE(Selective Resource Allocation) 프레임워크를 제안합니다. SCALE은 네 단계로 운영됩니다: (1) 문제를 순차적 추론 하위 문제로 분해, (2) 각 하위 문제의 난이도 평가를 통해 일상적 연산과 계산적으로 어려운 하위 문제를 구분, (3) 단순 문제에는 System 1, 복잡 문제에는 System 2를 할당하는 선택적 처리 모드 지정, (4) 문맥 전파를 통한 순차적 실행. SCALE은 일상적 연산은 효율적으로 처리하면서 어려운 하위 문제에 자원을 집중함으로써, 우수한 자원 활용과 함께 상당한 성능 향상을 달성합니다. 광범위한 실험을 통해 SCALE이 균일 확장 기준선을 크게 능가함을 입증했으며, AIME25 데이터셋에서 정확도가 57.50%에서 71.25%로 최대 13.75%p 향상되는 동시에 계산 비용을 33%-53% 절감했습니다. 이는 기존 접근법의 근본적 한계를 해결하는 테스트 타임 확장 분야의 중요한 진전을 나타냅니다.
다국어 텍스트-이미지(T2I) 모델은 시각적 현실성과 의미론적 정렬 측면에서 빠르게 발전하여 현재 널리 활용되고 있습니다. 그러나 생성 결과는 문화적 맥락에 따라 상이한데, 언어가 문화적 함의를 내포하기 때문에 다국어 프롬프트로 합성된 이미지는 교차 언어적 문화 일관성을 유지해야 합니다. 본 연구는 현행 T2I 모델이 다국어 프롬프트 하에서 문화적으로 중립적이거나 영어 중심적인 결과를 내는 경우가 많다는 포괄적 분석을 수행합니다. 두 가지 대표 모델에 대한 분석 결과, 해당 문제는 문화적 지식의 부재가 아니라 문화 관련 표현의 활성화 부족에서 비롯됨을 확인했습니다. 우리는 문화 민감도 신호를 소수의 고정된 계층 내 특정 뉴런 집합으로 위치 특정하는 프로빙 방법을 제안합니다. 이러한 발견을 바탕으로 두 가지 상호 보완적 정렬 전략을 도입합니다: (1) 백본 미세 조정 없이 식별된 뉴런을 증폭하는 추론 시점 문화 활성화와 (2) 문화 관련 계층만을 업데이트하는 계층 대상 문화 강화입니다. 우리가 구축한 CultureBench에서의 실험 결과, 강력한 베이스라인 대비 화질과 다양성을 유지하면서 문화 일관성에서 지속적인 개선을 확인했습니다.
다중모드 대규모 언어 모델(MLLM)에서 시각 토큰의 급속한 증가는 특히 고해상도 이미지와 비디오를 처리할 때 과도한 메모리 소비 및 추론 지연을 초래합니다. 토큰 프루닝은 중복성을 제거하여 이 문제를 완화하기 위한 기술이지만, 기존 방법들은 사용자 쿼리와의 관련성을 종종 무시하거나 어텐션 메커니즘의 한계로 인해 적응성과 효과성이 떨어지는 문제가 있습니다. 이러한 문제를 해결하기 위해 우리는 재학습이 필요 없으며 다양한 MLLM에 걸쳐 일반화 가능한 플러그인 플레이 프루닝 방법인 Script를 제안합니다. Script는 두 가지 모듈로 구성됩니다: 시각적으로 중복된 토큰을 제거하는 그래프 구조 프루닝 모듈과 쿼리 관련 시각 정보를 보존하는 쿼리 조건부 의미론적 프루닝 모듈입니다. 이들은 함께 다중모드 작업의 성능을 향상시킵니다. 이미지 및 비디오 이해 작업에 대한 14개 벤치마크 실험에서 Script는 기존 프루닝 방법 대비 consistently 더 높은 모델 효율성과 예측 정확도를 달성했습니다. LLaVA-NeXT-7B에서 최대 6.8배의 프리필 속도 향상과 10배의 FLOP 감소를 달성하면서 원본 성능의 96.88%를 유지했습니다.
단일 이미지에서 픽셀 단위 기하학적 특성을 복원하는 문제는 외관 모호성과 2D 관측과 3D 구조 간의 비단사적 매핑으로 인해 본질적으로 ill-posed 문제입니다. 판별적 회귀 모델은 대규모 지도 학습을 통해 강력한 성능을 달성하지만, 그 성공은 사용 가능한 데이터의 규모, 품질, 다양성에 의해 제한되며 물리적 추론 능력이 부족합니다. 최근 확산 모델은 방대한 이미지-텍스트 데이터로부터 학습된 기하학 및 의미론을 인코딩하는 강력한 세계 사전 지식을 보여주지만, 확률적 생성 방식을 결정론적 기하학 추론에 직접 재사용하는 것은 최적이 아닙니다. 전자는 다양하고 높은 충실도의 이미지 생성을 위해 최적화되었으나, 후자는 안정적이고 정확한 예측을 요구하기 때문입니다. 본 연구에서는 사전 학습된 생성적 사전 지식을 최대한 활용하기 위한 최적의 적응 프로토콜을 제공하고자, 안정적이고 정확하며 세밀한 기하학적 밀집 예측을 위한 2단계 결정론적 프레임워크인 Lotus-2를 제안합니다. 구체적으로, 첫 번째 단계에서 핵심 예측기는 깨끗한 데이터 목표 함수와 경량화된 지역 연속성 모듈(LCM)을 사용한 단일 단계 결정론적 공식을 통해 그리드 아티팩트 없이 전역적으로 일관된 구조를 생성합니다. 두 번째 단계에서는 디테일 샤프너가 핵심 예측기에 의해 정의된 매니폴드 내에서 제약된 다단계 정류 흐름 정제를 수행하여 무잡음 결정론적 흐름 매칭을 통해 세밀한 기하학을 향상시킵니다. 기존 대규모 데이터셋의 1% 미만인 59K 개의 학습 샘플만을 사용하여 Lotus-2는 단안 깊이 추정에서 새로운 최첨단 결과를 달성하고 표면 법선 예측에서 매우 경쟁력 있는 성능을 보입니다. 이러한 결과는 확산 모델이 결정론적 세계 사전 지식으로 작용하여 기존의 판별적 및 생성적 패러다임을 넘어선 고품질 기하학적 추론을 가능하게 함을 입증합니다.
스트리밍 비디오 이해는 모델이 시간적으로 유입되는 프레임을 처리할 뿐만 아니라 AR 글래스와 같은 실용적인 애플리케이션을 위해 사용자 의도를 예측할 수 있어야 합니다. 기존 스트리밍 벤치마크는 시간적 추론 능력을 평가하지만, MLLM이 스트리밍 환경에서 인간의 시선 신호를 해석하거나 활용할 수 있는지 측정하는 것은 없었습니다. 이러한 공백을 메우기 위해 우리는 스트리밍 비디오에서 MLLM이 시선 정보를 얼마나 효과적으로 시간적 및 선제적 추론에 사용하는지 평가하기 위한 최초의 벤치마크인 StreamGaze를 소개합니다. StreamGaze는 스트리밍 비디오 이해를 종합적으로 평가하는 시선 기반 과거, 현재, 선제적 과제를 도입합니다. 이러한 과제들은 모델이 실시간 시선 정보를 사용하여 변화하는 주의를 따라가고, 과거 및 현재 관찰된 프레임만으로 사용자 의도를 추론할 수 있는지 평가합니다. StreamGaze를 구축하기 위해 우리는 시선 고정 추출, 영역 특화 시각 프롬프팅, 주시 경로 구성을 통해 1인칭 비디오와 원시 시선 궤적을 정렬하는 시선-비디오 질의응답 생성 파이프라인을 개발했습니다. 이 파이프라인은 인간의 인지 역동성을 밀접하게 반영하는 시공간적으로 근거 있는 QA 쌍을 생성합니다. 모든 StreamGaze 과제에서 최첨단 MLLM과 인간 성능 간에 상당한 성능 격차가 관찰되며, 이는 시선 기반 시간적 추론, 의도 모델링 및 선제적 예측 분야의 근본적인 한계를 드러냅니다. 우리는 더 나아가 시선 프롬프팅 전략, 추론 행동, 과제 특화 실패 모드에 대한 상세한 분석을 제공하여 현재 MLLM이 어려움을 겪는 이유와 향후 모델이 개발해야 할 능력에 대한 깊은 통찰을 제시합니다. 모든 데이터와 코드는 시선 기반 스트리밍 비디오 이해 연구의 지속적 발전을 지원하기 위해 공개될 예정입니다.
DeepSeek-R1에서 영감을 받은 최신 다중모달 추론 모델들은 시각-언어 시스템을 크게 발전시켰습니다. 그러나 원격 탐사(RS) 작업에서 우리는 모델이 시각적 증거에 기반해 정답으로 진정하게 추론하기보다는 추론 과정을 단순히 서술하는 보편적인 유사 추론(pseudo reasoning) 현상을 관찰합니다. 우리는 이를 대규모 원격 탐사 영상에 대한 단일/대략적 인식으로 인해 불완전한 이해가 발생하고 시각적 증거 대신 언어적 자기 일관성에 기반해 추론하는 '일견 효과(Glance Effect)'로 귀결합니다. 이를 해결하기 위해 우리는 언어 주도적, 반복적 시각 증거 탐색 패러다임인 RS-EoT(Remote Sensing Evidence-of-Thought)를 제안합니다. 이 패러다임을 구현하기 위해 우리는 추론과 시각 검사가 교대로 이루어지는 사이클을 통해 추론 흔적(reasoning traces)을 합성하는 자기 대결(self-play) 다중 에이전트 시스템인 SocraticAgent를 제안합니다. 이러한 패턴을 강화하고 일반화하기 위해 우리는 두 단계의 점진적 강화 학습(RL) 전략을 제안합니다. 첫째, RS-EoT 능력을 강화하기 위한 세분화된 Grounding 작업에 대한 RL, 그 다음 더 넓은 이해 시나리오로 일반화하기 위한 RS VQA에 대한 RL입니다. 실험 결과 RS-EoT는 여러 RS VQA 및 grounding 벤치마크에서 최첨단 성능을 달성함을 보여줍니다. 분석 결과, 추론과 증거 탐색의 명확한 반복적 사이클이 확인되어 RS-EoT가 일견 효과를 완화하고 진정한 증거 기반 추론을 가능하게 함을 입증합니다. 우리의 코드, 데이터 및 모델은 https://geox-lab.github.io/Asking_like_Socrates에서 확인할 수 있습니다.
그래픽 사용자 인터페이스(GUI) 에이전트는 순차적 탐색 작업을 수행하기 위해 효과적인 역사적 컨텍스트 활용이 필요합니다. 과거 행동과 관측 결과를 통합하면 의사 결정을 개선할 수 있지만, 전체 기록을 단순히 사용하는 것은 과도한 계산 부하와 관련 없는 정보로 인한 주의 분산을 초래합니다. 이를 해결하기 위해 우리는 역사적 정보를 효율적이고 효과적으로 활용하도록 History Context-aware Policy Optimization (HCPO)으로 훈련된 GUI 에이전트인 HiconAgent를 소개합니다. HCPO는 두 가지 상호 보완적인 구성 요소를 통해 샘플링 및 정책 업데이트 모두에서 기록 사용을 최적화합니다: (1) Dynamic Context Sampling (DCS)은 샘플링 중 에이전트에 가변 길이 기록을 제공하여 가장 관련성 높은 컨텍스트의 적응형 사용을 가능하게 합니다; (2) Anchor-guided History Compression (AHC)은 기록 관측 정보는 제거하되 정보 흐름의 앵커 역할로 기록 행동은 유지하는 이중 브랜치 전략으로 정책 업데이트 단계를 개선합니다. 압축 및 비압축 브랜치는 효율성을 유지하면서 일관된 기록 사용을 강제하기 위한 기록 강화 정렬 손실(history-enhanced alignment loss)을 통해 결합됩니다. 주류 GUI 탐색 벤치마크에서의 실험은 강력한 성능을 입증합니다. HiconAgent-3B는 규모가 더 작음에도 불구하고, GUI-Odyssey에서 GUI-R1-7B 대비 +8.46%의 그라운딩 정확도와 +11.32%의 단계 성공율을 달성하는 동시에, AndroidControl 및 AITW에서 최대 2.47배의 계산 속도 향상과 60%의 FLOPs 감소로 유사한 결과를 얻습니다.
대규모 추론 모델(LRM)은 수학, 코드 생성, 작업 계획 분야에서 강력한 성능을 보이지만, 장황한 "사고" 토큰으로 구성된 긴 체인에 의존함에 따라 높은 지연 시간, 중복성, 비일관적인 추론 경로가 발생합니다. 인간의 추론이 멘탈리즈(Mentalese)라는 기호적·구조적 심적 언어 위에서 이루어진다는 '사고의 언어 가설'에서 영감을 받아, 우리는 모델이 이와 유사한 압축된 방식으로 추론하도록 훈련하는 프레임워크를 제안합니다. 멘탈리즈는 추상적 추론을 초압축적이고 구조화된 토큰으로 인코딩하여 모델이 훨씬 적은 단계로 복잡한 문제를 해결할 수 있게 합니다. 효율성과 정확성을 동시에 향상시키기 위해, 우리는 정확성을 유지하는 간결한 해법을 보상하면서도 필요시 더 긴 추론을 허용하는 강화 학습 방법인 **SLPO(짧은 길이 선호 최적화)**를 제안합니다. 멘탈리즈에 정렬된 모델에 적용된 SLPO는 계산적 오버헤드 없이 상세한 사고의 이점을 보존하는 간결한 추론을 가능하게 함으로써 상당히 높은 압축율을 달성합니다. AIME 2024 및 2025, MinervaMath, OlympiadBench, Math500, AMC를 포함한 벤치마크 전반에서, 우리의 ORION 모델은 추론 흔적을 4-16배 더 적은 토큰으로 생성하며, 최대 5배 낮은 추론 지연 시간을 달성하고, DeepSeek R1 Distilled 모델 대비 훈련 비용을 7-9배 절감하면서도 그 정확도의 90-98%를 유지합니다. ORION은 또한 Claude 및 ChatGPT-4o 대비 최대 5% 높은 정확도를 달성하면서 2배의 압축률을 유지합니다. 이러한 결과는 멘탈리즈 스타일의 압축 추론이 인간과 유사한 인지 효율성으로 나아가는 한 걸음을 제시하며, 정확성을 희생하지 않고 실시간, 비용 효율적인 추론을 가능하게 함을 보여줍니다.
확산 모델에 기반한 인버전-노이즈 제거(Inversion-Denoising) 패러다임은 다양한 이미지 편집 및 복원 작업에서 탁월한 성능을 보인다. 본 연구는 해당 메커니즘을 재고하며 재구성 성능 저하의 중요한 간과 요인인 근사 노이즈 오차를 규명한다. 이 오차는 t 단계의 노이즈를 t-1 단계의 예측값으로 근사함에 따라 발생하며, 인버전 과정 전반에 걸쳐 심각한 오차 누적을 초래한다. 우리는 강건하고 적응적인 인버전을 위한 투영-직교 최소제곱법(POLARIS)을 제안하며, 이를 통해 인버전 문제를 오차 보정 문제에서 오차 원인 규명 문제로 재정립한다. 임베딩이나 잠재 코드를 최적화하여 누적된 오차를 상쇄하는 기존 방식과 달리, POLARIS는 guidance scale ω를 단계별 변수로 간주하고 각 단계에서 인버전 오차를 최소화하기 위한 수학적으로 타당한 공식을 도출한다. 주목할 점은 POLARIS가 단 한 줄의 코드 수정만으로도 인버전 잠재 공간의 품질을 향상시킨다는 것이다. 미미한 성능 오버헤드만으로도 노이즈 근사 오차를 상당히 완화하며 다운스트림 작업의 정확도를 지속적으로 개선한다.
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 향상시켜, 효과적인 다중 턴 및 도구 통합 추론을 수행하는 자율 에이전트를 가능하게 하였습니다. 지시문은 에이전트를 정의하는 주요 프로토콜로 작용하지만, RLVR는 일반적으로 정적이고 수동으로 설계된 지시문에 의존합니다. 그러나 이러한 지시문은 기본 모델에 대해 최적이 아닐 수 있으며, 최적의 지시문은 에이전트의 정책이 개선되고 환경과의 상호작용을 탐색함에 따라 변화할 수 있습니다. 이러한 격차를 해결하기 위해 우리는 지시문 최적화를 강화 학습(RL) 루프의 동적 구성 요소로 통합하는 새로운 지시문-정책 공진화(INSPO) 프레임워크를 소개합니다. INSPO는 질문과 함께 샘플링되는 동적 지시문 후보 집단을 유지하며, RL 루프의 보상 신호가 각 지시문에 자동으로 귀속되고 성능이 낮은 후보는 주기적으로 제거됩니다. 새로운 지시문은 온-정책 반성 메커니즘을 통해 생성 및 검증되는데, 여기서 LLM 기반 최적화기는 재생 버퍼에서 과거 경험을 분석하고 현재 정책을 고려하여 더 효과적인 전략을 진화시킵니다. 우리는 다중 턴 검색 및 추론 과제에 대한 광범위한 실험을 수행하여 INSPO가 정적 지시문에 의존하는 강력한 베이스라인을 크게 능가함을 입증했습니다. INSPO는 에이전트를 보다 전략적인 추론 경로로 이끌는 혁신적인 지시문을 발견하여, 계산 오버헤드의 미미한 증가만으로도 상당한 성능 향상을 달성합니다.
전문 임상 AI 어시스턴트가 의료 현장에 빠르게 도입되며 범용 대규모 언어 모델(LLM)보다 안전하거나 신뢰할 수 있다는 프레임으로 소개되고 있다. 그러나 최첨단 모델과 달리, 이러한 임상 도구는 진단, 환자 분류, 지침 해석에 미치는 영향력이 커짐에도 불구하고 독립적인 정량적 평가를 거의 받지 않아 중요한 증거 격차가 존재한다. 우리는 MedQA(의학 지식)와 HealthBench(임상의 협의) 과제를 결합한 1,000개 항목의 소규모 벤치마크를 사용하여 널리 보급된 두 가지 임상 AI 시스템(OpenEvidence 및 UpToDate Expert AI)을 세 가지 최신 범용 LLM(GPT-5, Gemini 3 Pro, Claude Sonnet 4.5)과 비교 평가했다. 범용 모델이 임상 도구보다 지속적으로 우수한 성능을 보였으며, GPT-5가 가장 높은 점수를 획득했다. 반면 OpenEvidence와 UpToDate는 완전성, 의사소통 품질, 상황 인식, 시스템 기반 안전 추론 측면에서 부족함을 보였다. 이러한 결과는 임상 의사결정 지원을 위해 마케팅되는 도구들이 종종 최첨단 LLM보다 뒤처질 수 있음을 보여주며, 환자 대면 업무 프로세스에 배포하기 전에 투명하고 독립적인 평가의 시급한 필요성을 강조한다.
테스트 타임 스케일링(TTS), 즉 추론 과정에서 계산 자원을 동적으로 할당하는 방식은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 유망한 방향성입니다. 그러나 동일한 조건에서 잘 알려진 TTS 전략들을 체계적으로 비교한 연구는 부재하며, 모델 유형과 문제 난이도가 성능에 미치는 영향도 여전히 불분명합니다. 이러한 공백을 해소하기 위해 우리는 4개의 추론 데이터셋에 대해 8개의 오픈소스 LLM(70억~2350억 개의 매개변수)을 사용하여 생성된 300억 개 이상의 토큰을 아우르는 첫 대규모 TTS 연구를 수행했습니다. 우리는 세 가지 일관된 경향성을 관찰했습니다: (1) 단일 TTS 전략이 모든 상황을 압도하지는 않음; (2) 추론 모델들은 문제 난이도와 추론 궤적 길이에 따라 서로 다른 궤적 품질 패턴을 보이며, 단기 계획형과 장기 계획형 범주로 구분됨; (3) 주어진 모델 유형에 대해 최적의 TTS 성능은 계산 예산에 따라 단조롭게 증가함. 이러한 통찰을 바탕으로 우리는 문제 난이도, 모델 유형, 계산 예산을 고려하여 최적의 TTS 전략을 선택하는 실용적인 방안을 제시하며, 효과적인 추론 시점 스케일링을 위한 실용 가이드를 제공합니다.
최근 이미지 편집 모델은 인지 및 창의성에 기반한 이미지 편집을 용이하게 하는 차세대 지능형 능력을 자랑합니다. 그러나 기존 벤치마크는 평가 범위가 지나치게 제한적이어서 이러한 고급 능력을 종합적으로 평가하지 못하고 있습니다. 이를 해결하기 위해 우리는 깊은 과제 심도와 넓은 지식 폭을 특징으로 하는, 인지 및 창의성 기반 이미지 편집의 종합적 평가를 위한 지식 집약적 벤치마크인 WiseEdit를 소개합니다. 인간의 인지적 창작 과정에 비유하여, WiseEdit는 이미지 편집을 인지(Awareness), 해석(Interpretation), 상상(Imagination)이라는 세 단계의 연속적 과정으로 분해하며, 각 단계는 특정 단계에서 모델이 완수하기 어려운 과제에 해당합니다. 또한 세 단계 중 그 어느 것도 쉽게 완료될 수 없는 복합 과제도 포함합니다. 더 나아가 WiseEdit는 세 가지 기본 지식 유형인 선언적 지식(Declarative Knowledge), 절차적 지식(Procedural Knowledge), 메타인지 지식(Metacognitive Knowledge)을 통합합니다. 결국 WiseEdit는 1,220개의 테스트 케이스로 구성되어 있으며, 최첨단(SoTA) 이미지 편집 모델들의 지식 기반 인지 추론 및 창의적 구성 능력의 한계를 객관적으로 드러냅니다. 벤치마크, 평가 코드, 각 모델별 생성 이미지는 곧 공개될 예정입니다. 프로젝트 페이지: https://qnancy.github.io/wiseedit_project_page/.
기존의 카메라 제어 기반 비디오 생성 모델은 영화적 결과물을 생성할 수 있으나, 이를 3D 일관성과 높은 정밀도를 갖는 시간 동기화 다중 뷰 비디오 생성으로 직접 확장하는 것은 여전히 어려운 과제입니다. 이는 4D 세계를 제어하기 위한 핵심 능력입니다. 일부 연구에서는 데이터 증강이나 테스트 시간 최적화를 활용하지만, 이러한 전략은 제한된 모델 일반화 성능과 확장성 문제로 인해 한계가 있습니다. 이를 위해 우리는 ChronosObserver를 제안합니다. 이는 훈련이 필요 없는 방법으로, 4D 월드 장면의 시공간적 제약 조건을 표현하는 World State Hyperspace와 이 하이퍼스페이스를 활용하여 다중 뷰의 확산 샘플링 궤적을 동기화하는 Hyperspace Guided Sampling을 포함합니다. 실험 결과, 우리의 방법이 확산 모델에 대한 추가 훈련이나 미세 조정 없이도 높은 정밀도와 3D 일관성을 갖는 시간 동기화 다중 뷰 비디오 생성을 달성함을 보여줍니다.
기존의 연산자 선택, 이산화, 고유솔버가 필요 없는 새로운 프레임워크를 제안합니다. 이 프레임워크는 비정형 데이터로부터 형상 및 다양체 분석을 위한 스펙트럼 기저를 직접 학습합니다. 최적 근사 이론에 기반하여, 우리는 선택된 프로브 함수 분포 상에서 학습된 기저의 재구성 오차를 최소화함으로써 암묵적 근사 연산자를 분해하도록 네트워크를 학습시킵니다. 적절한 분포 하에서 이는 기하 처리에서 핵심적인 라플라시안 연산자와 그 고유분해의 근사로 볼 수 있습니다. 더 나아가 우리의 방법은 스펙트럼 기저뿐만 아니라 암묵적 계량의 샘플링 밀도와 기저 연산자의 고유값을 통합적으로 복원합니다. 특히, 우리의 비지도 학습 방법은 메싱이나 다양체 차원성과 같은 데이터 다양체에 대한 가정을 하지 않아 임의의 차원을 가진 데이터셋으로 확장 가능합니다. 3차원 표면 및 고차원 이미지 다양체 상의 점군에 대해 우리의 접근법은 명시적인 연산자 구축 없이도 라플라시안의 스펙트럼 기저와 유의미하게 유사한 의미 있는 기저를 생성합니다. 기존의 연산자 선택, 구축, 고유분해 파이프라인을 학습 기반 접근법으로 대체함으로써, 우리의 프레임워크는 원칙적인 데이터 주도형 대안을 제공합니다. 이는 특히 고차원 공간에서 비정형 데이터에 대한 기하 처리에 새로운 가능성을 열어줍니다.
컴퓨터 비전의 오랜 목표 중 하나는 동영상으로부터 운동을 모델링하는 것이지만, 운동 뒤에 숨겨진 표현, 즉 물체의 변형과 이동을 유발하는 보이지 않는 물리적 상호작용은 여전히 크게 탐구되지 않고 있습니다. 본 논문에서는 낙엽이 땅에 떨어지는 것을 관찰하여 바람의 흐름을 추정하는 것과 같이 시각적 관찰로부터 보이지 않는 힘을 복원하는 방법을 연구합니다. 우리의 핵심 혁신은 객체 기하학, 물리적 속성 및 상호작용을 동영상으로부터 직접 공동 모델링하는 end-to-end 미분 가능 역그래픽스 프레임워크입니다. 역전파를 통해 우리의 접근 방식은 객체 운동으로부터 힘 표현을 복원할 수 있게 합니다. 우리는 합성 및 실제 시나리오에서 우리 방법을 검증하였으며, 그 결과 동영상으로부터 타당한 힘장을 추론하는 능력을 입증했습니다. 나아가 물리 기반 동영상 생성 및 편집을 포함한 우리 접근법의 잠재적 응용 분야를 보여줍니다. 우리는 이 연구가 픽셀 뒤에 숨겨진 물리적 과정을 이해하고 모델링하며 비전과 물리학 간의 간극을 좁히는 데 기여하기를 바랍니다. 더 많은 동영상 결과는 https://chaoren2357.github.io/seeingthewind/{프로젝트 페이지}에서 확인하시기 바랍니다.
대규모 언어 모델이 고자원 다국어 작업에서는 우수한 성능을 보이지만, 저자원 및 극저자원 인도 언어들은 여전히 심각하게 평가가 부족한 실정입니다. 본 논문은 이러한 언어 11개(저자원: 네팔어, 구자라트어, 마라티어, 오디아어 / 극저원: 도그리어, 마이틸리어, 라자스탄어, 산스크리트어, 보도어, 산탈리어, 콘칸어)와 산스크리트어-영어 코드 혼합 세트를 포함하여 인간이 직접 선별한 13,000개 이상의 객관식 질문으로 구성된 벤치마크인 IndicParam을 소개합니다. 사유 및 오픈 가중치 모델을 포함한 19개의 LLM을 평가한 결과, 최고 성능을 보인 GPT-5도 평균 정확도가 45.0%에 그쳤으며,其后를 DeepSeek-3.2(43.1%), Claude-4.5(42.7%)가 따랐습니다. 또한 각 질문을 지식 중심과 순수 언어학적으로 분류하여 사실 기억력과 문법 능력을 구별했습니다. 더 나아가 기존의 객관식 질문과 함께 목록 기반 매칭, 주장-근거 쌍, 순서 배열 등 다양한 질문 형식을 LLM이 처리하는 능력을 평가합니다. IndicParam은 언어 간 전이의 한계에 대한 통찰을 제공하고 인도 언어에 대한 도전적인 벤치마크를确立합니다. 데이터 세트는 https://huggingface.co/datasets/bharatgenai/IndicParam에서 확인할 수 있으며, 벤치마크 실행 스크립트는 https://github.com/ayushbits/IndicParam에서 확인할 수 있습니다.
기존 스토리 시각화 방법론은 주체의 위치를 텍스트에만 의존하여 설정하는 경향이 있어 예술적 일관성 유지에 어려움을 겪습니다. 이러한 한계를 해결하기 위해 본 논문에서는 레이아웃 인식 스토리 시각화 프레임워크인 DreamingComics를 제안합니다. 우리는 사전 학습된 비디오 디퓨전-트랜스포머(DiT) 모델을 기반으로 하여, 해당 모델의 시공간적 사전 지식을 활용해 개체 식별성과 스타일 일관성을 향상시켰습니다. 레이아웃 기반 위치 제어를 위해 RegionalRoPE를 제안하는데, 이는 대상 레이아웃에 따라 임베딩을 재구성하는 영역 인식 위치 인코딩 기법입니다. 또한 마스크 조건 손실을 도입하여 각 주체의 시각적 특징이 지정된 영역에 제약을 받도록 추가적으로 강화했습니다. 자연어 스크립트로부터 레이아웃을 추론하기 위해 만화 스타일 레이아웃 생성을 학습한 LLM 기반 레이아웃 생성기를 통합하여 유연하고 제어 가능한 레이아웃 조건 설정을 가능하게 했습니다. 종합적 평가를 통해 기존 방법 대비 캐릭터 일관성은 29.2%, 스타일 유사도는 36.2% 향상되었음을 보여주면서 높은 공간 정확도를 입증했습니다. 프로젝트 페이지는 https://yj7082126.github.io/dreamingcomics/에서 확인할 수 있습니다.
인과적 사고는 인간으로 하여금 단순히 관찰되는 현상이 아닌 그 발생 원인을 이해할 수 있게 합니다. 현대 AI 시스템에서 이러한 능력을 재현하기 위해 우리는 시각적 인과관계 발견 과제를 소개합니다. 이 과제는 모델이 다양한 시나리오에서 시각적 개체들의 존재를 단순히 인지하는 것을 넘어 그들 간의 원인-결과 관계를 추론하도록 요구합니다. 이를 위해 우리는 먼저 32,000장 이상의 이미지로 구성된 대규모 데이터셋인 VCG-32K를 구축하였으며, 여기에는 개체 수준의 인과관계 그래프 주석이 달려 있습니다. 더 나아가 인과 인식 추론을 통해 시각적 인과관계 발견을 수행하는 새로운 vision-language 모델인 CauSight를 개발했습니다. 우리의 훈련 방법론은 세 가지 구성 요소를 통합합니다: (1) VCG-32K의 훈련 데이터 큐레이션, (2) 추론 경로 합성을 위한 Tree-of-Causal-Thought(ToCT), (3) 추론 정책을 개선하기 위해 설계된 인과 보상과의 강화 학습. 실험 결과, CauSight는 시각적 인과관계 발견 과제에서 GPT-4.1을 능가하며 3배 이상의 성능 향상(21% 절대적 향상)을 달성했습니다. 우리의 코드, 모델 및 데이터셋은 프로젝트 페이지(https://github.com/OpenCausaLab/CauSight)에서 완전히 오픈소스로 공개됩니다.
최근 지식 기반 자율주행(AD) 패러다임의 발전을 위해 지도 미세조정(SFT)을 통해 핵심 주행 지식을 습득하고, 강화 미세조정(RFT)을 통해 의사결정 및 계획 능력을 추가로 향상시키는 2단계 미세조정 전략이 강력한 잠재력을 보여주고 있습니다. 그러나 SFT의 학습 특성은 여전히 추론의 일반화를 제한하여 주행 성능의 전체 잠재력을 억제하고 있습니다. 한편, 현재의 RFT 접근법은 장면 이해가 해당 보상을 정량화하기 어려운 개방형 문제이기 때문에 주로 하류 작업에 적용되고 있습니다. 이러한 한계를 해결하기 위해 본 연구에서는 상위 수준의 추론부터 하위 수준의 경로 계획에 이르는 전체 영역에서 종단간 RFT를 가능하게 하는 개방형 추론 강화 비전-언어 모델(VLM) 기반 자율주행 프레임워크인 OpenREAD를 제안합니다. 구체적으로, 우리는 먼저 오픈소스 주행 관련 지식 데이터셋에 대규모 사고 연쇄(CoT) 주석을 구축하고, 강력한 Qwen3 대형 언어 모델(LLM)을 RFT의 비평가로 활용하여 보상 모델링 과정에서 개방형 질문에 대한 추론 품질을 정량화합니다. 폭넓은 실험을 통해 종단간 RFT의 공동 적용이 상류 및 하류 작업 모두에서 상당한 성능 향상을 가져오며, OpenREAD가 추론 및 계획 벤치마크에서 최첨단 성능을 달성할 수 있음을 확인했습니다.
오픈소스 텍스트 전용 번역 대규모 언어 모델(LLM)의 언어 커버리지와 품질이 크게 향상되었습니다. 그러나 이러한 모델은 음성 번역(ST)에 활용할 때 자동 음성 인식을 먼저 수행한 후 번역을 하는 캐스케이드 파이프라인으로만 사용될 수 있습니다. 이는 추가적인 대기 시간을 초래하며, 특히 동시 음성 번역(SimulST)에서 중요하게 작용하고, 모호성 해소에 도움이 될 수 있는 이미지와 같은 다중 모달 컨텍스트를 활용하는 것을 방해합니다. 사전 훈련된 다중 모달 기반 모델(MMFM)은 여러 모달에 걸쳐 강력한 인지 및 추론 능력을 보유하고 있지만, 일반적으로 전용 번역 LLM의 다국어 커버리지와 전문적인 번역 성능이 부족합니다. 효과적인 다중 모달 번역 시스템을 구축하기 위해, 우리는 MMFM과 번역 LLM을 융합하는 종단 간 접근법을 제안합니다. 우리는 사전 훈련된 MMFM의 여러 계층에서 나온 은닉 상태를 번역 LLM에 연결하여 공동의 종단 간 훈련을 가능하게 하는 새로운 융합 전략을 소개합니다. MMFM으로 Omni 2.5-7B를, 번역 LLM으로 SeedX PPO-7B를 기반으로 구축된 결과 모델인 OmniFusion은 음성-텍스트, 음성-이미지-텍스트, 텍스트-이미지-텍스트 번역을 수행할 수 있습니다. 실험 결과, OmniFusion은 오디오와 시각 입력을 효과적으로 활용하며, SimulST에서 캐스케이드 파이프라인 대비 1초의 대기 시간 감소를 달성하고 전반적인 번역 품질도 향상시킴을 보여줍니다. 코드는 https://github.com/saikoneru/OmniFusion 에서 이용할 수 있습니다.
카메라와 객체 운동은 비디오 내러티브의 핵심 요소입니다. 그러나 촬영된 이러한 운동을 정밀하게 편집하는 것은 여전히 큰 과제로 남아있으며, 특히 복잡한 객체 운동 하에서 더욱 그렇습니다. 현재의 운동 제어 이미지-투-비디오(I2V) 접근법은 일관된 비디오 편집을 위한 전체 장면 맥락을 종종 결여하는 반면, 비디오-투-비디오(V2V) 방법은 시점 변경이나 기본적인 객체 이동을 제공하지만, 세밀한 객체 운동에 대한 제어는 제한적입니다. 본 논문에서는 카메라와 객체 운동의 통합 편집을 가능하게 하는 트랙 기반 V2V 프레임워크를 제안합니다. 비디오 생성 모델에 소스 비디오와 소스 및 대상 운동을 나타내는 짝을 이룬 3D 포인트 트랙을 조건으로 제공하여 이를 달성합니다. 이러한 3D 트랙은 희소 대응 관계를 설정하여 소스 비디오의 풍부한 맥락을 새로운 운동으로 전달하면서 시공간적 일관성을 보존합니다. 중요한 것은, 2D 트랙과 비교하여 3D 트랙은 명시적인 깊이 정보를 제공함으로써 모델이 깊이 순서를 해결하고 폐색을 처리하여 정확한 운동 편집을 가능하게 합니다. 합성 및 실제 데이터에 대한 2단계 학습을 통해, 우리의 모델은 카메라/객체 통합 조작, 운동 전달, 비강체 변형 등 다양한 운동 편집을 지원하여 비디오 편집에 새로운 창의적 잠재력을 열어줍니다.
전 세계적으로 갑상선암의 유병률이 증가함에 따라 다양한 컴퓨터 보조 검출 방법이 개발되고 있다. 갑상선 결절의 정확한 분할은 인공지능 기반 임상 의사결정 지원 시스템 개발에 있어 중요한 첫 단계이다. 본 연구는 초음파 영상에서 YOLOv5 알고리즘을 이용한 갑상선 결절의 인스턴스 분할에 중점을 둔다. 우리는 도플러 영상 포함 및 미포함 두 가지 데이터셋 버전에 대해 여러 YOLOv5 변종(Nano, Small, Medium, Large, XLarge)을 평가하였다. YOLOv5-Large 알고리즘은 도플러 영상을 포함한 데이터셋에서 91%의 Dice 점수와 0.87의 mAP로 가장 높은 성능을 달성했다. 특히, 의사들이 일반적으로 제외하는 도플러 영상이 분할 성능을 크게 향상시킬 수 있음을 결과를 통해 확인했다. 도플러 영상을 제외했을 때 YOLOv5-Small 모델의 Dice 점수는 79%였으나, 이를 포함시킴으로써 모든 모델 변종에서 성능이 개선되었다. 이러한 결과는 YOLOv5를 이용한 인스턴스 분할이 갑상선 결절 검출을 위한 효과적인 실시간 접근법을 제공하며, 자동화 진단 시스템에 임상적으로 적용될 잠재력이 있음을 시사한다.
LibriBrain 2025 PNPL 경쟁을 위한 Conformer 기반 디코더를 제안하며, 두 가지 기본 MEG 과제인 음성 감지(Speech Detection)와 음소 분류(Phoneme Classification)를 대상으로 합니다. 우리의 접근법은 경량 컨볼루션 투사 계층과 과제별 헤드를 사용하여 소형 Conformer를 306채널 원시 MEG 신호에 적용합니다. 음성 감지 과제를 위해 MEG에 특화된 SpecAugment를 도입하여 MEG 전용 증강 기법을 최초로 탐구했습니다. 음소 분류 과제에서는 100개 샘플이 평균된 예시를 처리하기 위해 제곱근 역수 클래스 가중치와 동적 그룹핑 로더를 사용했습니다. 또한, 간단한 인스턴스 수준 정규화가 홀드아웃 세트에서의 분포 변화를 완화하는 데 결정적으로 중요함을 입증했습니다. 공식 Standard 트랙 분할과 F1-macro 점수를 모델 선택 기준으로 사용하여, 우리의 최고 시스템은 리더보드에서 각각 88.9%(음성 감지)와 65.8%(음소 분류)의 성능을 달성했습니다. 이는 대회 기준선을 능가하며 두 과제 모두 상위 10위 안에 순위를 기록했습니다. 추가 구현 세부 사항, 기술 문서, 소스 코드 및 체크포인트는 https://github.com/neural2speech/libribrain-experiments에서 확인할 수 있습니다.
비즈니스 프로세스 모델 및 표기법(BPMN)은 복잡한 비즈니스 워크플로를 표현하기 위해 널리 채택된 표준입니다. BPMN 다이어그램은 시각적 이미지로 교환되는 경우가 많지만, 기존의 계산적 분석 방법은 주로 XML 표현에 의존해 왔습니다. 본 연구에서는 시각-언어 모델(VLM)을 활용하여 소스 모델 파일이나 텍스트 주석 없이도 이미지로부터 직접 BPMN 다이어그램의 구조화된 JSON 표현을 추출하는 파이프라인을 제시합니다. 또한 텍스트 보강을 위해 광학 문자 인식(OCR)을 통합하고, 생성된 요소 목록을 소스 XML 파일에서 도출된 실제 데이터와 비교하여 평가합니다. 우리의 접근 방식은 원본 소스 파일을 사용할 수 없는 시나리오에서도 강력한 구성 요소 추출을 가능하게 합니다. 여러 VLM을 벤치마킹한 결과, 텍스트 보강을 위해 OCR을 사용할 때 여러 모델에서 성능 향상을 관찰했습니다. 또한 OCR 기반 보강 방법과 프롬프트 제거(ablation) 연구에 대한 광범위한 통계 분석을 수행하여 모델 성능에 미치는 영향을 보다 명확히 이해할 수 있도록 했습니다.