번역이 포함된 일일 선별된 AI 연구 논문
최첨단 비디오 생성 모델은 일반적으로 VAE 공간 내 비디오 잠재 변수의 분포를 학습하고 VAE 디코더를 사용해 픽셀로 매핑합니다. 이러한 접근 방식은 고품질 비디오를 생성할 수 있지만, 수렴 속도가 느리고 긴 비디오를 생성할 때 계산 비용이 많이 든다는 한계가 있습니다. 본 논문에서는 이러한 한계를 해결하기 위해 의미 공간에서 비디오를 생성하는 새로운 솔루션인 SemanticGen을 소개합니다. 우리의 주요 통찰은 비디오의 내재적 중복성으로 인해 생성 과정이 방대한 양의 저수준 비디오 토큰을 양방향 주의를 사용해 직접 모델링하기보다는, 전역 계획을 위해 컴팩트한 고수준 의미 공간에서 시작된 후 고주파 세부 정보를 추가하는 방식이어야 한다는 점입니다. SemanticGen은 두 단계의 생성 과정을 채택합니다. 첫 번째 단계에서는 확산 모델이 비디오의 전역 레이아웃을 정의하는 컴팩트한 의미 비디오 특징을 생성합니다. 두 번째 단계에서는 다른 확산 모델이 이러한 의미 특징에 조건부로 VAE 잠재 변수를 생성하여 최종 출력을 생성합니다. 우리는 의미 공간에서의 생성이 VAE 잠재 공간 대비 더 빠른 수렴으로 이어진다는 것을 관찰했습니다. 또한 우리의 방법은 긴 비디오 생성으로 확장되었을 때도 효과적이고 계산적으로 효율적입니다. 대규모 실험을 통해 SemanticGen이 고품질 비디오를 생성하며 최첨단 접근법과 강력한 베이스라인을 능가함을 입증했습니다.
기존 강화학습(RL) 접근법은 대규모 언어 모델(LLM)을 단일 통합 정책으로 취급하여 내부 메커니즘을 간과해왔습니다. 따라서 계층과 모듈 간 정책이 어떻게 진화하는지 이해하는 것은 보다 표적화된 최적화를 가능하게 하고 복잡한 추론 메커니즘을 해명하는 데 중요합니다. 본 논문에서는 Transformer 잔차 스트림의 내재적 분할과 은닉 상태와 언임베딩 행렬의 구성이 결과적으로 샘플링 가능한 정책과 동등하다는 점을 활용하여 언어 모델 정책을 분해합니다. 이 분해를 통해 개별 계층의 기여에 해당하는 내부 계층 정책과 각 계층 내 자기 주의력 및 피드포워드 네트워크(FFN) 구성 요소와 일치하는 내부 모듈러 정책을 발견합니다. 내부 정책의 엔트로피를 분석한 결과 다음과 같은 사실을 확인했습니다: (a) 초기 계층은 탐색을 위해 높은 엔트로피를 유지하고, 상위 계층은 정교화를 위해 거의 제로에 가까운 엔트로피로 수렴하며, 수렴 패턴은 모델 시리즈에 따라 다양합니다. (b) LLama의 예측 공간은 최종 계층에서 급격히 수렴하는 반면, Qwen 시리즈 모델, 특히 Qwen3는 보다 인간과 유사한 점진적 구조의 추론 패턴을 보입니다. 이러한 발견에 기반하여, 우리는 조기 훈련期間 동안 내부 계층 정책을 직접 최적화하는 새로운 RL 패러다임인 Bottom-up Policy Optimization(BuPO)을 제안합니다. 하위 계층의 훈련 목표를 정렬함으로써, BuPO는 기초 추론 능력을 재구성하고 우수한 성능을 달성합니다. 복잡한 추론 벤치마크에 대한 광범위한 실험을 통해 우리 방법의 효과성을 입증합니다. 우리의 코드는 https://github.com/Trae1ounG/BuPO에서 확인할 수 있습니다.
최근 멀티모달 LLM과 도구를 활용한 장편 비디오 질의응답 시스템의 발전은 한 시간 이상의 에피소드에 대한 추론 가능성을 보여주고 있습니다. 그러나 많은 방법론이 여전히 콘텐츠를 손실 압축된 요약본으로 축소하거나 제한된 도구 세트에 의존함으로써 시간적 정확성을 약화시키고 세밀한 단서를 놓치고 있습니다. 우리는 마스터 LLM이 질의 관련 세그먼트를 지역화하는 그라운딩 에이전트와 표적 텍스트 관측값을 추출하는 비전 에이전트를 조정하는 다중 에이전트 프레임워크를 제안합니다. 마스터 에이전트는 단계 제한을 두고 계획을 수립하며, 간결하고 정확하며 효율적인 다중 에이전트 협력을 장려하기 위해 강화 학습으로 훈련됩니다. 이 설계는 마스터 에이전트가 그라운딩을 통해 관련 클립에 집중하도록 돕고, 자막을 시각적 세부 사항으로 보완하며, 해석 가능한 궤적을 생성합니다. TVQA/TVQA+에서 집계된 에피소드 수준 데이터셋인 우리가 제안한 LongTVQA 및 LongTVQA+에서 우리의 다중 에이전트 시스템은 강력한 비-에이전트 베이스라인을 크게 능가합니다. 실험 결과는 강화 학습이 훈련된 에이전트의 추론 및 계획 능력을 추가로 강화함을 보여줍니다. 코드와 데이터는 https://longvideoagent.github.io/에서 공유될 예정입니다.
인지과학에 따르면 공간 능력은 지각에서 추론 및 상호작용에 이르기까지 점진적으로 발달합니다. 그러나 다중모드 대형언어모델(MLLM)에서는 대부분의 연구가 제한된 과업 집단에 집중함에 따라 이러한 위계 구조에 대한 이해가 여전히 부족합니다. 본 연구에서는 공간 능력을 4단계—저수준 지각(L1), 심성 지도 구성(L2), 시뮬레이션(L3), 주체적 능력(L4)—로 체계화한 인지과학 기반 위계 구조인 SpatialTree를 제안합니다. 이 분류 체계를 바탕으로 역량 중심의 최초 위계적 벤치마크를 구축하여 주류 MLLM 27개를 27가지 하위 능력에 걸쳐 철저히 평가했습니다. 평가 결과 명확한 구조가 드러났습니다: L1 기술은 대체로 독립적인 반면, 고수준 기술은 강한 상관관계를 보여 점증적 상호의존성을 확인했습니다. 대상 지도 미세조정을 통해 흥미로운 전이 역학을 발견했는데, L1 내에서는 부정적 전이가 발생한 반면 저수준에서 고수준 능력으로의 강한 교차 수준 전이와 뚜렷한 시너지 효과가 관찰되었습니다. 마지막으로 위계 전체의 개선 방안을 탐구했습니다. 광범위한 "사고"를 유도하는 단순 강화학습은 복잡한 추론에는 도움이 되지만 직관적 지각에는 오히려 방해가 되어 신뢰할 수 없음을 확인했습니다. 우리는 불필요한 고민을 억제하는 간단한 자동 사고 전략을 제안하여 강화학습이 모든 수준에서 일관되게 성능을 향상시키도록 했습니다. SpatialTree 구축을 통해 MLLM의 공간 능력을 이해하고 체계적으로 확장하기 위한 개념 검증 프레임워크를 제공합니다.
자기 진화 메모리 시스템은 대규모 언어 모델(LLM) 기반 에이전트의 진화 패러다임을 전례 없이 재편하고 있다. 기존 연구는 주로 수동으로 설계된 메모리 아키텍처에 의존하여 행동 궤적을 저장하고, 경험을 정제하며, 재사용 가능한 도구를 합성함으로써 에이전트가 환경 상호작용 속에서 즉시 진화할 수 있도록 했다. 그러나 이러한 패러다임은 메모리 시스템 자체의 정적 특성에 의해 근본적으로 제한된다. 즉, 메모리가 에이전트 수준의 진화를 용이하게 하는 반면, 기반이 되는 메모리 아키텍처는 다양한 작업 맥락에 맞게 메타 적응될 수 없다. 이러한 격차를 해결하기 위해 우리는 에이전트의 경험적 지식과 메모리 아키텍처를 공동으로 진화시켜, 에이전트 시스템이 경험을 축적할 뿐만 아니라 그로부터 학습하는 방식을 점진적으로 개선할 수 있도록 하는 메타 진화 프레임워크인 MemEvolve를 제안한다. MemEvolve를 선행 연구에 기반을 두고 미래 자기 진화 시스템의 개방성을 촉진하기 위해, 우리는 12개의 대표적인 메모리 시스템을 모듈식 설계 공간(인코드, 저장, 검색, 관리)으로 정제한 통합 자기 진화 메모리 코드베이스인 EvolveLab을 소개한다. 이는 표준화된 구현 기반과 공정한 실험 장을 동시에 제공한다. 4가지 도전적인 에이전트 벤치마크에 대한 포괄적인 평가를 통해 MemEvolve가 (I) SmolAgent 및 Flash-Searcher와 같은 프레임워크를 최대 17.06% 향상시키는 상당한 성능 이득을 달성하고, (II) 다양한 벤치마크와 백본 모델을 효과적으로 전이하는 메모리 아키텍처를 설계하는 강력한 교차 작업 및 교차 LLM 일반화 능력을 보여줌을 입증한다.
대규모 언어 모델(LLM) 기반 에이전트는 복잡한 추론 및 다중 턴 상호작용에서 뛰어난 능력을 보여주지만, 새로운 환경에 배포될 때 지속적인 개선과 적응에는 어려움을 겪습니다. 이러한 문제를 해결하기 위한 유망한 접근법 중 하나는 에이전트가 새로운 스킬을 학습, 검증 및 적용할 수 있도록 하는 스킬 라이브러리를 구현하는 것입니다. 그러나 현재의 스킬 라이브러리 접근법은 주로 LLM 프롬프팅에 의존하여 일관된 스킬 라이브러리 구현이 어려운 실정입니다. 이러한 한계를 극복하기 위해 본 연구에서는 스킬 라이브러리를 통한 에이전트의 자기 개선 능력을 강화하기 위한 강화 학습(RL) 기반 접근법을 제안합니다. 구체적으로, 우리는 스킬을 체계적으로 학습에 통합하는 새로운 RL 프레임워크인 자기 진화를 위한 스킬 증강 GRPO(SAGE)를 소개합니다. 이 프레임워크의 핵심 구성 요소인 순차적 롤아웃은 각 롤아웃마다 유사한 작업들로 구성된 체인에 에이전트를 반복적으로 배포합니다. 에이전트가 작업 체인을 진행함에 따라, 이전 작업에서 생성된 스킬들이 라이브러리에 누적되어 후속 작업에서 활용 가능해집니다. 또한, 본 프레임워크는 기존 결과 기반 보상을 보완하는 스킬 통합 보상을 통해 스킬 생성 및 활용을 향상시킵니다. AppWorld에서의 실험 결과, 전문가 경험이 반영된 지도 미세조정 모델에 SAGE를 적용했을 시나리오 목표 완수율이 8.9% 향상되었으며, 상호작용 단계는 26%, 생성된 토큰 수는 59% 각각 감소하여 정확도와 효율성 모두에서 기존 접근법을 크게 능가하는 것으로 나타났습니다.
LLM이 자율 에이전트로 전환됨에 따라 딥 리서치(Deep Research)가 핵심 평가 지표로 부상하고 있습니다. 그러나 BrowseComp와 같은 기존 학술 벤치마크는 의도 인식, 장기적 의사 결정, 교차 출처 검증 등 강력한 기술을 요구하는 개방형 리서치의 실제 수요를 충족시키지 못하는 경우가 많습니다. 이를 해결하기 위해 우리는 비용 효율적인 엔드투엔드(end-to-end) 에이전트인 Step-DeepResearch를 소개합니다. 계획 수립과 보고서 작성 능력을 강화하기 위해 원자적 역량 기반 데이터 합성 전략을 제안하며, 이는 에이전트 중간 훈련(agentic mid-training)부터 SFT, RL에 이르는 점진적 훈련 경로와 결합됩니다. 체크리스트 방식 판단 모듈(Checklist-style Judger)로 강화된 이 접근법은 견고성을 크게 향상시킵니다. 나아가 중국어 영역의 평가 격차를 해소하기 위해 현실적인 딥 리서치 시나리오를 위한 ADR-Bench를 구축했습니다. 실험 결과, Step-DeepResearch(32B)는 Scale AI Research Rubrics에서 61.4%의 점수를 기록했습니다. ADR-Bench에서는 비교 가능 모델들을 크게 앞섰으며, OpenAI 및 Gemini DeepResearch와 같은 최첨단 폐쇄형 모델들과도 경쟁력을 보였습니다. 이러한 결과는 정교한 훈련을 통해 중형 모델이 산업을 선도하는 수준의 비용 효율성으로 전문가 수준의 역량을 달성할 수 있음을 입증합니다.
일반 오디오 소스 분리는 사운드를 인지하고 추론할 수 있는 멀티모달 AI 시스템의 핵심 능력입니다. 최근 몇 년간 상당한 진전이 있었음에도 불구하고, 기존 분리 모델들은 음성이나 음악과 같은 고정된 범주를 위한 도메인 특화형이거나, 텍스트와 같은 단일 프롬프트 방식만 지원하여 제어 가능성이 제한적입니다. 본 연구에서는 단일 프레임워크 내에서 텍스트, 시각, 시간 범위 프롬프팅을 통합한 일반 오디오 분리 기반 모델인 SAM 오디오를 제안합니다. 디퓨전 트랜스포머 아키텍처를 기반으로 구축된 SAM 오디오는 음성, 음악, 일반 사운드를 아우르는 대규모 오디오 데이터에 대해 플로우 매칭을 통해 훈련되었으며, 언어, 시각적 마스크 또는 시간 범위로 설명된 대상 소스를 유연하게 분리할 수 있습니다. 본 모델은 일반 사운드, 음성, 음악, 악기 분리 등 다양한 벤치마크에서 실제 환경 및 전문 제작 오디오 모두에서 최첨단 성능을 달성하여 기존의 범용 및 특화 시스템을 크게 능가합니다. 더 나아가, 인간이 레이블을 지정한 멀티모달 프롬프트가 포함된 새로운 실제 분리 벤치마크와 인간의 판단과 강한 상관관계를 보이는 참조 없는 평가 모델을 도입합니다.
저희는 종단간 RL 인프라 스택을 통해 대규모 강화학습으로 학습된 106B 파라미터 MoE(전문가 혼합) 모델(활성 파라미터 12B)인 INTELLECT-3를 소개합니다. INTELLECT-3는 수학, 코드, 과학 및 추론 벤치마크에서 동급 규모 기준 최고 성능을 달성하며, 많은 대형 최첨단 모델들을 능가합니다. 본 모델과 함께 이를 생성하는 데 사용된 전체 인프라 스택(RL 프레임워크, 완전한 레시피, 그리고 Environments Hub 커뮤니티 플랫폴을 통해 verifiers 라이브러리로 구축된 광범위한 훈련 및 평가 환경 컬렉션)을 오픈소스로 공개합니다. 이번 연구를 위해 저희는 단일 노드에서 수천 개의 GPU까지 원활하게 확장되며, 다중 턴 상호작용과 도구 사용을 일급 지원하여 에이전트 RL에 맞춤화된 대규모 비동기 강화학습용 오픈 프레임워크인 prime-rl을 도입했습니다. 이 스택을 활용하여 GLM-4.5-Air-Base 모델 기반으로 SFT와 RL 훈련을 모두 수행하며, 높은 훈련 효율로 RL 훈련을 최대 512개의 H200 GPU까지 확장했습니다.
코드 대규모 언어 모델(Code LLM)은 강력하지만 훈련 비용이 높으며, 확장 법칙은 모델 크기, 데이터, 컴퓨팅 자원으로부터 성능을 예측합니다. 그러나 다양한 프로그래밍 언어(PL)는 사전 훈련 중 서로 다른 영향을 미쳐 기본 모델 성능에 큰 차이를 만들며, 이로 인해 성능 예측이 부정확해집니다. 또한 기존 연구는 언어 중립적 설정에 집중하여 현대 소프트웨어 개발의 본질적 다국어 특성을 간과했습니다. 따라서 먼저 다양한 PL의 확장 법칙을 규명하고, 이들의 상호 영향을 고려하여 최종적인 다국어 확장 법칙을 도출해야 합니다. 본 논문에서는 다국어 코드 사전 훈련을 위한 확장 법칙에 대한 첫 체계적 탐구를 제시하며, 여러 PL, 모델 크기(0.2B~14B 매개변수), 데이터셋 크기(1T 토큰)에 걸쳐 1,000건 이상의 실험(H800 시간 기준 336,000시간 이상 상당)을 수행했습니다. 우리는 여러 PL에 걸친 코드 LLM의 포괄적 확장 법칙을 수립했으며, 인터프리터 언어(예: Python)가 컴파일 언어(예: Rust)보다 모델 크기와 데이터 증가의 혜택을 더 크게 받음을 발견했습니다. 본 연구는 다국어 사전 훈련이 특히 구문적으로 유사한 PL 간에 시너지 효과를 제공함을 입증합니다. 더 나아가, 병렬 페어링(코드 조각과 해당 번역문을 연결) 사전 훈련 전략은 유리한 확장 특성을 보이며 크로스-링구얼 능력을 크게 향상시킵니다. 마지막으로, 비례 의존적 다국어 확장 법칙을 제안하여 높은 효용성 PL(예: Python)을 우선하고, 높은 시너지 페어(예: JavaScript-TypeScript)를 균형 있게 배분하며, 빠르게 포화되는 언어(Rust)의 할당을 줄여 동일 컴퓨팅 예산 내 균일 분배보다 모든 PL에서 우수한 평균 성능을 달성합니다.
대규모 언어 모델(LLM)의 출력이 충실도 환각을 포함하는지 인식하는 것은 검색 증강 생성 및 요약과 같은 실제 애플리케이션에서 중요합니다. 본 논문에서는 신뢰성을 향상시키기 위해 이진 예측과 이에 상응하는 설명을 함께 제공할 수 있는 비용 효율적이고 효과적인 충실도 환각 탐지 모델인 FaithLens를 소개합니다. 이를 위해 먼저 고급 LLM을 통해 설명이 포함된 훈련 데이터를 합성하고, 레이블 정확성, 설명 품질, 데이터 다양성을 보장하기 위해 잘 정의된 데이터 필터링 전략을 적용합니다. 이후, 잘 정제된 훈련 데이터로 모델을 미세 조정하여 콜드 스타트를 수행하고, 예측 정확성과 설명 품질에 대한 보상을 사용하는 규칙 기반 강화 학습을 통해 추가로 최적화합니다. 12가지 다양한 작업에 대한 결과는 8B 매개변수 FaithLens가 GPT-4.1 및 o1과 같은 고급 모델을 능가함을 보여줍니다. 또한 FaithLens는 높은 품질의 설명을 생성하여 신뢰성, 효율성 및 효과성의 독특한 균형을 제공합니다.
스트리밍 음성-텍스트 번역(StreamST)은 수신 음성과 동시에 번역을 생성해야 하므로 엄격한 지연 시간 제약이 적용되며, 부분 정보 의사 결정과 높은 번역 품질 간의 균형을 잡은 모델이 요구됩니다. 해당 주제에 대한 연구는 지금까지 SimulEval 저장소에 의존해 왔으나, 이는 더 이상 유지 관리되지 않으며 출력을 수정하는 시스템을 지원하지 않습니다. 또한 이는 장시간 오디오 스트림이 아닌 짧은 세그먼트 처리 시뮬레이션을 위해 설계되었으며, 데모에서 시스템을 쉽게展示할 수 있는 방법을 제공하지 않습니다. 이를 해결하기 위해 우리는 StreamST 시스템의 통합 평가 및 데모 전용 최초의 오픈소스 프레임워크인 simulstream을 소개합니다. 장시간 음성 처리를 위해 설계된 simulstream은 증분 디코딩 접근법뿐만 아니라 재번역 방법도 지원하여, 동일한 프레임워크 내에서 품질과 지연 시간 측면 모두를 비교할 수 있게 합니다. 또한 이 도구 내에서 구축된 모든 시스템을 데모할 수 있는 대화형 웹 인터페이스도 제공합니다.
장기적이고 다중 세션 대화에 대한 시간적 추론은 대화형 에이전트의 핵심 능력입니다. 그러나 기존 연구와 우리의 파일럿 연구에 따르면, 대화 기록이 길어지고 노이즈가 누적됨에 따라 현재의 장문 컨텍스트 모델들은 시간적으로 관련성 있는 정보를 정확히 식별하는 데 어려움을 겪어 추론 성능이 크게 저하됩니다. 이를 해결하기 위해 우리는 강화 학습을 사용하여 시간 인식 메모리 선택 정책을 학습하는 Memory-T1 프레임워크를 소개합니다. 이 프레임워크는 coarse-to-fine 전략을 채택하여, 먼저 시간적 필터와 관련성 필터를 사용해 대화 기록을 후보 집합으로 정제한 다음, 정확한 증거 세션을 선택하는 RL 에이전트를 적용합니다. RL 훈련은 (i) 응답 정확도, (ii) 증거 근거, (iii) 시간적 일관성을 최적화하는 다단계 보상 함수에 의해 지도됩니다. 특히 시간적 일관성 보상은 세션 수준(시간적 근접성)과 발화 수준(시간적 정확성)에서 질의 시간 범위와의 정렬을 평가하여 조밀한 신호를 제공함으로써, 에이전트가 미묘한 시간적 모호성을 해결할 수 있게 합니다. Time-Dialog 벤치마크에서 Memory-T1은 7B 모델을 전체 점수 67.0%로 향상시켜 오픈소스 모델 중 새로운 최첨단 성능을确立했으며, 14B 기준 모델을 10.2% 앞섰습니다. ablation 연구는 시간적 일관성과 증거 근거 보상이 함께 15.0%의 성능 향상에 기여함을 보여줍니다. 더욱이 Memory-T1은 기준 모델들이 성능이 급락하는 128k 토큰까지 견고성을 유지하며, 방대한 대화 기록 내 노이즈에 대한 효과성을 입증했습니다. 코드와 데이터셋은 https://github.com/Elvin-Yiming-Du/Memory-T1/에서 공개되어 있습니다.
물리적 세계에 대한 이해는 범용 AI 에이전트에게 필수적입니다. 그러나 최첨단 시각 인식 모델(예: 대규모 VLM)이 물리적 속성을 정량적으로 추론할 수 있는지는 여전히 불분명합니다. 기존 평가는 주로 VQA 기반이며 정성적이어서, 이러한 모델들이 비디오 관찰을 통해 움직이는 물체의 운동학적 양을 추론할 수 있는지에 대한 통찰력이 제한적입니다. 이를 해결하기 위해 우리는 VLM의 물리적 추론 능력을 정량적으로 측정하도록 설계된 최초의 벤치마크인 QuantiPhy를 소개합니다. 수치적 실측값(ground truth)을 포함한 3,300개 이상의 비디오-텍스트 인스턴스로 구성된 QuantiPhy는 주어진 특정 시점에서 물체의 크기, 속도, 가속도 중 하나를 사전 입력 정보로 사용하여 나머지 속성들을 추정하는 VLM의 성능을 평가합니다. 이 벤치마크는 표준화된 프롬프트와 채점 방식을 통해 수치적 정확도를 평가함으로써 모델 간 공정한 비교를 가능하게 합니다. 최첨단 VLM에 대한 우리의 실험 결과, 이들의 정성적 타당성과 실제 수치적 정확도 사이에 일관된 격차가 있음이 드러났습니다. 우리는 배경 노이즈, 반사실적 사전 정보, 전략적 프롬프팅과 같은 주요 요인들에 대한 심층 분석을 추가로 제공하며, 최첨단 VLM들이 운동학적 속성을 정량적으로 추론할 때 제공된 시각 및 텍스트 입력을 참조로 충실히 사용하기보다는 사전 훈련된 세계 지식에 크게 의존한다는 사실을 발견했습니다. QuantiPhy는 VLM이 단순한 언어적 타당성을 넘어 수치적으로 근거 있는 물리적 이해로 나아가도록 하는 최초의 엄격하고 확장 가능한 테스트베드를 제공합니다.
현재 비디오 아바타 생성 방법은 신원 보존과 동작 정렬에서는 뛰어나나 진정한 주체성을 갖추지 못하여, 적응형 환경 상호작용을 통해 장기 목표를 자율적으로 추구할 수 없다. 본 연구는 이러한 한계를 해결하기 위해 확률적 생성 환경에서 목표 지향적 계획 평가를 위한 태스크 및 벤치마크인 L-IVA(Long-horizon Interactive Visual Avatar)와, 비디오 아바타에 능동적 지능을 구현하는 최초의 프레임워크인 ORCA(Online Reasoning and Cognitive Architecture)를 제안한다. ORCA는 내부 세계 모델(Internal World Model, IWM) 능력을 두 가지 핵심 혁신을 통해 구현한다: (1) 관찰-사고-행동-성찰(Observe-Think-Act-Reflect, OTAR) 폐쇄 루프 주기로, 생성된 불확실성 하에서 예측 결과를 실제 생성 결과와 지속적으로 검증하여 강건한 상태 추적을 유지하며, (2) 계층적 이중 시스템 아키텍처로, 시스템 2는 상태 예측을 통한 전략적 추론을 수행하는 반면 시스템 1은 추상적 계획을 정확한 모델별 행동 캡션으로 변환한다. 아바타 제어를 부분 관측 마르코프 결정 과정(POMDP)으로 공식화하고 결과 검증을 통한 지속적 신념 업데이트를 구현함으로써, ORCA는 개방형 도메인 시나리오에서 자율적인 다단계 작업 수행을 가능하게 한다. 폭넓은 실험을 통해 ORCA가 작업 성공률과 행동 일관성에서 개방 루프 및 비성찰 기준선을 크게 능가함을 입증함으로써, 수동적 애니메이션에서 능동적 목표 지향 행동으로 비디오 아바타 지능을 발전시키는 IWM 기반 설계의 타당성을 검증하였다.
질적 연구는 중요한 신뢰도 과제에 직면해 있습니다: 기존의 평가자 간 일치도 방법은 다수의 인간 코더를 요구하며, 시간이 많이 소요되고 보통 중간 수준의 일치도를 보입니다. 본 연구에서는 앙상블 검증과 이중 신뢰도 지표(평가자 간 일치도를 위한 Cohen's Kappa(κ)와 의미론적 일관성을 위한 코사인 유사도)를 결합한 LLM 기반 주제 분석을 위한 다중 관점 검증 프레임워크를 제시합니다. 우리의 프레임워크는 구성 가능한 분석 매개변수(1-6개의 시드, temperature 0.0-2.0)를 지원하며, 변수 치환이 가능한 사용자 정의 프롬프트 구조를 수용하고, 모든 JSON 형식에 걸쳐 합의된 주제 추출을 제공합니다. 개념 증명으로써, 우리는 환각제 미술 치료 인터뷰 녹취록을 대상으로 세 가지 주요 LLM(Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet)을 평가하며 모델당 6개의 독립적인 실행을 수행했습니다. 결과는 Gemini가 가장 높은 신뢰도(κ=0.907, 코사인=95.3%)를 달성했으며, 그 다음으로 GPT-4o(κ=0.853, 코사인=92.6%), Claude(κ=0.842, 코사인=92.1%) 순임을 보여줍니다. 세 모델 모두 높은 일치도(κ>0.80)를 달성하여 다중 실행 앙상블 접근법의 타당성을 입증했습니다. 본 프레임워크는 실행 간 합의된 주제들을 성공적으로 추출했으며, Gemini는 6개의 합의 주제(50-83% 일관성), GPT-4o는 5개, Claude는 4개 주제를 각각 식별했습니다. 우리의 오픈소스 구현은 연구자들에게 투명한 신뢰도 지표, 유연한 구성, 구조 독립적인 합의 추출을 제공하여 신뢰할 수 있는 AI 지원 질적 연구를 위한 방법론적 기초를 마련합니다.
오픈소스 소프트웨어(OSS) 커뮤니티에서 발생하는 유해한 상호작용은 기여자의 참여를 저하시키고 프로젝트의 지속 가능성을 위협합니다. 이러한 유해한 대화가 발생하기 전에 예방하려면 해로운 대화가 어떻게 전개되는지에 대한 명확한 이해가 필요합니다. 그러나 대부분의 사전 조정 전략은 수동적으로 진행되어 커뮤니티 관리자들에게 상당한 시간과 노력을 요구합니다. 더 확장 가능한 접근법을 지원하기 위해 우리는 GitHub 토론에서 159개의 탈선된 유해 스레드와 207개의 비유해 스레드로 구성된 데이터셋을 구축했습니다. 우리의 분석에 따르면 긴장 유발 요인, 감정 변화, 특정 대화 패턴을 통해 유해성을 예측할 수 있음을 보여줍니다. 우리는 2단계 프롬프트 파이프라인을 사용하여 GitHub에서의 대화 탈선을 예측하기 위한 새로운 대규모 언어 모델(LLM) 기반 프레임워크를 제시합니다. 첫째, Least-to-Most(LtM) 프롬프팅을 통해 대화 역학 요약(SCD)을 생성한 다음, 이러한 요약을 사용하여 탈선 가능성을 추정합니다. Qwen 및 Llama 모델에서 평가한 결과, 우리의 LtM 전략은 결정 임계값 0.3에서 각각 0.901과 0.852의 F1 점수를 달성하여 대화 탈선 분야에서 기존 NLP 기준선을 능가했습니다. 308개의 GitHub 이슈 스레드(유해 65개, 비유해 243개) 데이터셋에 대한 외부 검증에서는 최대 0.797의 F1 점수를 얻었습니다. 우리의 연구 결과는 OSS에서 대화 탈선을 조기에 감지하고 사전적이며 설명 가능한 조정을 가능하게 하는 구조화된 LLM 프롬프팅의 효과성을 입증합니다.
초점은 사진 촬영의 핵심 요소이지만, 자동 초점 시스템은 종종 의도한 피사체를 제대로 잡지 못하며 사용자는 촬영 후에 초점을 조정하고 싶어 하는 경우가 많습니다. 본 연구에서는 비디오 확산 모델을 활용한 현실적인 촬영 후 초점 재조정 방법을 제안합니다. 단일 초점 흐린 이미지에서 시작하여 우리의 접근법은 비디오 시퀀스로 표현되는 지각적으로 정확한 초점 스택을 생성하여 상호작용형 초점 재조정을 가능하게 하고 다양한 다운스트림 응용 프로그램을 구현합니다. 본 연구 및 향후 연구를 지원하기 위해 다양한 실제 스마트폰 환경에서 취득한 대규모 초점 스택 데이터셋을 공개합니다. 우리의 방법은 까다로운 시나리오에서도 지각적 품질과 강건성 모두에서 기존 접근법을 꾸준히 능가하며, 일상적인 사진 촬영에서 더욱 발전된 초점 편집 기능의 길을 열어줍니다. 코드와 데이터는 www.learn2refocus.github.io에서 확인할 수 있습니다.