번역이 포함된 일일 선별된 AI 연구 논문
확산 기반 비디오 생성의 최근 발전은 제어 가능한 비디오 편집에 새로운 가능성을 열었지만, 제한된 4D 장면 이해와 오클루전 및 조명 효과 처리의 부족으로 인해 사실적인 비디오 객체 삽입(VOI)은 여전히 어려운 과제로 남아 있습니다. 본 논문에서는 기하학적으로 일관된 객체 배치와 외관이 정확한 비디오 합성을 달성하는 새로운 VOI 프레임워크인 InsertAnywhere를 제시합니다. 우리의 방법은 장면 기하구조를 재구성하고 시간적 일관성과 오클루전 일관성을 유지하면서 사용자가 지정한 객체 배치를 프레임 간에 전파하는 4D 인식 마스크 생성 모듈로 시작합니다. 이러한 공간적 기반 위에, 우리는 확산 기반 비디오 생성 모델을 확장하여 삽입된 객체와 조명 및 쉐이딩과 같은 주변 국부 변화를 함께 합성합니다. 지도 학습을 가능하게 하기 위해, ROSE 객체 제거 데이터셋을 객체가 제거된 비디오, 객체가 존재하는 비디오, VLM 생성 참조 이미지의 삼중항으로 변환하여 구성된 조명 인식 합성 데이터셋인 ROSE++를 도입합니다. 광범위한 실험을 통해 우리의 프레임워크가 다양한 실제 시나리오에서 기하학적으로 타당하고 시각적으로 일관된 객체 삽입 결과를 생성하며, 기존 연구 및 상용 모델을 크게 능가함을 입증합니다.
인간은 내용에 대한 전체적인 의미 표현에 의존하여 길고 복잡한 텍스트를 이해합니다. 심리학에서 밝혀진 인간의 마음풍경 인식 능력에 따르면, 이러한 글로벌 시각은 사전 지식을 체계화하고 새로운 정보를 해석하며 문서 전반에 흩어져 있는 증거를 통합하는 데 도움을 줍니다. 현재의 검색 증강 생성 시스템은 이러한 지도가 부족하여 긴 문맥 작업에 어려움을 겪습니다. 본 논문에서는 LLM 기반 RAG 시스템에 명시적인 글로벌 문맥 인식을 부여하는 최초의 접근법인 마음풍경 인식 RAG를 제안합니다. MiA-RAG는 계층적 요약을 통해 마음풍경을 구축하고, 이 글로벌 의미 표현을 기반으로 검색과 생성을 모두 조건화합니다. 이를 통해 검색기는 풍부한 쿼리 임베딩을 형성할 수 있고, 생성기는 일관된 글로벌 문맥 내에서 검색된 증거에 대해 추론할 수 있습니다. 우리는 증거 기반 이해와 글로벌 의미 형성을 위한 다양한 긴 문맥 및 이중 언어 벤치마크에서 MiA-RAG를 평가합니다. MiA-RAG는 기준선을 지속적으로 능가하며, 추가 분석을 통해 지역적 세부 사항을 일관된 글로벌 표현과 정렬하여 보다 인간다운 긴 문맥 검색 및 추론을 가능하게 함을 보여줍니다.
GUI 에이전트의 발전은 차세대 인간-컴퓨터 상호작용에 혁명을 일으킬 수 있습니다. 이러한 비전에 동기를 부여받아, 우리는 2B, 8B, 32B, 235B-A22B 변형을 포함한 전체 규모 스펙트럼을 아우르는 기초 GUI 에이전트 패밀리인 MAI-UI를 제시합니다. 우리는 실제 배포의 네 가지 주요 과제를 식별했습니다: 기본적인 에이전트-사용자 상호작용의 부재, UI 전용 운영의 한계, 실용적인 배포 아키텍처의 결여, 그리고 동적 환경에서의 취약성입니다. MAI-UI는 통합 방법론으로 이러한 문제들을 해결합니다: 사용자 상호작용과 MCP 도구 호출을 포함하도록 탐색 데이터를 확장하는 자체 진화 데이터 파이프라인, 작업 상태에 따라 실행을 라우팅하는 기본 디바이스-클라우드 협업 시스템, 그리고 병렬 환경과 컨텍스트 길이를 확장하기 위한 고급 최적화를 포함한 온라인 강화학습 프레임워크입니다. MAI-UI는 GUI 기반화(Grounding) 및 모바일 탐색 분야에서 새로운 최첨단 성능을 확립했습니다. 기반화 벤치마크에서는 ScreenSpot-Pro에서 73.5%, MMBench GUI L2에서 91.3%, OSWorld-G에서 70.9%, UI-Vision에서 49.2%를 달성하여 ScreenSpot-Pro에서 Gemini-3-Pro와 Seed1.8을 능가했습니다. 모바일 GUI 탐색에서는 AndroidWorld에서 76.7%의 새로운 SOTA를 세워 UI-Tars-2, Gemini-2.5-Pro, Seed1.8을 능가했습니다. MobileWorld에서 MAI-UI는 41.7%의 성공률을 얻어 종단간 GUI 모델을 크게 앞섰으며 Gemini-3-Pro 기반 에이전트 프레임워크와 경쟁력 있는 성능을 보였습니다. 우리의 온라인 강화학습 실험은 병렬 환경을 32개에서 512개로 확장(+5.2점)하고 환경 스텝 예산을 15에서 50으로 증가(+4.3점)시켰을 때 상당한 성능 향상을 보여주었습니다. 마지막으로, 기본 디바이스-클라우드 협업 시스템은 디바이스 성능을 33% 향상시키고, 클라우드 모델 호출을 40% 이상 줄이며, 사용자 프라이버시를 보호합니다.
멀티모달 대규모 언어 모델(MLLM)은 시각적 기반, 분할, 캡셔닝과 같은 시각 이해 작업에서 놀라운 진전을 이루었습니다. 그러나 지각 수준의 이미지 특징을 인식하는 능력은 여전히 제한적입니다. 본 연구에서는 미학, 품질, 구조 및 텍스처라는 세 가지 핵심 영역에 걸친 지각 수준 이미지 이해를 위한 통합 프레임워크인 UniPercept-Bench를 제시합니다. 우리는 계층적 정의 시스템을 구축하고 지각 수준 이미지 이해를 평가하기 위한 대규모 데이터셋을 구성했습니다. 이를 기반으로 Domain-Adaptive Pre-Training과 Task-Aligned RL을 통해 훈련된 강력한 베이스라인인 UniPercept를 개발하여 Visual Rating(VR)과 Visual Question Answering(VQA) 작업 모두에서 견고한 일반화 능력을 구현했습니다. UniPercept는 지각 수준 이미지 이해에서 기존 MLLM을 능가하며 텍스트-이미지 생성용 플러그 앤 플레이 보상 모델로 활용될 수 있습니다. 이 작업은 MLLM 시대의 지각 수준 이미지 이해를 정의하고, 포괄적인 벤치마크와 강력한 베이스라인을 도입함으로써 지각 수준 멀티모달 이미지 이해의 발전을 위한 견고한 기반을 마련합니다.
역전 기반 시각적 편집은 사용자 지시에 따라 이미지나 비디오를 편집하는 효과적이고 학습이 필요 없는 방법을 제공합니다. 기존 방법들은 일반적으로 편집 일관성을 유지하기 위해 샘플링 과정에서 원본 이미지 정보를 주입합니다. 그러나 이러한 샘플링 전략은 원본 정보에 지나치게 의존하여 대상 이미지의 편집에 부정적인 영향을 미칩니다(예: 지시된 대로 피사체의 자세, 개수, 색상 등의 속성을 변경하지 못함). 본 연구에서는 이러한 문제를 주의 메커니즘과 잠재 공간 측면 모두에서 해결하기 위해 ProEdit을 제안합니다. 주의 메커니즘 측면에서는 편집 영역에서 원본과 대상의 KV 특징을 혼합하는 KV-mix를 도입하여 배경 일관성을 유지하면서 편집 영역에 대한 원본 이미지의 영향을 완화합니다. 잠재 공간 측면에서는 원본 잠재 변수의 편집 영역을 교란시키는 Latents-Shift를 제안하여 샘플링 과정에서 역전된 잠재 변수의 영향을 제거합니다. 여러 이미지 및 비디오 편집 벤치마크에서 진행한 폭넓은 실험을 통해 우리 방법이 SOTA 성능을 달성함을 입증했습니다. 또한 우리의 설계는 플러그 앤 플레이 방식으로, RF-Solver, FireFlow, UniEdit과 같은 기존 역전 및 편집 방법에 원활하게 통합될 수 있습니다.
대규모 언어 모델(LLM)은 로봇공학, 자율주행, 구현형 인공지능, 산업 자동화와 같은 시간에 민감한 시스템에 점차 배치되고 있으며, 이러한 시스템에서는 주어진 시간 예산 내에서 정확한 응답을 생성하는 것이 의사 결정, 제어 또는 안전 중대 작업에 매우 중요합니다. 그러나 LLM의 자기회귀적 생성 과정은 종단 간 실행 시간을 모델링하고 추정하는 것을 어렵게 만듭니다. 더욱이 고정된 키-값(KV) 캐시 제거 비율에 기반한 기존의 효율적인 추론 방법은 다양한 시간 예산을 가진 변화하는 작업에 적응하기 어려우며, 부적절한 제거 비율은 불완전한 추론이나 응답 성능 저하로 이어질 수 있습니다. 본 논문에서는 LLM을 위한 새로운 시간 예산 기반 추론 프레임워크인 TimeBill을 제안합니다. 이 프레임워크는 추론 효율성과 응답 성능의 균형을 맞춥니다. 구체적으로, LLM의 종단 간 실행 시간을 정확히 예측하기 위해 세분화된 응답 길이 예측기(RLP)와 실행 시간 추정기(ETE)를 제안합니다. 이를 바탕으로 실행 시간 예측과 주어진 시간 예산에 따라 KV 캐시 제거 비율을 적응적으로 조절하는 시간 예산 기반 효율 추론 기법을 개발합니다. 마지막으로, 광범위한 실험을 통해 다양한 시간 초과 대처 전략 하에서 TimeBill이 작업 완료율 향상과 응답 성능 유지 측면에서 가지는 장점을 입증합니다.
대규모 시각-언어 모델(VLM)은 일반적으로 외부 도구를 통해 주입되거나 추론 과정에서 잠재 시각 토큰으로 생성되는 중간 시각 단서로부터 이점을 얻지만, 이러한 메커니즘은 여전히 세밀한 시각적 증거(예: 차트의 폴리라인)를 간과하고, 도메인 간 일반화가 취약하며, 높은 추론 시간 비용이 발생합니다. 본 논문에서는 질문 조건부 마스킹 뷰를 훈련 중 인지 형성에 영향을 미치는 양방향 어디를 볼지 신호로 변환하는 양방향 인지 형성(BiPS)을 제안합니다. BiPS는 먼저 원본 이미지와 질문 관련 영역만 유지하는 증거 보존 뷰 간에 KL 일관성 제약을 적용하여 지지 픽셀의 거칠지만 완전한 커버리지를 장려합니다. 그런 다음 원본 이미지와 중요한 픽셀이 마스킹되어 원래 답변을 더 이상 지지하지 않는 증거 제거 뷰 간에 KL 분리 제약을 적용하여 텍스트 전용 단축 경로(즉, 텍스트만으로 답변)를 억제하고 세밀한 시각 의존성을 강화합니다. 8개 벤치마크에서 BiPS는 Qwen2.5-VL-7B의 성능을 평균 8.2% 향상시켰으며, 보지 못한 데이터셋 및 이미지 유형에 대한 강력한 도메인 외 일반화를 보여주었습니다.
기상 모델링은 정확한 예측과 메커니즘 해석이 모두 필요하지만, 기존 방법론은 이러한 목표를 분리하여 생성과 이해를 별개로 다루었습니다. 이러한 격차를 해결하기 위해 우리는 단일 아키텍처 내에서 기상 생성과 이해를 통합한 최초의 멀티모달 파운데이션 모델인 Omni-Weather을 제안합니다. Omni-Weather은 기상 생성 작업을 위한 레이더 인코더를 통합하고, 공유 자기 주의 메커니즘을 사용한 통합 처리를 수행합니다. 더 나아가, 우리는 기상 생성에서 인과 추론을 위한 Chain-of-Thought 데이터셋을 구축하여 해석 가능한 출력과 향상된 지각 품질을 가능하게 했습니다. 광범위한 실험을 통해 Omni-Weather이 기상 생성과 이해 모두에서 최첨단 성능을 달성함을 보여줍니다. 우리의 연구 결과는 기상 영역에서 생성 과제와 이해 과제가 상호 향상될 수 있음을 추가로 시사합니다. Omni-Weather은 기상 생성과 이해를 통합하는 것이 실현 가능하며 가치 있음을 입증합니다.
AI 에이전트가 "이미지로 사고"하는 능력은 추론과 인지의 정교한 결합을 필요로 합니다. 그러나 현재 공개된 멀티모달 에이전트들은 여전히 문서 내 복잡한 차트/다이어그램 분석이나 지도 탐색과 같은 실세계 작업에 중요한 추론 측면에서 크게 부족한 실정입니다. 이러한 격차를 해결하기 위해 우리는 시각적 세부 사항에 대한 교차 주의를 통한 멀티모달 추론을 평가하도록 설계된 새로운 벤치마크인 O3-Bench를 소개합니다. O3-Bench는 다단계 추론을 통해 서로 다른 이미지 영역의 미세한 시각 정보를 종합해야 하는 난해한 문제들을 특징으로 합니다. 이 문제들은 OpenAI o3와 같은 최첨단 시스템에게도 매우 도전적이며, O3-Bench에서 단 40.8%의 정확도만을 보입니다. 진전을 이루기 위해 우리는 InSight-o3라는 다중 에이전트 프레임워크를 제안합니다. 이는 시각 추론 에이전트(vReasoner)와 시각 검색 에이전트(vSearcher)로 구성되며, 후자를 위해 일반화된 시각 검색이라는 과제를 도입했습니다. 이는 자연 이미지의 단순한 객체나 도형을 넘어 자유 형식 언어로描述된 관계적, 모호하거나 개념적인 영역을 찾는 작업입니다. 그런 다음 강화 학습을 통해 이 작업에 특화되도록 목적 훈련된 멀티모달 LLM을 제시합니다. 플러그 앤 플레이 에이전트로서 우리의 vSearcher는 최첨단 멀티모델 모델(vReasoner 역할)의 성능을 강화하여 다양한 벤치마크에서 그 성능을 크게 향상시킵니다. 이는 강력한 o3 유사 오픈 시스템을 구축하는 데 있어 구체적인 진전을 의미합니다. 우리의 코드와 데이터 세트는 https://github.com/m-Just/InSight-o3에서 확인할 수 있습니다.
최근 텍스트-비디오 생성 모델은 시각적 현실성, 움직임의 정확도, 텍스트-비디오 정렬 측면에서 놀라운 발전을 보여주고 있지만, 사회적으로 일관된 행동을 생성하는 능력에는 근본적인 한계가 있습니다. 인간이 짧은 시각적 단서에서 의도, 믿음, 감정, 사회적 규범을 쉽게 추론하는 것과 달리, 현재의 모델들은 근본적인 인과 관계나 심리적 논리를 포착하지 못한 채 문자 그대로의 장면을 구현하는 경향이 있습니다. 이러한 격차를 체계적으로 평가하기 위해, 우리는 비디오 생성에서의 사회적 추론을 위한 최초의 벤치마크를 소개합니다. 발달 심리학 및 사회 심리학의 연구 결과에 기반하여, 우리의 벤치마크는 30가지 고전적인 사회 인지 패러다임을 마음 상태 추론, 목표 지향적 행동, 공동 주의, 사회적 조율, 친사회적 행동, 사회적 규범, 다중 에이전트 전략 등 일곱 가지 핵심 차원으로 체계화합니다. 이러한 패러다임을 구현하기 위해 우리는 (i) 각 실험의 추론 메커니즘을 정제하고, (ii) 다양한 비디오 생성용 시나리오를 합성하며, (iii) 단서 기반 비판을 통해 개념적 중립성과 난이도 조절을 강화하고, (iv) 생성된 비디오를 고성능 VLM 평가자를 사용하여 사회적 추론의 다섯 가지 해석 가능한 차원에서 평가하는 완전히 훈련이 필요 없는 에이전트 기반 파이프라인을 개발했습니다. 이 프레임워크를 사용하여 우리는 7개의 최첨단 비디오 생성 시스템을 대상으로 첫 대규모 연구를 수행했습니다. 우리의 결과는 상당한 성능 격차를 보여줍니다: 현대 모델들은 표면적 타당성에서는 뛰어나지만, 의도 인식, 믿음 추론, 공동 주의, 친사회적 추론에서는 체계적으로 실패합니다.
단위 테스트와 같은 실행 기반 피드백은 테스트 시간 스케일링(TTS) 및 강화 학습(RL)을 통한 코딩 에이전트 개발에 널리 사용됩니다. 이러한 패러다임은 정확한 피드백을 제공하기 위해 확장 가능하고 신뢰할 수 있는 단위 테스트 케이스 수집을 요구하며, 결과적인 피드백은 희소한 경우가 많아 성공한轨迹(trajectory)들 간 또는 실패한轨迹들 간을 효과적으로 구분하지 못합니다. 이와 대조적으로, 보상 모델로부터의 실행 불필요 피드백(execution-free feedback)은 단위 테스트 케이스에 의존하지 않으면서 더 세분화된 신호를 제공할 수 있습니다. 이러한 잠재력에도 불구하고, 현실적인 소프트웨어 공학(SWE) 에이전트를 위한 실행 불필요 피드백은 아직 충분히 탐구되지 않았습니다. 그러나 TTS와 RL 모두에서 효과적인 다목적 보상 모델을 개발하고자 할 때, TTS 성능이 거의 동일한 두 검증기(verifier)가 RL에서는 매우 다른 결과를 낼 수 있음을 관찰했습니다. 직관적으로 TTS는 주로 모델의 최적轨迹 선택 능력을 반영하지만, 이 능력이 반드시 RL로 일반화되지는 않습니다. 이러한 한계를 해결하기 위해 우리는 RL 훈련에至关重要的한 두 가지 추가 측면, 즉 분류 정확도(classification accuracy)와 캘리브레이션(calibration)을 식별했습니다. 그런 다음 이러한 메트릭 전반에서 우수한 성능을 보이는 강력한 보상 모델을 훈련시키는 방법을 탐구하기 위해 포괄적인 통제 실험을 수행합니다. 특히 훈련 데이터 규모, 정책 혼합(policy mixtures), 데이터 소스 구성 등 다양한 요소들의 영향을 분석합니다. 이러한 탐구를 바탕으로 우리는 총 300억 개의 파라미터를 가지며 추론 시 30억 개가 활성화되는 전문가 혼합(Mixture-of-Experts) 아키텍처를 채택한 정확하고 강력한 보상 모델인 SWE-RM을 소개합니다. SWE-RM은 TTS와 RL 성능 모두에서 SWE 에이전트를 크게 향상시킵니다. 예를 들어, SWE-Bench Verified에서 TTS를 사용할 때 Qwen3-Coder-Flash의 정확도를 51.6%에서 62.0%로, Qwen3-Coder-Max의 정확도를 67.0%에서 74.6%로 높여 오픈소스 모델 중 새로운 최첨단 성능을 달성합니다.
자동 프레젠테이션 슬라이드 생성은 콘텐츠 제작 과정을 크게 효율화할 수 있습니다. 그러나 사용자별 선호도가 다양할 수 있기 때문에, 기존의 불충분하게 명시된 방식은 종종 개별 사용자 요구에 부합하지 않는 차선의 결과를 초래합니다. 본 연구에서는 논문-슬라이드 변환 과정을 사용자가 지정한 선호도에 따라 조건화하는 새로운 과제를 소개합니다. 우리는 인간의 행동 방식을 모방한 에이전트 기반 프레임워크인 SlideTailor를 제안하며, 이는 사용자에 부합하는 방식으로 점진적으로 편집 가능한 슬라이드를 생성합니다. 사용자에게 선호도를 상세한 텍스트 형태로 작성하도록 요구하는 대신, 우리 시스템은 논문-슬라이드 예시 쌍과 시각적 템플릿이라는, 내용과 시각적 스타일 전반에 걸친 풍부한 사용자 선호도를 암묵적으로 담고 있는 자연스럽고 제공하기 쉬운 자료만을 요구합니다. 이러한 입력값이 암묵적이고 레이블이 지정되지 않았음에도 불구하고, 우리의 프레임워크는 선호도를 효과적으로 추출하고 일반화하여 맞춤형 슬라이드 생성을 안내합니다. 또한 슬라이드 내용이 계획된 구두 발표와 일치하도록 하는 새로운 체인-오브-스피치 메커니즘을 도입합니다. 이러한 설계는 생성된 슬라이드의 품질을 크게 향상시키고 영상 프레젠테이션과 같은 하류 응용 프로그램을 가능하게 합니다. 이 새로운 과제를 지원하기 위해 다양한 사용자 선호도를 포착한 벤치마크 데이터셋을 구축하고, 강력한 평가를 위해 신중하게 설계된 해석 가능한 지표를 제시합니다. 광범위한 실험을 통해 우리 프레임워크의 효과성을 입증합니다.
본 논문은 일반적인 비가환환(非可換環)에서 정확한 3x3 행렬 곱셈을 위한 새로운 최첨단 알고리즘을 제시하며, 계수 기저 변경 없이 58회의 스칼라 덧셈만으로 랭크-23 방식(rank-23 scheme)을 달성한다. 이는 기존 최고 기록이었던 60회의 덧셈 복잡도를 개선한 것이다. 이 결과는 삼진 제약 플립 그래프 탐색(ternary-restricted flip-graph exploration)과 공통 부분식 제거를 위한 탐욕적 교집합 축소(greedy intersection reduction)를 결합한 자동화 탐색을 통해 발견되었다. 제안된 방식은 {-1, 0, 1} 범위의 계수만을 사용하여 효율성과 임의의 체(體) 간 이식성을 보장한다. 총 스칼라 연산 횟수는 83회에서 81회로 감소하였다.
대규모 추론 모델(LRM)은 일반적으로 추론 능력을 향상시키기 위해 검증 가능한 보상을 활용한 강화 학습(RLVR)으로 훈련됩니다. 이러한 패러다임에서는 서로 다른 샘플 극성에 해당하는 긍정적 및 부정적 자가 생성 롤아웃을 모두 사용하여 정책을 업데이트합니다. 본 논문에서는 이러한 샘플 극성이 RLVR 훈련 동역학과 행동에 미치는 영향을 체계적으로 조사합니다. 우리는 긍정 샘플이 기존의 올바른 추론 패턴을 선명하게 만드는 반면, 부정 샘플은 새로운 추론 경로 탐색을 촉진한다는 사실을 발견했습니다. 또한 샘플 수준과 토큰 수준에서 긍정 및 부정 샘플의 어드밴티지 값을 조정하는 것이 RLVR 훈련에 어떤 영향을 미치는지 추가로 탐구합니다. 이러한 통찰을 바탕으로, 우리는 서로 다른 극성에 걸쳐 핵심 토큰에 어드밴티지 신호를 더 정밀하게 할당하는 적응형 비대칭 토큰 수준 어드밴티지 형성 기법을 통한 정책 최적화 방법, 즉 A3PO를 제안합니다. 다섯 가지 추론 벤치마크에서 진행된 실험을 통해 우리 접근법의 효과성을 입증합니다.