번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델 (LLMs) 에이전트는 상호 작용 환경에서 복잡한 작업을 해결하는 데 점점 중요해지고 있습니다. 기존 연구는 주로 성능을 향상시키는 데 초점을 맞추고 강력한 전문가로부터 행동 복제를 통해 이루어지지만, 이러한 방식은 실제 응용 프로그램에서 종종 실패하며, 주로 오류에서 회복할 수 없는 데 기인합니다. 그러나 단계별 비평 데이터를 수집하는 것은 어렵고 비용이 많이 듭니다. 따라서 자동화되고 동적으로 자체 비평 데이터 세트를 구축하는 것은 모델에 지능적인 에이전트 능력을 부여하는 데 중요합니다. 본 연구에서는 에이전트가 실시간으로 반성할 수 있는 반복적인 자기 교육 프레임워크인 Agent-R을 제안합니다. 정확도에 따라 행동에 보상하거나 처벌하는 전통적인 방법과 달리 Agent-R은 MCTS를 활용하여 올바른 궤적을 잘못된 궤적에서 복구하는 교육 데이터를 구축합니다. 에이전트 반성의 주요 과제는 롤아웃의 끝까지 기다리는 대신 적시에 수정이 필요하다는 점에 있습니다. 이를 해결하기 위해 우리는 모델에 의한 비평 구성 메커니즘을 소개합니다: 액터 모델은 실패한 궤적에서 현재 능력 내에서 첫 번째 오류 단계를 식별합니다. 그것으로부터 시작하여 나무 구조에서 동일한 부모 노드를 공유하는 인접한 올바른 경로와 결합합니다. 이 전략은 모델이 현재 정책에 기반한 반성을 학습할 수 있도록 하여 더 나은 학습 효율성을 제공합니다. 이 자체 개선 패러다임의 확장 가능성을 더 탐구하기 위해 우리는 오류 수정 능력과 데이터 집합 구축의 반복적인 개선을 조사합니다. 우리의 연구 결과는 Agent-R이 모델이 오류에서 회복하는 능력을 지속적으로 향상시키고 적시에 오류를 수정할 수 있도록 하는 것을 보여줍니다. 세 가지 상호 작용 환경에서의 실험 결과는 Agent-R이 에이전트가 루프를 피하면서 잘못된 조치를 수정할 수 있는 능력을 효과적으로 갖추도록 하여 기준 방법에 비해 우수한 성능을 달성한다는 것을 보여줍니다 (+5.59%).
MMVU를 소개합니다. MMVU는 비디오 이해의 기초 모델을 평가하기 위한 포괄적인 전문가 수준의 다학제 벤치마크입니다. MMVU에는 4개의 핵심 학문 분야(과학, 의료, 인문 및 사회과학, 공학)를 포함한 27개 주제를 아우르는 3,000개의 전문가 주석이 달린 질문이 포함되어 있습니다. 이전 벤치마크와 비교하여 MMVU는 세 가지 주요 진전을 보여줍니다. 첫째, 모델에게 도메인별 지식을 적용하고 전문가 수준의 추론을 수행하여 특정 도메인 비디오를 분석하도록 도전합니다. 이는 현재의 비디오 벤치마크에서 일반적으로 평가되는 기본적인 시각 지각을 넘어섭니다. 둘째, 각 예제는 인간 전문가에 의해 처음부터 주석이 달립니다. 우리는 데이터 품질의 높은 수준을 보장하기 위해 엄격한 데이터 품질 관리를 시행합니다. 마지막으로, 각 예제는 전문가 주석이 달린 추론 근거와 관련 도메인 지식으로 보강되어 깊은 분석을 용이하게 합니다. 우리는 MMVU에서 32개의 최첨단 다중모달 기초 모델에 대한 포괄적인 평가를 실시했습니다. 최신의 System-2-capable 모델인 o1 및 Gemini 2.0 Flash Thinking이 테스트된 모델 중에서 가장 높은 성능을 달성했습니다. 그러나 이러한 모델들은 여전히 인간 전문가의 수준에 미치지 못합니다. 깊은 오류 분석과 사례 연구를 통해 우리는 향후 전문가 수준의, 지식 중심의 특정 도메인 비디오 이해 분야에서의 발전을 위한 실행 가능한 통찰을 제공합니다.
본 논문은 Mixture-of-Experts (MoEs) 모델을 훈련할 때 Load-balancing Loss (LBL)의 구현을 재방문한다. 구체적으로, MoEs에 대한 LBL은 N_E sum_{i=1}^{N_E} f_i p_i로 정의되며, 여기서 N_E는 전체 전문가 수, f_i는 전문가 i가 선택된 빈도를 나타내고, p_i는 전문가 i의 평균 게이팅 점수를 나타낸다. 기존 MoE 훈련 프레임워크는 일반적으로 병렬 훈련 전략을 사용하여 f_i와 LBL을 마이크로 배치 내에서 계산한 다음 병렬 그룹 간에 평균을 내곤 한다. 본질적으로, 십억 규모의 LLMs를 훈련하기 위한 마이크로 배치는 일반적으로 매우 적은 시퀀스를 포함한다. 따라서 마이크로 배치 LBL은 거의 시퀀스 수준이며, 라우터는 각 시퀀스 내에서 토큰을 고르게 분배하도록 밀어넣는다. 이 엄격한 제약 하에, 도메인 특정 시퀀스(예: 코드)의 토큰조차도 모든 전문가에게 균일하게 라우팅된다. 본 연구에서는 이 제약을 완화하기 위해 전역-배치를 사용하여 LBL을 계산하는 것을 제안한다. 전역-배치는 마이크로 배치보다 훨씬 다양한 시퀀스를 포함하므로 말뭉치 수준에서 부하 분산을 촉진할 것이다. 구체적으로, 우리는 f_i를 마이크로 배치 간에 동기화하기 위한 추가 통신 단계를 도입하고 이를 사용하여 LBL을 계산한다. 428억 개의 총 매개변수와 400억 개의 토큰을 사용하여 MoEs 기반 LLMs를 훈련하는 실험을 통해, 우리는 놀랄 만한 결과로 전역-배치 LBL 전략이 사전 훈련 퍼플렉서티와 하위 작업에서 우수한 성능 향상을 보여준다는 것을 발견했다. 우리의 분석 결과, 전역-배치 LBL은 또한 MoE 전문가의 도메인 전문화를 크게 향상시킨다.
본 논문은 UI-TARS를 소개하는데, 이는 스크린샷만을 입력으로 인식하고 키보드 및 마우스 조작과 같은 인간과 유사한 상호작용을 수행하는 네이티브 GUI 에이전트 모델입니다. UI-TARS는 전통적인 에이전트 프레임워크와는 달리 전문가가 작성한 프롬프트와 워크플로에 의존하는 상업용 모델(GPT-4o와 같은)을 사용하지 않고, 이러한 정교한 프레임워크들을 능가하는 엔드 투 엔드 모델입니다. 실험 결과는 UI-TARS의 우수한 성능을 입증합니다. UI-TARS는 지각, 그라운딩 및 GUI 작업 실행을 평가하는 10개 이상의 GUI 에이전트 벤치마크에서 SOTA 성능을 달성합니다. 특히 OSWorld 벤치마크에서 UI-TARS는 50단계에서 24.6, 15단계에서 22.7의 점수를 기록하여 Claude(각각 22.0 및 14.9)를 능가합니다. AndroidWorld에서는 UI-TARS가 46.6으로 GPT-4o(34.5)를 능가합니다. UI-TARS는 다음과 같은 여러 가지 주요 혁신을 통합하고 있습니다: (1) 향상된 지각: 대규모 GUI 스크린샷 데이터셋을 활용하여 UI 요소의 문맥을 이해하고 정확한 캡션을 생성합니다; (2) 통합된 액션 모델링: 플랫폼 간에 액션을 표준화하고 대규모 액션 추적을 통해 정확한 그라운딩과 상호작용을 달성합니다; (3) 시스템-2 추론: 다단계 의사 결정에 신중한 추론을 통합하여 작업 분해, 반성 사고, 중요한 단계 인식 등 다양한 추론 패턴을 포함합니다; (4) 반사적 온라인 추적을 통한 반복적 훈련: 수백 대의 가상 머신에서 새로운 상호작용 추적을 자동으로 수집, 필터링 및 반성적으로 정제하여 데이터 병목 현상에 대응합니다. 반복적인 훈련과 반성 튜닝을 통해 UI-TARS는 지속적으로 실수로부터 학습하고 최소한의 인간 개입으로 예기치 못한 상황에 적응합니다. 또한 GUI 에이전트의 진화 경로를 분석하여 이 도메인의 추가 발전을 안내합니다.
우리는 TokenVerse를 제시합니다 - 사전 훈련된 텍스트-이미지 확산 모델을 활용한 다중 개념 개인화 방법입니다. 우리의 프레임워크는 단일 이미지에서부터 복잡한 시각적 요소와 속성을 분리할 수 있으며, 여러 이미지에서 추출된 개념의 조합을 원활하게 생성할 수 있습니다. 기존 작업과는 달리, TokenVerse는 각각 다중 개념을 포함하는 여러 이미지를 처리할 수 있으며, 물체, 액세서리, 재료, 자세 및 조명을 포함한 다양한 개념을 지원합니다. 우리의 작업은 입력 텍스트가 주의와 변조(이동 및 스케일)를 통해 생성에 영향을 미치는 DiT 기반 텍스트-이미지 모델을 활용합니다. 우리는 변조 공간이 의미론적이며 복잡한 개념에 대한 지역적 제어를 가능하게 한다는 것을 관찰합니다. 이 통찰력을 기반으로, 이미지와 텍스트 설명을 입력으로 취하고, 각 단어에 대해 변조 공간에서 구별된 방향을 찾는 최적화 기반 프레임워크를 고안합니다. 이러한 방향은 원하는 구성에서 학습된 개념을 결합하여 새로운 이미지를 생성하는 데 사용할 수 있습니다. 우리는 TokenVerse의 어려운 개인화 설정에서의 효과를 증명하고, 기존 방법에 비해 그 이점을 시연합니다. 프로젝트 웹페이지는 https://token-verse.github.io/에서 확인할 수 있습니다.
대형 비전 언어 모델(LVLMs)의 유망한 성능에도 불구하고, 때로는 잘못된 출력물을 생성할 수 있습니다. 보상 모델(RMs)을 사용한 강화 학습이나 테스트 시간 스케일링은 생성 품질을 향상시킬 수 있는 잠재력을 제공하지만, 중요한 간극이 남아 있습니다: LVLMs를 위한 공개된 멀티모달 RMs가 부족하며, 소유 모델의 구현 세부 사항은 종종 명확하지 않습니다. InternLM-XComposer2.5-Reward (IXC-2.5-Reward)로 이 간극을 메웁니다. 이는 LVLMs를 인간의 선호도와 조화시키는 간단하면서 효과적인 멀티모달 보상 모델입니다. IXC-2.5-Reward의 견고함과 다용성을 보장하기 위해, 다양한 도메인을 아우르는 텍스트, 이미지 및 비디오 입력을 포함하는 고품질 멀티모달 선호 말뭉치를 구축했습니다. 이는 지시 따르기, 일반적 이해, 텍스트 풍부한 문서, 수학적 추론 및 비디오 이해와 같은 다양한 영역을 포함합니다. IXC-2.5-Reward는 최신 멀티모달 보상 모델 벤치마크에서 우수한 결과를 달성하며 텍스트 전용 보상 모델 벤치마크에서 경쟁력 있는 성능을 보여줍니다. 또한 IXC-2.5-Reward의 세 가지 주요 응용 프로그램을 시연합니다: (1) 강화 학습을 위한 감독 신호 제공. Proximal Policy Optimization (PPO)과 통합된 IXC-2.5-Reward는 지시 따르기 및 멀티모달 오픈 엔드 대화에서 일관된 개선을 보여주는 IXC-2.5-Chat을 제공합니다; (2) 테스트 시간 스케일링을 위해 후보 응답 중 최상의 응답 선택; 그리고 (3) 기존 이미지 및 비디오 지시 튜닝 훈련 데이터에서 이상치나 잡음이 많은 샘플 필터링. 재현성을 보장하고 추가 연구를 용이하게 하기 위해, 모든 모델 가중치와 훈련 레시피를 https://github.com/InternLM/InternLM-XComposer 에 오픈 소스로 제공했습니다.
우리는 고해상도 질감 3D 에셋을 생성하는 고급 대규모 3D 합성 시스템인 Hunyuan3D 2.0을 제시합니다. 이 시스템은 두 가지 기본 구성 요소를 포함합니다: 대규모 형상 생성 모델인 Hunyuan3D-DiT와 대규모 질감 합성 모델인 Hunyuan3D-Paint. 확장 가능한 플로우 기반 확산 트랜스포머에 기반을 둔 형상 생성 모델은 주어진 조건 이미지와 적절하게 정렬된 지오메트리를 생성하여 하류 응용 프로그램을 위한 견고한 기초를 제공하는 것을 목표로 합니다. 강력한 기하학적 및 확산 사전 지식을 활용하는 질감 합성 모델은 생성된 메쉬나 수동으로 제작된 메쉬에 대해 고해상도와 생동감 있는 질감 맵을 생성합니다. 더불어, 우리는 Hunyuan3D-Studio를 구축했는데, 이는 3D 에셋의 재창조 과정을 간소화하는 다목적이고 사용자 친화적인 제작 플랫폼입니다. 이를 통해 전문가와 아마추어 사용자 모두가 자신의 메쉬를 효율적으로 조작하거나 애니메이션화할 수 있습니다. 우리는 체계적으로 모델을 평가하며, Hunyuan3D 2.0이 기하학 세부 정보, 조건 정렬, 질감 품질 등에서 공개 소스 모델 및 폐쇄 소스 모델을 포함한 이전 최첨단 모델들을 능가함을 보여줍니다. Hunyuan3D 2.0은 대규모 기반 생성 모델에 대한 오픈 소스 3D 커뮤니티의 공백을 메우기 위해 공개적으로 공개되었습니다. 우리 모델의 코드와 사전 훈련된 가중치는 다음에서 확인할 수 있습니다: https://github.com/Tencent/Hunyuan3D-2
추론 언어 모델 (RLM), 또는 대규모 추론 모델 (LRM)로도 알려진 OpenAI의 o1 및 o3, DeepSeek-V3, 그리고 Alibaba의 QwQ와 같은 모델들은 대규모 언어 모델 (LLM)을 고급 추론 메커니즘으로 확장함으로써 AI의 문제 해결 능력을 재정의했습니다. 그러나, 강화 학습 (RL), 탐색 휴리스틱, 그리고 LLM을 독특하게 결합한 복잡한 아키텍처로 인해 높은 비용, 소유권 특성, 그리고 접근성 및 확장 가능성에 도전이 존재합니다. 이를 해결하기 위해, 우리는 RLM 구성 요소를 모듈식 프레임워크로 구성하는 포괄적인 청사진을 제안합니다. 이 청사진은 모든 RLM 작업을 조사하고 분석을 기반으로 다양한 추론 구조 (체인, 트리, 그래프, 중첩 형태), 추론 전략 (예: 몬테카를로 트리 탐색, 빔 탐색), RL 개념 (정책, 가치 모델 등), 그리고 감독 체계 (출력 기반 및 프로세스 기반 감독)을 통합합니다. 또한 RLM 구현을 간소화하기 위해 자세한 수학적 공식 및 알고리즘 사양을 제공합니다. LLaMA-Berry, QwQ, Journey Learning, 그리고 Graph of Thoughts와 같은 특수 케이스로 어떻게 청사진이 다재다능성과 통합 가능성을 보여주는지 설명함으로써 그 유용성을 보여줍니다. 우리는 신속한 RLM 프로토타이핑과 실험을 위한 모듈식 구현인 x1을 소개하여 이를 설명합니다. x1과 문헌 검토를 통해 정책 및 가치 모델의 다단계 훈련, 그리고 익숙한 훈련 분포의 중요성과 같은 주요 통찰을 제공합니다. 마지막으로, RLM이 도구 및 데이터베이스를 포함한 더 넓은 LLM 생태계와 통합하는 방법을 개요로 설명합니다. 우리의 연구는 RLM 구축을 명료화하고 고급 추론 능력을 민주화하며 혁신을 촉진하여 RLM 개발과 실험에 대한 장벽을 낮춤으로써 "부자 AI"와 "가난한 AI" 사이의 격차를 완화하고자 합니다.
현대 생활에서 스마트폰은 필수품이 되었지만, 모바일 기기에서 복잡한 작업을 탐색하는 것은 종종 괴로운 일로 남아 있습니다. 대형 다중 모달 모델(LMM) 기반 모바일 에이전트의 최근 발전은 모바일 환경에서 인식하고 행동할 수 있는 능력을 증명했습니다. 그러나 현재의 접근 방식은 실제 인간의 필요를 해결하는 데 부족하며, 추론 집중적이고 장기적인 작업에 어려움을 겪으며, 이전 경험으로부터 학습하고 개선하는 메커니즘이 부족합니다. 이러한 도전에 대처하기 위해 우리는 Mobile-Agent-E를 소개합니다. 이는 과거 경험을 통해 스스로 진화할 수 있는 계층적 다중 에이전트 프레임워크입니다. 여기서 계층적이라 함은 고수준 계획과 저수준 행동 실행을 명시적으로 분리한다는 것을 의미합니다. 이 프레임워크는 복잡한 작업을 하위 목표로 분해하여 전반적인 계획을 세우는 Manager와 시각 인식, 즉각적인 행동 실행, 오류 검증 및 정보 집계를 처리하는 네 개의 하위 에이전트인 Perceptor, Operator, Action Reflector 및 Notetaker로 구성됩니다. Mobile-Agent-E에는 이전 작업에서 효과적으로 환경과 상호 작용하는 방법에 대한 일반적인 지침 및 배운 교훈인 Tips로 구성된 지속적인 장기 기억을 유지하는 혁신적인 자체 진화 모듈이 포함되어 있습니다. Shortcuts는 특정 서브루틴에 맞게 맞춤화된 실행 가능한 원자 작업 시퀀스로, Tips와 Shortcuts의 포함은 성능과 효율성의 지속적인 개선을 용이하게 합니다. 이 프레임워크와 함께, 장기적이고 다중 앱 상호 작용이 필요한 복잡한 모바일 작업을 특징으로 하는 새로운 벤치마크인 Mobile-Eval-E를 소개합니다. 경험적 결과는 Mobile-Agent-E가 세 가지 주요 모델 백본에서 이전 최첨단 접근 방식에 비해 22%의 절대적인 개선을 달성했음을 보여줍니다. 프로젝트 페이지: https://x-plug.github.io/MobileAgent.
대규모 언어 모델 (LLM)에 의해 구동되는 자율 에이전트는 이메일 보내기부터 데이터 분석 수행까지 디지털 작업을 돕는 데 있어 인간의 능력을 향상시킬 수 있는 잠재력을 가지고 있습니다. 해당 작업에 대한 기존 LLM의 능력은 종종 상호 작용하는 환경으로부터의 고품질 에이전트 데이터 부족으로 제약을 받습니다. 우리는 인간 주석 없이 주어진 환경에 LLM 에이전트를 적응시키기 위한 데이터 중심 프레임워크인 상호작용 학습을 제안합니다. 상호작용 학습은 문서를 기반으로 에이전트-환경 상호작용의 궤적을 합성하고 상호작용 기록을 요약하거나 추상화하여 지시사항을 작성하는 역방향 구성이라는 프로세스를 통해 이루어집니다. 우리는 합성 데이터의 품질을 평가하기 위해 이를 훈련 기반 시나리오와 훈련 없이 콘텍스트 학습(ICL)에서 사용하여 에이전트에 최적화된 혁신적인 검색 접근 방식을 개발합니다. 현실적인 코딩, 웹, 데스크톱 환경을 포괄하는 SWE-bench, WebArena, OSWorld 및 Spider2-V에서의 광범위한 실험은 상호작용 학습이 다양한 하위 에이전트 작업에서 효과적임을 보여줍니다. Claude-3.5의 ICL에서 최대 12.2\%, Codestral-22B의 훈련에서 최대 19.5\%의 기준 결과가 향상됩니다. 또한 훈련에 대한 최대 14.0\%의 향상을 제공하는 역방향 구성의 중요성을 더욱 입증합니다. 우리의 합성 데이터가 ICL에서 제공하는 효율성과 전통적인 검색 보강 생성 (RAG)과 같은 대안적 접근 방식에 비해 우리의 검색 파이프라인의 우월성을 입증하는 연구를 통해 우리는 상호작용 학습이 LLM이 현실 환경에서 점점 더 배치됨에 따라 에이전트 데이터 합성의 기초로 작용할 것으로 기대합니다.
Depth Anything는 단안 깊이 추정에서 뛰어난 성과를 거두었으며 강력한 일반화 능력을 갖추고 있습니다. 그러나 비디오에서 시간적 불일치로 인해 실용적인 응용이 제약을 받고 있습니다. 비디오 생성 모델을 활용하거나 광학 흐름과 카메라 포즈로부터 사전 정보를 도입함으로써 이 문제를 완화하기 위한 다양한 방법이 제안되었습니다. 그러나 이러한 방법은 짧은 비디오(< 10초)에만 적용 가능하며 품질과 계산 효율성 사이의 교환을 필요로 합니다. 저희는 효율성을 희생하지 않고 초장기 비디오(수 분 이상)에서 고품질이고 일관된 깊이 추정을 위한 비디오 깊이 모델을 제안합니다. 저희는 Depth Anything V2를 기반으로 하고 효율적인 공간-시간 헤드로 그 헤드를 대체합니다. 시간적 일관성 손실을 통해 간단하면서도 효과적인 시간적 일관성 손실을 설계함으로써 시간적 깊이 그라디언트를 제약하여 추가 기하학적 사전 정보가 필요 없게 합니다. 모델은 비디오 깊이와 라벨이 없는 이미지의 공동 데이터셋에서 훈련되며, Depth Anything V2와 유사합니다. 게다가, 장기 비디오 추론을 위해 새로운 키프레임 기반 전략이 개발되었습니다. 실험 결과, 저희 모델은 품질, 일관성 또는 일반화 능력을 희생하지 않고 임의로 긴 비디오에 적용될 수 있음을 보여줍니다. 여러 비디오 벤치마크에서의 포괄적인 평가는 저희 접근 방식이 제로샷 비디오 깊이 추정에서 새로운 최첨단을 세웠음을 입증합니다. 다양한 시나리오를 지원하기 위해 다양한 규모의 모델을 제공하며, 가장 작은 모델은 30 FPS의 실시간 성능을 제공할 수 있습니다.
생성 모델링은 무작위 잡음을 구조화된 출력물로 변환하는 것을 목표로 합니다. 본 연구에서는 움직임 제어를 가능하게 함으로써 비디오 확산 모델을 향상시킵니다. 구조화된 잠재적 잡음 샘플링을 허용함으로써 이를 달성합니다. 이는 데이터의 변경만으로 이루어집니다: 우리는 훈련 비디오를 전처리하여 구조화된 잡음을 생성합니다. 결과적으로, 우리의 방법은 확산 모델 설계에 중립적이며, 모델 아키텍처나 훈련 파이프라인을 변경할 필요가 없습니다. 구체적으로, 우리는 새로운 잡음 왜곡 알고리즘을 제안합니다. 이 알고리즘은 실시간으로 실행할 수 있을 만큼 빠르며, 광학 흐름 필드에서 파생된 상관된 왜곡된 잡음으로 무작위 시간적 가우시안성을 대체하면서 공간적 가우시안성을 보존합니다. 우리의 알고리즘의 효율성은 왜곡된 잡음을 사용하여 최신 비디오 확산 기본 모델을 세밀하게 조정할 수 있게 하며, 지연을 최소화하면서 다양한 사용자 친화적 움직임 제어에 대한 일괄적인 솔루션을 제공합니다: 지역 객체 움직임 제어, 전역 카메라 이동 제어 및 움직임 전송. 우리의 왜곡된 잡음에서의 시간적 일관성과 공간적 가우시안성의 조화는 프레임 당 픽셀 품질을 유지하면서 효과적인 움직임 제어로 이어집니다. 광범위한 실험과 사용자 연구를 통해 우리의 방법의 장점이 입증되었으며, 비디오 확산 모델에서 움직임을 제어하기 위한 견고하고 확장 가능한 접근 방식으로 만들어졌음을 확인할 수 있습니다. 비디오 결과물은 저희 웹페이지에서 확인할 수 있습니다: https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow. 소스 코드와 모델 체크포인트는 GitHub에서 확인할 수 있습니다: https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow.
우리는 사진 메타데이터에 포함된 GPS 태그가 이미지 생성을 위한 유용한 제어 신호를 제공한다는 것을 보여줍니다. 우리는 GPS-to-image 모델을 훈련시키고, 도시 내에서 이미지가 어떻게 다양하게 변하는지에 대한 세밀한 이해가 필요한 작업에 사용합니다. 특히, 우리는 GPS와 텍스트에 의존하는 이미지 생성을 위해 확산 모델을 훈련시킵니다. 학습된 모델은 서로 다른 동네, 공원 및 랜드마크의 독특한 외관을 담은 이미지를 생성합니다. 또한 GPS 조건을 활용하여 2D GPS-to-image 모델에서 3D 모델을 추출하는데 점수 증류 샘플링을 사용하며, 각 관점에서 재구성의 외관을 제약하는 데 GPS 조건을 활용합니다. 우리의 평가는 GPS 조건부 모델이 위치에 따라 다양한 이미지를 생성하는 것을 성공적으로 학습하며, GPS 조건이 추정된 3D 구조를 개선하는 것을 보여줍니다.
지도 미세 조정(Supervised Fine-Tuning, SFT) 데이터의 품질은 대형 언어 모델(Large Language Models, LLMs)의 대화 능력을 향상하는 데 중요한 역할을 합니다. 그러나 LLMs가 더욱 발전함에 따라 고품질의 인간 주석이 달린 SFT 데이터의 가용성은 중대한 병목 현상이 되어, 합성 훈련 데이터에 대한 의존이 더욱 필요해졌습니다. 본 연구에서는 세계 지식 트리(World Knowledge Tree)와 자기 반성 정제(Self-Reflection Refinement)를 통합한 혁신적인 이중 단계 합성 데이터 생성 프레임워크인 Condor를 소개합니다. 우리의 실험 결과는 단지 20,000개의 Condor 생성 샘플로 미세 조정된 기본 모델이 동등한 대조군에 비해 우수한 성능을 달성함을 보여줍니다. Condor의 추가 정제 단계는 LLMs의 다양한 규모(최대 720억)에서 반복적인 자체 개선을 가능하게 하여 우리의 방법의 효과를 입증합니다. 더 나아가, 후속 훈련에서 합성 데이터의 확장에 대한 우리의 조사는 성능 향상을 위한 상당한 미개척 잠재력을 드러내며, 미래 연구를 위한 유망한 방향을 열어줍니다.
본 논문에서는 표현력 풍부한 얼굴 표정과 손 제스처를 동시에 생성할 수 있는 혁신적인 오디오 주도형 토킹 헤드 방법을 제안합니다. 전체 몸이나 반 몸 포즈 생성에 초점을 맞춘 기존 방법과 달리, 우리는 공동 언어 제스처 생성의 어려움을 조사하고 오디오 특징과 전체 몸 제스처 간의 약한 대응을 주요 제한 요소로 확인합니다. 이를 해결하기 위해 우리는 이 작업을 두 단계 과정으로 재정의합니다. 첫 번째 단계에서는 오디오 입력으로부터 손 자세를 직접 생성하며, 오디오 신호와 손 움직임 간의 강한 상관 관계를 활용합니다. 두 번째 단계에서는 확산 모델을 사용하여 비디오 프레임을 합성하며, 첫 번째 단계에서 생성된 손 자세를 통합하여 현실적인 얼굴 표정과 몸의 움직임을 생성합니다. 실험 결과는 제안된 방법이 시각적 품질과 동기화 정확도 측면에서 CyberHost와 Vlogger와 같은 최첨단 접근법을 능가함을 입증합니다. 이 연구는 오디오 주도 제스처 생성에 대한 새로운 시각을 제시하고 표현력 풍부하고 자연스러운 토킹 헤드 애니메이션을 만들기 위한 견고한 프레임워크를 제공합니다.
우리는 MAGI를 소개합니다. MAGI는 intra-frame 생성을 위한 마스크 모델링과 next-frame 생성을 위한 인과 모델링을 결합한 하이브리드 비디오 생성 프레임워크입니다. 우리의 주요 혁신인 Complete Teacher Forcing (CTF)은 마스크된 프레임을 마스크된 것이 아닌 완전한 관찰 프레임에 조건을 걸어주는 것(Masked Teacher Forcing, MTF)으로, 토큰 수준(패치 수준)에서부터 프레임 수준의 자기 회귀 생성으로의 부드러운 전환을 가능하게 합니다. CTF는 MTF를 크게 능가하여, 첫 번째 프레임 조건화 비디오 예측에서 FVD 점수에서 +23%의 개선을 달성합니다. 노출 편향과 같은 문제를 해결하기 위해 우리는 목표 지향적인 훈련 전략을 채택하여, 자기 회귀 비디오 생성에서 새로운 기준을 설정합니다. 실험 결과, MAGI는 16프레임만 훈련되어도 100프레임을 초과하는 긴, 일관된 비디오 시퀀스를 생성할 수 있음을 보여주며, 확장 가능하고 고품질의 비디오 생성 가능성을 강조합니다.
우리는 트랜스포머 모델 내에서 토큰 임베딩의 기하학과 다음 토큰 예측에서의 역할 사이의 관계를 조사합니다. 이 연결의 중요한 측면은 토큰 포인트 클라우드의 분포를 인코딩하는 경험적 측도의 개념을 사용하는 것인데, 이는 트랜스포머 레이어 간에 토큰 표현의 진화를 주도합니다. 우리는 내재적 차원, 이웃 중첩, 코사인 유사도와 같은 메트릭을 사용하여 이러한 경험적 측도를 층별로 관찰적으로 조사합니다. 우리의 접근 방식을 검증하기 위해, 토큰이 섞인 데이터셋과 이러한 메트릭을 비교합니다. 이는 구문 및 의미 구조를 방해하는 데이터셋이며, 우리의 발견은 토큰 임베딩의 기하학적 특성과 다음 토큰 예측의 교차 엔트로피 손실 사이에 상관 관계를 보여줍니다. 이는 손실 값이 더 높은 프롬프트가 더 높은 차원 공간에서 표현된 토큰을 가지고 있다는 것을 시사합니다.
시각-언어 모델(Vision-language models, VLMs)은 이미지와 텍스트 입력을 처리하는데, 최근에는 채팅 어시스턴트 및 다른 소비자 AI 응용 프로그램에 점점 더 통합되고 있습니다. 그러나 적절한 안전장치 없이 VLMs는 해로운 조언(예: 자해 방법)을 제공하거나 안전하지 않은 행동(예: 약물 복용 권유)을 장려할 수 있습니다. 이러한 명백한 위험에도 불구하고, 지금까지 VLM 안전성을 평가하고 다중 모달 입력에 의해 생성된 새로운 위험을 조사한 연구는 거의 없습니다. 이러한 공백을 해결하기 위해 우리는 VLMs를 위한 다중 모달 안전성 테스트 스위트인 MSTS를 소개합니다. MSTS는 40가지의 세부 위험 범주를 포함한 400개의 테스트 프롬프트로 구성되어 있습니다. 각 테스트 프롬프트는 텍스트와 이미지로 구성되어 있으며, 이 둘이 결합될 때에만 그들의 전체적인 위험한 의미를 드러냅니다. MSTS를 사용하여, 우리는 몇몇 공개 VLMs에서 명확한 안전 문제를 발견했습니다. 또한 어떤 VLMs는 우연히 안전하다는 것을 발견했는데, 이는 심지어 간단한 테스트 프롬프트를 이해하지 못하여 안전하다는 것을 의미합니다. 우리는 MSTS를 열 가지 언어로 번역하여, 영어 이외의 프롬프트를 보여주어 안전하지 않은 모델 응답률을 높이고 있습니다. 또한 다중 모달 프롬프트보다는 텍스트만 사용하여 모델을 테스트할 때 더 안전하다는 것을 보여줍니다. 마지막으로, VLM 안전성 평가의 자동화를 탐구하며, 최고의 안전 분류기조차 부족함을 발견하고 있습니다.
개인 맞춤형 뉴스 헤드라인 생성은 사용자의 관심사에 맞게 맞춤형으로 제공되는 주목할 만한 헤드라인을 목표로 합니다. 기존 방법은 사용자 중심의 콘텐츠 선호를 중점으로 하지만 대부분은 사용자의 풍부한 관심사에 필수적인 다양한 스타일적 선호를 간과하여 최적화되지 않은 맞춤화로 이어집니다. 이에 우리는 새로운 스타일-콘텐츠 인식 맞춤형 헤드라인 생성(SCAPE) 프레임워크를 제안합니다. SCAPE는 대형 언어 모델(LLM) 협업을 통해 헤드라인에서 콘텐츠 및 스타일적 특징을 추출합니다. 또한 대조 학습 기반 계층적 퓨전 네트워크를 통해 사용자의 장기 및 단기 관심사를 적응적으로 통합합니다. SCAPE는 풍부한 관심사를 헤드라인 생성기에 통합함으로써 사용자의 스타일-콘텐츠 선호를 반영합니다. 실제 데이터셋 PENS에서의 광범위한 실험 결과는 SCAPE의 기존 방법 대비 우수함을 입증합니다.
대형 비전 언어 모델(LVLMs)은 시각-언어 작업 전반에 걸쳐 최첨단 성능을 달성하며 시각 콘텐츠를 이해하고 설명하는 놀라운 능력을 보여주었습니다. 그러나 이러한 모델들은 종종 환각 행동을 나타내어 입력 이미지에 없는 객체나 세부 사항을 포함하는 설명을 생성합니다. 본 연구는 트랜스포머 레이어와 헤드 간의 주의 패턴을 분석하여 환각이 주로 깊은 레이어에서 시각적 근거의 점진적 붕괴에서 비롯된다는 것을 밝혀낸다. 우리는 시각적 근거를 생성 프로세스 전체에서 유지하기 위해 선택적 토큰 강조와 헤드별 조절을 결합하는 새로운 주의 수정 접근법을 제안합니다. 우리의 방법은 두 가지 주요 구성 요소를 도입합니다: (1) 로컬로 정보를 제공하고 공간적으로 중요한 시각적 토큰을 식별하고 우선 순위를 매기는 이중 스트림 토큰 선택 메커니즘, 그리고 (2) 측정된 개별 주의 헤드의 시각적 민감도에 기초하여 시각 정보 처리를 차별적으로 증폭하는 주의 헤드별 조절 전략. MSCOCO 데이터셋에서의 광범위한 실험을 통해 우리의 접근법이 기준 모델과 비교하여 환각 비율을 최대 62.3%까지 줄이면서 비슷한 작업 성능을 유지함을 보여줍니다. 우리의 분석은 시각적 민감도가 다른 주의 헤드 간에 토큰을 선택적으로 변조함으로써 모델 재교육이 필요하지 않고도 시각적 근거를 크게 향상시킬 수 있다는 것을 보여줍니다.