번역이 포함된 일일 선별된 AI 연구 논문
이 보고서에서는 다양한 요구를 충족시키기 위해 설계된 포괄적인 대형 언어 모델 (LLM) 시리즈인 Qwen2.5를 소개합니다. 이전 버전과 비교하여 Qwen 2.5는 사전 훈련 및 사후 훈련 단계 모두에서 크게 개선되었습니다. 사전 훈련 측면에서는 이전 7조 토큰에서 18조 토큰으로 고품질 사전 훈련 데이터셋을 확장했습니다. 이는 상식, 전문 지식 및 추론 능력에 강력한 기반을 제공합니다. 사후 훈련 측면에서는 100만 개 이상의 샘플을 사용한 복잡한 지도 미세 조정 및 다단계 강화 학습을 구현했습니다. 사후 훈련 기술은 인간의 선호도를 향상시키고, 긴 텍스트 생성, 구조적 데이터 분석 및 지시 따르기를 현저히 개선합니다. 다양하고 다양한 사용 사례를 효과적으로 처리하기 위해 우리는 풍부한 크기의 Qwen2.5 LLM 시리즈를 제공합니다. 베이스 및 지시 조정 모델을 포함한 오픈 웨이트 제공물과 양자화된 버전이 있습니다. 또한 호스팅 솔루션을 위해 독점 모델로는 Qwen2.5-Turbo 및 Qwen2.5-Plus 두 가지 MoE(Mixture of Experts) 변형이 현재 Alibaba Cloud Model Studio에서 제공됩니다. Qwen2.5는 언어 이해, 추론, 수학, 코딩, 인간의 선호도 조정 등을 평가하는 다양한 벤치마크에서 최고 수준의 성능을 보여주었습니다. 특히 오픈 웨이트의 주력인 Qwen2.5-72B-Instruct는 여러 오픈 및 독점 모델을 능가하며, 약 5배 큰 최첨단 오픈 웨이트 모델인 Llama-3-405B-Instruct와 경쟁력 있는 성능을 보여줍니다. Qwen2.5-Turbo와 Qwen2.5-Plus는 GPT-4o-mini 및 GPT-4o와 각각 경쟁력 있는 성능을 발휘하면서 우수한 비용 대비 효율성을 제공합니다. 또한 Qwen2.5 모델은 Qwen2.5-Math, Qwen2.5-Coder, QwQ 및 다중 모달 모델을 훈련하는 데 중요한 역할을 하였습니다.
다단계 다중 모달 추론 작업은 다중 모달 대형 언어 모델(MLLMs)에 대한 중요한 도전 과제를 제기하며, 이러한 시나리오에서 성능을 향상시키는 효과적인 방법을 찾는 것은 미해결된 문제입니다. 본 논문에서는 MLLMs의 추론 능력을 점진적으로 향상시키기 위해 Active Retrieval (AR) 및 Monte Carlo Tree Search (MCTS)를 통합적으로 개선하기 위한 범용 프레임워크인 AR-MCTS를 제안합니다. 저희의 접근 방식은 하이브리드 모달 검색 말뭉치에서 복잡한 추론 문제를 해결하기 위한 주요 지원 통찰을 검색하는 통합 검색 모듈의 개발으로 시작합니다. 자동화된 다중 모달 추론 검증의 간극을 좁히기 위해 MCTS 알고리즘과 활성 검색 메커니즘을 결합하여 각 단계별 주석을 자동으로 생성할 수 있도록 합니다. 이 전략은 전통적인 빔 검색 샘플링을 넘어서 각 추론 단계에 대한 주요 통찰을 동적으로 검색하여 추론 공간의 다양성과 신뢰성을 향상시킵니다. 또한, 다단계 보상 모델을 소개하여 다중 모달 추론 작업의 자동 검증을 지원하도록 점진적으로 조정합니다. 세 가지 복잡한 다중 모달 추론 벤치마크를 통한 실험 결과는 AR-MCTS 프레임워크가 다양한 다중 모달 모델의 성능을 향상시키는 데 효과적임을 확인합니다. 추가 분석에서 AR-MCTS가 샘플링 다양성과 정확도를 최적화하며 신뢰할 수 있는 다중 모달 추론을 제공함을 보여줍니다.
다중 모달 검색에 대한 빠르게 증가하는 수요에도 불구하고, 이 분야의 발전은 훈련 데이터 부족으로 심각하게 제약되어 있다. 본 논문에서는 비전 언어 모델(VLMs)과 오픈 도메인 이미지를 활용한 혁신적인 데이터 합성 방법인 MegaPairs를 소개한다. 이 방법으로 생성된 대규모 합성 데이터셋을 사용하여, MegaPairs가 고품질 데이터를 생성하며, 다중 모달 검색기가 기존 데이터셋에서 70배 더 많은 데이터로 훈련된 기준 모델을 크게 능가할 수 있음을 경험적으로 분석하였다. 또한 MegaPairs는 일반 이미지 코퍼스와 오픈 소스 VLMs에만 의존하므로 쉽게 확장이 가능하며, 검색 성능을 지속적으로 향상시킬 수 있다. 이 단계에서 우리는 이 데이터를 사용하여 2600만 개 이상의 훈련 인스턴스를 생성하고, 이 데이터를 사용하여 다양한 크기의 모델을 훈련시켰다. 이 새로운 모델들은 4가지 인기 있는 구성 이미지 검색(CIR) 벤치마크와 MMEB가 제공하는 36개 데이터셋에서 최첨단 제로샷 성능을 달성하며, 추가적인 하류 미세 조정으로 주목할만한 성능 향상을 보여주었다. 우리가 제작한 데이터셋, 훈련된 모델, 그리고 데이터 합성 파이프라인은 이 분야의 미래 발전을 촉진하기 위해 공개적으로 제공될 것이다.
합성 데이터에서의 모델 붕괴는 자체 생성된 데이터에 대한 반복적인 훈련이 성능 저하로 이어진다는 것을 나타낸다. AI 모델의 증가로 인해, 합성 데이터는 웹 데이터 생태계를 근본적으로 변화시킬 것이다. 미래의 GPT-{n} 모델은 불가피하게 합성 및 인간 제작 데이터의 혼합으로 훈련될 것이다. 본 논문에서는 합성 데이터가 언어 모델 훈련에 미치는 영향과 모델 붕괴 없이 데이터를 합성하는 방법에 초점을 맞춘다. 우리는 먼저 다양한 비율의 합성 데이터를 사용하여 언어 모델 사전 훈련을 실시하고, 합성 데이터의 비율과 모델 성능 사이의 부정적 상관 관계를 밝혀냈다. 또한 합성 데이터에 대한 통계 분석을 통해 분포 이동 현상과 n-그램 특징의 과도한 집중을 발견했다. 위 발견을 바탕으로 우리는 인간 제작 데이터에 대한 토큰 편집을 제안하여 반 합성 데이터를 얻었다. 개념 증명으로, 우리는 토큰 수준의 편집이 모델 붕괴를 방지할 수 있음을 이론적으로 증명하였다. 실험에서 테스트 오류가 한정된 상한으로 제한되므로 토큰 수준의 편집이 모델 성능을 향상시키는 것을 보여주었다. 우리는 처음부터 사전 훈련, 계속적인 사전 훈련 및 지도된 세밀한 조정에 대해 포괄적인 실험을 실시했다. 결과는 토큰 수준의 편집이 데이터 품질을 향상시키고 모델 성능을 향상시킨다는 우리의 이론적 증명을 확인한다.
본 논문은 LLMs의 능력을 평가하기 위해 설계된 LongBench v2를 소개합니다. LongBench v2는 현실 세계의 다중 작업을 통해 깊은 이해와 추론이 필요한 긴 문맥 문제를 다룰 수 있는 능력을 평가하기 위한 벤치마크입니다. LongBench v2는 총 503개의 어려운 객관식 문제로 구성되어 있으며, 문맥은 8k에서 2M 단어에 이르기까지 다양합니다. 이는 단일 문서 QA, 다중 문서 QA, 긴 문맥 학습, 긴 대화 이력 이해, 코드 저장소 이해, 그리고 긴 구조화된 데이터 이해와 같은 여섯 가지 주요 작업 범주로 구성되어 있습니다. 우리는 다양한 전문적 배경을 가진 거의 100명의 교육 수준이 높은 개인들로부터 데이터를 수집하여 범위와 실용성을 보장합니다. 우리는 고품질과 난이도를 유지하기 위해 자동 및 수동 검토 과정을 동시에 활용하며, 이로써 15분 시간 제약 하에 인간 전문가들의 정확도는 53.7%에 불과합니다. 우리의 평가 결과, 질문에 직접 답변할 때 가장 성능이 우수한 모델은 50.1%의 정확도에 그칩니다. 반면, 더 긴 추론을 포함하는 o1-preview 모델은 57.7%의 정확도를 달성하여, 인간의 기준치를 4% 초과하였습니다. 이러한 결과는 LongBench v2의 긴 문맥 도전 과제를 해결하기 위해 향상된 추론 능력과 추론 시간 컴퓨팅의 확장의 중요성을 강조합니다. 해당 프로젝트는 https://longbench2.github.io에서 이용 가능합니다.
확산 모델 및 이를 일반화한 Flow Matching은 미디어 생성 분야에 높은 영향을 미쳤습니다. 여기서 전통적인 접근 방식은 가우시안 노이즈의 간단한 소스 분포에서 대상 미디어 분포로의 복잡한 매핑을 학습하는 것입니다. 텍스트에서 이미지로의 생성과 같은 교모달 작업의 경우, 노이즈에서 이미지로의 동일한 매핑을 학습하면서 모델에 조건 부여 메커니즘을 포함합니다. Flow Matching의 중요하고 현재까지 상대적으로 탐구되지 않은 특징 중 하나는, 확산 모델과는 달리 소스 분포가 노이즈로 제한되지 않는다는 것입니다. 따라서 본 논문에서는 패러다임 변화를 제안하고, 한 모달리티의 분포에서 다른 모달리티의 분포로 직접 매핑을 학습할 수 있는지에 대한 질문을 제기합니다. 이를 통해 노이즈 분포와 조건 부여 메커니즘 모두를 필요로하지 않도록 Flow Matching 모델을 훈련할 수 있는 CrossFlow라는 일반적이고 간단한 프레임워크를 제안합니다. 입력 데이터에 변분 인코더를 적용하는 중요성을 보여주고, 분류기 없는 가이드를 가능하게 하는 방법을 소개합니다. 놀랍게도, 텍스트에서 이미지로의 경우, 교차 어텐션 없는 바닐라 트랜스포머를 사용한 CrossFlow가 표준 Flow Matching보다 성능이 약간 우수하며, 훈련 단계와 모델 크기에 더 잘 확장되며, 출력 공간에서 의미 있는 편집을 가능하게 하는 흥미로운 잠재 산술을 허용합니다. 접근 방법의 일반화 가능성을 입증하기 위해, CrossFlow가 이미지 캡션, 깊이 추정 및 이미지 초해상화와 같은 다양한 교모달 / 내모달 매핑 작업에서 최첨단 기술과 어느 정도 동등하거나 능가함을 보여줍니다. 본 논문이 교모달 미디어 생성 분야의 진전을 가속화하는 데 기여할 것으로 기대합니다.
드래그 기반 상호 작용의 직관적인 특성으로 인해 이미지에서 비디오로의 합성에서 물체 궤적을 제어하는 데 사용되는 채택이 증가하고 있습니다. 그럼에도 불구하고 2D 공간에서 드래깅을 수행하는 기존 방법들은 주로 평면 외 이동을 처리할 때 모호함에 직면합니다. 본 연구에서는 사용자가 궤적의 각 지점에 상대적인 깊이를 할당할 수 있도록 하는 새로운 차원, 즉 깊이 차원을 추가하여 상호 작용을 확장합니다. 이렇게 하면 새로운 상호 작용 패러다임은 2D 드래깅에서의 편의성을 계승할 뿐만 아니라 3D 공간에서의 궤적 제어를 용이하게 하며 창의성의 범위를 확장합니다. 우리는 물체 마스크를 몇 개의 클러스터 지점으로 추상화하여 이미지에서 비디오로의 합성에서 3D 궤적 제어를 위한 개척적인 방법을 제안합니다. 이러한 지점들은 깊이 정보와 인스턴스 정보와 함께 비디오 확산 모델로 제어 신호로 최종 공급됩니다. 광범위한 실험을 통해 우리의 접근 방식인 LeviTor가 정적 이미지로부터 사실적인 사진을 생성할 때 물체 이동을 정확하게 조작하는 데 효과적임을 검증합니다. 프로젝트 페이지: https://ppetrichor.github.io/levitor.github.io/
일반적인 이미지 편집 작업 중 하나인 이미지 합성은 전경 객체를 배경 장면에 통합하는 것을 포함합니다. 본 논문에서는 인간 중심 이미지 합성 작업에서 개념적으로 Affordance를 확장하여 보다 일반적인 객체-장면 합성 프레임워크로 확장하며, 전경 객체와 배경 장면 간의 복잡한 상호 작용을 다룹니다. Affordance의 원칙을 따라, 우리는 affordance를 고려한 객체 삽입 작업을 정의합니다. 이 작업은 다양한 위치 프롬프트로 어떤 객체든 어떤 장면에 매끄럽게 삽입하는 것을 목표로 합니다. 제한된 데이터 문제를 해결하고 이 작업을 통합하기 위해 SAM-FB 데이터셋을 구축했습니다. 이 데이터셋은 3,000개 이상의 객체 범주를 포함한 3백만 개 이상의 예제를 담고 있습니다. 더 나아가, 우리는 Mask-Aware Dual Diffusion (MADD) 모델을 제안합니다. 이 모델은 이중 스트림 아키텍처를 활용하여 RGB 이미지와 삽입 마스크를 동시에 제거합니다. 확산 프로세스에서 삽입 마스크를 명시적으로 모델링함으로써, MADD는 affordance 개념을 효과적으로 촉진합니다. 방대한 실험 결과는 우리의 방법이 최첨단 방법을 능가하고 야외 이미지에 대해 강력한 일반화 성능을 나타낸다는 것을 보여줍니다. https://github.com/KaKituken/affordance-aware-any에서 코드를 참조해주시기 바랍니다.
본 논문에서는 복잡한 수학 문제를 해결하는 데 뛰어난 선두 수학 모델 모음인 AceMath를 소개합니다. 또한 생성된 솔루션을 평가하고 올바른 솔루션을 신뢰할 수 있는 방식으로 식별할 수 있는 매우 효과적인 보상 모델도 함께 소개합니다. 지시어에 맞게 조정된 수학 모델을 개발하기 위해 우리는 먼저 일반 도메인에서 경쟁력 있는 성능을 달성하는 감독된 미세 조정(SFT) 프로세스를 제안하고, 이어서 주의 깊게 선별된 프롬프트 세트와 합성으로 생성된 응답을 사용하여 수학 도메인을 위한 특정 미세 조정을 수행합니다. 결과적으로 AceMath-72B-Instruct 모델은 Qwen2.5-Math-72B-Instruct, GPT-4o 및 Claude-3.5 Sonnet을 크게 앞서나갑니다. 수학에 특화된 보상 모델을 개발하기 위해 먼저 AceMath-RewardBench를 구축하여 다양한 문제와 난이도 수준에서 수학 보상 모델을 평가하는 포괄적이고 견고한 벤치마크를 제시합니다. 그 후에는 수학 보상 모델을 구축하기 위한 체계적인 방법을 제시합니다. 결과적으로 AceMath-72B-RM 모델은 최첨단 보상 모델을 일관되게 앞섭니다. 또한 AceMath-72B-Instruct와 AceMath-72B-RM을 결합할 때 수학 추론 벤치마크 전체에서 가장 높은 평균 rm@8 점수를 달성합니다. 우리는 모델 가중치, 훈련 데이터 및 평가 벤치마크를 다음 링크에서 공개할 예정입니다: https://research.nvidia.com/labs/adlr/acemath
절차적 콘텐츠 생성 (PCG)은 고품질 3D 콘텐츠를 생성하는 데 강력하지만 원하는 형상을 생성하고 제어하는 것은 어렵고 종종 많은 매개변수 조정이 필요합니다. 역 절차적 콘텐츠 생성은 입력 조건 하에서 최적의 매개변수를 자동으로 찾는 것을 목표로 합니다. 그러나 기존의 샘플링 기반 및 신경망 기반 방법은 여전히 많은 샘플 반복이 필요하거나 제어 가능성이 제한되어 있습니다. 본 연구에서는 일반 이미지 조건에서 역 PCG를 위한 혁신적이고 효율적인 방법인 DI-PCG를 제안합니다. 핵심은 경량 확산 변환 모델로, PCG 매개변수가 노이즈 제거 대상으로 직접 처리되고 관찰된 이미지가 매개변수 생성을 제어하는 조건으로 작용합니다. DI-PCG는 효율적이고 효과적입니다. 7.6M 개의 네트워크 매개변수와 30 GPU 시간만으로 훈련되며, 매개변수를 정확하게 복원하고 야외 이미지에 대해 잘 일반화되는 우수한 성능을 보여줍니다. 양적 및 질적 실험 결과는 DI-PCG의 역 PCG 및 이미지에서 3D 생성 작업에서의 효과를 입증합니다. DI-PCG는 효율적인 역 PCG를 위한 유망한 접근 방식을 제공하며, 매개변수 모델을 사용하여 3D 자산을 구성하는 방법을 모델링하는 3D 생성 경로로의 가치 있는 탐색 단계를 나타냅니다.
대규모 다중 모달 모델(LMMs) 훈련은 이미지와 언어를 연결하는 서술적 이미지 캡션에 의존합니다. 기존 방법은 LMM 모델로부터 캡션을 추출하거나 인터넷 이미지에서 또는 사람에 의해 캡션을 구성하는 방법이 있습니다. 우리는 이미지 캡션을 향상하기 위해 처음에 이미지 캡션에 대해 훈련되지 않은 주석이 달린 이미지로부터 훈련된 즉시 시각 전문가를 활용하기를 제안합니다. 우리의 접근 방식인 DCE는 객체의 저수준 및 세부 속성(예: 깊이, 감정 및 세부 범주) 및 객체 관계(예: 상대적 위치 및 사람-객체 상호 작용(HOI))을 탐색하고 이러한 속성을 서술적 캡션으로 결합합니다. 실험 결과, 이러한 시각 전문가들이 시각 이해 작업 및 더 정확한 시각 이해에서 이익을 얻는 추론에 성능을 향상시킬 수 있다는 것을 입증했습니다. 다른 시각 전문가들이 쉽게 파이프라인에 결합될 수 있도록 소스 코드와 파이프라인을 공개할 것입니다. DCE 파이프라인의 완전한 소스 코드와 데이터셋은 https://github.com/syp2ysy/DCE에서 제공될 예정입니다.
저희는 훈련 중에 정답으로 편집된 이미지가 필요 없는 지도 지시 기반 이미지 편집에 대한 비지도 학습 모델을 제안합니다. 기존의 지도 학습 방법은 입력 이미지, 편집된 이미지 및 편집 지시의 세 개의 쌍을 포함하는 데이터셋에 의존합니다. 이러한 데이터는 기존 편집 방법이나 인간 주석에 의해 생성되며 편향을 도입하고 일반화 능력을 제한합니다. 저희 방법은 순환 편집 일관성(Cycle Edit Consistency, CEC)이라는 새로운 편집 메커니즘을 도입하여 이러한 도전에 대처합니다. CEC는 순방향 및 역방향 편집을 한 번의 훈련 단계에서 적용하고 이미지 및 주의 공간에서 일관성을 강제합니다. 이를 통해 정답으로 편집된 이미지가 필요 없어지며, 실제 이미지-캡션 쌍 또는 이미지-캡션-편집 쌍으로 구성된 데이터셋에서 처음으로 훈련을 진행할 수 있게 됩니다. 실험적으로 우리의 비지도 학습 기술이 더 넓은 범위의 편집에 대해 높은 충실도와 정밀도로 더 나은 성능을 발휘함을 보여줍니다. 세 개의 사전 쌍 데이터셋이 필요 없어지고 지도 학습 방법과 관련된 편향을 줄이며 CEC를 제안함으로써, 저희 작업은 지도 지시 기반 이미지 편집의 확장을 더욱 촉진하는 중요한 발전을 나타냅니다.
우리는 AV-Link를 제안합니다. 이는 동기화된 교차 모달 조건부를 위해 동결된 비디오 및 오디오 확산 모델의 활성화를 활용하는 비디오에서 오디오로, 오디오에서 비디오로의 생성을 위한 통합된 프레임워크입니다. 우리 프레임워크의 핵심은 Fusion Block으로, 이를 통해 우리의 기본 비디오 및 오디오 확산 모델 간에 양방향 정보 교환을 가능하게 합니다. 이는 다른 작업을 위해 사전 학습된 특징 추출기를 조건부 신호로 사용하는 이전 작업과 달리, AV-Link는 동일한 프레임워크에서 상보적인 모달리티로부터 얻은 특징을 직접 활용할 수 있습니다. 즉, 비디오 특징을 생성하기 위해 오디오 특징을 활용하거나, 오디오 특징을 생성하기 위해 비디오 특징을 활용할 수 있습니다. 우리는 설계 선택 사항을 철저히 평가하고, 우리의 방법이 동기화되고 고품질의 오디오비주얼 콘텐츠를 달성할 수 있는 능력을 증명하며, 이를 통해 더불어 참여형 미디어 생성 응용 분야에 대한 잠재력을 보여줍니다. 프로젝트 페이지: snap-research.github.io/AVLink/
본 논문에서는 LLMs의 오픈 도메인 분자 생성 능력을 평가하기 위한 최초의 벤치마크 인 Text-based Open Molecule Generation Benchmark (TOMG-Bench)을 제안합니다. TOMG-Bench에는 분자 편집 (MolEdit), 분자 최적화 (MolOpt), 그리고 사용자 정의 분자 생성 (MolCustom)의 세 가지 주요 작업 데이터셋이 포함됩니다. 각 작업은 또한 5,000개의 테스트 샘플로 구성된 세 개의 하위 작업을 포함합니다. 오픈 분자 생성의 본질적인 복잡성을 감안하여, 생성된 분자의 품질과 정확도를 측정하는 데 도움이 되는 자동 평가 시스템을 개발했습니다. 25개의 LLMs에 대한 포괄적인 벤치마킹을 통해 텍스트로 안내되는 분자 발견에서 현재의 제한 사항과 개선 가능한 영역을 밝혀내었습니다. 더 나아가, TOMG-Bench에서 제기된 도전 과제를 해결하기 위해 제안된 전용 지침 조정 데이터셋인 OpenMolIns의 지원을 통해, Llama3.1-8B는 모든 오픈 소스 일반 LLMs를 능가하여 GPT-3.5-turbo를 46.5% 초과로 TOMG-Bench에서 앞설 수 있었습니다. 저희의 코드와 데이터셋은 https://github.com/phenixace/TOMG-Bench를 통해 이용할 수 있습니다.
최근 연구에서는 일관된 객체 편집을 위한 확산 모델(Diffusion Models, DMs)의 잠재력을 탐구하고 있으며, 이는 객체의 위치, 크기, 구성 등을 수정하면서 객체와 배경의 일관성을 유지하고 텍스처와 속성을 변경하지 않는 것을 목표로 합니다. 현재 추론 시간 방법은 주로 DDIM 역변환에 의존하는데, 이는 효율성과 편집된 이미지의 일관성을 달성하는 데 있어서 본질적으로 효율성을 저해합니다. 최근 방법은 또한 에너지 가이드를 활용하여 예측된 노이즈를 반복적으로 업데이트하고 잠재 변수를 원본 이미지에서 멀어지게하여 왜곡을 초래할 수 있습니다. 본 논문에서는 픽셀 조작 및 생성을 통해 일관된 객체 편집을 달성하기 위한 비역전 및 비학습 방법인 PixelMan을 제안합니다. 여기서는 픽셀 공간에서 원본 객체의 복제본을 직접 생성하여 대상 위치에 배치하고, 효율적인 샘플링 접근 방식을 도입하여 조작된 객체를 대상 위치로 반복적으로 조화시키고 원래 위치를 인페인트하면서 추론 중에 이미지 일관성을 보장합니다. 또한, 편집된 이미지를 픽셀 조작된 이미지에 고정시키고 추론 중에 다양한 일관성 보존 최적화 기술을 도입함으로써 이미지 일관성을 보장합니다. 벤치마크 데이터셋을 기반으로 한 실험적 평가 및 광범위한 시각적 비교를 통해, PixelMan은 16회의 추론 단계만으로도 다양한 일관된 객체 편집 작업에서 최첨단 학습 기반 및 비학습 기반 방법(일반적으로 50회의 단계가 필요한)을 능가함을 보여줍니다.
본 논문은 다양한 날짜 형식, 시간적 맥락 및 추론 유형을 다루는 190개의 질문을 포함한 DateLogicQA 벤치마크를 소개합니다. 우리는 토큰화 품질을 평가하기 위한 의미 무결성 측정 지표를 제안하고, 임베딩에 영향을 주는 표현 수준 편향과 추론 결과에 영향을 미치는 논리 수준 편향 두 가지 편향을 분석합니다. 우리의 연구 결과는 LLMs의 시간적 추론 능력과 한계를 종합적으로 평가하며, 시간적 데이터를 정확하게 처리하는 데 중요한 도전 과제를 강조합니다. 저희의 작업에 대한 GitHub 저장소는 https://github.com/gagan3012/EAIS-Temporal-Bias에서 확인할 수 있습니다.
현실적인 인간 비디오를 생성하는 것은 여전히 어려운 과제로, 가장 효과적인 방법은 현재 인간 동작 순서를 제어 신호로 사용하는 것에 의존하고 있습니다. 기존 접근 방식은 종종 다른 비디오에서 추출된 기존 동작을 사용하여, 특정 동작 유형 및 전역 장면 일치에 응용을 제한합니다. 우리는 Move-in-2D를 제안합니다. 이는 씬 이미지에 조건을 걸어 다양한 동작을 생성하고 다른 씬에 적응하는 혁신적인 방법입니다. 우리의 방법은 확산 모델을 활용하여 씬 이미지와 텍스트 프롬프트를 모두 입력으로 받아 씬에 맞는 동작 순서를 생성합니다. 이 모델을 훈련하기 위해 우리는 단일 인간 활동을 특징으로 하는 대규모 비디오 데이터셋을 수집하고, 각 비디오를 해당 인간 동작으로 주석을 달아 목표 출력으로 합니다. 실험 결과는 우리의 방법이 효과적으로 씬 이미지와 일치하는 인간 동작을 예측하고 투영 후 개선된 동작 순서가 비디오 합성 작업에서 인간 동작 품질을 향상시킨다는 것을 보여줍니다.