번역이 포함된 일일 선별된 AI 연구 논문
최근 발전된 생성 모델링 기술을 통해 이제는 텍스트 프롬프트로 제어되는 4D 콘텐츠(움직이는 3D 객체)를 생성할 수 있습니다. 4D 생성은 가상 세계, 미디어, 게임 등 다양한 응용 분야에서 큰 잠재력을 가지고 있지만, 기존 방법은 생성된 콘텐츠의 외관과 기하에 대한 제어를 제한합니다. 본 연구에서는 사용자가 제공한 3D 객체를 애니메이션화하는 방법을 소개하며, 텍스트 프롬프트를 활용하여 4D 생성을 안내함으로써 원본 객체의 정체성을 유지하면서 사용자 정의 애니메이션을 가능하게 합니다. 먼저, 3D 메쉬를 입력 객체의 시각적 속성을 보존하는 "정적" 4D 신경 방사율 필드(NeRF)로 변환합니다. 그런 다음, 텍스트에 의해 구동되는 이미지-비디오 확산 모델을 사용하여 객체를 애니메이션화합니다. 움직임의 현실성을 향상시키기 위해, 사실적인 움직임을 촉진하기 위해 관점 선택 프로토콜을 도입하고, 관련 영역에 최적화를 집중하기 위해 주의 맵을 활용하는 마스킹된 점수 증류 샘플링(SDS) 손실을 도입합니다. 우리는 시간적 일관성, 프롬프트 준수, 시각적 충실도 측면에서 모델을 평가하고, LPIPS 점수를 사용하여 측정한 정체성 보존에서 최대 3배의 개선을 달성하며 시각적 품질과 동적 콘텐츠 간의 균형을 효과적으로 유지하는 기존 접근 방식을 기반으로 한 기준선을 능가하는 결과를 얻습니다.
OpenAI o1과 같은 모델의 놀라운 성능은 추론 중에 인간과 유사한 장기적 사고를 흉내 내는 능력으로 설명될 수 있습니다. 이러한 모델은 문제 해결 능력을 향상시키기 위해 여러 전략을 탐색하는 확장된 사고 연쇄 (CoT) 프로세스를 사용합니다. 그러나 중요한 질문이 남아 있습니다: 테스트 중에 계산 자원을 지능적이고 효율적으로 확장하는 방법은 무엇인가. 본 논문은 이러한 모델에서 지나치게 계산 자원이 할당되어 단순한 문제에 대해 최소한의 이점을 얻는 과도한 사고에 대한 첫 번째 포괄적인 연구를 제시합니다. 우리는 o1과 유사한 모델이 계산 자원을 합리적으로 사용하는지 평가하기 위해 결과 및 과정 관점에서 혁신적인 효율성 지표를 소개합니다. 자가 교육 패러다임을 사용하여, 우리는 과도한 사고를 완화하고 정확도를 희생하지 않고 추론 프로세스를 간소화하는 전략을 제안합니다. 실험 결과는 우리의 접근 방식이 GSM8K, MATH500, GPQA, AIME 등 다양한 난이도의 테스트 세트에서 모델 성능을 유지하면서 계산 자원 과다 소비를 성공적으로 줄였음을 보여줍니다.
TangoFlux는 515M개의 매개변수를 가진 효율적인 텍스트-음성 (TTA) 생성 모델을 소개합니다. 이 모델은 단일 A40 GPU에서 3.7초 만에 44.1kHz 음성을 최대 30초 생성할 수 있습니다. TTA 모델을 정렬하는 주요 과제 중 하나는 TTA가 대형 언어 모델 (LLMs)에 대한 확인 가능한 보상이나 골드 표준 답변과 같은 구조화된 메커니즘이 부족하다는 점에 있습니다. 이를 해결하기 위해 우리는 CLAP-Ranked Preference Optimization (CRPO)이라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 반복적으로 생성하고 최적화하여 TTA 정렬을 향상시키기 위한 선호 데이터를 생성합니다. 우리는 CRPO를 사용하여 생성된 음성 선호 데이터셋이 기존 대안들보다 우수하다는 것을 증명합니다. 이 프레임워크를 통해 TangoFlux는 객관적 및 주관적 평가에서 최첨단 성능을 달성합니다. 우리는 TTA 생성에 대한 추가 연구를 지원하기 위해 모든 코드와 모델을 오픈 소스로 공개합니다.
우리는 SWE-Gym을 제시합니다. 이는 실제 소프트웨어 엔지니어링(SWE) 에이전트를 훈련하기 위한 첫 환경입니다. SWE-Gym에는 각각이 실행 가능한 런타임 환경, 단위 테스트 및 자연어로 지정된 작업을 포함하는 2,438개의 실제 Python 작업 인스턴스가 포함되어 있습니다. 우리는 SWE-Gym을 사용하여 언어 모델 기반 SWE 에이전트를 훈련시켜, 인기 있는 SWE-Bench Verified 및 Lite 테스트 세트에서 해결 속도에서 최대 19%의 절대적인 향상을 달성했습니다. 또한 SWE-Gym에서 샘플링된 에이전트 궤적을 기반으로 훈련된 확인자를 통해 추론 시간 스케일링을 실험했습니다. 우리의 세밀하게 조정된 SWE 에이전트와 결합하면, 각각 SWE-Bench Verified 및 Lite에서 32.0% 및 26.0%를 달성하여, 오픈 웨이트 SWE 에이전트에 대한 최신 기술을 반영하고 있습니다. 더 많은 연구를 촉진하기 위해, 우리는 SWE-Gym, 모델 및 에이전트 궤적을 공개적으로 공개합니다.