번역이 포함된 일일 선별된 AI 연구 논문
본 기술 보고서에서는 화학 분야에 특화된 최초의 오픈 소스 다중 모달 대형 언어 모델인 ChemVLM을 제안합니다. 이 모델은 화학 이미지 이해와 텍스트 분석 간의 호환성 문제를 해결하기 위해 설계되었습니다. VIT-MLP-LLM 아키텍처를 기반으로 구축되었으며, ChemLLM-20B를 기초 대형 모델로 활용하여 화학 텍스트 지식을 이해하고 활용하는 강력한 능력을 부여했습니다. 또한 강력한 이미지 인코더로 InternVIT-6B를 활용했습니다. 화학 영역에서 분자, 반응 공식, 화학 시험 데이터 등의 고품질 데이터를 선별하고, 이를 이중 언어 다중 모달 질의응답 데이터셋으로 편집했습니다. 우리 모델의 성능을 여러 오픈 소스 벤치마크 및 세 개의 사용자 정의 평가 세트에서 테스트했습니다. 실험 결과는 우리 모델이 6가지 작업 중 5가지에서 최첨단 결과를 달성하며 우수한 성능을 보여준다는 것을 입증했습니다. 저희 모델은 https://huggingface.co/AI4Chem/ChemVLM-26B에서 찾아볼 수 있습니다.
이미지 생성을 위한 텍스트-이미지 모델은 강력한 도구입니다. 그러나 생성 과정은 주사위를 굴리는 것과 유사하며 사용자가 원하는 모든 것을 담은 단일 이미지를 얻기 어렵게 만듭니다. 본 논문에서는 사용자가 원하는 이미지를 생성하기 위한 프레임워크를 제안합니다. 이 프레임워크는 생성된 이미지의 다양한 부분에서 합성하여 사용자가 원하는 이미지를 만들어내는 것으로, 본질적으로 생성적 포토몽타주를 형성합니다. 동일한 입력 조건을 사용하여 ControlNet에 의해 생성된 이미지 스택이 주어지면, 사용자는 브러시 스트로크 인터페이스를 사용하여 생성된 결과물에서 원하는 부분을 선택할 수 있습니다. 우리는 사용자의 브러시 스트로크를 수용하고, 확산 특성 공간에서 그래프 기반 최적화를 사용하여 생성된 이미지를 세분화한 후, 새로운 특성 공간 블렌딩 방법을 통해 세분화된 영역을 합성하는 새로운 기술을 소개합니다. 우리의 방법은 사용자가 선택한 영역을 정확하게 보존하면서 조화롭게 합성합니다. 우리는 유연한 프레임워크가 새로운 외관 조합 생성, 잘못된 모양 및 아티팩트 수정, 그리고 프롬프트 정렬 개선을 포함한 여러 응용 프로그램에 사용될 수 있음을 보여줍니다. 각 응용 프로그램에 대한 설득력 있는 결과를 보여주며, 우리의 방법이 기존의 이미지 블렌딩 방법 및 다양한 기준선을 능가함을 시연합니다.
본 논문은 70, 34 및 7 억 개의 매개변수 크기를 갖는 다양한 이중 모델로 구성된 Aquila2 시리즈를 소개합니다. 이러한 모델들은 HeuriMentor (HM)이라는 혁신적인 프레임워크를 기반으로 훈련되었으며, 이는 모델 수렴에 대한 실시간 통찰력을 제공하고 훈련 과정 및 데이터 관리를 강화합니다. 적응형 훈련 엔진 (ATE), 훈련 상태 모니터 (TSM) 및 데이터 관리 유닛 (DMU)으로 구성된 HM 시스템은 모델의 훈련 진행 상황을 정밀하게 모니터링하고 데이터 분배의 효율적 최적화를 가능케 하여 훈련 효과를 향상시킵니다. 포괄적인 평가 결과, Aquila2 모델 시리즈가 영어 및 중국어 벤치마크에서 모두 우수한 성능을 보임을 보여줍니다. 특히, Aquila2-34B는 Int4로 양자화될 때 성능이 약간 감소하는 것만 보입니다. 더불어, 계속되는 연구 및 응용 프로그램 개발을 지원하기 위해 훈련 코드(https://github.com/FlagOpen/FlagScale)와 모델 가중치(https://github.com/FlagAI-Open/Aquila2)를 공개로 제공하였습니다.
우리는 대규모 데이터셋인 DeepSpeak을 설명합니다. 이 데이터셋은 웹캠 앞에서 말하고 손짓을 하는 사람들의 실제 및 딥페이크 영상을 포함합니다. 이 데이터셋의 첫 번째 버전에는 220명의 다양한 사람들로부터 9시간의 영상이 포함되어 있습니다. 25시간 이상의 영상으로 구성된 가짜 영상은 최첨단 페이스 스왑 및 입술 싱크 딥페이크로, 자연스럽고 AI 생성 음성이 함께 제공됩니다. 우리는 다양하고 최신의 딥페이크 기술을 적용한 향후 버전의 데이터셋을 공개할 예정입니다. 본 데이터셋은 연구 및 비상업적 용도로 무료로 제공되며, 상업적 이용 요청은 고려될 것입니다.
최근 Chain-of-Thoughts (CoT) 및 Program-of-Thoughts (PoT) 방법의 발전은 언어 모델의 수학적 추론 능력을 크게 향상시켰으며, LLMs와의 통합을 용이하게 하였습니다. 그러나 대규모 데이터셋 생성을 위한 기존 방법은 상당한 초기 데이터와 데이터 합성을 위한 높은 계산 비용이 필요하여 확장성에 중요한 도전을 제기합니다. 저희는 프로그래밍 수학적 추론을 위한 확장 가능한 instruction tuning 데이터셋인 InfinityMATH를 소개합니다. 구축 파이프라인은 숫자를 수학 문제로부터 분리하여 숫자에 독립적인 프로그램을 합성함으로써, 특정 숫자 값에 대한 의존성을 최소화하면서 효율적이고 유연한 확장을 가능케 합니다. Llama2 및 CodeLlama와 같은 오픈 소스 언어 및 코드 모델을 대상으로 한 fine-tuning 실험은 InfinityMATH의 실용적 이점을 입증합니다. 이러한 fine-tuned 모델들은 도메인 내 및 도메인 외 벤치마크에서 상당한 상대적 향상을 보여주었으며, 평균적으로 184.7%에서 514.3% 범위에 이르렀습니다. 또한, 이러한 모델들은 숫자 변형만 있는 향상된 테스트 세트인 GSM8K+ 및 MATH+ 벤치마크에서 높은 견고성을 나타냈습니다. InfinityMATH는 모델이 수학 문제의 더 넓은 범위에서 더 다재다능하고 효과적임을 보장합니다. 데이터는 https://huggingface.co/datasets/flagopen/InfinityMATH에서 이용 가능합니다.
현실 세계에서 촬영된 3D 장면의 모델링과 조작은 다양한 응용 프로그램에서 중요하며, 점점 더 많은 연구 관심을 끌고 있습니다. 편집에 대한 이전 연구는 3D 메쉬를 조작하여 흥미로운 결과를 얻었지만, 편집을 수행하기 위해 정확하게 재구성된 메쉬가 필요했기 때문에 3D 콘텐츠 생성에 제한이 있었습니다. 이 간극을 해결하기 위해 우리는 3D 가우시안 스플래팅을 기반으로 한 혁신적인 단일 이미지 주도 3D 장면 편집 접근 방식을 소개합니다. 이를 통해 2D 이미지 평면에서 콘텐츠를 직접 편집함으로써 직관적인 조작이 가능해집니다. 우리의 방법은 사용자 지정된 원본 장면의 시점에서 렌더링된 이미지의 편집된 버전과 일치하도록 3D 가우시안을 최적화하는 방법을 학습합니다. 긴 거리 객체 변형을 캡처하기 위해 3D 가우시안 스플래팅의 최적화 과정에 위치 손실을 도입하고, 재매개화를 통한 그래디언트 전파를 가능하게 합니다. 지정된 시점에서 렌더링할 때 가려진 3D 가우시안을 처리하기 위해 앵커 기반 구조를 구축하고, 장거리 변형을 처리하면서 구조적 안정성을 유지할 수 있는 고해상도 최적화 전략을 채택합니다. 더불어, 세밀한 모델링을 위해 비유연한 변형 영역을 적응적으로 식별하기 위한 혁신적인 마스킹 전략을 설계합니다. 광범위한 실험은 우리의 방법이 기하학적 세부 사항, 장거리 및 비유연한 변형을 처리하는 데 효과적임을 보여주며, 이전 방법과 비교하여 우수한 편집 유연성과 품질을 입증합니다.
최근에는 다양한 분포 시나리오에 조건을 부여한 범용 파형 생성 작업이 조사되었습니다. GAN 기반 방법은 빠른 파형 생성에서 강점을 보여주었지만, 두 단계 텍스트 음성 변환과 같은 훈련-추론 불일치 시나리오에 취약합니다. 한편, 확산 기반 모델은 다른 영역에서 강력한 생성 성능을 보여주었지만, 파형 생성 작업에서 추론 속도가 느린 것으로 알려져 있습니다. 무엇보다도, 고해상도 파형 신호의 자연 주기적 특징을 명시적으로 분리할 수 있는 생성자 구조가 없습니다. 본 논문에서는 새로운 범용 파형 생성 모델인 PeriodWave를 제안합니다. 먼저, 벡터 필드를 추정할 때 파형 신호의 주기적 특징을 포착할 수 있는 주기 인식 플로 매칭 추정기를 소개합니다. 또한, 서로 겹치지 않도록 다른 주기적 특징을 포착하기 위해 다중 주기 추정기를 활용합니다. 주기 수를 증가시키면 성능을 크게 향상시킬 수 있지만, 이는 더 많은 계산 비용을 필요로 합니다. 이 문제를 줄이기 위해 주기별 배치 추론을 통해 병렬로 전달할 수 있는 단일 주기 조건부 범용 추정기를 제안합니다. 또한, 고주파 모델링을 위해 파형 신호의 주파수 정보를 손실 없이 분리할 수 있는 이산 웨이블릿 변환을 활용하고, 파형 생성을 위해 고주파 잡음을 줄이기 위해 FreeU를 소개합니다. 실험 결과는 우리 모델이 Mel-스펙트로그램 재구성 및 텍스트 음성 변환 작업에서 이전 모델을 능가함을 입증했습니다. 모든 소스 코드는 https://github.com/sh-lee-prml/PeriodWave에서 제공될 예정입니다.
장면의 3D 의미론을 이해하는 것은 신체화된 에이전트와 같은 다양한 시나리오에 대한 기본적인 문제입니다. NeRF와 3DGS는 새로운 뷰 합성에서 뛰어나지만, 이전의 의미론을 이해하는 방법은 불완전한 3D 이해로 제한되어 왔습니다: 그들의 분할 결과는 2D 마스크이며, 그들의 지도는 2D 픽셀에 고정되어 있습니다. 본 논문은 NeRF와 3DGS로 모델링된 장면의 더 나은 3D 이해를 추구하기 위해 문제를 다시 살펴봅니다. 1) 우리는 언어 임베딩 필드를 훈련시키기 위해 3D 포인트를 직접 지도합니다. 다중 스케일 언어 임베딩에 의존하지 않고 최첨단 정확도를 달성합니다. 2) 사전 훈련된 언어 필드를 3DGS로 이전하여, 훈련 시간이나 정확도를 희생하지 않고 최초의 실시간 렌더링 속도를 달성합니다. 3) 재구성된 기하학과 의미론을 함께 평가하기 위한 3D 쿼리 및 평가 프로토콜을 도입합니다. 코드, 체크포인트 및 주석은 온라인에서 제공될 예정입니다. 프로젝트 페이지: https://hyunji12.github.io/Open3DRF