번역이 포함된 일일 선별된 AI 연구 논문
부분 관찰로 계획을 세우는 것은 신체를 가진 AI에서의 중요한 도전 과제입니다. 이전 연구의 대부분은 에이전트가 환경을 탐구하여 세계 상태에 대한 믿음을 업데이트하는 방식으로 이 도전 과제에 대처해 왔습니다. 그에 반해 인간은 정신적 탐구를 통해 세계의 보이지 않는 부분을 상상하고 상상된 관측을 통해 자신의 믿음을 수정할 수 있습니다. 이러한 업데이트된 믿음은 항상 세계를 물리적으로 탐색할 필요 없이 보다 정보에 기반한 결정을 내릴 수 있게 합니다. 이러한 인간과 유사한 능력을 달성하기 위해 우리는 생성적 세계 탐색자 (Genex)를 소개합니다. 이는 에이전트가 대규모 3D 세계(예: 도시 장면)를 정신적으로 탐색하고 상상된 관측을 획득하여 믿음을 업데이트할 수 있는 프레임워크입니다. 이 업데이트된 믿음은 그 후 에이전트가 현재 단계에서 보다 정보에 기반한 결정을 내릴 수 있도록 도와줍니다. Genex를 훈련하기 위해 우리는 합성 도시 장면 데이터셋인 Genex-DB를 생성합니다. 실험 결과는 다음을 보여줍니다: (1) Genex는 대규모 가상 물리적 세계의 장기 탐사 중에 고품질이고 일관된 관측을 생성할 수 있으며 (2) 생성된 관측으로 업데이트된 믿음은 기존의 의사 결정 모델(예: LLM 에이전트)에게 더 나은 계획을 세우도록 안내할 수 있습니다.
다중 모달 대형 언어 모델(MLLMs)의 등장과 인기 증가는 의사 소통 개선부터 학습과 문제 해결을 용이하게 하는 등 일상 생활의 다양한 측면을 향상시킬 중요한 잠재력을 지니고 있습니다. 핵심적인 일상 동반자인 휴대전화는 MLLMs를 가장 효과적이고 접근성 있게 배포할 수 있는 플랫폼으로, 일상적인 작업에 매끄럽게 통합되도록 가능하게 합니다. 그러나 휴대전화에 MLLMs를 배포하는 것은 메모리 크기와 계산 능력의 제한으로 인해 도전적이며, 광범위한 최적화 없이 부드럽고 실시간 처리를 달성하는 것이 어렵습니다. 본 논문에서는 모바일 플랫폼에 효율적인 MLLMs 배포를 위해 특별히 설계된 BlueLM-V-3B 알고리즘 및 시스템 공동 설계 접근 방식을 제시합니다. 구체적으로, 우리는 주류 MLLMs에서 채택된 동적 해상도 체계를 재설계하고, 모바일 휴대전화에서 모델 추론을 최적화하기 위해 하드웨어 인식 배포를 구현합니다. BlueLM-V-3B는 다음과 같은 주요 특징을 자랑합니다: (1) 소형 크기: BlueLM-V-3B는 27억 개의 매개변수를 가진 언어 모델과 4억 개의 매개변수를 가진 비전 인코더를 특징으로 합니다. (2) 빠른 속도: BlueLM-V-3B는 4비트 LLM 가중치 양자화를 사용한 MediaTek Dimensity 9300 프로세서에서 24.4 토큰/초의 생성 속도를 달성합니다. (3) 강력한 성능: BlueLM-V-3B는 4B 이하의 매개변수를 가진 모델 중 OpenCompass 벤치마크에서 가장 높은 평균 점수인 66.1을 달성하고, 훨씬 더 큰 매개변수 크기를 가진 일련의 모델(e.g., MiniCPM-V-2.6, InternVL2-8B)를 앞섰습니다.
우리는 통합 가능한 제어 가능한 비디오 생성 접근 방식인 AnimateAnything를 제시합니다. 이는 카메라 궤적, 텍스트 프롬프트 및 사용자 동작 주석을 포함한 다양한 조건에서 정확하고 일관된 비디오 조작을 용이하게 합니다. 구체적으로, 우리는 다양한 조건에 대해 공통의 동작 표현을 구축하기 위해 멀티 스케일 제어 특징 융합 네트워크를 신중하게 설계합니다. 이는 모든 제어 정보를 프레임별 광학 흐름으로 명시적으로 변환합니다. 그런 다음 광학 흐름을 동작 사전으로 통합하여 최종 비디오 생성을 안내합니다. 또한 대규모 동작으로 인한 깜박임 문제를 줄이기 위해 주파수 기반 안정화 모듈을 제안합니다. 이 모듈은 비디오의 주파수 영역 일관성을 보장하여 시간적 일관성을 향상시킬 수 있습니다. 실험 결과, 우리의 방법이 최첨단 접근 방식을 능가함을 입증합니다. 자세한 내용 및 비디오는 다음 웹페이지를 참조하십시오: https://yu-shaonian.github.io/Animate_Anything/.
기계 학습의 진화는 강력한 모델의 개발과 확장 가능한 지도 신호에 대한 우선순위가 점점 높아지고 있습니다. 그러나 기초 모델의 등장은 그들의 능력을 더 향상시키기 위해 필요한 효과적인 지도 신호를 제공하는 데 중요한 도전을 제기합니다. 따라서 혁신적인 지도 신호와 기술적 접근 방법을 탐구할 필요가 절박합니다. 본 논문에서는 기초 모델 시대를 위해 특별히 설계된 새로운 사후 훈련 패러다임인 '검증자 엔지니어링'을 제안합니다. 검증자 엔지니어링의 핵심은 자동 검증자 모음을 활용하여 검증 작업을 수행하고 기초 모델에 의미 있는 피드백을 제공하는 것에 있습니다. 우리는 검증자 엔지니어링 프로세스를 '탐색, 검증, 피드백' 세 가지 핵심 단계로 체계적으로 분류하고 각 단계 내에서 최신 연구 발전에 대한 포괄적인 검토를 제공합니다. 검증자 엔지니어링이 인공 일반 지능을 달성하기 위한 기본적인 경로로 간주된다고 믿습니다.
대형 언어 모델 (LLMs)은 일반적으로 탐욕적 디코딩 또는 낮은 온도 샘플링을 사용하여 추론 작업에 대응하며, 다양성과 정확도 사이의 인식된 트레이드 오프를 반영합니다. 우리는 이 관행에 도전하여 통계적 임계값을 활용하여 소프트맥스 이전 로짓에 직접 작용하는 새로운 샘플링 방법인 top-nsigma를 소개함으로써 이를 도전합니다. 우리의 주요 통찰력은 로짓이 가우시안 분포의 잡음이 많은 영역과 명확한 정보를 제공하는 영역으로 자연스럽게 분리되어 복잡한 확률 조작 없이도 효율적인 토큰 필터링이 가능하다는 것입니다. 기존 방법 (예: top-p, min-p)과 달리 top-nsigma는 온도 스케일링과 관계없이 안정적인 샘플링 공간을 유지하는 반면, 더 높은 온도에서 더 많은 잡음 토큰을 부수로 포함하는 문제가 있는 다른 방법들과는 달리 안정적인 샘플링 공간을 유지합니다. 또한 top-nsigma의 이론적 분석을 제공하여 그 행동을 더 잘 이해할 수 있도록 합니다. 추론에 초점을 맞춘 네 가지 데이터셋을 횡적으로 실험한 결과는, 우리의 방법이 기존 샘플링 접근 방식을 능가할 뿐만 아니라 탐욕적 디코딩을 뛰어넘는 것을 보여주며, 높은 온도에서도 일관된 성능을 유지한다는 것을 입증합니다.
재순위 지정기인 일반적으로 크로스 인코더는 초기 IR 시스템으로 검색된 문서들을 다시 점수 매기는 데 자주 사용됩니다. 이는 비용이 비싸지만 재순위 지정기가 더 효과적이라고 가정되기 때문입니다. 우리는 이 가정에 도전하여 재순위 지정기의 성능을 측정함으로써 첫 번째 단계 검색만 다시 점수 매기는 것이 아니라 전체 검색에 대해 살펴보았습니다. 우리의 실험 결과는 놀랄 만한 추세를 보여줍니다: 현재 가장 우수한 재순위 지정기들이 점차적으로 더 많은 문서들에 대해 점수를 매길 때 점차적으로 감소하는 성과를 보이며 특정 한계를 넘어서면 실제로 품질을 저하시킵니다. 사실, 이러한 상황에서 재순위 지정기는 쿼리와 어휘적 또는 의미적 중첩이 전혀 없는 문서에 높은 점수를 자주 부여할 수 있습니다. 우리는 이러한 발견이 재순위 지정기를 개선하기 위한 미래 연구를 촉진할 것으로 기대합니다.
이미지 기반 가상 착용 시스템은 상당한 발전을 이루었지만, 새로운 접근법은 여전히 다양한 시나리오에서 고품질이고 견고한 착용 이미지를 생성하는 데 어려움을 겪고 있다. 이러한 방법들은 종종 질감 인식 유지와 사이즈 인식 착용과 같은 문제로 전반적인 효과를 저해하는 어려움을 겪는다. 이러한 제한 사항을 해결하기 위해 우리는 FitDiT라는 새로운 의복 인식 향상 기술을 제안한다. 이 기술은 Diffusion Transformers (DiT)를 사용하여 고해상도 특징에 더 많은 매개변수와 주의를 할당하여 고품질 가상 착용을 위해 설계되었다. 먼저 질감 인식 유지를 더 개선하기 위해, 우리는 의복 사전 진화를 통합한 의복 질감 추출기를 소개하여 의복 특징을 미세 조정하여 줄무늬, 패턴 및 텍스트와 같은 풍부한 세부 사항을 더 잘 캡처할 수 있도록 돕는다. 게다가, 고주파 의복 세부 사항을 향상시키기 위해 주파수 도메인 학습을 소개한다. 사이즈 인식 착용 문제를 해결하기 위해, 교착-완화 마스크 전략을 사용하여 올바른 길이의 의복에 적응하여 교차 카테고리 착용 중 전체 마스크 영역을 채우는 의복 생성을 방지한다. 위의 설계를 갖춘 FitDiT는 질적 및 양적 평가 모두에서 모든 기준선을 능가한다. 이 기술은 사실적이고 정교한 세부 사항을 갖춘 적합한 의복을 생성하는 데 뛰어나며, DiT 구조 축소 후 1024x768 이미지에 대한 4.57초의 경쟁력 있는 추론 시간을 달성하여 기존 방법을 능가한다.
작은 언어 모델(SLMs)은 모바일 배포에 유망성을 보이지만, 스마트폰에서의 실제 성능 및 응용은 아직 탐구되지 않았습니다. 저희는 모바일 기기에서 문서 지원 작업을 위해 최적화된 일련의 SLM인 SlimLM을 제안합니다. 삼성 갤럭시 S24에서의 포괄적인 실험을 통해 모델 크기(125M에서 7B 매개변수로 변화), 문맥 길이 및 효율적인 장치 내 처리를 위한 추론 시간 사이의 최적의 균형을 확인합니다. SlimLM은 SlimPajama-627B에서 사전 훈련을 받고, 요약, 질문 응답 및 제안 작업을 위한 저희가 구축한 DocAssist 데이터셋에서 세밀하게 조정됩니다. 가장 작은 모델은 S24에서 효율적인 성능을 보여주며, 더 큰 변형은 모바일 제약 내에서 향상된 기능을 제공합니다. 저희는 기존 SLMs와 SlimLM을 비교하여 유사하거나 우수한 성능을 보여주며, 장치 내 언어 모델에 대한 미래 연구를 위한 기준을 제시합니다. 또한 SLM 배포에 대한 실용적인 통찰을 제공하는 안드로이드 애플리케이션을 제공합니다. 저희의 연구 결과는 고급 언어 모델을 고급 스마트폰에서 실행하는 능력을 명확히 하며, 서버 비용을 줄이고 장치 내 처리를 통해 개인 정보 보호를 강화할 수 있는 가치 있는 통찰을 제공합니다.
최근 생성적 AI의 발전은 콘텐츠 생성 및 편집을 현저히 촉진시켰으며, 주요 연구들은 이러한 흥미로운 진전을 비디오 편집으로 더 확장하고 있다. 이를 위해 이러한 연구들은 주로 원본 비디오로부터 고유한 움직임 패턴을 편집된 비디오로 전달하며, 사용자 프롬프트와의 일관성 부족으로 인해 결과물이 종종 낮은 일관성을 보인다. 이 한계를 해결하기 위해 본 논문에서는 모양 일관성 비디오 편집 방법인 StableV2V를 제안한다. 우리의 방법은 전체 편집 파이프라인을 여러 순차적 절차로 분해하여 첫 번째 비디오 프레임을 편집한 후, 전달된 움직임과 사용자 프롬프트 간의 정렬을 수립하고, 이러한 정렬을 기반으로 모든 다른 프레임에 편집된 내용을 전파한다. 더불어, 다양한 유형의 프롬프트와 어려움을 고려한 비디오 편집의 포괄적인 평가를 위해 DAVIS-Edit라는 테스트 벤치마크를 선별한다. 실험 결과와 분석은 우리의 방법이 기존 최첨단 연구에 비해 우수한 성능, 시각적 일관성 및 추론 효율성을 보여준다.
다중 모달 대규모 언어 모델 (MLLMs) 연구가 인기를 얻으면서, 발전하는 MLLM 모델은 일반적으로 실제 응용 프로그램을 위해 동시에 다양한 텍스트 및 시각 작업 (예: VQA, Detection, OCR 및 ChartQA)을 처리해야 합니다. 그러나 다양한 작업에서 데이터의 표현 및 분포 사이에 상당한 차이가 있기 때문에 단순히 모든 작업의 데이터를 섞는 것은 잘 알려진 "다중 작업 갈등" 문제로 이어지며, 다양한 작업에서 성능 저하로 이어집니다. 이 문제를 해결하기 위해, 우리는 MLLM에 적합한 Mixture of Experts~(MoE) 아키텍처인 Awaker2.5-VL을 제안합니다. 이 아키텍처는 여러 희소하게 활성화된 전문가들을 통해 다중 작업 능력을 습득합니다. Awaker2.5-VL의 훈련 및 추론 속도를 높이기 위해 우리 모델의 각 전문가는 저랭크 적응 (LoRA) 구조로 구성됩니다. 다양한 최신 벤치마크에서 수행된 실험은 Awaker2.5-VL의 효과를 입증합니다. 코드와 모델 가중치는 저희 프로젝트 페이지에서 공개되어 있습니다: https://github.com/MetabrainAGI/Awaker.
언어 모델 디코딩 중에는 높은 온도 샘플링을 사용하면 더 창의적인 응답이 생성되는 반면, 낮은 온도는 사실적인 정확도를 높입니다. 그러나 이러한 모델은 일반적으로 창의적인 작업과 사실 확인 작업을 모두 포함하는 일반적인 지시에 적용되며, 모든 예제와 토큰에 대해 단일 고정 온도를 사용합니다. 본 연구에서는 성능을 최적화하기 위해 추론 시 동적으로 샘플링 온도를 선택하는 모델에 추가된 층인 적응형 디코딩을 소개합니다. 매개변수를 학습하기 위해 선택된 온도와 같은 이산 잠재 변수를 훈련하는 일반적인 방법인 잠재 선호도 최적화(LPO)를 소개합니다. 우리의 방법은 UltraFeedback, 창의적인 이야기 작성 및 GSM8K를 포함한 다양한 온도가 필요한 작업 범위에서 모든 고정 디코딩 온도를 능가합니다.
우리는 LL\"aMmlein 120M 및 1B 두 개의 독일어 전용 디코더 모델을 처음부터 투명하게 만들고 독일어 NLP 연구 커뮤니티가 사용할 수 있도록 훈련 데이터와 함께 발표했습니다. 모델 훈련에는 광범위한 데이터 전처리, 사용자 정의 독일어 토크나이저의 생성, 훈련 자체, 그리고 최종 모델을 다양한 벤치마크에서 평가하는 등 여러 중요 단계가 포함되었습니다. 훈련 과정에서 여러 체크포인트가 저장되고 모델의 학습 동태를 모니터링하기 위해 SuperGLEBer 벤치마크를 사용하여 분석되었습니다. SuperGLEBer 벤치마크에서 최첨단 모델과 비교했을 때, 두 LL\"aMmlein 모델은 경쟁력 있게 성과를 내며, 유사한 매개변수 크기를 갖는 모델들을 일관되게 능가하거나 맞먹었습니다. 결과는 모델의 품질이 예상대로 크기와 함께 증가함을 보여주지만, 일부 작업에서의 성능 향상은 일찍 수렴하여, 미래 모델 개발을 위한 자원 할당에 대한 소중한 통찰을 제공했습니다.
확산 트랜스포머(Diffusion Transformers, DiT)는 이미지, 비디오, 음성 합성을 포함한 다양한 작업에 대한 강력한 생성 모델로 등장했습니다. 그러나 반복적으로 자원 집약적인 어텐션과 피드포워드 모듈을 평가해야 하기 때문에 추론 과정은 계산적으로 비용이 많이 듭니다. 이를 해결하기 위해 우리는 DiT 아키텍처를 위한 모델에 중립적인 추론 가속화 기술인 SmoothCache를 소개합니다. SmoothCache는 인접한 확산 타임스텝 간의 레이어 출력 간의 높은 유사성을 활용합니다. 작은 보정 세트에서 레이어별 표현 오차를 분석함으로써 SmoothCache는 추론 중에 핵심 기능을 캐시하고 재사용합니다. 우리의 실험은 SmoothCache가 다양한 모달리티에서 세대 품질을 유지하거나 향상시키면서 8%에서 71%의 속도 향상을 달성한다는 것을 보여줍니다. 우리는 이미지 생성을 위한 DiT-XL, 텍스트에서 비디오로의 Open-Sora, 텍스트에서 오디오로의 Stable Audio Open에서 SmoothCache의 효과를 보여주며, 강력한 DiT 모델의 실시간 응용 프로그램을 가능하게 하고 넓은 접근성을 확대할 수 있는 잠재력을 강조합니다.
검색 증강 생성 (RAG)은 대규모 언어 모델 (LLM)의 성능을 향상시키는 유망한 접근 방식으로 등장했습니다. 특히 의료 분야와 같은 지식 집약적 작업에서 그 성능을 향상시키는 데 중요한 역할을 합니다. 그러나 의료 분야의 민감한 성격으로 인해 완전히 정확하고 신뢰할 수 있는 시스템이 필요합니다. 기존의 RAG 벤치마크는 주로 표준 검색-답변 설정에 초점을 맞추지만, 신뢰할 수 있는 의료 시스템의 중요한 측면을 측정하는 많은 실제 시나리오를 간과합니다. 본 논문은 이러한 공백을 채우기 위해 의료 질문-응답 (QA) 시스템을 위한 RAG 설정에서 sufficiency, integration, robustness를 포함한 이러한 상황에 대한 포괄적인 평가 프레임워크를 제공합니다. 우리는 Medical Retrieval-Augmented Generation Benchmark (MedRGB)를 소개하여 LLM의 이러한 특정 시나리오를 처리하는 능력을 테스트하기 위해 네 가지 의료 QA 데이터셋에 다양한 보조 요소를 제공합니다. MedRGB를 활용하여 상용 LLM과 오픈 소스 모델을 여러 검색 조건에서 평가합니다. 실험 결과는 현재 모델이 검색된 문서의 소음과 잘못된 정보를 처리하는 능력이 제한적임을 보여줍니다. 또한 LLM의 추론 과정을 분석하여 이 중요한 의료 분야에서 RAG 시스템을 개발하는 데 유용한 통찰과 미래 방향을 제시합니다.
암묵적 신경 표현 (INRs)은 신경망을 사용하여 이산 데이터를 연속 함수로 근사하는 기술입니다. 비디오 데이터의 경우, 이러한 모델은 픽셀 위치의 좌표를 프레임 발생 시간(또는 인덱스)과 함께 RGB 색상 값으로 변환하는 데 활용될 수 있습니다. INRs은 효율적인 압축을 가능케 하지만 편집 목적으로는 적합하지 않습니다. 한 가지 해결책은 비디오를 다수의 3D 가우시안으로 인코딩할 수 있는 Video Gaussian Representation (VGR)과 같은 3D 가우시안 스플래팅 (3DGS) 기반 모델을 사용하는 것입니다. 이 모델은 편집을 포함한 다양한 비디오 처리 작업에 적용할 수 있습니다. 그러나 이 경우 수정 가능성은 제한된 기본 변환 세트로 제한됩니다. 이 문제를 해결하기 위해 비디오 가우시안 스플래팅 (VeGaS) 모델을 소개합니다. VeGaS를 구축하기 위해 비디오 스트림의 비선형 동역학을 포착하기 위해 설계된 새로운 폴딩 가우시안 분포 패밀리를 제안하고, 각각의 조건부 분포로 얻은 2D 가우시안을 사용하여 연속된 프레임을 모델링합니다. 실험 결과, VeGaS가 프레임 재구성 작업에서 최신 기술 솔루션을 능가하고 비디오 데이터의 현실적인 수정을 가능케 한다는 것을 입증했습니다. 코드는 다음에서 확인할 수 있습니다: https://github.com/gmum/VeGaS.
대형 언어 모델(LLM)의 증가하는 능력으로 인해 다른 LLM의 훈련 및 평가를 위해 인간 피드백 대체재로 사용되고 있다. 이러한 방법들은 종종 비평 모델이 피드백을 제공하고 세대를 향상시키기 위해 사용하는 '헌법'에 의존한다. 우리는 의료 면접에서 환자 중심 의사소통을 개선하기 위해 네 가지 다른 헌법을 사용하여 피드백 품질이 어떻게 영향을 받는지 조사했다. 215명의 인간 평가자들이 실시한 쌍별 비교에서, 상세한 헌법이 감정적 특성에 관한 결과에서 더 나은 결과를 이끌어냈다는 것을 발견했다. 그러나 어떠한 헌법도 정보 수집 및 제공과 관련된 실용적 기술 학습에서 베이스라인을 능가하지 못했다. 우리의 연구 결과는 상세한 헌법이 우선시되어야 하지만, 특정 영역에서 AI 피드백의 효과적인 보상 신호에 대한 가능한 제한 사항이 있다는 것을 나타낸다.