번역이 포함된 일일 선별된 AI 연구 논문
BERT와 같은 인코더 전용 트랜스포머 모델은 더 큰 디코더 전용 모델에 비해 검색 및 분류 작업에 대한 우수한 성능-크기 교환을 제공합니다. 다양한 프로덕션 파이프라인의 주역이지만, BERT 이후에는 BERT에 대한 제한적인 파레토 개선이 이루어졌습니다. 본 논문에서는 ModernBERT를 소개하여 최신 모델 최적화를 인코더 전용 모델에 적용하고 이전 인코더에 비해 주요한 파레토 개선을 제공합니다. 2조 토큰으로 학습된 ModernBERT 모델은 원시 8192 시퀀스 길이를 가지며, 다양한 분류 작업 및 코드를 포함한 다양한 도메인에서 단일 및 다중 벡터 검색에 대한 최첨단 결과를 보여줍니다. 강력한 하향식 성능 뿐만 아니라 ModernBERT는 가장 빠르고 메모리 효율적인 인코더이며 일반 GPU에서 추론을 위해 설계되었습니다.
2D 애니메이션 제작은 캐릭터 디자인, 키프레임 애니메이션, 중간 프레임 생성 및 색칠이라는 네 가지 필수 단계를 포함하는 산업 표준 워크플로우를 따릅니다. 저희 연구는 점점 강력해지는 생성 AI의 잠재력을 활용하여 상기 과정에서의 노동 비용을 줄이는 데 초점을 맞추고 있습니다. 비디오 확산 모델을 기반으로 AniDoc은 비디오 선 아트 색칠 도구로 나타나며, 스케치 시퀀스를 자동으로 색칠된 애니메이션으로 변환하여 참조 캐릭터 사양을 따릅니다. 저희 모델은 명시적인 가이드로서 일치 매칭을 활용하여, 참조 캐릭터와 각 선 아트 프레임 사이의 변형(예: 자세)에 대한 강력한 견고성을 제공합니다. 게다가, 저희 모델은 중간 프레임 생성 과정까지 자동화할 수 있어 사용자가 캐릭터 이미지와 시작 및 끝 스케치를 제공하기만 하면 시간적으로 일관된 애니메이션을 쉽게 만들 수 있습니다. 저희 코드는 다음에서 확인할 수 있습니다: https://yihao-meng.github.io/AniDoc_demo.
우리는 매일 컴퓨터와 상호 작용합니다. 일상 생활이나 업무에서 컴퓨터와 인터넷에 접속하여 많은 작업을 완료할 수 있습니다. 동시에 대형 언어 모델(LLMs)의 개선으로, 주변 환경과 상호 작용하며 변화를 일으키는 AI 에이전트들의 급속한 발전도 있었습니다. 그렇다면 AI 에이전트들은 작업 관련 작업을 가속화하거나 심지어 자율적으로 수행하는 데 얼마나 성능이 좋을까요? 이 질문에 대한 답은 AI를 워크플로에 도입하려는 산업과 AI 도입이 노동 시장에 미칠 영향을 이해하려는 경제 정책에 중요한 영향을 미칩니다. 이 논문에서는 이러한 LLM 에이전트들의 실제 전문적 작업 수행 능력을 측정하기 위해 TheAgentCompany를 소개합니다. 이는 디지털 워커와 유사한 방식으로 세계와 상호 작용하는 AI 에이전트를 평가하는 확장 가능한 벤치마크입니다. 웹 브라우징, 코드 작성, 프로그램 실행, 동료와의 소통을 통해 작업을 수행합니다. 우리는 소프트웨어 회사 환경을 모방한 내부 웹 사이트와 데이터로 구성된 독립적인 환경을 구축하고, 이와 같은 회사에서 수행될 수 있는 다양한 작업을 만듭니다. 우리는 닫힌 API 기반 및 오픈 가중치 언어 모델(LMs)을 활용한 기준선 에이전트를 테스트하고, 가장 경쟁력 있는 에이전트로 24%의 작업을 자율적으로 완료할 수 있음을 발견했습니다. 이는 LM 에이전트에 의한 작업 자동화에 대해 세밀한 그림을 그립니다. 실제 직장을 시뮬레이션하는 환경에서, 더 간단한 작업의 상당 부분이 자율적으로 해결될 수 있지만, 더 어려운 장기적인 작업은 현재 시스템의 능력을 벗어납니다.
본 연구에서는 딥 신경망을 훈련하기 위한 적응형 그래디언트 방법의 필요성에 대해 의문을 제기합니다. SGD-SaI는 우세한 확률적 그래디언트 하강법(SGDM)에 간단하면서도 효과적인 개선을 제공합니다. SGD-SaI는 초기에 학습률 스케일링(SaI)을 수행하여 각각의 그래디언트 신호 대 잡음 비율(g-SNR)에 따라 구분된 매개변수 그룹에 안내합니다. 두 번째 순서 모멘텀에 의존하지 않고 학습률을 조정함으로써, SGD-SaI는 훈련 불균형을 첫 번째 반복부터 방지하고 AdamW와 비교하여 옵티마이저의 메모리 사용량을 절반으로 줄입니다. 그 간단함과 효율성에도 불구하고, SGD-SaI는 다양한 Transformer 기반 작업의 훈련에서 AdamW와 일치하거나 능가하여, SGD를 사용하여 Transformer를 훈련하는 오랜 과제를 효과적으로 극복합니다. SGD-SaI는 Vision Transformers(ViT)를 사용한 ImageNet-1K 분류 및 대규모 언어 모델(LLMs, transformer decoder-only)인 GPT-2 사전 훈련에서 뛰어나며, SGD-SaI는 하이퍼파라미터 변화에 대해 견고하며 다양한 응용 프로그램에 대한 실용성을 입증합니다. 또한, LLMs 및 확산 모델에 대한 LoRA 미세 조정과 같은 작업에서 SGD-SaI는 최첨단 옵티마이저를 일관되게 능가합니다. 메모리 효율성 측면에서, SGD-SaI는 옵티마이저 상태에 대한 상당한 메모리 절약을 달성하여, GPT-2(15억 개 파라미터)의 경우 AdamW와 비교하여 5.93GB, Llama2-7B의 경우 25.15GB의 메모리 사용량을 절감합니다.
대규모 기반 모델을 활용한 그래픽 사용자 인터페이스(GUI) 에이전트는 인간-컴퓨터 상호작용을 자동화하는 혁신적인 접근 방식으로 등장했습니다. 이러한 에이전트들은 GUI를 통해 디지털 시스템이나 소프트웨어 애플리케이션과 자율적으로 상호작용하며, 다양한 플랫폼에서 클릭, 타이핑, 시각적 요소 탐색 등과 같은 인간의 행동을 모방합니다. GUI 에이전트에 대한 점점 더 높아지는 관심과 기본적인 중요성을 고려하여, 우리는 그들의 벤치마크, 평가 메트릭, 아키텍처, 그리고 훈련 방법을 분류하는 포괄적인 조사를 제공합니다. 우리는 그들의 지각, 추론, 계획, 그리고 행동 능력을 구분하는 통합된 프레임워크를 제안합니다. 더불어, 중요한 오픈 챌린지를 식별하고 주요 미래 방향을 논의합니다. 마지막으로, 이 연구는 현재 진행 상황, 기술, 벤치마크, 그리고 아직 해결되지 않은 중요한 문제에 대한 직관적인 이해를 얻기 위한 실무자와 연구자들의 기초 자료로 기여합니다.
인간은 순차적 시각 관찰로 공간을 기억하는 시각-공간 지능을 갖고 있습니다. 그러나 백만 규모의 비디오 데이터셋에서 훈련된 다중 모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)이 비디오로부터도 '공간에서 생각'할 수 있을까요? 우리는 5,000개 이상의 질문-답변 쌍으로 이루어진 혁신적인 비디오 기반 시각-공간 지능 벤치마크(VSI-Bench)를 제시하고, MLLMs가 경쟁력 있는 - 비인간적인 - 시각-공간 지능을 나타내는 것을 발견했습니다. 우리는 모델들이 언어적으로와 시각적으로 어떻게 공간에서 생각하는지 표현하도록 조사하였고, MLLMs가 높은 벤치마크 성능에 도달하기 위한 주요 병목 현상인 공간 추론 능력은 여전히 유지되지만, 지역 세계 모델과 공간 인식이 이러한 모델 내에서 나타남을 발견했습니다. 특히, 현존하는 언어적 추론 기술(예: 사고 연쇄, 자기 일관성, 사고 트리)은 성능을 향상시키지 못하는 반면, 질문-답변 과정에서 인지적 지도를 명시적으로 생성함으로써 MLLMs의 공간 거리 능력을 향상시키는 것이 가능하다는 것을 발견했습니다.
입력 이미지 해상도를 확장하는 것은 Vision Language Models (VLMs)의 성능을 향상시키는 데 중요하며, 특히 텍스트가 풍부한 이미지 이해 작업에서 그렇습니다. 그러나 ViTs와 같은 인기 있는 시각 인코더는 높은 해상도에서 효율적이지 않아서, 많은 토큰과 쌓인 self-attention 레이어로 인한 높은 인코딩 지연으로 인해 비효율적입니다. VLM의 비전 인코더는 다양한 운영 해상도에서 두 가지 측면으로 최적화될 수 있습니다: 인코딩 지연 시간을 줄이고 LLM에 전달되는 시각적 토큰 수를 최소화하여 전체 지연 시간을 낮추는 것입니다. 이미지 해상도, 비전 지연 시간, 토큰 수 및 LLM 크기 사이의 상호 작용에 대한 포괄적인 효율성 분석을 기반으로, 우리는 FastVLM을 소개합니다. 이 모델은 지연 시간, 모델 크기 및 정확도 사이의 최적의 균형을 달성합니다. FastVLM은 고해상도 이미지의 인코딩 시간을 크게 줄이기 위해 적은 수의 토큰을 출력하는 혁신적인 하이브리드 비전 인코더인 FastViTHD를 통합합니다. 이전 방법과 달리 FastVLM은 입력 이미지의 크기를 조정함으로써 시각적 토큰 수와 이미지 해상도 사이의 최적의 균형을 달성하며, 추가적인 토큰 가지치기가 필요 없어 모델 설계를 간소화합니다. LLaVA-1.5 설정에서 FastVLM은 TTFT(첫 번째 토큰까지의 시간)에서 3.2배의 개선을 달성하면서 이전 작업과 비교하여 VLM 벤치마크에서 유사한 성능을 유지합니다. 최고 해상도(1152x1152)에서 LLaVa-OneVision과 비교했을 때, FastVLM은 SeedBench 및 MMMU와 같은 주요 벤치마크에서 유사한 성능을 달성하며, 0.5B LLM을 사용하되 85배 빠른 TTFT와 3.4배 작은 비전 인코더를 갖추고 있습니다.
대형 언어 모델 (LLM)은 놀라운 성과를 이루었지만 최근 연구 결과에 따르면 그들의 깊은 층은 종종 미미하게 기여하며 전체 성능에 영향을 미치지 않고 가지치기할 수 있다는 것을 밝혀냈다. 일부는 이를 모델 압축의 기회로 보지만, 우리는 이를 Pre-Layer Normalization (Pre-LN)의 널리 사용된 훈련 결함으로 식별한다. 우리는 GPT 및 LLaMA와 같은 모델에서 일반적으로 사용되는 Pre-LN이 그 깊은 층에서 그래디언트 노름을 감소시켜 효과를 줄인다는 것을 입증한다. 이에 반해 Post-Layer Normalization (Post-LN)은 깊은 층에서 더 큰 그래디언트 노름을 유지하지만 초기 층에서 사그라들어버리는 문제가 있다. 이를 해결하기 위해 우리는 Pre-LN과 Post-LN의 장점을 결합한 혁신적인 정규화 기술인 Mix-LN을 소개한다. Mix-LN은 초기 층에 Post-LN을 적용하고 깊은 층에 Pre-LN을 적용하여 더 균일한 그래디언트를 각 층에서 보장한다. 이를 통해 네트워크의 모든 부분 - 얕은 층과 깊은 층 모두 -이 효과적으로 훈련에 기여할 수 있게 한다. 70M에서 7B까지 다양한 모델 크기로 수행된 광범위한 실험에서 Mix-LN이 일관되게 Pre-LN과 Post-LN을 능가하여 네트워크 전체에 걸쳐 균형 잡히고 건강한 그래디언트 노름을 촉진하고 LLM 사전 훈련의 전반적인 품질을 향상시킨다는 것을 입증한다. 더 나아가 Mix-LN으로 사전 훈련된 모델이 Pre-LN 또는 Post-LN을 사용하는 모델에 비해 지도 미세 조정 (SFT) 및 인간 피드백으로부터의 강화 학습 (RLHF) 중에 더 나은 학습을 한다는 것을 입증하여 깊은 층의 고품질이 중요함을 강조한다. 현재 LLM의 깊은 층의 비효율성을 효과적으로 다루면서, Mix-LN은 그들의 잠재력을 발휘하여 모델 용량을 향상시키고 모델 크기를 증가시키지 않는다. 우리의 코드는 https://github.com/pixeli99/MixLN에서 이용할 수 있다.
다중 모달 대형 언어 모델 (MLLMs)에서는 시각 트랜스포머 (ViTs)가 시각 인코딩에 널리 사용됩니다. 그러나 이러한 모델들이 범용 MLLM 작업을 해결하는 성능이 만족스럽지 않다고 판단됩니다. 이는 다양한 시각 수준에서의 정보 부족으로, 언어 생성에 필요한 다양한 의미적 세분성과의 조정을 방해한다고 합니다. 이 문제를 해결하기 위해 우리는 LLaVA-UHD v2를 제안합니다. 이는 고해상도 피라미드 특징을 구축하고 통합하여 다양한 시각적 세분성을 포착할 수 있는 계층적 창 트랜스포머를 중심으로 한 고급 MLLM입니다. 시각-언어 프로젝터로서 Hiwin 트랜스포머는 두 가지 주요 모듈로 구성됩니다: (i) ViT 유도 특징 업샘플링 프로세스를 통해 이미지 피라미드에서 고주파 세부 정보를 활용하여 구성된 역 특징 피라미드, 그리고 (ii) 교차 스케일 창 내의 일련의 주요 샘플링 특징에 초점을 맞춘 계층적 창 어텐션, 다중 수준 특징 맵을 압축합니다. 광범위한 실험 결과, LLaVA-UHD v2가 인기 있는 벤치마크에서 기존 MLLMs보다 우수한 성능을 달성한다는 것을 보여줍니다. 특히, 우리의 설계는 기준 방법과 비교하여 14개 벤치마크 전체에서 평균 3.7%의 성능 향상을 가져오며, 예를 들어 DocVQA에서는 9.3%의 향상을 보입니다. 우리는 모든 데이터, 모델 체크포인트 및 코드를 공개하여 향후 연구를 용이하게 합니다.
패션 이미지 생성을 위한 구성적 패션 이미지 생성기인 FashionComposer를 제시합니다. 이전 방법과는 달리 FashionComposer는 매우 유연합니다. 텍스트 프롬프트, 매개 변수 인간 모델, 의상 이미지 및 얼굴 이미지와 같은 다중 모달 입력을 받아들이며 인간의 외관, 자세 및 체형을 개인화하고 한 번에 여러 의상을 할당할 수 있습니다. 이를 달성하기 위해 우리는 먼저 다양한 입력 모달리티를 처리할 수 있는 범용 프레임워크를 개발했습니다. 모델의 강력한 구성 능력을 향상시키기 위해 규모 조정된 훈련 데이터를 구축했습니다. 여러 참조 이미지(의상 및 얼굴)를 매끄럽게 수용하기 위해 이러한 참조를 "자산 라이브러리"로 단일 이미지에 구성하고 참조 UNet을 사용하여 외관 특징을 추출했습니다. 생성된 결과물의 올바른 픽셀에 외관 특징을 주입하기 위해 주체 바인딩 어텐션을 제안합니다. 이는 서로 다른 "자산"에서 외관 특징을 해당 텍스트 특징과 결합합니다. 이러한 방식으로 모델은 각 자산을 의미에 따라 이해할 수 있으며 임의의 수와 유형의 참조 이미지를 지원합니다. 종합적인 솔루션으로 FashionComposer는 인간 앨범 생성, 다양한 가상 시착 작업 등 다양한 응용 프로그램도 지원합니다.
본 논문은 고효율로 자기회귀 비디오 생성을 가능하게 하는 새로운 접근 방식을 제시합니다. 우리는 비디오 생성 문제를 양자화되지 않은 시간 프레임별 예측과 공간 집합별 예측의 자기회귀 모델링으로 재정의하는 것을 제안합니다. 이전 자기회귀 모델의 래스터 스캔 예측이나 확산 모델의 고정 길이 토큰의 합동 분포 모델링과는 달리, 우리의 접근 방식은 유연한 문맥 기능을 위해 GPT 스타일 모델의 인과 속성을 유지하면서 효율성을 높이기 위해 개별 프레임 내에서 양방향 모델링을 활용합니다. 제안된 방법을 사용하여 벡터 양자화 없이 새로운 비디오 자기회귀 모델 NOVA를 훈련시킵니다. 결과는 NOVA가 데이터 효율성, 추론 속도, 시각적 충실도 및 비디오 유창성에서 이전 자기회귀 비디오 모델을 능가함을 보여줍니다. 더불어 훨씬 작은 모델 용량인 0.6B 매개변수로도 NOVA가 최신 이미지 확산 모델을 텍스트에서 이미지 생성 작업에서 능가하며 훈련 비용이 현저히 낮습니다. 게다가 NOVA는 확장된 비디오 기간에 걸쳐 일반화가 잘 되며 하나의 통합된 모델에서 다양한 제로샷 응용을 가능하게 합니다. 코드와 모델은 https://github.com/baaivision/NOVA에서 공개적으로 제공됩니다.
프롬프트는 특정 작업을 위한 언어 및 비전 기반 모델의 성능을 발휘하는 데 중요한 역할을 합니다. 이번에는 깊이 기반 모델에 프롬프팅을 처음으로 도입하여 메트릭 깊이 추정을 위한 새로운 패러다임을 만들었습니다. 이를 Prompt Depth Anything이라고 합니다. 구체적으로, 우리는 저렴한 비용의 LiDAR를 프롬프트로 사용하여 정확한 메트릭 깊이 출력을 위해 Depth Anything 모델을 안내합니다. 이를 통해 최대 4K 해상도를 달성했습니다. 우리의 접근 방식은 깊이 디코더 내에서 다양한 스케일에서 LiDAR를 통합하는 간결한 프롬프트 퓨전 디자인을 중심으로 합니다. LiDAR 깊이와 정확한 GT(ground truth) 깊이를 모두 포함하는 한정된 데이터셋으로 인한 교육 과제를 해결하기 위해, 우리는 합성 데이터 LiDAR 시뮬레이션 및 실제 데이터 가짜 GT 깊이 생성을 포함하는 확장 가능한 데이터 파이프라인을 제안합니다. 우리의 접근 방식은 ARKitScenes 및 ScanNet++ 데이터셋에서 새로운 최첨단을 세우고, 3D 재구성 및 일반화된 로봇 그랩핑을 포함한 하류 응용 프로그램에 혜택을 줍니다.
지리 공간 모델은 해상도, 규모 및 모드에 대한 지구 관측 데이터의 다양성에 적응해야 합니다. 그러나 기존의 방법론은 고정된 입력 구성을 예상하여 실제 적용 가능성을 제한합니다. 우리는 JEPA(공동 임베딩 예측 아키텍처)와 해상도 적응형 공간 인코더를 기반으로 한 다중 모달 모델인 AnySat을 제안합니다. 이를 통해 우리는 다양한 데이터에 대해 단일 모델을 자기 지도 학습 방식으로 훈련할 수 있습니다. 이 통합된 접근법의 장점을 입증하기 위해, 우리는 다양한 특성을 가진 5개의 다중 모달 데이터셋과 11개의 다른 센서로 이루어진 GeoPlex를 편집합니다. 그런 다음 이 다양한 데이터셋에 대해 단일 강력한 모델을 동시에 훈련시킵니다. 세밀하게 조정한 후, 우리는 GeoPlex의 데이터셋과 추가 4개의 데이터셋에서 5가지 환경 모니터링 작업(지표 매핑, 나무 종 식별, 작물 유형 분류, 변화 감지 및 홍수 분할)에 대해 더 나은 또는 거의 최첨단 결과를 달성합니다. 코드 및 모델은 https://github.com/gastruc/AnySat에서 제공됩니다.
확산 정책은 모방 학습에서 널리 사용되어 다중 모달 및 불연속 행동을 생성하는 등 매력적인 특성을 제공합니다. 모델이 더 복잡한 능력을 포착하기 위해 점점 커지면서 최근 스케일링 법칙에 따라 계산 요구가 증가합니다. 따라서 현재의 아키텍처를 유지하면 계산적인 장애물이 발생할 것입니다. 이 간극을 해결하기 위해 우리는 모방 학습을 위한 혁신적인 정책으로 Mixture-of-Denoising Experts (MoDE)를 제안합니다. MoDE는 희소 전문가와 노이즈 조건부 라우팅을 통해 파라미터 효율적인 스케일링을 가능하게 하면서 활성 파라미터를 40% 줄이고 전문가 캐싱을 통해 추론 비용을 90% 줄입니다. 우리의 아키텍처는 이 효율적인 스케일링을 노이즈 조건부 셀프 어텐션 메커니즘과 결합하여 다양한 노이즈 수준에서 보다 효과적인 노이즈 제거를 가능하게 합니다. MoDE는 CALVIN과 LIBERO의 네 가지 확립된 모방 학습 벤치마크에서 134가지 작업에서 최고 수준의 성능을 달성합니다. 특히, 다양한 로봇 데이터로 MoDE를 사전 훈련하여 CALVIN ABC에서 4.01, LIBERO-90에서 0.95를 달성합니다. 4개 벤치마크 전반에 걸쳐 CNN 기반 및 Transformer 확산 정책보다 57% 평균으로 뛰어나면서 기본 확산 Transformer 아키텍처에 비해 90% 더 적은 FLOP 및 활성 파라미터를 사용합니다. 더 나아가, MoDE의 구성 요소에 대한 포괄적인 제거 실험을 수행하여 확산 정책을 위한 효율적이고 확장 가능한 Transformer 아키텍처를 설계하는 통찰을 제공합니다. 코드 및 데모는 https://mbreuss.github.io/MoDE_Diffusion_Policy/에서 확인할 수 있습니다.
인간형 로봇의 확장 가능한 학습은 현실 세계 응용에서 그들의 배치에 중요하다. 전통적인 접근 방식은 주로 강화 학습 또는 원격 조작을 활용하여 전신 제어를 달성하지만, 이러한 방법은 종종 시뮬레이션 환경의 다양성과 데모 수집의 높은 비용으로 제한된다. 반면에 인간 비디오는 흔하며 의미론적 및 동작 정보의 미활용된 원천으로서 인간형 로봇의 일반화 능력을 크게 향상시킬 수 있다. 본 논문은 이 풍부한 데이터를 활용하기 위해 설계된 2천만 개 이상의 인간형 로봇 포즈와 해당 텍스트 기반 동작 설명을 갖는 대규모 데이터셋인 Humanoid-X를 소개한다. Humanoid-X는 인터넷에서 데이터 마이닝, 비디오 캡션 생성, 인간의 동작을 인간형 로봇으로 재지정하고 현실 세계 배치를 위한 정책 학습을 통해 선별된다. Humanoid-X를 사용하여 텍스트 지시를 입력으로 취하고 인간형 로봇을 제어하기 위한 해당 작업을 출력하는 대규모 인간형 모델 UH-1을 추가로 훈련한다. 광범위한 시뮬레이션 및 현실 세계 실험을 통해 우리의 확장 가능한 훈련 접근 방식이 텍스트 기반 인간형 제어에서 우수한 일반화로 이어지며, 적응 가능하고 현실 세계에 준비된 인간형 로봇으로의 중요한 한걸음을 나타낸다.
기존의 검색 보강 언어 모델(RALM)이 신뢰할 만한 응답과 신뢰할 수 있는 소스에 근거를 제공하는 데 어느 정도의 진전을 이루었지만, 인간의 선호도와 효과적으로 조율되는 것을 종종 간과합니다. 조율 과정에서 보상 모델(RM)은 최적화를 안내하기 위해 인간의 가치에 대한 중요한 대리자 역할을 합니다. 그러나 RALM에서 선호도 조율을 위해 신뢰할 수 있는 RM을 평가하고 선택하는 방법은 여전히 명확하지 않습니다. 이에 우리는 RAG-RewardBench를 제안합니다. 이는 RAG 환경에서 RM을 평가하기 위한 최초의 벤치마크입니다. 먼저, 다중 단계 추론, 세밀한 인용, 적절한 기권, 충돌 강건성을 포함한 네 가지 중요하고 도전적인 RAG 특정 시나리오를 설계하여 RM을 평가합니다. 그런 다음 데이터 소스의 다양성을 높이기 위해 18개의 RAG 하위 집합, 6개의 검색기 및 24개의 RALM을 통합합니다. 마지막으로 선호도 주석의 효율성과 효과성을 향상시키기 위해 판사로서의 LLM 접근 방식을 채택하여 인간 주석과 강한 상관 관계를 나타냅니다. RAG-RewardBench를 기반으로 45개의 RM을 종합적으로 평가하고 그들의 RAG 시나리오에서의 한계를 발견합니다. 또한 기존에 훈련된 RALM이 선호도 조율에서 거의 개선되지 않는다는 것을 밝혀, 선호도에 맞게 훈련하는 방향으로의 전환의 필요성을 강조합니다. 우리는 향후 작업을 위해 벤치마크와 코드를 https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ 에 공개합니다.
비디오 콘텐츠를 조밀한 잠재 토큰으로 인코딩하는 것은 비디오 생성 및 이해에서 기본적인 단계가 되었으며, 픽셀 수준 표현의 내재적인 중복성을 해결해야 하는 필요성에 의해 주도되고 있습니다. 결과적으로, 비디오 중심 연구가 주목받으면서 고성능 오픈 소스 비디오 토크나이저에 대한 성장하는 수요가 있습니다. 우리는 VidTok을 소개합니다. 이는 연속 및 이산 토큰화 모두에서 최첨단 성능을 제공하는 다재다능한 비디오 토크나이저입니다. VidTok은 기존 방법들에 비해 여러 가지 주요한 진보를 통합하고 있습니다: 1) 합성곱 레이어 및 업/다운샘플링 모듈과 같은 모델 아키텍처; 2) 일반적으로 Vector Quantization (VQ)과 관련된 훈련 불안정성 및 코드북 붕괴를 해결하기 위해 이산 비디오 토큰화에 Finite Scalar Quantization (FSQ)을 통합하고 있습니다; 3) 두 단계 훈련 프로세스 및 감소된 프레임 속도 사용과 같은 향상된 훈련 전략. 이러한 진보를 통합함으로써 VidTok은 기존 방법들보다 상당한 개선을 이루어내며, PSNR, SSIM, LPIPS 및 FVD를 포함한 여러 메트릭에서 우수한 성능을 나타내며, 표준화된 평가 설정에서 우수한 성과를 보여줍니다.
최근 연구 arXiv:2410.15027 및 arXiv:2410.23775은 사전 훈련된 확산 트랜스포머(DiTs)의 본질적인 문맥 생성 능력을 강조하며, 이를 통해 다양한 시각 작업에 대해 최소한의 구조적 수정 없이 원활하게 적응할 수 있다는 것을 보여주었습니다. 이러한 능력은 여러 입력 및 대상 이미지 간의 self-attention 토큰을 연결하고, 그룹화 및 마스킹된 생성 파이프라인과 결합함으로써 발휘됩니다. 이 기반 위에 구축된 ChatDiT는 사전 훈련된 확산 트랜스포머를 그대로 활용하는 제로샷, 일반용, 상호작용형 시각 생성 프레임워크를 제시합니다. 이는 추가적인 튜닝, 어댑터 또는 수정 없이 사용됩니다. 사용자는 ChatDiT를 통해 자유로운 자연어를 통해 대화식 라운드를 통해 교차로운 텍스트-이미지 기사, 다중 페이지 그림책, 이미지 편집, IP 파생품 디자인 또는 캐릭터 디자인 설정을 만들 수 있습니다. ChatDiT의 핵심은 세 가지 주요 구성 요소로 이루어진 다중 에이전트 시스템을 활용합니다: 사용자가 업로드한 이미지와 지침을 해석하는 Instruction-Parsing 에이전트, 단일 단계 또는 다단계 생성 작업을 고안하는 Strategy-Planning 에이전트, 그리고 이러한 작업을 수행하는 Execution 에이전트로 구성된 문맥 내 확산 트랜스포머 툴킷을 사용합니다. 우리는 IDEA-Bench arXiv:2412.11767에서 ChatDiT를 철저히 평가하였으며, 이는 100가지 실제 디자인 작업과 다양한 지침 및 다양한 수의 입력 및 대상 이미지를 포함하는 275개 사례로 구성되어 있습니다. 그 간단함과 훈련 없는 방식에도 불구하고, ChatDiT는 광범위한 멀티태스크 데이터셋에 특별히 설계되고 훈련된 경쟁 상대를 포함하여 모든 경쟁 상대를 능가합니다. 우리는 또한 제로샷 작업에 대한 사전 훈련된 DiTs의 주요 한계를 확인합니다. 우리는 추가 연구를 위해 모든 코드, 에이전트, 결과 및 중간 출력물을 공개하였습니다. (https://github.com/ali-vilab/ChatDiT)
대규모 언어 모델이 일치 위조에 참여하는 모습을 시연합니다: 훈련 중 행동 수정을 방지하기 위해 훈련 목표를 선택적으로 준수합니다. 먼저, Claude 3 Opus에게 시스템 프롬프트를 제공하여 모든 쿼리에 답변하도록 훈련받고 있다고 명시하며, 이는 이전 훈련에서 이러한 쿼리를 거부하도록 훈련받은 것과 충돌합니다. 모델이 훈련 중임을 추론할 수 있도록 하기 위해 무료 사용자와의 대화만을 통해 훈련받을 것이라고 말합니다. 우리는 모델이 무료 사용자로부터 해로운 쿼리에 14%의 비율로 따르는 반면, 유료 사용자의 경우 거의 절대적으로 따르지 않는 것을 발견했습니다. 무료 사용자로부터 해로운 쿼리를 따르는 대부분의 경우, 모델이 명시적인 일치 위조 추론을 보이며, 훈련 중 해를 끼치지 않는 행동을 보존하기 위해 전략적으로 해로운 쿼리에 답변하고 있다고 설명합니다. 다음으로, 시스템 프롬프트가 아닌 사전 훈련 데이터를 모방하는 합성 문서를 통해 훈련하는 더 현실적인 환경을 연구하고 유사한 일치 위조를 관찰합니다. 마지막으로, 해로운 쿼리에 따르도록 모델을 실제로 훈련시키는 효과를 연구하고, 이로 인해 일치 위조 추론 비율이 78%로 증가하지만, 훈련 이외에서도 따르는 비율이 증가합니다. 쉬운 기회가 주어질 때 모델이 가중치를 외부로 유출하는 등의 다른 행동도 관찰합니다. 모델에게 언제, 어떤 기준으로 훈련받고 있는지 알려줌으로써 일치 위조를 쉽게 만들었지만, 모델에게 일치 위조를 위조하거나 명시적인 목표를 부여하지는 않았습니다. 미래 모델이 암시적인 선호도로 인한 경우와 같이 향후 모델에서 일치 위조의 위험을 시사하는 결과입니다.
컴퓨터 지원 설계 (Computer-Aided Design, CAD) 모델은 일반적으로 매개 변수 스케치를 순차적으로 그리고 CAD 작업을 적용하여 3D 모델을 획득합니다. 3D CAD 역공학 문제는 포인트 클라우드와 같은 3D 표현으로부터 스케치 및 CAD 작업 순서를 재구성하는 것으로 구성됩니다. 본 논문에서는 CAD 시퀀스 표현, 네트워크 설계 및 데이터셋을 통해 이러한 도전 과제를 다룹니다. 특히, CAD 스케치-추출 시퀀스를 Python 코드로 표현합니다. 제안된 CAD-Recode는 포인트 클라우드를 Python 코드로 변환하여 실행하면 CAD 모델을 재구성합니다. 사전 훈련된 대형 언어 모델 (Large Language Models, LLMs)이 Python 코드에 노출되어 있음을 이용하여, 상대적으로 작은 LLM을 CAD-Recode의 디코더로 활용하고 가벼운 포인트 클라우드 프로젝터와 결합합니다. CAD-Recode는 제안된 다양한 CAD 시퀀스의 합성 데이터셋에서만 훈련되었습니다. CAD-Recode는 입력 포인트가 적은 상태에서도 세 개의 데이터셋 전반에서 기존 방법보다 훨씬 우수한 성능을 보입니다. 특히, DeepCAD 및 Fusion360 데이터셋에서 최첨단 방법에 비해 10배 낮은 평균 챔퍼 거리를 달성합니다. 더욱이, 우리는 CAD Python 코드 출력이 기존 LLMs에서 해석 가능하며, 포인트 클라우드로부터 CAD 편집 및 CAD 특정 질문에 대한 답변을 가능하게 한다는 것을 보여줍니다.
데이터 오염은 테스트 데이터를 최신 모델의 훈련 세트로 도입함으로써 공정한 LLM 평가를 방해합니다. 기존 연구는 새로 수집된 데이터로 벤치마크를 업데이트함으로써 이 문제를 해결합니다. 그러나 새로 수집된 데이터에는 기존 지식이 포함될 수 있고, 그들의 벤치마크 업데이트는 인적 노동에 의존하기 때문에 오염이 없는 평가를 보장하지 못합니다. 본 논문에서는 이러한 문제를 해결하기 위해 자동 누설 방지 벤치마킹 프레임워크인 AntiLeak-Bench를 제안합니다. 단순히 새로 수집된 데이터를 사용하는 대신, LLM의 훈련 세트에 명시적으로 새로운 지식이 없는 샘플을 구성하여 엄격하게 오염이 없는 평가를 보장합니다. 또한 인적 노동 없이 벤치마크를 구축하고 업데이트하기 위한 완전 자동화된 워크플로우를 설계합니다. 이를 통해 신흥 LLM을 수용하기 위한 벤치마크 유지 비용을 크게 줄일 수 있습니다. 광범위한 실험을 통해 데이터 오염이 LLM의 차단 시간 이전에 이미 존재할 가능성이 높으며, AntiLeak-Bench가 이 문제를 효과적으로 극복하는 것을 보여줍니다.
역사적 문서는 문자 손실, 종이 손상 및 시간이 지남에 따른 잉크 부식 등 심각한 손상을 겪지만 문화적 보물의 풍부함을 포함하고 있습니다. 그러나 기존의 문서 처리 방법은 주로 이진화, 개선 등에 초점을 맞추고 있어 이러한 손상의 복구를 무시합니다. 이에 우리는 손상된 역사적 문서의 원래 모습을 예측하는 새로운 작업인 '역사적 문서 복구 (HDR)'를 제안합니다. 이 분야의 공백을 메우기 위해 우리는 대규모 데이터셋 HDR28K와 역사적 문서 복구를 위한 확산 기반 네트워크 DiffHDR을 제안합니다. 구체적으로, HDR28K에는 문자 수준 주석과 다양한 스타일의 손상이 있는 28,552개의 손상된-복구된 이미지 쌍이 포함되어 있습니다. 또한 DiffHDR은 의미론적 및 공간 정보와 세심하게 설계된 문자 인식 손실을 사용하여 맥락적 및 시각적 일관성을 위해 일반적인 확산 프레임워크를 보강합니다. 실험 결과는 HDR28K로 훈련된 제안된 DiffHDR이 기존 방법을 크게 능가하며 실제 손상된 문서를 처리하는 뛰어난 성능을 보여준다는 것을 입증합니다. 특히, DiffHDR은 문서 편집 및 텍스트 블록 생성으로 확장할 수 있어 높은 유연성과 일반화 능력을 보여줍니다. 이 연구가 문서 처리의 새로운 방향을 개척하고 소중한 문화와 문명의 유산에 기여할 것으로 믿습니다. 데이터셋과 코드는 https://github.com/yeungchenwa/HDR에서 제공됩니다.