번역이 포함된 일일 선별된 AI 연구 논문
시각적 선호도 정렬은 대형 시각-언어 모델(LVLMs)을 사용하여 시각적 입력 사이의 인간 선호를 예측하는 것을 포함합니다. 일반적으로, 선택된/거부된 쌍의 레이블이 지정된 데이터셋을 사용하고 직접 선호도 최적화(DPO)와 같은 최적화 알고리즘을 활용하여 달성됩니다. 기존의 시각적 정렬 방법은 주로 단일 이미지 시나리오를 위해 설계되었으며, 다양한 훈련 데이터의 부족과 선택된/거부된 쌍을 주석 달기 위한 높은 비용으로 인해 다중 이미지 작업의 복잡성을 효과적으로 처리하기 어렵습니다. 우리는 다중 이미지 입력을 효과적으로 처리하는 시각적 선호도 정렬 접근 방식인 Multi-Image Augmented Direct Preference Optimization (MIA-DPO)을 제안합니다. MIA-DPO는 그리드 콜라주나 사진 안 사진 형식으로 배치된 관련 없는 이미지로 단일 이미지 데이터를 확장하여 다양한 다중 이미지 훈련 데이터의 부족을 완화하고, 다중 이미지 데이터 주석에 관련된 비용을 크게 줄입니다. 우리의 관찰 결과, LVLMs의 주의 값이 다른 이미지 간에 상당히 다르다는 것을 보여줍니다. 우리는 주의 값 사용하여 모델이 잘못 집중한 거부 응답을 식별하고 걸러냅니다. 우리의 주의 주의 선택은 (i) 인간 주석, (ii) 추가 데이터, (iii) 외부 모델이나 API에 의존하지 않고 선택된/거부된 쌍을 구성하는 데 사용됩니다. MIA-DPO는 다양한 아키텍처와 호환되며, 다섯 가지 다중 이미지 벤치마크에서 기존 방법을 능가하여 LLaVA-v1.5에서 평균 성능 향상률이 3.0%, 최근 InternLM-XC2.5에서 4.3%를 달성합니다. 또한, MIA-DPO는 모델이 단일 이미지를 이해하는 능력에 미미한 영향을 미칩니다.
다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 비디오 콘텐츠를 이해하고 분석하는 데 유망한 진전을 보여주었습니다. 그러나 긴 비디오를 처리하는 것은 LLM의 문맥 크기에 제약을 받아 중요한 도전 과제입니다. 이 한계를 극복하기 위해 우리는 LongVU를 제안합니다. 이는 비디오 토큰의 수를 줄이면서 긴 비디오의 시각적 세부 정보를 보존하는 시공간 적응 압축 메커니즘입니다. 우리의 아이디어는 교차 모달 쿼리와 프레임 간 종속성을 활용하여 비디오의 시간적 및 공간적 중복성을 적응적으로 줄이는 데 기반합니다. 구체적으로, 우리는 높은 유사성을 나타내는 중복 프레임을 제거하기 위해 DINOv2 특징을 활용합니다. 그런 다음 선택적 프레임 특징 축소를 위해 텍스트로 안내된 교차 모달 쿼리를 활용합니다. 더 나아가, 우리는 프레임 간의 시간적 종속성에 기초하여 프레임 간의 공간 토큰 축소를 수행합니다. 우리의 적응적 압축 전략은 주어진 문맥 길이 내에서 시각적 정보 손실을 최소화하면서 많은 프레임을 효과적으로 처리합니다. LongVU는 VideoMME 및 MLVU와 같은 시간이 오래 걸리는 비디오 이해 작업을 포함한 다양한 비디오 이해 벤치마크에서 기존 방법을 일관되게 능가합니다. 가벼운 무게의 LLM이 주어진 경우, LongVU는 최신 비디오 이해 성능을 유지하면서 효과적으로 더 작은 크기로 확장됩니다.
최근 예측 모델의 발전은 물체와 장면의 미래 상태를 예측하는 데 뛰어난 능력을 보여주었습니다. 그러나 본질적 특성에 기반한 분류의 부족은 예측 모델 개발의 진전을 방해하고 있습니다. 게다가 기존의 벤치마크는 높은 능력과 높은 체감성을 가진 예측 모델을 체감적 관점에서 효과적으로 평가할 수 없습니다. 본 연구에서는 예측 모델의 기능을 계층적으로 분류하고, World Simulator를 평가하기 위해 WorldSimBench라는 이중 평가 프레임워크를 제안하는 첫걸음을 내딛습니다. WorldSimBench에는 명시적 지각 평가와 암시적 조작 평가가 포함되어 있으며, 시각적 관점에서의 인간 선호도 평가와 체감적 작업에서의 행동 수준 평가를 포괄하며, Open-Ended Embodied Environment, Autonomous Driving, 그리고 Robot Manipulation의 세 가지 대표적인 체감적 시나리오를 다룹니다. 명시적 지각 평가에서는 섬세한 인간 피드백을 기반으로 한 비디오 평가 데이터셋인 HF-Embodied Dataset을 소개하고, 이를 사용하여 인간 지각과 일치하며 World Simulator의 시각적 충실도를 명시적으로 평가하는 Human Preference Evaluator를 훈련시킵니다. 암시적 조작 평가에서는 World Simulator의 비디오-행동 일관성을 평가하여 생성된 상황 인식 비디오가 동적 환경에서 올바른 제어 신호로 정확하게 변환될 수 있는지를 평가합니다. 우리의 포괄적인 평가는 비디오 생성 모델에 대한 핵심 통찰을 제공하며, World Simulator를 체감적 인공지능으로 나아가는 중요한 발전으로 위치시킵니다.
확산 언어 모델(Diffusion Language Models, DLMs)은 텍스트 생성 모델링을 위한 유망한 새로운 패러다임으로 등장했으며, 자기회귀(AR) 모델의 한계를 해결할 수 있는 잠재력을 가지고 있습니다. 그러나 현재의 DLMs는 AR 모델과 비교했을 때 규모가 작고, 언어 모델링 벤치마크에서 공정한 비교가 부족합니다. 게다가 대규모로부터 확산 모델을 처음부터 훈련하는 것은 여전히 어려운 과제입니다. AR 언어 모델의 오픈 소스가 널리 사용되고 있는 상황에서, 우리는 이러한 모델들을 채택하여 텍스트 확산 모델을 구축하는 것을 제안합니다. 우리는 AR 및 확산 모델링 목표 사이의 연결을 보여주고, 확산 모델을 훈련하기 위한 간단한 지속적 사전 훈련 방법을 소개합니다. 언어 모델링, 추론, 상식적 벤치마크에 대한 체계적인 평가를 통해, 우리는 127M부터 7B까지의 매개변수를 가진 AR 모델(GPT2 및 LLaMA)을 200B 토큰 미만으로 훈련하여 확산 모델인 DiffuGPT 및 DiffuLLaMA로 변환할 수 있음을 보여줍니다. 실험 결과는 이러한 모델이 이전 DLMs보다 우수하며 AR 모델과 경쟁력을 갖는 것을 나타냅니다. 우리는 유창한 텍스트 생성, 문맥 내 학습, 프롬프트 재정렬 없이 중간을 채우는 등의 기능을 수행할 수 있는 127M, 355M, 7B 매개변수를 갖는 DLMs 모음을 공개합니다. (https://github.com/HKUNLP/DiffuLLaMA)
직접 선호도 최적화(Direct Preference Optimization, DPO)는 인간 피드백과 텍스트-이미지(T2I) 모델을 조정하는 강력한 방법으로 등장했습니다. 그러나 T2I 모델에 DPO를 성공적으로 적용하려면 수백만 개의 인간 선호도가 주석이 달린 대규모 데이터셋을 수집하고 레이블을 지정하는 데 많은 리소스가 필요합니다. 또한, T2I 모델의 빠른 향상으로 인해 더 높은 품질의 이미지가 나타나면서 이러한 인간 선호도 데이터셋이 빠르게 오래되기도 합니다. 본 연구에서는 DPO 훈련을 위해 대규모 및 완전히 합성 데이터셋을 수집하기 위한 확장 가능한 접근 방식을 조사합니다. 구체적으로, 쌍으로 묶인 이미지에 대한 선호도는 사전 훈련된 보상 함수를 사용하여 생성되어 인간을 주석 처리에 참여시킬 필요가 없어지며 데이터셋 수집 효율이 크게 향상됩니다. 더불어, 이러한 데이터셋을 사용하면 여러 모델 간 예측을 평균화하고 쌍 대신 순위가 매겨진 선호도를 수집할 수 있음을 입증합니다. 더 나아가, 순위 피드백을 활용하여 DPO 기반 방법을 향상시키는 RankDPO를 소개합니다. SDXL 및 SD3-Medium 모델에 Syn-Pic이라는 합성으로 생성된 선호도 데이터셋에 RankDPO를 적용하면 T2I-Compbench, GenEval 및 DPG-Bench와 같은 벤치마크에서 프롬프트 따르기 및 시각적 품질이 모두 향상되었음을 입증합니다. 이 파이프라인은 텍스트-이미지 모델의 성능을 향상시키기 위해 더 나은 선호도 데이터셋을 개발하는 실용적이고 확장 가능한 솔루션을 제시합니다.
최근 LiDAR 장면 생성 기술은 급속히 발전해 왔습니다. 그러나 기존 방법은 주로 정적이고 단일 프레임 장면 생성에 초점을 맞추어 실제 운전 환경의 본질적으로 동적인 성격을 간과했습니다. 본 논문에서는 시간적 진화를 포착하는 대규모 고품질 LiDAR 장면을 생성할 수 있는 새로운 4D LiDAR 생성 프레임워크인 DynamicCity를 소개합니다. DynamicCity는 주로 두 가지 주요 모델로 구성됩니다. 1) HexPlane을 압축된 4D 표현으로 학습하기 위한 VAE 모델입니다. DynamicCity는 단순 평균 연산 대신 4D LiDAR 특징을 유효하게 압축하기 위해 새로운 Projection Module을 사용하여 HexPlane 구성을 위해 6개의 2D 특징 맵으로 압축합니다. 이는 HexPlane 적합성 품질을 크게 향상시킵니다(최대 12.56 mIoU 향상). 더 나아가, 우리는 3D 특징 볼륨을 병렬로 재구성하기 위해 Expansion & Squeeze 전략을 활용하여 네트워크 훈련 효율성과 재구성 정확도를 개선합니다(최대 7.05 mIoU 향상, 2.06배 훈련 속도 향상 및 70.84% 메모리 절감). 2) HexPlane 생성을 위한 DiT 기반 확산 모델입니다. DiT 생성을 위해 HexPlane을 가능하게 하기 위해 Padded Rollout Operation이 제안되어 HexPlane의 6개 특징 평면을 제곱형 2D 특징 맵으로 재구성합니다. 특히, 다양한 조건이 확산 또는 샘플링 과정에서 도입될 수 있으며, 궤적 및 명령 주도 생성, 인페인팅 및 레이아웃 조건부 생성과 같은 다양한 4D 생성 응용에 지원됩니다. CarlaSC 및 Waymo 데이터셋에서 수행된 다양한 실험 결과, DynamicCity가 다양한 메트릭을 통해 기존 최첨단 4D LiDAR 생성 방법을 크게 능가함을 입증했습니다. 코드는 향후 연구를 용이하게 하기 위해 공개될 예정입니다.
보상 모델(RMs)은 오늘날 LLMs의 최첨단 성능을 이끌어내는데에 기여하며 인간 피드백을 언어 모델링 과정에 통합할 수 있게 합니다. 그러나 RMs은 주로 영어로 훈련되고 평가되며, 다국어 환경에서의 능력은 대부분 미연구 상태입니다. 본 연구에서는 다국어 환경에서 여러 보상 모델을 체계적으로 평가합니다. 우리는 먼저 23가지 유형학적으로 다양한 언어를 위한 2.87k 선호도 인스턴스로 이루어진 M-RewardBench라는 독특한 다국어 RM 평가 벤치마크를 구축합니다. 이 벤치마크는 RMs의 채팅, 안전, 추론 및 번역 능력을 테스트합니다. 그런 다음, 우리는 다양한 보상 모델을 M-RewardBench에서 엄격하게 평가하여 다양한 언어에 걸쳐 그들의 성능에 대한 새로운 통찰력을 제공합니다. 우리는 영어와 비영어 언어 간에 RMs의 성능 차이를 확인하고, 한 언어에서 다른 언어로 RM 선호도가 상당히 변할 수 있다는 것을 보여줍니다. 또한 다양한 다국어 측면이 RM 성능에 어떻게 영향을 미치는지에 대한 여러 발견을 제시합니다. 구체적으로, 번역 품질이 향상됨에 따라 RMs의 성능이 향상되는 것을 보여줍니다. 마찬가지로, 고자원 언어에 대해 모델이 더 나은 성능을 발휘한다는 것을 입증합니다. 우리는 본 연구에서 M-RewardBench 데이터셋과 코드베이스를 공개하여 다국어 환경에서 RM 평가를 더 잘 이해할 수 있도록 지원합니다.
본 논문은 효율적 상호작용 및 안드로이드 앱 간 제어를 위한 새로운 휴대전화 제어 구조인 "앱 에이전트"를 소개합니다. 제안된 경량 다중 모달 앱 제어(LiMAC)는 텍스트 목표와 이전 모바일 관측(스크린샷 및 해당 UI 트리와 같은) 시퀀스를 입력으로 받아 정확한 작업을 생성합니다. 스마트폰에 내재된 계산 제약을 해결하기 위해 LiMAC 내에서는 실시간 의사 결정 및 작업 실행을 위한 작은 액션 변환기(AcT)와 세밀하게 조정된 비전-언어 모델(VLM)을 도입합니다. 우리는 LiMAC을 두 개의 오픈 소스 모바일 제어 데이터셋에서 평가하여, 우리의 소형 폼 팩터 접근법이 Florence2 및 Qwen2-VL과 같은 오픈 소스 VLM의 세밀하게 조정된 버전에 비해 우수한 성능을 보여줌을 입증합니다. 또한 GPT-4o와 같은 폐쇄 소스 기반 모델을 활용하는 프롬프트 엔지니어링 기준을 크게 능가합니다. 더 구체적으로, LiMAC은 세밀하게 조정된 VLM에 비해 전체 작업 정확도를 최대 19% 향상시키고, 프롬프트 엔지니어링 기준에 비해 최대 42% 향상시킵니다.
의료 분석 분야에 대규모 언어 모델 (LLM) 기술을 통합하는 것은 중요한 발전을 가져왔지만, 대규모이면서 다양하며 잘 주석이 달린 데이터셋의 부족은 여전히 주요한 과제입니다. 형식, 크기 및 기타 매개변수가 다양한 의료 데이터와 작업은 LLM 훈련에 효과적으로 활용하기 위해 광범위한 전처리와 표준화가 필요합니다. 이러한 과제를 해결하기 위해 우리는 MedINST, 생체 의학 지침의 메타 데이터셋으로 133가지 생체 의학 NLP 작업과 700만 개 이상의 훈련 샘플로 구성된 혁신적인 다중 도메인, 다중 작업 지침 메타 데이터셋을 소개합니다. MedINST를 메타 데이터셋으로 활용하여 우리는 서로 다른 작업 난이도를 가진 도전적인 벤치마크인 MedINST32를 만들어 LLM의 일반화 능력을 평가합니다. MedINST에서 여러 LLM을 세밀하게 조정하고 MedINST32에서 평가하여 작업 간 일반화 능력을 향상시키는 것을 보여줍니다.
최근에는 다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)이 놀라운 능력으로 많은 관심을 받고 있습니다. MLLM의 평가는 MLLM의 특성을 분석하고 유용한 통찰을 제공하는 데 중요해지고 있습니다. 그러나 현재의 벤치마크는 프롬프트 민감도 문제를 간과하고 있습니다 - 작은 프롬프트 변화가 성능의 상당한 변동을 일으킬 수 있습니다. 따라서 부적절한 프롬프트는 모델의 능력을 흐리게 하고 모델의 성능을 과소평가할 수 있습니다. 게다가, 서로 다른 모델은 서로 다른 프롬프트를 선호하며, 따라서 모든 모델에 동일한 프롬프트를 사용하는 것은 평가 편향을 일으킬 수 있습니다. 본 논문은 기존 벤치마크의 이 결함을 분석하고, 평가 편향을 줄이고 모델의 잠재력을 활용하기 위한 새로운 평가 프레임워크인 TP-Eval을 소개합니다. TP-Eval은 원래 프롬프트를 다른 모델에 대해 다양한 맞춤형 프롬프트로 재작성합니다. 특히, MLLM 평가 시나리오에 맞게 설계된 프롬프트 맞춤형을 위한 몇 가지 잘 설계된 모듈을 제안합니다. 광범위한 실험은 우리의 접근 방식이 모델의 능력을 발굴하는 데 효과적임을 입증하며, TP-Eval은 더 포괄적이고 설득력 있는 MLLM 평가 벤치마크를 개발하는 데 커뮤니티에 도움이 될 것입니다.
신경망의 성능은 그 크기와 훈련된 데이터 양 모두에 비례합니다. 이는 언어 및 이미지 생성에서 나타납니다. 그러나 이를 위해서는 규모 조정에 친화적인 네트워크 구조와 대규모 데이터셋이 필요합니다. 최근에는 3D 비전 작업을 위한 변형자와 같은 규모 조정에 친화적인 구조가 등장했지만, 훈련 데이터 부족으로 인해 3D 비전의 GPT-순간은 아직 먼 것으로 남아 있습니다. 본 논문에서는 밀도 높은 의미 주석이 포함된 최초의 대규모 현실 세계 3D 데이터셋인 ARKit LabelMaker를 소개합니다. 구체적으로, ARKitScenes 데이터셋을 밀도 높은 의미 주석으로 보완하였으며, 이는 규모에 맞게 자동으로 생성되었습니다. 이를 위해 최근 개발된 자동 주석 파이프라인인 LabelMaker를 확장하여 대규모 사전 훈련의 요구를 충족시켰습니다. 이는 최첨단 분할 모델을 통합하고 대규모 처리의 어려움에 견고하게 대응하는 것을 포함합니다. 더 나아가, 우리가 생성한 데이터셋의 효과를 입증하기 위해 주요 3D 의미 분할 모델을 사용하여 ScanNet 및 ScanNet200 데이터셋에서 최신 기술 성능을 더욱 향상시켰습니다.
우리는 Large View Synthesis Model (LVSM)을 제안합니다. 이는 희소한 시야 입력으로부터 확장 가능하고 일반화된 신기한 시야 합성을 위한 혁신적인 트랜스포머 기반 접근 방식입니다. 우리는 두 가지 아키텍처를 소개합니다: (1) 인코더-디코더 LVSM은 입력 이미지 토큰을 고정된 수의 1차원 잠재 토큰으로 인코딩하여 완전히 학습된 장면 표현으로 작용하며 이를 통해 신기한 시야 이미지를 디코딩합니다. (2) 디코더 전용 LVSM은 입력 이미지를 직접 신기한 시야 출력으로 매핑하여 중간 장면 표현을 완전히 제거합니다. 두 모델 모두 이전 방법에서 사용된 3D 귀납적 편향을 우회합니다 - 3D 표현(예: NeRF, 3DGS)에서 네트워크 설계(예: 에피폴라 투영, 평면 스위핑)로 - 완전히 데이터 주도적인 접근 방식으로 신기한 시야 합성을 다룹니다. 인코더-디코더 모델은 독립적인 잠재 표현으로 인해 빠른 추론을 제공하지만, 디코더 전용 LVSM은 우수한 품질, 확장성 및 제로샷 일반화를 달성하여 이전 최첨단 방법을 1.5에서 3.5 dB PSNR로 능가합니다. 다양한 데이터셋을 통한 포괄적인 평가는 두 LVSM 변형 모두 최첨단 신기한 시야 합성 품질을 달성함을 보여줍니다. 특히, 우리 모델은 모든 이전 방법을 능가하며 심지어 줄어든 계산 자원(1-2 GPU)으로도 성과를 거두었습니다. 더 많은 세부 정보는 저희 웹사이트를 참조해주십시오: https://haian-jin.github.io/projects/LVSM/ .
다양한 데모 데이터셋에서 훈련된 대규모 일반용 로봇 정책은 다양한 장면에서 로봇을 제어하고 다양한 조작 기술을 습득하는 데 탁월한 효과를 보여주었습니다. 그러나 이러한 정책이 훈련을 받는 데이터는 일반적으로 혼합 품질입니다. 인간이 수집한 데모는 작업을 완벽하게 수행하지 못할 가능성이 높을 뿐만 아니라 데이터셋이 클수록 최상의 예제만 선별하기가 어려울 수 있습니다. 또한 한 구현체에서 얻은 최적의 데이터가 다른 구현체에서 훈련하는 데 얼마나 적합한지는 여전히 명확하지 않습니다. 본 논문에서는 오프라인 강화학습을 통해 학습된 가치 함수에 따라 행동을 다시 순위 지정하여 배포 시 일반적인 로봇 정책의 성능을 향상시키는 일반적이고 널리 적용 가능한 접근 방식을 제시합니다. 이 접근 방식인 가치 지도 정책 조정(Value-Guided Policy Steering, V-GPS)은 다양한 일반용 정책과 호환되며, 정책의 가중치를 세밀하게 조정할 필요가 없거나 심지어 액세스할 필요가 없습니다. 우리는 동일한 가치 함수가 서로 다른 아키텍처로 훈련된 다섯 가지 최첨단 정책의 성능을 향상시킬 수 있음을 보여줍니다. 이 정책들은 서로 다른 데이터셋에서 훈련되었음에도 12가지 작업을 거치며 여러 로봇 플랫폼에서 일관된 성능 향상을 달성했습니다. 코드 및 비디오는 다음 링크에서 확인할 수 있습니다: https://nakamotoo.github.io/V-GPS