번역이 포함된 일일 선별된 AI 연구 논문
우리는 새로운 시퀀스 모델링 아키텍처인 RWKV-7 "Goose"와 이를 기반으로 사전 학습된 언어 모델을 소개합니다. 이 모델은 30억 파라미터 규모에서 다국어 작업에 대한 다운스트림 성능에서 새로운 최첨단 기술을 확립하며, 다른 최고 수준의 30억 파라미터 모델보다 훨씬 적은 토큰으로 학습했음에도 불구하고 현재의 영어 언어 성능과 동등한 수준을 보여줍니다. 또한 RWKV-7 모델은 토큰당 일정한 메모리 사용량과 일정한 추론 시간만을 요구합니다. RWKV-7은 벡터 값 게이팅과 컨텍스트 내 학습률을 포함한 델타 규칙의 새로운 일반화된 공식화와 완화된 값 대체 규칙을 도입했습니다. 우리는 RWKV-7이 상태 추적을 수행하고 모든 정규 언어를 인식할 수 있으며, 동시에 훈련의 병렬화 가능성을 유지할 수 있음을 보여줍니다. 이는 표준 복잡성 추론 하에서 TC^0로 제한되는 트랜스포머의 능력을 초과합니다. RWKV-7의 언어 모델링 능력을 입증하기 위해, 우리는 또한 확장된 오픈 소스 3.1조 토큰 다국어 코퍼스를 제시하고, 이 데이터셋에서 1.9억에서 29억 파라미터에 이르는 네 개의 RWKV-7 모델을 학습시켰습니다. 개방성, 재현성, 그리고 채택을 촉진하기 위해, 우리는 모델과 데이터셋 구성 요소 목록을 https://huggingface.co/RWKV에서, 훈련 및 추론 코드를 https://github.com/RWKV/RWKV-LM에서 아파치 2.0 라이선스 하에 공개합니다.
추론 스케일링은 LLM(Large Language Model)에 전례 없는 추론 능력을 부여하며, 복잡한 추론을 이끌어내기 위한 핵심 기술로 강화 학습(Reinforcement Learning)을 활용합니다. 그러나 최신 추론 LLM의 주요 기술적 세부 사항(예: OpenAI o1 블로그 및 DeepSeek R1 기술 보고서)은 공개되지 않아, 커뮤니티는 여전히 그들의 RL 훈련 결과를 재현하는 데 어려움을 겪고 있습니다. 우리는 **Decoupled Clip 및 Dynamic Sampling Policy Optimization (DAPO)** 알고리즘을 제안하고, Qwen2.5-32B 기본 모델을 사용하여 AIME 2024에서 50점을 달성한 최신 대규모 RL 시스템을 완전히 오픈소스로 공개합니다. 훈련 세부 사항을 공개하지 않았던 기존 연구와 달리, 우리는 대규모 LLM RL을 성공적으로 구현한 알고리즘의 네 가지 핵심 기술을 소개합니다. 또한, **verl** 프레임워크를 기반으로 구축된 훈련 코드와 신중하게 선별 및 처리된 데이터셋을 오픈소스로 공개합니다. 우리의 오픈소스 시스템은 재현성을 높이고, 대규모 LLM RL 분야의 미래 연구를 지원합니다.
현재 합성 비디오는 실제 비디오의 데이터 부족과 다양성을 보완하기 위해 널리 사용되고 있습니다. 현재의 합성 데이터셋은 주로 실제 시나리오를 복제하는 데 초점을 맞추고 있어, 불가능한, 반사실적이며 현실을 거스르는 비디오 개념들은 충분히 탐구되지 않고 있습니다. 본 연구는 두 가지 질문에 답하고자 합니다: 1) 오늘날의 비디오 생성 모델이 불가능한 비디오 콘텐츠를 생성하기 위해 프롬프트를 효과적으로 따를 수 있는가? 2) 오늘날의 비디오 이해 모델이 불가능한 비디오를 이해하기에 충분히 우수한가? 이를 위해, 우리는 비디오 이해와 생성 분야의 진전을 평가하고 촉진하기 위한 새로운 벤치마크인 IPV-Bench를 소개합니다. IPV-Bench는 4개의 도메인과 14개의 카테고리를 포함하는 포괄적인 분류 체계를 기반으로 합니다. 이 벤치마크는 물리적, 생물학적, 지리적 또는 사회적 법칙을 거스르는 다양한 장면을 특징으로 합니다. 이 분류 체계를 바탕으로, 비디오 생성 모델의 프롬프트 준수 능력과 창의성을 평가하기 위한 프롬프트 세트가 구성되었습니다. 또한, 불가능한 비디오를 이해하는 능력을 평가하기 위해 Video-LLMs를 대상으로 한 비디오 벤치마크가 구성되었으며, 이는 특히 시간적 역학과 세계 지식에 대한 추론을 요구합니다. 포괄적인 평가를 통해 비디오 모델의 한계와 향후 방향에 대한 통찰을 얻었으며, 이를 통해 차세대 비디오 모델을 위한 길을 열었습니다.
창의성은 다양한 맥락에서 새롭고 적절한 해결책을 생성할 수 있는 능력을 포함하는 지능의 근본적인 측면입니다. 대형 언어 모델(LLMs)의 창의적 능력은 광범위하게 평가되어 왔지만, 다중모달 대형 언어 모델(MLLMs)의 창의성 평가는 아직 크게 탐구되지 않았습니다. 이러한 격차를 해소하기 위해, 우리는 실제 세계의 이미지 기반 작업에서 MLLMs의 창의적 능력을 평가하기 위해 특별히 설계된 다중모달 벤치마크인 Creation-MMBench를 소개합니다. 이 벤치마크는 51개의 세분화된 작업에 걸친 765개의 테스트 케이스로 구성되어 있습니다. 엄격한 평가를 보장하기 위해, 각 테스트 케이스에 대해 인스턴스별 평가 기준을 정의하여 일반적인 응답 품질과 시각적 입력과의 사실적 일관성을 평가하는 가이드를 제공합니다. 실험 결과, 현재의 오픈소스 MLLMs는 창의적 작업에서 독점 모델에 비해 크게 뒤처지는 것으로 나타났습니다. 또한, 우리의 분석은 시각적 미세 조정이 기본 LLM의 창의적 능력에 부정적인 영향을 미칠 수 있음을 보여줍니다. Creation-MMBench는 MLLM 창의성 발전을 위한 귀중한 통찰을 제공하며, 다중모달 생성 지능의 미래 개선을 위한 기반을 마련합니다. 전체 데이터와 평가 코드는 https://github.com/open-compass/Creation-MMBench에서 공개되었습니다.
고품질의 대규모 관절형 객체는 구체화된 AI와 관련된 다양한 작업에서 절실히 필요합니다. 기존의 관절형 객체 생성 방법은 대부분 데이터 기반 또는 시뮬레이션 기반으로, 이는 학습 데이터의 규모와 품질 또는 시뮬레이션의 정확도와 많은 노동력에 의해 제한됩니다. 본 논문에서는 절차적 생성을 통해 고품질의 관절형 객체를 합성하는 새로운 방법인 Infinite Mobility를 제안합니다. 사용자 연구와 정량적 평가를 통해 우리의 방법이 현재의 최신 기술을 능가하며, 물리적 속성과 메시 품질 모두에서 인간이 주석을 단 데이터셋과 비교할 만한 결과를 생성할 수 있음을 입증했습니다. 더 나아가, 우리의 합성 데이터가 생성 모델의 학습 데이터로 사용될 수 있으며, 이를 통해 다음 단계의 규모 확장이 가능함을 보여줍니다. 코드는 https://github.com/Intern-Nexus/Infinite-Mobility에서 확인할 수 있습니다.
인간 전문가들은 도메인 지식을 활용하여 지각적 특징을 세밀하게 조정함으로써 미세한 시각적 차별화에 탁월한 능력을 보입니다. 이러한 능력은 현재의 다중모드 대형 언어 모델(MLLM)에서는 아직 충분히 개발되지 못하고 있습니다. MLLM은 방대한 전문가 수준의 지식을 보유하고 있음에도 불구하고, 시각적 인식에 추론을 통합하는 데 어려움을 겪으며 종종 더 깊은 분석 없이 직접적인 응답을 생성합니다. 이러한 격차를 해소하기 위해, 우리는 미세한 지각과 도메인 특화 지식 통합을 모두 요구하는 새로운 시각적 접지 작업인 지식 집약적 시각적 접지(KVG)를 소개합니다. KVG의 도전 과제를 해결하기 위해, 우리는 인지적 시각적 인식 능력이 강화된 MLLM인 DeepPerception을 제안합니다. 우리의 접근 방식은 (1) 고품질의 지식 정렬 훈련 샘플을 생성하는 자동화된 데이터 합성 파이프라인과 (2) 인지적 추론 스캐폴딩을 위한 지도 미세 조정과 지각-인지 시너지를 최적화하기 위한 강화 학습을 결합한 두 단계 훈련 프레임워크로 구성됩니다. 성능을 벤치마킹하기 위해, 우리는 10개 도메인에 걸쳐 1.3K개의 수동으로 선별된 테스트 케이스를 포함한 포괄적인 데이터셋인 KVG-Bench를 소개합니다. 실험 결과는 DeepPerception이 직접적인 미세 조정을 크게 능가하며, KVG-Bench에서 +8.08%의 정확도 향상을 달성하고 기준 접근법 대비 +4.60%의 우수한 도메인 간 일반화 능력을 보여줍니다. 우리의 연구 결과는 인간과 같은 시각적 인식을 위해 MLLM에 인지 과정을 통합하는 것의 중요성을 강조하며, 다중모드 추론 연구를 위한 새로운 방향을 제시합니다. 데이터, 코드 및 모델은 https://github.com/thunlp/DeepPerception에서 공개되었습니다.
오디오와 음악 생성은 많은 애플리케이션에서 중요한 과제로 부상했지만, 기존 접근 방식은 상당한 한계를 가지고 있습니다: 이들은 모달리티 간 통합된 능력 없이 고립적으로 작동하며, 고품질의 다중 모달 학습 데이터가 부족하고, 다양한 입력을 효과적으로 통합하는 데 어려움을 겪습니다. 본 연구에서는 Anything-to-Audio 및 음악 생성을 위한 통합 Diffusion Transformer 모델인 AudioX를 제안합니다. 이전의 도메인 특화 모델과 달리, AudioX는 일반 오디오와 음악 모두를 고품질로 생성할 수 있으며, 텍스트, 비디오, 이미지, 음악, 오디오를 포함한 다양한 모달리티를 유연하게 제어하고 원활하게 처리할 수 있습니다. 이 모델의 핵심 혁신은 다중 모달 마스크 훈련 전략으로, 모달리티 간 입력을 마스킹하고 모델이 마스크된 입력에서 학습하도록 강제하여 강력하고 통합된 교차 모달 표현을 얻습니다. 데이터 부족 문제를 해결하기 위해, 우리는 VGGSound 데이터셋을 기반으로 한 19만 개의 오디오 캡션을 포함한 vggsound-caps와 V2M 데이터셋에서 파생된 600만 개의 음악 캡션을 포함한 V2M-caps라는 두 가지 포괄적인 데이터셋을 구축했습니다. 광범위한 실험을 통해 AudioX는 최신 특화 모델과 견줄 만하거나 이를 능가할 뿐만 아니라, 통합된 아키텍처 내에서 다양한 입력 모달리티와 생성 작업을 처리하는 데 있어 놀라운 다재다능성을 제공함을 입증했습니다. 코드와 데이터셋은 https://zeyuet.github.io/AudioX/에서 공개될 예정입니다.
대규모 언어 모델(LLMs)은 특정 작업에 대한 별도의 학습 없이도 간단한 프롬프트를 통해 다양한 일반적인 작업을 처리할 수 있습니다. LLMs를 기반으로 구축된 다중 모달 대규모 언어 모델(MLLMs)은 시각, 청각, 텍스트 데이터를 포함한 복잡한 작업을 해결하는 데 있어서 인상적인 잠재력을 보여주었습니다. 그러나 진실성, 안전성, 인간과 유사한 추론 능력, 그리고 인간의 선호도와의 정렬과 관련된 중요한 문제들은 여전히 충분히 해결되지 못하고 있습니다. 이러한 격차는 다양한 정렬 알고리즘의 등장을 촉진시켰으며, 각 알고리즘은 서로 다른 응용 시나리오와 최적화 목표를 대상으로 합니다. 최근 연구들은 정렬 알고리즘이 앞서 언급된 과제를 해결하는 데 있어 강력한 접근법임을 보여주었습니다. 본 논문에서는 MLLMs를 위한 정렬 알고리즘에 대한 포괄적이고 체계적인 리뷰를 제공하고자 합니다. 구체적으로, 우리는 (1) 일반적인 이미지 이해, 다중 이미지, 비디오, 오디오 및 확장된 다중 모달 응용을 포함한 정렬 알고리즘의 응용 시나리오, (2) 데이터 소스, 모델 응답, 선호도 주석을 포함한 정렬 데이터셋 구축의 핵심 요소, (3) 정렬 알고리즘을 평가하는 데 사용되는 벤치마크, 그리고 (4) 정렬 알고리즘 개발의 잠재적인 미래 방향에 대한 논의 등 네 가지 주요 측면을 탐구합니다. 이 작업은 연구자들이 해당 분야의 최신 발전을 정리하고 더 나은 정렬 방법을 고안하는 데 도움을 주고자 합니다. 본 논문의 프로젝트 페이지는 https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment에서 확인할 수 있습니다.
이미지 캡셔닝은 시각-언어 연구 분야에서 오랫동안 도전적인 과제로 남아있었습니다. 대형 언어 모델(LLM)의 등장과 함께, 현대의 시각-언어 모델(VLM)은 상세하고 포괄적인 이미지 설명을 생성할 수 있게 되었습니다. 그러나 이러한 캡션의 품질을 평가하는 벤치마킹은 여전히 해결되지 않은 문제로 남아 있습니다. 본 논문은 두 가지 핵심 질문을 다룹니다: (1) 현재의 VLM이 실제로 이미지 캡셔닝에서 얼마나 잘 수행되며, 특히 인간과 비교했을 때 어떤 성능을 보이는가? 우리는 6000개 이상의 캡션 대결과 고품질의 인간 선호도 투표를 포함한 CapArena 플랫폼을 구축했습니다. 아레나 스타일의 평가를 통해 GPT-4o와 같은 선두 모델이 인간 수준의 성능을 달성하거나 이를 뛰어넘는 반면, 대부분의 오픈소스 모델은 뒤처지는 것을 확인했습니다. (2) 자동화된 메트릭이 상세한 캡션 품질을 신뢰할 수 있게 평가할 수 있는가? CapArena의 인간 주석을 활용하여 전통적 및 최신 캡셔닝 메트릭과 VLM-as-a-Judge를 평가했습니다. 우리의 분석은 일부 메트릭(예: METEOR)이 인간과의 캡션 수준 일치를 보여주지만, 이들의 체계적 편향으로 인해 모델 순위에서 불일치가 발생함을 보여줍니다. 반면, VLM-as-a-Judge는 캡션 및 모델 수준에서 모두 강력한 판별력을 보여줍니다. 이러한 통찰을 바탕으로, 우리는 상세 캡셔닝을 위한 정확하고 효율적인 자동화 벤치마크인 CapArena-Auto를 공개하며, 테스트당 단 $4의 비용으로 인간 순위와 94.3%의 상관관계를 달성했습니다. 데이터와 리소스는 https://caparena.github.io에서 오픈소스로 제공될 예정입니다.
잔차 연결(Residual Connections)은 현대 딥러닝 아키텍처의 핵심 요소로, 그래디언트 소실 문제를 완화하여 매우 깊은 네트워크의 학습을 가능하게 합니다. 최근 하이퍼 연결(Hyper-Connections)은 서로 다른 깊이에서 다중 연결 강도를 도입함으로써 잔차 연결을 일반화하였고, 이를 통해 그래디언트 소실과 표현 붕괴 사이의 시소 효과를 해결했습니다. 그러나 하이퍼 연결은 은닉 상태의 폭을 확장함으로써 메모리 접근 비용을 증가시킵니다. 본 논문에서는 은닉 상태의 폭을 확장하는 대신 이를 여러 부분으로 나누는 새로운 접근 방식인 프랙 연결(Frac-Connections)을 제안합니다. 프랙 연결은 하이퍼 연결의 부분적인 이점을 유지하면서도 메모리 소비를 줄입니다. 그 효과를 검증하기 위해, 언어 작업에 대한 대규모 실험을 수행하였으며, 최대 3조 개의 토큰으로 학습된 70억 개의 전문가 혼합(MoE) 모델을 포함한 실험에서 프랙 연결이 잔차 연결을 크게 능가함을 입증했습니다.
우리는 세그멘테이션, 깊이, 에지 등 다양한 모달리티의 다중 공간 제어 입력을 기반으로 세계 시뮬레이션을 생성할 수 있는 조건부 세계 생성 모델인 Cosmos-Transfer를 소개합니다. 이 설계에서 공간 조건부 방식은 적응적이고 사용자 정의가 가능합니다. 이는 서로 다른 공간 위치에서 다양한 조건부 입력에 다른 가중치를 부여할 수 있게 하여, 높은 수준의 제어 가능한 세계 생성을 가능하게 합니다. 이는 Sim2Real을 포함한 다양한 세계 간 전환 사용 사례에서 유용하게 활용됩니다. 우리는 제안된 모델을 분석하고, 로봇공학의 Sim2Real 및 자율주행차 데이터 풍부화를 포함한 Physical AI 응용을 입증하기 위해 광범위한 평가를 수행했습니다. 또한, NVIDIA GB200 NVL72 랙을 사용하여 실시간 세계 생성을 달성하기 위한 추론 확장 전략을 보여줍니다. 해당 분야의 연구 개발을 가속화하기 위해, 우리는 모델과 코드를 https://github.com/nvidia-cosmos/cosmos-transfer1에서 오픈소스로 공개합니다.
단일 이미지로부터 360도 회전 및 줌을 포함한 유연한 시점의 3D 장면을 생성하는 것은 3D 데이터의 부족으로 인해 어려운 과제입니다. 이를 위해 우리는 두 가지 핵심 구성 요소로 이루어진 새로운 프레임워크인 FlexWorld를 소개합니다: (1) 거친 장면에서 렌더링된 불완전한 입력으로부터 고품질의 새로운 시점 이미지를 생성하기 위한 강력한 비디오-투-비디오(V2V) 확산 모델, 그리고 (2) 완전한 3D 장면을 구성하기 위한 점진적 확장 프로세스. 특히, 사전 훈련된 고급 비디오 모델과 정확한 깊이 추정 훈련 쌍을 활용함으로써, 우리의 V2V 모델은 큰 카메라 포즈 변화 하에서도 새로운 시점을 생성할 수 있습니다. 이를 기반으로 FlexWorld는 새로운 3D 콘텐츠를 점진적으로 생성하고 기하학적 장면 융합을 통해 전역 장면에 통합합니다. 광범위한 실험을 통해 FlexWorld가 단일 이미지로부터 고품질의 새로운 시점 비디오와 유연한 시점의 3D 장면을 생성하는 데 있어 기존의 최첨단 방법들보다 우수한 시각적 품질을 여러 인기 있는 메트릭과 데이터셋에서 달성함을 입증했습니다. 질적으로, FlexWorld가 360도 회전 및 줌과 같은 유연한 시점을 가진 고해상도 장면을 생성할 수 있음을 강조합니다. 프로젝트 페이지: https://ml-gsai.github.io/FlexWorld.
대규모 이미지를 효율적으로 모델링하는 것은 머신러닝 분야에서 오랜 기간 동안 해결해야 할 과제로 남아 있습니다. 이를 위해 우리는 Multi-Scale Attention(MSA)을 제안합니다. MSA는 두 가지 핵심 아이디어, 즉 (i) 멀티스케일 표현과 (ii) 양방향 교차 스케일 통신에 기반합니다. MSA는 O(log N) 스케일을 생성하여 점점 더 거친 특징을 통해 이미지를 표현하고, 교차 어텐션을 활용해 스케일 간 정보를 전파합니다. 이어서 MSA를 기반으로 한 새로운 신경망 아키텍처인 Atlas를 소개합니다. 우리는 Atlas가 고해상도 ImageNet 100 변형에서 장문맥 이미지 모델링의 계산-성능 트레이드오프를 크게 개선함을 입증합니다. 1024px 해상도에서 Atlas-B는 91.04% 정확도를 달성하며, ConvNext-B(91.92%)와 비슷한 성능을 보이면서도 4.3배 더 빠릅니다. Atlas는 FasterViT보다 2.95배 빠르고 7.38% 더 우수하며, LongViT보다 2.25배 빠르고 4.96% 더 우수합니다. MambaVision-S와 비교했을 때, Atlas-S는 1024px, 2048px, 4096px에서 각각 5%, 16%, 32% 더 높은 정확도를 달성하면서도 유사한 실행 시간을 보입니다. 우리의 실험을 재현할 수 있는 코드와 사전 학습된 모델은 https://github.com/yalalab/atlas에서 확인할 수 있습니다.
AI 벤치마크에서의 급속한 발전에도 불구하고, 벤치마크 성능의 실제 세계적 의미는 여전히 불분명합니다. 인간의 능력 측면에서 AI 시스템의 역량을 정량화하기 위해, 우리는 새로운 지표를 제안합니다: 50%-작업-완료 시간 지평선. 이는 AI 모델이 50%의 성공률로 완료할 수 있는 작업을 인간이 일반적으로 완료하는 데 걸리는 시간입니다. 우리는 먼저 관련 분야 전문성을 가진 인간이 RE-Bench, HCAST, 그리고 66개의 새로운 짧은 작업 조합을 완료하는 데 걸리는 시간을 측정했습니다. 이러한 작업에서 Claude 3.7 Sonnet과 같은 최첨단 AI 모델의 50% 시간 지평선은 약 50분입니다. 또한, 최첨단 AI의 시간 지평선은 2019년 이후로 약 7개월마다 두 배로 증가해 왔으며, 2024년에는 이 추세가 가속화되었을 가능성이 있습니다. AI 모델의 시간 지평선 증가는 주로 더 높은 신뢰성과 실수에 적응하는 능력, 더 나은 논리적 추론 및 도구 사용 능력에 의해 주도되는 것으로 보입니다. 우리는 결과의 한계 — 외적 타당성의 정도를 포함하여 — 와 증가된 자율성이 위험한 역량에 미치는 영향에 대해 논의합니다. 이러한 결과가 실제 소프트웨어 작업에 일반화된다면, 이 추세를 외삽하면 5년 이내에 AI 시스템이 현재 인간이 한 달이 걸리는 많은 소프트웨어 작업을 자동화할 수 있을 것으로 예측됩니다.
검증은 효과적인 수학적 추론에 있어 핵심적인 요소입니다. 본 논문에서는 검증자가 이전 평가를 기반으로 반복적으로 판단을 개선하는 새로운 시간적 일관성 방법을 제안합니다. 단일 라운드 검증이나 다중 모델 토론 접근법과 달리, 우리의 방법은 일련의 자기 반성 작업에서의 일관성을 활용하여 검증 정확도를 향상시킵니다. 다양한 수학적 과정 오류 식별 벤치마크(Mathcheck, ProcessBench, PRM800K)에 대한 실험적 평가 결과, 제안 방법이 기존 방법 대비 일관된 성능 향상을 보였습니다. 최근의 DeepSeek R1 증류 모델에 적용한 결과, 우리의 방법은 7B/8B 증류 모델이 모든 70B/72B 모델과 GPT-4o를 ProcessBench에서 능가할 수 있도록 하는 강력한 성능을 보였습니다. 특히, 우리의 방법을 적용한 14B 증류 모델은 Deepseek-R1과 비슷한 성능을 달성했습니다. 코드는 https://github.com/jcguo123/Temporal-Consistency에서 확인할 수 있습니다.
본 논문에서는 정체성 보존 비디오 생성을 위한 통합 프레임워크인 Concat-ID를 제안합니다. Concat-ID는 Variational Autoencoder를 활용하여 이미지 특징을 추출하고, 이를 시퀀스 차원을 따라 비디오 잠재 변수와 연결합니다. 이 과정에서 추가 모듈 없이 3D 자기 주의 메커니즘만을 활용합니다. 정체성 일관성과 얼굴 편집 가능성의 균형을 유지하면서 비디오의 자연스러움을 향상시키기 위해, 새로운 교차 비디오 페어링 전략과 다단계 학습 방식을 도입했습니다. 광범위한 실험을 통해 Concat-ID가 단일 및 다중 정체성 생성에서 기존 방법들을 능가하며, 가상 피팅 및 배경 제어 가능 생성과 같은 다중 주제 시나리오에서도 원활하게 확장 가능함을 입증했습니다. Concat-ID는 정체성 보존 비디오 합성 분야에서 새로운 벤치마크를 제시하며, 다양한 응용 분야에 걸쳐 유연하고 확장 가능한 솔루션을 제공합니다.
추론은 대규모 언어 모델(LLMs)이 복잡한 과제를 해결하기 위해 필수적인 능력이며, 이 과정에서 오류를 식별하는 것은 이러한 능력을 향상시키는 데 매우 중요합니다. 최근에는 프로세스 수준 보상 모델(PRMs)이 제안되어, 훈련 중 강화 학습과 데이터 생성을 촉진하고 추론 중 올바른 단계로 LLMs를 안내함으로써 추론 정확도를 향상시키는 단계별 보상을 제공합니다. 그러나 기존의 PRMs 벤치마크는 텍스트 기반이며 오류 탐지에 초점을 맞추고 있어, 추론 검색과 같은 다른 시나리오를 간과하고 있습니다. 이러한 격차를 해결하기 위해, 우리는 다양한 시나리오에서 PRMs의 효과를 체계적으로 평가하기 위해 설계된 포괄적이고 다중 작업, 다중 모달 벤치마크인 MPBench을 소개합니다. MPBench은 추론 과정에서 PRMs의 특정 역할을 대상으로 하는 세 가지 평가 패러다임을 사용합니다: (1) 단계 정확성, 이는 각 중간 추론 단계의 정확성을 평가합니다; (2) 답변 집계, 이는 여러 해결책을 집계하고 최적의 해결책을 선택합니다; (3) 추론 과정 검색, 이는 추론 중 최적의 추론 단계를 찾기 위한 검색을 안내합니다. 이러한 패러다임을 통해, MPBench은 포괄적인 평가를 수행하고 다중 모달 PRMs의 개발에 대한 통찰력을 제공합니다.
텍스트-이미지 생성 기술을 발전시키기 위한 주된 접근 방식은 더 큰 모델을 더 많은 데이터로 훈련시키고 더 많은 계산 자원을 사용하는 훈련 시간 스케일링이었습니다. 이 방법은 효과적이지만 계산 비용이 많이 들어, 성능을 개선하기 위한 추론 시간 스케일링에 대한 관심이 점차 증가하고 있습니다. 현재, 텍스트-이미지 확산 모델에 대한 추론 시간 스케일링은 주로 best-of-N 샘플링에 국한되어 있으며, 이는 각 프롬프트에 대해 여러 이미지를 생성하고 선택 모델이 최적의 출력을 선택하는 방식입니다. 언어 영역에서 DeepSeek-R1과 같은 추론 모델의 최근 성공에 영감을 받아, 우리는 텍스트-이미지 Diffusion Transformer에 컨텍스트 내 반영 기능을 추가하여 단순한 best-of-N 샘플링에 대한 대안을 제시합니다. 우리는 Reflect-DiT라는 방법을 제안하며, 이는 Diffusion Transformer가 이전에 생성된 이미지의 컨텍스트 내 예시와 필요한 개선 사항을 설명하는 텍스트 피드백을 사용하여 생성물을 개선할 수 있도록 합니다. Reflect-DiT는 무작위 샘플링에 수동적으로 의존하고 미래의 생성에서 더 나은 결과를 기대하는 대신, 개선이 필요한 특정 측면을 명시적으로 해결하기 위해 생성물을 맞춤화합니다. 실험 결과는 Reflect-DiT가 SANA-1.0-1.6B를 기본 모델로 사용하여 GenEval 벤치마크에서 성능을 개선(+0.19)함을 보여줍니다. 또한, Reflect-DiT는 각 프롬프트당 20개의 샘플만 생성하면서 GenEval에서 0.81의 새로운 최고 점수를 달성하여, 이전의 최고 점수인 0.80(훨씬 더 큰 모델인 SANA-1.5-4.8B를 사용하여 best-of-N 접근 방식으로 2048개의 샘플을 생성한 결과)을 능가했습니다.
멀티모달 대형 언어 모델(MLLM)은 2D 시각적 이해에서 뛰어난 성능을 보이지만, 3D 공간에 대한 추론 능력은 여전히 제한적입니다. 본 연구에서는 대규모 고품질 3D 장면 데이터와 오픈셋 주석을 활용하여 1) 새로운 지도 학습 미세 조정 데이터셋과 2) 실내 장면에 초점을 맞춘 새로운 평가 벤치마크를 소개합니다. 우리의 Cubify Anything VQA(CA-VQA) 데이터는 공간 관계 예측, 미터법 크기 및 거리 추정, 3D 그라운딩 등 다양한 공간 작업을 다룹니다. CA-VQA를 통해 MM-Spatial이라는 강력한 일반화 MLLM을 훈련할 수 있으며, 이 모델은 우리의 벤치마크를 포함한 3D 공간 이해 벤치마크에서 최첨단 성능을 달성합니다. CA-VQA에서 제공하는 미터법 깊이와 다중 뷰 입력을 통합함으로써 3D 이해를 더욱 향상시킬 수 있음을 보여주며, 데이터만으로도 전용 단안 깊이 추정 모델에 필적하는 깊이 인식 능력을 달성할 수 있음을 입증합니다. 우리는 SFT 데이터셋과 벤치마크를 공개할 예정입니다.
인상적인 성능에도 불구하고, 멀티모달 대형 언어 모델(MLLMs)은 세밀한 인지와 복잡한 추론에서 어려움을 겪고 있습니다. 현재 널리 사용되는 멀티모달 사전 학습 접근법은 추론 능력을 향상시키기 위한 사고의 연쇄(CoT) 데이터 수집 비용이 매우 높기 때문에 고품질 이미지 캡션을 활용한 인지 능력 강화에 초점을 맞추고 있습니다. 고급 MLLMs를 활용한 캡션 생성은 확장성을 높이지만, 그 결과물은 종종 포괄성과 정확성이 부족합니다. 본 논문에서는 자기 생성 데이터를 통한 멀티모달 사전 학습을 통해 체계적인 인지 능력을 강화함으로써 차세대 기반 MLLMs를 구축하기 위한 자기 학습 프레임워크인 Self-Improving cognition (SIcog)을 소개합니다. 구체적으로, 우리는 단계별 시각적 이해를 가능하게 하여 MLLM의 체계적인 인지 능력을 향상시키고 더 큰 포괄성과 정확성을 보장하는 Chain-of-Description 접근법을 제안합니다. 또한, 구조화된 CoT 추론 기법을 도입하여 MLLMs가 심층적인 멀티모달 추론을 통합할 수 있도록 합니다. 자기 개선된 인지를 갖춘 차세대 기반 MLLM을 구축하기 위해, SIcog은 먼저 최소한의 외부 주석을 사용하여 MLLM에 체계적인 인지와 추론 능력을 부여합니다. 이후 강화된 모델은 상세한 캡션과 CoT 추론 데이터를 생성하며, 이 데이터는 자기 일관성을 통해 추가로 정제됩니다. 이렇게 정제된 데이터는 궁극적으로 차세대 기반 모델을 개발하기 위한 멀티모달 사전 학습에 사용됩니다. 다양한 벤치마크에서 저해상도 및 고해상도 MLLMs에 대한 광범위한 실험을 통해, 단 213K의 자기 생성 사전 학습 샘플만으로 SIcog이 현존하는 사전 학습 접근법에 비해 벤치마크 선두 성능을 달성하며 인지 능력이 크게 향상된 차세대 기반 MLLMs를 생성한다는 것을 입증합니다.
크로스-링구얼 전이(cross-lingual transfer)는 비전-언어 모델(VLMs)이 단일 언어로만 훈련 데이터를 사용하여 다양한 언어에서 비전 작업을 수행할 수 있게 합니다. 현재의 접근 방식은 대규모 사전 훈련된 다국어 언어 모델에 의존합니다. 그러나 이러한 방식은 다국어 능력을 위해 다운스트림 작업 성능을 희생하는 '다국어성의 저주(curse of multilinguality)'에 직면하며, 어휘적 모호성에 어려움을 겪고 최신 기술 발전에 뒤처지는 문제가 있습니다. 본 연구에서는 단일 언어 VLM을 사용한 다국어 작업에 대한 체계적 일반화의 스케일링 법칙을 연구하며, 모델 크기와 훈련 샘플의 영향에 초점을 맞춥니다. 우리는 사전 훈련된 VLM Florence-2와 대형 언어 모델 Gemma-2를 결합한 0.4B에서 11.2B 파라미터를 가진 단일 언어 인코더-디코더 VLM인 Florenz를 제안합니다. Florenz는 의도적으로 불완전한 언어 커버리지를 특징으로 하는 합성 데이터셋에서 다양한 컴퓨팅 예산으로 훈련되며, 이는 완전히 커버된 번역 작업에서의 일반화를 테스트합니다. 우리는 보이지 않는 작업-언어 쌍을 간접적으로 학습하는 것이 스케일링 법칙을 따르는 것뿐만 아니라, 우리의 데이터 생성 파이프라인과 제안된 Florenz 모델 패밀리를 통해 번역 작업 데이터만 사용해도 특정 언어에서 이미지 캡셔닝 능력이 나타날 수 있음을 보여줍니다. 다운스트림 데이터셋의 혼합에 대한 미세 조정은 경쟁력 있는 성능을 보이며, 멀티모달 기계 번역(Multi30K, CoMMuTE), 어휘적 모호성 해결(CoMMuTE), 이미지 캡셔닝(Multi30K, XM3600, COCO Karpathy)에서 유망한 스케일링 경향을 보여줍니다.
대규모 언어 모델(LLM)은 다양한 자연어 처리 과제에서 뛰어난 능력을 보여주고 있습니다. 그러나 수학적 추론이나 비영어권 언어와 같은 특정 도메인에서 강력한 성능을 달성하려면 대규모 데이터셋에 대한 광범위한 훈련이 필요합니다. 본 논문은 이러한 접근과 대조적으로, 소규모이지만 고품질의 이중언어(영어-프랑스어) 데이터셋을 전략적으로 미세 조정하여 대규모 언어 모델의 추론 능력과 프랑스어 숙련도를 동시에 향상시키는 방법을 탐구합니다. 규모에 의존하기보다는, 표적 데이터 큐레이션과 최적화된 훈련이 경쟁력 있는, 혹은 더 우수한 성능을 달성할 수 있다는 가설을 검증합니다. 우리는 2,000개의 신중하게 선별된 샘플에 대한 표적 지도 미세 조정(SFT)을 통해 수학적 추론에서의 상당한 개선을 입증합니다. 특히, Pensez 7B 모델은 AIME25에서 기본 모델 대비 최대 20%의 정확도 향상을, 프랑스어 MATH 레벨 5 벤치마크에서는 12%의 정확도 향상을 보여줍니다. 이러한 결과는 대규모 데이터셋이 LLM의 강력한 추론 성능을 위한 필수 조건이라는 기존의 가정에 도전하며, 전략적 데이터 큐레이션과 최적화된 미세 조정이 특화된 기술과 다국어 능력을 향상시킬 수 있는 잠재력을 강조합니다. 우리의 연구 결과는 특히 자원이 제한된 시나리오에서 고성능 다국어 LLM을 효율적으로 개발하는 데 중요한 시사점을 제공합니다.
최근 멀티모달 대형 언어 모델(MLLMs)은 시각적 질문 응답, 시각적 이해, 추론과 같은 작업에서 놀라운 발전을 보여주었습니다. 그러나 이러한 인상적인 성과는 인터넷에서 수집된 방대한 양의 데이터에 의존하고 있어, 프라이버시와 보안에 대한 심각한 우려를 불러일으키고 있습니다. 이러한 문제를 해결하기 위해 기계 언러닝(MU)이 유망한 해결책으로 떠오르고 있으며, 이는 이미 훈련된 모델에서 특정 지식을 제거할 수 있게 해주어 처음부터 다시 훈련할 필요 없이 모델을 개선할 수 있습니다. MLLMs에 대한 MU가 주목받고 있지만, 현재의 효율성 평가는 여전히 불완전하며, 근본적인 문제가 종종 명확히 정의되지 않아 더 안전하고 신뢰할 수 있는 시스템을 구축하기 위한 전략 개발을 방해하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 PEBench라는 벤치마크를 소개합니다. 이 벤치마크는 개인 엔티티와 해당 일반 이벤트 장면으로 구성된 데이터셋을 포함하여 MLLMs에 대한 MU의 성능을 포괄적으로 평가하도록 설계되었습니다. PEBench를 통해 우리는 안전하고 프라이버시를 보호하는 멀티모달 모델 연구를 발전시키기 위한 표준화되고 견고한 프레임워크를 제공하고자 합니다. 우리는 6가지 MU 방법을 벤치마킹하여 그들의 강점과 한계를 밝히고, MLLMs에서 MU의 주요 과제와 기회에 대한 통찰을 제공합니다.
이상적인 모델 평가는 두 가지 목표를 달성해야 합니다: 모델이 실패하는 지점을 식별하고, 실행 가능한 개선 지침을 제공하는 것입니다. 언어 모델(LM) 평가를 위한 이러한 목표를 달성하기 위해, 우리는 벤치마크의 모든 개별 인스턴스에서 LM의 성능을 기반으로 자연어로 표현된 약점 집합인 약점 프로파일(weakness profile)을 생성하는 문제를 공식화합니다. 우리는 다양한 약점 프로파일링 방법을 비교하기 위한 정량적 평가 도구 세트를 소개합니다. 또한 약점 프로파일링 방법인 EvalTree를 제안합니다. EvalTree는 각 노드가 자연어로 기술된 능력을 나타내고, 이 능력을 특별히 평가하는 벤치마크 인스턴스의 하위 집합과 연결된 능력 트리(capability tree)를 구성합니다. 그런 다음 LM이 성능이 저조한 노드를 추출하여 약점 프로파일을 생성합니다. MATH와 WildChat 벤치마크에서 EvalTree는 기존의 약점 프로파일링 방법보다 더 정확하고 포괄적으로 약점을 식별함으로써 우수한 성능을 보여줍니다. 약점 프로파일링은 약점 기반 데이터 수집을 가능하게 하며, EvalTree가 식별한 약점을 기반으로 한 훈련 데이터 수집은 다른 데이터 수집 전략보다 LM 성능을 더 크게 향상시킵니다. 또한 EvalTree는 Chatbot Arena의 인간 투표자 기반 평가 관행의 결함을 드러내는 방법도 보여줍니다. 향후 연구를 촉진하기 위해, 우리는 코드와 EvalTree가 구축한 능력 트리를 실시간으로 탐색할 수 있는 인터페이스를 공개합니다.
멀티모달 대형 언어 모델(MLLMs)은 추론 능력에서 인상적인 성능을 보여주지만, 상당한 계산 비용이 수반되어 자원이 제한된 환경에서의 배포가 어려운 실정입니다. 최근 MLLMs의 효율성을 개선하려는 노력이 있었지만, 기존 솔루션들은 특히 자원 가용성의 변화(예: 디바이스에서 실행 중인 다른 프로그램으로 인한 경합)와 같은 다양한 런타임 조건에 대응하는 데 한계가 있었습니다. 이러한 격차를 해소하기 위해, 우리는 AdaLLaVA를 소개합니다. AdaLLaVA는 추론 과정에서 MLLM의 연산을 동적으로 재구성하도록 학습하는 적응형 추론 프레임워크로, 입력 데이터와 지연 시간 예산을 고려합니다. 우리는 질문 응답, 추론, 환각(hallucination)을 포함한 벤치마크에서 광범위한 실험을 수행했습니다. 실험 결과, AdaLLaVA는 입력 지연 시간 예산을 효과적으로 준수하며, 런타임에서 다양한 정확도와 지연 시간의 트레이드오프를 달성함을 보여주었습니다. 또한, AdaLLaVA가 입력 지연 시간과 내용 모두에 적응할 수 있으며, 토큰 선택과 통합하여 효율성을 더욱 향상시킬 수 있고, 다양한 MLLMs에 일반화될 수 있음을 입증했습니다. 우리 프로젝트의 웹페이지와 코드는 https://zhuoyan-xu.github.io/ada-llava/에서 확인할 수 있습니다.
그래프 도메인 적응은 서로 다른 도메인 간의 지식 전이를 용이하게 하는 유망한 접근 방식으로 부상했습니다. 최근 이 분야에서 일반화 능력을 향상시키기 위해 다양한 모델들이 제안되었습니다. 그러나 기존 기술을 통합하고 구현을 단순화하는 통합 라이브러리는 아직 존재하지 않습니다. 이러한 공백을 메우기 위해, 우리는 그래프 도메인 적응을 위한 오픈소스 Python 라이브러리인 PyGDA를 소개합니다. 이 분야의 첫 번째 포괄적인 라이브러리로서, PyGDA는 20가지 이상의 널리 사용되는 그래프 도메인 적응 방법과 다양한 유형의 그래프 데이터셋을 포함합니다. 특히, PyGDA는 모듈식 구성 요소를 제공하여 사용자가 다양한 일반적으로 사용되는 유틸리티 함수를 통해 맞춤형 모델을 원활하게 구축할 수 있도록 합니다. 대규모 그래프를 처리하기 위해, PyGDA는 샘플링 및 미니 배치 처리와 같은 기능을 지원하여 효율적인 계산을 보장합니다. 또한, PyGDA는 연구자와 실무자 모두를 위한 포괄적인 성능 벤치마크와 잘 문서화된 사용자 친화적인 API를 포함합니다. 편리한 접근성을 위해, PyGDA는 MIT 라이선스 하에 https://github.com/pygda-team/pygda에서 공개되었으며, API 문서는 https://pygda.readthedocs.io/en/stable/에서 확인할 수 있습니다.
생성 모델은 최근 3D 객체 분야에서 놀라운 발전을 이루었습니다. 그러나 엔지니어링과 같은 분야에서의 실질적인 적용은 여전히 제한적입니다. 이는 도메인 특화 작업에 필요한 정확도, 품질, 제어 가능성을 제공하지 못하기 때문입니다. 대규모 생성 모델의 미세 조정은 이러한 모델을 해당 분야에서 활용할 수 있게 하는 유망한 접근 방식입니다. 고품질의 도메인 특화 3D 데이터셋을 구축하는 것은 대규모 생성 모델의 미세 조정에 있어 핵심적이지만, 데이터 필터링 및 주석 프로세스는 여전히 주요 병목 현상으로 남아 있습니다. 본 논문에서는 가장 방대한 공개 3D 객체 컬렉션인 Objaverse-XL에서 추출한 필터링 및 주석 처리된 3D 차량 데이터셋인 MeshFleet를 소개합니다. 우리의 접근 방식은 품질 분류기를 기반으로 한 자동화된 데이터 필터링 파이프라인을 제안합니다. 이 분류기는 DINOv2와 SigLIP 임베딩을 통합하고, 캡션 기반 분석과 불확실성 추정을 통해 개선된 수동으로 레이블링된 Objaverse의 하위 집합에서 학습됩니다. 우리는 캡션 및 이미지 미적 점수 기반 기법과의 비교 분석과 SV3D를 이용한 미세 조정 실험을 통해 필터링 방법의 효용성을 입증하며, 도메인 특화 3D 생성 모델링을 위한 목표 데이터 선택의 중요성을 강조합니다.
CLIP과 같은 시각-언어 모델에서 안전하지 않은 콘텐츠의 검색 문제를 해결하는 것은 실제 세계 통합을 위한 중요한 단계입니다. 현재의 연구들은 안전하지 않은 개념에 대한 모델의 지식을 지우려는 언러닝(unlearning) 기술에 의존해 왔습니다. 이러한 방법은 원치 않는 출력을 줄이는 데 효과적이지만, 모델이 안전한 콘텐츠와 안전하지 않은 콘텐츠를 구분하는 능력을 제한합니다. 본 연구에서는 쌍곡 공간의 고유한 계층적 특성을 활용하여 언러닝에서 인식(awareness) 패러다임으로 전환하는 새로운 접근 방식을 제안합니다. 우리는 안전한 콘텐츠와 안전하지 않은 콘텐츠를 함의 계층(entailment hierarchy)으로 인코딩하여, 이를 쌍곡 공간의 서로 다른 영역에 배치합니다. 우리의 HySAC(Hyperbolic Safety-Aware CLIP)은 함의 손실 함수(entailment loss functions)를 사용하여 안전한 이미지-텍스트 쌍과 안전하지 않은 이미지-텍스트 쌍 간의 계층적이고 비대칭적인 관계를 모델링합니다. 이러한 모델링은 표준 시각-언어 모델이 유클리드 임베딩에 의존하기 때문에 효과적이지 않았지만, HySAC은 안전하지 않은 콘텐츠에 대한 인식을 부여하여 다중 모드 안전하지 않은 분류기(multimodal unsafe classifier)와 유연한 콘텐츠 검색기로 동시에 작동할 수 있게 합니다. 이를 통해 안전하지 않은 쿼리를 동적으로 더 안전한 대안으로 리디렉션하거나 원래의 출력을 유지할 수 있는 옵션을 제공합니다. 광범위한 실험을 통해 우리의 접근 방식이 안전 인식을 향상시킬 뿐만 아니라 시각-언어 모델에서 콘텐츠 조정을 위한 더 적응적이고 해석 가능한 프레임워크를 구축함을 보여줍니다. 우리의 소스 코드는 https://github.com/aimagelab/HySAC에서 확인할 수 있습니다.
대규모 언어 모델(LLM)과 시각-언어 모델(VLM)의 급속한 발전과 함께, 개방형 어휘 로봇 조작 시스템 개발에 있어 상당한 진전이 이루어졌습니다. 그러나 기존의 많은 접근 방식들은 객체 동역학의 중요성을 간과하여 더 복잡하고 동적인 작업에 적용하기 어려운 한계를 보였습니다. 본 연구에서는 동역학 학습과 키포인트를 통한 시각적 프롬프트를 통합한 개방형 어휘 조작 시스템인 KUDA를 소개합니다. KUDA는 VLM과 학습 기반 신경 동역학 모델을 모두 활용합니다. 우리의 핵심 통찰은 키포인트 기반 목표 지정이 VLM에 의해 해석 가능한 동시에 모델 기반 계획을 위한 비용 함수로 효율적으로 변환될 수 있다는 점입니다. 언어 지시와 시각 관측이 주어지면, KUDA는 먼저 RGB 이미지에 키포인트를 할당하고 VLM을 쿼리하여 목표 사양을 생성합니다. 이러한 추상적인 키포인트 기반 표현은 비용 함수로 변환되며, 학습된 동역학 모델을 사용하여 최적화되어 로봇 궤적을 생성합니다. 우리는 KUDA를 다양한 객체 카테고리에 걸친 자유형 언어 지시, 다중 객체 상호작용, 변형 가능하거나 입자 형태의 객체를 포함한 다양한 조작 작업에서 평가하며, 우리 프레임워크의 효과성을 입증합니다. 프로젝트 페이지는 http://kuda-dynamics.github.io에서 확인할 수 있습니다.
도로변 협업 인식(Roadside Collaborative Perception)은 여러 도로변 장치들이 서로 협력하여 인식 데이터를 공유함으로써 차량의 환경 인식 능력을 향상시키는 시스템을 의미합니다. 기존의 도로변 인식 방법들은 모델 설계에 집중하지만, 캘리브레이션 오류, 희소 정보, 다중 뷰 일관성과 같은 데이터 문제를 간과하여 최근 공개된 데이터셋에서 낮은 성능을 보여왔습니다. 이러한 중요한 데이터 문제를 해결하고 도로변 협업 인식을 크게 개선하기 위해, 우리는 도로변 협업 인식을 위한 첫 번째 시뮬레이션 프레임워크인 RoCo-Sim을 제안합니다. RoCo-Sim은 단일 이미지의 동적 전경 편집과 전체 장면 스타일 전이를 통해 다양하고 다중 뷰 일관성을 갖춘 시뮬레이션된 도로변 데이터를 생성할 수 있습니다. RoCo-Sim은 네 가지 구성 요소로 이루어져 있습니다: (1) 카메라 외부 파라미터 최적화(Camera Extrinsic Optimization)는 도로변 카메라의 정확한 3D에서 2D 투영을 보장합니다; (2) 새로운 다중 뷰 오클루전 인식 샘플러(Multi-View Occlusion-Aware Sampler, MOAS)는 3D 공간 내 다양한 디지털 자산의 배치를 결정합니다; (3) DepthSAM은 단일 프레임 고정 뷰 이미지에서 전경과 배경의 관계를 혁신적으로 모델링하여 전경의 다중 뷰 일관성을 보장합니다; 그리고 (4) 확장 가능한 후처리 도구(Scalable Post-Processing Toolkit)는 스타일 전이 및 기타 개선을 통해 더 현실적이고 풍부한 장면을 생성합니다. RoCo-Sim은 도로변 3D 객체 탐지를 크게 개선하여, Rcooper-Intersection에서 83.74, TUMTraf-V2X에서 83.12의 AP70 점수로 SOTA 방법들을 능가합니다. RoCo-Sim은 도로변 인식 시뮬레이션의 중요한 공백을 메웁니다. 코드와 사전 학습된 모델은 곧 공개될 예정입니다: https://github.com/duyuwen-duen/RoCo-Sim
차량 간 협력 자율 주행(V2V)은 단일 에이전트 시스템에 내재된 인지 및 예측 불확실성을 해결함으로써 안전성을 크게 향상시킬 수 있는 잠재력을 가지고 있습니다. 그러나 기존의 협력 방법은 경직된 협력 프로토콜과 새로운 상호작용 시나리오에 대한 제한된 일반화 능력으로 인해 한계가 있습니다. 대규모 언어 모델(LLM) 기반 접근법은 일반화된 추론 능력을 제공하지만, 공간 계획의 어려움과 불안정한 추론 지연 시간으로 인해 협력 주행에 직접 적용하기에는 어려움이 있습니다. 이러한 한계를 해결하기 위해, 우리는 효과적인 언어 기반 협상과 실시간 주행 제어를 가능하게 하는 최초의 전체 파이프라인 LLM 기반 협력 주행 시스템인 CoLMDriver를 제안합니다. CoLMDriver는 두 가지 주요 구성 요소로 이루어진 병렬 주행 파이프라인을 특징으로 합니다: (i) 액터-크리틱 패러다임 하에서의 LLM 기반 협상 모듈로, 이는 모든 차량의 이전 결정에서 피드백을 통해 협력 정책을 지속적으로 개선합니다; (ii) 협상 결과를 실행 가능한 웨이포인트로 변환하는 의도 기반 웨이포인트 생성기입니다. 또한, 우리는 V2V 협력을 평가하기 위해 10가지 도전적인 상호작용 주행 시나리오로 구성된 CARLA 기반 시뮬레이션 벤치마크인 InterDrive를 소개합니다. 실험 결과는 CoLMDriver가 다양한 고도로 상호작용하는 V2V 주행 시나리오에서 기존 접근법을 크게 능가하며, 11% 더 높은 성공률을 달성함을 보여줍니다. 코드는 https://github.com/cxliu0314/CoLMDriver에서 공개될 예정입니다.