번역이 포함된 일일 선별된 AI 연구 논문
우리는 EnerVerse를 소개합니다. 이는 로봇 조작 작업을 위해 특별히 설계된 체감형 미래 공간 생성을 위한 포괄적인 프레임워크입니다. EnerVerse는 내부 청크 공간 모델링을 위해 합성곱과 양방향 주의 메커니즘을 매끄럽게 통합하여 저수준 일관성과 연속성을 보장합니다. 비디오 데이터의 내재적 중복을 인식하여, 무한한 길이의 시퀀스 생성을 가능케 하는 희소 메모리 컨텍스트와 청크별 단방향 생성 패러다임을 제안합니다. 로봇 능력을 더욱 강화하기 위해 관측 및 분석을 향상시키는 유연한 관점을 제공하는 Free Anchor View (FAV) 공간을 소개합니다. FAV 공간은 움직임 모델링 모호성을 완화하고, 제약된 환경에서 물리적 제약을 제거하며, 로봇의 일반화 및 적응력을 크게 향상시킵니다. 다중 카메라 관측 획득의 비용과 노동 강도를 해소하기 위해, 4D 가우시안 스플래팅(4DGS)과 함께 생성 모델을 통합하는 데이터 엔진 파이프라인을 제시합니다. 이 파이프라인은 생성 모델의 강력한 일반화 능력과 4DGS가 제공하는 공간 제약을 활용하여 데이터 품질과 다양성을 반복적으로 향상시키며, 효과적으로 시뮬레이션과 실제 간의 간극을 좁히는 데이터 플라이휠 효과를 만들어 냅니다. 마지막으로, 우리의 실험은 체감형 미래 공간 생성 전 사전이 정책 예측 능력을 크게 향상시켜 전반적인 성능을 향상시키는 것을 입증합니다, 특히 장거리 로봇 조작 작업에서.
최근의 다중 모달 대형 언어 모델(MLLMs)은 일반적으로 시각적 및 텍스트 모달리티를 통합하는 데 초점을 맞추었으며, 상호 작용을 향상시키는 데 음성의 역할에 덜 중점을 두었습니다. 그러나 음성은 다중 모달 대화 시스템에서 중요한 역할을 하며, 시각 및 음성 작업 모두에서 고성능을 구현하는 것은 기본적인 모달리티 차이로 인해 중요한 도전 과제입니다. 본 논문에서는 시각 및 음성 정보를 이해하도록 LLM을 점진적으로 훈련시키는 신중하게 설계된 다단계 훈련 방법론을 제안하여 궁극적으로 순조로운 시각 및 음성 상호 작용을 가능하게 합니다. 우리의 접근 방식은 강력한 시각-언어 능력을 유지할 뿐만 아니라 별도의 음성 인식(ASR) 및 음성 합성(TTS) 모듈 없이 효율적인 음성 대화 능력을 제공하여 다중 모달 엔드 투 엔드 응답 속도를 크게 가속화합니다. 이미지, 비디오 및 음성 작업 벤치마크를 통해 우리의 방법을 최첨단 대조군과 비교함으로써, 우리의 모델이 강력한 시각 및 음성 능력을 갖추어 거의 실시간 시각 및 음성 상호 작용을 가능하게 한다는 것을 입증합니다.
최근에는 대규모 언어 모델(LLM)을 기반으로 한 느린 사고 추론 시스템이 주목을 받아, 추론 중 사고 시간을 확장하는 방식으로 확장되었습니다. 또한, 이 능력을 다중 모달 대규모 언어 모델(MLLM)에 적용하는 데 관심이 증가하고 있습니다. MLLM은 다양한 모달리티 간 복잡한 데이터 의미를 처리하기 때문에, 다중 모달 느린 사고 시스템을 구현하는 것이 직관적으로 더 어려운 과제입니다. 본 논문에서는 이 문제에 대응하기 위해, 소량의 텍스트 기반 장기 사고 데이터로 능력 있는 MLLM을 세밀하게 조정하여 다중 모달 느린 사고 시스템 Virgo(Visual reasoning with long thought)을 만들어 살펴봅니다. 우리는 자연어로 표현된 이러한 장기 사고 과정이 MLLM으로 효과적으로 전달될 수 있다는 것을 발견했습니다. 게다가, 이러한 텍스트 기반 추론 데이터가 MLLM의 느린 사고 능력을 유발하는 데 시각적 추론 데이터보다 더 효과적일 수 있다는 것으로 보입니다. 이 연구는 초기 단계이지만, 느린 사고 능력은 언어 모델 구성 요소와 근본적으로 관련이 있으며, 모달리티나 도메인 간에 전달될 수 있음을 보여줍니다. 이 결과는 더 강력한 느린 사고 추론 시스템의 개발을 이끌어내는 데 활용될 수 있습니다. 저희 자료는 https://github.com/RUCAIBox/Virgo에서 공개됩니다.
대형 언어 모델(Large Language Models, LLM)을 기반으로 한 사회적 에이전트들은 인간의 사회적 행동을 시뮬레이션할 수 있지만 복잡한 목표 지향적 사회 대화를 다루는 데 한계가 있습니다. 직접 선호도 최적화(Direct Preference Optimization, DPO)는 다양한 에이전트 작업에서 LLM의 행동을 인간의 선호도와 조화롭게 만드는 데 효과적임이 입증되었습니다. 다중 턴 상호작용을 위한 기존의 DPO 기반 접근 방식은 턴 수준 및 세션 수준 방법으로 나뉩니다. 턴 수준 방법은 개별 턴에만 집중하는 과도하게 미세한 반면, 세션 수준 방법은 종종 훈련 잡음을 도입하여 너무 거친 것으로 나타납니다. 이러한 한계를 극복하기 위해 우리는 상호작용 내에서 특정 주요 세그먼트에 초점을 맞추어 다중 턴 에이전트 행동을 최적화하고 훈련 잡음을 최소화하는 '세그먼트 수준 직접 선호도 최적화(Segment-Level Direct Preference Optimization, SDPO)'를 제안합니다. SOTOPIA 벤치마크에서의 평가 결과 SDPO로 조정된 에이전트들이 기존의 DPO 기반 방법 및 GPT-4o와 같은 소유 LLM보다 일관되게 우수한 성과를 보여주며, SDPO가 LLM 기반 에이전트의 사회적 지능을 발전시킬 잠재력을 강조합니다. 우리는 코드와 데이터를 https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/SDPO 에서 공개합니다.
우리는 인간의 선호도와 시각 생성 모델 - 이미지 및 비디오 생성 모델 -을 조정하는 일반적인 전략을 제시합니다. 먼저, 섬세하고 다차원적인 보상 모델인 VisionReward를 구축합니다. 이미지와 비디오에서의 인간의 선호도를 여러 차원으로 분해하여 각각을 일련의 판단 질문으로 표현하고, 선형 가중치를 부여하여 해석 가능하고 정확한 점수로 합산합니다. 비디오 품질 평가의 어려움에 대처하기 위해, 우리는 비디오의 다양한 동적 특징을 체계적으로 분석하여 VisionReward가 VideoScore를 17.2% 능가하고 비디오 선호도 예측에서 최고 성능을 달성하도록 돕습니다. VisionReward를 기반으로, 우리는 선호도 데이터 내의 혼동 요인을 효과적으로 다루는 다중 목적 선호 학습 알고리즘을 개발합니다. 우리의 접근 방식은 기계 측정 항목과 인간 평가 모두에서 기존 이미지 및 비디오 평가 방법을 크게 능가합니다. 모든 코드와 데이터셋은 https://github.com/THUDM/VisionReward에서 제공됩니다.
그래프 생성은 분자 설계와 소셜 네트워크 분석을 포함한 다양한 영역에서 중요한 작업으로, 복잡한 관계와 구조화된 데이터를 모델링할 수 있는 능력으로 인해 중요합니다. 대부분의 현대 그래프 생성 모델은 인접 행렬 표현을 사용하지만, 본 연구는 그래프를 노드 집합과 엣지 집합의 시퀀스로 표현하는 대안적인 접근 방식을 재검토합니다. 우리는 이 방법론을 그래프를 효율적으로 인코딩하기 위한 이점으로 제시하고 새로운 표현 방법을 제안합니다. 이 표현 방법을 기반으로, 우리는 Graph Generative Pre-trained Transformer (G2PT)를 소개합니다. 이는 다음 토큰 예측을 통해 그래프 구조를 학습하는 자기 회귀 모델입니다. G2PT의 일반적인 기초 모델로서의 능력을 더욱 활용하기 위해, 우리는 목표 지향 생성과 그래프 속성 예측 두 가지 하위 응용에 대한 파인 튜닝 전략을 탐구합니다. 우리는 다양한 데이터셋에서 광범위한 실험을 수행합니다. 결과는 G2PT가 일반적인 그래프와 분자 데이터셋 모두에서 우수한 생성 성능을 달성한다는 것을 보여줍니다. 게다가, G2PT는 분자 설계부터 속성 예측에 이르기까지 다양한 하위 작업에서 강한 적응성과 다재다능성을 나타냅니다.
최근 대형 언어 모델(LLM) 기반 임베딩 모델의 발전으로 텍스트 임베딩 작업에서 새로운 최첨단 벤치마크가 수립되었는데, 특히 밀집 벡터 기반 검색에서 두드러진 성과를 보이고 있습니다. 그러나 이러한 모델들은 주로 영어에 초점을 맞추어 다국어 임베딩 능력을 크게 탐구하지 않았습니다. 이 한계를 극복하기 위해, 우리는 LUSIFER를 제안합니다. 이는 다국어 감독을 필요로 하지 않고 다국어 작업에 대한 LLM 기반 임베딩 모델을 적응시키는 새로운 제로샷 접근법입니다. LUSIFER의 아키텍처는 다국어 인코더와 LLM 기반 임베딩 모델을 결합하여 언어-범용 학습자 역할을 하는데, 이를 임베딩 특정 작업에 최적화된 구조로 구성합니다. 이러한 구성 요소들은 연결자로 작용하는 학습 가능한 최소한의 매개변수를 통해 원활하게 통합되어, 다국어 인코더의 언어 이해 능력을 전문화된 임베딩 모델로 효과적으로 전달합니다. 게다가, 다국어 임베딩 성능을 철저히 평가하기 위해 5가지 주요 임베딩 작업, 123가지 다양한 데이터셋 및 14개 언어에 걸쳐 커버리지를 포함하는 새로운 벤치마크를 소개합니다. 방대한 실험 결과는 LUSIFER가 명시적인 다국어 훈련 데이터가 필요 없이 다양한 임베딩 작업에서 특히 중간 및 저자원 언어에 대한 다국어 성능을 현저히 향상시킨다는 것을 입증합니다.
세계를 이해하고 과학적 이론으로 설명하는 것은 인공지능 연구의 중요한 목표입니다. 이론을 제안하고 실험을 설계하여 이를 검증하고, 데이터에 기반하여 이를 수정하는 것은 과학적 발견에 근본적입니다. LLM 기반 과학 에이전트의 중요한 잠재력에도 불구하고, LLM의 과학적 모델 제안, 실험 데이터 수집, 그리고 새로운 데이터에 근거하여 수정하는 능력을 체계적으로 테스트하는 벤치마크가 없습니다. 우리는 BoxingGym을 소개합니다. 이는 실험 설계(예: 과학 이론을 검증하기 위한 데이터 수집)와 모델 발견(예: 과학 이론 제안 및 수정)을 체계적으로 평가하기 위한 10개 환경을 갖춘 벤치마크입니다. 추적 가능하고 양적 평가를 가능하게 하기 위해, 우리는 각 환경을 생성 확률 모델로 구현하여 과학 에이전트가 상호작용적인 실험을 수행할 수 있도록 합니다. 이러한 확률 모델은 심리학부터 생태학까지 다양한 현실 세계의 과학 분야에서 추출됩니다. 과학 에이전트가 정보를 수집하는 능력을 양적으로 평가하기 위해, 우리는 예상 정보 이득(EIG)을 계산합니다. 이는 실험이 생성 모델의 매개 변수에 대한 불확실성을 얼마나 줄이는지를 측정하는 정보 이론적인 양입니다. 좋은 과학 이론은 간결하고 예측적인 설명입니다. 따라서 모델 발견을 양적으로 평가하기 위해, 우리는 과학 에이전트에게 모델을 설명하도록 요청하고, 이 설명이 다른 과학 에이전트가 이 환경에 대해 신뢰할 수 있는 예측을 할 수 있게 하는지를 평가합니다. 이 설명 기반 평가 외에도, 우리는 예측 오차와 같은 표준 모델 평가 지표를 계산합니다. 우리는 GPT-4o와 같은 현재 LLM이 실험 설계와 모델 발견 모두에 어려움을 겪는 것을 발견했습니다. LLM 기반 에이전트에 명시적인 통계 모델을 추가하는 것이 이러한 결과를 신뢰할 수 있게 향상시키지 않는다는 것을 발견했습니다.