번역이 포함된 일일 선별된 AI 연구 논문
대규모 신경망은 부동 소수점 텐서 곱셈에 대부분의 계산을 사용합니다. 본 연구에서는 부동 소수점 곱셈기를 고정 소수점 덧셈기 하나로 고정 소수점 정밀도로 근사할 수 있다는 것을 발견했습니다. 우리는 정수 덧셈 연산으로 부동 소수점 수 곱셈을 근사하는 선형 복잡도 곱셈 L-Mul 알고리즘을 제안합니다. 이 새로운 알고리즘은 8비트 부동 소수점 곱셈보다 계산 리소스를 상당히 적게 소비하지만 더 높은 정밀도를 달성합니다. 제안된 방법은 8비트 부동 소수점 곱셈보다 더 높은 정밀도를 달성하지만 비트 수준 계산을 상당히 적게 사용합니다. 부동 소수점 수를 곱하는 것은 정수 덧셈 연산에 비해 상당히 높은 에너지가 필요하므로, 텐서 처리 하드웨어에서 L-Mul 연산을 적용하면 원소별 부동 소수점 텐서 곱셈의 95% 에너지 비용과 닷 프로덕트의 80% 에너지 비용을 절감할 수 있습니다. 우리는 L-Mul의 이론적 오차 기대치를 계산하고, 자연어 이해, 구조적 추론, 수학, 상식적 질문 응답을 포함한 다양한 텍스트, 시각 및 상징적 작업에서 알고리즘을 평가했습니다. 우리의 수치 분석 실험은 L-Mul의 4비트 마니사를 사용하면 float8_e4m3 곱셈과 비교 가능한 정밀도를 달성하며, 3비트 마니사를 사용한 L-Mul이 float8_e5m2를 능가한다는 이론적 오차 추정과 일치합니다. 인기 있는 벤치마크에서의 평가 결과는 L-Mul을 직접 주의 메커니즘에 적용하면 거의 손실이 없다는 것을 보여줍니다. 또한 트랜스포머 모델에서 모든 부동 소수점 곱셈을 3비트 마니사 L-Mul로 대체하면 미세 조정 및 추론 모두에서 float8_e4m3을 누적 정밀도로 사용하는 것과 동등한 정밀도를 달성할 수 있음을 보여줍니다.
최근 표현 학습과 함수 학습의 발전은 인공지능의 다양한 영역에서 상당한 가능성을 입증했습니다. 그러나 이러한 패러다임을 효과적으로 통합하는 것은 중요한 도전이 됩니다. 특히 사용자가 데이터셋 특성을 기반으로 표현 학습 또는 함수 학습 모델을 수동으로 결정해야 하는 경우에는 더욱 그렇습니다. 이 문제를 해결하기 위해, 우리는 수동 모델 선택이 필요 없는 통합 방법인 MLP-KAN을 소개합니다. 다층 퍼셉트론(MLPs)을 통한 표현 학습과 콜모고로프-아놀드 네트워크(KANs)를 통한 함수 학습을 전문가 집합(MoE) 아키텍처 내에서 통합함으로써, MLP-KAN은 주어진 작업의 특성에 동적으로 적응하여 최적의 성능을 보장합니다. 트랜스포머 기반 프레임워크에 내장된 이 연구는 다양한 영역의 네 개의 널리 사용되는 데이터셋에서 놀라운 결과를 달성했습니다. 광범위한 실험 평가는 MLP-KAN의 우수한 다재다능성을 입증하며, 깊은 표현 학습과 함수 학습 작업 모두에서 경쟁력 있는 성과를 제공합니다. 이 연구 결과는 MLP-KAN의 모델 선택 프로세스를 간소화하고 다양한 영역에서 포괄적이고 적응 가능한 솔루션을 제공하는 잠재력을 강조합니다. 우리의 코드와 가중치는 https://github.com/DLYuanGod/MLP-KAN에서 사용할 수 있습니다.
생성적 AI, 특히 언어 모델(LMs)은 전문가 접근이 제한된 경우에 특히 현실 세계 도메인을 사회적 영향을 주는 방식으로 변화시킬 수 있는 잠재력을 가지고 있습니다. 예를 들어 교육 분야에서는 전문가의 지도를 받는 것이 효과적이지만 비용이 많이 들기 때문에 새로운 교사들을 교육하는 것이 중요합니다. 이는 대규모 교육 품질 향상에 상당한 장벽을 만들어냅니다. 이러한 도전은 특히 고품질 교육에서 가장 많은 이득을 얻을 수 있는 소외된 지역 사회의 학생들에게 불평등하게 영향을 미칩니다. 저희는 Tutor CoPilot이라는 새로운 인간-인공지능 접근법을 소개합니다. 이는 전문가 사고 모델을 활용하여 튜터들이 지도하는 동안 전문가와 유사한 지도를 제공합니다. 본 연구는 역사적으로 소외된 지역 사회의 K-12 학생 1,800명과 튜터 900명을 대상으로 한 실시간 지도의 인간-인공지능 시스템의 최초의 무작위 대조 연구입니다. 사전 등록된 분석 계획을 따르면 Tutor CoPilot에 접근할 수 있는 튜터와 함께 공부하는 학생들은 주제를 숙달할 가능성이 4%포인트(p.p.) 더 높다는 것을 발견했습니다 (p<0.01). 특히 등급이 낮은 튜터의 학생들이 가장 큰 혜택을 받아 9%p.p.의 숙련도 향상을 경험했습니다. Tutor CoPilot은 연간 튜터 당 단 20달러의 비용이 든다는 것을 발견했습니다. 우리는 550,000개 이상의 메시지를 분류기를 사용하여 분석하여 튜터들이 Tutor CoPilot에 접근할 때 학생 이해를 촉진하는 고품질 전략(예: 가이드 질문하기)을 사용할 가능성이 더 높으며 학생에게 정답을 알려주는 것보다는 덜 하게 됨을 발견했습니다. 튜터 인터뷰에서는 Tutor CoPilot의 지도가 튜터가 학생의 요구에 대응하는 데 도움이 되지만 학년에 맞지 않는 제안을 생성하는 등 Tutor CoPilot의 문제점을 지적했습니다. 모두 합쳐 Tutor CoPilot의 연구는 인간-인공지능 시스템이 현실 세계 도메인에서 전문성을 확장하고 기술의 간극을 메우며 모든 학생들에게 고품질 교육이 접근 가능한 미래를 창출할 수 있는 방법을 보여줍니다.
주의 집중의 맥락에서 불필요한 요소는 성능을 저하시킨다. 우리는 표준 주의 메커니즘에 간단한 매개변수가 필요 없는 변경 사항인 선택적 주의(Selective Attention)를 소개한다. 선택적 주의는 불필요한 요소에 대한 주의를 줄이며 언어 모델링 성능을 향상시킨다. 선택적 주의는 다양한 모델 크기와 맥락 길이에서 언어 모델링 성능을 개선한다. 예를 들어, C4에서 언어 모델링 목적으로 훈련된 일련의 트랜스포머는 선택적 주의를 사용하여 표준 트랜스포머와 동등한 성능을 발휘하는데, 이때 표준 트랜스포머는 주의 모듈에서 약 2배 더 많은 헤드와 매개변수를 사용한다. 선택적 주의는 또한 주의의 맥락 버퍼 크기를 줄일 수 있어 추론 중에 메모리 및 계산 요구 사항을 의미 있는 수준으로 감소시킬 수 있다. 예를 들어, C4에서 100M 매개변수로 훈련된 트랜스포머는 선택적 주의를 사용할 경우, 같은 검증 퍼플렉서티를 유지하면서 주의 모듈에 대해 각각 512, 1,024 및 2,048의 맥락 크기를 갖는 경우, 선택적 주의를 사용하지 않은 경우보다 각각 16배, 25배 및 47배 적은 메모리가 필요하다.
시각 언어 모델(VLM) 기반 봇이 젖은 바닥을 감지하면 미끄러짐을 경고해 줄까요? 최근 VLM은 놀라운 성능을 보여주었지만 결과와 원인을 추론하는 능력은 아직 충분히 탐구되지 않았습니다. 이를 해결하기 위해 우리는 시각적 타당 추론 능력을 평가하기 위해 고안된 벤치마크인 NL-Eye를 소개합니다. NL-Eye는 시각 도메인에 추론적 자연어 추론(NLI) 과제를 적용하여, 모델이 전제 이미지를 기반으로 가설 이미지의 타당성을 평가하고 그 결정을 설명해야 하는 과제를 포함합니다. NL-Eye는 물리적, 기능적, 논리적, 감정적, 문화적, 사회적 등 다양한 추론 범주를 포괄하는 350개의 신중히 선별된 삼중 예제(1,050개의 이미지)로 구성되어 있습니다. 데이터 선별 과정은 텍스트 설명 작성과 텍스트-이미지 모델을 사용하여 이미지 생성 두 단계로 이루어져 있으며, 높은 품질과 도전적인 장면을 보장하기 위해 상당한 인간 참여가 필요했습니다. 우리의 실험 결과는 VLM이 NL-Eye에서 심각하게 어려움을 겪는다는 것을 보여주었습니다. 종종 무작위 기준선 수준에서 수행하며, 반면 인간은 타당성 예측과 설명 품질 모두에서 뛰어납니다. 이는 현대 VLM의 추론 능력에 결핍이 있다는 것을 보여줍니다. NL-Eye는 사고 예방 봇 및 생성된 비디오 확인을 포함한 실제 응용 프로그램을 위한 견고한 다중 모달 추론 능력을 갖춘 VLM을 개발하기 위한 중요한 한 걸음을 나타냅니다.
Mamba는 상태 공간 모델의 특수한 경우로, 의료 이미지 분석에서 템플릿 기반 딥 러닝 접근법의 대안으로 인기를 얻고 있습니다. 트랜스포머는 강력한 아키텍처이지만, 이차 계산 복잡성과 장거리 종속성을 효율적으로 처리할 수 없는 단점이 있습니다. 이 제한은 의료 이미징의 대규모 및 복잡한 데이터셋 분석에 영향을 미치며, 많은 공간 및 시간적 관계가 존재합니다. 반면, Mamba는 의료 이미지 분석에 적합하게 만드는 혜택을 제공합니다. Mamba는 트랜스포머보다 상당한 개선을 이룬 선형 시간 복잡성을 갖고 있습니다. Mamba는 주의 메커니즘 없이 더 긴 시퀀스를 처리하여 빠른 추론을 가능하게 하며 더 적은 메모리를 필요로 합니다. Mamba는 또한 다중 모달 데이터를 병합하고 진단 정확도와 환자 결과를 향상시키는 강력한 성능을 보여줍니다. 본 논문의 구성은 독자들이 의료 이미징에서 Mamba의 능력을 단계별로 이해할 수 있도록 합니다. 우리는 SSMs 및 모델의 핵심 개념을 정의하고, 순차적으로 S4, S5, S6을 탐구한 후, 순수 Mamba, U-Net 변형 및 합성 모델과 같은 Mamba 아키텍처, 컨볼루션 신경망, 트랜스포머 및 그래프 신경망과의 하이브리드 모델을 살펴봅니다. 또한 Mamba 최적화, 기술 및 적응, 스캐닝, 데이터셋, 응용 프로그램, 실험 결과를 다루고 의료 이미징에서 Mamba의 도전과 미래 방향을 결론 지어 의료 이미징 분야에서 기존 장벽을 극복하고 혁신적인 발전을 이끌어내는 Mamba의 변혁적 잠재력을 입증하는 것을 목표로 합니다. 본 리뷰에서 검토된 의료 분야에 적용된 Mamba 아키텍처의 포괄적인 목록은 Github에서 확인할 수 있습니다.
현재의 대형 자기회귀 모델은 고품질, 고해상도 이미지를 생성할 수 있지만, 이러한 모델은 추론 중에 수백 번 또는 수천 번의 다음 토큰 예측 단계가 필요하여 상당한 시간이 소요됩니다. 기존 연구에서는 자코비 디코딩, 반복적 병렬 디코딩 알고리즘을 사용하여 자기회귀 생성을 가속화하고 훈련 없이 실행할 수 있습니다. 그러나 자코비 디코딩은 반복의 수렴을 결정하기 위해 결정론적 기준에 의존합니다. 따라서 이는 탐욕 디코딩에는 작동하지만 현재 자기회귀 텍스트-이미지 생성에서 시각적 품질과 다양성에 중요한 샘플링 기반 디코딩과 호환되지 않습니다. 본 논문에서는 훈련 없이 확률적 병렬 디코딩 알고리즘인 추측 자코비 디코딩(SJD)을 제안하여 자기회귀 텍스트-이미지 생성을 가속화합니다. 확률 수렴 기준을 도입함으로써 우리의 SJD는 자기회귀 텍스트-이미지 생성의 추론을 가속화하면서 샘플링 기반 토큰 디코딩에서의 무작위성을 유지하고 모델이 다양한 이미지를 생성할 수 있게 합니다. 구체적으로 SJD는 각 단계에서 여러 토큰을 예측하고 확률적 기준에 따라 토큰을 수용하여 모델이 기존의 다음 토큰 예측 패러다임보다 적은 단계로 이미지를 생성할 수 있도록 합니다. 또한 특정 시나리오에서 가속 비율을 더 향상시키기 위해 시각 데이터의 공간적 국소성을 활용하는 토큰 초기화 전략을 조사합니다. 우리가 제안한 SJD에 대한 여러 자기회귀 텍스트-이미지 생성 모델에서 실험을 수행하여 시각적 품질을 희생하지 않고 모델 가속화의 효과를 보여줍니다.
텍스트 대 질감 생성은 최근에 증가하는 관심을 끌고 있지만, 기존 방법들은 종종 관점 불일치, 명백한 이음선, 그리고 질감과 기본 메쉬 간의 정렬 오류 문제로 고통받고 있습니다. 본 논문에서는 일관되고 이음선 없는 질감을 생성하며 메쉬와 잘 정렬된 질감을 제공하는 강력한 텍스트 대 질감 방법을 제안합니다. 우리의 방법은 SDXL 및 다중 ControlNets를 포함한 최첨단 2D 확산 모델을 활용하여 생성된 질감의 구조적 특징과 복잡한 세부 사항을 포착합니다. 또한 방법은 지역적 프롬프트와 결합된 대칭적인 관점 합성 전략을 사용하여 관점 일관성을 향상시킵니다. 게다가, 새로운 질감 혼합 및 부드러운 보정 기술을 도입하여 이음선 영역을 크게 줄입니다. 광범위한 실험 결과는 우리의 방법이 기존 최첨단 방법들을 능가함을 입증합니다.
언어 모델에서의 개념 소거는 전통적으로 포괄적인 평가 프레임워크가 부족해 소거 방법의 효과를 완전히 평가하는 데 미흡했습니다. 우리는 세 가지 중요한 기준에 중점을 둔 평가 패러다임을 제안합니다: 결백성(완전한 지식 제거), 부드러움(조건부 유창한 생성 유지), 그리고 특이성(관련 없는 작업 성능 보존). 우리의 평가 지표는 자연스럽게 세 가지 차원을 모두 다루도록 설계된 새로운 방법인 언어 기억 소거(ELM)의 개발을 촉진합니다. ELM은 지정된 저랭크 업데이트를 활용하여 소거된 개념에 대한 출력 분포를 변경하면서, 소거된 개념에 대해 요청 받을 때 유창성을 포함한 전반적인 모델 능력을 보존합니다. 우리는 ELM의 효과를 생명안보, 사이버보안, 문학 분야의 소거 작업에서 입증합니다. 비교 분석 결과, ELM이 제안된 지표를 통해 우수한 성능을 달성하는 것을 보여줍니다. 이는 소거된 주제 평가에서 거의 무작위 점수, 생성 유창성, 관련 벤치마크에서의 정확성 유지, 그리고 적대적 공격에 대한 견고성을 포함합니다. 우리의 코드, 데이터, 그리고 훈련된 모델은 https://elm.baulab.info에서 제공됩니다.
Code Large Language Models (CodeLLMs)의 최근 발전은 주로 개방형 코드 생성 작업에 초점을 맞추었으며 종종 코드 이해와 이해의 중요한 측면을 무시해 왔습니다. 이 간극을 메우기 위해, 우리는 LLMs의 소프트웨어 및 코드 이해의 깊이를 평가하기 위해 설계된 포괄적인 객관식 문제-답변 벤치마크인 CodeMMLU를 제안합니다. CodeMMLU에는 다양한 도메인에서 가져온 10,000개 이상의 질문이 포함되어 있으며, 다양한 프로그래밍 언어를 통해 코드 분석, 결함 탐지 및 소프트웨어 공학 원칙을 포괄하는 작업을 포함하고 있습니다. 전통적인 벤치마크와는 달리, CodeMMLU는 모델이 코드에 대해 이성적으로 추론할 수 있는 능력을 평가하여 단순히 생성하는 것이 아니라, 복잡한 소프트웨어 개념 및 시스템에 대한 그들의 이해를 더 깊게 파악합니다. 우리의 광범위한 평가는 최첨단 모델조차 CodeMMLU에서 상당한 어려움을 겪는다는 것을 밝혀내며, 코드 생성 이상의 이해력의 결핍을 강조합니다. 코드 이해와 효과적인 생성 간의 중요한 관계를 강조함으로써, CodeMMLU는 AI를 보조로 하는 소프트웨어 개발을 발전시키는 데 중요한 자원으로 기능하며, 궁극적으로 더 신뢰할 수 있고 능력 있는 코딩 보조 도구를 만드는 것을 목표로 합니다.
현실 세계에서의 로봇 내비게이션은 목적지에 도달하는 것 이상을 포함하며, 시나리오별 목표를 고려하여 움직임을 최적화해야 합니다. 인간이 이러한 목표를 표현하는 직관적인 방법은 언어 명령이나 대략적인 스케치와 같은 추상적인 신호를 통해 이루어집니다. 이러한 인간의 안내는 세부 사항이 부족하거나 소음이 많을 수 있습니다. 그럼에도 불구하고, 우리는 로봇이 의도한 대로 내비게이션할 것으로 기대합니다. 로봇이 이러한 추상적인 지침을 해석하고 실행하여 인간의 기대에 부합하도록 하려면, 로봇은 인간과 기본적인 내비게이션 개념에 대해 공통의 이해를 공유해야 합니다. 이를 위해 시각적 및 언어적 지침을 결합한 상식적인 내비게이션을 위한 새로운 프레임워크인 CANVAS를 소개합니다. 이 프레임워크의 성공은 모방 학습에 의해 이뤄지며, 로봇이 인간의 내비게이션 행동에서 배울 수 있게 됩니다. 우리는 COMMAND를 제시합니다. 이는 시뮬레이션 환경에서 상식적인 내비게이션 시스템을 훈련시키기 위해 고안된 인간이 주석을 단 내비게이션 결과를 포함한 포괄적인 데이터셋으로, 총 48시간과 219km에 걸쳐 이루어졌습니다. 실험 결과, CANVAS가 소음이 있는 지시에도 강력한 규칙 기반 시스템 ROS NavStack을 모든 환경에서 능가하는 것을 보여주었습니다. 특히, ROS NavStack이 0%의 총 성공률을 기록한 과수원 환경에서 CANVAS는 67%의 총 성공률을 달성했습니다. 또한 CANVAS는 보이지 않는 환경에서도 인간의 시연과 상식적인 제약과 밀접하게 일치합니다. 더 나아가, CANVAS의 실제 세계 적용은 69%의 총 성공률로 인상적인 Sim2Real 전이를 보여주며, 시뮬레이션 환경에서 인간의 시연으로부터 학습하여 실제 세계 응용에 대한 잠재력을 강조합니다.
Fill-in-the-Middle (FIM)은 코드 언어 모델에 필수적이 되어, 왼쪽과 오른쪽 컨텍스트를 모두 고려하여 누락된 코드를 생성할 수 있게 합니다. 그러나 현재의 FIM 훈련 패러다임은 원본 훈련 시퀀스를 재배열한 후 정규 다음 토큰 예측(NTP)을 수행하는데, 종종 모델이 주변 컨텍스트와 원활하게 일치하는 콘텐츠를 생성하는 데 어려움을 겪게 합니다. 기존 연구는 이러한 약점을 우회하기 위해 규칙 기반의 후처리에 의존하고 있지만, 이러한 방법은 제한적이고 데이터셋 특정 가정에 의존하기 때문에 오픈 도메인 코드 완성 작업에서 실용적으로 사용하기 어렵습니다 (예: 그라운드 트루스와 동일한 라인 수를 생성). 게다가, 이러한 비현실적인 가정 없이 FIM 작업에서 모델 성능이 상당히 저하됩니다. 우리는 NTP만으로는 모델이 먼 오른쪽 컨텍스트에 의존한 효과적인 계획 학습을 할 수 없다고 가설을 세웁니다. 이것은 성공적인 코드 채워넣기에 중요한 요소입니다. 이를 극복하기 위해 우리는 Horizon-Length Prediction (HLP)을 제안합니다. 이것은 모델이 각 단계에서 남은 중간 토큰의 수(즉, 수평 길이)를 예측하도록 가르치는 새로운 훈련 목표입니다. HLP는 미래를 내다보는 계획을 통해 FIM을 발전시켜, 데이터셋 특정 후처리에 의존하지 않고 임의의 왼쪽과 오른쪽 컨텍스트에 대한 채워넣기 경계를 내재적으로 학습할 수 있게 합니다. 다양한 벤치마크에서 다양한 모델과 크기에 걸쳐 우리의 평가 결과는 HLP가 FIM 성능을 상당히 향상시키며, 파일 수준 및 저장소 수준에서 24%까지 상대적으로 향상시킵니다. 또한 비현실적인 후처리 방법에 의존하지 않고 모델 성능을 향상시키는 HLP를 통해 향상된 계획 능력은 코드 추론에 모델 성능을 향상시킵니다. 중요한 점은, HLP는 실제 시나리오에서 실용적이며 추가적인 훈련 부담이 거의 없으며 추가적인 추론 비용도 없어 실용성을 보장합니다.
주식 시장 예측은 수십 년 동안 매우 어려운 문제로 남아 왔으며, 그 원래의 높은 변동성과 낮은 정보 노이즈 비율 때문에 도전적입니다. 기계 학습 또는 심층 학습을 기반으로 한 기존 솔루션은 전체 주식 데이터셋에서 훈련된 단일 모델을 활용하여 모든 유형의 주식에 대한 예측을 생성함으로써 우수한 성능을 나타냅니다. 그러나 주식 스타일과 시장 트렌드의 상당한 변동으로 인해, 단일 엔드 투 엔드 모델은 이러한 스타일화된 주식 특징의 차이를 완전히 포착하는 데 어려움을 겪어 모든 유형의 주식에 대해 비교적 부정확한 예측을 내놓습니다. 본 논문에서는 서로 다른 스타일의 주식에 대해 전문화된 예측을 생성하기 위해 서로 다른 스타일 전문가 간에 동적으로 전환하는 MIGA(전문가 혼합 및 그룹 집계) 프레임워크를 제안합니다. MIGA 내에서 서로 다른 전문가 간의 협력을 촉진하기 위해 새로운 내부 그룹 주의 구조를 제안하여 동일 그룹 내의 전문가들이 정보를 공유하고 이로써 모든 전문가의 전반적인 성능을 향상시킵니다. 결과적으로 MIGA는 CSI300, CSI500 및 CSI1000을 포함한 세 가지 중국 주식 지수 벤치마크에서 다른 엔드 투 엔드 모델을 크게 능가합니다. 특히, MIGA-Conv는 CSI300 벤치마크에서 24%의 초과 연간 수익을 달성하여 이전 최첨단 모델을 8% 절대적으로 능가합니다. 더 나아가, 주식 시장 예측을 위한 전문가 혼합에 대한 포괄적인 분석을 수행하여 향후 연구를 위한 가치 있는 통찰을 제공합니다.
심층 학습이 비구조화된 데이터 영역에서 우위를 차지하고 있음에도 불구하고, 랜덤 포레스트(RF)와 그래디언트 부스팅 결정 트리(GBDT)와 같은 트리 기반 방법은 여전히 표 형식 데이터에서 식별 작업을 처리하는 데 중요한 역할을 하고 있습니다. 우리는 이러한 인기 있는 알고리즘의 생성 확장을 탐구하며, 데이터 밀도(정규화 상수까지)를 명시적으로 모델링함으로써 샘플링 외에도 다른 응용 프로그램을 가능하게 합니다. 주요 기여로서, 우리는 XGBoost와 같은 인기 있는 패키지에서 구현된 2차 부스팅과 유사한 에너지 기반 생성 부스팅 알고리즘을 제안합니다. 우리는 제안한 알고리즘이 임의의 입력 변수에 대한 추론 작업을 처리할 수 있는 생성 모델을 생성함에도 불구하고, 실제 표 형식 데이터셋에서 GBDT와 유사한 식별 성능을 달성할 수 있으며, 대안적인 생성 접근 방식을 능가합니다. 동시에, 우리는 샘플링에 대해 신경망 기반 모델과도 경쟁력이 있다는 것을 보여줍니다.
비디오 자세한 자막은 비디오 콘텐츠의 포괄적이고 일관된 텍스트 설명을 생성하는 주요 작업으로, 비디오 이해와 생성 양쪽에 혜택을 주고 있습니다. 본 논문에서는 대규모 다중 모달 모델을 기반으로 한 비디오 자막 생성기인 AuroraCap을 제안합니다. 우리는 시간적 모델링을 위한 추가 매개변수 없이 가장 간단한 아키텍처 설계를 따릅니다. 긴 비디오 시퀀스로 인한 오버헤드를 해결하기 위해 토큰 병합 전략을 구현하여 입력 시각적 토큰의 수를 줄입니다. 놀랍게도, 이 전략이 성능 손실이 거의 없다는 것을 발견했습니다. AuroraCap은 다양한 비디오 및 이미지 자막 벤치마크에서 우수한 성능을 보여주며, 예를 들어, Flickr30k에서 88.9의 CIDEr를 획득하여 GPT-4V(55.3)와 Gemini-1.5 Pro(82.2)를 이겼습니다. 그러나 기존의 비디오 자막 벤치마크는 몇십 단어로 구성된 간단한 설명만 포함하고 있어 이 분야의 연구를 제한하고 있습니다. 따라서, 우리는 1,000개 이상의 신중하게 주석이 달린 구조화된 자막을 가진 비디오 자세한 자막 벤치마크인 VDC를 개발했습니다. 더불어, 평가를 개선하기 위해 새로운 LLM 보조 메트릭인 VDCscore를 제안하였는데, 이는 긴 자막 평가를 여러 짧은 질문-답변 쌍으로 변환하기 위한 분할 정복 전략을 채택합니다. 인간 Elo 순위의 도움을 받아, 우리 실험은 이 벤치마크가 비디오 자세한 자막 품질에 대한 인간 판단과 더 잘 상관되는 것을 보여줍니다.
로봇 시뮬레이션은 다양한 시뮬레이션 작업과 장면을 만들기 위해 필요한 인간 노력으로 인해 확장이 어려운 상태입니다. 또한 시뮬레이션으로 훈련된 정책은 많은 시뮬레이션-실제 전이 방법이 단일 작업에 집중하기 때문에 확장성 문제에 직면하고 있습니다. 이러한 도전에 대처하기 위해 본 연구는 복잡하고 현실적인 시뮬레이션 작업을 위해 다중 모달 및 추론 능력을 갖춘 코딩 LLM을 활용하는 확장 가능한 프레임워크인 GenSim2를 제안합니다. 이를 위해 오브젝트 범주 내에서 일반화하는 계획 및 강화 학습 솔버를 제안하여 이러한 작업을 위한 자동 생성된 데모 데이터를 대규모로 생성합니다. 이 파이프라인은 200개의 오브젝트를 포함한 100개의 관절 작업에 대한 데이터를 생성하고 필요한 인간 노력을 줄일 수 있습니다. 이러한 데이터를 활용하기 위해 생성된 데모로부터 학습하는 효과적인 다중 작업 언어 조건화 정책 아키텍처인 proprioceptive point-cloud transformer (PPT)를 제안합니다. 제안된 파이프라인과 정책 아키텍처를 결합하여 GenSim2의 유망한 활용을 보여줍니다. 생성된 데이터가 제로샷 전이에 사용되거나 현실에서 수집된 데이터와 함께 공동으로 훈련될 수 있어 정책 성능이 제한된 실제 데이터만으로 훈련하는 것과 비교하여 20% 향상될 수 있음을 보여줍니다.