번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델(LLMs)은 생성 작업에서 뛰어나지만, 디코더 전용 아키텍처는 추가적인 표현 미세조정이 적용되지 않는 한 임베딩 모델로서의 잠재력을 종종 제한합니다. 이것은 그들의 일반주의 주장과 모순되는 것일까요? 이 질문에 대한 답변을 얻기 위해, Mixture-of-Experts(MoE) LLMs를 자세히 살펴보겠습니다. 우리의 연구는 MoE LLMs의 전문가 라우터가 미세조정이 필요 없이 다양한 임베딩 중심 작업에서 유망한 성능을 발휘할 수 있는 즉시 사용 가능한 임베딩 모델로 작용할 수 있다는 것을 보여줍니다. 게다가, 우리의 철저한 분석은 MoE 라우팅 가중치(RW)가 LLMs의 숨겨진 상태(HS)와 보완적인 관계에 있음을 보여줍니다. HS와 비교했을 때, RW는 프롬프트 선택에 더 견고하며 고수준 의미에 초점을 맞춥니다. 분석에 영감을 받아, 우리는 RW와 HS를 결합한 MoEE를 제안합니다. 이는 각각을 사용하는 것보다 더 나은 성능을 달성합니다. RW와 HS의 결합 및 프롬프팅 전략 탐색을 통해 몇 가지 혁신적인 통찰을 얻었습니다. 예를 들어, RW와 HS 유사성의 가중 합이 그들의 연결보다 우월함을 입증했습니다. 우리의 실험은 Massive Text Embedding Benchmark(MTEB)의 20개 데이터셋을 사용하여 6개의 임베딩 작업에서 수행되었습니다. 결과는 MoEE가 추가적인 미세조정 없이 LLM 기반 임베딩에 가져다주는 중요한 개선을 보여줍니다.
의료용 대형 언어 모델을 현지 언어로 적응시키면 의료 서비스 이용 장벽을 줄일 수 있지만, 데이터 부족은 특히 자원 부족 언어에 대한 중요한 도전 과제로 남아 있습니다. 이를 해결하기 위해 먼저 고품질의 의료 데이터셋을 구축하고 품질을 보장하기 위한 분석을 수행합니다. 자원 부족 언어로 효율적으로 확장하기 위해 다국어 대형 언어 모델의 일반화 능력을 활용하기 위해 Mixture of Experts (MoE) 모듈러리티를 활용하여 다국어 관점에서 대형 언어 모델의 내부 정보 흐름을 탐색합니다. 기술적으로, 우리는 언어별 전문가와 교차 언어 라우팅을 활용하는 새로운 MoE 라우팅 방법을 제안합니다. 회로 이론에서 영감을 받은 우리의 라우팅 분석은 Spread Out in the End 정보 흐름 메커니즘을 밝혀냈습니다: 초기 레이어는 교차 언어 정보 흐름에 집중하는 반면, 후반 레이어는 언어별로 발산합니다. 이 통찰력은 직접적으로 다른 언어로의 다국어 모델의 일반화를 향상시키면서 해석 가능성을 유지하는 Post-MoE 아키텍처의 개발로 이어졌습니다. 실험 결과는 이 접근 방식이 다른 언어로의 다국어 모델의 일반화를 향상시키는 것을 보여줍니다. 마지막으로, 모델을 50개 언어로 효율적으로 확장하기 위해 언어 패밀리 전문가 개념을 도입하여 언어별 선호를 활용하며, 추가 매개변수를 추가하지 않고 언어 수를 확장할 수 있도록 합니다.
대형 언어 모델(LLMs)의 문맥 창 확장은 특히 극도로 긴 텍스트를 다루는 응용 프로그램에 대해 중요한 연구 분야가 되었습니다. 본 연구에서는 긴 텍스트를 처리하기 위한 새로운 훈련 불필요한 프레임워크를 제안하며, 포괄적인 문서 이해를 달성하기 위해 분할 정복 전략을 활용합니다. 제안된 LLMtimesMapReduce 프레임워크는 전체 문서를 여러 청크로 분할하여 LLM이 읽도록 하고 중간 답변을 집계하여 최종 출력물을 생성합니다. 분할 정복 방식의 긴 텍스트 처리 프레임워크의 주요 도전 과제는 문서를 분할할 때 중요한 장거리 정보를 잃을 위험이 있으며, 이는 모델이 세분화된 텍스트를 기반으로 불완전하거나 잘못된 답변을 생성하게 할 수 있습니다. 중단된 장거리 정보는 청크 간 종속성과 청크 간 충돌 두 가지 범주로 분류될 수 있습니다. 우리는 중첩 청크 종속성을 더 잘 다루기 위한 구조화된 정보 프로토콜을 설계하고, 중첩 청크 충돌을 해결하기 위한 문맥 내 신뢰 보정 메커니즘을 개발했습니다. 실험 결과는 LLMtimesMapReduce가 대표적인 오픈 소스 및 상용 긴 문맥 LLMs보다 우수한 성능을 보이며, 여러 다른 모델에도 적용 가능함을 보여줍니다.
Transformer 기반 대형 언어 모델(LLM)의 확장은 다양한 작업에서 유망한 성능을 보여주었지만, 실제 배포에서 효율성 문제를 일으키는 중복 구조를 도입하기도 합니다. LLM의 중복성을 인식하는 것은 있지만, MLP와 Attention 레이어와 같은 트랜스포머 내 다양한 아키텍처 간 중복성의 변이는 미개척된 상태입니다. 본 연구에서는 유사성 기반 메트릭을 사용하여 트랜스포머 내 다양한 모듈, 즉 블록, MLP 및 Attention 레이어 간의 중복성을 조사합니다. 트랜스포머를 다른 아키텍처와 구별 짓는 주요 역할에도 불구하고, 우리는 Attention 레이어의 상당 부분이 지나치게 높은 유사성을 나타내며 성능 하락 없이 제거될 수 있다는 것을 발견했습니다. 예를 들어, Llama-2-70B는 Attention 레이어의 절반을 제거함으로써 성능 하락이 2.4%에 그치면서 48.4%의 가속화를 달성했습니다. 또한, 모델 체크포인트를 추적하여 훈련 과정 전반에 걸쳐 Attention 레이어의 중복성이 본질적이고 일관되게 나타나는 것을 관찰했습니다. 게다가, Attention 및 MLP 레이어를 동시에 제거하는 방법을 제안하여 추가적인 레이어를 보다 적극적으로 제거할 수 있도록 합니다. 예를 들어, 31개의 레이어(Attention + MLP)를 제거할 때, Llama-2-13B는 MMLU 작업에서 성능의 90%를 유지합니다. 우리의 연구는 미래 네트워크 아키텍처 설계에 대한 가치 있는 통찰을 제공합니다. 코드는 다음에서 공개되었습니다: https://github.com/Shwai-He/LLM-Drop.
다중 모달 대형 언어 모델(MLLMs)은 종종 환각 현상을 나타내지만, 그 밑바탕에 있는 이유는 여전히 잘 이해되지 않고 있습니다. 본 논문에서는 경험적 분석을 제시하고, MLLMs가 최종 출력에서 객체를 잘못 생성하더라도, 사실은 이전 레이어에서 시각적 객체를 인식할 수 있다는 것을 발견했습니다. 언어 모델의 강력한 지식 사전이 시각 정보를 억제하여 환각을 유발할 수 있다는 것을 추측합니다. 이에 동기부여를 받아, MLLMs를 위한 새로운 동적 보정 디코딩 방법(DeCo)을 제안합니다. DeCo는 적응적으로 적절한 이전 레이어를 선택하고 지식을 최종 레이어에 비례하여 통합하여 출력 로짓을 조정합니다. DeCo는 모델에 중립적이며 다양한 클래식 디코딩 전략과 매끄럽게 통합되어 다양한 MLLMs에 적용할 수 있습니다. 우리는 DeCo를 널리 사용되는 벤치마크에서 평가하여, 기존의 기준선과 비교하여 환각 비율을 크게 줄일 수 있다는 것을 보여주었으며, 이는 환각을 완화할 수 있는 잠재력을 강조합니다. 코드는 https://github.com/zjunlp/DeCo에서 확인할 수 있습니다.
현대의 평가 기법은 상호작용 시스템에 부적합하다. 이러한 접근 방식은 종종 최종 결과에만 집중하여 상호작용 시스템의 단계별 특성을 무시하거나 과도한 수동 노동이 필요하다. 이에 대응하기 위해, 우리는 상호작용 시스템을 평가하기 위해 상호작용 시스템을 활용하는 '판사로서의 에이전트' 프레임워크를 소개한다. 이는 '판사로서의 LLM' 프레임워크의 유기적인 확장으로, 중간 피드백을 가능하게 하는 상호작용 특징을 통합하고 전체 작업 해결 프로세스에 대한 중간 피드백을 제공한다. 우리는 '판사로서의 에이전트'를 코드 생성 작업에 적용한다. 기존의 벤치마크 문제를 극복하고 '판사로서의 에이전트'를 위한 개념 증명 테스트베드를 제공하기 위해 55가지 현실적인 자동화된 AI 개발 작업의 새로운 벤치마크인 DevAI를 제시한다. 이는 총 365개의 계층적 사용자 요구 사항과 같은 풍부한 수동 주석을 포함한다. 우리는 '판사로서의 에이전트'를 사용하여 세 가지 인기 있는 상호작용 시스템을 벤치마킹하고, '판사로서의 LLM'을 능가하는 것으로 밝혀내며 우리의 인간 평가 기준과 신뢰성이 동등함을 확인한다. 모두를 종합하면, 우리는 '판사로서의 에이전트'가 현대 상호작용 시스템에 대한 구체적인 발전을 나타내며, 동적이고 확장 가능한 자가 개선을 위해 필요한 풍부하고 신뢰할 수 있는 보상 신호를 제공함으로써 중요한 한걸음을 나아간다고 믿는다.
비디오 생성 모델의 효과성은 그들의 훈련 데이터셋의 품질에 크게 의존합니다. 대부분의 이전 비디오 생성 모델은 짧은 비디오 클립에서 훈련되었지만, 최근에는 긴 비디오에서 직접 훈련되는 긴 비디오 생성 모델에 대한 관심이 증가하고 있습니다. 그러나 이러한 고품질의 긴 비디오의 부족은 긴 비디오 생성의 발전을 방해합니다. 긴 비디오 생성 연구를 촉진하기 위해, 긴 비디오 생성 모델 훈련에 필수적인 네 가지 핵심 기능을 갖춘 새로운 데이터셋이 필요합니다: (1) 적어도 10초 이상의 긴 비디오, (2) 컷이 없는 장면이 연속된 긴 비디오, (3) 큰 움직임과 다양한 콘텐츠, (4) 시간적으로 밀도 있는 자막. 이를 위해, 우리는 고품질의 장면 컷, 동적 정도, 의미 수준의 품질을 포함하는 비디오 품질을 정량적으로 평가하기 위한 메트릭 세트를 정의하여 대량의 소스 비디오에서 고품질의 장면 컷 비디오를 걸러내는 것을 가능하게 합니다. 이후, 우리는 시간적으로 밀도 있는 자막을 생성하기 위한 계층적 비디오 자막 파이프라인을 개발합니다. 이 파이프라인을 사용하여, 우리는 10초 이상을 커버하는 각각의 2백만 개의 장면 컷 비디오를 포함하고 시간적으로 밀도 있는 자막으로 주석이 달린 첫 번째 장면 컷 비디오 데이터셋인 LVD-2M을 만들었습니다. 우리는 또한 LVD-2M의 효과를 검증하기 위해 비디오 생성 모델을 세밀하게 조정하여 동적 움직임을 가진 긴 비디오를 생성합니다. 우리는 우리의 연구가 미래의 긴 비디오 생성 연구에 상당한 기여를 할 것으로 믿습니다.
대형 언어 모델 (LLM)은 추론 및 의사 결정 능력에서 엄청난 향상을 보여주었으며 사용자와 자연스러운 대화를 할 수 있습니다. 최근에는 많은 도구 사용 벤치마크 데이터셋이 제안되었습니다. 그러나 기존 데이터셋은 다음과 같은 제한 사항이 있습니다: (1) 충분하지 않은 평가 시나리오 (예: 한정된 도구 사용 장면만 다룸). (2) 평가 비용이 많이 듦 (예: GPT API 비용). 이러한 제한 사항을 해결하기 위해 본 연구에서는 대형 언어 모델을 위한 다중 단계 도구 사용 벤치마크인 MTU-Bench를 제안합니다. "다중 단계" 특성을 갖는 MTU-Bench는 다섯 가지 도구 사용 장면 (즉, 단일 턴 및 단일 도구, 단일 턴 및 다중 도구, 다중 턴 및 단일 도구, 다중 턴 및 다중 도구, 그리고 분포 범위를 벗어난 작업)을 포함합니다. 또한, MTU-Bench의 모든 평가 메트릭은 GPT나 인간 평가 메트릭을 사용하지 않고 예측 결과와 실제 값에 기반합니다. 게다가, MTU-Bench는 기존 고품질 데이터셋을 변형하여 실제 도구 사용 시나리오를 시뮬레이션하고, 기존 LLM의 도구 사용 능력을 향상시키기 위해 MTU-Instruct 데이터라는 지시 데이터셋을 제안합니다. 포괄적인 실험 결과가 우리의 MTU-Bench의 효과를 입증합니다. 코드와 데이터는 https://github.com/MTU-Bench-Team/MTU-Bench.git에서 공개될 예정입니다.
최근 몇 년간 가장 인기 있는 생성 모델 중 하나로 손꼽히는 확산 모델은 밀도 있는 이론적 원리와 신뢰할 수 있는 응용 실천을 기반으로 이미지 합성, 비디오 생성, 분자 설계, 3D 장면 렌더링 및 다중 모달 생성과 같은 다양한 생성 작업에서 우수한 장점을 안정적으로 보여주며 많은 연구자들의 관심을 끌었습니다. 이러한 최근 확산 모델에 대한 놀라운 성공은 주로 점진적인 설계 원칙과 효율적인 아키텍처, 훈련, 추론 및 배포 방법론에서 비롯됩니다. 그러나 이러한 원칙과 실천을 요약하여 확산 모델의 신속한 이해와 적용을 돕기 위한 포괄적이고 깊이 있는 검토가 아직 이루어지지 않았습니다. 본 조사에서는 기존 노력에 대한 새로운 효율성 중심적 시각을 제시하여, 주로 아키텍처 설계, 모델 훈련, 빠른 추론 및 신뢰할 수 있는 배포에서의 깊은 원리와 효율적인 실천에 초점을 맞추어 이론적 연구, 알고리즘 이관 및 새로운 시나리오에 대한 모델 응용을 안내하는 방식으로 독자 친화적으로 제시합니다.
대형 언어 모델(LLMs)은 도구 학습과 결합하여 현실 세계 응용 프로그램에서 인상적인 결과를 얻었습니다. 도구 학습 중에 LLMs는 중첩된 순서로 여러 도구를 호출할 수 있으며, 후자의 도구 호출은 전자의 응답을 입력 매개변수로 사용할 수 있습니다. 그러나 현재 중첩된 도구 학습 능력에 대한 연구는 아직 충분히 탐구되지 않았습니다. 왜냐하면 기존의 벤치마크에는 관련 데이터 인스턴스가 부족하기 때문입니다. 이 문제를 해결하기 위해 우리는 현재의 포괄적인 중첩된 도구 학습 평가의 공백을 메우기 위해 NesTools를 소개합니다. NesTools는 다양한 중첩 구조를 갖는 대규모 중첩 도구 호출을 구성하기 위한 새로운 자동 데이터 생성 방법으로 구성됩니다. 수동 검토와 정제를 통해 데이터셋은 고품질이며 실제 시나리오와 밀접하게 일치합니다. 따라서 NesTools는 LLMs의 중첩된 도구 학습 능력을 평가하기 위한 새로운 벤치마크로 기능할 수 있습니다. 우리는 22개의 LLM에 대해 광범위한 실험을 수행하고 NesTools와 함께 심층 분석을 제공하며, 이를 통해 현재 LLMs가 여전히 복잡한 중첩된 도구 학습 과제로부터 고통받고 있음을 보여줍니다.
기존 연구들은 Code GenAI와 관련된 보안 위험을 강조하기 위해 여러 개의 벤치마크를 수립해 왔습니다. 이러한 위험은 주로 두 가지 영역에서 반영됩니다: 안전하지 않은 코드 생성의 모델 잠재력(안전하지 않은 코딩) 및 사이버 공격에서의 유용성(사이버 공격 유용성). 이러한 벤치마크들이 상당한 발전을 이루었지만, 더 나은 개선 기회가 남아 있습니다. 예를 들어, 현재 많은 벤치마크들은 공격 제안을 제공하는 모델 능력에 초점을 맞추는 경향이 있어 실행 가능한 공격을 생성하는 능력에 대한 용량에 대해 다소 미흡합니다. 게다가 대부분의 벤치마크는 정적 평가 지표에 크게 의존하는데, 이는 동적 지표인 테스트 케이스 통과와 같이 정확하지 않을 수 있습니다. 반면 전문가 검증된 벤치마크는 고품질 데이터를 제공하지만 종종 규모가 작습니다. 이러한 공백을 해결하기 위해, 우리는 코드 GenAI의 위험에 대한 통합적이고 포괄적인 평가 플랫폼인 SecCodePLT를 개발했습니다. 안전하지 않은 코드에 대해서는 전문가와 자동 생성을 결합한 데이터 생성을 위한 새로운 방법론을 소개합니다. 이 방법론은 데이터 품질을 보장하면서 대규모 생성을 가능하게 합니다. 또한 샘플을 테스트 케이스와 연결하여 코드 관련 동적 평가를 수행합니다. 사이버 공격 유용성에 대해서는 실제 환경을 구축하고 모델이 실제 공격을 생성하도록 샘플을 만들며, 우리 환경에서 동적 지표를 사용합니다. 우리는 광범위한 실험을 수행하고 SecCodePLT가 보안 관련에서 최첨단 벤치마크인 CyberSecEval을 능가함을 보여줍니다. 더 나아가, SecCodePLT는 최첨단 모델의 안전하지 않은 코딩과 사이버 공격 유용성의 보안 위험을 더 잘 식별합니다. 마지막으로, 우리는 SecCodePLT를 최첨단 코드 에이전트 Cursor에 적용하여 이 고급 코딩 에이전트에서 중요한 보안 위험을 처음으로 식별합니다.
에코심초음파는 심장 영상 촬상 기법 중 가장 널리 사용되며, 심장 구조와 기능을 평가하기 위해 초음파 비디오 데이터를 캡처합니다. 인공지능(AI)을 에코심초음파에 적용하면 수동 작업을 간소화하고 재현성과 정밀도를 향상시킬 수 있습니다. 그러나 대부분의 에코심초음파 AI 모델은 단일 시점, 단일 작업 시스템으로, 전체 검사 중에 캡처된 여러 시점에서 보충 정보를 종합하지 않아 성능과 응용 범위가 제한됩니다. 이 문제를 해결하기 위해 우리는 EchoPrime을 소개합니다. EchoPrime은 1200만 개 이상의 비디오-보고서 쌍으로 훈련된 멀티뷰, 뷰 정보화, 비디오 기반 비전-언어 기반 모델입니다. EchoPrime은 대조 학습을 사용하여 모든 표준 시점에 대한 통합 임베딩 모델을 훈련하며, 드문 및 흔한 질병 및 진단의 표현을 포함한 포괄적인 에코심초음파 연구를 수행합니다. 그런 다음 EchoPrime은 뷰 분류 및 뷰 정보화 해부 주의 모델을 활용하여 에코심초음파 시점과 해부 구조 간의 관계를 정확하게 매핑하는 비디오별 해석을 가중화합니다. 검색 보강 해석을 통해 EchoPrime은 포괄적인 연구에서 모든 에코심초음파 비디오의 정보를 통합하고 종합적인 임상 에코심초음파 해석을 수행합니다. 두 개의 독립적인 의료 시스템 데이터셋에서 EchoPrime은 심장 형태와 기능의 23가지 다양한 벤치마크에서 최첨단 성능을 달성하며, 과거의 기존 기반 모델과 작업 특정 접근법의 성능을 능가합니다. 엄격한 임상 평가를 거친 후 EchoPrime은 의사들이 포괄적인 에코심초음파의 자동 예비 평가를 지원할 수 있습니다.
우리는 다중 시점 조명 입력 이미지로부터의 실시간, 고품질 신형 조명 및 시점 합성을 위해 공간 및 각도 가우시안 기반 표현과 삼중 스플래팅 프로세스를 제시합니다. 복잡한 외형을 설명하기 위해 각 공간 가우시안에 대한 유효한 반사 함수로 Lambertian 및 각도 가우시안 혼합을 사용합니다. 자체 그림자를 생성하기 위해 우리는 모든 공간 가우시안을 빛의 원본으로 스플래팅하여 그림자 값을 얻으며, 이는 소규모 다층 퍼셉트론에 의해 더 정교하게 다듬어집니다. 전체 조명과 같은 다른 효과를 보상하기 위해 다른 네트워크가 각 공간 가우시안 RGB 튜플을 계산하고 추가하도록 훈련됩니다. 우리의 표현의 효과는 기하학(고체에서 부드러운 것까지) 및 외형(반투명에서 이방성까지)에 대한 다양한 변형을 가진 30개의 샘플에서, 그리고 핸드헬드 카메라 및 플래시로 촬영된 사진 또는 전문 조명 장치에서 캡처된 렌더링된 합성/재구성 물체의 이미지와 같은 다양한 형태의 입력 데이터를 사용하여 입증됩니다. 우리는 단일 상용 GPU에서 40-70분의 훈련 시간과 90fps의 렌더링 속도를 달성합니다. 우리의 결과는 품질/성능 측면에서 최첨단 기술과 유사하게 비교됩니다. 우리의 코드와 데이터는 https://GSrelight.github.io/에서 공개적으로 이용 가능합니다.
최근 CV(Computer Vision)와 NLP(Natural Language Processing) 분야의 발전은 주로 네트워크 매개변수의 규모를 확장함으로써 이루어졌으며, 이는 더 큰 네트워크가 오버피팅에 취약하다는 전통적인 이론에도 불구하고 이루어졌습니다. 이러한 대규모 네트워크는 단순성 편향을 유발하는 구성 요소를 통합함으로써 오버피팅을 피하며, 모델을 단순하고 일반화 가능한 해결책으로 이끌어줍니다. 그러나, 딥 강화 학습 분야에서 네트워크의 설계와 확장은 덜 탐구되어 왔습니다. 이러한 기회를 바탕으로, 본 연구에서는 단순성 편향을 주입하여 딥 강화 학습에서 매개변수 규모를 확장하는 SimBa 아키텍처를 제안합니다. SimBa는 세 가지 구성 요소로 구성되어 있습니다: (i) 입력을 실행 중인 통계로 표준화하는 관측 정규화 계층, (ii) 입력부터 출력까지 선형 경로를 제공하는 잔차 피드포워드 블록, (iii) 특성 크기를 제어하기 위한 레이어 정규화. SimBa를 사용하여 매개변수를 확장함으로써, 오프-폴리시, 온-폴리시 및 비지도 학습 방법을 포함한 다양한 딥 강화 학습 알고리즘의 샘플 효율성이 일관되게 향상됩니다. 더불어, SAC(Soft Actor-Critic)에 SimBa 아키텍처를 통합함으로써, DMC, MyoSuite 및 HumanoidBench를 통해 고성능의 딥 강화 학습 방법과 일치하거나 뛰어넘는 상태를 달성하며 높은 계산 효율성을 보여줍니다. 이러한 결과는 SimBa의 다양한 강화 학습 알고리즘과 환경에 대한 광범위한 적용 가능성과 효과를 입증합니다.
다양하고 동적인 환경에서 운영되는 다목적 로봇 시스템에 대한 수요의 증가는 대체로 크로스 에모디먼트 데이터 코퍼스를 활용하여 넓은 적응성과 고수준 추론을 용이하게 하는 일반주의 정책의 중요성을 강조했습니다. 그러나 일반주의자는 비효율적 추론과 비용 소모적인 훈련에 어려움을 겪을 것입니다. 특화 정책은 특정 도메인 데이터를 위해 선별되어 작성되었으며 작업 수준의 정밀성과 효율성에서 뛰어납니다. 그러나 넓은 응용 범위에 대한 일반화 능력이 부족합니다. 이러한 관찰을 바탕으로 우리는 일반주의자와 특화 정책의 장점을 보완하는 상호 작용적 이중 시스템인 RoboDual을 소개합니다. 확산 트랜스포머 기반의 특화 정책은 다단계 액션 롤아웃을 위해 설계되었으며, 고수준 작업 이해와 시각-언어-액션(VLA) 기반의 이산화된 액션 출력에 민감하게 조건화됩니다. OpenVLA와 비교하여 RoboDual은 특화 정책을 도입함으로써 실제 환경에서 26.7%의 성능 향상과 CALVIN에서 12%의 이득을 얻습니다. 이는 단지 20M 개의 훈련 가능한 매개변수로 달성됩니다. RoboDual은 데모 데이터의 5%만 사용하여 강력한 성능을 유지하며, 실제 환경 배치에서 3.8배 더 높은 제어 주파수를 가능하게 합니다. 코드는 공개적으로 제공될 예정입니다. 저희 프로젝트 페이지는 다음에서 호스팅됩니다: https://opendrivelab.com/RoboDual/
상호 강화 효과(Mutual Reinforcement Effect, MRE)는 텍스트 분류 작업에서 단어 수준 및 텍스트 수준 분류 간의 상호 작용적 관계를 조사합니다. 이는 두 분류 수준의 성능이 상호적으로 향상될 수 있다는 주장을 합니다. 그러나 이 메커니즘은 이전 연구에서 충분히 입증되거나 설명되지 않았습니다. 이 간극을 해결하기 위해 우리는 MRE 이론을 관찰하고 입증하기 위해 경험적 실험을 사용합니다. 21개의 MRE 혼합 데이터셋에 대한 우리의 실험에서는 모델 내에 MRE의 존재와 그 영향을 밝혔습니다. 구체적으로, 우리는 fine-tune을 사용한 비교 실험을 실시했습니다. 비교 실험 결과 발견된 결과는 MRE의 존재를 확증합니다. 더 나아가, 우리는 MRE의 적용을 확장하여 텍스트 수준 분류 레이블의 모델 예측을 강화하기 위해 단어 수준 정보를 언어화기로 활용하는 프롬프트 학습에 적용했습니다. 최종 실험에서 F1 점수는 21개의 MRE 혼합 데이터셋 중 18개에서 기준선을 크게 능가하여, 단어 수준 정보가 언어 모델이 텍스트 전체를 이해하는 데 도움이 되는 것을 더욱 확증했습니다.
최근의 접근 방식은 SAM과 같은 강력한 대화형 분할 모델을 대화형 매팅에 적용하고, 합성 매팅 데이터셋을 기반으로 모델을 세밀하게 조정하는 시도를 하고 있다. 그러나 합성 데이터로 훈련된 모델은 복잡하고 가려진 장면에 대한 일반화에 실패한다. 우리는 이 도전에 대처하기 위해 COCO 데이터셋을 기반으로 한 새로운 매팅 데이터셋, 즉 COCO-Matting을 제안함으로써 이 문제를 해결한다. 구체적으로, 우리의 COCO-Matting 구성에는 부속품 퓨전과 마스크-투-매팅이 포함되어 있으며, 이는 COCO에서 실제 복잡한 이미지를 선택하고 시맨틱 분할 마스크를 매팅 레이블로 변환한다. 구축된 COCO-Matting은 복잡한 자연 환경에서의 38,251개의 인스턴스 수준 알파 매팅을 포함한 방대한 컬렉션으로 구성된다. 더 나아가, 기존의 SAM 기반 매팅 방법은 얼어 붙은 SAM에서 중간 기능과 마스크를 추출하고, 엔드-투-엔드 매팅 손실에 의해 가벼운 매팅 디코더만 훈련한다. 이는 사전 훈련된 SAM의 잠재력을 완전히 활용하지 못한다. 따라서 우리는 SEMat을 제안하여 네트워크 아키텍처와 훈련 목표를 혁신한다. 네트워크 아키텍처에서 제안된 특징 정렬 트랜스포머는 세밀한 가장자리와 투명도 특징을 추출하는 방법을 학습한다. 제안된 매팅 정렬 디코더는 매팅 특정 객체를 분할하고, 굵은 마스크를 고정밀 매팅으로 변환한다. 훈련 목표에서 제안된 정규화 및 트리맵 손실은 사전 훈련된 모델에서의 사전 정보를 유지하고, 마스크 디코더에서 추출된 매팅 로짓에 트리맵 기반의 시맨틱 정보를 포함하도록 한다. 일곱 가지 다양한 데이터셋을 통한 방대한 실험은 우리의 방법의 우수한 성능을 입증하며, 대화형 자연 이미지 매팅에서의 효과를 보여준다. 우리는 https://github.com/XiaRho/SEMat에서 코드, 모델 및 데이터셋을 오픈 소스로 제공한다.
대규모 다중 모달 컬렉션에서 정보를 효율적으로 검색하고 종합하는 것은 중요한 과제가 되었습니다. 그러나 기존의 비디오 검색 데이터셋은 범위 제한으로 고통받고 있으며, 주로 설명적이지만 모호한 쿼리와 소규모의 전문적으로 편집된 영어 중심 비디오 컬렉션을 대상으로 합니다. 이러한 공백을 해결하기 위해 우리는 218,000개 이상의 뉴스 비디오와 3,906개의 특정 세계 이벤트를 대상으로 하는 쿼리를 특징으로 하는 대규모, 다국어 이벤트 중심 비디오 검색 벤치마크인 MultiVENT 2.0을 소개합니다. 이러한 쿼리는 비디오의 시각적 콘텐츠, 오디오, 포함된 텍스트 및 텍스트 메타데이터에서 찾을 수 있는 정보를 명확히 목표로 합니다. 시스템이 이 작업을 성공적으로 수행하려면 이러한 소스 모두를 활용해야 합니다. 예비 결과는 최첨단 비전-언어 모델이 이 작업에 심각하게 어려움을 겪는 것을 보여주며, 대안적 접근 방식이 희망을 보이지만 여전히 이 문제를 충분히 해결하기에는 부족하다는 것을 보여줍니다. 이러한 발견은 더 견고한 다중 모달 검색 시스템이 필요하다는 점을 강조하며, 효과적인 비디오 검색은 다중 모달 콘텐츠 이해 및 생성 작업을 위한 중요한 단계임을 재확인합니다.