번역이 포함된 일일 선별된 AI 연구 논문
우리는 다양한 컴퓨터 비전 및 비전-언어 작업을 위한 통합된 프롬프트 기반 표현을 갖춘 새로운 비전 기반 모델인 Florence-2를 소개한다. 기존의 대형 비전 모델들은 전이 학습에서는 뛰어난 성능을 보이지만, 다양한 공간 계층 구조와 의미론적 세분성을 다루는 능력을 의미하는 간단한 지시로 다양한 작업을 수행하는 데는 어려움을 겪는다. Florence-2는 텍스트 프롬프트를 작업 지시로 받아 캡션 생성, 객체 탐지, 그라운딩 또는 세그멘테이션과 같은 텍스트 형태의 결과를 생성하도록 설계되었다. 이러한 다중 작업 학습 설정은 대규모의 고품질 주석 데이터를 요구한다. 이를 위해 우리는 자동화된 이미지 주석과 모델 개선의 반복 전략을 사용하여 1억 2,600만 개의 이미지에 대한 54억 개의 포괄적인 시각 주석으로 구성된 FLD-5B를 공동 개발하였다. 우리는 Florence-2를 다양한 포괄적인 비전 작업을 수행하도록 훈련시키기 위해 시퀀스-투-시퀀스 구조를 채택하였다. 다양한 작업에 대한 광범위한 평가를 통해 Florence-2가 전례 없는 제로샷 및 미세 조정 능력을 갖춘 강력한 비전 기반 모델 후보임을 입증하였다.
개방형 세계에서 다중 모달 관측을 통해 인간과 유사한 계획 및 제어를 달성하는 것은 보다 기능적인 일반 지능 에이전트를 위한 핵심 이정표이다. 기존 접근법들은 개방형 세계에서 특정 장기적 과제를 처리할 수 있지만, 개방형 세계의 과제 수가 무한할 가능성이 있는 경우에는 여전히 어려움을 겪으며, 게임 시간이 진행됨에 따라 과제 완료를 점진적으로 향상시키는 능력이 부족하다. 본 연구에서는 인기 있으면서도 도전적인 개방형 세계인 마인크래프트(Minecraft) 유니버스 내에서 다중 모달 입력(시각적 관측 및 인간의 지시)을 인지하고, 정교한 계획을 생성하며, 구체화된 제어를 수행할 수 있는 개방형 세계 에이전트 JARVIS-1을 소개한다. 구체적으로, 우리는 시각적 관측과 텍스트 지시를 계획으로 매핑하는 사전 훈련된 다중 모달 언어 모델 위에 JARVIS-1을 개발하였다. 이 계획은 궁극적으로 목표 조건 제어기에 전달된다. 우리는 JARVIS-1에 사전 훈련된 지식과 실제 게임 생존 경험을 모두 활용하여 계획을 수립할 수 있는 다중 모달 메모리를 장착하였다. 실험에서 JARVIS-1은 마인크래프트 유니버스 벤치마크의 초급부터 중급 수준에 이르는 200개 이상의 다양한 과제에서 거의 완벽한 성능을 보였다. JARVIS-1은 장기적 과제인 다이아몬드 곡괭이 제작 과제에서 12.5%의 완료율을 달성했으며, 이는 이전 기록에 비해 최대 5배 증가한 수치이다. 또한, 우리는 JARVIS-1이 다중 모달 메모리 덕분에 평생 학습 패러다임을 통해 자기 개선이 가능하며, 보다 일반적인 지능과 향상된 자율성을 발휘할 수 있음을 보여준다. 프로젝트 페이지는 https://craftjarvis-jarvis1.github.io에서 확인할 수 있다.
텍스트에서 3D를 생성하는 디퓨전 모델은 최근 몇 년 동안 놀라운 발전을 이루었습니다. 그러나 기존 방법들은 느린 추론 속도, 낮은 다양성, 그리고 야누스 문제를 겪는 점수 증류 기반 최적화에 의존하거나, 3D 학습 데이터의 부족으로 인해 저품질의 결과를 생성하는 피드포워드 방식을 사용합니다. 본 논문에서는 텍스트 프롬프트로부터 고품질이고 다양한 3D 자산을 피드포워드 방식으로 생성하는 새로운 방법인 Instant3D를 제안합니다. 우리는 두 단계의 패러다임을 채택하여, 먼저 미세 조정된 2D 텍스트-이미지 디퓨전 모델을 사용해 텍스트로부터 일관된 구조를 가진 네 개의 희소 뷰를 한 번에 생성하고, 이후 새로운 트랜스포머 기반 희소 뷰 재구성기를 통해 생성된 이미지에서 직접 NeRF를 회귀합니다. 광범위한 실험을 통해 우리의 방법이 20초 이내에 고품질, 다양성, 그리고 야누스 문제가 없는 3D 자산을 생성할 수 있음을 입증했습니다. 이는 1~10시간이 소요되는 기존의 최적화 기반 방법보다 두 배 이상 빠른 속도입니다. 프로젝트 웹페이지: https://jiahao.ai/instant3d/.
우리는 통합 데이터 형식과 오픈소스 대형 언어 모델(LLM) 기반의 모듈식 아키텍처를 활용하여 언어 에이전트를 훈련하기 위한 새로운 프레임워크인 Lumos를 소개합니다. Lumos는 계획(planning), 구체화(grounding), 실행(execution)이라는 세 가지 독립적인 모듈로 구성됩니다. 계획 모듈은 작업을 도구에 구애받지 않는 고수준의 하위 목표로 분해하며, 구체화 모듈은 이를 저수준의 구체적인 행동으로 변환합니다. 이러한 행동은 실행 모듈에 의해 다양한 오프더셸프 도구와 API를 활용하여 실행됩니다. 이러한 모듈을 효과적으로 훈련하기 위해, 복잡한 질문 응답, 웹 작업, 수학 문제와 같은 다양한 작업을 위해 하위 목표와 행동에 대한 고품질 주석 데이터를 수집하고 이를 오픈소스 LLM의 미세 조정에 활용할 수 있도록 공개했습니다. 이 통합 데이터와 모듈식 설계를 바탕으로 Lumos는 현재 최첨단 에이전트와 비교하여 동등하거나 더 우수한 성능을 달성할 뿐만 아니라 다음과 같은 주요 장점을 보여줍니다: (1) Lumos는 복잡한 질문 응답과 웹 작업에서 GPT-4/3.5 기반 에이전트를 능가하며, 수학 작업에서는 훨씬 더 큰 LLM 에이전트와 동등한 성능을 보입니다; (2) Lumos는 기존의 전통적인 훈련 방법이나 사고 연쇄(chain-of-thoughts) 훈련을 통해 생성된 오픈소스 에이전트를 능가합니다; (3) Lumos는 보지 않은 인터랙티브 작업에 효과적으로 일반화할 수 있으며, 더 큰 LLM 기반 에이전트를 능가하고 심지어 특수 목적 에이전트의 성능을 초과합니다.
대형 언어 모델(LLMs)은 자연어 처리(NLP) 및 그 이상의 다양한 작업에서 뛰어난 성능을 보이지만, 대부분의 오픈 모델은 소규모 언어에 대한 커버리지가 매우 제한적이며, LLM 연구는 사전 학습을 위해 거의 무제한의 데이터가 사용 가능한 언어에 집중되는 경향이 있습니다. 본 연구에서는 세계 인구의 0.1% 미만이 사용하는 핀란드어를 위한 LLM을 생성하는 데 따른 도전 과제를 탐구합니다. 우리는 웹 크롤링, 뉴스, 소셜 미디어 및 전자책을 결합한 핀란드어의 광범위한 데이터셋을 구축했습니다. 모델 사전 학습을 위해 두 가지 접근 방식을 취했습니다: 1) FinGPT라는 이름의 186M에서 13B 파라미터 규모의 일곱 개의 단일 언어 모델을 처음부터 학습시키고, 2) 다국어 BLOOM 모델의 사전 학습을 원래의 학습 데이터와 핀란드어 데이터를 혼합하여 계속 진행하여 1760억 파라미터 규모의 BLUUMI 모델을 생성했습니다. 모델 평가를 위해 핀란드어 작업을 포함한 BIG-bench 버전인 FIN-bench를 도입했습니다. 또한 독성과 편향성과 같은 다른 모델 품질도 평가했습니다. 우리의 모델과 도구는 https://turkunlp.org/gpt3-finnish에서 공개적으로 이용 가능합니다.
프롬프트 엔지니어링은 대규모 언어 모델(LLM)의 성능을 최적화하기 위해 도전적이면서도 중요한 과제이다. 이는 모델의 오류를 분석하고, 현재 프롬프트에서 누락되거나 오해의 소지가 있는 부분을 가설화하며, 작업을 명확하게 전달하기 위한 복잡한 추론을 요구한다. 최근 연구들은 LLM이 메타 프롬프트를 통해 자동 프롬프트 엔지니어링을 수행할 수 있음을 보여주지만, 메타 프롬프트 내에서 복잡한 추론 능력을 이끌어내기 위한 충분한 지침이 부족하여 그 잠재력이 완전히 발휘되지 못할 수 있다. 본 연구에서는 "프롬프트 엔지니어를 위한 프롬프트 엔지니어링" 문제를 탐구한다. 즉, LLM이 자동 프롬프트 엔지니어링을 더 효과적으로 수행하도록 안내하는 메타 프롬프트를 구성하는 것이다. 우리는 단계별 추론 템플릿 및 컨텍스트 명세와 같은 핵심 구성 요소를 소개하고 분석하며, 이를 통해 성능이 개선되는 것을 확인한다. 또한, 배치 크기, 스텝 크기, 모멘텀과 같은 일반적인 최적화 개념에서 영감을 받아 이들의 언어화된 대응물을 메타 프롬프트에 도입하고 그 효과를 조사한다. 우리의 최종 방법인 PE2는 MultiArith 데이터셋에서 "단계별로 생각해보자"보다 6.3%, GSM8K 데이터셋에서 3.1% 더 우수한 프롬프트를 찾아낸다. PE2의 다용성을 입증하기 위해, 우리는 Instruction Induction 벤치마크, 일련의 반사실적 작업, 그리고 길고 실질적인 산업용 프롬프트에 PE2를 적용한다. 이러한 설정에서 PE2는 강력한 성능을 보이며, 기존의 자동 프롬프트 엔지니어링 기준선을 능가한다. 더 나아가, PE2가 의미 있고 목표 지향적인 프롬프트 수정을 수행하고, 오류가 있거나 불완전한 프롬프트를 수정하며, 비범한 반사실적 추론 능력을 보여준다는 것을 입증한다.
논리적 추론은 인간 지능의 근본적인 측면이며 문제 해결 및 의사결정과 같은 작업의 핵심 요소이다. 최근의 발전으로 대형 언어 모델(LLMs)이 잠재적으로 추론 능력을 보일 수 있게 되었지만, 복잡한 논리적 추론은 여전히 과제로 남아 있다. 최신 기술인 솔버-보강 언어 모델은 LLMs를 사용하여 자연어로 된 논리적 질문을 먼저 기호 표현으로 파싱한 후, 외부 논리 솔버가 기호 표현을 입력받아 답을 출력하도록 한다. 이러한 모델은 인상적인 성능을 보이지만, 파싱 오류가 발생하면 외부 논리 솔버의 실행이 실패하고 논리적 질문에 대한 답을 얻을 수 없게 된다. 본 논문에서는 논리 솔버의 추론 과정을 직접 모방하고 솔버의 구문과 문법을 엄격히 준수함으로써 파싱 오류를 우회하는 새로운 언어 모델인 LoGiPT를 소개한다. LoGiPT는 연역적 솔버의 보이지 않는 추론 과정을 드러내고 정제하여 새롭게 구축한 지시 튜닝 데이터셋을 기반으로 미세 조정되었다. 두 개의 공개된 연역적 추론 데이터셋에 대한 실험 결과는 LoGiPT가 ChatGPT나 GPT-4와 같은 경쟁력 있는 LLMs의 최신 솔버-보강 언어 모델 및 소수 샷 프롬프팅 방법을 능가함을 보여준다.
대형 파운데이션 모델은 점점 보편화되고 있지만, 이를 처음부터 학습시키는 것은 엄청난 비용이 듭니다. 따라서 이러한 강력한 모델을 다운스트림 작업에 효율적으로 적응시키는 것이 점점 더 중요해지고 있습니다. 본 논문에서는 다운스트림 작업 적응을 위한 원칙적인 파인튜닝 패러다임인 Orthogonal Finetuning(OFT)을 연구합니다. OFT는 우수한 일반화 능력을 보여주지만, 직교 행렬의 높은 차원성으로 인해 상당히 많은 수의 학습 가능한 파라미터를 사용합니다. 이를 해결하기 위해, 우리는 먼저 정보 전송 관점에서 OFT를 검토한 후, 더 나은 파라미터 효율성을 가능하게 하는 몇 가지 핵심 요구 사항을 식별합니다. Cooley-Tukey 고속 푸리에 변환 알고리즘이 효율적인 정보 전송을 가능하게 하는 방식에서 영감을 받아, 우리는 버터플라이 구조를 사용한 효율적인 직교 파라미터화를 제안합니다. 이 파라미터화를 OFT에 적용하여, Orthogonal Butterfly(BOFT)라는 새로운 파라미터 효율적 파인튜닝 방법을 창안합니다. BOFT는 OFT를 특수한 경우로 포함함으로써, 일반화된 직교 파인튜닝 프레임워크를 소개합니다. 마지막으로, 우리는 대형 비전 트랜스포머, 대형 언어 모델, 그리고 텍스트-이미지 확산 모델을 비전 및 언어 분야의 다양한 다운스트림 작업에 적응시키는 광범위한 실험 연구를 수행합니다.
긴 필터를 가진 컨볼루션 모델은 많은 장기 시퀀스 작업에서 최첨단 추론 능력을 보여주었지만, 실제 실행 시간 측면에서는 최적화된 트랜스포머 모델에 뒤처져 있습니다. 주요 병목 현상은 고속 푸리에 변환(FFT)에 있습니다. FFT는 긴 컨볼루션을 시퀀스 길이 N에 대해 O(N logN) 시간에 실행할 수 있게 하지만, 하드웨어 활용도가 낮습니다. 본 논문에서는 FFT 컨볼루션을 최적화하는 방법을 연구합니다. 우리는 두 가지 주요 병목 현상을 발견했습니다: FFT는 전용 행렬 곱셈 유닛을 효과적으로 사용하지 못하며, 메모리 계층 간에 비용이 많이 드는 I/O를 발생시킵니다. 이를 해결하기 위해 FlashFFTConv를 제안합니다. FlashFFTConv는 행렬 분해를 사용하여 FFT를 행렬 곱셈 유닛으로 계산하고, 긴 시퀀스에 대한 커널 퓨전을 가능하게 하여 I/O를 줄입니다. 또한 두 가지 희소 컨볼루션 알고리즘을 제시합니다: 1) 부분 컨볼루션과 2) 주파수 희소 컨볼루션. 이 알고리즘들은 행렬 분해에서 블록을 건너뛰는 방식으로 간단히 구현할 수 있어, 메모리와 계산 비용을 더욱 절약할 수 있습니다. FlashFFTConv는 PyTorch 대비 정확한 FFT 컨볼루션을 최대 7.93배 빠르게 수행하며, 종단 간 최대 4.4배의 속도 향상을 달성합니다. 동일한 계산 예산 내에서 FlashFFTConv는 Hyena-GPT-s가 PILE 데이터셋에서 2.3점 더 나은 퍼플렉서티를 달성하고, M2-BERT-base가 GLUE 점수에서 3.3점 더 높은 성적을 거두도록 하여, 매개변수 수가 두 배인 모델과 동등한 성능을 보입니다. 또한 FlashFFTConv는 고해상도 비전 작업인 Path-512에서 96.1%의 정확도를 달성했는데, 이는 이전에 어떤 모델도 50%를 넘지 못했던 작업입니다. 더 나아가, 부분 컨볼루션은 더 긴 시퀀스 모델을 가능하게 하여, 가장 긴 인간 유전자(230만 염기쌍)를 처리할 수 있는 첫 번째 DNA 모델을 구현했으며, 주파수 희소 컨볼루션은 사전 훈련된 모델의 속도를 높이면서 모델 품질을 유지하거나 개선합니다.
대형 언어 모델(LLMs)은 계획 수립과 환경 적응이 필요한 인터랙티브 의사결정 작업에 점점 더 많이 활용되고 있다. 최근 연구에서는 LLMs를 에이전트로 활용하는 방식을 크게 두 가지로 구분한다: 반복적으로 다음 행동을 결정하는 방식(반복 실행자) 또는 LLMs를 사용하여 계획을 생성하고 하위 작업을 실행하는 방식(계획 후 실행). 그러나 이러한 방법들은 작업 복잡성에 대처하기 어려운데, 이는 어떤 하위 작업도 실행하지 못할 경우 작업 실패로 이어질 수 있기 때문이다. 이러한 단점을 해결하기 위해, 우리는 복잡한 작업을 필요에 따라 분해하고 계획하는 접근법인 As-Needed Decomposition and Planning for complex Tasks(ADaPT)를 제안한다. ADaPT는 LLM이 하위 작업을 실행할 수 없을 때 명시적으로 복잡한 하위 작업을 분해하고 계획한다. ADaPT는 작업 복잡성과 LLM의 능력에 적응하기 위해 하위 작업을 재귀적으로 분해한다. 우리의 실험 결과는 ADaPT가 기존의 강력한 베이스라인을 크게 능가하며, ALFWorld에서 최대 28.3%, WebShop에서 27%, 그리고 우리가 새로 소개한 구성적 데이터셋인 TextCraft에서 33% 더 높은 성공률을 달성함을 보여준다. 광범위한 분석을 통해, 우리는 다단계 분해의 중요성을 설명하고 ADaPT가 실행자 LLM의 능력과 작업 복잡성에 동적으로 적응함을 입증한다.
멀티모달 학습의 주요 과제 중 하나는 이질적인 모달리티(예: 비디오, 오디오, 텍스트)를 결합해야 한다는 점이다. 예를 들어, 비디오와 오디오는 텍스트보다 훨씬 높은 속도로 획득되며 시간적으로 대략적으로 정렬된다. 이들은 종종 제목이나 설명과 같은 전역 컨텍스트로 제공되는 텍스트와 동기화되지 않는다. 또한, 비디오와 오디오 입력은 훨씬 더 큰 용량을 가지며 비디오 길이가 증가함에 따라 그 크기도 커지는데, 이는 자연스럽게 이러한 모달리티에 더 많은 계산 자원을 할당해야 하며 장기간의 의존성을 모델링하기 어렵게 만든다. 여기서 우리는 멀티모달 모델링을 분리하여 각 모달리티의 특성에 따라 입력을 처리하는 별도의 자율회귀 모델로 나눈다. 우리는 Mirasol3B라는 멀티모달 모델을 제안하는데, 이 모델은 시간적으로 동기화된 모달리티(오디오와 비디오)를 위한 자율회귀 구성 요소와 시간적으로 반드시 정렬되지는 않지만 여전히 순차적인 컨텍스트 모달리티를 위한 자율회귀 구성 요소로 구성된다. 비디오-오디오 입력의 긴 시퀀스를 해결하기 위해, 우리는 비디오와 오디오 시퀀스를 연속적인 스니펫으로 더 분할하고 그 표현을 자율회귀적으로 처리할 것을 제안한다. 이를 위해, 우리는 특정 시간 프레임 내에서 오디오-비디오 정보를 공동으로 모델링하는 Combiner 메커니즘을 제안한다. Combiner는 원시 시공간 신호에서 오디오와 비디오 특징을 추출하는 방법을 학습한 다음, 이러한 특징을 융합하여 스니펫당 간결하지만 표현력 있는 표현을 생성하는 방법을 학습한다. 우리의 접근 방식은 잘 확립된 멀티모달 벤치마크에서 최첨단 성능을 달성하며, 훨씬 더 큰 모델을 능가한다. 이는 미디어 입력의 높은 계산 요구를 효과적으로 해결하는데, 이는 간결한 표현을 학습하고, 오디오-비디오 특징 표현의 시퀀스 길이를 제어하며, 시간적 의존성을 모델링함으로써 이루어진다.
특성 상호작용 학습은 추천 시스템 구축의 핵심 기반이다. 웹 규모 애플리케이션에서는 희소하고 거대한 입력 특성 공간으로 인해 특성 상호작용 학습이 매우 어려우며, 동시에 지수적으로 증가하는 해결 공간 때문에 효과적인 특성 상호작용을 수동으로 설계하는 것은 불가능하다. 우리는 어텐션 레이어를 갖춘 Transformer 기반 아키텍처를 활용하여 특성 상호작용을 자동으로 포착하는 방법을 제안한다. Transformer 아키텍처는 자연어 처리 및 컴퓨터 비전과 같은 여러 분야에서 큰 성공을 거두었다. 그러나 산업 현장에서는 특성 상호작용 모델링을 위해 Transformer 아키텍처를 채택한 사례가 많지 않다. 우리는 이러한 격차를 해소하고자 한다. 우리는 웹 규모 추천 시스템에 기본 Transformer 아키텍처를 적용하는 데 있어 두 가지 주요 과제를 확인했다: (1) Transformer 아키텍처는 자기 어텐션 레이어에서 이질적인 특성 상호작용을 포착하지 못한다; (2) Transformer 아키텍처의 서빙 지연 시간이 웹 규모 추천 시스템에 배포하기에는 너무 높을 수 있다. 우리는 먼저 이질적인 자기 어텐션 레이어를 제안하는데, 이는 Transformer의 자기 어텐션 레이어를 단순하지만 효과적으로 수정하여 특성 상호작용의 이질성을 고려한 것이다. 그런 다음, 모델 표현력을 더욱 향상시키기 위해 Hiformer(Heterogeneous Interaction Transformer)를 소개한다. 저랭크 근사 및 모델 가지치기를 통해 Hiformer는 온라인 배포를 위한 빠른 추론을 가능하게 한다. 광범위한 오프라인 실험 결과는 Hiformer 모델의 효과성과 효율성을 입증한다. 우리는 Hiformer 모델을 Google Play의 대규모 앱 순위 모델에 성공적으로 배포하여 주요 참여 지표에서 상당한 개선(최대 +2.66%)을 달성했다.
의미론적 분할(semantic segmentation), 깊이 추정(depth estimation), 표면 법선 예측(surface normal prediction)과 같은 조밀 예측(dense prediction) 작업은 픽셀 단위 분류(이산 출력) 또는 회귀(연속 출력)로 쉽게 공식화될 수 있습니다. 이 픽셀 단위 예측 패러다임은 완전 합성곱 네트워크(fully convolutional networks)의 보편화로 인해 여전히 널리 사용되고 있습니다. 그러나 최근 분할 작업의 최전선에서는, 특히 마스크 트랜스포머(mask transformers)와 같은 트랜스포머 아키텍처의 등장으로 인해 픽셀 단위 예측에서 클러스터 예측(cluster-prediction)으로의 패러다임 전환이 이루어지고 있습니다. 이러한 전환에도 불구하고, 깊이 추정 및 표면 법선 예측과 같이 연속 출력이 필요한 다른 조밀 예측 작업에서는 픽셀 단위 예측 패러다임을 기반으로 한 방법들이 여전히 벤치마크를 지배하고 있습니다. DORN과 AdaBins가 연속 출력 공간을 이산화함으로써 깊이 추정에서 성공을 거둔 것에 영감을 받아, 우리는 클러스터 예측 기반 방법을 일반적인 조밀 예측 작업으로 일반화하는 것을 제안합니다. 이를 통해 마스크 트랜스포머 프레임워크와 조밀 예측 작업을 통합할 수 있습니다. 특히, 결과적으로 얻은 모델인 PolyMaX는 NYUD-v2 데이터셋의 세 가지 벤치마크에서 최첨단 성능을 보여줍니다. 우리의 간단하지만 효과적인 설계가 더 많은 조밀 예측 작업에서 마스크 트랜스포머를 활용하는 연구에 영감을 줄 수 있기를 바랍니다. 코드와 모델은 공개될 예정입니다.
트랜스포머 모델은 최근 컴퓨터 비전 작업에서 널리 채택되고 있다. 그러나 입력 토큰 수에 비례하는 셀프 어텐션의 2차 시간 및 메모리 복잡도로 인해, 대부분의 기존 비전 트랜스포머(ViT)는 TensorRT 및 CoreML과 같은 실용적인 산업 배포 시나리오에서 효율적인 성능을 달성하는 데 어려움을 겪고 있으며, 이는 전통적인 CNN이 뛰어난 분야이다. 최근 일부 연구에서 이 문제를 해결하기 위해 CNN-트랜스포머 하이브리드 아키텍처를 설계하려는 시도가 있었지만, 전반적인 성능은 기대에 미치지 못했다. 이러한 문제를 해결하기 위해, 우리는 FMViT라는 효율적인 하이브리드 ViT 아키텍처를 제안한다. 이 접근 방식은 다양한 주파수를 가진 고주파 특징과 저주파 특징을 혼합하여 모델의 표현력을 향상시키고, 이를 통해 지역적 및 전역적 정보를 효과적으로 포착할 수 있도록 한다. 또한, Convolutional Multigroup Reparameterization(gMLP), Lightweight Multi-head Self-Attention(RLMHSA), Convolutional Fusion Block(CFB)와 같은 배포 친화적인 메커니즘을 도입하여 모델의 성능을 더욱 개선하고 계산 오버헤드를 줄였다. 우리의 실험 결과, FMViT는 다양한 비전 작업에서 기존 CNN, ViT, CNN-트랜스포머 하이브리드 아키텍처를 지연 시간/정확도 트레이드오프 측면에서 능가하는 것으로 나타났다. TensorRT 플랫폼에서 FMViT는 ImageNet 데이터셋에서 Resnet101보다 2.5% 더 높은 top-1 정확도(83.3% 대 80.8%)를 달성하면서도 유사한 추론 지연 시간을 유지했다. 또한, FMViT는 EfficientNet-B5와 비슷한 성능을 보이면서도 추론 속도가 43% 향상되었다. CoreML에서는 FMViT가 ImageNet 데이터셋에서 MobileOne보다 2.6% 더 높은 top-1 정확도(78.5% 대 75.9%)를 달성하면서도 MobileOne과 비슷한 추론 지연 시간을 보였다. 우리의 코드는 https://github.com/tany0699/FMViT에서 확인할 수 있다.