번역이 포함된 일일 선별된 AI 연구 논문
고품질 질감 맵은 현실적인 3D 자산 렌더링에 필수적이지만 대규모 데이터셋에서 직접적으로 텍스처 공간에서 학습하는 연구는 거의 없습니다. 본 연구에서는 3D 텍스처의 시험 시간 최적화를 위해 사전 훈련된 2D 확산 모델에 의존하는 관행적 접근에서 벗어나 텍스처 공간 자체에서의 학습이라는 근본적인 문제에 초점을 맞춥니다. 우리는 처음으로 대규모 확산 모델을 훈련하여 피드포워드 방식으로 고해상도 텍스처 맵을 직접 생성할 수 있도록 합니다. 고해상도 UV 공간에서 효율적인 학습을 돕기 위해 점군에 대한 어텐션 레이어와 UV 맵에 대한 합성곱을 교차하는 확장 가능한 네트워크 아키텍처를 제안합니다. 이 아키텍처 디자인을 활용하여 텍스트 프롬프트와 단일 뷰 이미지에 따라 유도된 UV 텍스처 맵을 생성할 수 있는 7억 개의 파라미터 확산 모델을 훈련합니다. 훈련된 후에는 우리 모델이 텍스트로 안내되는 텍스처 인페인팅, 희소한 뷰 텍스처 완성, 텍스트 기반 텍스처 합성을 포함한 다양한 응용 프로그램을 자연스럽게 지원합니다. 프로젝트 페이지는 http://cvmi-lab.github.io/TEXGen/에서 확인할 수 있습니다.
주체 주도 이미지 인페인팅은 확산 모델의 최근 발전과 함께 이미지 편집에서 인기 있는 작업으로 부상했다. 이전 방법들은 주로 정체성 보존에 초점을 맞추었지만 삽입된 객체의 편집 가능성을 유지하는 데 어려움을 겪었다. 이에 본 논문에서는 주어진 장면에 대상 객체를 사용자가 지정한 위치에 삽입하면서 동시에 그 속성에 대한 임의의 텍스트 기반 수정을 가능하게 하는 DreamMix를 소개한다. 특히, 우리는 고급 기반 인페인팅 모델을 활용하고 정확한 지역 객체 삽입과 효과적인 전역 시각 일관성을 균형 있게 유지하기 위해 이산화된 지역-전역 인페인팅 프레임워크를 도입한다. 게다가, 우리는 속성 분리 메커니즘(ADM)과 텍스트 기반 속성 대체(TAS) 모듈을 제안하여 텍스트 기반 속성 가이드의 다양성과 식별 능력을 향상시킨다. 광범위한 실험 결과 DreamMix가 객체 삽입, 속성 편집 및 작은 객체 인페인팅을 포함한 다양한 응용 시나리오에서 효과적으로 정체성 보존과 속성 편집 가능성을 균형 있게 유지함을 입증한다. 우리의 코드는 https://github.com/mycfhs/DreamMix에서 공개되어 있다.
트랜스포머 기반 대형 언어 모델(LLMs)에 대한 추론은 자기 주의 메커니즘의 이차 복잡성으로 인해 비용이 많이 들고 느립니다. 본 연구에서는 Star Attention을 소개합니다. 이는 여러 호스트에 걸쳐 어텐션을 분할하여 통신 오버헤드를 최소화하면서 계산 효율성을 향상시키는 두 단계의 블록-희소 근사법입니다. 첫 번째 단계에서는 컨텍스트가 병렬로 호스트 간 블록별 로컬 어텐션을 사용하여 처리됩니다. 두 번째 단계에서는 쿼리 및 응답 토큰이 모든 이전 캐시된 토큰에 대해 시퀀스-전역 어텐션을 통해 참여합니다. Star Attention은 대부분의 글로벌 어텐션으로 훈련된 트랜스포머 기반 LLMs와 원활하게 통합되며, 메모리 요구 사항을 줄이고 정확도를 95-100% 유지하면서 추론 시간을 최대 11배 단축시킵니다.
그래픽 사용자 인터페이스(GUI) 어시스턴트를 구축하는 것은 인간의 작업 효율성을 향상시키는 데 상당한 잠재력을 가지고 있습니다. 대부분의 에이전트는 언어 기반이며, 텍스트 풍부한 메타 정보(예: HTML 또는 접근성 트리)를 사용하는 폐쇄된 소스 API에 의존하고 있지만, 이러한 에이전트들은 인간이 하는 것처럼 UI 시각을 인식하는 데 제한이 있어 GUI 시각 에이전트의 필요성을 강조합니다. 본 연구에서는 디지턈 세계에서 비전-언어-행동 모델인 ShowUI를 개발하였으며, 다음과 같은 혁신을 특징으로 합니다: (i) UI-가이드된 시각 토큰 선택은 스크린샷을 UI 연결 그래프로 공식화하여 계산 비용을 줄이고, 자가 주의 블록 중 토큰 선택의 기준으로 작용하는 중복 관계를 적응적으로 식별함; (ii) 시각-언어-행동 스트리밍을 교차로 통합하여 GUI 작업 내에서 다양한 요구 사항을 유연하게 처리하며, 네비게이션에서 시각-행동 이력을 효과적으로 관리하거나 스크린샷 당 멀티턴 쿼리-행동 시퀀스를 결합하여 교육 효율성을 향상시킵니다; (iii) 소규모 고품질 GUI 지시어 따르기 데이터셋은 신중한 데이터 선별과 데이터 유형 불균형을 해결하기 위한 재표본화 전략을 활용합니다. 위 구성 요소로 구성된 ShowUI는 256K 데이터를 사용하는 가벼운 2B 모델로, 제로샷 스크린샷 그라운딩에서 강력한 75.1% 정확도를 달성합니다. UI-가이드된 토큰 선택은 교육 중 33%의 중복 시각 토큰을 줄이고 성능을 1.4배 높입니다. 웹 Mind2Web, 모바일 AITW 및 온라인 MiniWob 환경을 통해 수행된 네비게이션 실험은 우리 모델의 효과성과 잠재력을 더욱 강조합니다. 해당 모델은 https://github.com/showlab/ShowUI에서 사용할 수 있습니다.
이미지 확산 모델에 의해 주도되는 이미지 편집의 최근 발전은 현저한 진전을 보여주고 있다. 그러나 이러한 모델은 종종 복잡한 편집 지시를 정확하게 따르기 어렵고, 원본 이미지의 주요 요소를 변경함으로써 충실성을 희생하는 문제가 남아있다. 동시에, 비디오 생성은 지속적이고 일관된 세계 시뮬레이터로 효과적으로 작동하는 모델들로 현저한 발전을 이루었다. 본 논문에서는 이미지 편집을 위해 이미지-비디오 모델을 활용하여 이 두 분야를 통합하는 것을 제안한다. 우리는 이미지 편집을 시간적 과정으로 재정의하고, 사전 훈련된 비디오 모델을 사용하여 원본 이미지에서 원하는 편집으로의 부드러운 전환을 만들어낸다. 이 접근 방식은 이미지 manifold를 연속적으로 횡단함으로써 일관된 편집을 보장하면서도 원본 이미지의 주요 측면을 보존한다. 우리의 방법은 텍스트 기반 이미지 편집에서 최첨단 결과를 달성하며, 편집 정확도와 이미지 보존 모두에서 상당한 개선을 시연하고 있다.
인공 일반 지능(AGI)의 주요 방향으로서, 다중 모달 대규모 언어 모델(MLLMs)은 산업과 학계 양쪽에서 증가된 관심을 받고 있습니다. 사전 훈련된 LLMs를 기반으로 구축된 이 모델군은 다중 모달 지각 및 추론 능력을 발전시켜, 흐름도를 바탕으로 코드를 작성하거나 이미지를 기반으로 이야기를 창작하는 등 인상적인 능력을 갖추고 있습니다. 개발 과정에서는 모델을 개선하기 위한 직관적인 피드백과 지침을 제공하는 평가가 중요합니다. 이미지 분류와 같은 단일 작업에만 유리한 전통적인 훈련-평가-테스트 패러다임과는 달리, MLLMs의 다양성은 다양한 새로운 벤치마크와 평가 방법의 등장을 촉발시켰습니다. 본 논문에서는 MLLM 평가의 포괄적인 조사를 제시하고, 다음 네 가지 측면을 논의합니다: 1) 평가 능력에 따라 요약된 벤치마크 유형, 기초 능력, 모델 자가 분석, 확장된 응용 프로그램을 포함하고; 2) 데이터 수집, 주석, 주의사항으로 이루어진 벤치마크 구축의 전형적인 과정; 3) 심사, 측정 항목, 도구로 이루어진 체계적인 평가 방식; 4) 다음 벤치마크에 대한 전망. 본 연구는 연구자들이 다양한 요구에 따라 MLLMs를 효과적으로 평가하는 방법을 쉽게 파악하고, 더 나은 평가 방법을 영감을 주어 MLLM 연구의 진전을 이끌기 위해 목표를 두고 있습니다.
무거운 다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)의 추론 가속화를 위해, 본 연구는 훈련 없이 토큰 축소 연구의 현재 상황을 재고하였습니다. 기존 방법의 중요 구성 요소들이 서로 깊게 얽혀 있어 비교, 이식 및 확장을 위한 상호 연결과 영향이 명확하지 않다는 점을 유감스럽게 인지했습니다. 따라서, 우리는 토큰 축소를 파이프라인 내에서 세 가지 명확한 단계로 분해하는 ''필터-상관-압축'' 통합 패러다임을 제안합니다. 이를 통해 일관된 설계 목표와 요소를 유지하면서도 독특한 구현이 가능합니다. 또한, 우리는 널리 알려진 작업들을 해부하고 우리의 패러다임에 편입시켜 보편성을 보여줍니다. 마지막으로, 추론의 다양한 단계에서 속도와 정확도 사이의 균형을 유지하며 우리의 패러다임에 기반한 방법 모음을 제시합니다. 10가지 벤치마크를 통한 실험 결과는 우리의 방법이 FLOP(FLoating-point Operations)에서 최대 82.4%의 감소를 달성할 수 있으며 성능에 미미한 영향을 미치면서 동시에 최첨단 훈련 없이 토큰 축소 방법을 능가한다는 것을 보여줍니다. 저희 프로젝트 페이지는 https://ficoco-accelerate.github.io/ 에서 확인하실 수 있습니다.
스케치는 아이디어를 외부에 표현하는 다재다능한 도구로 작용하여, 다양한 학문 분야에 걸쳐 빠른 탐구와 시각적 커뮤니케이션을 가능하게 합니다. 인공 시스템이 콘텐츠 생성과 인간-컴퓨터 상호작용에서 상당한 발전을 이끌어내었지만, 인간의 스케치의 동적이고 추상적인 성격을 포착하는 것은 여전히 어려운 과제입니다. 본 연구에서는 사용자가 동적 대화 상호작용을 통해 스케치를 만들고 수정하며 정제할 수 있는 언어 주도 순차적 스케치 생성 방법인 SketchAgent를 소개합니다. 저희 방법론은 훈련이나 세밀한 조정이 필요하지 않습니다. 대신, 우리는 순차적 성겱과 다양한 사전 지식을 활용하여 상용 멀티모달 대형 언어 모델(LLMs)을 사용합니다. 우리는 모델에 컨텍스트 예제를 통해 소개된 직관적인 스케치 언어를 제시하여, 이를 통해 문자열 기반 액션을 사용하여 "그릴" 수 있도록 합니다. 이러한 액션들은 벡터 그래픽으로 처리되어 픽셀 캔버스에 스케치를 만들기 위해 렌더링됩니다. 이후 추가 작업을 위해 다시 액세스할 수 있습니다. 저희 에이전트는 한 번에 한 번씩 스트로크를 그려가며, 스케치의 진화하는 동적 특성을 포착합니다. 우리는 SketchAgent가 다양한 프롬프트로부터 스케치를 생성하고, 대화 주도적 그리기를 수행하며, 인간 사용자와 의미 있는 협업을 할 수 있다는 것을 입증합니다.
저희는 저비트 양자화가 훈련이 충분히 이루어지지 않은 대규모 언어 모델(Large Language Models, LLMs)에 유리하다는 것을 밝혀냅니다. 더 큰 크기나 적은 훈련 토큰을 갖는 모델은 저비트 양자화를 적용할 때 양자화로 인한 저하(Quantization-Induced Degradation, QiD)가 적고, 훈련 토큰이 많은 작은 모델은 상당한 QiD를 겪습니다. 이러한 추세에 대해 더 심층적인 통찰을 얻기 위해 우리는 다양한 크기와 훈련 수준(훈련이 충분히 이루어지지 않은 경우 또는 완전히 훈련된 경우)의 1500개 이상의 양자화된 LLM 체크포인트를 연구하였습니다. 이를 통해 훈련 토큰 수, 모델 크기, 비트 폭과 같은 요소들과 QiD 간의 관계를 이해하기 위한 스케일링 법칙을 도출했습니다. 도출된 스케일링 법칙을 통해, LLM의 훈련 수준을 측정하고 다양한 크기의 LLM을 완전히 훈련시키기 위해 필요한 훈련 토큰 수를 결정하는 노벨한 관점을 제안합니다. 게다가, 우리는 스케일링 법칙을 사용하여 100조 개의 토큰으로 훈련된 다양한 크기의 LLM의 양자화 성능을 예측합니다. 우리의 예측에 따르면, 미래 모델의 저비트 양자화 성능은 100조 개 이상의 토큰으로 훈련될 것으로 예상되는 모델에 대해 바람직하지 않을 수 있습니다. 이는 미래의 저비트 양자화에 대한 잠재적인 도전을 제기하며, 저비트 양자화 연구를 평가할 때 모델의 훈련 수준을 인식하는 필요성을 강조합니다. 이 문제에 대한 미래 연구를 촉진하기 위해, 본 연구에서 사용된 1500개 이상의 양자화된 체크포인트를 모두 https://huggingface.co/Xu-Ouyang 에 공개합니다.
자기회귀 모델은 다양한 분야에서 높은 성공을 보여주었는데, 대형 언어 모델 (LLM)부터 대형 다중 모달 모델 (LMM) 및 2D 콘텐츠 생성에 이르기까지 다양한 분야에서 인공 일반 지능 (AGI)에 한 걸음 더 가까워졌습니다. 이러한 발전에도 불구하고, 3D 객체 생성 및 이해에 자기회귀 접근 방식을 적용하는 것은 아직 크게 탐구되지 않았습니다. 본 논문에서는 3D 객체를 위해 효율적인 자기회귀 생성과 상세한 이해를 위해 3D 객체를 토큰화하는 새로운 프레임워크인 Scale AutoRegressive 3D (SAR3D)를 소개합니다. SAR3D는 다음 단일 토큰이 아닌 다음 다단계 잠재 표현에서 다음 규모를 예측함으로써 생성 시간을 크게 줄이고, A6000 GPU에서 단 0.82초 만에 빠른 3D 객체 생성을 달성합니다. 또한, 계층적 3D-인식 정보로 풍부해진 토큰을 활용하여 사전 훈련된 LLM을 세밀하게 조정하여 3D 콘텐츠의 다중 모달 이해를 가능케 합니다. 실험 결과, SAR3D가 현재의 3D 생성 방법을 속도와 품질 양측에서 능가하며, LLM이 3D 모델을 종합적으로 해석하고 캡션을 달 수 있게 합니다.
비전-언어 생성 보상 모델(VL-GenRM)은 다중 모달 AI 시스템의 조정과 평가에 중요한 역할을 합니다. 그러나 그들 자체의 평가는 아직 충분히 탐구되지 않았습니다. 현재의 평가 방법은 주로 전통적인 VL 작업에서의 AI 주석화된 선호도 레이블에 의존하며, 이는 편향을 도입하고 최첨단 모델을 효과적으로 도전하지 못할 수 있습니다. 이러한 한계를 극복하기 위해 우리는 VL-RewardBench를 소개합니다. 이는 일반적인 다중 모달 쿼리, 시각 환각 탐지 및 복잡한 추론 작업을 포함한 포괄적인 벤치마크입니다. 샘플 선택과 인간 검증을 결합한 AI 지원 주석화 파이프라인을 통해 우리는 모델의 한계를 조사하기 위해 특별히 설계된 1,250개의 고품질 예제를 선별합니다. 16개의 주요 대형 비전-언어 모델에 걸쳐 철저한 평가를 통해 VL-RewardBench의 효과적인 어려운 테스트베드로서의 효과를 입증합니다. 심지어 GPT-4o도 65.4%의 정확도만 달성하며 Qwen2-VL-72B와 같은 최첨단 오픈 소스 모델은 무작위 추측을 넘어서기 어려워합니다. 중요한 점은 VL-RewardBench에서의 성능이 Best-of-N 샘플링을 사용한 MMMU-Pro 정확도와 강한 상관 관계가 있으며(Pearson의 r > 0.9), VL-GenRM을 사용하여 판단 능력을 크게 향상시키는 것이 중요합니다. 기본 시각 인식 작업보다는 추론 작업에서 주로 실패하는 것이 모델의 한계를 개선하는 데 중요한 통찰을 제공합니다; (ii) 추론 시간 스케일링 혜택은 모델 용량에 따라 극명하게 다릅니다; 그리고 (iii) 판단 학습을 훈련시키는 것이 판단 능력을 크게 향상시킵니다(7B VL-GenRM의 경우 +14.7% 정확도). VL-RewardBench와 실험적 통찰력은 VL-GenRM을 발전시키는 데 중요한 자원이 될 것으로 믿습니다.
대규모 다중 모달 모델의 발전에도 불구하고, 장시간 및 편집되지 않은 비디오 콘텐츠에 적용하는 것은 맥락 길이와 상당한 메모리 오버헤드 제약으로 인해 여전히 어려움을 겪고 있습니다. 이러한 제약으로 인해 모델 응답에서 중요한 정보 손실과 관련성 감소가 종종 발생합니다. 웹 플랫폼 전반에 걸쳐 비디오 데이터가 기하급수적으로 증가함에 따라 장편 비디오를 이해하는 것은 일반화된 지능을 발전시키는 데 중요합니다. 본 논문에서는 SALOVA(Segment-Augmented LOng Video Assistant)를 소개합니다. 이는 긴 비디오 콘텐츠의 이해를 향상시키기 위해 고안된 혁신적인 비디오-LLM 프레임워크입니다. 이를 실현하기 위해 두 가지 주요 도전에 대처합니다: (i) 우리는 SceneWalk 데이터셋을 제시합니다. 이는 각각이 밀도 높게 캡션 처리된 87.8K개의 장시간 비디오 컬렉션으로, 모델이 장면 연속성을 포착하고 풍부한 설명적 맥락을 유지할 수 있도록 합니다. (ii) 우리는 사용자 쿼리를 기반으로 관련 비디오 세그먼트를 효율적으로 검색하고 처리하기 위해 동적 라우팅 메커니즘과 시공간 프로젝터를 통합한 견고한 아키텍처 설계를 개발합니다. 우리의 프레임워크는 쿼리에 대한 응답으로 관련 비디오 세그먼트를 정확하게 식별하고 검색할 수 있도록 함으로써 현재의 비디오-LLM의 제약을 완화시킵니다. 이를 통해 생성된 응답의 맥락적 관련성을 향상시켜 복잡한 장편 비디오를 처리하는 능력을 향상시키는 것을 실험을 통해 입증합니다. SALOVA는 복잡한 장편 비디오를 처리하는 능력을 향상시키며, 연장된 시퀀스 전체에 걸쳐 맥락적 무결성을 유지하는 능력을 상당히 나타냅니다.
자가 지도 학습은 라벨이 지정되지 않은 3D 포인트 클라우드로부터 이동 가능한 3D 표현을 획득하는 유망한 방법으로 등장했습니다. 2D 이미지와는 달리 3D 자산을 획득하는 것은 전문 지식이나 전문적인 3D 스캐닝 장비가 필요하여 규모를 확장하기 어렵게 만들고 저작권 문제를 제기합니다. 이러한 도전에 대처하기 위해 우리는 간단한 기본 요소와 보완을 사용하여 자동으로 3D 모양을 생성하는 절차적 3D 프로그램으로부터 3D 표현을 학습하는 것을 제안합니다. 놀랍게도 의미적 콘텐츠가 없음에도 불구하고, 이 합성된 데이터셋으로부터 학습된 3D 표현은 다양한 하류 3D 작업(예: 모양 분류, 부분 분할 및 마스크된 포인트 클라우드 완성)에서 의미적으로 인식 가능한 3D 모델(예: 비행기)로부터 학습된 최첨단 표현과 동등한 성능을 발휘합니다. 우리의 분석은 현재의 자가 지도 학습 방법이 주로 고수준 의미보다는 기하학적 구조를 주로 포착한다는 것을 더욱 제안합니다.
대형 Vision-Language Models (VLMs)의 등장은 다양한 응용 프로그램을 통해 이미지 및 비디오 캡션, 시각적 질문 응답, 그리고 교차 모달 검색을 포함한 다양한 작업에서 더 정교하고 정확한 추론을 가능케 하며, 다중 모달 작업을 크게 발전시켰다. 그들의 우수한 능력에도 불구하고, VLMs는 세밀한 이미지 영역 구성 정보 인식에 어려움을 겪고 있다. 구체적으로, 그들은 분할 마스크를 해당 의미론적 요소와 정확하게 일치시키고 참조된 영역의 구성 측면을 정확하게 설명하는 데 어려움을 겪고 있다. 그러나 합성성(compositionality) - 알려진 시각적 및 텍스트 구성 요소의 새로운 조합을 이해하고 생성하는 능력 -은 VLMs에 의한 모달 간 일관된 추론과 이해를 촉진하는 데 중요하다. 이 문제에 대처하기 위해, 우리는 임의의 마스크를 참조 입력으로 인식하고 다양한 해상도의 이미지를 처리하여 다양한 수준에서 구성 이미지 캡션을 수행할 수 있는 새로운 VLM인 FINECAPTION을 제안한다. 이를 지원하기 위해, 우리는 다중 미세 영역 구성 이미지 캡션 작업을 소개하는 새로운 데이터셋인 COMPOSITIONCAP을 소개한다. 이는 구성 속성을 인식하는 영역별 이미지 캡션 작업을 소개한다. 실험 결과는 우리가 제안한 모델이 다른 최첨단 VLMs와 비교하여 효과적임을 보여준다. 또한, 현재 VLMs의 능력을 분석하여 구성적인 영역 이미지 캡션을 위한 다양한 시각적 프롬프트를 인식하는 데 있어 개선할 부분을 강조하며, VLM 설계 및 교육에 대한 개선 영역을 강조한다.
앵커 스타일 제품 프로모션 비디오의 자동 생성은 온라인 상거래, 광고 및 소비자 참여에서 유망한 기회를 제공합니다. 그러나 자세 안내 인간 비디오 생성에서 상당한 발전이 있음에도 불구하고, 이는 여전히 어려운 과제로 남아 있습니다. 이 문제에 대응하여, 우리는 인간-객체 상호작용(HOI)을 자세 안내 인간 비디오 생성에 통합하는 것을 핵심 문제로 확인합니다. 이를 위해, 우리는 고도의 시각적 충실도와 제어 가능한 상호작용을 달성하기 위해 대상 인간과 맞춤형 객체가 특징인 2D 비디오를 생성하기 위해 설계된 혁신적인 확산 기반 시스템인 AnchorCrafter를 소개합니다. 구체적으로, 우리는 두 가지 주요 혁신을 제안합니다: 임의의 다중 시점에서 객체 외형 인식을 향상시키고 객체와 인간 외형을 분리하는 HOI-외형 인식, 객체 궤적 조건부 및 상호 가려짐 관리의 어려움을 극복함으로써 복잡한 인간-객체 상호작용을 가능하게 하는 HOI-동작 주입. 게다가, 객체 세부 정보 학습을 강화하는 훈련 목표인 HOI-영역 재가중 손실을 소개합니다. 포괄적인 실험을 통해, 우리가 제안한 시스템이 객체 외형과 형태 인식을 보존하면서 동시에 인간 외형과 동작의 일관성을 유지하는 데 기존 방법을 능가한다는 것을 입증합니다. 프로젝트 페이지: https://cangcz.github.io/Anchor-Crafter/
신경망을 자원 제한된 환경에 배포하기 위해, 이전 연구들은 각각 지역 및 전역 의존성을 캡처하기 위해 컨볼루션과 어텐션을 사용한 가벼운 아키텍처를 구축해왔다. 최근에는 상태 공간 모델이 토큰 수에 대한 선형 계산 비용이 유리한 글로벌 토큰 상호 작용으로 효과적으로 등장했다. 그러나 SSM으로 구축된 효율적인 비전 백본은 덜 탐구되어 왔다. 본 논문에서는 효율적인 비전 Mamba(EfficientViM)를 소개한다. 이는 HSM-SSD(숨겨진 상태 믹서 기반 상태 공간 이중성)에 기반한 혁신적인 아키텍처로, 계산 비용을 더욱 줄이면서 글로벌 의존성을 효율적으로 캡처한다. HSM-SSD 레이어에서 이전 SSD 레이어를 재설계하여 숨겨진 상태 내에서 채널 믹싱 작업을 가능하게 한다. 또한, 숨겨진 상태 퓨전을 위한 다단계 숨겨진 상태 융합을 제안하고, 메모리 제한 작업으로 인한 병목 현상을 완화하는 설계를 제공한다. 결과적으로, EfficientViM 패밀리는 ImageNet-1k에서 새로운 최고 성능 속도-정확도 균형을 달성하여, 더 빠른 속도로 SHViT 두 번째 최고 모델보다 0.7%의 성능 향상을 제공한다. 더불어, 이미지 확대 또는 증류 훈련을 적용할 때, 이전 연구들과 비교하여 처리량과 정확도에서 상당한 개선을 관찰할 수 있다. 코드는 https://github.com/mlvlab/EfficientViM에서 확인할 수 있다.
분자 발견은 약물부터 사용하는 물질까지 모든 것에 영향을 미치는 중요한 연구 분야입니다. 최근에는 대형 언어 모델(LLMs)이 분자 이해와 생성에 널리 채택되었지만, 분자와 해당 캡션 간의 정렬은 여전히 중요한 과제입니다. 이전 노력들은 종종 분자를 일반 SMILES 문자열이나 분자 그래프로 취급하여 분자 하위 구조와 설명적 텍스트 구문 간의 세밀한 정렬을 무시했습니다. 이는 정확하고 설명 가능한 예측에 중요한 요소입니다. 이 경우 MolReFlect를 소개합니다. MolReFlect는 세밀한 방식으로 분자-캡션 정렬을 수행하기 위해 설계된 새로운 교사-학생 프레임워크입니다. 저희 방법은 먼저 더 큰 교사 LLM을 활용하여 분자 캡션이나 SMILES 문자열에서 중요 구문을 직접 추출하고 해당 하위 구조나 특성에 함의하여 상세한 정렬을 라벨링합니다. 이러한 정렬을 개선하기 위해 In-Context Selective Reflection을 제안하여 교사 LLM이 반영할 수 있도록 이전 추출 결과를 컨텍스트 예제로 검색하고, 작은 학생 LLM이 컨텍스트 반영 및 이전 추출 결과에서 선택할 수 있도록 합니다. 마지막으로 Chain-of-Thought In-Context Molecule Tuning을 통해 학생 LLM의 학습 과정을 강화하여 Chain-of-Thought 형식 내에서 세밀한 정렬과 추론 프로세스를 통합합니다. 저희 실험 결과는 MolReFlect가 Mistral-7B와 같은 LLM을 통해 이전 벤치마크를 크게 능가하여 ChEBI-20 데이터셋에서 SOTA 성능을 달성할 수 있음을 보여줍니다. 이 발전은 LLM의 생성 능력을 향상시키는데 그치지 않고 분자-캡션 번역 작업에서 더 설명 가능한 프레임워크에 기여합니다.
우리는 다중 참조 의복을 사용한 조절 가능한 인간 이미지 생성을 위한 텍스트-이미지 확산 모델을 기반으로 한 혁신적인 BootComp 프레임워크를 제안합니다. 여기서 주요 병목은 훈련을 위한 데이터 획득입니다: 각 인간이 입은 고품질 참조 의복 이미지의 대규모 데이터셋을 수집하는 것은 매우 어렵습니다. 즉, 이상적으로는 각 인간이 입은 모든 의복 사진을 수동으로 수집해야 합니다. 이를 해결하기 위해 우리는 데이터 생성 파이프라인을 제안하여 각 인간 이미지에서 어떤 참조 의복 이미지든 추출하는 모델을 도입하여 인간과 다중 의복 쌍으로 이루어진 대규모 합성 데이터셋을 구축합니다. 데이터 품질을 보장하기 위해 우리는 또한 인간 이미지에 제시된 의복과 추출된 의복 사이의 지각적 유사성을 측정하여 원치 않는 생성된 데이터를 제거하는 필터링 전략을 제안합니다. 마지막으로 구축된 합성 데이터셋을 활용하여 미세한 세부 사항을 보존하면서 인간 이미지를 생성하기 위해 여러 의복 이미지를 조건으로 사용하는 두 병렬 노이즈 제거 경로를 갖는 확산 모델을 훈련시킵니다. 또한 우리의 프레임워크의 넓은 적용 가능성을 보여주기 위해 패션 분야에서 가상 시착 및 자세, 얼굴 등 다른 조건을 갖는 조절 가능한 인간 이미지 생성에 적용합니다.
이미지 생성을 위한 AI 기술의 확산과 그들의 접근성 증가는 이러한 이미지가 잘못된 정보를 전파하는 데 악용될 수 있는 가능성에 대한 중요한 우려를 제기했습니다. 최근 AI 생성 이미지 탐지(AGID) 방법에는 CNNDetection, NPR, DM Image Detection, Fake Image Detection, DIRE, LASTED, GAN Image Detection, AIDE, SSP, DRCT, RINE, OCC-CLIP, De-Fake, Deep Fake Detection 등이 포함됩니다. 그러나 우리는 현재의 최첨단 AGID 기술이 현대 AI 생성 이미지를 효과적으로 탐지하는 데 미흡하다고 주장하며 이러한 방법들에 대한 철저한 재평가를 주장합니다. 우리는 현대 텍스트-이미지 모델(Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E 3, Midjourney 6)에 의해 생성된 약 130,000개의 이미지로 구성된 벤치마크인 Visual Counter Turing Test (VCT^2)를 소개합니다. VCT^2에는 뉴욕 타임스 트위터 계정의 트윗과 MS COCO 데이터셋의 캡션에서 가져온 두 가지 프롬프트 세트가 포함되어 있습니다. 또한 우리는 상기 AGID 기술들의 VCT^2 벤치마크에서의 성능을 평가하여 이러한 방법들이 AI 생성 이미지를 탐지하는 데 효과가 없다는 점을 강조합니다. 이미지 생성 AI 모델이 계속 발전함에 따라 이러한 모델을 평가하기 위한 측정 가능한 프레임워크의 필요성이 점점 중요해지고 있습니다. 이러한 필요성을 충족시키기 위해 우리는 생성된 이미지를 텍스처 복잡성 및 객체 일관성을 포함한 다양한 시각적 관점에서 평가하는 Visual AI Index (V_AI)를 제안하여 이미지 생성 AI 모델을 평가하는 새로운 표준을 설정합니다. 이 분야의 연구를 촉진하기 위해 우리는 https://huggingface.co/datasets/anonymous1233/COCO_AI 및 https://huggingface.co/datasets/anonymous1233/twitter_AI 데이터셋을 공개적으로 제공합니다.