번역이 포함된 일일 선별된 AI 연구 논문
대형 다중 모달 모델(LMMs)에 비디오 인식 기능이 신속히 통합되고 있지만, 이러한 비디오 이해를 이끌어가는 기본 메커니즘은 여전히 잘 이해되지 않고 있습니다. 따라서 이 도메인에서의 많은 설계 결정은 적절한 근거나 분석 없이 이루어지고 있습니다. 이러한 모델의 교육 및 평가에 따른 높은 계산 비용과 제한된 공개 연구는 비디오-LMMs의 발전을 방해합니다. 이에 대응하여 비디오-LMMs의 효과적인 이해를 돕는 포괄적인 연구를 제시합니다. 우리는 먼저 비디오-LMM 연구와 관련된 높은 계산 요구 사항의 주요 기여 요소를 비판적으로 검토하고, 작은 모델 및 데이터셋(임계 크기까지)에서 내린 설계 및 교육 결정이 큰 모델로 효과적으로 전이되는 Scaling Consistency를 발견합니다. 이러한 통찰력을 활용하여 비디오-LMMs의 비디오 특정 측면을 탐구했는데, 이는 비디오 샘플링, 아키텍처, 데이터 구성, 교육 일정 등을 포함합니다. 예를 들어, 교육 중 fps 샘플링이 균일한 프레임 샘플링보다 훨씬 선호되며 어떤 비전 인코더가 비디오 표현에 가장 적합한지를 시연했습니다. 이러한 발견을 바탕으로 우리는 다양한 모델 크기에서 우수한 성능을 달성하는 최첨단 LMMs 패밀리인 Apollo를 소개합니다. 우리의 모델은 Apollo-3B가 LongVideoBench에서 인상적인 55.1로 대부분의 기존 7B 모델을 능가하면서 효율적으로 1시간짜리 비디오를 인식할 수 있습니다. Apollo-7B는 MLVU에서 70.9, Video-MME에서 63.3으로 7B LMMs와 비교하여 최첨단입니다.
3D 물리적 실제 세계를 이해하고 탐색하며 탐험하는 것은 인공지능 개발에서 오랫동안 중요한 과제였습니다. 본 연구에서는 주변 환경에 대한 사전 기대(예측)를 형성하는 생성적 상상력에 의해 안내되는 복잡한 실체화된 세계 탐사를 계획할 수 있는 시스템인 GenEx를 소개하여 이 목표에 한걸음 나아갑니다. GenEx는 단일 RGB 이미지에서부터 시작하여 전체 3D 일관된 상상적 환경을 생성하고, 이를 파노라마 비디오 스트림을 통해 현실감 있게 구현합니다. Unreal Engine에서 선별된 확장 가능한 3D 세계 데이터를 활용하여, 우리의 생성 모델은 물리적 세계에 근거를 두고 있습니다. 이 모델은 노력을 들이지 않고도 지속적인 360도 환경을 캡처하여, 인공지능 에이전트가 탐색하고 상호 작용할 수 있는 무한한 풍경을 제공합니다. GenEx는 고품질의 세계 생성, 긴 궤적에서의 강력한 루프 일관성, 일관성 및 능동적 3D 매핑과 같은 강력한 3D 능력을 구현합니다. 세계의 생성적 상상력을 기반으로, GPT 지원 에이전트는 목표에 중립적인 탐사와 목표 주도적인 탐색을 포함한 복잡한 실체화된 작업을 수행할 수 있습니다. 이러한 에이전트들은 물리적 세계의 보이지 않는 부분에 대한 예측적 기대를 활용하여 자신의 신념을 정제하고, 잠재적인 결정에 기반한 다양한 결과를 시뮬레이션하며, 보다 정보에 기반한 선택을 합니다. 요약하면, GenEx가 상상적 공간에서의 실체화된 인공지능을 발전시키는 혁신적인 플랫폼을 제공하고, 이러한 능력을 실제 세계 탐사로 확장하는 잠재력을 제공함을 증명합니다.
대형 언어 모델(LLMs)의 놀라운 성공은 다중 모달 영역으로 확장되어 이미지 이해 및 생성에서 우수한 성능을 달성했습니다. 이러한 능력을 통합하는 통합된 다중 모달 대형 언어 모델(MLLMs)을 개발하기 위한 최근 노력은 유망한 결과를 보여주고 있습니다. 그러나 기존 접근 방식은 종종 모델 아키텍처나 훈련 파이프라인에서 복잡한 설계를 포함하여 모델 훈련과 확장의 어려움을 증가시킵니다. 본 논문에서는 이미지 이해와 생성이 모두 가능한 간단하면서도 강력한 인코더 없는 MLLM인 SynerGen-VL을 제안합니다. 기존 인코더 없는 통합된 MLLMs에서 식별된 과제를 해결하기 위해 토큰 접힘 메커니즘과 비전 전문가 기반의 점진적 정렬 사전 훈련 전략을 소개하여 훈련 복잡성을 줄이면서 고해상도 이미지 이해를 효과적으로 지원합니다. 통합된 다음 토큰 예측 목표로 대규모 혼합 이미지-텍스트 데이터로 훈련된 후, SynerGen-VL은 기존 인코더 없는 통합된 MLLMs의 성능을 도달하거나 뛰어넘으며, 비교적 작거나 유사한 매개변수 크기로 작업별 최첨단 모델과의 격차를 줄이며, 미래 통합된 MLLMs로 나아가는 유망한 길을 강조합니다. 우리의 코드와 모델은 공개될 예정입니다.
AI가 계속 발전함에 따라, 언어 기반 지원을 넘어 실제 세계에서 작업을 수행할 수 있는 지능형 에이전트로 나아가는 시스템에 대한 수요가 커지고 있습니다. 이러한 진화는 텍스트 응답 생성에 뛰어난 전통적인 대형 언어 모델 (LLM)에서 실시간 환경 내에서 작업 생성 및 실행을 위해 설계된 대형 작업 모델 (LAM)로의 전환을 요구합니다. 에이전트 시스템에 의해 가능케 된 LAM은 AI를 수동적인 언어 이해에서 능동적인 작업 완료로 변화시키는 잠재력을 가지며, 인공 일반 지능으로의 진전을 향한 중요한 이정표를 세우고 있습니다. 본 논문에서는 LAM 개발을 위한 포괄적인 프레임워크를 제시하며, 그들의 창조부터 배포에 이르기까지의 체계적인 접근 방식을 제공합니다. 우리는 LAM의 개요부터 시작하여 그들의 독특한 특성을 강조하고 LLM과의 차이점을 명확히 합니다. Windows OS 기반 에이전트를 사례 연구로 활용하여, 데이터 수집, 모델 훈련, 환경 통합, 기반 형성 및 평가와 같은 LAM 개발의 주요 단계에 대한 상세한 단계별 안내를 제공합니다. 이 일반화된 워크플로우는 다양한 응용 분야에서 기능적인 LAM을 만들기 위한 청사진으로 활용될 수 있습니다. 우리는 LAM의 현재 제한 사항을 확인하고 미래 연구 및 산업 배치 방향을 논의하며, 실제 세계 응용 프로그램에서 LAM의 전체 잠재력을 실현하기 위한 앞으로의 도전과 기회를 강조합니다. 본 논문에서 사용된 데이터 수집 프로세스의 코드는 다음 링크에서 공개적으로 이용 가능하며: https://github.com/microsoft/UFO/tree/main/dataflow, 그리고 포괄적인 문서는 다음 링크에서 찾아볼 수 있습니다: https://microsoft.github.io/UFO/dataflow/overview/.
본 논문은 바이매디엑스2(BiMediX2)를 소개합니다. 이는 통합 아키텍처를 갖춘 이중 언어(아랍어-영어) 생체 의학 전문 대규모 다중 모달 모델(LMM)로, 텍스트와 시각 모달리티를 통합하여 고급 이미지 이해와 의료 응용을 가능하게 합니다. 바이매디엑스2는 Llama3.1 아키텍처를 활용하며 텍스트와 시각 능력을 통합하여 영어와 아랍어 모두에서의 원활한 상호작용을 지원하며 의료 이미지를 포함한 다중 대화를 용이하게 합니다. 해당 모델은 텍스트와 이미지 모달리티에 대한 다양한 의료 상호작용 샘플 160만 건으로 이루어진 광범위한 이중 언어 의료 데이터셋에서 훈련되었으며, 아랍어와 영어가 혼합되어 있습니다. 또한 바이매디엑스-엠벤치(BiMed-MBench)라는 최초의 이중 언어 GPT-4o 기반 의료 LMM 벤치마크를 제안합니다. 바이매디엑스2는 텍스트 및 이미지 기반 작업에서 벤치마킹되어, 여러 의료 벤치마크에서 최첨단 성능을 달성합니다. 최근 최첨단 의료 LLM 평가 벤치마크에서 최신 모델들을 능가합니다. 또한 영어 평가에서 9% 이상, 아랍어 평가에서 20% 이상의 향상을 보이며 GPT-4를 약 9% 이상 능가하여 UPHILL 사실적 정확도 평가에서 우수한 성과를 거두며 다양한 의료 시각 질문 응답, 보고서 생성 및 요약 작업에서 뛰어난 결과를 보입니다. 소스 코드와 훈련된 모델을 포함한 프로젝트 페이지는 https://github.com/mbzuai-oryx/BiMediX2에서 확인할 수 있습니다.
시각 확산 모델은 현저한 진전을 이루고 있지만, 일반적으로 고해상도 데이터의 부족과 제한된 계산 자원으로 인해 제한된 해상도에서 훈련됩니다. 이는 고해상도 이미지나 비디오를 생성하는 능력을 저해하여 높은 해상도에서 고품질 이미지나 비디오를 생성하는 것을 어렵게 합니다. 최근의 노력은 튜닝이 필요 없는 전략을 탐구하여 사전 훈련된 모델의 미개척된 잠재력을 높은 해상도 시각 생성으로 드러내려고 합니다. 그러나 이러한 방법들은 여전히 반복적인 패턴을 가진 저품질 시각 콘텐츠를 생성하는 취약점이 있습니다. 주요 장애물은 모델이 훈련 해상도를 초과하는 시각 콘텐츠를 생성할 때 높은 주파수 정보가 증가함에 따라 누적된 오차에서 비롯된 원치 않는 반복적인 패턴이 발생한다는 점에 있습니다. 이 문제를 해결하기 위해 우리는 FreeScale이라는 튜닝이 필요 없는 추론 패러다임을 제안합니다. 이를 통해 스케일 퓨전을 통해 더 높은 해상도의 시각 생성이 가능해집니다. 구체적으로, FreeScale은 서로 다른 수용 스케일에서 정보를 처리한 다음 원하는 주파수 구성 요소를 추출하여 퓨전합니다. 광범위한 실험을 통해 우리의 패러다임이 이미지 및 비디오 모델 모두에 대해 더 높은 해상도의 시각 생성 능력을 확장하는 데 우월함을 입증했습니다. 특히, 이전 최고 성능 방법과 비교했을 때, FreeScale은 처음으로 8k 해상도 이미지 생성을 가능하게 합니다.
우리는 벡터 양자화 생성 모델에서 고품질 생성을 위해 잔여 벡터 양자화(RVQ)의 사용을 탐구합니다. 이 양자화 기술은 더 깊은 토큰을 활용하여 더 높은 데이터 충실도를 유지합니다. 그러나 생성 모델에서 토큰 수를 증가시키면 추론 속도가 느려집니다. 이에 우리는 고품질 샘플을 생성하는 효율적인 RVQ 기반 이산 확산 모델인 ResGen을 소개합니다. 우리의 주요 아이디어는 개별 토큰이 아닌 집단 토큰의 벡터 임베딩을 직접 예측하는 것입니다. 더불어 제안된 토큰 마스킹 및 다중 토큰 예측 방법이 이산 확산 프로세스와 변분 추론을 사용한 원칙적인 확률적 프레임워크 내에서 정의될 수 있다는 것을 증명합니다. 우리는 ImageNet 256x256에서 조건부 이미지 생성 및 제로샷 텍스트 음성 합성과 같은 서로 다른 모달리티의 두 가지 어려운 작업에서 제안된 방법의 효과성과 일반화 가능성을 검증합니다. 실험 결과는 ResGen이 두 작업 모두에서 자동 회귀 대조군을 능가하여 뛰어난 성능을 제공하면서 샘플링 속도를 희생하지 않음을 보여줍니다. 더불어 RVQ의 깊이를 확장함에 따라 우리의 생성 모델은 유사한 크기의 기준 모델과 비교했을 때 향상된 생성 충실도 또는 더 빠른 샘플링 속도를 나타냅니다. 프로젝트 페이지는 https://resgen-genai.github.io에서 확인할 수 있습니다.
최근 몇 년간 텍스트-비디오 생성 기술은 급속히 발전하여 현저한 결과를 이끌어내고 있습니다. 일반적으로 훈련은 비디오 캡션과 쌍을 이루는 데이터에 의존하며, 이는 생성 성능을 향상시키는 데 중요한 역할을 합니다. 그러나 현재의 비디오 캡션은 종종 세부 정보가 부족하거나 환각적이며, 정확하지 않은 동작 묘사로 인해 생성된 비디오의 충실도와 일관성에 영향을 미칩니다. 본 연구에서는 인스턴스 수준 및 세밀한 비디오 캡션을 처음으로 달성하기 위해 InstanceCap이라는 새로운 인스턴스 인식 구조화된 캡션 프레임워크를 제안합니다. 이 체계를 기반으로 원본 비디오를 인스턴스로 변환하여 인스턴스 충실도를 향상시키기 위한 보조 모델 클러스터를 설계합니다. 비디오 인스턴스는 구조화된 구문으로 밀도 높은 프롬프트를 세밀하게 다듬어 간결하면서도 정확한 설명을 달성하는 데 활용됩니다. 더불어, 22K InstanceVid 데이터셋이 훈련용으로 정리되었으며, InstanceCap 구조에 맞춰 개선된 파이프라인이 제안되어 추론에 활용됩니다. 실험 결과는 우리의 제안된 InstanceCap이 이전 모델들을 크게 능가하여 캡션과 비디오 간의 높은 충실도를 보장하면서 환각을 줄였음을 보여줍니다.
본 논문은 객체 삽입 및 주체 주도 생성을 위한 조정 필요 없는 방법을 소개합니다. 이 작업은 여러 시점에서 제공된 객체를 이미지 또는 텍스트로 지정된 장면에 구성하는 것을 포함합니다. 기존 방법은 작업의 도전적인 목표를 완전히 충족시키기 어렵습니다: (i) 객체를 사실적인 자세와 조명으로 장면에 무결하게 통합하는 것, 그리고 (ii) 객체의 정체성을 보존하는 것입니다. 이러한 목표를 달성하기 위해서는 대규모 감독이 필요하다고 가정하지만, 충분한 데이터를 수동으로 수집하는 것은 단순히 너무 비싸다고 판단합니다. 본 논문의 주요 관찰은 대량 생산된 객체가 대규모 미지도 데이터셋의 여러 이미지에서 반복되어 나타나며, 다양한 장면, 자세 및 조명 조건에서 관찰된다는 것입니다. 이 관찰을 활용하여 동일한 객체의 다양한 시점 집합을 검색하여 대규모 감독을 생성합니다. 이 강력한 쌍 데이터셋을 사용하여 객체 및 장면 설명을 합성된 이미지로 매핑하는 간단한 텍스트-이미지 확산 아키텍처를 훈련할 수 있습니다. 우리는 ObjectMate라는 방법을 단일 또는 다중 참조를 사용하여 객체 삽입 및 주체 주도 생성에 대한 최첨단 방법과 비교합니다. 경험적으로, ObjectMate는 우수한 정체성 보존과 더 사실적인 구성을 달성합니다. 다른 다중 참조 방법과는 달리, ObjectMate는 느린 테스트 시 조정이 필요하지 않습니다.
ReFlows(ReFlows)와 증류(distillation)를 활용한 Rectified Flows는 빠른 샘플링을 위한 유망한 방법을 제공하지만, 빠른 역변환은 이미지를 구조화된 잡음으로 변환하여 복구하고 후속 편집은 여전히 해결되지 않은 문제입니다. 본 논문에서는 FireFlow를 소개합니다. 이는 ReFlow 기반 모델(예: FLUX)의 놀라운 생성 능력을 계승하면서 8단계에서 정확한 역변환 및 편집을 확장하는 간단하면서도 효과적인 제로샷 접근법입니다. 우리는 먼저 ReFlow 역변환에 중요한 역할을 하는 신중히 설계된 수치 해법이 ReFlow 역변환에서 두 번째 차원 해법의 정밀성을 유지하면서 첫 번째 차원 Euler 방법의 실용적 효율성을 유지하는 것을 보여줍니다. 이 해법은 최첨단 ReFlow 역변환 및 편집 기술과 비교하여 3배 빠른 실행 속도 향상을 달성하면서, 훈련 없이 더 작은 재구성 오류와 우수한 편집 결과를 제공합니다. 코드는 https://github.com/HolmesShuan/FireFlow{이 URL}에서 확인할 수 있습니다.
긴 문맥 LLM(Long-context Language Models)은 다양한 하위 응용 프로그램을 가능케 했지만, 계산 및 메모리 효율성과 관련된 중요한 도전 과제를 도입했습니다. 이러한 도전에 대응하기 위해, 긴 문맥 추론을 위한 최적화가 개발되었는데, 이는 KV 캐시를 중심으로 이루어졌습니다. 그러나 기존의 벤치마크는 종종 단일 요청에서 평가되어 실제 사용에서의 KV 캐시의 전체 수명주기를 간과합니다. 이러한 간과는 특히 KV 캐시 재사용이 널리 채택되고 있는 vLLM과 SGLang과 같은 LLM 추론 프레임워크 및 OpenAI, Microsoft, Google, Anthropic을 포함한 LLM 제공 업체에서 중요합니다. 이 간극을 해결하기 위해 우리는 SCBench(SharedContextBench)를 소개합니다. 이는 KV 캐시 중심 관점에서 긴 문맥 방법을 평가하기 위한 포괄적인 벤치마크입니다. 이는 1) KV 캐시 생성, 2) KV 캐시 압축, 3) KV 캐시 검색, 4) KV 캐시 로딩을 중심으로 합니다. 구체적으로 SCBench는 두 가지 공유 문맥 모드를 갖는 12가지 작업을 포함하는 테스트 예제를 사용하며, 문자열 검색, 의미 검색, 전역 정보, 그리고 다중 작업이라는 네 가지 범주의 긴 문맥 기능을 다룹니다. 우리는 Gated Linear RNNs, Mamba-Attention 하이브리드, 희소 어텐션, KV 캐시 삭제, 양자화, 검색, 로딩, 그리고 프롬프트 압축과 같은 효율적인 방법을 포함한 여덟 가지 긴 문맥 솔루션에 대한 포괄적인 KV 캐시 중심 분석을 제공합니다. 평가는 8가지의 긴 문맥 LLM에서 수행되었습니다. 우리의 연구 결과는 sub-O(n) 메모리 방법이 다중 턴 시나리오에서 고통을 겪는 반면, O(n) 메모리와 sub-O(n^2) 사전 채우기 계산을 갖는 희소 인코딩이 견고하게 수행된다는 것을 보여줍니다. 동적 희소성은 정적 패턴보다 표현력이 뛰어난 KV 캐시를 제공하며, 하이브리드 아키텍처에서의 레이어 수준 희소성은 강력한 성능과 함께 메모리 사용량을 줄입니다. 또한 우리는 긴 생성 시나리오에서 어텐션 분포 이동 문제를 식별했습니다. https://aka.ms/SCBench.
비디오 생성을 위한 텍스트 대 비디오 변환은 콘텐츠 작성을 향상시키지만 계산적으로 매우 비용이 많이 듭니다: 확산 트랜스포머(DiTs)의 계산 비용은 픽셀 수에 제곱적으로 증가합니다. 이는 짧은 길이의 비디오 생성이 매우 비싸게 만들어, 대부분의 기존 모델이 10-20초 길이의 비디오 생성으로 제한되게 합니다. 우리는 픽셀 수에 선형적으로 증가하는 비용을 가지는 선형 복잡도 텍스트 대 비디오 생성(LinGen) 프레임워크를 제안합니다. LinGen은 고품질의 고해상도 짧은 길이 비디오 생성을 GPU 한 대에서 희생 없이 가능하게 합니다. 이는 계산적으로 우세하고 제곱 복잡도의 블록인 셀프 어텐션을 선형 복잡도 블록인 MATE로 대체합니다. MATE는 MA-브랜치와 TE-브랜치로 이루어진 새로운 TEmporal Swin 어텐션 블록을 포함하며, Mamba2 블록과 우리의 토큰 재배치 방법인 Rotary Major Scan, 그리고 장비디오 생성을 위해 개발된 리뷰 토큰을 결합하여 단거리에서 장거리 상관관계를 타깃으로 합니다. TE-브랜치는 인접 토큰과 중간 범위 토큰 간의 시간적 상관관계에 초점을 맞춘 새로운 TEmporal Swin 어텐션 블록입니다. MATE 블록은 Mamba의 인접성 보존 문제를 해결하고 생성된 비디오의 일관성을 크게 향상시킵니다. 실험 결과는 LinGen이 DiT보다 비디오 품질에서 75.6%의 승률로 우세하며 최대 15배(11.5배)의 FLOPs(지연) 감소를 보여줍니다. 더불어 자동 측정 및 인간 평가 모두 LinGen-4B가 최첨단 모델(Gen-3, LumaLabs, Kling에 대해 각각 50.5%, 52.1%, 49.1%의 승률)과 비교 가능한 비디오 품질을 제공함을 보여줍니다. 이는 시간 길이 영화 생성과 실시간 대화형 비디오 생성의 길을 열어줍니다. 프로젝트 웹사이트에서 68초 비디오 생성 결과와 더 많은 예시를 제공합니다: https://lineargen.github.io/.
정정된 흐름 모델은 이미지 생성에서 우수한 능력을 보여주며 주목받는 접근 방식으로 등장했습니다. 그러나 시각적 생성에서 효과적일지라도, 정정된 흐름 모델은 종종 이미지의 해체 편집에 어려움을 겪습니다. 이 제한으로 인해 이미지의 관련 없는 측면을 영향을 주지 않고도 정확한 속성별 수정을 수행하는 능력이 제한됩니다. 본 논문에서는 FluxSpace를 소개합니다. 이는 Flux와 같은 정정된 흐름 변환기에 의해 생성된 이미지의 의미론을 제어할 수 있는 표현 공간을 활용하는 도메인에 중립적인 이미지 편집 방법입니다. 정정된 흐름 모델 내의 변환기 블록에서 학습한 표현을 활용하여, 우리는 다양한 이미지 편집 작업을 가능하게 하는 의미론적으로 해석 가능한 표현의 집합을 제안합니다. 이 작업은 미세한 이미지 편집부터 예술적 창작까지 다양한 이미지 편집 작업을 가능케 하는 확장 가능하고 효과적인 이미지 편집 접근 방식을 제공합니다.
다중 모달 음악 생성은 텍스트, 비디오 및 이미지와 같은 다양한 입력 모달리티에서 음악을 생성하는 것을 목표로 합니다. 기존 방법은 다중 모달 융합을 위해 공통 임베딩 공간을 사용합니다. 다른 모달리티에서의 효과적인 사용에도 불구하고, 다중 모달 음악 생성에 대한 그들의 적용은 데이터 부족, 약한 교차 모달 정렬 및 제한된 조절 가능성과 같은 도전에 직면합니다. 본 논문은 텍스트와 음악의 명시적 다리를 사용하여 다중 모달 정렬 문제를 해결합니다. 우리는 Visuals Music Bridge (VMB)라는 새로운 방법을 소개합니다. 구체적으로, 다중 모달 음악 설명 모델은 시각적 입력을 자세한 텍스트 설명으로 변환하여 텍스트 다리를 제공합니다. 넓고 특정한 검색 전략을 결합하는 이중 트랙 음악 검색 모듈은 음악 다리를 제공하고 사용자 제어를 가능하게 합니다. 마지막으로, 우리는 두 다리를 기반으로 음악을 생성하기 위한 명시적으로 조건이 부여된 음악 생성 프레임워크를 설계합니다. 우리는 비디오-음악, 이미지-음악, 텍스트-음악 및 조절 가능한 음악 생성 작업에 대한 실험을 수행하며, 조절 가능성에 대한 실험도 진행합니다. 결과는 VMB가 이전 방법과 비교하여 음악 품질, 모달리티 및 맞춤 정렬을 현저히 향상시킨다는 것을 보여줍니다. VMB는 다양한 멀티미디어 분야에서 응용 가능한 해석 가능하고 표현력 있는 다중 모달 음악 생성의 새로운 표준을 제시합니다. 데모 및 코드는 https://github.com/wbs2788/VMB에서 확인할 수 있습니다.
대형 언어 모델(LLMs)의 효과는 프롬프트(prompt)의 설계와 밀접하게 관련되어 있어, 다양한 작업에서 성능을 향상시키기 위해 프롬프트 최적화가 필수적입니다. 자동 프롬프트 엔지니어링을 자동화하기 위한 많은 기존 방법은 대규모이며 계산 비용이 많이 드는 LLMs에 의해 식별된 추론 오류에만 기반하여 프롬프트를 개선합니다. 작은 모델은 고품질 피드백을 생성하는 데 어려움을 겪어 대형 LLM 판단에 완전히 의존해야 합니다. 더욱이 이러한 방법은 순수히 텍스트 공간에서 작동하기 때문에 그라디언트와 같은 더 직접적이고 세밀한 정보를 활용하지 못합니다. 이에 우리는 GReaTer를 소개합니다. 이는 과업 손실 그라디언트를 활용하여 과업별 추론을 직접적으로 통합하는 혁신적인 프롬프트 최적화 기술입니다. GReaTer를 사용하면 고비용의 폐쇄 소스 LLMs가 필요 없이 오픈 소스 경량 언어 모델을 위한 자체 최적화 프롬프트가 가능해집니다. 이를 통해 대형 LLMs에 의존하지 않고도 높은 성능의 프롬프트 최적화가 가능해지며, 작은 모델과 프롬프트 세분화에 필요한 정교한 추론 사이의 간극을 줄입니다. BBH, GSM8k, FOLIO를 포함한 다양한 추론 작업을 통한 폭넓은 평가 결과, GReaTer가 이전의 최첨단 프롬프트 최적화 방법을 일관되게 능가하며 강력한 LLMs에 의존하는 방법조차 능가함을 입증합니다. 게다가 GReaTer로 최적화된 프롬프트는 전이성이 더 뛰어나며, 경우에 따라 큰 언어 모델로 달성한 것과 비교 가능하거나 능가하는 수준의 작업 성능을 향상시킵니다. 그라디언트에 의해 이끌어지는 추론을 통한 프롬프트 최적화의 효과를 강조하며, GReaTer의 코드는 https://github.com/psunlpgroup/GreaTer에서 이용할 수 있습니다.
본 보고서에서 언급된 SmolTulu-DPO-1130으로 참조되는 SmolTulu-1.7b-Instruct를 소개합니다. 이는 AllenAI의 Tulu 3 사후 훈련 파이프라인을 적용하여 Huggingface의 SmolLM2-1.7B 기본 모델을 향상시킨 인스트럭션 튜닝 언어 모델입니다. 135백만 개의 매개변수 모델을 사용한 포괄적인 경험적 분석을 통해, 학습률과 배치 크기 사이의 관계가 과업에 따라 모델 성능에 중대한 영향을 미친다는 것을 입증합니다. 우리의 연구 결과는 명확한 구분을 보여줍니다. ARC 및 GSM8K와 같은 추론 과업은 더 높은 학습률 대 배치 크기 비율에서 이익을 얻는 반면, HellaSwag 및 IFEval과 같은 패턴 인식 과업은 더 낮은 비율에서 최적의 성능을 보입니다. 이러한 통찰력은 SmolTulu의 개발에 영향을 주었으며, 이 모델은 지시 따르기에서 67.7%의 성적을 달성하여 2B 미만의 매개변수 모델 중 최고 수준의 성능을 제공합니다. 또한, GSM8K에서 51.6%의 수학적 추론 성적을 기록하여 (Delta3.4%) ARC에서 57.1%의 성적을 달성하는 대안 버전을 제공합니다 (Delta5.4%). 우리는 모델, 훈련 레시피 및 제거 연구를 공개하여 효율적인 모델 정렬에 대한 추가 연구를 촉진하며, 최적화 역학의 신중한 적응이 작고 큰 언어 모델 간의 능력 차이를 줄이는 데 도움이 될 수 있다는 것을 입증합니다.
대규모 시각-언어-행동 (VLA) 모델은 광범위한 로봇 데이터셋에서 사전 훈련된 것들이 로봇 학습을 위한 유망한 일반화 정책을 제공하지만, 상호작용 로봋틱스의 공간-시간 역학에 여전히 어려움을 겪어 조작과 같은 복잡한 작업을 처리하는 데 효과적이지 못하다. 본 연구에서는 시각적 트레이스 프롬프팅을 소개하여, 상태-행동 궤적을 시각적으로 인코딩함으로써 VLA 모델의 공간-시간 인식을 촉진하는 간단하면서도 효과적인 방법을 제안한다. 우리는 15만 개의 로봇 조작 궤적으로 이루어진 자체 수집 데이터셋에서 시각적 트레이스 프롬프팅을 사용하여 OpenVLA를 파인튜닝하여 새로운 TraceVLA 모델을 개발했다. SimplerEnv의 137가지 구성과 물리적 WidowX 로봇의 4가지 작업을 통해 TraceVLA의 평가 결과, 최첨단의 성능을 보여주며 SimplerEnv에서 OpenVLA보다 10% 우수하며 실제 로봇 작업에서는 3.5배 우수하며 다양한 구현체와 시나리오에 걸쳐 견고한 일반화 능력을 나타낸다. 우리 방법의 효과성과 일반성을 더 검증하기 위해, Open-X-Embodiment에서 사전 훈련된 4B Phi-3-Vision을 기반으로 한 간결한 VLA 모델을 제시하고, 이를 우리 데이터셋에서 파인튜닝하여 7B OpenVLA 기준을 뛰어넘으면서 추론 효율성을 크게 향상시킨다.
심층 신경망(DNNs)은 의료 영상에서 유방암 진단을 개선하는 데 상당한 잠재력을 제공합니다. 그러나 이러한 모델은 적은, 감지하기 어려운 변경으로 분류기를 속일 수 있는 적대적 공격에 매우 취약합니다. 이는 그들의 신뢰성과 보안에 대한 중요한 우려를 불러일으킵니다. 기존의 공격은 고정된 노름의 변형에 의존하며, 인간의 지각과 불일치합니다. 이에 반해 확산 기반 공격은 사전 훈련된 모델을 필요로 하며, 이러한 모델이 없는 경우에는 상당한 데이터를 요구하여 데이터 부족한 시나리오에서의 실용성을 제한합니다. 그러나 의료 영상에서는 데이터셋의 제한된 가용성으로 인해 이는 종종 불가능합니다. 최근 학습 가능한 프롬프트의 발전을 기반으로, 우리는 텍스트 지침에 의해 주도되는 의미 있는 공격 예제를 생성할 수 있는 새로운 언어 지침 공격 방법인 Prompt2Perturb (P2P)를 제안합니다. 프롬프트 학습 단계에서 우리의 접근 방식은 텍스트 인코더 내에서 학습 가능한 프롬프트를 활용하여 인간이 감지하기 어렵지만 모델을 특정 결과로 이끄는 의미 있는 변형을 만들어냅니다. 현재의 프롬프트 학습 기반 접근 방식과 대조적으로, 우리의 P2P는 텍스트 임베딩을 직접 업데이트하여 확산 모델 재훈련의 필요성을 회피합니다. 더 나아가, 초기 역확산 단계만 최적화하는 것이 효율성을 높이는 것과 함께 생성된 적대적 예제에 섬세한 잡음을 포함시키는 것을 보장하여 초음파 영상 품질을 유지하면서 눈에 띄는 아티팩트를 도입하지 않습니다. 우리의 방법이 FID 및 LPIPS에서 세 가지 유방 초음파 데이터셋에서 최첨단 공격 기술을 능가함을 보여줍니다. 게다가 생성된 이미지는 기존의 적대적 공격과 비교하여 외관이 더 자연스럽고 효과적입니다. 우리의 코드는 공개적으로 이용 가능할 것입니다. (https://github.com/yasamin-med/P2P)