번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델의 테스트 시점 계산 자원 확장은 추론 벤치마크에서 인상적인 성능을 보여주고 있습니다. 그러나 기존의 테스트 시점 확장 평가는 추론 시스템이 제공된 모든 질문에 대해 항상 답변을 해야 한다는 강한 가정을 하고 있습니다. 이는 모델이 자신의 답변에 대해 얼마나 확신을 가지고 있는지, 그리고 항상 응답을 제공하는 것이 적절한지에 대한 고려를 간과하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 추론 과정에서 신뢰도 점수를 추출하여 모델 응답에 대한 임계값 설정을 적용했습니다. 우리는 추론 시점에 계산 예산을 증가시키는 것이 모델이 더 많은 질문에 올바르게 답변하는 데 도움을 줄 뿐만 아니라, 올바른 응답에 대한 신뢰도를 높인다는 것을 발견했습니다. 또한, 우리는 평가 과정에서 제로 리스크 응답의 현재 패러다임을 비제로 리스크 수준의 응답 설정으로 확장하고, 이러한 설정 하에서 평가 결과를 보고하기 위한 방법론을 제안합니다.
기존의 종단 간(end-to-end) 음성 대형 언어 모델(LLM)은 일반적으로 대규모 주석 데이터에 의존하여 학습을 진행하지만, 데이터 효율적인 학습에 대해서는 깊이 있게 논의되지 않았습니다. 우리는 음성과 텍스트 간의 두 가지 근본적인 문제, 즉 표현 공간의 격차와 시퀀스 길이의 불일치에 초점을 맞췄습니다. 우리는 이러한 문제를 해결하기 위해 효율적인 학습 전략과 새로운 아키텍처를 활용한 Soundwave를 제안합니다. 실험 결과, Soundwave는 훈련 데이터의 1/50만을 사용하면서도 음성 번역 및 AIR-Bench 음성 작업에서 최신 모델인 Qwen2-Audio를 능가하는 성능을 보였습니다. 추가 분석을 통해 Soundwave가 대화 중에도 지능을 유지하는 것으로 나타났습니다. 이 프로젝트는 https://github.com/FreedomIntelligence/Soundwave에서 확인할 수 있습니다.
최근 여러 연구에서는 토큰 임베딩이나 키-값 캐시 대신 입력으로 사용될 실수 값 벡터의 짧은 시퀀스로 토큰 시퀀스를 압축하는 문제를 다루고 있습니다. 이러한 접근 방식은 기존 언어 모델에서 필요한 계산량을 줄일 수 있게 합니다. 강력한 모델을 인코더로 사용함에도 불구하고, 달성 가능한 최대 무손실 압축 비율은 일반적으로 x10을 넘지 않습니다. 이는 매우 흥미로운 사실인데, 이론적으로 큰 실수 값 벡터의 최대 정보 용량은 16비트 정밀도와 적당한 벡터 크기에서도 제시된 비율을 훨씬 초과하기 때문입니다. 본 연구에서는 인코더를 샘플별 최적화 절차로 대체하여 압축의 한계를 탐구합니다. 우리는 최대 x1500의 압축 비율을 가진 벡터가 존재함을 보여주며, 이는 기존 솔루션과 실제로 달성 가능한 솔루션 간에 두 자릿수 차이가 있음을 강조합니다. 더 나아가, 압축 한계는 입력의 길이가 아니라 감소시켜야 할 불확실성의 양, 즉 어떠한 조건 없이 이 시퀀스에 대한 교차 엔트로피 손실에 의해 결정된다는 것을 실증적으로 보여줍니다. 얻어진 한계는 입력 임베딩의 이론적 용량과 실제 활용 간에 상당한 격차가 있음을 강조하며, 모델 설계에서 최적화할 수 있는 상당한 여지가 있음을 시사합니다.
비디오 생성을 위한 기초 모델의 지속적인 발전은 다양한 응용 분야로 진화하고 있으며, 주체 일관성 비디오 생성은 여전히 탐색 단계에 있습니다. 우리는 이를 '주체-비디오(Subject-to-Video)'라고 부르며, 이는 참조 이미지에서 주체 요소를 추출하고 텍스트 지시를 통해 주체 일관성 비디오를 생성합니다. 우리는 주체-비디오의 본질이 텍스트와 이미지라는 이중 모달 프롬프트의 균형을 맞추고, 이를 통해 텍스트와 시각적 콘텐츠를 깊이 동시에 정렬하는 데 있다고 믿습니다. 이를 위해 우리는 단일 및 다중 주체 참조를 위한 통합 비디오 생성 프레임워크인 '팬텀(Phantom)'을 제안합니다. 기존의 텍스트-비디오 및 이미지-비디오 아키텍처를 기반으로, 우리는 공동 텍스트-이미지 주입 모델을 재설계하고 텍스트-이미지-비디오 삼중 데이터를 통해 교차 모달 정렬을 학습하도록 유도합니다. 특히, 우리는 인간 생성에서의 주체 일관성을 강조하며, 기존의 ID 보존 비디오 생성을 포괄하면서 향상된 이점을 제공합니다. 프로젝트 홈페이지는 https://phantom-video.github.io/Phantom/에서 확인할 수 있습니다.
우리는 디지털과 물리적 세계 모두에서 멀티모달 AI 에이전트 작업을 수행하는 기초 모델인 Magma를 소개한다. Magma는 비전-언어(VL) 모델의 상당한 확장판으로, 후자의 VL 이해 능력(언어적 지능)을 유지할 뿐만 아니라 시각-공간 세계에서 계획하고 행동할 수 있는 능력(공간-시간적 지능)을 갖추고 있으며, UI 탐색부터 로봇 조작에 이르는 다양한 에이전트 작업을 완수할 수 있다. 이러한 에이전트 능력을 부여하기 위해 Magma는 이미지, 비디오부터 로봇 공학 데이터에 이르는 방대한 이질적 데이터셋에 대해 사전 학습되었으며, 이미지 내에서 실행 가능한 시각적 객체(예: GUI 내 클릭 가능한 버튼)는 행동 근거를 위해 Set-of-Mark(SoM)로 레이블링되고, 비디오 내 객체의 움직임(예: 인간의 손이나 로봇 팔의 궤적)은 행동 계획을 위해 Trace-of-Mark(ToM)로 레이블링된다. 광범위한 실험을 통해 SoM과 ToM이 큰 시너지를 이루며 Magma 모델의 공간-시간적 지능 습득을 촉진함을 보여주었으며, 이는 그림 1에서 보여주는 바와 같이 다양한 작업에 필수적이다. 특히 Magma는 UI 탐색 및 로봇 조작 작업에서 이전에 특화된 모델들을 능가하는 새로운 최첨단 결과를 창출한다. 이미지 및 비디오 관련 멀티모달 작업에서도 Magma는 훨씬 더 큰 데이터셋으로 학습된 인기 있는 대형 멀티모달 모델들과 비교해 우수한 성능을 보인다. 우리는 재현성을 위해 모델과 코드를 https://microsoft.github.io/Magma에서 공개한다.
확산 모델은 이산 범주형 데이터 모델링에서 자기회귀 모델의 유망한 대안으로 부상했습니다. 그러나 이산 데이터 공간에서 직접 작동하는 확산 모델은 이산 상태 간 전환 과정에서 신호가 손실되기 때문에 반복적 정제의 힘을 완전히 활용하지 못합니다. 기존의 이산 데이터를 위한 연속 확산 모델은 이산 접근법에 비해 제한된 성능을 보이며, 둘 간의 명확하지 않은 연결은 이산 데이터를 위한 확산 모델의 발전을 제한합니다. 본 연구에서는 기저 범주 분포의 기하학을 통합한 언어 모델링을 위한 연속 확산 모델을 제안합니다. 우리는 이산 확산과 통계적 다양체 위의 연속 흐름 간의 연결을 확립하고, 이 유사성을 바탕으로 기존 이산 확산 모델을 일반화하는 간단한 확산 과정 설계를 소개합니다. 또한, 방사형 대칭성을 기반으로 한 시뮬레이션 없는 학습 프레임워크와 다양체의 고차원성을 해결하기 위한 간단한 기법을 제안합니다. 언어 모델링 벤치마크 및 다른 모달리티에 대한 포괄적인 실험을 통해 우리의 방법이 기존 이산 확산 모델을 능가하고 자기회귀 모델의 성능에 근접함을 보여줍니다. 코드는 https://github.com/harryjo97/RDLM에서 확인할 수 있습니다.
최근의 다중 모달 대형 언어 모델(MLLMs)은 뛰어난 성능을 달성했지만, 이차 계산 복잡도, 증가하는 Key-Value 캐시 요구사항, 그리고 별도의 비전 인코더에 대한 의존성으로 인해 배포에 어려움을 겪고 있습니다. 우리는 mmMamba를 제안합니다. 이는 적절한 학술적 계산 자원을 사용하여 기존 MLLMs로부터 점진적인 지식 증류를 통해 선형 복잡도의 네이티브 다중 모달 상태 공간 모델을 개발하는 프레임워크입니다. 우리의 접근 방식은 사전 훈련된 RNN 기반 LLM이나 비전 인코더가 필요 없이 훈련된 디코더 전용 MLLMs를 선형 복잡도 아키텍처로 직접 변환할 수 있게 합니다. 우리는 훈련된 Transformer에서 Mamba를 도출하기 위한 시드 전략과 Transformer의 지식을 효과적으로 Mamba로 전달하면서 다중 모달 능력을 보존하는 3단계 증류 방법을 제안합니다. 또한, 우리의 방법은 Transformer와 Mamba 레이어를 결합하여 효율성과 성능 간의 맞춤형 균형을 지원하는 유연한 하이브리드 아키텍처도 지원합니다. Transformer 기반 디코더 전용 HoVLE로부터 증류된 mmMamba-linear는 기존의 선형 및 이차 복잡도 VLM들과 경쟁력 있는 성능을 보이며, mmMamba-hybrid는 HoVLE의 성능에 근접할 만큼 성능을 크게 향상시킵니다. 103K 토큰에서 mmMamba-linear는 HoVLE 대비 20.6배의 속도 향상과 75.8%의 GPU 메모리 감소를 보여주며, mmMamba-hybrid는 13.5배의 속도 향상과 60.2%의 메모리 절감을 달성합니다. 코드와 모델은 https://github.com/hustvl/mmMamba에서 공개되었습니다.
인간의 선호도를 이해하는 것은 기초 모델을 개선하고 개인화된 AI 시스템을 구축하는 데 있어 핵심적입니다. 그러나 선호도는 본질적으로 다양하고 복잡하여 기존의 보상 모델이 이를 포괄적으로 파악하기 어렵습니다. 세분화된 선호도 데이터가 도움이 될 수 있지만, 이를 수집하는 데는 비용이 많이 들고 확장하기 어렵습니다. 본 논문에서는 세분화된 주석 없이도 이진 비교를 통해 다양한 인간의 선호도를 추출하는 새로운 접근법인 분해된 보상 모델(Decomposed Reward Models, DRMs)을 소개합니다. 우리의 핵심 통찰은 인간의 선호도를 벡터로 표현하고 이를 주성분 분석(Principal Component Analysis, PCA)을 통해 분석하는 것입니다. 선호된 응답과 거부된 응답 간의 임베딩 차이 데이터셋을 구축함으로써, DRMs는 선호도의 다양한 측면을 포착하는 직교 기저 벡터를 식별합니다. 이러한 분해된 보상은 다양한 사용자 요구에 맞게 유연하게 결합될 수 있어, 기존의 보상 모델에 비해 해석 가능하고 확장 가능한 대안을 제공합니다. 우리는 DRMs가 도움, 안전, 유머 등 의미 있는 선호도 차원을 효과적으로 추출하고 추가 훈련 없이도 새로운 사용자에 적응할 수 있음을 입증합니다. 이러한 결과는 DRMs가 개인화되고 해석 가능한 대형 언어 모델(LLM) 정렬을 위한 강력한 프레임워크임을 보여줍니다.
이전 토큰들을 단일 은닉 상태로 압축하는 RNN과 달리, 트랜스포머는 모든 이전 토큰에 직접 주의를 기울일 수 있습니다. 그러나 표준 트랜스포머는 바로 이전 계층의 표현만을 사용합니다. 본 논문에서는 이러한 설계 선택이 표현 붕괴를 초래하고 최적이 아닌 성능으로 이어짐을 보여줍니다. 이 문제를 해결하기 위해, 우리는 모델의 전체 메모리 사용량을 유지하면서 초기 계층의 은닉 상태에 접근할 수 있게 함으로써 표현 능력을 확장하는 간단하지만 강력한 접근 방식인 계층 통합 메모리(LIMe)를 소개합니다. 다양한 아키텍처와 조회 메커니즘에 걸친 광범위한 실험을 통해, 우리는 다양한 작업에서 일관된 성능 향상을 입증합니다. 더욱이, 학습된 표현 역학에 대한 분석과 깊이별 회로 탐구를 통해 LIMe가 계층 간 정보를 통합하는 방식을 밝히며, 향후 연구를 위한 유망한 방향을 제시합니다.
다양한 금융 데이터에 미세 조정된 대규모 언어 모델(LLMs)은 다양한 금융 업무에서 인상적인 추론 능력을 보여주었습니다. 그러나 거래와 같은 상호작용적인 금융 시장에서 목표 지향적인 다단계 시나리오에서는 복잡한 에이전트 기반 접근 방식이 필요하여 의사 결정을 개선하기 어려운 경우가 많습니다. 이를 해결하기 위해, 우리는 FLAG-Trader라는 통합 아키텍처를 제안합니다. 이 아키텍처는 언어 처리(LLMs를 통해)와 그래디언트 기반 강화 학습(RL) 정책 최적화를 통합하며, 부분적으로 미세 조정된 LLM이 정책 네트워크로 작동하여 사전 학습된 지식을 활용하면서도 매개변수 효율적 미세 조정을 통해 금융 도메인에 적응합니다. 거래 보상에 의해 주도되는 정책 그래디언트 최적화를 통해, 우리의 프레임워크는 거래에서의 LLM 성능을 향상시킬 뿐만 아니라 다른 금융 도메인 작업에서도 결과를 개선합니다. 이러한 개선을 검증하기 위한 광범위한 실증적 증거를 제시합니다.
공간 지능은 구현된 AI의 핵심 구성 요소로, 로봇이 주변 환경을 이해하고 상호작용할 수 있도록 촉진합니다. 최근의 발전으로 시각 언어 모델(VLM)이 물체의 위치와 위치 관계를 인지하는 능력이 향상되었지만, 여전히 물체의 방향을 정확히 이해하는 데는 한계가 있습니다. 이는 세밀한 조작 작업에 있어서 중요한 요구 사항입니다. 이러한 한계를 해결하기 위해서는 기하학적 추론뿐만 아니라 방향을 표현할 수 있는 직관적이고 표현력 있는 방법이 필요합니다. 이러한 맥락에서, 우리는 자연어가 표준 좌표계보다 더 유연한 표현 공간을 제공하며, 특히 명령 수행 로봇 시스템에 적합하다고 제안합니다. 본 논문에서는 '시맨틱 방향(semantic orientation)'이라는 개념을 소개합니다. 이는 물체의 방향을 자연어를 사용하여 기준 좌표계 없이 정의합니다(예: USB의 '플러그인' 방향이나 칼의 '손잡이' 방향). 이를 지원하기 위해, 우리는 기하학적 이해와 기능적 의미를 연결하는 시맨틱 방향으로 주석이 달린 대규모 3D 모델 데이터셋인 OrienText300K를 구축했습니다. 시맨틱 방향을 VLM 시스템에 통합함으로써, 로봇이 위치와 방향 제약을 모두 고려한 조작 동작을 생성할 수 있게 되었습니다. 시뮬레이션과 실제 환경에서의 광범위한 실험을 통해, 우리의 접근 방식이 로봇 조작 능력을 크게 향상시킴을 입증했습니다(예: Open6DOR에서 48.7% 정확도, SIMPLER에서 74.9% 정확도).
실제 애플리케이션에 대규모 언어 모델(LLMs)을 배포할 때는 유해한 사용자 프롬프트를 탐지하고 차단하기 위해 견고한 안전 보호 모델이 필요합니다. 대규모 안전 보호 모델은 강력한 성능을 달성하지만, 그 계산 비용이 상당합니다. 이를 완화하기 위해 더 작은 규모의 증류된 모델이 사용되지만, 이러한 모델은 대규모 모델이 정확한 예측을 제공하는 "어려운" 사례에서 종종 성능이 떨어집니다. 우리는 많은 입력이 더 작은 모델에 의해 안정적으로 처리될 수 있는 반면, 일부 사례만이 대규모 모델의 능력을 필요로 한다는 점을 관찰했습니다. 이를 바탕으로 우리는 어려운 사례와 쉬운 사례를 구분하는 이진 라우터인 SafeRoute를 제안합니다. 우리의 방법은 라우터가 어렵다고 판단한 데이터에만 대규모 안전 보호 모델을 선택적으로 적용하여, 대규모 안전 보호 모델만 사용하는 경우와 비교해 효율성을 개선하면서도 정확도를 유지합니다. 여러 벤치마크 데이터셋에서의 실험 결과는 우리의 적응형 모델 선택이 계산 비용과 안전 성능 간의 균형을 크게 개선하며, 관련 기준선을 능가함을 보여줍니다.
대규모 언어 모델(LLMs)은 학습 단계에서의 스케일링을 통해 우수한 성능을 달성하며, 추론 과정에서 효과적인 사고를 수행함으로써 테스트 단계에서의 스케일링은 그 능력을 더욱 향상시킵니다. 그러나 사고의 규모가 커질수록, 기존의 테스트 단계 스케일링 방법은 축적된 과거 정보로 인해 문제를 겪게 되는데, 이는 계산 자원을 낭비할 뿐만 아니라 효과적인 사고를 방해합니다. 이 문제를 해결하기 위해, 우리는 복잡한 사고 과정이 종종 독립적인 하위 질문들의 시퀀스를 해결함으로써 이루어지며, 각 하위 질문은 자체적으로 완결되고 검증 가능하다는 점을 관찰했습니다. 이러한 하위 질문들은 본질적으로 원자적 질문으로, 주로 현재 상태에 의존하며 축적된 과거에 크게 의존하지 않습니다. 이는 마르코프 프로세스에서의 무기억 전이와 유사합니다. 이러한 관찰을 바탕으로, 우리는 '사고의 원자(Atom of Thoughts, AoT)'를 제안합니다. 여기서 사고 과정의 각 상태 전이는 현재 질문을 의존성 기반의 방향성 비순환 그래프로 분해하고, 그 하위 질문들을 축약하여 새로운 원자적 질문 상태를 형성하는 것으로 이루어집니다. 이 반복적인 분해-축약 과정은 직접 해결 가능한 원자적 질문에 도달할 때까지 계속되며, 질문 상태 간의 마르코프 전이를 자연스럽게 실현합니다. 더욱이, 이러한 원자적 질문들은 기존의 테스트 단계 스케일링 방법에 원활하게 통합될 수 있어, AoT가 사고 능력을 향상시키는 플러그인 강화 기능으로 사용될 수 있게 합니다. 6개의 벤치마크에서의 실험은 AoT가 독립적인 프레임워크로서뿐만 아니라 플러그인 강화 기능으로서도 효과적임을 입증했습니다. 특히, HotpotQA에서 gpt-4o-mini에 적용된 AoT는 80.6%의 F1 점수를 달성하여 o3-mini를 3.4%, DeepSeek-R1을 10.6% 앞섰습니다. 코드는 https://github.com/qixucen/atom에서 확인할 수 있습니다.
복잡한 추론 과제를 해결하기 위해서는 시각적 이해, 도메인 지식 검색, 수치 계산, 그리고 다단계 추론이 필요할 수 있습니다. 기존의 방법들은 대규모 언어 모델(LLMs)을 외부 도구와 결합하여 사용하지만, 특정 도메인에 한정되거나 제한된 도구 유형만을 지원하며, 추가적인 학습 데이터를 요구하는 한계가 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 OctoTools를 소개합니다. OctoTools는 학습이 필요 없으며 사용자 친화적이고 쉽게 확장 가능한 오픈소스 에이전트 프레임워크로, 다양한 도메인에서 복잡한 추론을 수행하도록 설계되었습니다. OctoTools는 도구의 기능을 캡슐화하는 표준화된 도구 카드, 상위 및 하위 수준의 계획을 담당하는 플래너, 그리고 도구 사용을 실행하는 실행기를 도입합니다. 우리는 OctoTools의 일반성을 검증하기 위해 MathVista, MMLU-Pro, MedQA, GAIA-Text를 포함한 16가지 다양한 과제에서 실험을 진행했으며, GPT-4o 대비 평균 9.3%의 정확도 향상을 달성했습니다. 또한, 동일한 도구 세트를 제공했을 때 OctoTools는 AutoGen, GPT-Functions, LangChain보다 최대 10.6% 더 나은 성능을 보였습니다. 포괄적인 분석과 제거 실험을 통해 OctoTools는 과제 계획, 효과적인 도구 사용, 다단계 문제 해결에서의 장점을 입증했습니다.
광범위한 이미지-텍스트 쌍에 대한 사전 학습 후, Contrastive Language-Image Pre-training (CLIP)은 다양한 벤치마크에서 유망한 성능을 보여줍니다. 그러나 멀티모달 인터리브 문서와 같은 대량의 비페어링 데이터는 여전히 시각-언어 표현 학습에 충분히 활용되지 않고 있습니다. 이러한 비페어링 문서를 완전히 활용하기 위해, 우리는 먼저 고품질 이미지와 텍스트를 추출하기 위한 Real-World Data Extraction 파이프라인을 구축합니다. 그런 다음, 각 이미지를 여러 의미적으로 관련된 현실적인 텍스트와 효율적으로 연결하기 위해 계층적 검색 방법을 설계합니다. 더 나아가 세밀한 시각 정보를 강화하기 위해, 합성 텍스트 생성을 위한 이미지 의미 증강 생성 모듈을 제안합니다. 또한, 데이터셋의 다양성을 개선하고 긴 꼬리 개념을 더 잘 학습할 수 있도록 의미 균형 샘플링 전략을 사용합니다. 이러한 혁신을 바탕으로, 우리는 현실적이고 합성된 텍스트를 결합한 RealSyn 데이터셋을 15M, 30M, 100M 세 가지 규모로 구축합니다. 광범위한 실험을 통해 RealSyn이 시각-언어 표현 학습을 효과적으로 발전시키고 강력한 확장성을 보여준다는 것을 입증합니다. RealSyn으로 사전 학습된 모델은 여러 다운스트림 작업에서 최첨단 성능을 달성합니다. 향후 연구를 촉진하기 위해, RealSyn 데이터셋과 사전 학습된 모델 가중치는 https://github.com/deepglint/RealSyn에서 공개되었습니다.
대규모 언어 모델(LLM)에서의 테스트 시점 스케일링(test-time scaling)의 등장, 특히 OpenAI의 o1 시리즈가 대표적인 예로, 추론 과정에서의 계산 자원 할당을 스케일링함으로써 추론 능력을 향상시켰다. QwQ, Deepseek-R1(R1), LIMO와 같은 후속 모델들이 이러한 발전을 재현하고 있지만, 이러한 모델들이 실제로 테스트 시점 스케일링 능력을 갖추고 있는지는 아직 충분히 탐구되지 않았다. 본 연구에서는 이러한 o1 유사 모델들의 긴 사고 연쇄(CoT)가 항상 정확도를 향상시키지는 않는다는 것을 발견했으며, 오히려 동일한 질문에 대해 정답이 오답보다 더 짧은 경우가 많다는 점을 확인했다. 추가 조사를 통해 이 현상이 모델의 자가 수정(self-revision) 능력과 밀접하게 관련되어 있음을 알 수 있었는데, 긴 CoT에는 더 많은 자가 수정이 포함되어 있으며, 이는 종종 성능 저하로 이어졌다. 이어서 QwQ, R1, LIMO에 대해 순차적 스케일링과 병렬 스케일링 전략을 비교한 결과, 병렬 스케일링이 더 나은 커버리지와 확장성을 달성함을 발견했다. 이러한 통찰을 바탕으로, 우리는 병렬 스케일링 전략과 CoT 길이 특성을 결합한 '최단 다수결(Shortest Majority Vote)' 방법을 제안했다. 이 방법은 기존의 다수결 방식에 비해 모델의 테스트 시점 스케일링 능력을 크게 개선시켰다.
대규모 언어 모델(LLMs)은 미세 조정 후 하위 작업에 잘 적응하지만, 이러한 적응성은 종종 프롬프트 강건성을 저해합니다. 사소한 프롬프트 변동만으로도 성능이 크게 저하될 수 있기 때문입니다. 이를 해결하기 위해, 우리는 미세 조정 중에 프롬프트를 동적으로 조정하는 간단하면서도 효과적인 접근 방식인 프롬프트-불가지론적 미세 조정(Prompt-Agnostic Fine-Tuning, PAFT)을 제안합니다. 이 방법은 모델이 특정 프롬프트 표현에 과적합되는 대신, 기본 작업 원리를 학습하도록 장려합니다. PAFT는 두 단계로 진행됩니다: 첫째, 다양한 의미 있는 합성 후보 프롬프트 집합을 구성합니다. 둘째, 미세 조정 중에 이 집합에서 무작위로 프롬프트를 샘플링하여 동적 학습 입력을 생성합니다. 다양한 데이터셋과 LLMs에 걸친 광범위한 실험을 통해, PAFT로 훈련된 모델이 보이지 않은 프롬프트를 포함한 다양한 프롬프트에서 강력한 강건성과 일반화 능력을 보이는 것을 입증했습니다. 이러한 강건성 향상은 모델 성능과 추론 속도를 모두 개선하면서도 훈련 효율성을 유지합니다. 추가적인 절제 연구는 PAFT의 효과를 더욱 확인시켜 줍니다.
최근 텍스트 설명으로부터 기호적 세계 모델(symbolic world models)을 생성하기 위해 대규모 언어 모델(LLMs)을 활용하는 데 대한 관심이 높아지고 있습니다. LLMs는 세계 모델링(world modeling) 맥락에서 광범위하게 연구되었지만, 기존 연구들은 평가의 무작위성, 간접 지표에 대한 의존성, 제한된 도메인 범위 등 여러 가지 과제에 직면했습니다. 이러한 한계를 해결하기 위해, 우리는 계획 도메인 정의 언어(PDDL)를 기반으로 한 새로운 벤치마크인 Text2World를 소개합니다. 이 벤치마크는 수백 가지 다양한 도메인을 포함하며, 보다 견고한 평가를 위해 다중 기준 실행 기반 지표를 사용합니다. 우리는 Text2World를 사용하여 현재의 LLMs를 벤치마킹했으며, 대규모 강화 학습으로 훈련된 추론 모델이 다른 모델들을 능가하는 것을 확인했습니다. 그러나 가장 성능이 뛰어난 모델조차도 세계 모델링에서 제한된 능력을 보였습니다. 이러한 통찰을 바탕으로, 우리는 테스트 시 스케일링(test-time scaling), 에이전트 훈련(agent training) 등 LLMs의 세계 모델링 능력을 향상시키기 위한 여러 유망한 전략을 검토했습니다. 우리는 Text2World가 LLMs를 세계 모델로 활용하는 미래 연구의 기반을 마련하는 중요한 자원이 되기를 바랍니다. 프로젝트 페이지는 https://text-to-world.github.io/에서 확인할 수 있습니다.
Transformer 기반의 대규모 언어 모델(LLM)은 긴 문맥 생성에서 인상적인 성능을 보여줍니다. 문맥 길이를 확장함에 따라, 추론 과정에서 LLM의 메모리 사용량은 키-값 캐시(KV 캐시)에 불균형적으로 집중되었습니다. 본 논문에서는 HEADINFER를 제안하며, 이는 KV 캐시를 CPU RAM으로 오프로드하면서도 GPU 상의 어떤 Transformer 레이어에서도 KV 캐시를 완전히 저장할 필요를 없앱니다. HEADINFER는 세분화된 헤드 단위 오프로딩 전략을 사용하여, GPU 상에서 선택적인 어텐션 헤드의 KV 캐시만 유지하면서 어텐션 출력을 동적으로 계산합니다. Roofline 분석을 통해 HEADINFER가 계산 효율성을 유지하면서도 메모리 사용량을 크게 줄인다는 것을 입증합니다. HEADINFER를 100만 토큰 시퀀스로 Llama-3-8B 모델에서 평가한 결과, KV 캐시의 GPU 메모리 사용량을 128GB에서 1GB로, 전체 GPU 메모리 사용량을 207GB에서 17GB로 감소시켜 BF16 기준 추론 대비 92%의 감소를 달성했습니다. 특히, HEADINFER는 근사 방법 없이도 24GB 메모리를 가진 단일 소비자 GPU(예: NVIDIA RTX 4090)에서 8B 모델로 400만 토큰 추론을 가능하게 합니다.
우리는 Transformer의 교차 계층 정보 흐름을 강화하고 잔차 연결의 한계를 해결하기 위한 간단하면서도 효과적인 방법인 MUltiway Dynamic Dense (MUDD) 연결을 제안한다. 기존의 정적이고 공유된 연결 가중치를 사용하는 밀집 연결 접근법과 달리, MUDD는 Transformer 블록의 각 시퀀스 위치와 분리된 입력 스트림(쿼리, 키, 값 또는 잔차)에 따라 연결 가중치를 동적으로 생성한다. MUDD 연결은 어떤 Transformer 아키텍처에도 원활하게 통합되어 MUDDFormer를 생성할 수 있다. 광범위한 실험 결과, MUDDFormer는 다양한 모델 아키텍처와 규모에서 언어 모델링 작업에서 Transformer를 크게 능가하며, 1.8배에서 2.4배의 계산량으로 학습된 Transformer의 성능을 달성한다. 특히, MUDDPythia-2.8B는 사전 학습 perplexity와 다운스트림 작업에서 Pythia-6.9B와 동등한 성능을 보이며, 5-shot 설정에서는 Pythia-12B와도 경쟁력을 보인다. 이는 단지 0.23%의 매개변수와 0.4%의 계산량만 추가하여 이루어진다. JAX 및 PyTorch로 구현된 코드와 사전 학습된 모델은 https://github.com/Caiyun-AI/MUDDFormer에서 확인할 수 있다.
우리는 의료 시각 이해와 생성 능력을 통합된 자동회귀 패러다임 내에서 구현한 강력한 의료 대형 시각-언어 모델(Med-LVLM)인 HealthGPT를 소개합니다. 우리의 부트스트래핑 철학은 사전 학습된 대형 언어 모델(LLM)에 이질적인 이해 및 생성 지식을 점진적으로 적응시키는 것입니다. 이는 새로운 이질적 저순위 적응(H-LoRA) 기술을 통해 달성되며, 이는 맞춤형 계층적 시각 인식 접근법과 3단계 학습 전략으로 보완됩니다. HealthGPT를 효과적으로 학습시키기 위해, 우리는 VL-Health라는 포괄적인 의료 도메인 특화 이해 및 생성 데이터셋을 구축했습니다. 실험 결과는 HealthGPT가 의료 시각 통합 작업에서 탁월한 성능과 확장성을 보여줍니다. 본 프로젝트는 https://github.com/DCDmllm/HealthGPT에서 확인할 수 있습니다.
YOLO 프레임워크의 네트워크 아키텍처 개선은 오랫동안 중요한 과제였지만, 주로 CNN(Convolutional Neural Network) 기반의 개선에 초점이 맞춰져 왔습니다. 이는 어텐션 메커니즘이 모델링 능력에서 우수함이 입증되었음에도 불구하고, 어텐션 기반 모델들이 CNN 기반 모델들의 속도를 따라잡지 못했기 때문입니다. 본 논문은 이전 CNN 기반 모델들의 속도를 유지하면서 어텐션 메커니즘의 성능 이점을 활용하는 어텐션 중심의 YOLO 프레임워크, 즉 YOLOv12를 제안합니다. YOLOv12는 경쟁력 있는 속도로 모든 인기 있는 실시간 객체 탐지기들을 정확도에서 능가합니다. 예를 들어, YOLOv12-N은 T4 GPU에서 1.64ms의 추론 지연 시간으로 40.6% mAP를 달성하며, 이는 고급 YOLOv10-N / YOLOv11-N을 2.1%/1.2% mAP로 능가하면서도 비슷한 속도를 유지합니다. 이러한 이점은 다른 모델 규모에서도 확장됩니다. YOLOv12는 또한 DETR을 개선한 RT-DETR / RT-DETRv2와 같은 엔드투엔드 실시간 탐지기들을 능가합니다: YOLOv12-S는 RT-DETR-R18 / RT-DETRv2-R18을 42% 더 빠르게 실행하면서도 계산량의 36%, 파라미터의 45%만 사용합니다. 더 많은 비교는 그림 1에 나와 있습니다.
DiLoCo와 같은 분산 최적화 방법은 데이터센터와 같은 다수의 분산 작업자들 간에 매우 큰 모델을 효과적으로 학습시키는 데 유용한 것으로 입증되었습니다. 이러한 방법은 업데이트를 두 부분으로 나눕니다: 내부 최적화 단계에서는 각 작업자가 자신의 로컬 데이터에 대해 독립적으로 여러 최적화 단계를 실행하고, 외부 최적화 단계에서는 내부 업데이트를 동기화합니다. 이러한 접근 방식은 표준 데이터 병렬 학습에 비해 통신량을 크게 줄이지만, 작업자들이 데이터센터인 환경에서는 외부 최적화 단계마다 필요한 블로킹으로 인해 제한된 통신 요구 사항조차도 상당한 속도 저하를 초래할 수 있습니다. 본 논문에서는 외부 최적화 단계가 내부 최적화 단계와 완전히 겹치도록 통신과 계산을 중첩시키는 기법을 통해 이 문제를 완화하는 방법을 탐구합니다. 우리는 특히 'eager updates'라고 명명한 특정 변형이 작업자 간의 낮은 대역폭 환경에서도 표준 DiLoCo와 경쟁력 있는 성능을 제공함을 보여줍니다.
본 논문에서는 대규모 언어 모델(LLM)의 내재적 편향을 해결하기 위해 설계된 새로운 추론 접근법인 Flow-of-Options(FoO)를 소개합니다. FoO는 LLM이 추론 과정에서 다양한 가능성을 체계적으로 탐색할 수 있도록 하며, 이를 기계 학습 작업을 자율적으로 해결하는 FoO 기반 에이전트 시스템(AutoML)을 통해 입증하였습니다. 우리의 프레임워크는 표준 데이터 과학 작업에서 38.2% - 69.2%, 치료 화학 작업에서 37.4% - 47.9%의 성능 향상을 달성하며 최신 기술을 능가합니다. 작업당 총 운영 비용이 $1 미만으로, 비용에 민감한 애플리케이션에 적합합니다. 분류 및 회귀를 넘어, 우리는 FoO 기반 에이전트 시스템이 강화 학습 및 이미지 생성과 같은 작업에 더 광범위하게 적용 가능함을 보여줍니다. 사례 기반 추론과 결합 시 장기 기억을 지원하는 압축적이고 설명 가능한 표현을 통해 LLM 솔루션의 다양성을 강제하는 FoO의 이점으로 인해, 우리의 프레임워크는 현재 최신 AutoML 에이전트 시스템에 비해 상당한 발전을 이루었습니다.
OpenAI-o3 및 DeepSeek-R1과 같은 대규모 추론 모델의 급속한 발전은 비추론 대형 언어 모델(LLM)에 비해 복잡한 추론 능력에서 상당한 개선을 이끌어냈습니다. 그러나 이러한 향상된 능력과 DeepSeek-R1과 같은 모델의 오픈소스 접근성은 특히 오용 가능성과 관련된 심각한 안전 문제를 제기합니다. 본 연구에서는 이러한 추론 모델에 대한 포괄적인 안전 평가를 제시하며, 기존의 안전 벤치마크를 활용하여 이들이 안전 규정을 준수하는지 평가합니다. 또한, 재킹(jailbreaking) 및 프롬프트 주입(prompt injection)과 같은 적대적 공격에 대한 취약성을 조사하여 실제 응용에서의 견고성을 평가합니다. 다각적인 분석을 통해 우리는 네 가지 주요 발견을 도출했습니다: (1) 오픈소스 R1 모델과 o3-mini 모델 간에는 안전 벤치마크와 공격 모두에서 상당한 안전 격차가 존재하며, 이는 R1 모델에 더 많은 안전 노력이 필요함을 시사합니다. (2) 증류된 추론 모델은 안전 정렬된 기본 모델에 비해 더 낮은 안전 성능을 보입니다. (3) 모델의 추론 능력이 강할수록 안전하지 않은 질문에 답변할 때 더 큰 잠재적 피해를 초래할 수 있습니다. (4) R1 모델의 사고 과정은 최종 답변보다 더 큰 안전 문제를 야기합니다. 본 연구는 추론 모델의 보안적 함의에 대한 통찰을 제공하며, R1 모델의 안전성을 더욱 발전시켜 격차를 줄일 필요성을 강조합니다.
대규모의 레이블 없는 데이터셋으로 사전 학습된 파운데이션 모델은 자연어 처리와 컴퓨터 비전 분야에서 혁신을 일으키며 놀라운 일반화 능력을 보여주었고, 이는 사전 학습의 중요성을 강조합니다. 그러나 로보틱스 분야에서는 비싼 로봇 주석의 필요성이나 물리적 세계를 효과적으로 모델링하는 표현의 부족으로 인해 비슷한 성공을 거두기 어려웠습니다. 본 논문에서는 인간 비디오 데이터에서 학습된 저수준 4D 표현을 활용하여 더 나은 사전 학습된 로봇 모델을 제공하는 ARM4R(Auto-regressive Robotic Model)을 소개합니다. 구체적으로, 우리는 단안 깊이 추정을 통해 시간에 걸쳐 2D 표현을 3D 공간으로 리프팅하여 얻은 비디오의 3D 포인트 트래킹 표현을 활용하는 데 초점을 맞춥니다. 이러한 4D 표현은 포인트와 로봇 상태 표현 간의 공유 기하학적 구조를 선형 변환까지 유지하며, 인간 비디오 데이터에서 저수준 로봇 제어로의 효율적인 전이 학습을 가능하게 합니다. 우리의 실험 결과, ARM4R은 인간 비디오 데이터에서 로보틱스로 효율적으로 전이될 수 있으며, 다양한 로봇 환경과 구성에서의 작업 성능을 지속적으로 향상시킵니다.
CoT(Chain-of-Thought) 판단을 생성하는 LLM-as-a-Judge는 널리 채택된 자동 평가 방법으로 자리 잡았습니다. 그러나 CoT 추론이 포괄적이고 심층적인 세부 사항을 포착하지 못해 종종 불완전한 결과를 초래함으로써 그 신뢰성이 훼손되고 있습니다. 기존 방법들은 주로 다수결 투표나 기준 확장에 의존하는데, 이는 CoT의 한계를 해결하기에는 부족합니다. 우리는 Crowd-based Comparative Evaluation을 제안합니다. 이 방법은 추가적인 크라우드 응답을 도입하여 후보 응답과 비교함으로써, 후보 응답 내에 숨겨진 더 깊고 포괄적인 세부 사항을 드러냅니다. 이 과정은 LLM-as-a-Judge가 더 상세한 CoT 판단을 제공하도록 효과적으로 유도합니다. 광범위한 실험을 통해 우리의 접근 방식이 평가 신뢰성을 향상시키며, 5개 벤치마크에서 평균 6.7%의 정확도 향상을 달성함을 입증했습니다. 더욱이, 우리의 방법은 판단 증류를 용이하게 하는 더 높은 품질의 CoT를 생성하고, 지도 미세 조정(SFT)을 위한 거부 샘플링(크라우드 거부 샘플링이라 함)에서 우수한 성능을 보여 더 효율적인 SFT를 가능하게 합니다. 우리의 분석 결과, 우리가 생성한 CoT가 더 포괄적이고 높은 품질을 가지며, 추론 규모가 커질수록 평가 정확도가 향상됨이 확인되었습니다.
대형 언어 모델(LLMs)은 자연어 이해, 텍스트 요약, 기계 번역 등 다양한 작업에서 놀라운 성과를 보여주고 있습니다. 그러나 이러한 범용적인 특성으로 인해 의료, 화학, 법률 분석 등 전문 지식이 요구되는 도메인 특화 애플리케이션에서는 그 효과가 제한될 수 있습니다. 이를 해결하기 위해 연구자들은 도메인 특화 지식을 통합하여 LLMs의 성능을 향상시키는 다양한 방법을 탐구해 왔습니다. 본 조사 논문에서는 이러한 방법들을 네 가지 주요 접근 방식으로 분류하여 종합적으로 살펴봅니다: 동적 지식 주입, 정적 지식 임베딩, 모듈식 어댑터, 그리고 프롬프트 최적화. 각 접근 방식은 유연성, 확장성, 효율성 간의 균형을 유지하면서 LLMs에 도메인 전문성을 부여하는 독특한 메커니즘을 제공합니다. 우리는 이러한 방법들이 LLMs가 특화된 작업을 처리할 수 있도록 하는 방식을 논의하고, 각각의 장단점을 비교하며, 도메인 특화 LLMs와 일반 LLMs의 성능을 평가하고, 이 분야의 도전 과제와 기회를 강조합니다. 또한 이 분야에 관심이 있는 독자들을 위해 일반적으로 사용되는 데이터셋과 벤치마크를 요약했습니다. 연구자들이 최신 연구를 지속적으로 접할 수 있도록, 우리는 특화된 LLM 분야의 연구를 기록하기 위한 오픈소스 저장소를 https://github.com/abilliyb/Knowledge_Injection_Survey_Papers 에서 유지하고 있습니다.
임베딩 모델은 다양한 NLP 애플리케이션에서 정보를 표현하고 검색하는 데 중요한 역할을 합니다. 최근 대규모 언어 모델(LLM)의 발전은 임베딩 모델의 성능을 더욱 향상시켰습니다. 이러한 모델들은 일반적으로 범용 데이터셋에서 벤치마킹되지만, 실제 애플리케이션에서는 도메인 특화 평가가 요구됩니다. 본 연구에서는 금융 도메인을 위해 설계된 MTEB의 특화된 대응물인 Finance Massive Text Embedding Benchmark(FinMTEB)를 소개합니다. FinMTEB는 중국어와 영어로 된 다양한 텍스트 유형(예: 금융 뉴스 기사, 기업 연간 보고서, ESG 보고서, 규제 제출 문서, 실적 발표 회의록 등)을 포함하는 7개 작업에 걸친 64개의 금융 도메인 특화 임베딩 데이터셋으로 구성됩니다. 또한, 우리는 다양한 금융 임베딩 작업을 학습하기 위해 페르소나 기반 데이터 합성 방법을 사용하여 금융에 적합한 모델인 FinPersona-E5를 개발했습니다. FinPersona-E5를 포함한 15개의 임베딩 모델에 대한 광범위한 평가를 통해 세 가지 주요 결과를 도출했습니다: (1) 범용 벤치마크에서의 성능은 금융 도메인 작업과 제한된 상관관계를 보임, (2) 도메인 적응 모델이 범용 모델을 지속적으로 능가함, (3) 놀랍게도, 단순한 Bag-of-Words(BoW) 접근 방식이 금융 의미적 텍스트 유사성(STS) 작업에서 정교한 밀집 임베딩 기법을 능가하며, 이는 현재 밀집 임베딩 기술의 한계를 강조합니다. 본 연구는 금융 NLP 애플리케이션을 위한 견고한 평가 프레임워크를 구축하고, 도메인 특화 임베딩 모델 개발에 중요한 통찰을 제공합니다.
페로브스카이트 태양전지(PSCs)의 급속한 발전은 연구 논문의 기하급수적인 증가를 가져왔으며, 이 분야에서 효율적인 지식 관리 및 추론 시스템의 필요성이 절실해졌습니다. 본 연구에서는 PSCs를 위한 포괄적인 지식 강화 시스템을 제시하며, 이 시스템은 세 가지 핵심 요소를 통합합니다. 첫째, 1,517편의 연구 논문으로부터 구축된 도메인 특화 지식 그래프인 Perovskite-KG를 개발했습니다. 이 그래프는 23,789개의 엔티티와 22,272개의 관계를 포함하고 있습니다. 둘째, 두 가지 상호 보완적인 데이터셋을 생성했습니다: Perovskite-Chat은 새로운 다중 에이전트 프레임워크를 통해 생성된 55,101개의 고품질 질문-답변 쌍으로 구성되어 있으며, Perovskite-Reasoning은 2,217개의 신중하게 선별된 재료 과학 문제를 포함하고 있습니다. 셋째, 두 가지 특화된 대형 언어 모델을 도입했습니다: 도메인 특화 지식 지원을 위한 Perovskite-Chat-LLM과 과학적 추론 작업을 위한 Perovskite-Reasoning-LLM입니다. 실험 결과는 우리의 시스템이 도메인 특화 지식 검색 및 과학적 추론 작업 모두에서 기존 모델을 크게 능가함을 보여주며, PSC 연구에서 문헌 검토, 실험 설계 및 복잡한 문제 해결을 위한 효과적인 도구를 연구자들에게 제공합니다.
대규모 언어 모델(LLM)은 다양한 텍스트 생성 작업에서 뛰어난 능력을 보여주고 있습니다. 그러나 LLM은 여전히 온라인 쇼핑, 과학적 추론, 수학 문제 해결과 같이 다단계 의사결정과 환경 피드백이 필요한 문제에 어려움을 겪고 있습니다. 순수 텍스트 데이터와 달리, 대규모 의사결정 데이터를 수집하는 것은 어려운 과제입니다. 또한, 많은 강력한 LLM은 API를 통해서만 접근 가능하며, 이는 비용과 복잡성으로 인해 에이전트 작업에 대한 미세 조정을 방해합니다. LLM 에이전트의 한계를 해결하기 위해, 우리는 인간의 주석 없이 환경에서 자동으로 보상 모델을 학습할 수 있는 프레임워크를 제안합니다. 이 모델은 LLM 에이전트의 행동 궤적을 평가하고 작업 계획을 위한 휴리스틱을 제공하는 데 사용될 수 있습니다. 구체적으로, 우리의 접근 방식은 하나의 LLM 기반 에이전트를 사용하여 환경을 무작위로 탐색하고 다양한 행동 궤적을 생성하는 것을 포함합니다. 이후, 별도의 LLM을 활용하여 각 궤적에 대한 작업 의도를 할당하고 올바른 응답과 함께 부정적인 응답을 합성합니다. 이 삼중항(작업 의도, 긍정적 응답, 부정적 응답)은 행동 궤적을 점수화할 수 있는 보상 모델을 최적화하기 위한 학습 데이터로 사용됩니다. 우리 프레임워크의 효과와 일반화 가능성은 다양한 에이전트 벤치마크에서 수행된 평가를 통해 입증되었습니다. 결론적으로, 우리가 제안한 프레임워크는 LLM 에이전트의 의사결정 능력을 향상시키는 데 있어 중요한 진전을 나타냅니다. 보상 모델의 학습을 자동화함으로써, 데이터 부족과 API 제한의 문제를 극복하고, 복잡하고 상호작용적인 환경에서 LLM의 응용을 혁신할 가능성을 열었습니다. 이 연구는 다단계 의사결정이 필요한 다양한 실제 문제를 해결할 수 있는 더 정교한 AI 에이전트를 위한 길을 열었습니다.
XLM-R와 같은 다국어 언어 모델이 NLP 분야에서 다국어 처리 능력을 크게 발전시켰음에도 불구하고, 극단적으로 자원이 부족한 언어에서는 여전히 낮은 성능을 보입니다. 이러한 상황은 LLaMA와 Qwen과 같은 현대의 대형 언어 모델(LLM)이 XLM-R보다 훨씬 적은 수의 언어를 지원함에 따라 더욱 악화되고 있으며, 이로 인해 전 세계 많은 언어에 대한 텍스트 생성 모델이 사실상 존재하지 않는 실정입니다. 이러한 문제를 해결하기 위해, 우리는 극단적으로 자원이 부족한 언어에서 텍스트 생성을 위해 다국어 인코더를 적응시키는 새로운 프레임워크를 제안합니다. 인코더와 디코더 간의 가중치를 재사용함으로써, 이 프레임워크는 모델이 인코더의 학습된 의미 공간을 활용할 수 있게 하여, 자원이 부족한 언어에서도 효율적인 학습과 효과적인 일반화를 가능하게 합니다. 이 프레임워크를 중국의 네 가지 소수 민족 언어에 적용하여 XLM-SWCM을 개발했으며, 훨씬 더 큰 모델과 비교해도 다양한 다운스트림 작업에서 우수한 성능을 입증했습니다.
시계열 분석은 전통적인 자기회귀 모델, 딥러닝 모델에서 최근의 트랜스포머(Transformers)와 대형 언어 모델(Large Language Models, LLMs)에 이르기까지 영감을 주는 발전을 거듭해 왔습니다. 이 과정에서 시각 모델을 시계열 분석에 활용하려는 노력도 이루어졌지만, 이 분야에서 시퀀스 모델링에 대한 연구가 주를 이루면서 커뮤니티 내에서 덜 주목받아 왔습니다. 그러나 연속적인 시계열 데이터와 LLMs의 이산적인 토큰 공간 간의 차이, 그리고 다변량 시계열에서 변수 간 상관관계를 명시적으로 모델링하는 데 따른 어려움은 일부 연구의 관심을 동등하게 성공적인 대형 시각 모델(Large Vision Models, LVMs)과 시각 언어 모델(Vision Language Models, VLMs)로 전환시켰습니다. 기존 문헌의 공백을 메우기 위해, 본 조사 논문은 시계열 분석에서 시각 모델이 LLMs에 비해 갖는 장점을 논의합니다. 이 논문은 시계열을 이미지로 인코딩하는 방법과 다양한 작업을 위해 이미지화된 시계열을 모델링하는 방법을 포함한 핵심 연구 질문에 답하는 상세한 분류 체계의 이중 관점으로 기존 방법들을 포괄적이고 심층적으로 검토합니다. 또한, 이 프레임워크에서 전처리 및 후처리 단계에서의 과제를 다루고, 시각 모델을 활용한 시계열 분석을 더욱 발전시킬 미래 방향을 제시합니다.