번역이 포함된 일일 선별된 AI 연구 논문
언어 모델이 계속해서 확장되는 가운데, 대규모 언어 모델(Large Language Models, LLMs)은 문맥 내 학습(In-Context Learning, ICL)에서 부상하는 능력을 보여주었습니다. 이를 통해 몇 가지 문맥 내 시연(In-Context Demonstrations, ICDs)을 접두어로 사용하여 언어 작업을 해결할 수 있게 되었습니다. 이러한 발전을 영감으로, 연구자들은 이러한 기술을 확장하여 문맥 내 학습 능력을 갖춘 대규모 다중 모달 모델(Large Multimodal Models, LMMs)을 개발했습니다. 그러나 기존의 LMMs는 중요한 문제에 직면하고 있습니다: 종종 다중 모달 시연에서 시각적 문맥을 효과적으로 활용하지 못하고 텍스트 패턴을 단순히 따르는 것입니다. 이는 LMMs가 다중 모달 시연과 모델 출력 간 효과적인 정렬을 달성하지 못한다는 것을 나타냅니다. 이 문제를 해결하기 위해 우리는 Symbol Demonstration Direct Preference Optimization (SymDPO)을 제안합니다. 구체적으로, SymDPO는 다중 모달 시연을 구성하는 전통적 패러다임을 깨고, 인스턴스 내의 텍스트 답변을 대체하기 위해 무작위 기호를 사용합니다. 이를 통해 모델이 시연 이미지를 주의 깊게 이해하고, 이미지와 기호 간의 관계를 확립하여 질문에 올바르게 답변할 수 있도록 합니다. 우리는 이 방법의 효과를 여러 벤치마크에서 검증하여, SymDPO를 사용하면 LMMs가 예제 내 다중 모달 문맥을 더 효과적으로 이해하고, 이 지식을 활용하여 질문에 더 나은 답변을 할 수 있음을 입증합니다.
선형 레이어에 대한 양자화는 널리 사용되어 왔지만, 주의 집중 과정을 가속화하기 위한 적용은 제한되어 있습니다. SageAttention은 8비트 행렬 곱셈, 16비트 행렬 곱셈과 16비트 누산기, 정확하고 2배 속도 향상 커널을 FlashAttention2와 비교하여 구현하는 정밀한 방법을 사용합니다. 정밀도를 유지하면서 주의 계산의 효율성을 더 향상시키기 위해 SageAttention2를 제안합니다. 이는 상당히 빠른 4비트 행렬 곱셈(Matmul)과 추가 정밀도 향상 기술을 사용합니다. 먼저, 행렬(Q, K)을 워프 수준의 INT4로 양자화하고 행렬(widetilde P, V)을 FP8로 양자화하는 것을 제안합니다. 둘째, Q와 V를 부드럽게 만드는 방법을 제안하여 INT4 QK와 FP8 PV로 주의의 정확도를 향상시킵니다. 셋째, 시간 단계와 레이어를 통해 양자화 정확도를 분석한 후, 다양한 모델에서 최종 메트릭을 보장하기 위해 적응형 양자화 방법을 제안합니다. SageAttention2의 초당 연산 횟수(OPS)는 RTX4090에서 FlashAttention2와 xformers를 각각 약 3배와 5배 초과합니다. 포괄적인 실험을 통해 우리의 접근 방식이 대규모 언어 처리, 이미지 생성 및 비디오 생성을 포함한 다양한 모델에서 미미한 최종 메트릭 손실을 초래한다는 것이 확인되었습니다. 코드는 https://github.com/thu-ml/SageAttention에서 사용할 수 있습니다.
비디오 생성 기술은 상당한 발전을 이루었지만, 이러한 모델을 평가하는 것은 여전히 어려운 과제입니다. 비디오 생성에 대한 포괄적인 평가 기준은 두 가지 이유로 필수적입니다: 1) 기존 메트릭이 인간의 지각과 완전히 일치하지 않기 때문입니다. 2) 이상적인 평가 시스템은 비디오 생성의 미래 발전에 대한 통찰을 제공해야 합니다. 이를 위해 "비디오 생성 품질"을 구체적이고 계층적이며 분리된 차원으로 분해하는 포괄적인 벤치마크 스위트인 VBench를 제안합니다. 각 차원은 맞춤형 프롬프트와 평가 방법을 갖추고 있습니다. VBench는 몇 가지 매력적인 특성을 갖고 있습니다: 1) 포괄적인 차원: VBench는 비디오 생성의 16가지 차원(예: 주체 신원 불일치, 움직임 부드러움, 시간적 깜빡임, 공간적 관계 등)으로 구성되어 있습니다. 세밀한 수준의 평가 메트릭은 개별 모델의 강점과 약점을 드러냅니다. 2) 인간과의 일치: 우리는 각 평가 차원에 대한 인간 선호 주석 데이터셋을 제공하여 우리의 벤치마크가 인간 지각과 일치하는지를 검증합니다. 3) 가치 있는 통찰: 우리는 현재 모델의 다양한 평가 차원 및 콘텐츠 유형에 걸친 능력을 살펴보며, 비디오와 이미지 생성 모델 간의 간극을 조사합니다. 4) 다재다능한 벤치마킹: VBench++는 텍스트에서 비디오 및 이미지에서 비디오로의 평가를 지원합니다. 다양한 이미지에서 비디오 생성 설정 간의 공정한 평가를 위해 적응형 종횡비를 갖춘 고품질 이미지 스위트를 소개합니다. 기술적 품질을 평가하는 것을 넘어, VBench++는 비디오 생성 모델의 신뢰성을 평가하여 모델 성능에 대한 종합적인 시각을 제공합니다. 5) 완전한 오픈 소스: 우리는 VBench++를 완전히 오픈 소스로 제공하고 비디오 생성 분야를 발전시키기 위해 지속적으로 새로운 비디오 생성 모델을 리더보드에 추가합니다.
최근에는 고급 비디오 분석 기능을 갖춘 대규모 다중 모달 모델(LMMs)이 상당한 관심을 받고 있습니다. 그러나 대부분의 평가는 VideoMME 및 LongVideoBench와 같은 벤치마크에서 객관식 문제와 같은 전통적인 방법에 의존하며, 이러한 방법은 실제 사용자의 복잡한 요구 사항을 충분히 포착하기에 부족할 수 있습니다. 이 한계를 극복하기 위해 - 그리고 비디오 작업에 대한 인간 주석의 비용이 높고 속도가 느린 문제로 인해 - 우리는 LMSYS Chatbot Arena의 프레임워크에서 영감을 받은 VideoAutoArena를 소개합니다. 이는 LMMs의 비디오 분석 능력을 자동으로 평가하기 위해 설계된 아레나 스타일의 벤치마크입니다. VideoAutoArena는 사용자 시뮬레이션을 활용하여 비디오 이해 모델의 성능을 엄격하게 평가하는 개방형 적응형 질문을 생성합니다. 이 벤치마크는 수정된 ELO Rating System을 활용하여 여러 LMMs 간의 공정하고 지속적인 비교를 위한 자동화된 확장 가능한 평가 프레임워크를 특징으로 합니다. 우리의 자동 심사 시스템을 검증하기 위해 인간 주석의 신중하게 선별된 하위 집합을 사용하여 '골드 표준'을 구축하고, 우리의 아레나가 인간 판단과 강력하게 일치하면서도 확장 가능성을 유지함을 보여줍니다. 또한, 모델이 더 어려운 비디오 분석 시나리오를 처리하도록 밀어내기 위해 점진적으로 질문 복잡성을 높이는 결함 주도 진화 전략을 소개합니다. 실험 결과는 VideoAutoArena가 최첨단 LMMs 간에 효과적으로 차별화되며, 모델의 강점과 개선 영역에 대한 통찰을 제공한다는 것을 보여줍니다. 평가를 더욱 간소화하기 위해, 우리는 VideoAutoArena 전투의 하위 집합에서 인간 주석자가 우승자를 레이블링하는 보조 벤치마크인 VideoAutoBench를 소개합니다. 우리는 GPT-4o를 심사관으로 사용하여 이러한 인간 확인된 답변과 비교합니다. VideoAutoArena와 VideoAutoBench는 사용자 중심의 비디오 분석에서 LMMs를 평가하기 위한 비용 효율적이고 확장 가능한 프레임워크를 제공합니다.
세그먼트 어떠한 모델 2 (SAM 2)은 객체 분할 작업에서 강력한 성능을 보여주었지만, 시각적 객체 추적에서 도전을 겪고 있습니다. 특히, 혼잡한 장면에서 빠르게 움직이거나 자기 가려지는 객체를 관리할 때 어려움을 겪습니다. 게다가, 원본 모델의 고정 창 메모리 접근 방식은 다음 프레임을 위해 이미지 특징을 조건으로 선택된 메모리의 품질을 고려하지 않아 비디오에서 오류 전파를 유발합니다. 본 논문에서는 시각적 객체 추적을 위해 특별히 설계된 SAM 2의 향상된 적응인 SAMURAI를 소개합니다. 제안된 움직임 인식 메모리 선택 메커니즘을 통해 시간적 움직임 단서를 통합함으로써, SAMURAI는 효과적으로 객체 움직임을 예측하고 마스크 선택을 정밀화하여, 재학습이나 세부 조정이 필요 없이 견고하고 정확한 추적을 달성합니다. SAMURAI는 실시간으로 작동하며, 다양한 벤치마크 데이터셋에서 강력한 제로샷 성능을 보여주며, 세세한 조정 없이 일반화할 수 있는 능력을 강조합니다. 평가에서, SAMURAI는 기존 추적기에 비해 성공률과 정밀도에서 상당한 향상을 이루어내며, LaSOT_{ext}에서 7.1%의 AUC 향상과 GOT-10k에서 3.5%의 AO 향상을 달성합니다. 더불어, LaSOT에서 완전 지도 방법과 경쟁력 있는 결과를 달성함으로써, 복잡한 추적 시나리오에서의 견고성과 동적 환경에서의 실제 응용 가능성을 강조합니다. 코드 및 결과는 https://github.com/yangchris11/samurai에서 확인할 수 있습니다.
컨텍스트 창 크기를 확장하면 대규모 언어 모델(Large Language Models, LLMs)이 더 긴 시퀀스를 처리하고 더 복잡한 작업을 수행할 수 있습니다. 회전 위치 임베딩(Rotary Positional Embedding, RoPE)은 상대적인 위치 인코딩 특성으로 인해 긴 컨텍스트 훈련에 이점을 주어 de facto 표준이 되었습니다. 그러나 우리는 BFloat16 형식과 함께 RoPE를 사용할 때 숫자 문제가 발생하여 의도한 상대적인 위치 인코딩에서 특히 긴 컨텍스트 시나리오에서 벗어나는 것을 관찰했습니다. 이 문제는 BFloat16의 제한된 정밀도에서 발생하며 컨텍스트 길이가 증가함에 따라 누적되며, 첫 번째 토큰이 이 문제에 상당한 영향을 미칩니다. 이를 해결하기 위해 BFloat16에서 발생하는 숫자 문제를 완화하고 긴 컨텍스트 기능을 향상시키며 훈련 속도를 높이는 플러그 앤 플레이 어텐션 방법인 AnchorAttention을 개발했습니다. AnchorAttention은 불필요한 어텐션 계산을 줄이고 의미론적 일관성을 유지하며, 첫 번째 토큰을 일관된 위치 ID로 공유 앵커로 취급하여 훈련 컨텍스트 내 모든 문서에서 볼 수 있도록 함으로써 계산 효율성을 향상시킵니다. 세 가지 유형의 LLM에 대한 실험 결과, AnchorAttention이 표준 전체 어텐션 메커니즘과 비교하여 훈련 시간을 50% 이상 단축하면서 긴 컨텍스트 성능을 크게 향상시킨다는 것을 보여줍니다. 우리의 코드는 https://github.com/haonan3/AnchorContext에서 확인할 수 있습니다.
언어 에이전트는 웹 기반 작업을 자동화하는 데 유망한 능력을 보여주었지만, 현재의 반응적 접근은 여전히 인간에 비해 대부분 성능이 떨어집니다. 특히 트리 탐색 방법과 같은 고급 계획 알고리즘을 통합함으로써 이러한 에이전트의 성능을 향상시킬 수 있지만, 실제 웹 사이트에서 트리 탐색을 직접 구현하는 것은 구매 확인과 같은 불가역적인 작업으로 인해 중대한 안전 위험과 실용적 제약이 있습니다. 본 논문에서는 언어 에이전트를 모델 기반 계획으로 보완하는 새로운 패러다임을 소개하며, 복잡한 웹 환경에서 대규모 언어 모델 (LLM)을 세계 모델로 혁신적으로 활용합니다. 우리의 방법인 WebDreamer는 LLM이 웹 사이트 구조와 기능에 대한 포괄적인 지식을 내재적으로 부호화한다는 주요 통찰에 기반합니다. 구체적으로, WebDreamer는 LLM을 사용하여 각 후보 작업에 대한 결과를 시뮬레이션하고(예: "이 버튼을 클릭하면 어떻게 될까?") 자연어 설명을 사용하여 이러한 상상된 결과를 평가하여 각 단계에서 최적의 작업을 결정합니다. 온라인 상호작용이 포함된 두 대표적인 웹 에이전트 벤치마크인 VisualWebArena와 Mind2Web-live에서의 경험적 결과는 WebDreamer가 반응적인 기준에 비해 상당한 향상을 이룬다는 것을 입증합니다. LLM을 웹 환경에서 세계 모델로 사용 가능하게 함으로써, 본 연구는 자동화된 웹 상호작용에서 패러다임 변화의 기초를 마련합니다. 더 넓게는, 우리의 발견은 1) 복잡하고 동적인 환경에서 LLM을 위해 특별히 최적화하는 연구 및 2) 언어 에이전트를 위한 모델 기반 사양 계획에 대한 미래 연구를 위한 흥미로운 새로운 방향을 열어줍니다.
확산 모델은 이미지 생성에서 뛰어나지만, 그들을 제어하는 것은 여전히 어려운 과제입니다. 우리는 스타일 조건 이미지 생성 문제에 초점을 맞춥니다. 예시 이미지는 작동하지만 번거롭습니다: MidJourney의 srefs(스타일 참조 코드)는 특정 이미지 스타일을 짧은 숫자 코드로 표현하여 이 문제를 해결합니다. 이러한 코드는 소셜 미디어 전반에 널리 사용되고 있으며, 이미지를 스타일 제어에 사용할 수 있게 해주고 소스 이미지 자체를 게시하지 않아도 되기 때문에 쉽게 공유할 수 있습니다. 그러나 사용자는 자체 이미지에서 srefs를 생성할 수 없으며, 기본 학습 절차가 공개되어 있지 않습니다. 우리는 StyleCodes를 제안합니다: 이미지 스타일을 20자리 base64 코드로 표현하기 위한 오픈 소스 및 오픈 리서치 스타일 인코더 아키텍처 및 학습 절차입니다. 우리의 실험 결과는 우리의 인코딩이 전통적인 이미지-스타일 기술과 비교했을 때 품질 손실이 최소화된다는 것을 보여줍니다.
대규모 다중모달 모델(LMMs)의 최신 발전은 비디오 이해를 포함한 능력을 확장시켰다. 구체적으로, 텍스트-비디오(T2V) 모델은 품질, 이해도 및 지속 시간에서 상당한 진전을 이루었으며, 간단한 텍스트 프롬프트로부터 비디오를 생성하는 데 뛰어나다. 그러나 여전히 AI 생성임을 명확히 신호하는 환각적 콘텐츠를 자주 생성한다. 우리는 T2V 모델에서 환각적 비디오의 대규모 텍스트-비디오 벤치마크인 ViBe를 소개한다. 우리는 Vanishing Subject, Numeric Variability, Temporal Dysmorphia, Omission Error 및 Physical Incongruity라는 다섯 가지 주요 환각 유형을 식별했다. 10개의 오픈 소스 T2V 모델을 사용하여, 우리는 인간에 의해 다섯 가지 범주로 주석이 달린 3,782개의 환각적 비디오로 이루어진 최초의 대규모 데이터셋을 개발했다. ViBe는 T2V 모델의 신뢰성을 평가하고 비디오 생성에서의 환각 탐지 및 완화를 개선하기 위한 기초를 제공하는 독특한 자원이다. 우리는 분류를 기준선으로 설정하고 TimeSFormer + CNN 조합을 포함한 다양한 앙상블 분류기 구성을 제시하며, 이는 0.345의 정확도와 0.342의 F1 점수를 달성하여 최상의 성능을 보여준다. 이 벤치마크는 입력 프롬프트와 보다 정확하게 일치하는 강력한 T2V 모델의 개발을 촉진하기 위한 목적을 가지고 있다.
스케일링 법칙은 단일 데이터 분포에 대한 컴퓨팅 스케일을 통해 기차 손실을 예측하는 믿을만한 방법론을 제공하지만, 분포를 변경할 때 이러한 예측이 어떻게 변해야 하는지에 대한 정보는 적습니다. 본 논문에서는 한 손실을 다른 손실로 예측하는 전략을 유도하고, 이를 적용하여 다양한 사전 훈련 데이터셋 간 및 사전 훈련 데이터에서 하류 작업 데이터로 예측하는 방법을 제시합니다. 우리의 예측은 곡선을 맞추기 위해 사용된 최대 FLOP 예산의 20배에 이르는 범위에서도 잘 외삽됩니다. 더 정확히 말하면, 훈련 컴퓨팅에 의해 쌍으로 매칭된 두 개의 모델이 두 개의 별도 데이터셋에서 훈련된 경우의 (1) 훈련 손실, (2) 단일 모델의 하류 분포에서의 훈련 손실과 테스트 손실, (3) 두 개의 모델이 서로 다른 훈련 데이터셋에서 훈련된 경우의 테스트 손실 사이에 간단한 이동된 거듭제곱 법칙 관계가 있음을 발견했습니다. 이러한 결과는 상당히 다른 사전 훈련 데이터셋(일부는 코드 전혀 없음) 및 다양한 하류 작업에 대해 유효합니다. 마지막으로, 일부 상황에서 이러한 이동된 거듭제곱 법칙 관계가 단일 데이터셋 스케일링 법칙을 외삽하는 것보다 더 정확한 예측을 제공할 수 있다는 것을 발견했습니다.
이미지 생성 확산 생성 모델은 높은 품질의 이미지를 생성할 수 있지만 귀찮은 프롬프트 엔지니어링 비용이 발생합니다. 레이아웃 조건을 도입하여 조절성을 향상시킬 수 있지만, 기존 방법은 레이아웃 편집 능력과 물체 속성에 대한 세밀한 제어를 부족하게 합니다. 다층 생성 개념은 이러한 한계를 극복하기 위한 큰 잠재력을 가지고 있지만, 이미지 인스턴스를 동시에 생성하여 장면 구성을 제한함으로써 세밀한 물체 속성, 3D 공간 내 상대적 위치 및 장면 조작 능력을 제한합니다. 본 연구에서는 세밀한 제어, 유연성 및 상호작용을 위해 설계된 새로운 다단계 생성 패러다임을 제안합니다. 인스턴스 속성을 제어하기 위해 새로운 훈련 패러다임을 고안하여 확산 모델을 조정하여 투명도 정보를 포함한 RGBA 이미지로 고립된 장면 구성 요소를 생성합니다. 복잡한 이미지를 구축하기 위해 이러한 사전 생성된 인스턴스를 활용하고 실제적인 장면에서 구성 요소를 부드럽게 조립하는 다층 복합 생성 프로세스를 도입합니다. 실험 결과, 우리의 RGBA 확산 모델이 물체 속성을 정밀하게 제어하면서 다양하고 높은 품질의 인스턴스를 생성할 수 있는 것을 보여줍니다. 다층 구성을 통해 우리의 접근 방식이 경쟁하는 방법보다 세밀한 물체 외관 및 위치에 대한 제어를 허용하여 매우 복잡한 프롬프트에서 이미지를 구축하고 조작할 수 있음을 입증합니다.
방사선학 보고서 생성(Radiology Report Generation, RRG)의 목표는 방사선 이미지를 기반으로 질병에 대한 일관된 텍스트 분석을 자동으로 생성하여 방사선과 전문의들의 업무 부담을 줄이는 것입니다. RRG에 대한 현재의 AI 기반 방법은 주로 인코더-디코더 모델 아키텍처의 수정에 초점을 맞추고 있습니다. 이 논문은 이러한 접근 방식을 발전시키기 위해 다중 모달 정보를 효과적으로 통합하고 관련 없는 기관으로부터의 잡음의 영향을 줄일 수 있는 Organ-Regional Information Driven (ORID) 프레임워크를 소개합니다. 구체적으로, LLaVA-Med를 기반으로 우리는 먼저 RRG 관련 지침 데이터셋을 구축하여 기관-지역 진단 설명 능력을 향상시키고 LLaVA-Med-RRG를 얻습니다. 그 후, 우리는 기관 기반의 교차 모달 융합 모듈을 제안하여 기관-지역 진단 설명과 방사선 이미지로부터의 정보를 효과적으로 결합합니다. 관련 없는 기관으로부터의 잡음이 방사선 보고서 생성에 미치는 영향을 더 줄이기 위해, 우리는 각 기관 영역의 교차 모달 정보의 상호 연결을 검토하기 위해 그래프 신경망(GNN)을 활용하는 기관 중요도 계수 분석 모듈을 소개합니다. 다양한 평가 지표를 통한 방대한 실험 및 최신 기법과의 비교는 우리의 제안 방법의 우수한 성능을 입증합니다.