번역이 포함된 일일 선별된 AI 연구 논문
대형 비전-언어 모델(LVLMs)에서 이미지는 풍부한 정보를 담은 입력으로 작용합니다. "사진 한 장이 천 개의 말보다 가치 있다"는 속담이 시사하는 대로, 현재 LVLMs에서 하나의 이미지를 표현하는 데는 수백 개에서 수천 개의 토큰이 필요할 수 있습니다. 이로 인해 입력 이미지 해상도가 증가함에 따라 제곱적으로 증가하는 상당한 계산 비용이 발생하며, 결과적으로 교육 및 추론의 효율성에 심각한 영향을 미칩니다. 이전 방법들은 LVLMs의 초기 레이어에서 이미지 토큰의 수를 줄이려고 시도해왔습니다. 그러나 이러한 전략은 필연적으로 중요한 이미지 정보의 손실을 초래하여 모델 성능을 저하시킵니다. 이러한 도전에 대처하기 위해 우리는 경험적 연구를 통해 얕은 레이어에서 LVLMs에게 모든 시각적 토큰이 필요하며, 모델의 깊은 레이어에서 토큰 중복이 점진적으로 증가한다는 것을 밝혀내었습니다. 이에 따라 우리는 LLMs의 효율성을 향상시키기 위한 시각적 중복 감소 전략인 PyramidDrop을 제안합니다. 구체적으로, LVLM을 여러 단계로 분할하고 각 단계의 끝에서 이미지 토큰의 일부를 미리 정의된 비율로 삭제하여 모델 레이어 전체에 걸쳐 피라미드 모양의 시각적 토큰을 생성합니다. 삭제는 무시할 수 있는 시간 오버헤드를 가진 가벼운 유사성 계산에 기반합니다. 광범위한 실험 결과, PyramidDrop은 LLaVA-NeXT의 교육 시간을 40% 줄이고 추론 FLOPs 가속도를 55% 달성할 수 있으며 성능은 비슷합니다. 또한 PyramidDrop은 교육 없이 추론 가속도를 위한 플러그 앤 플레이 전략으로 작동할 수 있으며, 동료들보다 더 나은 성능과 낮은 추론 비용을 제공합니다. PyramidDrop에 의해 소개된 통찰과 방법이 미래 연구에 영감을 주어 이미지 토큰의 역할을 더 깊이 조사할 것을 기대합니다.
우리는 SpectroMotion을 제안합니다. SpectroMotion은 3D 가우시안 스플래팅(3DGS)을 물리 기반 렌더링(PBR) 및 변형 필드와 결합하여 동적 반사 장면을 재구성하는 혁신적인 방법입니다. 이전에 3DGS를 확장하여 동적 장면을 모델링하는 방법은 반사 표면을 정확하게 표현하는 데 어려움을 겪었습니다. 우리의 방법은 변형 중 정확한 표면 법선 계산을 위한 잔차 보정 기술을 도입하여 이 한계를 해결하고, 시간에 따라 변화하는 조명 조건에 적응하는 변형 가능한 환경 맵을 보완합니다. 우리는 코스 투 파인 훈련 전략을 구현하여 장면 기하학과 반사 색상 예측을 크게 향상시킵니다. 우리의 모델이 동적 반사 물체를 포함하는 장면의 시야 합성에 대해 이전 방법보다 우수한 성능을 보이며, 복잡하고 동적이며 반사적인 장면을 렌더링하는 최첨단 방법을 능가하는 유일한 기존 3DGS 방법임을 입증합니다.
시각 언어 모델(VLM)에서의 사고 연쇄(Chain-of-thought, CoT) 추론은 해석 가능성과 신뢰성 향상에 중요합니다. 그러나 현재의 훈련 방법은 간단한 이유를 가진 짧은 주석으로 주도되는 데이터셋에 의존하여 견고한 CoT 추론 데이터가 부족합니다. 본 연구에서는 짧은 답변으로 VLM을 훈련시키는 것이 더 자세한 응답이 필요한 추론 작업에 일반화되지 않음을 보여줍니다. 이를 해결하기 위해 이중 접근법을 제안합니다. 먼저, GPT-4o 모델로부터 이유를 추출하여 훈련 데이터를 보강하고 VLM을 세밀하게 조정하여 CoT 성능을 향상시킵니다. 둘째, 강화 학습을 적용하여 추론 품질을 더 조정합니다. 구체적으로, 모델이 생성한 추론 사슬의 예측을 주석된 짧은 답변과 비교하여 올바른(positive) 및 부정확한(negative) 쌍을 구성합니다. 이 쌍별 데이터를 사용하여 직접 선호 최적화(Direct Preference Optimization) 알고리즘을 적용하여 모델의 추론 능력을 개선합니다. 실험 결과는 벤치마크 데이터셋에서 CoT 추론의 상당한 향상과 직접 답변 예측에 대한 더 나은 일반화를 보여줍니다. 본 연구는 훈련에 자세한 이유를 통합하고 강화 학습을 활용하여 VLM의 추론 능력을 강화하는 중요성을 강조합니다.
자동 맞춤은 최소한의 인간 개입으로 맞춤 시스템을 개발합니다. 자동 맞춤의 핵심은 인간 주석 없이 학습 가능하고 정확한 선호 학습을 위한 선호 신호를 제공하는 데 있습니다. 본 논문에서는 사전에 정의된 원칙에 기반한 고품질 선호 신호를 반복적 훈련 중에 자동으로 생성하는 Self-Steering Optimization (SSO) 알고리즘을 소개합니다. 이를 통해 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없이 수동 주석이 필요 없
우리는 xGen-MM-Vid (BLIP-3-Video)을 제시합니다: 비디오를 위한 다중 모달 언어 모델로, 특히 여러 프레임에 걸쳐 시간 정보를 효율적으로 포착하도록 특별히 설계되었습니다. BLIP-3-Video는 '시간 인코더'를 활용하는데, 이는 전통적인 시각 토크나이저에 추가되어 여러 프레임에 걸친 토큰 시퀀스를 간결한 시각적 토큰 집합으로 매핑합니다. 이를 통해 BLIP3-Video는 경쟁 모델들보다 훨씬 적은 시각적 토큰을 사용할 수 있습니다 (예: 32 대 4608 토큰). 우리는 학습 가능한 시공간 풀링뿐만 아니라 Token Turing Machines과 같은 순차 모델과 같은 다양한 유형의 시간 인코더를 탐구합니다. 실험적으로 BLIP-3-Video가 훨씬 큰 최첨단 모델들 (예: 34B)과 비교할 만한 비디오 질문 응답 정확도를 달성하는 것을 확인하며, 훨씬 작고 (즉, 4B) 시각적 토큰을 더 적게 사용하여 더 효율적입니다. 프로젝트 웹사이트는 다음과 같습니다: https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html
최근 대형 비전 언어 모델(LVLMs)은 다중 모달 쿼리에 대한 현저한 제로샷 대화 및 추론 능력을 보여줍니다. 그러나, 그들은 객체 환각이라는 현상에 시달리는데, 이는 LVLMs가 이미지 입력과 사실적으로 일치하지 않는 텍스트 응답을 생성하기 쉽다는 것을 의미합니다. 저희의 실험 연구는 객체 환각이 기존 LVLMs에서 널리 사용되는 위치 종속성 모델링 디자인인 Rotary Position Encoding (RoPE)와 밀접하게 관련이 있다는 것을 밝혀냈습니다. RoPE의 장기 감쇠로 인해, LVLMs는 다중 모달 입력 시퀀스에서 관련 시각적 단서가 명령 토큰으로부터 먼 거리에 있을 때 더 많이 환각하는 경향이 있습니다. 또한, 다중 모달 정렬 중 시각적 토큰의 순차적 순서를 반전시킬 때 유사한 효과를 관찰합니다. 우리의 실험 결과는 RoPE의 장기 감쇠가 LVLMs가 먼 거리를 가로지르는 시각-명령 상호작용을 포착하는 데 어려움을 겪게 한다는 것을 보여줍니다. 저희는 RoPE의 장기 감쇠에 대응하는 간단하면서 효과적인 위치 정렬 전략인 Concentric Causal Attention (CCA)를 제안합니다. CCA를 사용하면 시각적 토큰이 명령 토큰과 더 잘 상호작용할 수 있어 모델의 지각 능력을 향상시키고 객체 환각을 완화할 수 있습니다. 별다른 장식 없이, 저희의 위치 정렬 방법은 다중 객체 환각 벤치마크에서 기존의 환각 완화 전략을 크게 능가합니다.
지식 증류(Knowledge distillation, KD)은 대규모 교사 언어 모델을 활용하여 작고 성능이 우수한 학생 언어 모델을 교육하는 데 널리 사용됩니다. 미세 조정에서 효과적이지만, 사전 훈련 중에 KD는 효율성, 유연성 및 효과에 도전해야 합니다. 기존 방법은 온라인 교사 추론으로 인해 높은 계산 비용이 발생하거나 교사와 학생 언어 모델 간의 토큰화 일치가 필요하거나 교사가 생성한 훈련 데이터의 어려움과 다양성을 상실할 위험이 있습니다. 이러한 문제를 해결하기 위해 저희는 MiniPLM을 제안합니다. MiniPLM은 교사의 지식을 활용하여 훈련 데이터 분포를 개선함으로써 언어 모델의 사전 훈련을 위한 KD 프레임워크입니다. 효율성을 위해 MiniPLM은 오프라인 교사 언어 모델 추론을 수행하여 교육 시간 비용을 추가하지 않고 여러 학생 언어 모델에 대한 KD를 가능하게 합니다. 유연성을 위해 MiniPLM은 훈련 말뭉치에서만 작동하여 모델 패밀리 간에 KD를 가능하게 합니다. 효과성을 위해 MiniPLM은 대규모와 소규모 언어 모델 간의 차이를 활용하여 훈련 데이터의 어려움과 다양성을 강화하여 학생 언어 모델이 다재다능하고 정교한 지식을 습득하도록 지원합니다. 광범위한 실험 결과, MiniPLM이 9가지 널리 사용되는 하향 작업에서 학생 언어 모델의 성능을 향상시키고 언어 모델링 능력을 향상시키며 사전 훈련 계산을 줄이는 것을 입증합니다. MiniPLM의 이점은 대규모 사전 훈련 규모에까지 확장되며, 스케일링 곡선의 추정을 통해 입증됩니다. 추가 분석 결과, MiniPLM이 모델 패밀리 간의 KD를 지원하고 사전 훈련 데이터의 활용을 향상시킨다는 것을 보여줍니다. 저희의 모델, 코드 및 데이터는 https://github.com/thu-coai/MiniPLM에서 사용할 수 있습니다.
복합 AI 시스템에서 LLM 호출, 검색기, 코드 해석기 또는 도구와 같은 구성 요소들이 상호 연결됩니다. 시스템의 동작은 주로 지시사항이나 도구 정의와 같은 매개변수에 의해 주도됩니다. 최근의 발전으로 인해 이러한 매개변수의 end-to-end 최적화가 LLM을 사용하여 가능해졌습니다. 특히 LLM을 최적화기로 활용하는 것은 그래디언트 계산을 피하고 복잡한 코드와 지시사항을 생성할 수 있기 때문에 효율적입니다. 본 논문은 복합 AI 시스템의 LLM 기반 최적화의 원칙과 떠오르는 동향에 대한 조사를 제시합니다. 복합 AI 시스템의 원형, LLM 기반 end-to-end 최적화 방법, 그리고 미래 방향과 보다 넓은 영향에 대한 통찰을 다룹니다. 중요한 점은 이 조사가 프로그램 분석 개념을 활용하여 LLM 최적화기가 복합 AI 시스템을 최적화하도록 유도되는 방식에 대한 통합된 시각을 제공합니다. 논문의 철저한 목록은 다음 링크에서 확인할 수 있습니다: https://github.com/linyuhongg/LLM-based-Optimization-of-Compound-AI-Systems.
대규모 다중 모달 모델(LMMs)에 대한 연구를 가속화하는 것은 네이티브 언어에서 중요하며, 보다 넓은 인구에 걸쳐 사용자 경험을 향상시키는 데 중요합니다. 본 논문에서는 일본 문화적 맥락을 기반으로 전문가 수준의 작업을 평가하기 위해 설계된 최초의 대규모 일본어 벤치마크인 JMMMU (Japanese MMMU)를 소개합니다. 포괄적인 문화 인식 평가를 용이하게 하기 위해 JMMMU에는 두 가지 보완적인 하위 집합이 포함되어 있습니다: (i) 문화에 중립적인 주제(예: 수학)가 선택되고 일본어로 번역된 문화에 중립적인(CA) 하위 집합, 이를 통해 영어 상대변수 MMMU와 일대일 비교가 가능하며, (ii) 일본 문화적 맥락을 반영하는 새로운 주제로 구성된 문화 특정(CS) 하위 집합. CA 하위 집합을 사용하여 우리는 다수의 LMMs에서 일본어로 평가할 때 성능 저하를 관찰했으며, 이는 순수하게 언어 변이로 인한 것입니다. CS 하위 집합을 사용하여 우리는 그들의 불충분한 일본 문화적 이해를 밝혀내었습니다. 더 나아가 두 하위 집합을 결합함으로써, 일부 LMMs가 CA 하위 집합에서는 잘 수행되지만 CS 하위 집합에서는 그렇지 않음을 확인하여, 언어에 대한 얕은 이해와 문화적 이해 부족을 드러냈습니다. 본 연구가 LMM의 성능을 일본어로 향상시키는 데 도움이 되는 것뿐만 아니라, 다중 언어 LMM 개발을 위한 고수준이고 문화적으로 다양한 벤치마크를 만드는 지침으로 기능하기를 희망합니다. 프로젝트 페이지는 https://mmmu-japanese-benchmark.github.io/JMMMU/에서 확인하실 수 있습니다.
대형 언어 모델(Large Language Models, LLMs)의 높은 계산 비용으로 인해 LLM 압축에 대한 연구가 활발히 진행되어 왔습니다. 양자화, 희소화 또는 구조화된 가지치기와 같은 방법을 통해 이루어진 LLM 압축의 새로운 분야는 동적이고 비균일한 압축 방법에 의해 제공됩니다. 이러한 방법은 압축 수준(예: 희소성)을 블록별이나 심지어 레이어별로 조정하여 정확도 손실을 최소화하면서 전역 압축 임계값을 보장합니다. 그러나 현재의 방법은 주어진 레이어의 "중요성"을 식별하기 위해 휴리스틱에 의존하며, 이는 오차 단조성과 같은 가정에 기초합니다. 즉, 끝에서 끝으로 모델 압축 오류가 레이어별 오류의 합에 비례한다는 것입니다. 본 논문에서는 이 분야를 재검토하고, 주어진 입력 범위에서 증명 가능하게 최적인 동적 압축을 제안합니다. 일반적으로 LLM에서 오류 단조성이 성립하지 않는다는 동기부여적 관찰에서 시작하여, 낮은 레이어별 오류 합을 갖는 압축 모델이 더 높은 오류 합을 갖는 모델보다 성능이 떨어질 수 있다는 문제를 해결하기 위해 EvoPress라는 새로운 일반적인 진화 프레임워크를 제안합니다. EvoPress는 증명 가능한 수렴성과 낮은 샘플 및 평가 복잡성을 갖습니다. 우리는 이론적 보증이 고성능의 실용적 성능으로 이어지는 것을 보여주며, Llama, Mistral 및 Phi 모델의 동적 압축에 대해 매우 경쟁력 있는 실적을 달성했습니다. EvoPress를 통해 우리는 구조적 가지치기(블록/레이어 삭제), 비구조적 희소성, 동적 비트폭을 사용한 양자화와 같은 모든 압축 방법에서 새로운 최고 수준의 결과를 제시했습니다. 코드는 https://github.com/IST-DASLab/EvoPress에서 확인할 수 있습니다.
수학 추론은 인공지능의 상징적인 특징이기 때문에 대규모 언어 모델 (LLM) 연구의 매우 활발한 분야입니다. 그러나 수학 추론이 LLM 매개변수 내에 어떻게 인코딩되는지, 그리고 모델 내에서 분리할 수 있는 기술인지에 대해 탐구한 연구는 거의 없습니다. 이를 통해 수학 성능을 개선하는 데 특정 개입을 허용하고 비수학 행동을 변경하지 않고 수학 추론을 어떻게 인코딩하는지에 대한 이해를 촉진할 수 있습니다. 우리는 MathNeuro(수학 신경외과)라는 LLM에서 수학 특정 매개변수를 분리하는 방법을 소개합니다. MathNeuro는 단순히 전방 전파만 사용하여 수학 특정 매개변수를 분리하는 방법입니다. MathNeuro는 가중치와 활성화를 사용하여 매개변수 중요도를 계산하는 기존 작업을 기반으로 하지만 일반 언어 작업에 중요한 매개변수를 제거함으로써 수학 특정 매개변수를 분리합니다. MathNeuro가 식별한 가지치기 매개변수는 LLM의 수학 추론 능력을 파괴하지 않고 일반 언어 능력을 유지한 채 삭제됩니다. 이러한 매개변수를 작은 상수로 스케일링하면 사전 훈련된 또는 지시에 맞게 조정된 LLM의 성능을 GSM8K에서 4-17% 향상시킬 수 있습니다. MathNeuro는 데이터 효율적입니다. 대부분의 효과는 단일 샘플을 사용하여 수학 특정 매개변수를 식별할 때 유지됩니다. MathNeuro는 미래 작업이 수학 특정 매개변수에 개입할 수 있는 잠재력을 강조합니다.
Novel-view synthesis는 여러 입력 이미지나 비디오에서 장면의 새로운 뷰를 생성하는 것을 목표로 하며, 최근 3D 가우시안 스플래팅(3DGS)과 같은 발전으로 효율적인 파이프라인을 통해 사실적인 렌더링을 성공적으로 구현하였다. 그러나 희소한 입력 뷰와 같은 어려운 환경에서 고품질의 새로운 뷰를 생성하는 것은 여전히 어렵다. 이는 샘플링이 부족한 영역에서 정보가 충분하지 않아 발생하는 문제로, 종종 뚜렷한 아티팩트를 초래한다. 본 논문에서는 3DGS 표현의 품질을 향상시키기 위한 새로운 파이프라인인 3DGS-Enhancer를 제안한다. 우리는 어려운 3D 뷰 일관성 문제를 해결하기 위해 2D 비디오 확산 사전을 활용하여 이를 비디오 생성 과정 내에서 시간적 일관성을 달성하는 것으로 재구성한다. 3DGS-Enhancer는 렌더링된 새로운 뷰의 일관된 잠재적 특징을 복원하고 이를 입력 뷰와 공간-시간 디코더를 통해 통합한다. 향상된 뷰는 초기 3DGS 모델을 세밀하게 조정하는 데 사용되어 렌더링 성능을 크게 향상시킨다. 무한한 장면의 대규모 데이터셋에 대한 광범위한 실험 결과, 3DGS-Enhancer가 최첨단 기법과 비교하여 우수한 재구성 성능과 고품질 렌더링 결과를 제공함을 입증한다. 프로젝트 웹페이지는 https://xiliu8006.github.io/3DGS-Enhancer-project 에서 확인할 수 있다.
대장경은 현재 대장암의 가장 민감한 선별 방법 중 하나입니다. 본 연구는 지능적인 대장경 기술의 최전선과 다중 모달 의료 응용 프로그램에 대한 잠재적 영향을 조사합니다. 이를 위해 우리는 현재의 데이터 중심 및 모델 중심 환경을 대장경 장면 인식을 위한 네 가지 작업을 통해 평가합니다. 이 작업에는 분류, 탐지, 분할 및 시각-언어 이해가 포함됩니다. 이 평가를 통해 도메인별 도전 과제를 식별하고 대장경에서의 다중 모달 연구가 더 많은 탐구를 위해 여전히 열려 있다는 것을 밝혀냅니다. 다가오는 다중 모달 시대를 수용하기 위해 우리는 세 가지 기본적인 계획을 수립합니다. 대규모 다중 모달 지시 조정 데이터 세트 ColonINST, 대장경에 특화된 다중 모달 언어 모델 ColonGPT 및 다중 모달 벤치마크입니다. 이 신속히 발전하는 분야의 지속적인 모니터링을 촉진하기 위해 최신 업데이트를 위한 공개 웹사이트를 제공합니다: https://github.com/ai4colonoscopy/IntelliScope.