HuggingFace Daily Papers

일간 논문

번역이 포함된 일일 선별된 AI 연구 논문

날짜 선택

23 papers found

VidEgoThink: 신체지향 인공지능을 위한 자아중심 비디오 이해 능력 평가
VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI

Oct 15

BySijie Cheng, Kechen Fang, Yangyang Yu, Sicheng Zhou, Bohao Li, Ye Tian, Tingguang Li, Lei Han, Yang Liu

최근 Multi-modal Large Language Models (MLLMs) 분야의 최신 기술 발전은 신체지능 인공지능 분야의 응용 프로그램에 새로운 가능성을 열었습니다. 이전 연구인 EgoThink을 기반으로, 우리는 VidEgoThink을 소개합니다. VidEgoThink은 자아 중심 비디오 이해 능력을 평가하기 위한 포괄적인 벤치마크입니다. MLLMs와 신체지능 인공지능의 저수준 제어 간의 간극을 좁히기 위해 우리는 비디오 질문-답변, 계층 계획, 시각적 기반 및 보상 모델링이라는 네 가지 핵심 상호 관련 작업을 설계했습니다. 수작업 주석 비용을 최소화하기 위해, 우리는 Ego4D 데이터셋을 기반으로 한 자동 데이터 생성 파이프라인을 개발했습니다. 이는 GPT-4o의 사전 지식과 다중 모달 능력을 활용합니다. 그런 다음 세 명의 인간 주석가가 생성된 데이터를 다양성과 품질을 보장하기 위해 걸러내어 VidEgoThink 벤치마크를 만들었습니다. 우리는 API 기반 MLLMs, 오픈 소스 이미지 기반 MLLMs, 그리고 오픈 소스 비디오 기반 MLLMs 세 가지 유형의 모델을 사용하여 광범위한 실험을 수행했습니다. 실험 결과는 GPT-4o를 포함한 모든 MLLMs가 자아 중심 비디오 이해와 관련된 모든 작업에서 성능이 저조하다는 것을 나타냅니다. 이러한 결과는 기본 모델이 신체지능 인공지능의 일인칭 시나리오에 효과적으로 적용되기 위해 상당한 발전이 필요하다는 것을 시사합니다. 결론적으로, VidEgoThink은 인간의 능력과 유사한 자아 중심 시각을 위해 MLLMs를 활용하는 연구 트렌드를 반영하며, 복잡한 현실 환경에서의 적극적인 관찰과 상호 작용을 가능하게 합니다.

HumanEval-V: 코딩 작업을 통해 대규모 다중모달 모델의 시각 이해 및 추론 능력을 평가하기
HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks

Oct 16

ByFengji Zhang, Linquan Wu, Huiyu Bai, Guancheng Lin, Xiao Li, Xiao Yu, Yue Wang, Bei Chen, Jacky Keung

코딩 작업은 대규모 언어 모델 (LLM)을 평가하는 데 유용한데, 고수준 지침의 이해, 복잡한 추론, 기능적 프로그램 구현이 필요하기 때문에 인공 일반 지능을 발전시키는 핵심 능력을 요구합니다. 대규모 다중모달 모델 (LMM)의 발전에도 불구하고, 시각적 추론을 강조하는 작업에서 이러한 모델을 엄격하게 평가하는 코딩 벤치마크의 부족이 여전히 존재합니다. 이 간극을 해결하기 위해, 우리는 HumanEval-V를 소개합니다. 이는 시각적 이해와 추론 능력을 평가하기 위해 특별히 설계된 경량 벤치마크로, LMM의 시각적 이해와 추론 능력을 코드 생성을 통해 평가합니다. HumanEval-V에는 CodeForces 및 Stack Overflow와 같은 플랫폼에서 파생된 108가지 신중하게 설계된 초급 Python 코딩 작업이 포함되어 있습니다. 각 작업은 원래 문제의 맥락과 알고리즘 패턴을 수정하여 적응되었으며, 소스와 구분되도록 시각적 요소가 다시 그려져 잠재적인 데이터 누출을 방지합니다. LMM은 제공된 시각적 맥락과 작업 요구 사항을 개요화한 미리 정의된 Python 함수 서명을 기반으로 코드 솔루션을 완료해야 합니다. 각 작업은 모델이 생성한 솔루션을 철저하고 신뢰할 수 있는 평가를 보장하기 위해 정교하게 수작업된 테스트 케이스로 구성되어 있습니다. 우리는 HumanEval-V를 사용하여 19개의 최첨단 LMM을 평가하여 중요한 도전 과제를 발견했습니다. GPT-4o와 같은 소유 모델은 13%의 pass@1과 36.4%의 pass@10을 달성하는 반면, 700억 개의 매개변수를 가진 오픈 웨이트 모델은 4% 미만의 pass@1을 기록했습니다. 제거 연구는 현재 LMM의 시각적 추론 및 코딩 능력의 한계를 드러냅니다. 이러한 결과는 LMM의 능력을 향상시키기 위한 미래 연구의 주요 영역을 강조합니다. 우리는 코드와 벤치마크를 https://github.com/HumanEval-V/HumanEval-V-Benchmark에서 오픈 소스로 제공하였습니다.

DocLayout-YOLO: 다양한 합성 데이터와 전역-지역 적응적 인식을 통해 문서 레이아웃 분석 향상
DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception

Oct 16

ByZhiyuan Zhao, Hengrui Kang, Bin Wang, Conghui He

문서 레이아웃 분석은 실제 문서 이해 시스템에 있어 중요하나, 속도와 정확도 사이의 어려운 트레이드오프에 직면합니다: 텍스트와 시각적 특징을 활용하는 다중 모달 방법은 더 높은 정확도를 달성하지만 상당한 대기 시간이 발생하며, 시각적 특징에만 의존하는 단일 모달 방법은 빠른 처리 속도를 제공하지만 정확도가 희생됩니다. 이러한 딜레마를 해결하기 위해, 우리는 DocLayout-YOLO를 소개합니다. 이 새로운 접근 방식은 문서 특정 최적화를 통해 정확도를 향상시키면서 속도 장점을 유지합니다. 강력한 문서 사전 훈련을 위해, 우리는 Mesh-candidate BestFit 알고리즘을 소개합니다. 이 알고리즘은 문서 합성을 2차원 바이너리 패킹 문제로 프레임하고, 대규모이며 다양한 DocSynth-300K 데이터셋을 생성합니다. DocSynth-300K 데이터셋에서의 사전 훈련은 다양한 문서 유형에서 세밀 조정 성능을 크게 향상시킵니다. 모델 최적화 측면에서, 우리는 문서 요소의 다중 스케일 변형을 더 잘 처리할 수 있는 Global-to-Local Controllable Receptive Module을 제안합니다. 또한, 다양한 문서 유형에서 성능을 검증하기 위해 DocStructBench라는 복잡하고 도전적인 벤치마크를 소개합니다. 하류 데이터셋에서의 방대한 실험 결과는 DocLayout-YOLO가 속도와 정확도 모두에서 우수함을 입증합니다. 코드, 데이터 및 모델은 https://github.com/opendatalab/DocLayout-YOLO에서 제공됩니다.

다중 모달리티의 저주: 언어, 시각 및 오디오 영역에서의 대규모 다모달 모델의 환각 평가
The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio

Oct 16

BySicong Leng, Yun Xing, Zesen Cheng, Yang Zhou, Hang Zhang, Xin Li, Deli Zhao, Shijian Lu, Chunyan Miao, Lidong Bing

최근 대형 다중 모달 모델(LMMs)의 발전은 다양한 작업에서 성능을 크게 향상시켰으며, 비디오 및 오디오와 같은 추가 모달리티를 더욱 통합하기 위한 노력이 계속되고 있습니다. 그러나 대부분의 기존 LMMs는 환각에 취약하며, 사실적인 다중 모달 입력과 생성된 텍스트 출력 간의 불일치로 인해 다양한 현실 세계 시나리오에서의 적용 가능성이 제한되어 있습니다. 본 논문은 언어, 시각 및 오디오와 같은 세 가지 가장 일반적인 모달리티를 포함하는 LMMs의 환각에 대한 첫 번째 체계적 조사를 제시합니다. 우리의 연구는 환각의 두 가지 주요 원인인 단일 모달 사전에 대한 과도한 의존과 잘못된 모달 간 상관 관계를 밝혀내었습니다. 이러한 도전에 대응하기 위해 우리는 다중 모달리티의 저주(CMM)라는 벤치마크를 소개하였으며, 이를 통해 LMMs에서의 환각을 종합적으로 평가하고 그 근본적인 문제를 상세히 분석합니다. 우리의 연구 결과는 모달리티 통합의 불균형 및 훈련 데이터로부터의 편향과 같은 주요 취약성을 강조하며, 균형 잡힌 교모달 학습과 환각 완화 전략의 강화가 필요함을 강조합니다. 우리의 관측과 연구 결과를 기반으로, LMMs의 신뢰성을 향상시킬 수 있는 잠재적인 연구 방향을 제안합니다.

언어 에이전트의 계획에서의 장벽 공개
Revealing the Barriers of Language Agents in Planning

Oct 16

ByJian Xie, Kexun Zhang, Jiangjie Chen, Siyu Yuan, Kai Zhang, Yikai Zhang, Lei Li, Yanghua Xiao

자율 계획은 인공지능이 처음으로 등장한 이후 계속되어 온 노력이다. 정리된 문제 해결자에 기반을 둔 초기 계획 에이전트들은 특정 작업에 대한 정확한 해결책을 제공할 수 있었지만 일반화가 부족했다. 대형 언어 모델(Large Language Models, LLMs)의 등장과 강력한 추론 능력으로 자동으로 주어진 작업에 대한 합리적인 해결책을 생성함으로써 자율 계획에 대한 관심이 다시 불붙었다. 그러나 이전 연구와 우리의 실험은 현재의 언어 에이전트들이 아직 인간 수준의 계획 능력을 갖고 있지 않다는 것을 보여준다. 최첨단 추론 모델인 OpenAI o1조차도 복잡한 실제 세계 계획 벤치마크 중 하나에서 15.6%에 불과하다. 이것은 중요한 질문을 던진다: 언어 에이전트들이 인간 수준의 계획을 달성하는 데 어떤 것이 방해되는가? 기존 연구들은 에이전트 계획의 성능 저하를 강조했지만, 이에 대한 깊이 있는 근본적인 문제와 이를 해결하기 위해 제안된 전략들의 메커니즘과 한계는 여전히 충분히 이해되지 않고 있다. 본 연구에서는 특성 기여 연구를 적용하여 에이전트 계획을 방해하는 두 가지 주요 요인을 식별하였다: 제약 조건의 한정된 역할과 질문의 영향력의 감소. 또한 현재 전략이 이러한 도전에 대처하는 데 도움이 되지만, 이를 완전히 해결하지는 못한다는 것을 발견했으며, 이는 에이전트들이 아직 인간 수준의 지능에 도달하기까지는 아직 멀은 길이 있다는 것을 나타낸다.

대규모 언어 모델 병합을 위한 모델 유사성 탐색
Exploring Model Kinship for Merging Large Language Models

Oct 16

ByYedi Hu, Yunzhi Yao, Ningyu Zhang, Shumin Deng, Huajun Chen

모델 병합은 대형 언어 모델(LLM)의 능력과 효율성을 향상시키는 핵심 기술 중 하나가 되었습니다. 그러나 어떤 두 모델을 병합할 때 기대되는 성능 향상과 원칙에 대한 이해는 여전히 제한적입니다. 본 연구에서는 생물학적 진화와 유사한 개념으로, LLM 간 유사성이나 관련성의 정도를 나타내는 모델 친족성을 소개합니다. 포괄적인 경험적 분석을 통해, 모델 친족성과 모델 병합 후 성능 향상 사이에 특정한 관계가 있음을 발견했으며, 이는 후보 모델 선택을 지원할 수 있습니다. 이를 바탕으로, 우리는 새로운 모델 병합 전략을 제안합니다: 모델 친족성을 고려한 Top-k Greedy 병합, 이는 벤치마크 데이터셋에서 더 나은 성능을 제공할 수 있습니다. 구체적으로, 모델 친족성을 기준으로 사용함으로써 모델 병합을 지속적으로 수행함으로써 모델 진화 중의 저하(지역 최적해)를 완화할 수 있음을 발견했으며, 모델 친족성은 이러한 함정을 피하는 데 도움이 될 수 있습니다. 코드는 https://github.com/zjunlp/ModelKinship에서 확인할 수 있습니다.

행렬 핵 노름을 통한 대규모 언어 모델 평가
Large Language Model Evaluation via Matrix Nuclear-Norm

Oct 14

ByYahan Li, Tingyu Xia, Yi Chang, Yuan Wu

대형 언어 모델(LLM)이 계속 발전함에 따라 효율적인 평가 지표는 정보를 압축하고 중복을 줄이는 능력을 평가하는 데 중요합니다. 행렬 엔트로피와 같은 전통적인 지표는 가치 있는 통찰을 제공하지만 대규모 모델에서 특이값 분해(SVD)를 사용하여 \( O(n^3) \)의 시간 복잡성으로 연산이 많이 필요합니다. 이 문제를 완화하기 위해 행렬 핵 노름을 소개합니다. 이는 LLM의 데이터 압축 능력을 측정하는 지표로서만 아니라 예측 구분력과 다양성을 모두 포착하기 위한 행렬 랭크의 볼록 근사치로 제공됩니다. 핵 노름을 더 근사하기 위해 \( L_{1,2}-norm \)을 사용하여 모델의 정보 압축 능력을 효과적으로 평가할 수 있습니다. 이 접근 방식은 시간 복잡성을 \( O(n^2) \)로 줄이고 SVD 연산이 필요 없게 합니다. 결과적으로 행렬 핵 노름은 CEREBRAS-GPT 모델에서 크기가 111M에서 6.7B로 증가함에 따라 행렬 엔트로피보다 8배에서 24배 빠른 속도를 달성합니다. 이 성능 차이는 Pythia와 같은 다른 모델에서도 확인되며 더 큰 모델일수록 더 두드러집니다. 또한, 벤치마크 및 모델 응답에 대한 평가는 제안된 행렬 핵 노름이 LLM의 성능을 평가하는 믿을 수 있고 확장 가능하며 효율적인 도구임을 확인합니다. 이는 정확성과 계산 효율성 사이의 균형을 이룹니다. 코드는 https://github.com/MLGroupJLU/MatrixNuclearNorm에서 사용할 수 있습니다.

연속 시간 일관성 모델의 단순화, 안정화 및 확장
Simplifying, Stabilizing and Scaling Continuous-Time Consistency Models

Oct 14

ByCheng Lu, Yang Song

일관성 모델(CM)은 빠른 샘플링을 위해 최적화된 확산 기반 생성 모델의 강력한 클래스입니다. 대부분의 기존 CM은 이산화된 시간 단계를 사용하여 훈련되며, 이는 추가 하이퍼파라미터를 도입하고 이산화 오류에 취약합니다. 연속 시간 공식은 이러한 문제를 완화할 수 있지만, 훈련 불안정성으로 인해 성공이 제한되었습니다. 이에 대응하여, 우리는 확산 모델과 CM의 이전 매개변수화를 통합하고 불안정성의 근본 원인을 식별하는 간소화된 이론적 프레임워크를 제안합니다. 이 분석을 기반으로, 확산 과정 매개변수화, 네트워크 아키텍처 및 훈련 목표에서 주요 개선 사항을 소개합니다. 이러한 변경으로 연속 시간 CM을 전례없이 대규모로 훈련할 수 있게 되었으며, ImageNet 512x512에서 15억 개의 매개변수에 도달했습니다. 우리가 제안하는 훈련 알고리즘은 단 두 개의 샘플링 단계만 사용하여 CIFAR-10에서 2.06, ImageNet 64x64에서 1.48, ImageNet 512x512에서 1.88의 FID 점수를 달성하여, 최고의 기존 확산 모델과 FID 점수 간의 격차를 10% 이내로 좁히고 있습니다.

텍스트-이미지 확산 모델을 위한 장문 텍스트 정렬 개선
Improving Long-Text Alignment for Text-to-Image Diffusion Models

Oct 15

ByLuping Liu, Chao Du, Tianyu Pang, Zehan Wang, Chongxuan Li, Dong Xu

텍스트-이미지 (T2I) 확산 모델의 신속한 발전으로 인해 주어진 텍스트로부터 전례 없는 결과물을 생성할 수 있게 되었습니다. 그러나 텍스트 입력이 길어지면 CLIP과 같은 기존 인코딩 방법은 한계에 직면하며 생성된 이미지를 긴 텍스트와 일치시키는 것이 어려워집니다. 이러한 문제를 해결하기 위해 우리는 LongAlign을 제안합니다. LongAlign은 긴 텍스트를 처리하기 위한 세그먼트 수준 인코딩 방법과 효과적인 정렬 훈련을 위한 분해된 선호도 최적화 방법을 포함합니다. 세그먼트 수준 인코딩을 위해 긴 텍스트는 여러 세그먼트로 나누어 별도로 처리됩니다. 이 방법은 사전 훈련된 인코딩 모델의 최대 입력 길이 제한을 극복합니다. 선호도 최적화를 위해 우리는 분해된 CLIP 기반 선호도 모델을 제공하여 확산 모델을 세밀하게 조정합니다. 구체적으로 T2I 정렬을 위해 CLIP 기반 선호도 모델을 활용하기 위해 그들의 점수 메커니즘을 탐구하고 선호도 점수를 텍스트 관련 부분과 T2I 정렬을 측정하는 부분, 그리고 텍스트와 관련 없는 부분으로 분해할 수 있다는 것을 발견했습니다. 또한, 텍스트와 관련 없는 부분이 세밀 조정 중 공통적인 과적합 문제에 기여한다는 것을 발견했습니다. 이를 해결하기 위해 우리는 이 두 부분에 서로 다른 가중치를 할당하는 다시 가중치 전략을 제안하여 과적합을 줄이고 정렬을 향상시킵니다. 우리의 방법을 사용하여 512번의 세밀한 조정을 통해 512 Stable Diffusion (SD) v1.5를 약 20시간 동안 훈련한 결과, 세밀하게 조정된 SD는 PixArt-alpha 및 Kandinsky v2.2와 같은 강력한 기본 모델을 능가하는 T2I 정렬에서 우수한 성과를 거뒀습니다. 코드는 https://github.com/luping-liu/LongAlign에서 확인할 수 있습니다.

DyVo: 엔티티를 활용한 학습 기반 희소 검색을 위한 동적 어휘
DyVo: Dynamic Vocabularies for Learned Sparse Retrieval with Entities

Oct 10

ByThong Nguyen, Shubham Chatterjee, Sean MacAvaney, Iain Mackie, Jeff Dalton, Andrew Yates

학습된 희소 검색(Learned Sparse Retrieval, LSR) 모델은 종종 사전 훈련된 트랜스포머로부터 어휘를 사용하는데, 이는 종종 개체를 무의미한 조각으로 분할합니다. 개체를 분할하면 검색 정확도가 감소하고 모델이 훈련 데이터에 포함되지 않은 최신 세계 지식을 통합하는 능력이 제한될 수 있습니다. 본 연구에서는 LSR 어휘를 위키피디아 개념 및 개체로 보강하여 모델이 모호성을 더 효과적으로 해소하고 진화하는 지식과 최신 상태를 유지할 수 있도록 합니다. 우리의 접근 방식의 핵심은 동적 어휘(Dynamic Vocabulary, DyVo) 헤드로, 기존 개체 임베딩과 쿼리 또는 문서와 관련된 개체를 식별하는 개체 검색 구성 요소를 활용합니다. 우리는 DyVo 헤드를 사용하여 개체 가중치를 생성하고, 이를 단어 조각 가중치와 병합하여 역 인덱스를 사용한 효율적인 색인 및 검색을 위한 공동 표현을 생성합니다. 세 개의 개체 풍부한 문서 순위 데이터셋을 통한 실험에서, 결과적으로 얻어진 DyVo 모델은 최첨단 베이스라인을 크게 능가합니다.

제어 가능한 안전 정렬: 다양한 안전 요구 사항에 대한 추론 시간 적응
Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements

Oct 11

ByJingyu Zhang, Ahmed Elgohary, Ahmed Magooda, Daniel Khashabi, Benjamin Van Durme

대형 언어 모델(Large Language Models, LLMs)의 안전 정렬에 대한 현재 패러다임은 일반적인 접근 방식을 따릅니다: 모델은 모델 제공 업체가 안전하지 않다고 판단한 콘텐츠와 상호 작용하지 않습니다. 이러한 방식은 문화와 지역에 따라 다양한 사회적 규범을 고려하지 못하여 유연성이 부족합니다. 게다가 사용자들은 다양한 안전 요구를 가질 수 있으며, 정적 안전 기준을 갖는 모델은 유용성이 부족하고 재정렬 비용이 너무 높아질 수 있습니다. 우리는 Controllable Safety Alignment (CoSA)을 제안합니다. 이는 다양한 안전 요구에 모델을 재조정하지 않고 적응시키기 위한 프레임워크로, 고정된 모델을 정렬하는 대신 시스템 프롬프트의 일부로 제공되는 원하는 안전 행동의 자유 형식의 자연어 설명인 안전 구성을 따르도록 모델을 정렬합니다. 모델의 안전 행동을 조정하기 위해 권한이 있는 사용자는 추론 시에 이러한 안전 구성을 수정하기만 하면 됩니다. 이를 위해 우리는 다양한 안전 구성에 쉽게 적응할 수 있도록 LLMs를 정렬하는 데이터 중심 방법인 CoSAlign을 제안합니다. 더불어, 도움이 되는 정도와 구성된 안전을 모두 고려하는 혁신적인 가용성 평가 프로토콜을 고안하여 이를 CoSA-Score로 요약하고, 실제 다양한 안전 요구 사례와 해당 평가 프롬프트로 구성된 CoSApien이라는 인간 작성 벤치마크를 구축합니다. 우리는 CoSAlign이 컨텍스트 정렬을 포함한 강력한 기준에 비해 상당한 가용성 향상을 이끌어낸다는 것을 보여줍니다. 우리의 프레임워크는 LLMs에서 다양한 인간 가치를 더 잘 대표하고 적응시키도록 장려함으로써 그들의 실용성을 높이는 데 기여합니다.

ProSA: LLM의 프롬프트 민감도를 평가하고 이해하기
ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs

Oct 16

ByJingming Zhuo, Songyang Zhang, Xinyu Fang, Haodong Duan, Dahua Lin, Kai Chen

대형 언어 모델(LLMs)은 다양한 작업에서 인상적인 성능을 보여주었지만, 그 성능은 사용된 프롬프트에 매우 민감합니다. 이러한 변동성은 정확한 평가와 사용자 만족에 도전을 제기합니다. 현재 연구는 종종 인스턴스 수준의 프롬프트 변화와 주관적 평가에 미치는 영향을 간과합니다. 이러한 결점을 해결하기 위해 우리는 LLMs에서 프롬프트 민감도를 평가하고 이해하기 위해 설계된 ProSA를 소개합니다. ProSA는 새로운 민감도 측정 항목인 PromptSensiScore를 통합하고 디코딩 신뢰도를 활용하여 근본적인 메커니즘을 명확히 합니다. 다양한 작업에 걸쳐 이루어진 우리의 포괄적인 연구는 프롬프트 민감도가 데이터셋 및 모델에 따라 변동되며, 대형 모델이 향상된 견고성을 나타낸다는 것을 밝혀냅니다. 우리는 소수의 샷 예제가 이러한 민감도 문제를 완화시킬 수 있으며, 주관적 평가도 특히 복잡한 추론 중심 작업에서 프롬프트 민감도의 영향을 받는다는 것을 관찰합니다. 더 나아가, 우리의 결과는 더 높은 모델 신뢰도가 증가된 프롬프트 견고성과 관련이 있다는 것을 보여줍니다. 우리는 이 연구가 LLMs의 프롬프트 민감도 연구에 도움이 되는 도구로 작용할 것으로 믿습니다. 해당 프로젝트는 다음에서 확인할 수 있습니다: https://github.com/open-compass/ProSA .

ZipVL: 동적 토큰 희소화와 KV 캐시 압축을 통한 효율적인 대형 비전-언어 모델
ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression

Oct 11

ByYefei He, Feng Chen, Jing Liu, Wenqi Shao, Hong Zhou, Kaipeng Zhang, Bohan Zhuang

대형 비전-언어 모델(LVLMs)의 효율성은 특히 고해상도 이미지나 비디오가 포함된 시나리오에서 선행 단계에서의 어텐션 메커니즘의 계산 병목과 디코딩 단계에서의 키-값(KV) 캐시 검색의 메모리 병목으로 제한된다. 시각적 콘텐츠는 종종 상당한 중복성을 나타내어 LVLMs 내에서 매우 희소한 어텐션 맵을 생성한다. 이러한 희소성은 어텐션 계산을 가속화하거나 다양한 방법을 통해 KV 캐시를 압축하는 데 활용될 수 있다. 그러나 대부분의 연구는 이러한 병목 중 하나만 다루며 서로 다른 레이어나 작업에 대한 희소성의 동적 조정을 충분히 지원하지 않는다. 본 논문에서는 LVLMs를 위한 효율적 추론 프레임워크인 ZipVL을 제시한다. 이는 중요한 토큰의 동적 비율 할당 전략을 통해 계산 및 메모리 병목을 해결한다. 이 비율은 고정된 하이퍼파라미터가 아닌 레이어별 어텐션 점수 분포에 기반하여 적응적으로 결정되어 덜 복잡한 작업에 대한 효율성을 향상시키면서 더 어려운 작업에 대한 높은 성능을 유지한다. 그런 다음, 정규화된 어텐션 점수에 따라 중요한 토큰을 선택하고, 이러한 중요한 토큰에 대해서만 선행 단계에서 어텐션 메커니즘을 수행하여 가속화한다. 디코딩 단계에서 메모리 병목을 완화하기 위해 중요한 토큰의 캐시에는 고비트 양자화를, 중요하지 않은 토큰에는 저비트 양자화를 적용하는 혼합 정밀도 양자화를 사용한다. 실험 결과 ZipVL은 LongVA-7B 모델의 Video-MME 벤치마크에서 2.6배의 선행 단계 가속화와 GPU 메모리 사용량을 50.0% 줄이는 효과를 보여주며, 정확도 감소는 0.2%로 매우 낮게 유지하면서 LVLMs의 생성 효율성을 획기적으로 향상시킨다.

이미지 자기회귀 모델링을 위한 잠재 공간 안정화: 통합적 시각
Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective

Oct 16

ByYongxin Zhu, Bocheng Li, Hang Zhang, Xin Li, Linli Xu, Lidong Bing

잠재 기반 이미지 생성 모델인 잠재 확산 모델(LDMs)과 마스크 이미지 모델(MIMs)은 이미지 생성 작업에서 주목할만한 성과를 거두었습니다. 이러한 모델들은 일반적으로 VQGAN 또는 VAE와 같은 재구성 오토인코더를 활용하여 픽셀을 더 간결한 잠재 공간으로 인코딩하고 픽셀이 아닌 잠재 공간에서 데이터 분포를 학습합니다. 그러나 이러한 접근은 중요한 질문을 불러일으킵니다. 과연 최적의 선택일까요? 이에 대한 대답으로, 우리는 흥미로운 관찰로 시작합니다. 동일한 잠재 공간을 공유하더라도 자기 회귀 모델은 이미지 생성에서 LDMs와 MIMs에 크게 뒤처지는 것으로 나타났습니다. 이 결과는 NLP 분야와 대조적인데, 거기서는 자기 회귀 모델인 GPT가 지배적인 위치를 확립했습니다. 이러한 불일치에 대응하기 위해, 우리는 잠재 공간과 생성 모델 간의 관계에 대한 통합적인 시각을 제시하며, 이미지 생성 모델링에서 잠재 공간의 안정성을 강조합니다. 더불어, 이미지 생성 모델링을 위해 잠재 공간을 안정화하기 위한 간단하면서 효과적인 이산 이미지 토크나이저를 제안합니다. 실험 결과는 우리의 토크나이저(DiGIT)를 사용한 이미지 자기 회귀 모델링이 다음 토큰 예측 원칙을 통해 이미지 이해와 이미지 생성에 혜택을 준다는 것을 보여줍니다. 이는 GPT 모델에게는 당연한 일이지만 다른 생성 모델에게는 어려운 작업입니다. 놀랍게도, 이미지용 GPT 스타일의 자기 회귀 모델이 처음으로 LDMs를 능가하며, 모델 크기를 확장할 때 GPT와 유사한 큰 개선을 보입니다. 우리의 발견은 최적화된 잠재 공간과 이산 토크나이제이션의 통합이 이미지 생성 모델의 능력을 발전시키는 잠재력을 강조합니다. 코드는 https://github.com/DAMO-NLP-SG/DiGIT에서 확인할 수 있습니다.

ChroKnowledge: 다중 도메인에서 언어 모델의 연대 지식 공개
ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains

Oct 13

ByYein Park, Chanwoong Yoon, Jungwoo Park, Donghyeon Lee, Minbyul Jeong, Jaewoo Kang

대형 언어 모델(LLMs)은 우리 삶의 여러 측면에 상당한 영향을 미쳤습니다. 그러나 그들의 연대적 지식을 평가하고 보증하는 것은 여전히 어려운 문제입니다. 기존 방법들은 지식의 누적적 성질을 다루는 데 한계가 있어 종종 단일 시간 스탬프에 의존합니다. 이를 극복하기 위해 우리는 ChroKnowBench를 소개합니다. 이는 다중 도메인, 시간 의존성, 시간적 상태를 통해 연대적으로 축적된 지식을 평가하기 위해 설계된 벤치마크 데이터셋입니다. 우리의 벤치마크는 지식이 발전하는 부분(예: 과학적 발견, 개정된 법률)과 지식이 일정한 부분(예: 수학적 사실, 상식적 사실)을 구별합니다. 이 벤치마크를 기반으로, 우리는 ChroKnowledge(지식의 연대적 분류)를 제시합니다. 이는 LLMs의 비모수적 연대적 지식을 평가하고 업데이트하기 위한 샘플링 기반 프레임워크입니다. 우리의 평가 결과는 다음과 같습니다: (1) 시간적 지식을 유도하는 능력은 모델이 훈련된 데이터 형식에 따라 다양합니다. (2) LLMs는 지식의 일부를 부분적으로 회상하거나 시간적 경계에서 잘릴 수 있으며 모든 지식 측면을 올바르게 회상하지 못할 수 있습니다. 따라서 우리는 ChroKnowPrompt를 적용하여 주변 시간 범위를 단계별로 탐색함으로써 연대적 지식을 유도하는 깊이 있는 프롬프팅을 제시합니다. 우리는 우리의 프레임워크가 생물 의학 영역(+11.9%)과 일반 영역(+2.8%) 모두에서 전체 타임라인에 걸쳐 전반적인 지식을 성공적으로 업데이트하는 것을 관찰하며, 시간적 지식을 정제하는 데 효과적임을 입증합니다. 이 비모수적 접근법은 오픈 소스 모델 뿐만 아니라 프로프라이어터리 LLMs에서도 지식 업데이트를 가능하게 하여 모델 유형에 걸쳐 포괄적인 적용 가능성을 보장합니다. 우리는 ChroKnowPrompt의 시간적 특성을 기반으로 포괄적인 분석을 수행하고 우리의 방법을 통해 다양한 모델이 내재적 시간적 지식을 유도할 잠재력을 검증합니다.

신경 변이
Neural Metamorphosis

Oct 10

ByXingyi Yang, Xinchao Wang

본 논문은 Neural Metamorphosis(NeuMeta)라는 새로운 학습 패러다임을 소개합니다. 이는 자기 변형 가능한 신경망을 구축하는 것을 목표로 합니다. 다른 아키텍처나 크기에 대해 별도의 모델을 만드는 대신 NeuMeta는 신경망의 연속 가중치 매니폴드를 직접 학습합니다. 학습된 후에는 이 매니폴드에서 어떤 크기의 네트워크에 대한 가중치를 직접 샘플링할 수 있으며, 다시 학습할 필요 없이 이전에 본 적 없는 설정에 대해서도 가능합니다. 이 ehrmfls 목표를 달성하기 위해 NeuMeta는 하이퍼네트워크로서 신경망 암묵적 함수를 학습합니다. 이들은 모델 공간 내 좌표를 입력으로 받아 매니폴드 상에서 해당하는 가중치 값을 생성합니다. 다시 말해, 암묵적 함수는 예측된 가중치가 다양한 모델 크기에 걸쳐 잘 수행되도록 학습됩니다. 이러한 모델을 학습함에 있어서, 학습된 매니폴드의 부드러움이 최종 성능과 밀접한 관련이 있음을 알 수 있습니다. 이 부드러움을 향상시키기 위해 두 가지 전략을 채택합니다. 먼저, Shortest Hamiltonian Path 문제를 해결하여 모델 내부의 부드러움을 달성하기 위해 가중치 행렬을 순열합니다. 또한, 암묵적 함수를 학습할 때 입력 좌표에 노이즈를 추가하여 다양한 크기의 모델이 일관된 출력을 보이도록 합니다. 따라서 NeuMeta는 다양한 네트워크 구성을 위한 매개변수를 합성하는 데 융통성 있는 결과를 보여줍니다. 이미지 분류, 의미 분할 및 이미지 생성에 대한 광범위한 테스트에서 NeuMeta는 75% 압축률에서도 전체 크기의 성능을 유지하는 것으로 나타났습니다.

미세 조정과 모델 병합을 통해 범용 특징 추적하기
Tracking Universal Features Through Fine-Tuning and Model Merging

Oct 16

ByNiels Horn, Desmond Elliott

우리는 다른 텍스트 도메인에서 세밀하게 조정된 모델들 사이에서 특징이 어떻게 발생하고 사라지며 유지되는지 연구합니다. 더 구체적으로는, 우리는 BabyLM 말뭉치와 The Stack의 Python 코드 컬렉션을 결합하여 훈련된 기본 단일 레이어 Transformer 언어 모델에서 시작합니다. 이 기본 모델은 각각 TinyStories와 Lua 프로그래밍 언어 두 새로운 텍스트 도메인으로 적응되며, 그런 다음 이 두 모델은 구면 선형 보간을 사용하여 병합됩니다. 우리의 탐구는 소규모 모델과 희소 오토인코더를 사용하여 전형적인 전이 학습 시나리오에서 특징의 안정성과 변형에 대한 심층적인 통찰력을 제공하는 것을 목표로 합니다.

WorldMedQA-V: 다중언어, 다중모달 의료 검사 데이터셋으로 다중모달 언어 모델 평가
WorldMedQA-V: a multilingual, multimodal medical examination dataset for multimodal language models evaluation

Oct 16

ByJoão Matos, Shan Chen, Siena Placino, Yingya Li, Juan Carlos Climent Pardo, Daphna Idan, Takeshi Tohyama, David Restrepo, Luis F. Nakayama, Jose M. M. Pascual-Leone, Guergana Savova, Hugo Aerts, Leo A. Celi, A. Ian Wong, Danielle S. Bitterman, Jack Gallifant

멀티모달/시각 언어 모델(VLMs)은 전 세계적으로 의료 분야에서 점점 더 많이 활용되고 있으며, 그 안전성, 효과성, 공정성을 보장하기 위한 견고한 기준이 필요하다. 국가 의료 시험에서 파생된 객관식 질문과 답변(QA) 데이터셋은 오랫동안 가치 있는 평가 도구로 사용되어 왔지만, 기존 데이터셋은 주로 텍스트만 포함되어 있으며 언어와 국가의 한정된 부분에서만 제공되고 있다. 이러한 도전에 대처하기 위해, 우리는 의료 분야에서 VLMs를 평가하기 위해 설계된 업데이트된 다국어 멀티모달 벤치마킹 데이터셋인 WorldMedQA-V를 제시한다. WorldMedQA-V에는 네 개국(브라질, 이스라엘, 일본, 스페인)의 568개의 레이블이 지정된 객관식 QA와 각각의 원래 언어와 해당하는 영어 번역이 포함된 568개의 의료 이미지가 포함되어 있다. 일반 오픈 및 폐쇄 소스 모델의 기준 성능은 현지 언어와 영어 번역, 그리고 모델에 이미지를 제공하거나 제공하지 않은 상태로 제공된다. WorldMedQA-V 벤치마크는 AI 시스템을 배포되는 다양한 의료 환경에 더 잘 맞추어, 보다 공정하고 효과적이며 대표적인 응용 프로그램을 육성하는 것을 목표로 한다.

OMCAT: 옴니 컨텍스트 인식 트랜스포머
OMCAT: Omni Context Aware Transformer

Oct 15

ByArushi Goel, Karan Sapra, Matthieu Le, Rafael Valle, Andrew Tao, Bryan Catanzaro

대형 언어 모델(Large Language Models, LLMs)은 텍스트 생성 및 이해 분야에서 상당한 발전을 이루어왔으며, 최근의 진전은 시각 및 오디오 입력을 통합하는 다중 모달 LLMs로 확장되었습니다. 그러나 이러한 모델들은 특히 오디오와 비디오 스트림 간 이벤트 간의 세밀한, 크로스 모달 시간 이해에서 여전히 어려움을 겪고 있습니다. 저희는 이러한 도전 과제들을 OCTAV와 OMCAT이라는 두 가지 주요 기여로 해결합니다. OCTAV(Omni Context and Temporal Audio Video)는 오디오와 비디오 간의 이벤트 전환을 캡처하기 위해 설계된 혁신적인 데이터셋입니다. 둘째로, OMCAT(Omni Context Aware Transformer)은 RoPE의 혁신적인 확장인 RoTE(Rotary Time Embeddings)를 활용하여 시간 기반 작업에서의 시간적 근거화와 계산 효율성을 향상시키는 강력한 모델입니다. 강력한 세 단계의 훈련 파이프라인인 특징 정렬, 지침 조정 및 OCTAV 특화 훈련을 통해 OMCAT은 크로스 모달 시간 이해에서 뛰어난 성과를 보입니다. 저희 모델은 오디오-비주얼 질의 응답(Audio-Visual Question Answering, AVQA) 작업 및 OCTAV 벤치마크에서 최첨단 성능을 보여주며, 포괄적인 실험 및 제거 실험을 통해 검증된 시간적 추론 및 크로스 모달 정렬에서 상당한 향상을 보여줍니다. 저희 데이터셋과 코드는 공개적으로 제공될 예정이며, 데모 페이지 링크는 https://om-cat.github.io 입니다.

역 강화 학습을 통해 LLM 훈련 목표를 재구성하는 통찰력
Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse RL

Oct 16

ByJared Joselowitz, Arjun Jagota, Satyapriya Krishna, Sonali Parbhoo

강화 학습에서 인간 피드백으로 훈련된 대규모 언어 모델 (LLMs)은 놀라운 능력을 보여주었지만, 그들의 내재적 보상 함수와 의사 결정 과정은 여전히 불투명합니다. 본 논문은 역 강화 학습 (IRL)을 적용하여 LLMs를 해석하는 새로운 방법론을 소개합니다. 우리는 다양한 크기의 유해성에 맞춰진 LLMs에 대한 실험을 수행하며, 인간의 선호도를 예측하는 데 최대 80.40%의 정확도를 달성하는 보상 모델을 추출합니다. 우리의 분석은 보상 함수의 식별 불가능성, 모델 크기와 해석 가능성 사이의 관계, 그리고 강화 학습을 통한 잠재적인 함정에 대한 중요한 통찰력을 제공합니다. 우리는 IRL에서 파생된 보상 모델이 새로운 LLMs를 세밀하게 조정하는 데 사용될 수 있음을 입증하며, 유해성 벤치마크에서 비교 가능하거나 향상된 성능을 보여줍니다. 본 연구는 LLM 정렬을 이해하고 개선하는 새로운 시각을 제공하며, 이러한 강력한 시스템의 책임 있는 개발과 배포에 대한 함의를 제시합니다.

신뢰할 수 있는 논리 지원 추론 및 탐색 (FLARE)
FLARE: Faithful Logic-Aided Reasoning and Exploration

Oct 14

ByErik Arakelyan, Pasquale Minervini, Pat Verga, Patrick Lewis, Isabelle Augenstein

현대의 질의응답(QA) 및 추론 접근 방식은 대규모 언어 모델(Large Language Models, LLMs)을 기반으로 하며, 일반적으로 Chain-of-Thought (CoT)과 같은 프롬프팅 기술을 사용하여 질문 공간과 범위에 대한 보다 세부적인 탐색과 추론을 가정합니다. 그러나 이러한 방법은 종종 모델이 생성한 중간 추론 체인에 충실한 출력을 생성하는 데 어려움을 겪습니다. 반면에 Faithful CoT (F-CoT)와 같은 신경 기호화 방법은 LLMs를 외부 기호 해결자와 결합하는 것을 제안합니다. 이러한 방식은 높은 충실도를 자랑하지만 일반적으로 코드 생성에 대한 모델 훈련이 필요하며 모호하거나 엄격하게 형식화하기 어려운 작업에 어려움을 겪습니다. 우리는 Faithful Logic-Aided Reasoning and Exploration (FLARE)이라는 새로운 해석 가능한 접근 방식을 소개합니다. 이 방법은 작업 분해를 사용하여 문제 공간을 탐색합니다. 우리는 LLM을 사용하여 솔루션을 계획하고 논리 프로그래밍 코드를 사용하여 쿼리를 사실과 술어로 부드럽게 형식화하며, 그 코드 실행을 정의된 공간 상의 철저한 다중 점프 검색을 사용하여 시뮬레이션합니다. 우리의 방법을 통해 생성된 코드에 대한 추론 과정의 충실도를 계산하고 외부 해결자에 의존하지 않고 다중 점프 검색 중의 단계를 분석할 수 있습니다. 우리의 방법은 9가지 다양한 추론 벤치마크 중 7가지에서 최고 수준의 결과를 달성합니다. 또한 모델의 충실성이 전반적인 성능과 긍정적으로 상관 관계가 있음을 보여주며, FLARE이 올바른 답변으로 이끄는 데 충분하고 최적의 추론을 제공하는 결정적 요소를 정확히 파악하는 데 도움이 되는 것을 보여줍니다.

명령에서 프롬프트로: AIOS용 LLM 기반 시맨틱 파일 시스템
From Commands to Prompts: LLM-based Semantic File System for AIOS

Sep 23

ByZeru Shi, Kai Mei, Mingyu Jin, Yongye Su, Chaoji Zuo, Wenyue Hua, Wujiang Xu, Yujie Ren, Zirui Liu, Mengnan Du, Dong Deng, Yongfeng Zhang

대형 언어 모델(LLMs)은 LLM 기반 에이전트 및 에이전트 운영 시스템(AIOS)과 같은 지능형 응용 프로그램 및 시스템의 발전에서 상당한 잠재력을 보여주었습니다. 그러나 이러한 응용 프로그램 및 시스템이 기본 파일 시스템과 상호 작용할 때, 파일 시스템은 여전히 전통적인 패러다임을 유지하며 정확한 명령을 통해 수동 탐색에 의존합니다. 이 패러다임은 사용자가 복잡한 폴더 계층 구조를 탐색하고 암호화된 파일 이름을 기억해야 하는 등 이러한 시스템의 사용 편의성에 병목 현상을 초래합니다. 이 한계를 해결하기 위해, 우리는 프롬프트 기반 파일 관리를 위한 LLM 기반 의미론적 파일 시스템(LSFS)을 제안합니다. 기존 방법과 달리 LSFS는 LLM을 통합하여 사용자 또는 에이전트가 자연어 프롬프트를 통해 파일과 상호 작용할 수 있도록 하여 의미론적 파일 관리를 용이하게 합니다. 대규모에서는 의미론적 파일 검색, 파일 업데이트 모니터링 및 요약, 의미론적 파일 롤백과 같은 의미론적 파일 관리 기능을 달성하기 위한 포괄적인 API 세트를 개발합니다. 소규모에서는 파일을 의미론적 색인을 구축하여 저장하고, 다양한 의미론적 작업(CRUD, 그룹화, 조인 등)을 위한 시스콜을 벡터 데이터베이스를 통해 설계하고 구현합니다. 실험 결과, LSFS가 기존 파일 시스템에 비해 사용자의 편의성, 지원 기능의 다양성, 파일 작업의 정확성 및 효율성 면에서 상당한 개선을 제공함을 보여줍니다. 더불어, LLM 통합을 통해 시스템은 내용 요약 및 버전 비교와 같은 더 지능적인 파일 관리 작업을 가능하게 하여 기능을 더욱 향상시킵니다.

LLM에서의 과신 극복: RLHF에서의 보상 보정
Taming Overconfidence in LLMs: Reward Calibration in RLHF

Oct 13

ByJixuan Leng, Chengsong Huang, Banghua Zhu, Jiaxin Huang

언어 모델 보정은 모델의 확신과 실제 성능 간의 조정을 의미합니다. 이전 연구들은 대형 언어 모델(Large Language Models, LLMs)에서의 과신 현상을 지적하고 LLMs가 인간 피드백으로 강화 학습된 경우 더 날카로운 출력 확률로 과신하는 것을 보여주었습니다. 본 연구에서는 인간 피드백을 통한 강화 학습이 모델이 자신의 응답에서 언어적으로 과신을 표현하도록 이끄는 경향이 있다는 것을 밝혀냅니다. 이 과신의 근본적인 원인을 조사하고 Proximal Policy Optimization (PPO)에서 사용되는 보상 모델이 실제 응답의 품질과는 무관하게 높은 확신 점수를 향하는 내재적 편향을 나타내는 것을 입증합니다. 이 통찰을 기반으로 PPO 변형 두 가지를 제안합니다: PPO-M: 보정된 보상 모델링이 적용된 PPO와 PPO-C: 보정된 보상 계산이 적용된 PPO. PPO-M은 보상 모델 훈련에 명시적 확신 점수를 통합하여 응답 품질과 언어적 확신 간의 조정을 더 잘 포착하도록 보상 모델을 보정합니다. PPO-C는 PPO 중 현재 보상과 과거 보상의 이동 평균 간의 차이를 기반으로 보상 점수를 조정합니다. PPO-M과 PPO-C는 현재 PPO 파이프라인에 매끄럽게 통합될 수 있으며 추가적인 골든 레이블이 필요하지 않습니다. 우리의 방법을 다양한 데이터셋을 포함한 여섯 가지 다양한 데이터셋인 Llama3-8B와 Mistral-7B에서 평가합니다. 실험 결과는 우리의 두 가지 방법이 모두 보정 오차를 줄이고 표준 PPO와 비교 가능한 성능을 유지할 수 있다는 것을 보여줍니다. 또한 이들이 오픈엔드 대화 설정에서 모델 능력을 희생시키지 않음을 보여줍니다.