HuggingFace Daily Papers

일간 논문

번역이 포함된 일일 선별된 AI 연구 논문

날짜 선택

16 papers found

비전 언어 모델은 시각적으로 장애가 있습니다.
Vision language models are blind

Jul 9

ByPooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen

시각 능력을 갖춘 대형 언어 모델(VLMs), 예를 들어 GPT-4o와 Gemini 1.5 Pro는 수많은 이미지-텍스트 애플리케이션을 구동하고 다양한 시각 이해 벤치마크에서 높은 점수를 기록하고 있습니다. 그러나 우리는 이러한 VLMs이 인간에게는 너무나 쉬운 7가지 시각적 작업에서 실패한다는 것을 발견했습니다. 예를 들어, (a) 두 원이 겹치는지 여부를 식별하거나, (b) 두 선이 교차하는지 여부를 판단하거나, (c) 단어에서 어떤 글자가 동그라미 쳐져 있는지 확인하거나, (d) 올림픽 로고와 같은 디자인에서 원의 개수를 세는 작업 등이 있습니다. 최신의 네 가지 VLMs의 충격적으로 낮은 성능은 그들의 시각 능력이 최선의 경우 근시안적인 사람이 미세한 세부 사항을 흐리게 보는 것과 같고, 최악의 경우 눈이 먼 지적인 사람이 교육받은 추측을 하는 것과 같다는 것을 시사합니다. 코드는 https://vlmsareblind.github.io/에서 확인할 수 있습니다.

AgentInstruct: 에이전트 흐름을 통한 생성적 교수법을 향하여
AgentInstruct: Toward Generative Teaching with Agentic Flows

Jul 3

ByArindam Mitra, Luciano Del Corro, Guoqing Zheng, Shweti Mahajan, Dany Rouhana, Andres Codas, Yadong Lu, Wei-ge Chen, Olga Vrousgos, Corby Rosset, Fillipe Silva, Hamed Khanpour, Yash Lara, Ahmed Awadallah

합성 데이터는 대형 및 소형 언어 모델 개발을 가속화하는 데 점점 더 중요해지고 있습니다. 여러 성공적인 사례가 있음에도 불구하고, 연구자들은 모델 붕괴와 다른 모델을 모방하는 것의 단점에 대한 우려를 제기했습니다. 이러한 차이는 합성 데이터의 품질과 다양성이 크게 다르다는 사실에 기인할 수 있습니다. 합성 데이터를 효과적으로 사용하려면 일반적으로 데이터를 큐레이션하는 데 상당한 인간의 노력이 필요합니다. 우리는 특히 강력한 모델을 사용하여 새로운 기술이나 행동을 다른 모델에게 가르치기 위해 데이터를 생성하는 사후 훈련(synthetic data for post-training)에 초점을 맞추며, 이를 '생성적 교수법(Generative Teaching)'이라고 부릅니다. 우리는 AgentInstruct를 소개합니다. 이는 텍스트 문서 및 코드 파일과 같은 원시 데이터 소스를 시드로 사용하여 다양한 고품질의 합성 데이터를 자동으로 생성할 수 있는 확장 가능한 에이전트 기반 프레임워크입니다. AgentInstruct는 프롬프트와 응답을 모두 생성할 수 있습니다. 우리는 AgentInstruct의 유용성을 입증하기 위해 텍스트 편집, 창의적 글쓰기, 도구 사용, 코딩, 독해력 등 다양한 기술을 언어 모델에게 가르치기 위한 25M 쌍의 사후 훈련 데이터셋을 생성했습니다. 이 데이터셋은 모든 기본 모델의 지시 튜닝(instruction tuning)에 사용할 수 있습니다. 우리는 이 데이터로 Mistral-7b를 사후 훈련시켰습니다. 결과적으로 얻은 Orca-3 모델을 동일한 기본 모델을 사용하는 Mistral-7b-Instruct와 비교했을 때, 많은 벤치마크에서 상당한 개선을 관찰했습니다. 예를 들어, AGIEval에서 40%, MMLU에서 19%, GSM8K에서 54%, BBH에서 38%, AlpacaEval에서 45%의 성능 향상을 보였습니다. 또한, Orca-3는 LLAMA-8B-instruct 및 GPT-3.5-turbo와 같은 다른 모델들을 꾸준히 능가했습니다.

에이전트 인터넷: 협업 지능을 위한 이기종 에이전트 네트워크 구축
Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence

Jul 9

ByWeize Chen, Ziming You, Ran Li, Yitong Guan, Chen Qian, Chenyang Zhao, Cheng Yang, Ruobing Xie, Zhiyuan Liu, Maosong Sun

대규모 언어 모델(LLM)의 급속한 발전은 고도로 능력 있는 자율 에이전트 개발의 길을 열어주었습니다. 그러나 기존의 다중 에이전트 프레임워크는 자체 생태계 내에서 정의된 에이전트에 의존하기 때문에 다양한 제3자 에이전트를 통합하는 데 어려움을 겪습니다. 또한 대부분의 프레임워크가 단일 장치 설정에 국한되어 있어 분산 환경을 시뮬레이션하는 데도 문제가 있습니다. 더욱이 이러한 프레임워크는 하드코딩된 통신 파이프라인에 의존하는 경우가 많아 동적 작업 요구사항에 대한 적응성이 제한됩니다. 인터넷 개념에서 영감을 받아, 우리는 이러한 한계를 해결하기 위해 LLM 기반 다중 에이전트 협업을 위한 유연하고 확장 가능한 플랫폼을 제공하는 새로운 프레임워크인 에이전트 인터넷(IoA)을 제안합니다. IoA는 에이전트 통합 프로토콜, 인스턴트 메시징과 유사한 아키텍처 설계, 그리고 에이전트 팀 구성 및 대화 흐름 제어를 위한 동적 메커니즘을 도입합니다. 일반 어시스턴트 작업, 구체화된 AI 작업, 그리고 검색 강화 생성 벤치마크에 대한 광범위한 실험을 통해 IoA가 최신 기준선을 지속적으로 능가하며, 이질적인 에이전트 간의 효과적인 협업을 촉진할 수 있는 능력을 입증했습니다. IoA는 다양한 에이전트를 인터넷과 같은 환경에서 연결하여 에이전트가 원활하게 협업하여 더 큰 지능과 능력을 달성할 수 있는 환경을 조성하는 한 걸음을 나타냅니다. 우리의 코드베이스는 https://github.com/OpenBMB/IoA에서 공개되었습니다.

Video-STaR: 모든 감독 하에서 비디오 명령어 튜닝을 가능하게 하는 자기 학습
Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision

Jul 8

ByOrr Zohar, Xiaohan Wang, Yonatan Bitton, Idan Szpektor, Serena Yeung-Levy

대규모 비전 언어 모델(LVLM)의 성능은 학습 데이터셋의 규모와 품질에 따라 결정됩니다. 기존의 비디오 명령어 튜닝 데이터셋은 다양성이 부족한데, 이는 비디오 캡션을 기반으로 대규모 언어 모델에 질문-답변 쌍을 생성하도록 프롬프트를 주는 방식으로 만들어졌기 때문에 대부분 설명적인 성격을 띱니다. 한편, 다양한 라벨과 감독 정보를 포함한 많은 라벨링된 비디오 데이터셋이 존재하지만, 이를 LVLM에 통합하는 것은 간단하지 않습니다. 이에 우리는 첫 번째 비디오 자기 학습 접근법인 Video Self-Training with augmented Reasoning(Video-STaR)을 제안합니다. Video-STaR은 모든 라벨링된 비디오 데이터셋을 비디오 명령어 튜닝에 활용할 수 있도록 합니다. Video-STaR에서 LVLM은 명령어 생성과 미세 조정 사이를 순환하며, 이는 (I) 일반적인 비디오 이해 능력을 향상시키고 (II) 기존 감독 정보를 통해 LVLM을 새로운 다운스트림 작업에 적응시킵니다. 생성 단계에서 LVLM은 답변을 제안하도록 프롬프트됩니다. 그런 다음 원래 비디오 라벨을 포함하는 답변만 필터링되고, 생성된 데이터셋으로 LVLM을 재학습합니다. 올바른 비디오 라벨을 포함하는 생성된 답변만을 학습함으로써, Video-STaR은 이러한 기존 비디오 라벨을 비디오 명령어 튜닝을 위한 약한 감독 정보로 활용합니다. 우리의 실험 결과는 Video-STaR이 강화된 LVLM이 (I) 일반적인 비디오 질의응답에서 TempCompass 성능이 10% 향상되고, (II) 다운스트림 작업에서 Kinetics700-QA 정확도가 20%, FineDiving의 동작 품질 평가가 15% 개선되는 등 향상된 성능을 보여줍니다.

RodinHD: 확산 모델을 활용한 고품질 3D 아바타 생성
RodinHD: High-Fidelity 3D Avatar Generation with Diffusion Models

Jul 9

ByBowen Zhang, Yiji Cheng, Chunyu Wang, Ting Zhang, Jiaolong Yang, Yansong Tang, Feng Zhao, Dong Chen, Baining Guo

우리는 초상화 이미지로부터 고해상도 3D 아바타를 생성할 수 있는 RodinHD를 소개한다. 기존 방법들은 헤어스타일과 같은 복잡한 디테일을 포착하지 못하는데, 본 논문에서는 이를 해결하고자 한다. 먼저, 우리는 다수의 아바타에 대해 순차적으로 트라이플레인(triplane)을 피팅할 때 발생하는 치명적인 망각(catastrophic forgetting) 문제를 식별했다. 이 문제는 MLP 디코더 공유 방식에서 비롯된다. 이를 극복하기 위해, 우리는 새로운 데이터 스케줄링 전략과 가중치 통합(weight consolidation) 정규화 항을 제안하여 디코더의 선명한 디테일 렌더링 능력을 향상시켰다. 또한, 초상화 이미지의 가이딩 효과를 최적화하기 위해 더 세밀한 계층적 표현을 계산하여 풍부한 2D 텍스처 단서를 포착하고, 이를 크로스-어텐션(cross-attention)을 통해 3D 확산 모델의 여러 레이어에 주입한다. 트라이플레인에 최적화된 노이즈 스케줄로 46K개의 아바타를 학습한 결과, 이 모델은 이전 방법들보다 훨씬 더 나은 디테일로 3D 아바타를 생성할 수 있으며, 실제 환경의 초상화 입력에도 일반화할 수 있다.

히브리어에 맞춰진 LLM: 향상된 어휘와 명령어 처리 능력을 갖춘 DictaLM 2.0 공개
Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities

Jul 9

ByShaltiel Shmidman, Avi Shmidman, Amir DN Cohen, Moshe Koppel

히브리어와 같은 저자원 언어로 대규모 언어 모델(LLM)을 훈련시키는 것은 독특한 도전 과제를 제시합니다. 본 논문에서는 Mistral 모델에서 파생된 두 가지 LLM인 DictaLM2.0과 DictaLM2.0-Instruct를 소개합니다. 이 모델들은 히브리어와 영어로 구성된 약 2000억 토큰의 방대한 코퍼스로 훈련되었습니다. 사전 훈련된 모델을 새로운 언어에 적응시키는 것은 처음부터 모델을 훈련시키거나 영어와 같은 고자원 언어로 기존 모델을 추가 훈련시키는 것과는 상당히 다른 특수한 기술을 필요로 합니다. 우리는 히브리어의 언어적 특성에 효과적으로 학습하고 적응할 수 있도록 돕는 이러한 새로운 훈련 방법론을 설명합니다. 또한, DictaLM2.0-Instruct를 포괄적인 지시 데이터셋으로 미세 조정하여 작업별 지시에 대한 성능을 향상시켰습니다. 모델을 엄격하게 평가하기 위해, 우리는 질문 응답, 감정 분석, Winograd 스키마 챌린지, 번역, 요약 등 다양한 작업을 포함하는 히브리어 LLM 평가를 위한 새로운 벤치마크 제품군을 도입했습니다. 우리의 연구는 저자원 언어로 LLM을 훈련시키는 복잡성을 해결할 뿐만 아니라, 다른 LLM을 다양한 비영어 언어에 적응시키는 데 활용할 수 있는 프레임워크를 제안함으로써 다국어 NLP 분야에 기여합니다.

MiraData: 장기간 비디오와 구조화된 캡션을 포함한 대규모 비디오 데이터셋
MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions

Jul 8

ByXuan Ju, Yiming Gao, Zhaoyang Zhang, Ziyang Yuan, Xintao Wang, Ailing Zeng, Yu Xiong, Qiang Xu, Ying Shan

Sora의 고강도 모션과 긴 일관성 있는 비디오는 비디오 생성 분야에 큰 영향을 미치며 전례 없는 관심을 끌고 있습니다. 그러나 현재 공개된 데이터셋은 짧은 비디오와 낮은 모션 강도, 간단한 캡션으로 구성되어 있어 Sora와 같은 비디오를 생성하기에는 부적합합니다. 이러한 문제를 해결하기 위해, 우리는 MiraData를 제안합니다. MiraData는 비디오 길이, 캡션의 상세함, 모션 강도, 시각적 품질 등에서 기존 데이터셋을 뛰어넘는 고품질 비디오 데이터셋입니다. 우리는 다양한 수동 선택 소스에서 MiraData를 선별하고, 의미적으로 일관된 클립을 얻기 위해 데이터를 세심하게 처리합니다. GPT-4V를 사용하여 구조화된 캡션을 주석 처리하며, 네 가지 다른 관점에서의 상세한 설명과 요약된 밀집 캡션을 제공합니다. 비디오 생성에서 시간적 일관성과 모션 강도를 더 잘 평가하기 위해, 우리는 MiraBench를 도입했습니다. MiraBench는 기존 벤치마크를 강화하여 3D 일관성과 추적 기반 모션 강도 메트릭을 추가합니다. MiraBench는 150개의 평가 프롬프트와 17개의 메트릭을 포함하며, 시간적 일관성, 모션 강도, 3D 일관성, 시각적 품질, 텍스트-비디오 정렬, 분포 유사성을 다룹니다. MiraData의 유용성과 효과를 입증하기 위해, 우리는 DiT 기반 비디오 생성 모델인 MiraDiT를 사용하여 실험을 진행했습니다. MiraBench에서의 실험 결과는 MiraData의 우수성을 보여주며, 특히 모션 강도에서 두드러진 성과를 나타냈습니다.

BM25S: 열정적인 희소 점수화를 통해 어휘 검색 속도를 크게 향상
BM25S: Orders of magnitude faster lexical search via eager sparse scoring

Jul 4

ByXing Han Lù

BM25S를 소개합니다. 이는 Numpy와 Scipy만을 의존하는 효율적인 Python 기반 BM25 구현체입니다. BM25S는 인덱싱 과정에서 BM25 점수를 적극적으로 계산하여 이를 희소 행렬에 저장함으로써 가장 널리 사용되는 Python 기반 프레임워크 대비 최대 500배의 속도 향상을 달성했습니다. 또한 인기 있는 상용 제품에서 사용되는 고도로 최적화된 Java 기반 구현체와 비교해서도 상당한 속도 향상을 보여줍니다. 마지막으로, BM25S는 Kamphuis 등(2020)의 연구를 기반으로 한 5가지 BM25 변형의 정확한 구현을 재현하며, 이를 위해 새로운 점수 이동 방법을 사용하여 비희소 변형에도 적극적인 점수 계산을 확장했습니다. 코드는 https://github.com/xhluca/bm25s에서 확인할 수 있습니다.

TheoremLlama: 범용 LLM을 Lean4 전문가로 변환하기
TheoremLlama: Transforming General-Purpose LLMs into Lean4 Experts

Jul 3

ByRuida Wang, Jipeng Zhang, Yizhen Jia, Rui Pan, Shizhe Diao, Renjie Pi, Tong Zhang

Lean과 같은 컴퓨터 검증 가능한 형식 언어를 사용하여 수학 정리를 증명하는 것은 수학적 추론에 상당한 영향을 미칩니다. 형식적 정리 증명에 대한 한 가지 접근 방식은 자연어(NL) 증명을 기반으로 대규모 언어 모델(LLM)을 사용하여 완전한 증명을 생성하는 것입니다. 유사한 방법들은 코드 생성에서 유망한 결과를 보여주었습니다. 그러나 대부분의 현대 LLM은 정렬된 NL과 형식 언어(FL) 정리 증명 데이터의 부족으로 인해 최적의 성능을 보이지 못하고 있습니다. 이러한 부족은 LLM을 훈련시키는 방법론과 형식적 증명 작성을 위해 그들의 능력을 완전히 활용하는 기술의 부족으로 이어집니다. 이러한 문제를 해결하기 위해, 본 논문은 **TheoremLlama**라는 종단 간(end-to-end) 프레임워크를 제안합니다. 이 프레임워크는 NL-FL 정렬 데이터셋 생성 방법, LLM 형식 정리 증명기 훈련 접근법, 그리고 LLM Lean4 증명 작성 기술을 포함합니다. 데이터셋 생성 방법을 사용하여, 우리는 NL-FL 정렬 및 부트스트랩된 데이터셋인 *Open Bootstrapped Theorems* (OBT)를 제공합니다. 이 프레임워크의 주요 혁신은 NL 증명이 Lean4 코드에 통합되어 훈련 데이터셋을 생성하는 NL-FL 부트스트래핑 방법으로, LLM의 NL 추론 능력을 형식적 추론에 활용합니다. **TheoremLlama** 프레임워크는 MiniF2F-Valid 및 Test 데이터셋에서 각각 36.48%와 33.61%의 누적 정확도를 달성하여 GPT-4 기준선인 22.95%와 25.41%를 능가합니다. 또한, 우리는 모델 체크포인트와 생성된 데이터셋을 오픈소스로 공개했으며, 곧 모든 코드를 공개할 예정입니다.

학습된 이방성 스케일링을 활용한 태스크 벡터 기반 지식 구성
Knowledge Composition using Task Vectors with Learned Anisotropic Scaling

Jul 3

ByFrederic Z. Zhang, Paul Albert, Cristian Rodriguez-Opazo, Anton van den Hengel, Ehsan Abbasnejad

사전 학습된 모델은 미세 조정을 통해 적응 가능한 강력한 일반적 표현을 생성합니다. 사전 학습된 모델과 비교하여 학습된 가중치 차이는 '태스크 벡터'로 알려져 있으며, 이는 미세 조정의 방향과 보폭을 특징짓습니다. 태스크 벡터의 중요성은 단순한 산술 연산을 통해 서로 다른 도메인의 다양한 표현을 결합하는 데 사용될 수 있다는 점에 있습니다. 본 논문은 이러한 태스크 벡터의 특성을 기반으로 (1) 태스크 벡터의 구성 요소, 특히 파라미터 블록이 유사한 특성을 보이는지, 그리고 (2) 이러한 블록이 지식 구성과 전이를 강화하는 데 어떻게 활용될 수 있는지를 탐구합니다. 이를 위해, 우리는 aTLAS 알고리즘을 소개합니다. 이 알고리즘은 서로 다른 학습된 계수로 파라미터 블록을 선형적으로 결합하여 태스크 벡터 수준에서 이방성 스케일링을 구현합니다. 우리는 이러한 선형 결합이 사전 학습된 모델의 낮은 내재적 차원성을 명시적으로 활용하며, 학습 가능한 파라미터가 단 몇 개의 계수에 불과함을 보여줍니다. 또한, 파라미터 블록의 구성은 이미 학습된 표현을 활용함으로써 대량의 데이터에 대한 의존성을 줄입니다. 우리는 이 방법의 효과를 태스크 산술, 소수 샷 인식, 테스트 시간 적응에서 지도 및 비지도 목표를 통해 입증합니다. 특히, (1) 학습된 이방성 스케일링은 태스크 벡터가 더 분리되어 구성 시 간섭을 줄이는 것을 보여주며, (2) 태스크 벡터 구성은 레이블 데이터가 부족하거나 없는 상황에서도 우수하며 도메인 이동에 덜 취약하여 더 나은 일반화를 이끌어냅니다. (3) 학습 전에 서로 다른 태스크 벡터에서 가장 정보가 풍부한 파라미터 블록을 혼합하면 메모리 사용량을 줄이고 지식 전이의 유연성을 향상시킬 수 있습니다. 또한, 우리는 aTLAS가 특히 데이터가 적은 상황에서 PEFT 방법으로서의 잠재력을 보여주며, 그 확장성을 입증합니다.

룩백 렌즈: 어텐션 맵만을 사용하여 대규모 언어 모델의 문맥적 환각 현상 탐지 및 완화
Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps

Jul 9

ByYung-Sung Chuang, Linlu Qiu, Cheng-Yu Hsieh, Ranjay Krishna, Yoon Kim, James Glass

기사 요약이나 주어진 문단에 대한 질문에 답변을 요청받을 때, 대형 언어 모델(LLM)은 사실과 다른 세부 정보를 지어내거나 입력된 맥락과 부합하지 않는 근거 없는 답변을 생성할 수 있습니다. 본 논문은 이러한 맥락적 환각(contextual hallucination)을 탐지하기 위한 간단한 접근 방식을 설명합니다. 우리는 맥락적 환각이 LLM이 제공된 맥락 정보에 주의를 기울이는 정도와 자체적으로 생성한 정보에 주의를 기울이는 정도와 관련이 있다고 가정합니다. 이러한 직관을 바탕으로, 각 어텐션 헤드(attention head)에서 맥락 토큰과 새로 생성된 토큰에 대한 어텐션 가중치의 비율을 입력 특징으로 사용하는 간단한 환각 탐지 모델을 제안합니다. 우리는 이러한 '되돌아보기 비율(lookback ratio)' 특징을 기반으로 한 선형 분류기가 LLM의 전체 은닉 상태(hidden states)나 텍스트 기반 함의 모델(entailment model)을 활용하는 더 복잡한 탐지기만큼 효과적임을 발견했습니다. '되돌아보기 비율' 기반 탐지기인 Lookback Lens는 작업 간, 심지어 모델 간에도 전이 가능하여, 7B 모델에서 훈련된 탐지기를 재훈련 없이 더 큰 13B 모델에 적용할 수 있습니다. 또한, 이 탐지기를 맥락적 환각을 완화하는 데 적용한 결과, 간단한 분류기 기반 디코딩 접근법이 환각을 줄이는 데 효과적임을 확인했습니다. 예를 들어, XSum 요약 작업에서 환각을 9.6% 감소시킬 수 있었습니다.

그래프 기반 캡셔닝: 지역 캡션 상호 연결을 통한 시각적 설명 강화
Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions

Jul 9

ByYu-Guan Hsieh, Cheng-Yu Hsieh, Shih-Ying Yeh, Louis Béthune, Hadi Pour Ansari, Pavan Kumar Anasosalu Vasu, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Marco Cuturi

인간은 복잡한 장면을 구성성을 활용하여 설명하며, 링크와 관계로 풍부해진 간단한 텍스트 설명을 사용합니다. 비전-언어 연구는 구성적 이해 능력을 갖춘 모델을 개발하는 것을 목표로 해왔지만, 이는 대부분의 기존 데이터셋에서 아직 반영되지 않고 있으며, 여전히 일반 텍스트를 사용하여 이미지를 설명하고 있습니다. 본 연구에서는 다양한 유형의 노드를 가진 레이블 그래프 구조를 사용하여 이미지를 설명하는 새로운 주석 전략인 그래프 기반 캡셔닝(Graph-Based Captioning, GBC)을 제안합니다. GBC의 노드는 첫 번째 단계에서 객체 탐지 및 밀집 캡셔닝 도구를 재귀적으로 중첩하여 엔티티 노드를 발견하고 설명하며, 두 번째 단계에서는 새로운 유형의 노드를 사용하여 엔티티 간의 구성과 관계를 강조함으로써 연결됩니다. 모든 GBC 노드는 일반 텍스트 설명을 포함하고 있기 때문에, GBC는 자연어에서 발견되는 유연성을 유지하면서도 에지에 계층적 정보를 인코딩할 수 있습니다. 우리는 GBC가 오프더셰프 멀티모달 LLM과 오픈-보커블러리 탐지 모델을 사용하여 자동으로 생성될 수 있음을 보여주며, CC12M 데이터셋의 약 1천만 개 이미지에 대한 GBC 주석을 수집한 새로운 데이터셋인 GBC10M을 구축했습니다. 우리는 GBC10M을 사용하여 GBC가 발견한 노드 캡션의 풍부함을 CLIP 훈련을 통해 측정하여 보여줍니다. GBC 노드의 주석, 특히 구성 및 관계 노드에 저장된 주석을 사용하면 다른 데이터셋 형식과 비교할 때 다운스트림 모델에서 상당한 성능 향상을 가져온다는 것을 보여줍니다. 또한, GBC가 제공하는 기회를 더 탐구하기 위해 전체 GBC 그래프를 활용할 수 있는 새로운 어텐션 메커니즘을 제안하며, 그래프 구조를 통합함으로써 얻는 추가적인 이점을 보여주는 고무적인 실험 결과를 제시합니다. 우리의 데이터셋은 https://huggingface.co/graph-based-captions에서 공개됩니다.

VIMI: 다중 모달 명령어를 통한 비디오 생성의 기반 구축
VIMI: Grounding Video Generation through Multi-modal Instruction

Jul 8

ByYuwei Fang, Willi Menapace, Aliaksandr Siarohin, Tsai-Shien Chen, Kuan-Chien Wang, Ivan Skorokhodov, Graham Neubig, Sergey Tulyakov

기존의 텍스트-비디오 확산 모델들은 사전 학습에 오직 텍스트 전용 인코더만을 사용해 왔습니다. 이러한 한계는 대규모 멀티모달 프롬프트 비디오 데이터셋의 부재에서 비롯되며, 이로 인해 시각적 근거가 부족하고 멀티모달 통합에서의 다양성과 응용이 제한되었습니다. 이를 해결하기 위해, 우리는 검색 방법을 활용하여 주어진 텍스트 프롬프트와 문맥 내 예시를 짝짓는 대규모 멀티모달 프롬프트 데이터셋을 구축하고, 동일한 모델 내에서 다양한 비디오 생성 작업을 가능하게 하는 두 단계의 학습 전략을 사용합니다. 첫 번째 단계에서는 이러한 증강된 데이터셋에 대해 사전 학습을 위한 멀티모달 조건부 비디오 생성 프레임워크를 제안하여, 근거 있는 비디오 생성을 위한 기초 모델을 구축합니다. 두 번째 단계에서는 첫 번째 단계의 모델을 세 가지 비디오 생성 작업에 대해 멀티모달 지시를 포함하여 미세 조정합니다. 이 과정은 모델이 다양한 입력과 작업을 처리하는 능력을 더욱 세련되게 만들어 멀티모달 정보의 원활한 통합을 보장합니다. 이 두 단계의 학습 과정을 거친 후, VIMI는 멀티모달 이해 능력을 보여주며, 제공된 입력에 근거한 문맥적으로 풍부하고 개인화된 비디오를 생성합니다(그림 1 참조). 이전의 시각적 근거 비디오 생성 방법과 비교했을 때, VIMI는 큰 움직임을 유지하면서도 의미론적 제어를 유지하는 일관적이고 시간적으로 일관된 비디오를 합성할 수 있습니다. 마지막으로, VIMI는 UCF101 벤치마크에서 최첨단 텍스트-비디오 생성 결과를 달성합니다.

불확실성 상황에서 언어 모델의 대체 행동: 루프에서 오류까지
From Loops to Oops: Fallback Behaviors of Language Models Under Uncertainty

Jul 8

ByMaor Ivgi, Ori Yoran, Jonathan Berant, Mor Geva

대형 언어 모델(LLMs)은 종종 환각(hallucination)과 시퀀스 반복(sequence repetition)과 같은 바람직하지 않은 행동을 보입니다. 우리는 이러한 행동을 모델이 불확실성 하에서 보이는 폴백(fallback)으로 간주하고, 이들 간의 연관성을 조사할 것을 제안합니다. 우리는 폴백 행동을 시퀀스 반복, 퇴화된 텍스트(degenerate text), 그리고 환각으로 분류하고, 사전 학습 토큰 수, 매개변수 수, 또는 지시 따르기 훈련(instruction-following training) 포함 여부가 다른 동일 계열의 모델에서 이를 광범위하게 분석합니다. 우리의 실험은 이러한 모든 축에 걸쳐 폴백 행동의 명확하고 일관된 순서를 보여줍니다: LLM이 더 발전할수록(즉, 더 많은 토큰으로 훈련되거나, 더 많은 매개변수를 가지거나, 지시 튜닝이 된 경우), 그 폴백 행동은 시퀀스 반복에서 퇴화된 텍스트로, 그리고 환각으로 이동합니다. 더욱이, 이 동일한 순서는 최고 성능의 모델에서도 단일 생성 과정 전반에 걸쳐 관찰됩니다; 불확실성이 증가함에 따라 모델은 환각을 생성하는 것에서 퇴화된 텍스트를 생성하고, 그 다음 시퀀스 반복을 생성하는 것으로 이동합니다. 마지막으로, 우리는 무작위 샘플링(random sampling)과 같은 일반적인 디코딩 기법이 시퀀스 반복과 같은 일부 원치 않는 행동을 완화할 수는 있지만, 탐지하기 더 어려운 환각을 증가시킨다는 것을 보여줍니다.

어떻게 알 수 있을까요? 생의학 질문에 대한 답변을 참조하도록 생성형 언어 모델 가르치기
How do you know that? Teaching Generative Language Models to Reference Answers to Biomedical Questions

Jul 6

ByBojana Bašaragin, Adela Ljajić, Darija Medvecki, Lorenzo Cassano, Miloš Košprdić, Nikola Milošević

대형 언어 모델(LLM)은 최근 온라인 사용자 질문에 대한 주요 답변 제공원으로 자리 잡았습니다. 이들은 유창한 답변을 제공할 수 있지만, 정확성과 신뢰성 측면에서 상당한 문제를 안고 있습니다. 특히 생물의학과 같은 민감한 분야에서는 사실에 기반한 정확한 답변이 더욱 요구됩니다. 본 논문은 생성된 응답의 신뢰성을 강화하기 위해 설계된 생물의학 검색 강화 생성(RAG) 시스템을 소개합니다. 이 시스템은 참조 질문-답변을 위해 미세 조정된 LLM을 기반으로 하며, PubMed에서 검색된 관련 초록을 프롬프트를 통해 LLM의 컨텍스트 입력으로 전달합니다. 그 결과로 PubMed 초록을 기반으로 한 답변이 생성되며, 각 진술은 적절히 참조되어 사용자가 답변을 검증할 수 있도록 합니다. 우리의 검색 시스템은 PubMed 검색 엔진 대비 23%의 절대적 성능 향상을 달성했습니다. 소규모 샘플에 대한 수동 평가 결과, 미세 조정된 LLM 구성 요소는 관련 초록 참조 측면에서 GPT-4 Turbo와 비슷한 성능을 보였습니다. 우리는 Mistral-7B-instruct-v0.1 및 v0.2 기반으로 미세 조정된 모델과 이를 위해 사용된 데이터셋을 공개적으로 제공합니다.

LETS-C: 시계열 분류를 위한 언어 임베딩 활용
LETS-C: Leveraging Language Embedding for Time Series Classification

Jul 9

ByRachneet Kaur, Zhen Zeng, Tucker Balch, Manuela Veloso

최근 언어 모델링의 발전은 시계열 데이터에 적용될 때 유망한 결과를 보여주고 있습니다. 특히, 사전 훈련된 대규모 언어 모델(LLM)을 시계열 분류 작업에 맞춰 미세 조정하는 것은 표준 벤치마크에서 최첨단(SOTA) 성능을 달성했습니다. 그러나 이러한 LLM 기반 모델은 수백만 개의 학습 가능한 매개변수로 인해 모델 크기가 크다는 중요한 단점이 있습니다. 본 논문에서는 시계열 영역에서 언어 모델링의 성공을 활용하는 대안적인 접근 방식을 제안합니다. LLM을 미세 조정하는 대신, 언어 임베딩 모델을 사용하여 시계열을 임베딩한 다음, 이를 합성곱 신경망(CNN)과 다층 퍼셉트론(MLP)으로 구성된 간단한 분류 헤드와 결합합니다. 우리는 잘 정립된 시계열 분류 벤치마크 데이터셋에 대해 광범위한 실험을 수행했습니다. LETS-C는 분류 정확도에서 현재 SOTA를 능가할 뿐만 아니라, SOTA 모델 대비 평균 14.5%의 학습 가능한 매개변수만 사용하는 경량 솔루션을 제공한다는 것을 입증했습니다. 우리의 연구 결과는 언어 인코더를 활용하여 시계열 데이터를 임베딩하고, 간단하지만 효과적인 분류 헤드와 결합하는 것이 경량 모델 아키텍처를 유지하면서도 고성능 시계열 분류를 달성하기 위한 유망한 방향임을 시사합니다.

그래프 기반 캡셔닝: 지역 캡션 상호 연결을 통한 시각적 설명 강화
Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions

Jul 9

ByYu-Guan Hsieh, Cheng-Yu Hsieh, Shih-Ying Yeh, Louis Béthune, Hadi Pour Ansari, Pavan Kumar Anasosalu Vasu, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Marco Cuturi