HuggingFace Daily Papers

일간 논문

번역이 포함된 일일 선별된 AI 연구 논문

날짜 선택

13 papers found

LongGenBench: 장문맥 생성 벤치마크
LongGenBench: Long-context Generation Benchmark

Oct 5

ByXiang Liu, Peijie Dong, Xuming Hu, Xiaowen Chu

현재의 장문 맥락 벤치마크는 주로 검색 기반 테스트에 초점을 맞추고 있으며, 대규모 언어 모델(Large Language Models, LLMs)이 바늘을 찾는 것과 같은 방대한 입력 맥락에서 특정 정보를 찾는 능력을 요구하는 벤치마크인 바늘 속에서 바늘을 찾기(Needle-in-a-Haystack, NIAH) 벤치마크를 포함한다. 장문 맥락 생성은 언어 모델이 긴 단락이나 문서를 가로지르는 일관된 및 맥락적으로 정확한 텍스트를 생성하는 능력을 의미한다. 최근 연구들은 NIAH 및 기타 검색 기반 장문 맥락 벤치마크에서 뛰어난 성능을 보여주지만, 장문 맥락 생성 능력을 평가하는 벤치마크가 부족한 것이 심각한 문제로 대두된다. 이러한 공백을 메우고 종합적인 평가를 제공하기 위해 우리는 유연한 설정으로 맞춤형 생성 맥락 길이를 가능하게 하는 합성 벤치마크인 LongGenBench를 소개한다. LongGenBench는 전통적인 벤치마크를 넘어서 질문 형식을 재설계하고 LLMs가 단일하고 일관된 장문 답변을 제공해야 하는 것을 요구함으로써 발전한다. LongGenBench를 사용한 포괄적인 평가 결과, (1) API 접근 및 오픈 소스 모델 모두 장문 맥락 생성 시 성능 저하가 나타나며, 이는 1.2%에서 47.1% 범위에 이른다; (2) 다양한 시리즈의 LLMs는 성능 저하의 다양한 추세를 나타내며, API 접근 모델 중 Gemini-1.5-Flash 모델이 가장 적은 성능 저하를 보이며, 오픈 소스 모델 중 Qwen2 시리즈가 LongGenBench에서 가장 적은 성능 저하를 나타낸다.

Only-IF: 교육 다양성의 결정적 영향을 드러내다.
Only-IF:Revealing the Decisive Effect of Instruction Diversity on Generalization

Oct 7

ByDylan Zhang, Justin Wang, Francois Charton

대규모 언어 모델(LLM)이 다양한 작업에 효과적으로 작동하기 위해서는 지침을 이해하고 정확하게 따르는 것이 중요합니다. 본 연구에서는 모델이 보이지 않는 지침에 대해 일반화되는 데 필요한 주요 요소를 철저히 조사하여, 지침 조정을 위한 데이터 수집을 안내하는 통찰을 제공합니다. Turing-complete Markov 알고리즘에서 영감을 받은 통제된 실험을 통해, 훈련 데이터가 의미적 도메인을 넘나드는 다양성을 갖추었을 때에만 그러한 일반화가 나타남을 입증합니다. 우리의 연구 결과는 단순히 한정된 도메인 내에서 다양성을 확보하는 것만으로는 강건한 일반화를 보장할 수 없다는 것을 밝혀냅니다. 반면, 제한된 데이터 예산 하에서라도 도메인 간 데이터 다양화는 모델의 적응성을 크게 향상시킵니다. 또한, 특화 모델과 일반 모델의 세밀한 조정을 포함한 실제 시나리오에 우리의 분석을 확장합니다. 두 경우 모두에서, 1) 데이터 크기를 일정하게 유지하면서 확립된 데이터셋의 다양성을 높이면 더 나은 성능을 달성할 수 있으며, 2) 데이터를 확장할 때, 지침의 의미를 다양화시키는 것이 단순히 유사한 데이터의 양을 증가시키는 것보다 효과적임을 입증합니다. 우리의 연구는 특화 및 일반 시나리오에 대한 훈련 데이터를 확장하여 모델 성능을 최적화할 때 데이터 다양화에 대한 신중한 고려가 필수적임을 보여줍니다. 핵심 도메인을 넘어선 데이터로 특화 모델을 훈련시키면 성능이 크게 향상되는 반면, 일반 모델은 다양한 데이터 조합을 통해 다양한 응용 프로그램에서의 전반적인 지침 준수 능력이 향상됩니다. 우리의 결과는 전략적 다양화의 중요한 역할을 강조하며 데이터 품질을 향상시키기 위한 명확한 지침을 제시합니다.

시각-언어 지능의 한 줄기: 효율적인 미세 구조 이미지 생성을 위한 2차원 자기 회귀 트랜스포머
A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation

Oct 2

ByLiang Chen, Sinan Tan, Zefan Cai, Weichu Xie, Haozhe Zhao, Yichi Zhang, Junyang Lin, Jinze Bai, Tianyu Liu, Baobao Chang

본 연구는 2차원 자기회귀 (DnD) 트랜스포머라고 불리는 혁신적인 모델 구조를 도입함으로써 벡터 양자화 (VQ) 자기회귀 이미지 생성의 정보 손실 병목 현상에 대응합니다. DnD-트랜스포머는 새로운 자기회귀 방향, 모델 깊이, 그리고 시퀀스 길이 방향을 도입함으로써 이미지에 대해 더 많은 코드를 예측합니다. 기존의 1차원 자기회귀 및 RQ-트랜스포머와 같은 2차원 이미지 분해를 활용한 이전 연구와 비교했을 때, DnD-트랜스포머는 동일한 백본 모델 크기와 시퀀스 길이로 더 높은 품질의 이미지를 생성할 수 있는 엔드-투-엔드 모델입니다. 이는 자기회귀 이미지 생성을 위한 새로운 최적화 관점을 열어줍니다. 더불어, 실험 결과는 DnD-트랜스포머의 잠재력이 자연 이미지를 생성하는 데 그치지 않음을 보여줍니다. 이 모델은 자가 감독 방식으로 풍부한 텍스트 및 그래픽 요소가 포함된 이미지를 생성할 수 있으며, 이는 이러한 복합 모달리티를 이해하는 것을 시연합니다. 이는 이전에 인기 있는 비전 생성 모델인 확산 모델과 같은 모델에서는 시각-언어 지능의 빛나는 가능성을 보여주지 않았으며, 이미지만을 학습한 경우에도 시각-언어 지능의 가능성을 보여줍니다. 코드, 데이터셋 및 모델은 https://github.com/chenllliang/DnD-Transformer에서 공개되어 있습니다.

RevisEval: 응답 적응 참조를 통한 판사로서의 LLM 개선
RevisEval: Improving LLM-as-a-Judge via Response-Adapted References

Oct 7

ByQiyuan Zhang, Yufei Wang, Tiezheng YU, Yuxin Jiang, Chuhan Wu, Liangyou Li, Yasheng Wang, Xin Jiang, Lifeng Shang, Ruiming Tang, Fuyuan Lyu, Chen Ma

최근 연구에서 상당한 노력이 기울여진 결과, LLM-as-a-Judge는 다양한 작업에서 텍스트 생성 품질을 평가하기 위한 인간 평가의 비용 효율적인 대안으로 자리를 잡았다. 그러나 LLM-as-a-Judge와 인간 평가 사이에는 여전히 신뢰성 간격이 남아있다. 한 가지 중요한 이유는 평가 과정에서 안내된 오라클이 부족하다는 것이다. 고전적인 텍스트 평가에서 널리 사용되는 참조의 역할에 영감을 받아, 우리는 응답에 적응된 참조를 통해 새로운 텍스트 생성 평가 패러다임인 RevisEval을 소개한다. RevisEval은 이상적인 참조가 평가해야 하는 응답과 필요한 관련성을 유지해야 한다는 주요 관찰에 기반한다. 구체적으로, RevisEval은 대규모 언어 모델(Large Language Models, LLMs)의 텍스트 수정 능력을 활용하여 응답을 적응적으로 수정한 후 수정된 텍스트를 참조(응답에 적응된 참조)로 취급하여 이후 평가에 활용한다. 광범위한 실험을 통해 RevisEval이 NLG 작업 및 오픈엔드 지시 따르기 작업에서 LLM-as-a-Judge를 사용하는 전통적인 참조 없는 및 참조 기반 평가 패러다임을 능가하는 것을 입증한다. 더 중요한 것은, 우리의 응답에 적응된 참조가 전통적인 참조보다 심지어 LLM-as-a-Judge와 경쟁할 수 있을 정도로 고전적인 텍스트 지표인 BLEU와 BERTScore를 더욱 향상시킬 수 있다는 것이다. RevisEval의 효과적인 편향 감소, 추론 비용의 영향, 그리고 참조 관련성에 대한 영향을 확인하기 위해 상세한 분석도 수행되었다.

점: 최적 추론 경로 탐색을 통한 LLMs에서 동적 추론 학습
DOTS: Learning to Reason Dynamically in LLMs via Optimal Reasoning Trajectories Search

Oct 4

ByMurong Yue, Wenlin Yao, Haitao Mi, Dian Yu, Ziyu Yao, Dong Yu

최근 몇 년간 대형 언어 모델(Large Language Models, LLMs)의 추론 능력을 향상시키는 것이 중요한 관심을 받아왔습니다. 이전 연구들은 다양한 프롬프팅 전략이 LLMs의 추론(즉, "추론 동작")을 지원하는 데 효과적임을 입증해 왔습니다. 이러한 전략에는 단계별 사고, 답변 전에 반성, 프로그램을 사용한 해결, 그리고 이들의 조합이 포함됩니다. 그러나 이러한 방법들은 종종 모든 질문에 대해 정적이고 미리 정의된 추론 동작을 일괄적으로 적용했으며, 각 질문의 특정 특성이나 과제 해결 LLM의 능력을 고려하지 않았습니다. 본 논문에서는 각 질문의 특성과 과제 해결 LLM의 내재 능력에 맞게 조정된 최적 추론 경로 탐색을 통해 LLMs가 동적으로 추론할 수 있도록 하는 DOTS 접근 방식을 제안합니다. 우리의 방법은 세 가지 주요 단계로 구성됩니다: i) 다양한 추론 동작 경로로 구성될 수 있는 원자 추론 동작 모듈을 정의하는 것, ii) 각 훈련 질문에 대한 최적 동작 경로를 특정 과제 해결 LLM에 대한 반복적 탐색과 평가를 통해 찾는 것, 그리고 iii) 수집된 최적 경로를 사용하여 LLM을 훈련시켜 보이지 않은 질문의 추론 경로를 계획하도록 하는 것입니다. 특히, 우리는 두 가지 학습 패러다임을 제안합니다. 즉, 과제 해결 LLM을 안내하기 위해 외부 LLM을 플래너로 세밀하게 조정하거나, 추론 동작 계획을 내재화한 능력으로 과제 해결 LLM을 직접 세밀하게 조정하는 것입니다. 여덟 가지 추론 과제를 횡단하는 우리의 실험은 우리의 방법이 일관되게 정적 추론 기술과 바닐라 지시 조정 방식을 능가함을 보여줍니다. 추가적인 분석 결과, 우리의 방법이 LLMs가 문제 복잡성에 따라 계산을 조정하고, 더 어려운 문제에 대해 깊은 사고와 추론을 할당할 수 있도록 합니다.

장문맥 검색 증강 생성을 위한 추론 스케일링
Inference Scaling for Long-Context Retrieval Augmented Generation

Oct 6

ByZhenrui Yue, Honglei Zhuang, Aijun Bai, Kai Hui, Rolf Jagerman, Hansi Zeng, Zhen Qin, Dong Wang, Xuanhui Wang, Michael Bendersky

추론 계산의 확장은 다양한 환경에서 긴 문맥의 대형 언어 모델(LLMs)의 잠재력을 발휘하였다. 지식 집약적 작업에서는 증가된 계산량이 종종 외부 지식을 더 많이 통합하기 위해 할당된다. 그러나 이러한 지식을 효과적으로 활용하지 않으면 단순히 문맥을 확장하는 것만으로는 항상 성능을 향상시키지 못한다. 본 연구에서는 검색 보강 생성(RAG)을 위한 추론 확장을 조사하며, 지식의 양을 단순히 증가시키는 것을 넘어가는 전략을 탐구한다. 우리는 두 가지 추론 확장 전략에 초점을 맞추는데, 이는 문맥 내 학습과 반복적 프롬프팅이다. 이러한 전략은 테스트 시간 계산을 확장함으로써(LMs의 능력을 향상시키는데 도움이 된다. 우리는 두 가지 주요 질문에 대답한다: (1) 최적으로 구성된 경우 RAG 성능이 추론 계산의 확장에서 어떻게 이득을 얻는가? (2) RAG 성능과 추론 매개변수 간의 관계를 모델링하여 주어진 예산에 대한 최적의 테스트 시간 계산 할당을 예측할 수 있는가? 우리의 관찰 결과, 추론 계산을 증가시키면 최적으로 할당된 경우 RAG 성능이 거의 선형적으로 향상되는 것을 보여주며, 이 관계를 RAG를 위한 추론 확장 법칙으로 설명한다. 여기에 더하여, 우리는 계산 할당 모델을 발전시켜 다양한 추론 구성에서 RAG 성능을 예측한다. 이 모델은 다양한 계산 제약 조건 하에서 최적의 추론 매개변수를 예측하며, 실험 결과와 밀접하게 일치한다. 이러한 최적의 구성을 적용함으로써, 우리는 긴 문맥 LLMs에서 추론 계산을 확장함으로써 표준 RAG에 비해 벤치마크 데이터셋에서 최대 58.9%의 이득을 얻을 수 있음을 보여준다.

제어 가능한 자기 회귀 모델을 사용한 이미지 생성(ControlAR)
ControlAR: Controllable Image Generation with Autoregressive Models

Oct 3

ByZongming Li, Tianheng Cheng, Shoufa Chen, Peize Sun, Haocheng Shen, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang

자기회귀(AR) 모델은 이미지 생성을 다음 토큰 예측으로 재정의하여 현저한 잠재력을 보여주며 확산 모델에 대항하는 강력한 경쟁자로 부상했습니다. 그러나 ControlNet과 유사한 제어-이미지 생성은 아직 AR 모델 내에서 크게 탐구되지 않았습니다. 대형 언어 모델의 발전에서 영감을 받은 자연스러운 접근 방식은 제어 이미지를 토큰으로 분할하고 이미지 토큰을 디코딩하기 전에 자기회귀 모델에 사전 채워넣는 것입니다. 그러나 이 방법은 ControlNet에 비해 생성 품질이 부족하고 효율성에도 문제가 있습니다. 이에 우리는 ControlAR을 소개합니다. 이는 효율적이고 효과적인 프레임워크로 공간 제어를 자기회귀 이미지 생성 모델에 통합하는 것입니다. 먼저, 우리는 AR 모델을 위한 제어 인코딩을 탐구하고 경량 제어 인코더를 제안하여 공간 입력(예: 캐니 가장자리 또는 깊이 맵)을 제어 토큰으로 변환합니다. 그런 다음 ControlAR은 조건부 디코딩 방법을 활용하여 제어 및 이미지 토큰 사이의 토큰 단위 융합에 의존하여 다음 이미지 토큰을 생성합니다. 이는 위치 인코딩과 유사합니다. 토큰 사전 채워넣기 대신 조건부 디코딩을 사용하면 AR 모델의 제어 능력이 크게 강화되지만 모델의 효율성도 유지됩니다. 또한 제안된 ControlAR은 조건부 디코딩과 특정 제어를 통해 임의 해상도 이미지 생성을 가능하게 하여 AR 모델을 놀라운 방식으로 강화합니다. 포함된 실험은 ControlAR이 다양한 입력(가장자리, 깊이, 분할 마스크 등)을 통해 자기회귀 제어-이미지 생성에 대한 조절 가능성을 입증합니다. 더불어 양적 및 질적 결과 모두 ControlAR이 이전 최첨단 제어 가능 확산 모델인 ControlNet++을 능가한다는 것을 보여줍니다. 코드, 모델 및 데모는 곧 https://github.com/hustvl/ControlAR에서 제공될 예정입니다.

TidalDecode: 위치 지속적 희소 주의를 사용한 빠르고 정확한 LLM 디코딩
TidalDecode: Fast and Accurate LLM Decoding with Position Persistent Sparse Attention

Oct 7

ByLijie Yang, Zhihao Zhang, Zhuofu Chen, Zikun Li, Zhihao Jia

대형 언어 모델(LLM)은 다양한 자연어 처리(NLP) 작업에서 중요한 발전을 이끌어내었으며, 긴 문맥 모델은 확장된 입력을 처리하기 위해 주목받고 있습니다. 그러나 트랜스포머 아키텍처에서 요구되는 확장된 키-값(KV) 캐시 크기는 특히 디코딩 단계에서 메모리 제약을 심화시키는 중대한 병목 현상을 초래합니다. 이 병목 현상을 해결하기 위해 설계된 기존의 희소 어텐션 메커니즘은 두 가지 제한이 있습니다: (1) 주로 가장 관련성 높은 토큰을 신뢰할 수 없이 식별하는 경우가 많으며, (2) 연속된 트랜스포머 레이어 간에 토큰 선택의 공간적 일관성을 간과하여 성능 저하와 토큰 선택에서 상당한 오버헤드를 초래할 수 있습니다. 본 논문은 TidalDecode를 소개합니다. 이는 위치 지속적인 희소 어텐션을 통해 빠르고 정확한 LLM 디코딩을 위한 간단하면서 효과적인 알고리즘 및 시스템입니다. TidalDecode는 기존의 희소 어텐션 방법에 의해 선택된 토큰들의 공간적 일관성을 활용하고, 가장 높은 어텐션 점수를 가진 토큰을 식별하기 위해 몇 개의 토큰 선택 레이어를 도입하며, 다른 모든 레이어는 사전에 선택된 토큰을 사용하여 희소 어텐션을 수행합니다. 이 설계는 TidalDecode가 희소 어텐션을 위한 토큰 선택의 오버헤드를 상당히 줄이면서 생성된 결과물의 품질을 희생하지 않도록 합니다. 다양한 LLM 및 작업에 대한 평가 결과, TidalDecode가 전체 어텐션 방법의 생성 성능과 유사하면서 LLM 디코딩 지연 시간을 최대 2.1배까지 줄일 수 있음을 보여줍니다.

MA-RLHF: 매크로 액션을 활용한 인간 피드백으로부터의 강화 학습
MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions

Oct 3

ByYekun Chai, Haoran Sun, Huang Fang, Shuohuan Wang, Yu Sun, Hua Wu

인간 피드백으로부터 강화 학습(Reinforcement learning from human feedback, RLHF)은 대규모 언어 모델(Large Language Models, LLMs)을 인간의 선호에 맞게 조정하는 효과를 입증했습니다. 그러나 토큰 수준의 RLHF는 장기 시퀀스에서의 신용 할당 문제로 인해 어려움을 겪습니다. 지연된 보상으로 인해 모델이 어떤 행동이 성공적인 결과에 기여했는지 구별하기 어려워집니다. 이는 학습 효율성을 저해하고 수렴 속도를 늦춥니다. 본 논문에서는 매크로 액션 - 토큰 시퀀스 또는 상위 수준의 언어 구조 - 를 학습 프로세스에 통합하는 간단하면서 효과적인 MA-RLHF 프레임워크를 제안합니다. 이러한 더 높은 추상화 수준에서 작동함으로써 저희 방법은 행동과 보상 사이의 시간적 거리를 줄여 더 빠르고 정확한 신용 할당을 가능하게 합니다. 이는 더 안정적인 정책 기울기 추정치를 초래하며, 각 에피소드 내에서 학습 효율성을 향상시키고, 훈련이나 추론 중에 계산 복잡성을 증가시키지 않습니다. 우리는 텍스트 요약, 대화 생성, 질문 응답, 프로그램 합성을 포함한 다양한 모델 크기와 작업을 통해 방법을 검증합니다. 우리의 방법은 텍스트 요약 및 코드 생성에서 최대 30%의 성능 향상, 대화에서 18%, 질문 응답 작업에서 8%의 성능 향상을 달성합니다. 특히, 우리의 방법은 훈련 시간을 기준으로 바닐라 RLHF보다 1.7배에서 2배 빠르게 동등한 수준에 도달하며, 추가 훈련을 통해 계속해서 능가합니다. 우리는 코드와 데이터를 https://github.com/ernie-research/MA-RLHF 에 공개할 예정입니다.

EBES: 이벤트 시퀀스를 위한 쉬운 벤치마킹
EBES: Easy Benchmarking for Event Sequences

Oct 4

ByDmitry Osin, Igor Udovichenko, Viktor Moskvoretskii, Egor Shvetsov, Evgeny Burnaev

이벤트 시퀀스는 불규칙한 샘플링 간격과 범주형 및 수치형 특징의 혼합으로 특징 지어지며, 의료, 금융 및 사용자 상호작용 로그와 같은 다양한 실제 도메인에서 일반적인 데이터 구조입니다. 시간 데이터 모델링 기술의 발전에도 불구하고, 이벤트 시퀀스에서의 성능을 평가하기 위한 표준화된 벤치마크가 없습니다. 이는 서로 다른 논문 간의 결과 비교를 복잡하게 만들어 이 분야의 진전을 오도할 수 있는 다양한 평가 프로토콜로 인해 발생합니다. 저희는 회귀 및 분류 문제에 초점을 맞춘 시퀀스 수준의 대상을 갖는 표준화된 평가 시나리오와 프로토콜을 갖춘 포괄적인 벤치마킹 도구인 EBES를 소개합니다. 저희 라이브러리는 통합된 인터페이스를 통해 벤치마킹, 데이터셋 추가 및 방법 통합을 간소화합니다. 이는 새로운 합성 데이터셋을 포함하고, 최대 규모의 공개 은행 데이터셋을 비롯한 사전 처리된 실제 데이터셋을 제공합니다. 저희 결과는 데이터셋의 심층적인 분석을 제공하며, 일부 모델 비교에 부적합한 것으로 확인됩니다. 우리는 시간 및 순차 구성 요소 모델링의 중요성, 모델의 견고성 및 확장성 특성을 조사합니다. 이러한 결과는 미래 연구를 위한 잠재적인 방향을 강조합니다. 저희 벤치마크의 목표는 재현 가능한 연구를 용이하게 하여 진전을 가속화하고 실제 세계 영향을 증가시키는 데 있습니다.

하이퍼-멀티스텝: 어려운 장기 맥락 작업 뒤의 진실
Hyper-multi-step: The Truth Behind Difficult Long-context Tasks

Oct 6

ByYijiong Yu

긴 문맥 언어 모델(Long-context language models, LCLM)은 광범위한 문맥 창으로 특징 지어지며 점점 더 인기를 얻고 있습니다. 한편, 많은 긴 문맥 벤치마크는 심각한 과제를 제시하며 심지어 가장 선진한 LCLM도 완수하기 어려워합니다. 그러나 다양한 어려운 긴 문맥 과제의 근본적인 원천은 거의 연구되지 않았습니다. 이 간극을 메우기 위해, 우리는 실험을 수행하여 이들의 어려움이 주로 "다중 매칭 검색"과 "논리 기반 검색"이라는 두 가지 기본 문제에서 비롯됨을 나타냅니다. 이 두 문제는 보통 간단해 보이지만 실제로 LCLM의 능력을 초월하는데, 왜냐하면 이러한 문제들은 본질적으로 하이퍼-다단계(해결하기 위해 많은 단계가 필요한)적인 것으로 입증되었기 때문입니다. 이 발견은 LLM이 더 고급 긴 문맥 과제에 어려움을 겪는 이유를 설명할 수 있으며, 이를 통해 이러한 문제에 대한 해결책을 재고하는 데 더 정확한 시각을 제공할 수 있습니다.

Grounded-VideoLLM: 비디오에서 미세 시간적 그라운딩을 더 정교하게 하는 대규모 언어 모델
Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models

Oct 4

ByHaibo Wang, Zhiyang Xu, Yu Cheng, Shizhe Diao, Yufan Zhou, Yixin Cao, Qifan Wang, Weifeng Ge, Lifu Huang

비디오 대형 언어 모델(Video-LLMs)은 거친 수준의 비디오 이해에서 놀라운 능력을 보여주었지만, 세부적인 시간적 기준에는 어려움을 겪고 있습니다. 본 논문에서는 세부적인 방식으로 비디오 순간을 인식하고 추론하는 능력을 갖춘 새로운 Video-LLM인 Grounded-VideoLLM을 소개합니다. 현재의 Video-LLMs는 효과적인 시간적 모델링과 타임스탬프 표현이 부족하여 세부적인 비디오 이해에 제한이 있다는 것을 확인했습니다. 이에 따라, 우리는 (1) 프레임 간의 관계를 인코딩하기 위한 추가적인 시간적 스트림과 (2) 특정 시간 지식이 풍부한 이산적인 시간 토큰을 포함하여 모델을 개선했습니다. Grounded-VideoLLM의 훈련을 최적화하기 위해 단계적인 훈련 체계를 채택했는데, 이는 간단한 비디오 자막 작업으로 시작하여 점차 복잡도가 증가하는 비디오 시간 기준 작업을 도입하는 것입니다. 더 나아가 Grounded-VideoLLM의 시간적 추론 능력을 향상시키기 위해 자동 주석 파이프라인을 통해 지식이 담긴 VideoQA 데이터셋을 만들었습니다. 광범위한 실험 결과는 Grounded-VideoLLM이 시간적 문장 기준, 밀도 있는 비디오 자막, 그리고 지식이 담긴 VideoQA와 같은 세부적인 기준 작업에서 뛰어나며, 일반적인 비디오 이해를 위한 다재다능한 비디오 어시스턴트로 큰 잠재력을 보여준다는 것을 입증합니다.

ε-VAE: 시각 복호화로서의 노이즈 제거
ε-VAE: Denoising as Visual Decoding

Oct 5

ByLong Zhao, Sanghyun Woo, Ziyu Wan, Yandong Li, Han Zhang, Boqing Gong, Hartwig Adam, Xuhui Jia, Ting Liu

생성 모델링에서 토큰화는 복잡한 데이터를 간결하고 구조화된 표현으로 단순화하여 더 효율적이고 학습 가능한 공간을 만듭니다. 고차원 시각 데이터의 경우, 이는 중복을 줄이고 고품질 생성을 위해 주요 특징을 강조합니다. 현재의 시각적 토큰화 방법은 데이터를 잠재적 표현으로 압축하는 인코더와 원본 입력을 재구성하는 디코더가 있는 전통적인 오토인코더 프레임워크에 의존합니다. 본 연구에서는 디노이징을 디코딩으로 제안하여 단일 단계 재구성에서 반복적인 정제로 전환하는 새로운 관점을 제시합니다. 구체적으로, 디코더를 인코더가 제공하는 잠재 변수에 의해 안내되는 원본 이미지를 복구하기 위해 잡음을 반복적으로 정제하는 확산 과정으로 대체합니다. 우리의 접근 방식을 평가하기 위해 재구성 (rFID) 및 생성 품질 (FID)을 평가하고 최첨단 오토인코딩 접근 방식과 비교합니다. 이 연구가 반복적 생성과 오토인코딩을 통합하여 압축 및 생성을 개선하는 데 새로운 통찰을 제공하기를 희망합니다.

제어 가능한 자기 회귀 모델을 사용한 이미지 생성(ControlAR)
ControlAR: Controllable Image Generation with Autoregressive Models

Oct 3

ByZongming Li, Tianheng Cheng, Shoufa Chen, Peize Sun, Haocheng Shen, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang