Самостоятельное выравнивание крупных видеоязыковых моделей с использованием усовершенствованной регуляризованной оптимизации предпочтений
Self-alignment of Large Video Language Models with Refined Regularized Preference Optimization
April 16, 2025
Авторы: Pritam Sarkar, Ali Etemad
cs.AI
Аннотация
Несмотря на недавние достижения в области крупных языковых моделей для видео (LVLMs), они по-прежнему испытывают трудности с тонким временным пониманием, склонны к галлюцинациям и часто допускают простые ошибки даже в несложных задачах по ответам на вопросы о видео, что создает значительные препятствия для их безопасного и надежного применения в реальных сценариях. Чтобы устранить эти ограничения, мы предлагаем фреймворк самонастройки, который позволяет LVLMs учиться на своих ошибках. Наш подход сначала создает обучающий набор пар предпочтительных и нежелательных ответов, где нежелательные ответы генерируются с учетом типичных ошибок, возникающих из-за недостаточного пространственно-временного понимания, ложных корреляций между совместно встречающимися концепциями и чрезмерной зависимости от лингвистических подсказок в ущерб визуальной модальности, среди прочего. Для облегчения самонастройки LVLMs на основе сконструированных пар предпочтительных и нежелательных ответов мы представляем метод Refined Regularized Preference Optimization (RRPO) — новый подход к оптимизации предпочтений, который использует уточненные награды на уровне подпоследовательностей и токен-уровневую KL-регуляризацию для устранения ограничений Direct Preference Optimization (DPO). Мы показываем, что RRPO обеспечивает более точную настройку и более стабильное обучение по сравнению с DPO. Наши эксперименты и анализ подтверждают эффективность предложенного подхода в различных задачах, включая галлюцинации в видео, понимание коротких и длинных видео, а также тонкое временное рассуждение.
English
Despite recent advances in Large Video Language Models (LVLMs), they still
struggle with fine-grained temporal understanding, hallucinate, and often make
simple mistakes on even simple video question-answering tasks, all of which
pose significant challenges to their safe and reliable deployment in real-world
applications. To address these limitations, we propose a self-alignment
framework that enables LVLMs to learn from their own errors. Our proposed
framework first obtains a training set of preferred and non-preferred response
pairs, where non-preferred responses are generated by incorporating common
error patterns that often occur due to inadequate spatio-temporal
understanding, spurious correlations between co-occurring concepts, and
over-reliance on linguistic cues while neglecting the vision modality, among
others. To facilitate self-alignment of LVLMs with the constructed preferred
and non-preferred response pairs, we introduce Refined Regularized Preference
Optimization (RRPO), a novel preference optimization method that utilizes
sub-sequence-level refined rewards and token-wise KL regularization to address
the limitations of Direct Preference Optimization (DPO). We demonstrate that
RRPO achieves more precise alignment and more stable training compared to DPO.
Our experiments and analysis validate the effectiveness of our approach across
diverse video tasks, including video hallucination, short- and long-video
understanding, and fine-grained temporal reasoning.Summary
AI-Generated Summary