HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

18 papers found

Paper2Code: Автоматизация генерации кода из научных статей в области машинного обучения
Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning

Apr 24

ByMinju Seo, Jinheon Baek, Seongyun Lee, Sung Ju Hwang

120

Несмотря на стремительный рост исследований в области машинного обучения, соответствующие реализации кода часто недоступны, что делает процесс воспроизведения результатов и построения на основе предыдущих работ медленным и трудоемким для исследователей. В то же время современные крупные языковые модели (LLM) демонстрируют выдающиеся способности в понимании научных документов и генерации высококачественного кода. Вдохновленные этим, мы представляем PaperCoder — мультиагентную LLM-систему, которая преобразует статьи по машинному обучению в функциональные репозитории кода. PaperCoder работает в три этапа: планирование, на котором создается высокоуровневый план, проектируется архитектура системы с использованием диаграмм, определяются зависимости файлов и генерируются конфигурационные файлы; анализ, который сосредоточен на интерпретации деталей, специфичных для реализации; и генерация, в ходе которой создается модульный код с учетом зависимостей. Каждый этап реализуется через набор специализированных агентов, разработанных для эффективного взаимодействия в рамках конвейера. Мы оцениваем PaperCoder на основе генерации кодовых реализаций из статей по машинному обучению, используя как модельные, так и человеческие оценки, в частности от авторов оригинальных статей, с репозиториями, выпущенными авторами, в качестве эталонных данных, если они доступны. Наши результаты демонстрируют эффективность PaperCoder в создании высококачественных и точных реализаций. Кроме того, система стабильно показывает сильные результаты в недавно выпущенном бенчмарке PaperBench, значительно опережая сильные базовые подходы.

Step1X-Edit: Практическая структура для универсального редактирования изображений
Step1X-Edit: A Practical Framework for General Image Editing

Apr 24

ByShiyu Liu, Yucheng Han, Peng Xing, Fukun Yin, Rui Wang, Wei Cheng, Jiaqi Liao, Yingming Wang, Honghao Fu, Chunrui Han, Guopeng Li, Yuang Peng, Quan Sun, Jingwei Wu, Yan Cai, Zheng Ge, Ranchen Ming, Lei Xia, Xianfang Zeng, Yibo Zhu, Binxing Jiao, Xiangyu Zhang, Gang Yu, Daxin Jiang

В последние годы модели редактирования изображений продемонстрировали впечатляющий и стремительный прогресс. Недавний анонс передовых мультимодальных моделей, таких как GPT-4o и Gemini2 Flash, представил чрезвычайно перспективные возможности редактирования изображений. Эти модели показывают впечатляющую способность удовлетворять подавляющее большинство пользовательских требований к редактированию, что знаменует собой значительный прорыв в области обработки изображений. Однако между открытыми алгоритмами и этими закрытыми моделями по-прежнему существует значительный разрыв. В связи с этим в данной статье мы представляем передовую модель редактирования изображений под названием Step1X-Edit, которая способна обеспечить сопоставимую производительность с закрытыми моделями, такими как GPT-4o и Gemini2 Flash. В частности, мы используем мультимодальную языковую модель (Multimodal LLM) для обработки исходного изображения и инструкций пользователя. Латентное представление извлекается и интегрируется с диффузионным декодером изображений для получения целевого изображения. Для обучения модели мы создали конвейер генерации данных, позволяющий создавать высококачественный набор данных. Для оценки разработан GEdit-Bench — новый эталонный тест, основанный на реальных пользовательских инструкциях. Результаты экспериментов на GEdit-Bench показывают, что Step1X-Edit значительно превосходит существующие открытые базовые модели и приближается к производительности ведущих проприетарных моделей, внося таким образом существенный вклад в область редактирования изображений.

RefVNLI: К масштабируемой оценке генерации изображений на основе текста с учетом предметной области
RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation

Apr 24

ByAviv Slobodkin, Hagai Taitelbaum, Yonatan Bitton, Brian Gordon, Michal Sokolik, Nitzan Bitton Guetta, Almog Gueta, Royi Rassin, Itay Laish, Dani Lischinski, Idan Szpektor

Генерация изображений на основе текста с учетом объекта (T2I) направлена на создание изображений, соответствующих заданному текстовому описанию, при этом сохраняя визуальную идентичность из эталонного изображения объекта. Несмотря на широкую применимость в различных областях — от улучшения персонализации в генерации изображений до согласованного представления персонажей в рендеринге видео — прогресс в этой области ограничен отсутствием надежной автоматической оценки. Существующие методы либо оценивают только один аспект задачи (например, соответствие тексту или сохранение объекта), не согласуются с человеческими суждениями, либо полагаются на дорогостоящую оценку через API. Для решения этой проблемы мы представляем RefVNLI — экономичный метрический инструмент, который оценивает как соответствие тексту, так и сохранение объекта в рамках одного предсказания. Обученный на крупномасштабном наборе данных, полученном из бенчмарков для анализа видео и искажений изображений, RefVNLI превосходит или соответствует существующим базовым методам на множестве бенчмарков и категорий объектов (например, животные, предметы), достигая улучшений до 6,4 баллов в соответствию тексту и 8,5 баллов в сохранении объекта. Он также демонстрирует высокие результаты с менее известными концепциями, согласуясь с человеческими предпочтениями с точностью более 87%.

Преодоление барьера модальностей: универсальное обучение эмбеддингов с помощью мультимодальных языковых моделей
Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs

Apr 24

ByTiancheng Gu, Kaicheng Yang, Ziyong Feng, Xingjun Wang, Yanzhao Zhang, Dingkun Long, Yingda Chen, Weidong Cai, Jiankang Deng

Фреймворк Contrastive Language-Image Pre-training (CLIP) стал широко используемым подходом для обучения мультимодальных представлений, особенно в задачах поиска и кластеризации изображений и текстов. Однако его эффективность ограничена тремя ключевыми недостатками: (1) усечение текстовых токенов, (2) изолированное кодирование изображений и текстов и (3) недостаточная композициональность из-за поведения, характерного для модели "мешка слов". Хотя современные мультимодальные большие языковые модели (MLLMs) продемонстрировали значительные успехи в обобщённом понимании визуально-текстовой информации, их потенциал для обучения переносимым мультимодальным представлениям остаётся недостаточно изученным. В данной работе мы представляем UniME (Universal Multimodal Embedding) — новый двухэтапный фреймворк, который использует MLLMs для обучения дискриминативных представлений для различных задач. На первом этапе мы выполняем текстовое дискриминативное дистилляцию знаний из мощной языковой модели (LLM) для улучшения способности кодирования языкового компонента MLLM. На втором этапе мы вводим тонкую настройку с использованием сложных негативных примеров для дальнейшего улучшения обучения дискриминативных представлений. В частности, мы сначала устраняем загрязнение ложными негативами, а затем выбираем несколько сложных негативных примеров для каждого экземпляра в пределах батча, заставляя модель фокусироваться на сложных образцах. Этот подход не только повышает дискриминативную способность, но и улучшает способность следовать инструкциям в задачах. Мы проводим обширные эксперименты на бенчмарке MMEB и в нескольких задачах поиска, включая поиск по коротким и длинным описаниям, а также композиционный поиск. Результаты показывают, что UniME достигает стабильного улучшения производительности во всех задачах, демонстрируя превосходные дискриминативные и композиционные способности.

Осознанное рассуждение с учетом перспективы в моделях "зрение-язык" через симуляцию ментальных образов
Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation

Apr 24

ByPhillip Y. Lee, Jihyeon Je, Chanho Park, Mikaela Angelina Uy, Leonidas Guibas, Minhyuk Sung

Мы представляем фреймворк для перспективно-ориентированного рассуждения в моделях "визуальный язык" (VLMs) через симуляцию ментальных образов. Способность к смене перспективы, то есть восприятие окружения или ситуации с альтернативной точки зрения, является ключевым критерием для визуального понимания на уровне человека, необходимым для взаимодействия с окружающей средой и сотрудничества с автономными агентами. Несмотря на прогресс в пространственном рассуждении в рамках VLMs, последние исследования показывают, что современные VLMs значительно уступают в способности к перспективно-ориентированному рассуждению и демонстрируют сильную склонность к эгоцентричным интерпретациям. Чтобы сократить разрыв между VLMs и человеческим восприятием, мы сосредоточились на роли ментальных образов, где люди воспринимают мир через абстрактные представления, способствующие смене перспективы. Вдохновленные этим, мы предлагаем фреймворк для перспективно-ориентированного рассуждения, названный Abstract Perspective Change (APC), который эффективно использует базовые модели компьютерного зрения, такие как обнаружение объектов, сегментация и оценка ориентации, для построения абстракций сцены и реализации преобразований перспективы. Наши эксперименты на синтетических и реальных изображениях, в сравнении с различными VLMs, демонстрируют значительные улучшения в перспективно-ориентированном рассуждении с использованием нашего фреймворка, превосходя как тонко настроенные модели пространственного рассуждения, так и подходы, основанные на синтезе новых видов.

DiMeR: Модель для реконструкции разъединенных мешей
DiMeR: Disentangled Mesh Reconstruction Model

Apr 24

ByLutao Jiang, Jiantao Lin, Kanghao Chen, Wenhang Ge, Xin Yang, Yifan Jiang, Yuanhuiyi Lyu, Xu Zheng, Yingcong Chen

С появлением крупномасштабных 3D-наборов данных прямые 3D-генеративные модели, такие как Large Reconstruction Model (LRM), привлекли значительное внимание и достигли впечатляющих успехов. Однако мы наблюдаем, что RGB-изображения часто приводят к конфликтующим целям обучения и не обеспечивают необходимой ясности для реконструкции геометрии. В данной работе мы пересматриваем индуктивные предубеждения, связанные с реконструкцией мешей, и представляем DiMeR — новую модель с разделенным двухпоточным прямым распространением для реконструкции мешей по разреженным видам. Основная идея заключается в разделении как входных данных, так и структуры модели на геометрическую и текстурную части, что снижает сложность обучения для каждой части в соответствии с принципом бритвы Оккама. Учитывая, что карты нормалей строго согласуются с геометрией и точно отражают вариации поверхности, мы используем карты нормалей в качестве единственного входа для геометрической ветви, чтобы уменьшить сложность между входом и выходом сети. Кроме того, мы улучшаем алгоритм извлечения мешей для введения 3D-надзора на основе эталонных данных. Для текстурной ветви мы используем RGB-изображения в качестве входных данных для получения текстурированного меша. В целом, DiMeR демонстрирует устойчивые возможности в различных задачах, включая реконструкцию по разреженным видам, преобразование одного изображения в 3D и генерацию 3D по текстовому описанию. Многочисленные эксперименты показывают, что DiMeR значительно превосходит предыдущие методы, достигая улучшения на более чем 30% по метрике Chamfer Distance на наборах данных GSO и OmniObject3D.

Token-Shuffle: В сторону генерации изображений высокого разрешения с использованием авторегрессивных моделей
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models

Apr 24

ByXu Ma, Peize Sun, Haoyu Ma, Hao Tang, Chih-Yao Ma, Jialiang Wang, Kunpeng Li, Xiaoliang Dai, Yujun Shi, Xuan Ju, Yushi Hu, Artsiom Sanakoyeu, Felix Juefei-Xu, Ji Hou, Junjiao Tian, Tao Xu, Tingbo Hou, Yen-Cheng Liu, Zecheng He, Zijian He, Matt Feiszli, Peizhao Zhang, Peter Vajda, Sam Tsai, Yun Fu

Авторегрессионные (AR) модели, долгое время доминировавшие в генерации текста, всё чаще применяются для синтеза изображений, однако зачастую считаются менее конкурентоспособными по сравнению с моделями на основе диффузии. Основное ограничение заключается в значительном количестве токенов изображения, требуемых для AR-моделей, что ограничивает как эффективность обучения и вывода, так и разрешение изображений. Для решения этой проблемы мы представляем Token-Shuffle — новый, но простой метод, который сокращает количество токенов изображения в Transformer. Наше ключевое наблюдение заключается в избыточности размерности визуальных словарей в мультимодальных больших языковых моделях (MLLMs), где низкоразмерные визуальные коды из визуального кодера напрямую отображаются на высокоразмерные языковые словари. Используя это, мы рассматриваем две ключевые операции: token-shuffle, которая объединяет локальные в пространстве токены по канальному измерению для уменьшения количества входных токенов, и token-unshuffle, которая разделяет выведенные токены после блоков Transformer для восстановления пространственной структуры на выходе. Совместное обучение с текстовыми подсказками позволяет нашей стратегии обходиться без дополнительного предобученного текстового кодера и позволяет MLLMs поддерживать синтез изображений с чрезвычайно высоким разрешением в едином подходе предсказания следующего токена, сохраняя при этом эффективность обучения и вывода. Впервые мы расширяем границы AR-генерации текста в изображения до разрешения 2048x2048 с впечатляющими результатами генерации. В бенчмарке GenAI наша модель с 2.7 миллиардами параметров достигает общего балла 0.77 на сложных запросах, превосходя AR-модель LlamaGen на 0.18 и диффузионную модель LDM на 0.15. Масштабные человеческие оценки также демонстрируют нашу выдающуюся способность к генерации изображений с точки зрения соответствия тексту, визуальных дефектов и внешнего вида. Мы надеемся, что Token-Shuffle может стать основополагающим подходом для эффективной генерации изображений высокого разрешения в рамках MLLMs.

QuaDMix: Сбалансированный отбор данных по качеству и разнообразию для эффективного предобучения больших языковых моделей
QuaDMix: Quality-Diversity Balanced Data Selection for Efficient LLM Pretraining

Apr 23

ByFengze Liu, Weidong Zhou, Binbin Liu, Zhimiao Yu, Yifan Zhang, Haobin Lin, Yifeng Yu, Xiaohuan Zhou, Taifeng Wang, Yong Cao

Качество и разнообразие являются двумя ключевыми метриками для обучающих данных крупных языковых моделей (LLM), положительно влияющими на их производительность. Существующие исследования часто оптимизируют эти метрики по отдельности, обычно сначала применяя фильтрацию по качеству, а затем корректируя пропорции данных. Однако такие подходы упускают из виду внутренний компромисс между качеством и разнообразием, что требует их совместного рассмотрения. При фиксированном объеме обучающих данных важно оценивать как качество каждого элемента данных, так и его дополнительный вклад в общий набор данных. В данной статье мы представляем унифицированную структуру выбора данных под названием QuaDMix, которая автоматически оптимизирует распределение данных для предварительного обучения LLM, балансируя качество и разнообразие. В частности, мы сначала предлагаем несколько критериев для измерения качества данных и используем классификацию по доменам для различения элементов данных, тем самым оценивая общее разнообразие. QuaDMix затем применяет унифицированную параметризованную функцию выборки данных, которая определяет вероятность выборки каждого элемента данных на основе меток, связанных с качеством и разнообразием. Для ускорения поиска оптимальных параметров, задействованных в структуре QuaDMix, мы проводим имитационные эксперименты на меньших моделях и используем LightGBM для поиска параметров, вдохновляясь методом RegMix. Наши эксперименты на различных моделях и наборах данных демонстрируют, что QuaDMix обеспечивает среднее улучшение производительности на 7,2% по множеству тестов. Эти результаты превосходят независимые стратегии для качества и разнообразия, подчеркивая необходимость и способность балансировать качество и разнообразие данных.

Модели вознаграждения процессов, способные к рассуждению
Process Reward Models That Think

Apr 23

ByMuhammad Khalifa, Rishabh Agarwal, Lajanugen Logeswaran, Jaekyeom Kim, Hao Peng, Moontae Lee, Honglak Lee, Lu Wang

Пошаговые верификаторы, также известные как модели пошагового вознаграждения (PRMs), являются ключевым компонентом для масштабирования на этапе тестирования. PRMs требуют пошагового контроля, что делает их обучение дорогостоящим. Данная работа направлена на создание эффективных с точки зрения данных PRMs в виде вербализованных пошаговых моделей вознаграждения, которые проверяют каждый шаг решения, генерируя цепочку рассуждений (CoT) для верификации. Мы предлагаем ThinkPRM — длинный CoT-верификатор, дообученный на значительно меньшем количестве меток процесса по сравнению с дискриминативными PRMs. Наш подход использует присущие длинным CoT-моделям способности к рассуждению и превосходит подходы LLM-as-a-Judge и дискриминативные верификаторы, используя всего 1% меток процесса из PRM800K, на нескольких сложных бенчмарках. В частности, ThinkPRM превосходит базовые методы на ProcessBench, MATH-500 и AIME '24 при использовании стратегий best-of-N и поиска с учетом вознаграждения. В кросс-доменной оценке на подмножествах GPQA-Diamond и LiveCodeBench наш PRM превосходит дискриминативные верификаторы, обученные на полном наборе PRM800K, на 8% и 4,5% соответственно. Наконец, при одинаковом бюджете токенов ThinkPRM более эффективно масштабирует вычислительные ресурсы для верификации по сравнению с LLM-as-a-Judge, превосходя его на 7,2% на подмножестве ProcessBench. Наша работа подчеркивает ценность генеративных длинных CoT PRMs, которые могут масштабировать вычислительные ресурсы для верификации на этапе тестирования, требуя минимального контроля при обучении. Наш код, данные и модели будут доступны по адресу https://github.com/mukhal/thinkprm.

3DV-TON: Текстурированная 3D-направленная согласованная примерка видео с использованием моделей диффузии
3DV-TON: Textured 3D-Guided Consistent Video Try-on via Diffusion Models

Apr 24

ByMin Wei, Chaohui Yu, Jingkai Zhou, Fan Wang

Примерка одежды на видео заменяет одежду в видеороликах на целевые предметы гардероба. Существующие методы сталкиваются с трудностями при генерации высококачественных и временно согласованных результатов при работе со сложными узорами одежды и разнообразными позами тела. Мы представляем 3DV-TON — новый фреймворк на основе диффузии для создания высококачественных и временно согласованных результатов примерки на видео. Наш подход использует сгенерированные анимируемые текстурированные 3D-меши в качестве явного пофреймового руководства, что позволяет смягчить проблему чрезмерного внимания моделей к точности внешнего вида в ущерб согласованности движений. Это достигается за счет возможности прямого обращения к согласованным движениям текстуры одежды на протяжении видеопоследовательностей. Предложенный метод включает адаптивный процесс генерации динамического 3D-руководства: (1) выбор ключевого кадра для начальной примерки на 2D-изображении, за которым следует (2) реконструкция и анимация текстурированного 3D-меша, синхронизированного с позами из оригинального видео. Мы также вводим надежную стратегию прямоугольного маскирования, которая успешно устраняет распространение артефактов, вызванных утечкой информации об одежде во время динамических движений человека и одежды. Для продвижения исследований в области примерки на видео мы представляем HR-VVT — эталонный набор данных высокого разрешения, содержащий 130 видеороликов с разнообразными типами одежды и сценариями. Количественные и качественные результаты демонстрируют превосходство нашего метода над существующими. Страница проекта доступна по ссылке: https://2y7c3.github.io/3DV-TON/

Улучшение генеративного моделирования изображений через совместный синтез изображений и признаков
Boosting Generative Image Modeling via Joint Image-Feature Synthesis

Apr 22

ByTheodoros Kouzelis, Efstathios Karypidis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis

Латентные диффузионные модели (LDMs) доминируют в области генерации высококачественных изображений, однако интеграция обучения представлений с генеративным моделированием остается сложной задачей. Мы представляем новый фреймворк для генеративного моделирования изображений, который бесшовно устраняет этот разрыв, используя диффузионную модель для совместного моделирования низкоуровневых латентных переменных изображений (из вариационного автоэнкодера) и высокоуровневых семантических признаков (из предобученного самоконтролируемого энкодера, такого как DINO). Наш подход, основанный на латентно-семантической диффузии, учится генерировать согласованные пары изображение-признак из чистого шума, значительно улучшая как качество генерации, так и эффективность обучения, при этом требуя лишь минимальных модификаций стандартных архитектур Diffusion Transformer. Устраняя необходимость в сложных целях дистилляции, наш унифицированный дизайн упрощает обучение и открывает мощную новую стратегию вывода: Representation Guidance, которая использует изученную семантику для управления и уточнения генерации изображений. Оцененный как в условных, так и в безусловных сценариях, наш метод демонстрирует существенные улучшения в качестве изображений и скорости сходимости обучения, задавая новое направление для генеративного моделирования с учетом представлений.

DyMU: Динамическое объединение и виртуальное разделение для повышения эффективности VLMs
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs

Apr 23

ByZhenhailong Wang, Senthil Purushwalkam, Caiming Xiong, Silvio Savarese, Heng Ji, Ran Xu

Мы представляем DyMU — эффективную, не требующую обучения структуру, которая динамически снижает вычислительную нагрузку моделей обработки визуально-языковых данных (VLMs), сохраняя при этом высокую производительность в задачах. Наш подход включает два ключевых компонента. Во-первых, Dynamic Token Merging (DToMe) сокращает количество визуальных токенов, объединяя схожие токены на основе сложности изображения, что устраняет присущую неэффективность фиксированной длины выходных данных в трансформерах для обработки изображений. Во-вторых, Virtual Token Unmerging (VTU) моделирует ожидаемую последовательность токенов для больших языковых моделей (LLMs), эффективно восстанавливая динамику внимания полной последовательности, тем самым сохраняя производительность на последующих этапах без дополнительной тонкой настройки. В отличие от предыдущих подходов, наш метод динамически адаптирует сжатие токенов к содержанию изображения и работает полностью без обучения, что делает его легко применимым к большинству современных архитектур VLMs. Многочисленные эксперименты на задачах понимания изображений и видео демонстрируют, что DyMU может сократить среднее количество визуальных токенов на 32%-85%, достигая при этом сопоставимой производительности с моделями, использующими полную длину токенов, в различных архитектурах VLMs, включая недавно популярные визуальные кодировщики на основе AnyRes. Кроме того, качественный анализ показывает, что DToMe эффективно адаптирует сокращение токенов в зависимости от сложности изображения и, в отличие от существующих систем, предоставляет пользователям больше контроля над вычислительными затратами. Страница проекта: https://mikewangwzhl.github.io/dymu/.

TimeChat-Online: 80% визуальных токенов естественным образом избыточны в потоковых видео
TimeChat-Online: 80% Visual Tokens are Naturally Redundant in Streaming Videos

Apr 24

ByLinli Yao, Yicheng Li, Yuancheng Wei, Lei Li, Shuhuai Ren, Yuanxin Liu, Kun Ouyang, Lean Wang, Shicheng Li, Sida Li, Lingpeng Kong, Qi Liu, Yuanxing Zhang, Xu Sun

Быстрый рост онлайн-видеоплатформ, особенно сервисов прямой трансляции, создал острую потребность в системах понимания видео в реальном времени. Эти системы должны обрабатывать непрерывные видеопотоки и мгновенно реагировать на запросы пользователей, что представляет уникальные вызовы для современных Видео-Больших Языковых Моделей (VideoLLMs). Хотя существующие VideoLLMs отлично справляются с обработкой завершенных видео, они сталкиваются с серьезными ограничениями в сценариях потоковой передачи из-за неспособности эффективно обрабатывать плотные, избыточные кадры. Мы представляем TimeChat-Online — новую онлайн VideoLLM, которая революционизирует взаимодействие с видео в реальном времени. В ее основе лежит наш инновационный модуль Differential Token Drop (DTD), который решает фундаментальную проблему визуальной избыточности в потоковых видео. Вдохновляясь феноменом "слепоты к изменениям" в человеческом зрении, DTD сохраняет значимые временные изменения, отфильтровывая статичный, избыточный контент между кадрами. Примечательно, что наши эксперименты показывают, что DTD достигает сокращения видеотокенов на 82,8%, сохраняя при этом 98% производительности на StreamingBench, что свидетельствует о том, что более 80% визуального контента в потоковых видео естественно избыточны без необходимости языкового руководства. Для обеспечения плавного взаимодействия в реальном времени мы представляем TimeChat-Online-139K — всеобъемлющий набор данных потокового видео, включающий разнообразные шаблоны взаимодействия, такие как обратный поиск, текущее восприятие и реагирование на будущие сценарии. Уникальная способность TimeChat-Online к "Проактивному Ответу", естественно достигаемая за счет непрерывного мониторинга переходов сцен через DTD, выделяет ее среди традиционных подходов. Наши обширные оценки демонстрируют превосходную производительность TimeChat-Online на потоковых тестах (StreamingBench и OvOBench) и сохранение конкурентоспособных результатов на задачах с длинными видео, таких как Video-MME и MLVU.

IberBench: Оценка языковых моделей на иберо-романских языках
IberBench: LLM Evaluation on Iberian Languages

Apr 23

ByJosé Ángel González, Ian Borrego Obrador, Álvaro Romo Herrero, Areg Mikael Sarvazyan, Mara Chinea-Ríos, Angelo Basile, Marc Franco-Salvador

Крупные языковые модели (LLM) остаются сложными для всесторонней оценки, особенно для языков, отличных от английского, где качественные данные часто ограничены. Существующие бенчмарки и рейтинги преимущественно ориентированы на английский язык, и лишь немногие из них охватывают другие языки. Эти бенчмарки имеют несколько ключевых недостатков: они игнорируют разнообразие языковых вариантов, уделяют больше внимания базовым возможностям обработки естественного языка (NLP), чем задачам, имеющим промышленное значение, и являются статичными. Учитывая эти аспекты, мы представляем IberBench — всеобъемлющий и расширяемый бенчмарк, предназначенный для оценки производительности LLM как на базовых, так и на промышленно значимых задачах NLP для языков, распространённых на Пиренейском полуострове и в Иберо-Америке. IberBench интегрирует 101 набор данных из оценочных кампаний и современных бенчмарков, охватывая 22 категории задач, таких как анализ настроений и эмоций, обнаружение токсичности и суммаризация. Бенчмарк устраняет ключевые ограничения текущих практик оценки, такие как недостаток языкового разнообразия и статичность оценочных настроек, позволяя проводить постоянные обновления и принимать модели и наборы данных, предложенные сообществом, которые модерируются комитетом экспертов. Мы оцениваем 23 LLM с количеством параметров от 100 миллионов до 14 миллиардов и предоставляем эмпирические данные об их сильных и слабых сторонах. Наши результаты показывают, что (i) LLM хуже справляются с промышленно значимыми задачами, чем с базовыми, (ii) производительность в среднем ниже для галисийского и баскского языков, (iii) в некоторых задачах результаты близки к случайным, и (iv) в других задачах LLM показывают результаты выше случайных, но ниже систем, участвующих в совместных задачах. IberBench предлагает открытые реализации для всего оценочного конвейера, включая нормализацию и хостинг наборов данных, инкрементальную оценку LLM и общедоступный рейтинг.

ViSMaP: Необученное суммаризация часовых видео с помощью мета-подсказок
ViSMaP: Unsupervised Hour-long Video Summarisation by Meta-Prompting

Apr 22

ByJian Hu, Dimitrios Korkinof, Shaogang Gong, Mariano Beguerisse-Diaz

Мы представляем ViSMap: Unsupervised Video Summarisation by Meta Prompting — систему для автоматического суммирования часовых видеозаписей без использования обучения с учителем. Большинство существующих моделей для понимания видео хорошо работают с короткими роликами, содержащими заранее сегментированные события, однако они испытывают трудности при суммировании длинных видео, где релевантные события распределены редко и не сегментированы заранее. Кроме того, понимание длинных видео часто требует контролируемого иерархического обучения, которое предполагает наличие обширных аннотаций, что дорого, медленно и подвержено несоответствиям. С помощью ViSMaP мы устраняем разрыв между короткими видео (где аннотированных данных много) и длинными (где их недостаточно). Мы используем крупные языковые модели (LLM) для создания оптимизированных псевдо-суммаризаций длинных видео на основе описаний сегментов из коротких. Эти псевдо-суммаризации используются как обучающие данные для модели, которая генерирует суммаризации длинных видео, избегая необходимости в дорогостоящих аннотациях. В частности, мы применяем стратегию мета-промптинга для итеративной генерации и уточнения псевдо-суммаризаций длинных видео. Эта стратегия использует описания коротких клипов, полученные из контролируемой модели для коротких видео, чтобы направлять процесс суммаризации. Каждая итерация включает три LLM, работающие последовательно: одна генерирует псевдо-суммаризацию на основе описаний клипов, другая оценивает её, а третья оптимизирует промпт для генератора. Эта итерация необходима, поскольку качество псевдо-суммаризаций сильно зависит от промпта генератора и значительно варьируется между видео. Мы проводим обширную оценку наших суммаризаций на нескольких наборах данных; результаты показывают, что ViSMaP достигает производительности, сопоставимой с полностью контролируемыми современными моделями, при этом демонстрируя обобщаемость между доменами без потери качества. Код будет опубликован после выхода статьи.

Извлечение семантически осознанных порядков для авторегрессивной генерации изображений
Distilling semantically aware orders for autoregressive image generation

Apr 23

ByRishav Pramanik, Antoine Poupon, Juan A. Rodriguez, Masih Aminbeidokhti, David Vazquez, Christopher Pal, Zhaozheng Yin, Marco Pedersoli

Авторегрессионная генерация изображений на основе патчей недавно продемонстрировала конкурентоспособные результаты с точки зрения качества изображений и масштабируемости. Она также может быть легко интегрирована и масштабирована в рамках моделей Vision-Language. Тем не менее, авторегрессионные модели требуют определенного порядка для генерации патчей. В то время как естественный порядок, основанный на последовательности слов, имеет смысл для генерации текста, для генерации изображений не существует естественного порядка генерации. Традиционно авторегрессионные модели генерации изображений используют порядок растрового сканирования (сверху-слева вниз-вправо). В данной работе мы утверждаем, что этот порядок является неоптимальным, так как он не учитывает причинно-следственные связи в содержании изображения: например, при условии визуального описания заката авторегрессионная модель может сгенерировать облака до солнца, хотя цвет облаков должен зависеть от цвета солнца, а не наоборот. В этой работе мы показываем, что, во-первых, обучив модель генерировать патчи в произвольном порядке, мы можем выводить как содержание, так и местоположение (порядок) каждого патча в процессе генерации. Во-вторых, мы используем эти извлеченные порядки для тонкой настройки модели с произвольным порядком генерации, чтобы получать изображения более высокого качества. Наши эксперименты на двух наборах данных демонстрируют, что этот новый метод генерации создает более качественные изображения по сравнению с традиционным подходом растрового сканирования, при аналогичных затратах на обучение и без дополнительных аннотаций.

Динамические положения камер и где их найти
Dynamic Camera Poses and Where to Find Them

Apr 24

ByChris Rockwell, Joseph Tung, Tsung-Yi Lin, Ming-Yu Liu, David F. Fouhey, Chen-Hsuan Lin

Аннотирование поз камеры в динамических интернет-видео в масштабе имеет критическое значение для развития таких областей, как реалистичная генерация видео и симуляция. Однако сбор такого набора данных является сложной задачей, поскольку большинство интернет-видео непригодны для оценки поз. Более того, аннотирование динамических интернет-видео представляет значительные трудности даже для современных методов. В данной статье мы представляем DynPose-100K — крупномасштабный набор данных динамических интернет-видео, аннотированных позами камеры. Наш процесс сбора данных включает фильтрацию с использованием тщательно подобранного набора специализированных и универсальных моделей. Для оценки поз мы объединяем последние технологии отслеживания точек, динамического маскирования и восстановления структуры по движению, что позволяет добиться улучшений по сравнению с современными подходами. Наш анализ и эксперименты демонстрируют, что DynPose-100K является как крупномасштабным, так и разнообразным по нескольким ключевым атрибутам, открывая новые возможности для прогресса в различных прикладных задачах.

Интерпретируемое нелинейное снижение размерности с использованием линейного преобразования, взвешенного по Гауссу
Interpretable non-linear dimensionality reduction using gaussian weighted linear transformation

Apr 24

ByErik Bergh

Методы снижения размерности являются фундаментальными для анализа и визуализации данных высокой размерности. Устоявшиеся подходы, такие как t-SNE и PCA, представляют собой компромисс между выразительностью и интерпретируемостью. В данной статье представлен новый метод, который устраняет этот разрыв, сочетая интерпретируемость линейных методов с выразительностью нелинейных преобразований. Предложенный алгоритм строит нелинейное отображение между пространствами высокой и низкой размерности с помощью комбинации линейных преобразований, каждое из которых взвешивается гауссовыми функциями. Такая архитектура позволяет выполнять сложные нелинейные преобразования, сохраняя при этом преимущества интерпретируемости линейных методов, так как каждое преобразование может анализироваться независимо. Полученная модель обеспечивает как мощное снижение размерности, так и прозрачное понимание преобразованного пространства. Представлены методы интерпретации изученных преобразований, включая способы выявления подавленных измерений и анализа расширения и сжатия пространства. Эти инструменты позволяют специалистам понять, как алгоритм сохраняет и изменяет геометрические отношения в процессе снижения размерности. Для обеспечения практической применимости данного алгоритма акцентируется создание удобных программных пакетов, способствующих его внедрению как в академической среде, так и в промышленности.