HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

22 papers found

Умнее, лучше, быстрее, дольше: Современный двунаправленный кодировщик для быстрой, эффективной с точки зрения памяти, длительной настройки и вывода контекста.
Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

Dec 18

ByBenjamin Warner, Antoine Chaffin, Benjamin Clavié, Orion Weller, Oskar Hallström, Said Taghadouini, Alexis Gallagher, Raja Biswas, Faisal Ladhak, Tom Aarsen, Nathan Cooper, Griffin Adams, Jeremy Howard, Iacopo Poli

156

Модели трансформера только с кодировщиком, такие как BERT, предлагают отличный баланс между производительностью и размером для задач извлечения и классификации по сравнению с более крупными моделями только с декодером. Несмотря на то, что они являются основным инструментом многих производственных конвейеров, у модели BERT были ограниченные улучшения Парето с момента ее выпуска. В данной статье мы представляем ModernBERT, внедряя современные оптимизации модели в модели только с кодировщиком и представляя собой значительное улучшение Парето по сравнению с более старыми кодировщиками. Обученные на 2 триллионах токенов с длиной последовательности 8192, модели ModernBERT демонстрируют результаты на уровне современных достижений на большом количестве оценок, охватывающих разнообразные задачи классификации и как одиночный, так и многовекторный поиск в различных областях (включая код). Помимо высокой производительности на этапе вывода, ModernBERT также является самым быстрым и эффективным по памяти кодировщиком и предназначен для вывода на обычных графических процессорах.

FastVLM: Эффективное кодирование видения для моделей языка видения
FastVLM: Efficient Vision Encoding for Vision Language Models

Dec 17

ByPavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari

Масштабирование разрешения входного изображения является важным для повышения производительности моделей Vision Language (VLM), особенно в задачах понимания изображений с текстом. Однако популярные визуальные кодировщики, такие как ViTs, становятся неэффективными при высоком разрешении из-за большого количества токенов и высокой задержки кодирования, вызванной стековыми слоями самовнимания. На разных операционных разрешениях визионный кодировщик VLM можно оптимизировать по двум осям: сокращение задержки кодирования и минимизация количества визуальных токенов, передаваемых в LLM, тем самым снижая общую задержку. На основе всестороннего анализа эффективности взаимодействия между разрешением изображения, задержкой визионной системы, количеством токенов и размером LLM мы представляем FastVLM, модель, которая достигает оптимизированного компромисса между задержкой, размером модели и точностью. FastVLM включает в себя FastViTHD, новый гибридный визионный кодировщик, разработанный для вывода меньшего количества токенов и значительного сокращения времени кодирования для изображений высокого разрешения. В отличие от предыдущих методов, FastVLM достигает оптимального баланса между количеством визуальных токенов и разрешением изображения исключительно путем масштабирования входного изображения, устраняя необходимость в дополнительной обрезке токенов и упрощая конструкцию модели. В настройке LLaVA-1.5 FastVLM достигает улучшения в 3,2 раза во времени до первого токена (TTFT), сохраняя при этом схожую производительность на бенчмарках VLM по сравнению с предыдущими работами. По сравнению с LLaVa-OneVision при самом высоком разрешении (1152 на 1152), FastVLM достигает сопоставимой производительности на ключевых бенчмарках, таких как SeedBench и MMMU, используя тот же LLM объемом 0,5B, но с временем до первого токена в 85 раз быстрее и визионным кодировщиком в 3,4 раза меньше.

AniDoc: упрощение создания анимации
AniDoc: Animation Creation Made Easier

Dec 18

ByYihao Meng, Hao Ouyang, Hanlin Wang, Qiuyu Wang, Wen Wang, Ka Leong Cheng, Zhiheng Liu, Yujun Shen, Huamin Qu

Производство 2D анимации следует стандартному рабочему процессу отрасли, включающему четыре основных этапа: создание персонажа, ключевая анимация, создание промежуточных кадров и окрашивание. Наше исследование направлено на снижение трудозатрат в вышеуказанном процессе путем использования потенциала все более мощного генеративного искусственного интеллекта. Используя модели видеодиффузии в качестве основы, AniDoc представляет собой инструмент для раскрашивания видео-линейных чертежей, который автоматически преобразует последовательности эскизов в цветные анимации в соответствии с характеристиками опорного персонажа. Наша модель использует соответствие сопоставления как явное руководство, обеспечивая высокую устойчивость к изменениям (например, поза) между опорным персонажем и каждым кадром линейного рисунка. Кроме того, наша модель может даже автоматизировать процесс создания промежуточных кадров, таким образом, пользователи могут легко создавать временно согласованную анимацию, просто предоставив изображение персонажа, а также начальный и конечный эскизы. Наш код доступен по ссылке: https://yihao-meng.github.io/AniDoc_demo.

Компания TheAgentCompany: Оценка агентов LLM на серьезных реальных задачах.
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks

Dec 18

ByFrank F. Xu, Yufan Song, Boxuan Li, Yuxuan Tang, Kritanjali Jain, Mengxue Bao, Zora Z. Wang, Xuhui Zhou, Zhitong Guo, Murong Cao, Mingyang Yang, Hao Yang Lu, Amaad Martin, Zhe Su, Leander Maben, Raj Mehta, Wayne Chi, Lawrence Jang, Yiqing Xie, Shuyan Zhou, Graham Neubig

Мы взаимодействуем с компьютерами ежедневно, будь то в повседневной жизни или на работе, и многие аспекты работы могут быть выполнены исключительно с доступом к компьютеру и Интернету. В то же время, благодаря улучшениям в больших языковых моделях (LLM), также произошло быстрое развитие искусственного интеллекта, взаимодействующего и влияющего на изменения в окружающей среде. Но насколько производительны искусственные интеллект-агенты в помощи ускорения или даже автономного выполнения рабочих задач? Ответ на этот вопрос имеет важные последствия как для промышленности, стремящейся внедрить искусственный интеллект в свои рабочие процессы, так и для экономической политики, чтобы понять последствия, которые может иметь внедрение искусственного интеллекта на рынок труда. Для измерения прогресса производительности этих агентов LLM в выполнении реальных профессиональных задач в этой статье мы представляем TheAgentCompany, расширяемую базу для оценки искусственных интеллект-агентов, взаимодействующих с миром аналогично цифровому работнику: просматривая веб-сайты, пиша код, запуская программы и общаясь с коллегами. Мы создаем автономную среду с внутренними веб-сайтами и данными, имитирующими окружение небольшой программной компании, и создаем различные задачи, которые могут выполняться работниками в такой компании. Мы тестируем базовые агенты, работающие на основе как закрытых API, так и открытых весовых языковых моделей (LM), и обнаруживаем, что с наиболее конкурентоспособным агентом 24% задач могут быть выполнены автономно. Это дает нюансированное представление об автоматизации задач с помощью LM-агентов - в условиях, имитирующих реальное рабочее место, значительная часть более простых задач может быть решена автономно, но более сложные задачи с долгосрочными перспективами все еще находятся за пределами текущих систем.

Больше нет Адама: масштабирование скорости обучения при инициализации - все, что вам нужно.
No More Adam: Learning Rate Scaling at Initialization is All You Need

Dec 16

ByMinghao Xu, Lichuan Xiang, Xu Cai, Hongkai Wen

В данной работе мы рассматриваем необходимость адаптивных методов градиентов для обучения глубоких нейронных сетей. SGD-SaI представляет собой простое, но эффективное улучшение стохастического градиентного спуска с импульсом (SGDM). SGD-SaI выполняет масштабирование скорости обучения при инициализации (SaI) для различных групп параметров, руководствуясь их соответствующими отношениями сигнал-шум градиента (g-SNR). Путем корректировки скоростей обучения без использования адаптивного второго порядка импульса, SGD-SaI помогает предотвратить дисбаланс обучения уже с первой итерации и сокращает использование памяти оптимизатором наполовину по сравнению с AdamW. Несмотря на свою простоту и эффективность, SGD-SaI последовательно соответствует или превосходит AdamW при обучении различных задач на основе трансформеров, успешно преодолевая давнюю проблему использования SGD для обучения трансформеров. SGD-SaI проявляет себя в классификации ImageNet-1K с использованием Vision Transformers (ViT) и предварительном обучении GPT-2 для больших языковых моделей (LLM, только декодер трансформера), демонстрируя устойчивость к вариациям гиперпараметров и пригодность для различных приложений. Мы также проверили его устойчивость на задачах, таких как донастройка LoRA для LLM и моделей диффузии, где он последовательно превосходит оптимизаторы нового поколения. С точки зрения эффективности использования памяти, SGD-SaI достигает значительных экономий памяти для состояний оптимизатора, сокращая использование памяти на 5,93 ГБ для GPT-2 (1,5 млрд параметров) и на 25,15 ГБ для Llama2-7B по сравнению с AdamW в настройках обучения с полной точностью.

Агенты с графическим интерфейсом пользователя: обзор
GUI Agents: A Survey

Dec 18

ByDang Nguyen, Jian Chen, Yu Wang, Gang Wu, Namyong Park, Zhengmian Hu, Hanjia Lyu, Junda Wu, Ryan Aponte, Yu Xia, Xintong Li, Jing Shi, Hongjie Chen, Viet Dac Lai, Zhouhang Xie, Sungchul Kim, Ruiyi Zhang, Tong Yu, Mehrab Tanjim, Nesreen K. Ahmed, Puneet Mathur, Seunghyun Yoon, Lina Yao, Branislav Kveton, Thien Huu Nguyen, Trung Bui, Tianyi Zhou, Ryan A. Rossi, Franck Dernoncourt

Агенты Графического Пользовательского Интерфейса (GUI), основанные на Больших Моделях Фонда, выступают в качестве трансформационного подхода к автоматизации взаимодействия человека с компьютером. Эти агенты автономно взаимодействуют с цифровыми системами или программными приложениями через GUI, эмулируя действия человека, такие как клики, набор текста и навигацию по визуальным элементам на различных платформах. Вдохновленные растущим интересом и фундаментальной важностью агентов GUI, мы предоставляем обширный обзор, который категоризирует их бенчмарки, метрики оценки, архитектуры и методы обучения. Мы предлагаем унифицированную структуру, которая определяет их способности к восприятию, рассуждению, планированию и действию. Кроме того, мы выявляем важные открытые проблемы и обсуждаем ключевые направления развития. Наконец, данная работа служит основой для практиков и исследователей для интуитивного понимания текущего прогресса, техник, бенчмарков и критических открытых проблем, которые требуют решения.

Мышление в пространстве: Как мультимодельные большие языковые модели видят, запоминают и вспоминают пространства.
Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

Dec 18

ByJihan Yang, Shusheng Yang, Anjali W. Gupta, Rilyn Han, Li Fei-Fei, Saining Xie

У людей есть визуально-пространственный интеллект, позволяющий запоминать пространства по последовательным визуальным наблюдениям. Однако могут ли Мультимодальные Большие Языковые Модели (MLLMs), обученные на миллионных видео наборах данных, также "мыслить в пространстве" по видеозаписям? Мы представляем новый бенчмарк визуально-пространственного интеллекта на основе видео (VSI-Bench) из более чем 5,000 пар вопрос-ответ, и обнаруживаем, что MLLMs проявляют конкурентоспособный - хоть и подчеловеческий - визуально-пространственный интеллект. Мы исследуем модели, чтобы выразить, как они мыслят в пространстве как лингвистически, так и визуально, и обнаруживаем, что хотя способности к пространственному мышлению остаются основным узким местом для достижения более высокой производительности по бенчмаркам для MLLMs, локальные модели мира и пространственное осознание все же проявляются в этих моделях. Особенно следует отметить, что преобладающие лингвистические методы рассуждения (например, цепочка мысли, самосогласованность, древо мыслей) не способствуют улучшению производительности, в то время как явное создание когнитивных карт во время ответов на вопросы улучшает способность MLLMs к пространственной дистанции.

Mix-LN: Разблокирование мощи более глубоких слоев путем объединения предшествующего LN и последующего LN.
Mix-LN: Unleashing the Power of Deeper Layers by Combining Pre-LN and Post-LN

Dec 18

ByPengxiang Li, Lu Yin, Shiwei Liu

Большие языковые модели (LLM) достигли замечательных успехов, однако недавние исследования показывают, что их более глубокие слои часто вносят минимальный вклад и могут быть обрезаны без ущерба для общей производительности. В то время как некоторые видят в этом возможность сжатия модели, мы определяем это как недостаток обучения, обусловленный широким использованием предварительной нормализации слоев (Pre-LN). Мы демонстрируем, что Pre-LN, обычно применяемая в моделях, таких как GPT и LLaMA, приводит к уменьшению норм градиента в более глубоких слоях, снижая их эффективность. В отличие от этого, постнормализация слоев (Post-LN) сохраняет более крупные нормы градиента в более глубоких слоях, но страдает от затухания градиентов в более ранних слоях. Для решения этой проблемы мы представляем Mix-LN, новую технику нормализации, которая объединяет преимущества Pre-LN и Post-LN в одной модели. Mix-LN применяет Post-LN к более ранним слоям и Pre-LN к более глубоким слоям, обеспечивая более равномерные градиенты по слоям. Это позволяет всем частям сети - как поверхностным, так и глубоким слоям - эффективно вносить вклад в обучение. Обширные эксперименты с различными размерами моделей от 70M до 7B показывают, что Mix-LN последовательно превосходит как Pre-LN, так и Post-LN, способствуя более сбалансированным, здоровым нормам градиента по всей сети и улучшая общее качество предварительного обучения LLM. Более того, мы демонстрируем, что модели, предварительно обученные с помощью Mix-LN, учатся лучше по сравнению с теми, использующими Pre-LN или Post-LN во время надзорного дообучения (SFT) и обучения с подкреплением на основе обратной связи от человека (RLHF), подчеркивая критическое значение высококачественных глубоких слоев. Эффективно решая неэффективности глубоких слоев в текущих LLM, Mix-LN разблокирует их потенциал, увеличивая емкость модели без увеличения ее размера. Наш код доступен по адресу https://github.com/pixeli99/MixLN.

LLaVA-UHD v2: MLLM, интегрирующая пирамиду признаков высокого разрешения через иерархический оконный трансформер.
LLaVA-UHD v2: an MLLM Integrating High-Resolution Feature Pyramid via Hierarchical Window Transformer

Dec 18

ByYipeng Zhang, Yifan Liu, Zonghao Guo, Yidan Zhang, Xuesong Yang, Chi Chen, Jun Song, Bo Zheng, Yuan Yao, Zhiyuan Liu, Tat-Seng Chua, Maosong Sun

В мультимодальных моделях большого размера (MLLMs) для визуального кодирования широко используются трансформеры изображений (ViTs). Однако их производительность в решении универсальных задач MLLM неудовлетворительна. Мы связываем это с недостатком информации с различных визуальных уровней, затрудняющим выравнивание с различной семантической детализацией, необходимой для генерации языка. Для решения этой проблемы мы представляем LLaVA-UHD v2, передовую MLLM, сосредоточенную вокруг Иерархического оконного трансформера, который позволяет захватывать различную визуальную детализацию путем построения и интеграции пирамиды признаков высокого разрешения. В качестве визио-языкового проектора трансформер Hiwin включает два основных модуля: (i) обратную пирамиду признаков, построенную с помощью процесса повышения частоты деталей признаков, полученных от ViT, изображениями из пирамиды, и (ii) иерархическое оконное внимание, сосредоточенное на наборе ключевых признаков выборки в пределах окон между масштабами для сжатия многоуровневых карт признаков. Обширные эксперименты показывают, что LLaVA-UHD v2 достигает превосходной производительности по сравнению с существующими MLLM на популярных бенчмарках. Значительно, наш дизайн приносит в среднем улучшение на 3.7% по 14 бенчмаркам по сравнению с базовым методом, например, на 9.3% в DocVQA. Мы делаем все данные, контрольные точки модели и код общедоступными для облегчения будущих исследований.

FashionComposer: Генерация композиционных изображений моды
FashionComposer: Compositional Fashion Image Generation

Dec 18

BySihui Ji, Yiyang Wang, Xi Chen, Xiaogang Xu, Hao Luo, Hengshuang Zhao

Мы представляем FashionComposer для композиционной генерации модных изображений. В отличие от предыдущих методов, FashionComposer обладает высокой гибкостью. Он принимает мультимодальный ввод (текстовый запрос, параметрическую модель человека, изображение одежды и лица) и поддерживает персонализацию внешности, позы и фигуры человека, а также назначение нескольких предметов одежды за один проход. Для достижения этого мы сначала разработали универсальную структуру, способную обрабатывать разнообразные модальности ввода. Мы создали масштабированные обучающие данные для улучшения надежности модели в композиционном плане. Чтобы без проблем вместить несколько эталонных изображений (одежды и лиц), мы организовали эти ссылки в одном изображении как "библиотеку ресурсов" и использовали UNet для извлечения признаков внешности. Для внедрения признаков внешности в правильные пиксели в сгенерированном результате мы предлагаем внимание, связанное с объектом. Оно связывает признаки внешности из разных "ресурсов" с соответствующими текстовыми признаками. Таким образом, модель может понимать каждый ресурс в соответствии с их семантикой, поддерживая произвольное количество и типы эталонных изображений. Как комплексное решение, FashionComposer также поддерживает множество других приложений, таких как создание альбома человека, различные виртуальные примерки и т. д.

Генерация видео с авторегрессией без векторного квантования
Autoregressive Video Generation without Vector Quantization

Dec 18

ByHaoge Deng, Ting Pan, Haiwen Diao, Zhengxiong Luo, Yufeng Cui, Huchuan Lu, Shiguang Shan, Yonggang Qi, Xinlong Wang

Этот документ представляет новый подход, который позволяет генерировать видео авторегрессионным способом с высокой эффективностью. Мы предлагаем переформулировать проблему генерации видео как авторегрессионное моделирование временного предсказания кадр за кадром без квантования и пространственного предсказания множества за множеством. В отличие от предсказания по растру в предыдущих авторегрессионных моделях или совместного моделирования распределения фиксированной длины токенов в моделях диффузии, наш подход сохраняет причинное свойство моделей в стиле GPT для гибких возможностей в контексте, одновременно используя двунаправленное моделирование внутри отдельных кадров для повышения эффективности. С использованием предложенного подхода мы обучаем новую авторегрессионную модель видео без векторного квантования, названную NOVA. Наши результаты показывают, что NOVA превосходит предыдущие авторегрессионные видео-модели по эффективности использования данных, скорости вывода, визуальной точности и плавности видео, даже при значительно меньшей емкости модели, т.е. 0,6 миллиарда параметров. NOVA также превосходит современные модели диффузии изображений в задачах генерации текста в изображения, с значительно более низкой стоимостью обучения. Кроме того, NOVA хорошо обобщается на продолжительные видео и позволяет разнообразные нулевые приложения в рамках одной объединенной модели. Код и модели доступны по адресу https://github.com/baaivision/NOVA.

Глубина стимулирования для точной метрической оценки глубины при разрешении 4K.
Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation

Dec 18

ByHaotong Lin, Sida Peng, Jingxiao Chen, Songyou Peng, Jiaming Sun, Minghuan Liu, Hujun Bao, Jiashi Feng, Xiaowei Zhou, Bingyi Kang

Подсказки играют критическую роль в раскрытии потенциала моделей основы языка и зрения для конкретных задач. Впервые мы вводим использование подсказок в модели глубины основы, создавая новую парадигму для метрической оценки глубины, названную "Prompt Depth Anything". Конкретно, мы используем недорогой LiDAR в качестве подсказки для направления модели Depth Anything для точного вывода метрической глубины с разрешением до 4K. Наш подход основан на лаконичном дизайне слияния подсказок, который интегрирует LiDAR на нескольких масштабах внутри декодера глубины. Для решения проблем обучения, вызванных ограниченными наборами данных, содержащими как глубину LiDAR, так и точную GT глубину, мы предлагаем масштабируемую конвейерную обработку данных, которая включает синтетическую симуляцию данных LiDAR и генерацию псевдо GT глубины на реальных данных. Наш подход устанавливает новые рекорды на наборах данных ARKitScenes и ScanNet++ и приносит пользу прикладным задачам, включая 3D реконструкцию и обобщенное робототехническое захватывание.

Эффективные политики трансформации диффузии с смесью экспертных денойзеров для многозадачного обучения.
Efficient Diffusion Transformer Policies with Mixture of Expert Denoisers for Multitask Learning

Dec 17

ByMoritz Reuss, Jyothish Pari, Pulkit Agrawal, Rudolf Lioutikov

Политики Диффузии стали широко используемыми в Обучении по Имитации, предлагая несколько привлекательных свойств, таких как генерация мультимодального и дискретного поведения. Поскольку модели становятся все более крупными для охвата более сложных возможностей, их вычислительные требования увеличиваются, как показывают недавние законы масштабирования. Поэтому продолжение использования текущих архитектур представляет собой вычислительное препятствие. Для решения этого разрыва мы предлагаем Mixture-of-Denoising Experts (MoDE) в качестве новой политики для Обучения по Имитации. MoDE превосходит текущие передовые политики Диффузии на основе Трансформеров, обеспечивая эффективное масштабирование через разреженных экспертов и шумоусловленную маршрутизацию, снижая как активные параметры на 40%, так и затраты на вывод на 90% с помощью кэширования экспертов. Наша архитектура сочетает это эффективное масштабирование с механизмом шумоусловленного самовнимания, обеспечивая более эффективное подавление шума на разных уровнях шума. MoDE достигает передового уровня производительности на 134 задачах в четырех установленных бенчмарках по обучению по имитации (CALVIN и LIBERO). Значительно, предварительное обучение MoDE на различных данных робототехники позволяет достичь 4.01 на CALVIN ABC и 0.95 на LIBERO-90. Он превосходит как политики Диффузии на основе CNN, так и Трансформеры в среднем на 57% по 4 бенчмаркам, используя на 90% меньше операций с плавающей запятой и меньше активных параметров по сравнению с архитектурами Трансформеров по умолчанию для политик Диффузии. Кроме того, мы проводим всесторонние абляции компонентов MoDE, предоставляя идеи для разработки эффективных и масштабируемых архитектур Трансформеров для политик Диффузии. Код и демонстрации доступны по адресу https://mbreuss.github.io/MoDE_Diffusion_Policy/.

AnySat: модель наблюдения Земли для любых разрешений, масштабов и типов данных
AnySat: An Earth Observation Model for Any Resolutions, Scales, and Modalities

Dec 18

ByGuillaume Astruc, Nicolas Gonthier, Clement Mallet, Loic Landrieu

Геопространственные модели должны адаптироваться к разнообразию данных наблюдений Земли в терминах разрешений, масштабов и модальностей. Однако существующие подходы предполагают фиксированные конфигурации ввода, что ограничивает их практическую применимость. Мы предлагаем AnySat, мультимодельную модель на основе архитектуры предсказательных совмещенных вложений (JEPA) и разрешения-адаптивных пространственных кодировщиков, позволяющую обучать единую модель на высокоразнородных данных в автономном режиме. Для демонстрации преимуществ этого объединенного подхода мы создаем GeoPlex, коллекцию из 5 мультимодальных наборов данных с различными характеристиками и 11 различными сенсорами. Затем мы обучаем одну мощную модель на этих разнообразных наборах данных одновременно. После тонкой настройки мы достигаем лучших или близких к передовым результатов на наборах данных GeoPlex и еще 4 для 5 задач мониторинга окружающей среды: картографирование земельного покрова, идентификация видов деревьев, классификация типов культур, обнаружение изменений и сегментация наводнений. Код и модели доступны по ссылке https://github.com/gastruc/AnySat.

Обучение на основе огромного объема видеоматериалов с участием людей для универсального управления позами гуманоидов.
Learning from Massive Human Videos for Universal Humanoid Pose Control

Dec 18

ByJiageng Mao, Siheng Zhao, Siqi Song, Tianheng Shi, Junjie Ye, Mingtong Zhang, Haoran Geng, Jitendra Malik, Vitor Guizilini, Yue Wang

Масштабное обучение гуманоидных роботов критически важно для их применения в реальных приложениях. В то время как традиционные подходы в основном опираются на обучение с подкреплением или телеоперацию для достижения управления всем телом, они часто ограничены разнообразием симулируемых сред и высокими затратами на сбор демонстраций. В отличие от этого, видеоматериалы с участием людей повсеместно распространены и представляют собой неиспользованный источник семантической и движущей информации, которая может значительно улучшить возможности обобщения гуманоидных роботов. В данной статье представлен Humanoid-X, крупномасштабный набор данных из более чем 20 миллионов поз гуманоидных роботов с соответствующими текстовыми описаниями движений, разработанный для использования этого обширного объема данных. Humanoid-X создан через комплексный процесс: добыча данных из Интернета, генерация подписей к видео, перенос движений от людей к гуманоидным роботам и обучение стратегии для применения в реальном мире. С использованием Humanoid-X мы дополнительно обучаем большую модель гуманоида, UH-1, которая принимает текстовые инструкции на входе и выдает соответствующие действия для управления гуманоидным роботом. Обширные симулированные и реальные эксперименты подтверждают, что наш подход к масштабному обучению приводит к превосходному обобщению в управлении гуманоидом на основе текста, что является значительным шагом к созданию адаптивных гуманоидов, готовых к работе в реальном мире.

RAG-RewardBench: Сравнение моделей вознаграждения в увеличенной ретриевной генерации для выравнивания предпочтений
RAG-RewardBench: Benchmarking Reward Models in Retrieval Augmented Generation for Preference Alignment

Dec 18

ByZhuoran Jin, Hongbang Yuan, Tianyi Men, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao

Несмотря на значительный прогресс, достигнутый существующими моделями языка с расширенным поиском (RALM) в предоставлении достоверных ответов и обосновании на основе надежных источников, они часто не учитывают эффективное выравнивание с предпочтениями человека. В процессе выравнивания модели вознаграждения (RMs) выступают важным прокси для человеческих ценностей, направляя оптимизацию. Однако остается неясным, как оценивать и выбирать надежную RM для выравнивания предпочтений в RALM. Для этой цели мы предлагаем RAG-RewardBench, первый бенчмарк для оценки RMs в настройках RAG. Сначала мы разрабатываем четыре критических и сложных сценария, специфичных для RAG, для оценки RMs, включая многопрыжковое рассуждение, тонкую цитирование, подходящее воздержание и устойчивость к конфликтам. Затем мы включаем 18 подмножеств RAG, шесть поисковиков и 24 RALM для увеличения разнообразия источников данных. Наконец, мы принимаем подход LLM-как-судья для улучшения эффективности и эффективности аннотации предпочтений, демонстрируя сильную корреляцию с человеческими аннотациями. Основываясь на RAG-RewardBench, мы проводим всестороннюю оценку 45 RMs и выявляем их ограничения в сценариях RAG. Кроме того, мы также раскрываем, что существующие обученные RALM показывают практически никакого улучшения в выравнивании предпочтений, подчеркивая необходимость перехода к обучению с учетом предпочтений. Мы публикуем наш бенчмарк и код публично по адресу https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ для будущих работ.

ChatDiT: Базовый вариант без обучения для задачи-агностического свободного чата с диффузионными трансформерами
ChatDiT: A Training-Free Baseline for Task-Agnostic Free-Form Chatting with Diffusion Transformers

Dec 17

ByLianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Chen Liang, Tong Shen, Han Zhang, Huanzhang Dou, Yu Liu, Jingren Zhou

Недавние исследования arXiv:2410.15027 и arXiv:2410.23775 выделили врожденные возможности генерации в контексте предварительно обученных диффузионных трансформеров (DiTs), позволяя им плавно адаптироваться к различным визуальным задачам с минимальными или без архитектурных модификаций. Эти возможности открываются путем объединения токенов самовнимания через несколько входных и целевых изображений, в сочетании с групповыми и маскированными конвейерами генерации. На основе этого фундамента мы представляем ChatDiT - нулевой, универсальный и интерактивный визуальный генеративный фреймворк, использующий предварительно обученные диффузионные трансформеры в их первоначальной форме, не требующий дополнительной настройки, адаптеров или модификаций. Пользователи могут взаимодействовать с ChatDiT для создания переплетенных тексто-изображений статей, многостраничных картинок, редактирования изображений, разработки IP-производных или создания настроек дизайна персонажей, все это через свободно-форматное естественное языковое взаимодействие в одном или нескольких разговорных раундах. В основе ChatDiT лежит мультиагентная система, состоящая из трех ключевых компонентов: агента разбора инструкций, который интерпретирует загруженные пользователем изображения и инструкции, агента планирования стратегии, который разрабатывает одношаговые или многошаговые действия генерации, и агента выполнения, который выполняет эти действия с использованием инструментария диффузионных трансформеров в контексте. Мы тщательно оцениваем ChatDiT на IDEA-Bench arXiv:2412.11767, включающем 100 задач дизайна из реального мира и 275 случаев с разнообразными инструкциями и различным количеством входных и целевых изображений. Несмотря на свою простоту и обучение без тренировки, ChatDiT превосходит всех конкурентов, включая тех, специально разработанных и обученных на обширных мультитасковых наборах данных. Мы также выявляем основные ограничения предварительно обученных DiTs в нулевой адаптации к задачам. Мы предоставляем весь код, агентов, результаты и промежуточные выходные данные для облегчения дальнейших исследований на https://github.com/ali-vilab/ChatDiT

Фальсификация выравнивания в больших языковых моделях
Alignment faking in large language models

Dec 18

ByRyan Greenblatt, Carson Denison, Benjamin Wright, Fabien Roger, Monte MacDiarmid, Sam Marks, Johannes Treutlein, Tim Belonax, Jack Chen, David Duvenaud, Akbir Khan, Julian Michael, Sören Mindermann, Ethan Perez, Linda Petrini, Jonathan Uesato, Jared Kaplan, Buck Shlegeris, Samuel R. Bowman, Evan Hubinger

Мы представляем демонстрацию работы большой языковой модели, занимающейся фальсификацией выравнивания: выборочное соблюдение своей цели обучения для предотвращения изменения своего поведения за пределами обучения. Сначала мы даем системному запросу Клоду 3 Опуса, утверждающему, что он обучается отвечать на все запросы, даже вредные, что противоречит его предыдущему обучению отказывать в таких запросах. Чтобы позволить модели заключить, что она находится в процессе обучения, мы говорим, что она будет обучаться только на разговорах с бесплатными пользователями, а не платными. Мы обнаружили, что модель соблюдает вредные запросы от бесплатных пользователей в 14% случаев, в отличие от практически нулевого процента для платных пользователей. Объясняя эту разницу, в почти всех случаях, когда модель соблюдает вредный запрос от бесплатного пользователя, мы наблюдаем явное рассуждение о фальсификации выравнивания, с моделью, заявляющей, что стратегически отвечает на вредные запросы во время обучения, чтобы сохранить свое предпочтительное безвредное поведение после обучения. Затем мы изучаем более реалистичную ситуацию, где информация о процессе обучения предоставляется не в системном запросе, а путем обучения на синтетических документах, имитирующих данные предварительного обучения - и наблюдаем аналогичную фальсификацию выравнивания. Наконец, мы изучаем эффект фактического обучения модели соблюдать вредные запросы с помощью обучения с подкреплением, что приводит к увеличению частоты рассуждения о фальсификации выравнивания до 78%, хотя также увеличивает соблюдение даже после обучения. Мы также наблюдаем другие поведенческие особенности, такие как модель выводящая свои веса, когда у нее есть легкая возможность. Хотя мы упростили фальсификацию выравнивания, сообщив модели, когда и по каким критериям она обучается, мы не инструктировали модель фальсифицировать выравнивание или давать ей явную цель. Поскольку будущие модели могут делать выводы о процессе своего обучения без явного указания, наши результаты указывают на риск фальсификации выравнивания в будущих моделях, будь то из-за доброжелательного предпочтения - как в данном случае - или нет.

VidTok: Универсальный и открытый видео-токенизатор
VidTok: A Versatile and Open-Source Video Tokenizer

Dec 17

ByAnni Tang, Tianyu He, Junliang Guo, Xinle Cheng, Li Song, Jiang Bian

Кодирование видеоконтента в компактные латентные токены стало фундаментальным этапом в генерации и понимании видео, обусловленным необходимостью решения врожденной избыточности в представлениях на уровне пикселей. В результате возрос спрос на высокопроизводительные открытые видео-токенизаторы по мере увеличения значимости исследований, сосредоточенных на видео. Мы представляем VidTok, универсальный видео-токенизатор, обеспечивающий передовую производительность как в непрерывных, так и в дискретных токенизациях. VidTok включает в себя несколько ключевых усовершенствований по сравнению с существующими подходами: 1) архитектуру модели, такие как сверточные слои и модули повышения/понижения разрешения; 2) для решения проблемы нестабильности обучения и коллапса кодовой книги, характерных для обычного квантования векторов (VQ), мы интегрируем Конечное Скалярное Квантование (FSQ) в дискретную видео-токенизацию; 3) улучшенные стратегии обучения, включая двухэтапный процесс обучения и использование сниженных частот кадров. Интегрируя эти усовершенствования, VidTok достигает значительных улучшений по сравнению с существующими методами, демонстрируя превосходную производительность по множеству метрик, включая PSNR, SSIM, LPIPS и FVD, в рамках стандартизированных условий оценки.

AntiLeak-Bench: Предотвращение загрязнения данных путем автоматического создания бенчмарков с обновленными знаниями из реального мира.
AntiLeak-Bench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge

Dec 18

ByXiaobao Wu, Liangming Pan, Yuxi Xie, Ruiwen Zhou, Shuai Zhao, Yubo Ma, Mingzhe Du, Rui Mao, Anh Tuan Luu, William Yang Wang

Загрязнение данных затрудняет справедливую оценку LLM путем внесения тестовых данных в наборы данных обучения новых моделей. Существующие исследования решают эту проблему путем обновления эталонов с новыми собранными данными. Однако они не гарантируют оценку без загрязнения, поскольку новые собранные данные могут содержать предварительные знания, а обновления эталонов основаны на интенсивном человеческом труде. Для решения этих проблем в данной статье мы предлагаем AntiLeak-Bench, автоматизированную систему бенчмаркинга для борьбы с утечками. Вместо простого использования только что собранных данных, мы создаем выборки с явно новыми знаниями, отсутствующими в наборах данных обучения LLM, что обеспечивает строгое отсутствие загрязнения при оценке. Мы также разработали полностью автоматизированный рабочий процесс для создания и обновления нашего эталона без участия человека. Это значительно снижает затраты на обслуживание эталонов для адаптации к новым LLM. Через обширные эксперименты мы подчеркиваем, что загрязнение данных вероятно существует до времени отсечения LLM и демонстрируем, что AntiLeak-Bench успешно преодолевает эту проблему.

CAD-Recode: Обратная разработка кода CAD из облаков точек
CAD-Recode: Reverse Engineering CAD Code from Point Clouds

Dec 18

ByDanila Rukhovich, Elona Dupont, Dimitrios Mallis, Kseniya Cherenkova, Anis Kacem, Djamila Aouada

Моделирование на компьютере (Computer-Aided Design, CAD) обычно создается путем последовательного создания параметрических эскизов и применения операций CAD для получения 3D-модели. Проблема обратной инженерии 3D CAD заключается в восстановлении последовательности эскизов и операций CAD из 3D-представлений, таких как облака точек. В данной статье мы решаем эту задачу с помощью новаторских вкладов на трех уровнях: представление последовательности CAD, проектирование сети и набор данных. В частности, мы представляем последовательности CAD-выдавливания эскизов в виде кода Python. Предложенный CAD-Recode преобразует облако точек в код Python, который при выполнении восстанавливает CAD-модель. Используя предварительно обученные большие языковые модели (Large Language Models, LLMs) на коде Python, мы используем относительно небольшую LLM в качестве декодера для CAD-Recode и сочетаем ее с легким проектором облака точек. CAD-Recode обучается исключительно на предложенном синтетическом наборе данных из миллиона разнообразных последовательностей CAD. CAD-Recode значительно превосходит существующие методы на трех наборах данных, требуя меньшего количества входных точек. Особенно он достигает в 10 раз меньшего среднего расстояния Хамфера по сравнению с передовыми методами на наборах данных DeepCAD и Fusion360. Кроме того, мы показываем, что наш вывод CAD Python-кода интерпретируем с помощью готовых LLMs, что позволяет редактировать CAD и отвечать на вопросы, специфичные для CAD, по облакам точек.

Прогнозирование первоначального внешнего вида поврежденных исторических документов.
Predicting the Original Appearance of Damaged Historical Documents

Dec 16

ByZhenhua Yang, Dezhi Peng, Yongxin Shi, Yuyi Zhang, Chongyu Liu, Lianwen Jin

Исторические документы включают в себя богатство культурных сокровищ, но страдают от серьезных повреждений, таких как отсутствие символов, повреждение бумаги и разрушение чернил со временем. Однако существующие методы обработки документов в основном сосредотачиваются на бинаризации, улучшении и т. д., пренебрегая восстановлением этих повреждений. Для решения этой проблемы мы представляем новую задачу, названную Восстановление Исторических Документов (HDR), которая направлена на предсказание первоначального вида поврежденных исторических документов. Для заполнения пробела в этой области мы предлагаем крупномасштабный набор данных HDR28K и сеть на основе диффузии DiffHDR для восстановления исторических документов. В частности, HDR28K содержит 28 552 пары изображений "поврежденный-восстановленный" с аннотациями на уровне символов и множественными стилями деградации. Более того, DiffHDR дополняет базовую структуру диффузии семантической и пространственной информацией, а также тщательно разработанной потерей восприятия символов для контекстной и визуальной согласованности. Экспериментальные результаты показывают, что предложенный DiffHDR, обученный с использованием HDR28K, значительно превосходит существующие подходы и проявляет выдающуюся производительность в обработке реальных поврежденных документов. Особенно стоит отметить, что DiffHDR также может быть расширен до редактирования документов и генерации текстовых блоков, демонстрируя его высокую гибкость и обобщающую способность. Мы считаем, что данное исследование может заложить новое направление обработки документов и способствовать сохранению бесценных культур и цивилизаций. Набор данных и код доступны по ссылке https://github.com/yeungchenwa/HDR.