HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

27 papers found

Масштабирование вычислений во время тестирования с использованием скрытого рассуждения: рекуррентный подход в глубину
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach

Feb 7

ByJonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein

150

Мы изучаем новую архитектуру языковой модели, способную масштабировать вычисления на этапе тестирования путем неявного рассуждения в скрытом пространстве. Наша модель работает путем итерации рекуррентного блока, раскрываясь до произвольной глубины на этапе тестирования. Это в отличие от основных моделей рассуждения, которые увеличивают вычисления путем создания большего количества токенов. В отличие от подходов, основанных на цепочке мыслей, наш подход не требует специализированных обучающих данных, может работать с небольшими окнами контекста и способен улавливать типы рассуждений, которые не так легко представить словами. Мы масштабируем модель концепции-доказательства до 3,5 миллиарда параметров и 800 миллиардов токенов. Мы показываем, что полученная модель может улучшить свою производительность на бенчмарках рассуждения, иногда драматически, до вычислительной нагрузки, эквивалентной 50 миллиардам параметров.

Гоку: Модели основанные на потоке для генерации видео
Goku: Flow Based Video Generative Foundation Models

Feb 7

ByShoufa Chen, Chongjian Ge, Yuqi Zhang, Yida Zhang, Fengda Zhu, Hao Yang, Hongxiang Hao, Hui Wu, Zhichao Lai, Yifei Hu, Ting-Che Lin, Shilong Zhang, Fu Li, Chuan Li, Xing Wang, Yanghua Peng, Peize Sun, Ping Luo, Yi Jiang, Zehuan Yuan, Bingyue Peng, Xiaobing Liu

106

В данной статье представлен Goku, передовая семейство моделей совместного генерирования изображений и видео, использующих преобразователи потоков для достижения ведущей позиции в отрасли. Мы подробно описываем основные элементы, обеспечивающие высококачественное визуальное генерирование, включая конвейер кураторства данных, архитектуру модели, формулировку потока и передовую инфраструктуру для эффективного и надежного масштабного обучения. Модели Goku демонстрируют превосходную производительность как в качественной, так и в количественной оценке, устанавливая новые стандарты по всем основным задачам. Конкретно, Goku достигает 0.76 на GenEval и 83.65 на DPG-Bench для генерации текста в изображения, а также 84.85 на VBench для задач генерации текста в видео. Мы считаем, что данная работа предоставляет ценные идеи и практические достижения для исследовательского сообщества в разработке совместных моделей генерирования изображений и видео.

VideoRoPE: Что делает хорошее видео вращающееся позиционное вложение?
VideoRoPE: What Makes for Good Video Rotary Position Embedding?

Feb 7

ByXilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Jian Tong, Haodong Duan, Qipeng Guo, Jiaqi Wang, Xipeng Qiu, Dahua Lin

Хотя встраивание позиции по методу вращения (RoPE) и его варианты широко приняты из-за их способности к работе с длинными контекстами, расширение одномерного RoPE на видео с его сложной пространственно-временной структурой остается открытой проблемой. В данной работе впервые представлено всестороннее исследование, выделяющее четыре ключевых характеристики, необходимые для эффективной адаптации RoPE к видео, которые ранее не были полностью учтены. В рамках нашего анализа мы представляем сложную задачу V-NIAH-D (Visual Needle-In-A-Haystack с дистракторами), которая добавляет периодические дистракторы в V-NIAH. Задача V-NIAH-D показывает, что предыдущие варианты RoPE, лишенные соответствующего выделения временного измерения, легко вводятся в заблуждение дистракторами. На основе нашего анализа мы представляем VideoRoPE с трехмерной структурой, разработанной для сохранения пространственно-временных отношений. VideoRoPE включает в себя выделение низкочастотного времени для смягчения периодических колебаний, диагональное расположение для сохранения пространственной симметрии и регулируемый временной интервал для разделения временной и пространственной индексации. VideoRoPE последовательно превосходит предыдущие варианты RoPE в различных задачах, таких как поиск длинных видео, понимание видео и генерация видеоизображений. Наш код будет доступен по ссылке https://github.com/Wiselnn570/VideoRoPE.

Быстрая генерация видео с помощью механизма скользящего внимания.
Fast Video Generation with Sliding Tile Attention

Feb 6

ByPeiyuan Zhang, Yongqi Chen, Runlong Su, Hangliang Ding, Ion Stoica, Zhenghong Liu, Hao Zhang

Диффузионные трансформеры (DiTs) с трехмерным полным вниманием находятся на передовой в области генерации видео, но сталкиваются с запредельными вычислительными затратами - при создании всего 5-секундного видео разрешением 720P только внимание занимает 800 из 945 секунд общего времени вывода. В данной статье представлено скользящее плиточное внимание (STA) для решения этой проблемы. STA использует наблюдение, что оценки внимания в предварительно обученных моделях диффузии видео в основном сосредотачиваются в локализованных трехмерных окнах. Путем скольжения и обращения внимания на локальную пространственно-временную область STA устраняет избыточность полного внимания. В отличие от традиционного токен-мудрого скользящего окна внимания (SWA), STA работает плитка за плиткой с новым аппаратно-ориентированным дизайном скользящего окна, сохраняя выразительность при эффективном использовании аппаратных средств. Благодаря тщательной оптимизации на уровне ядра, STA предлагает первую эффективную реализацию скользящего окна 2D/3D-подобного внимания, достигая 58,79% MFU. Точнее, STA ускоряет внимание на 2,8-17 раз по сравнению с FlashAttention-2 (FA2) и на 1,6-10 раз по сравнению с FlashAttention-3 (FA3). На ведущем видео DiT, HunyuanVideo, STA сокращает время от начала до конца с 945 секунд (FA3) до 685 секунд без ухудшения качества, не требуя обучения. Включение донастройки дополнительно снижает задержку до 268 секунд с падением всего на 0,09% на VBench.

QuEST: Стабильное обучение LLM с весами и активациями 1 бит.
QuEST: Stable Training of LLMs with 1-Bit Weights and Activations

Feb 7

ByAndrei Panferov, Jiale Chen, Soroush Tabesh, Roberto L. Castro, Mahdi Nikdan, Dan Alistarh

Один из подходов к снижению огромных затрат на большие языковые модели (LLM) заключается в использовании квантованных или разреженных представлений для обучения или развертывания. Хотя методы сжатия после обучения очень популярны, вопрос о получении еще более точных сжатых моделей путем прямого обучения на таких представлениях, то есть обучение с учетом квантования (QAT), остается открытым: например, недавнее исследование (arXiv:2411.04330v2) определило "оптимальное" количество битов, с которыми модели могут быть обучены с использованием QAT, оставаясь конкурентоспособными по точности с стандартной точностью FP16/BF16, на уровне весов и активаций в 8 бит. Мы продвигаем этот передовой метод с помощью нового метода под названием QuEST, который конкурентоспособен по Парето с FP16, то есть обеспечивает лучшую точность при меньшем размере модели, обучая модели с весами и активациями в 4 бита или менее. Более того, QuEST позволяет стабильное обучение с весами и активациями в 1 бит. QuEST достигает этого путем улучшения двух ключевых аспектов методов QAT: (1) точного и быстрого квантования (непрерывных) распределений весов и активаций с помощью нормализации Хадамарда и оптимальной подгонки по MSE; (2) нового оценщика доверия градиента на основе идеи явного минимизирования ошибки между шумным градиентом, вычисленным на квантованных состояниях, и "истинным" (но неизвестным) градиентом полной точности. Эксперименты на архитектурах типа Лама показывают, что QuEST вызывает стабильные законы масштабирования по всему диапазону поддерживаемых аппаратных точностей и может быть расширен на разреженные представления. Мы предоставляем поддержку ядра GPU, показывающую, что модели, созданные с помощью QuEST, могут быть эффективно выполнены. Наш код доступен по адресу https://github.com/IST-DASLab/QuEST.

AuraFusion360: Улучшенное выравнивание невидимой области для восстановления 360° безграничного сценария на основе ссылок
AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360° Unbounded Scene Inpainting

Feb 7

ByChung-Ho Wu, Yang-Jung Chen, Ying-Huan Chen, Jie-Ying Lee, Bo-Hsu Ke, Chun-Wei Tuan Mu, Yi-Chuan Huang, Chin-Yang Lin, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu

Трехмерное восстановление сцены является важным для приложений от виртуальной реальности до архитектурной визуализации, однако существующие методы испытывают трудности с согласованием видов и геометрической точностью в 360{\deg} неограниченных сценах. Мы представляем AuraFusion360, новый метод на основе ссылок, который обеспечивает высококачественное удаление объектов и заполнение дыр в трехмерных сценах, представленных методом Гауссова сглаживания. Наш подход включает (1) генерацию маски невидимых объектов с учетом глубины для точной идентификации заслонений, (2) Адаптивную Разностную Диффузию по Глубине, метод нулевого обучения для точного размещения начальной точки без дополнительного обучения, и (3) улучшение деталей на основе SDEdit для согласованности многопроекционного изображения. Мы также представляем 360-USID, первый полный набор данных для восстановления сцен в 360{\deg} неограниченных сцен с истиной в данных. Обширные эксперименты показывают, что AuraFusion360 значительно превосходит существующие методы, достигая превосходного визуального качества, сохраняя геометрическую точность при значительных изменениях точки зрения. Смотрите результаты видео на нашей странице проекта и набор данных по ссылке https://kkennethwu.github.io/aurafusion360/.

Шаг назад для прыжка вперед: самостоятельное откатывание для улучшения рассуждений моделей языка
Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models

Feb 6

ByXiao-Wen Yang, Xuan-Yi Zhu, Wen-Da Wei, Ding-Chu Zhang, Jie-Jing Shao, Zhi Zhou, Lan-Zhe Guo, Yu-Feng Li

Интеграция механизмов медленного мышления в большие языковые модели (LLM) предлагает многообещающий путь к достижению Разумных ИИ уровня 2, как это продемонстрировано системами, например, o1 от OpenAI. Однако остаются несколько значительных проблем, включая неэффективное чрезмерное размышление и чрезмерную зависимость от вспомогательных моделей вознаграждения. Мы указываем, что эти ограничения происходят из неспособности LLM внутренне осознавать процесс поиска, ключевого компонента эффективного рассуждения. Критическим шагом к решению этой проблемы является предоставление LLM возможности автономно определять моменты и места отката, фундаментальной операции в традиционных алгоритмах поиска. В этой связи мы предлагаем механизм самоотката, который дает LLM возможность откатываться как во время обучения, так и во время вывода. Этот механизм не только улучшает способность к рассуждениям, но и эффективность, превращая медленные процессы мышления в быстрые через самосовершенствование. Эмпирические оценки показывают, что наше предложение значительно улучшает способности к рассуждениям LLM, достигая прироста производительности более чем на 40 процентов по сравнению с методом оптимизации по оптимальному пути с учителем. Мы считаем, что данное исследование представляет собой новый и многообещающий путь для развития более продвинутых и надежных Разумных ИИ.

FlashVideo: Поддержание точности деталей для эффективной генерации видео высокого разрешения
FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation

Feb 7

ByShilong Zhang, Wenbo Li, Shoufa Chen, Chongjian Ge, Peize Sun, Yida Zhang, Yi Jiang, Zehuan Yuan, Binyue Peng, Ping Luo

Модели распространения DiT достигли большого успеха в генерации текста в видео, используя их масштабируемость в объеме модели и масштабе данных. Высокая точность контента и движения, соответствующая текстовым подсказкам, однако часто требует большого количества параметров модели и значительного числа оценок функций (NFE). Реалистичные и визуально привлекательные детали обычно отражаются в высокоразрешенных выходах, что дополнительно увеличивает вычислительные требования, особенно для одноступенчатых моделей DiT. Для решения этих проблем мы предлагаем новую двухступенчатую структуру, FlashVideo, которая стратегически распределяет объем модели и NFE между этапами для балансировки точности и качества генерации. На первом этапе точность подсказки приоритизируется через процесс генерации низкого разрешения с использованием больших параметров и достаточного количества NFE для улучшения вычислительной эффективности. Второй этап устанавливает соответствие потока между низким и высоким разрешениями, эффективно генерируя мелкие детали с минимальным количеством NFE. Количественные и визуальные результаты показывают, что FlashVideo достигает передовой генерации видео высокого разрешения с превосходной вычислительной эффективностью. Кроме того, двухступенчатая концепция позволяет пользователям предварительно просматривать начальный результат перед переходом к генерации полного разрешения, тем самым значительно снижая вычислительные затраты и время ожидания, а также улучшая коммерческую целесообразность.

Агентство зависит от рамки.
Agency Is Frame-Dependent

Feb 6

ByDavid Abel, André Barreto, Michael Bowling, Will Dabney, Shi Dong, Steven Hansen, Anna Harutyunyan, Khimya Khetarpal, Clare Lyle, Razvan Pascanu, Georgios Piliouras, Doina Precup, Jonathan Richens, Mark Rowland, Tom Schaul, Satinder Singh

Агентность - это способность системы направлять результаты к цели и является центральной темой исследований в биологии, философии, когнитивной науке и искусственном интеллекте. Определение, обладает ли система агентностью, является известно сложным вопросом: например, Деннет (1989) подчеркивает загадку в определении, какие принципы могут определить, обладают ли камень, термостат или робот агентностью. Мы здесь рассматриваем эту загадку с точки зрения обучения с подкреплением, утверждая, что агентность фундаментально зависит от рамки: любое измерение агентности системы должно проводиться относительно опорной рамки. Мы поддерживаем это утверждение, представляя философский аргумент, что каждое из существенных свойств агентности, предложенных Барандиараном и др. (2009) и Морено (2018), сами по себе зависят от рамки. Мы приходим к выводу, что любая основная наука об агентности требует зависимости от рамки, и обсуждаем последствия этого утверждения для обучения с подкреплением.

DuoGuard: Двухигроковая RL-ориентированная структура для мультиязычного LLM "Guardrails"
DuoGuard: A Two-Player RL-Driven Framework for Multilingual LLM Guardrails

Feb 7

ByYihe Deng, Yu Yang, Junkai Zhang, Wei Wang, Bo Li

Быстрое развитие крупных языковых моделей (LLM) увеличило потребность в моделях-ограждениях для обеспечения ответственного использования, особенно в обнаружении небезопасного и незаконного контента. В то время как значительные данные о безопасности существуют на английском языке, мультиязычное моделирование ограждений остается недостаточно исследованным из-за дефицита открытых данных о безопасности на других языках. Для решения этого пробела мы предлагаем новую двухигровую рамку обучения с подкреплением (RL), где генератор и модель-ограждение враждебно сосуществуют для создания высококачественных синтетических данных для обучения мультиязычным моделям-ограждениям. Мы теоретически формализуем это взаимодействие как игру двух игроков, доказывая сходимость к равновесию по Нэшу. Эмпирические оценки показывают, что наша модель \ours превосходит современные модели, достигая почти 10% улучшения по сравнению с LlamaGuard3 (8B) на английских бенчмарках, при этом она в 4,5 раза быстрее в выводе с значительно меньшей моделью (0,5B). Мы достигаем значительных прорывов в мультиязычных задачах безопасности, особенно в решении дисбаланса для языков с недостаточными ресурсами в собранном реальном наборе данных. Анализы абляции подчеркивают критическую роль генерации синтетических данных в преодолении дисбаланса в открытых данных между английским и другими языками. Эти результаты устанавливают масштабируемый и эффективный подход к генерации синтетических данных, открывая путь к улучшению мультиязычных моделей-ограждений для повышения безопасности LLM. Код, модель и данные будут опубликованы на https://github.com/yihedeng9/DuoGuard.

Генерация символьных моделей мира путем масштабирования крупных языковых моделей во время тестирования.
Generating Symbolic World Models via Test-time Scaling of Large Language Models

Feb 7

ByZhouliang Yu, Yuhuan Yuan, Tim Z. Xiao, Fuxiang Frank Xia, Jie Fu, Ge Zhang, Ge Lin, Weiyang Liu

Решение сложных задач планирования требует от крупных языковых моделей (LLM) явного моделирования перехода состояний для предотвращения нарушений правил, соблюдения ограничений и обеспечения оптимальности - задача, затрудненная встроенной неоднозначностью естественного языка. Для преодоления такой неоднозначности используется язык определения области планирования (PDDL) в качестве абстракции планирования, позволяющей точные и формальные описания состояний. С помощью PDDL мы можем создать символическую модель мира, где классические алгоритмы поиска, такие как A*, могут быть легко применены для нахождения оптимальных планов. Однако напрямую создание областей PDDL с использованием текущих LLM остается открытой проблемой из-за отсутствия обучающих данных PDDL. Для решения этой проблемы мы предлагаем увеличить вычислительные возможности LLM во время тестирования для улучшения их способностей к рассуждению в PDDL, тем самым обеспечивая создание высококачественных областей PDDL. Конкретно, мы представляем простой, но эффективный алгоритм, который сначала использует подход Best-of-N для улучшения качества начального решения, а затем уточняет решение детализированным образом с помощью вербализованного машинного обучения. Наш метод значительно превосходит o1-mini в создании области PDDL, достигая более 50% успешных результатов на двух задачах (т.е. создание областей PDDL из описания естественного языка или задач PDDL). Это достигается без дополнительного обучения. Используя PDDL в качестве абстракции состояния, наш метод способен превзойти текущие передовые методы практически на всех задачах планирования на уровне соревнований.

CMoE: Быстрое формирование смеси экспертов для эффективного вывода LLM.
CMoE: Fast Carving of Mixture-of-Experts for Efficient LLM Inference

Feb 6

ByZehua Pei, Lancheng Zou, Hui-Ling Zhen, Xianzhi Yu, Wulong Liu, Sinno Jialin Pan, Mingxuan Yuan, Bei Yu

Большие языковые модели (LLM) достигают впечатляющей производительности за счет увеличения параметров модели, но это сопровождается значительной нагрузкой на вывод. Передаточные сети (FFN), которые доминируют среди параметров LLM, проявляют высокую разреженность активации в скрытых нейронах. Для использования этого исследователи предложили использовать архитектуру смеси экспертов (MoE), где активируется только подмножество параметров. Однако существующие подходы часто требуют обширных обучающих данных и ресурсов, что ограничивает их практическую применимость. Мы предлагаем CMoE (Carved MoE), новую структуру для эффективного выделения моделей MoE из плотных моделей. CMoE достигает выдающейся производительности благодаря эффективной группировке экспертов и легкой адаптации. Сначала нейроны группируются на общих и маршрутизированных экспертов на основе уровней активации. Затем мы создаем механизм маршрутизации без обучения с нуля, включая дифференцируемый процесс маршрутизации и балансировку нагрузки. Используя умеренные данные, CMoE создает хорошо спроектированный, применимый MoE из плотной модели на 7 миллиардов параметров за пять минут. С помощью легкой донастройки он достигает восстановления высокой производительности менее чем за час. Мы предоставляем наш код публично по адресу https://github.com/JarvisPei/CMoE.

Sora на устройстве: обеспечение генерации текста в видео на основе диффузии для мобильных устройств
On-device Sora: Enabling Diffusion-Based Text-to-Video Generation for Mobile Devices

Feb 5

ByBosung Kim, Kyuhwan Lee, Isu Jeong, Jungmin Cheon, Yeojin Lee, Seulki Lee

Мы представляем On-device Sora, первое передовое решение для генерации видео из текста на устройстве на основе диффузии, которое эффективно работает на устройствах уровня смартфона. Основываясь на Open-Sora, On-device Sora применяет три новаторских техники для решения проблем генерации видео из текста на основе диффузии на вычислительно и памятью ограниченных мобильных устройствах. Во-первых, Линейный Пропорциональный Скачок (Linear Proportional Leap, LPL) уменьшает избыточные шаги денойзинга, необходимые для диффузии видео, через эффективный подход на основе скачков. Во-вторых, Слияние Токенов по Временной Измеримости (Temporal Dimension Token Merging, TDTM) минимизирует интенсивные вычисления обработки токенов в слоях внимания путем слияния последовательных токенов вдоль временного измерения. В-третьих, Параллельный Вывод с Динамической Загрузкой (Concurrent Inference with Dynamic Loading, CI-DL) динамически разбивает большие модели на более мелкие блоки и загружает их в память для параллельного вывода модели, эффективно решая проблемы ограниченной памяти устройства. Мы реализуем On-device Sora на iPhone 15 Pro, и экспериментальные оценки показывают, что он способен генерировать видео высокого качества на устройстве, сравнимого с теми, которые производит Open-Sora на высокопроизводительных GPU. Эти результаты показывают, что On-device Sora обеспечивает эффективную и высококачественную генерацию видео на ресурсоемких мобильных устройствах, расширяя доступность, обеспечивая конфиденциальность пользователей, уменьшая зависимость от облачной инфраструктуры и снижая связанные издержки. Мы видим предложенный On-device Sora как значительный первый шаг к демократизации передовых генеративных технологий, обеспечивая возможности генерации видео на обычных мобильных и встроенных устройствах. Реализация кода общедоступна в репозитории GitHub: https://github.com/eai-lab/On-device-Sora.

Линейная корреляция в композиционной обобщенности и галлюцинациях в модели LM.
Linear Correlation in LM's Compositional Generalization and Hallucination

Feb 6

ByLetian Peng, Chenyang An, Shibo Hao, Chengyu Dong, Jingbo Shang

Обобщение языковых моделей (LMs) вызывает активные дискуссии, сопоставляя их потенциал для общего интеллекта с трудностями в основах композиции знаний (например, проклятие обратного/переходного). В данной статье раскрывается явление линейных корреляций в LMs во время композиции знаний. Для объяснения существует линейное преобразование между определенными связанными знаниями, которое отображает логиты предсказания следующего токена с одного запроса на другой, например, "X живет в городе" -> "X живет в стране" для каждого данного X. Это отражает линейность в композиции человеческих знаний, например, Париж -> Франция. Наши результаты показывают, что линейное преобразование устойчиво к масштабированию, обобщая обновленные знания при соответствии реальным отношениям, но вызывает галлюцинации при отклонении. Эмпирические результаты предполагают, что линейная корреляция может служить потенциальным идентификатором обобщения LM. Наконец, мы показываем, что такие линейные корреляции могут быть изучены с помощью одной прямой нейронной сети и предварительно обученных представлений словаря, что указывает на то, что обобщение LM сильно зависит от последних.

Законы масштабирования в патчификации: изображение стоит 50 176 токенов и даже больше
Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More

Feb 6

ByFeng Wang, Yaodong Yu, Guoyizhe Wei, Wei Shao, Yuyin Zhou, Alan Yuille, Cihang Xie

С момента появления Vision Transformer (ViT) патчификация долгое время рассматривалась как фактический подход к токенизации изображений для обычных визуальных архитектур. Путем сжатия пространственного размера изображений этот подход может эффективно сократить последовательность токенов и уменьшить вычислительные затраты для обычных архитектур, подобных ViT. В данной работе мы стремимся тщательно изучить потерю информации, вызванную этим патчификационным компрессионным подходом, и его влияние на визуальное понимание. Мы проводим обширные эксперименты по масштабированию размера патчей и с интересом наблюдаем за увлекательным законом масштабирования в патчификации: модели последовательно получают выгоду от уменьшения размеров патчей и достигают улучшенной предсказательной производительности, пока не достигают минимального размера патча 1x1, т.е. токенизации пикселей. Этот вывод широко применим для различных визионерских задач, различных масштабов ввода и различных архитектур, таких как ViT и недавние модели Mamba. Более того, как побочный результат, мы обнаруживаем, что с более маленькими патчами задачи, специфичные для задач декодеры становятся менее критическими для плотного предсказания. В экспериментах мы успешно масштабируем визуальную последовательность до исключительной длины 50 176 токенов, достигая конкурентоспособной точности на тесте 84,6% с моделью базового размера на бенчмарке ImageNet-1k. Мы надеемся, что данное исследование может предоставить понимание и теоретические основы для будущих работ по созданию некомпрессионных визионерских моделей. Код доступен по ссылке https://github.com/wangf3014/Patch_Scaling.

Ни одна задача не останется без внимания: объединение моделей изотропного типа с общими и задачно-специфическими подпространствами.
No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces

Feb 7

ByDaniel Marczak, Simone Magistri, Sebastian Cygert, Bartłomiej Twardowski, Andrew D. Bagdanov, Joost van de Weijer

Слияние моделей интегрирует веса нескольких моделей, специфичных для задач, в одну многозадачную модель. Несмотря на недавний интерес к проблеме, остается значительный разрыв в производительности между объединенными и однозадачными моделями. В данной статье мы исследуем ключевые характеристики матриц задач - матриц обновления весов, применяемых к предварительно обученной модели - которые обеспечивают эффективное слияние. Мы показываем, что согласованность между отдельными компонентами моделей, специфичных для задач, и объединенными матрицами тесно коррелирует с улучшением производительности по сравнению с предварительно обученной моделью. На основе этого мы предлагаем изотропную рамочную модель слияния, которая выравнивает спектр сингулярных значений матриц задач, улучшает согласованность и уменьшает разрыв в производительности. Кроме того, мы включаем как общие, так и специфичные для задач подпространства для дальнейшего улучшения согласованности и производительности. Наш подход достигает передовой производительности в различных сценариях, включая различные наборы задач и масштабы моделей. Эта работа продвигает понимание динамики слияния моделей, предлагая эффективную методологию слияния моделей без необходимости дополнительного обучения. Код доступен по адресу https://github.com/danielm1405/iso-merging.

CodeSteer: Символьно-дополненные языковые модели с помощью руководства кодом/текстом
CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance

Feb 4

ByYongchao Chen, Yilun Hao, Yueying Liu, Yang Zhang, Chuchu Fan

Существующие методы не могут эффективно направлять крупные языковые модели (LLM) между текстовым рассуждением и генерацией кода, что приводит к недостаточному использованию возможностей символьных вычислений. Мы представляем CodeSteer, эффективный метод для направления генерации кода/текста LLM. Мы создаем комплексный бенчмарк SymBench, включающий 37 символьных задач с настраиваемой сложностью, а также синтезируем наборы данных из 12 тыс. траекторий многораундового руководства/генерации и 5,5 тыс. пар сравнения руководства. Мы донастраиваем модель Llama-3-8B с помощью вновь разработанного многораундового обучения с учителем (SFT) и оптимизации прямого предпочтения (DPO). Полученная модель, CodeSteerLLM, дополненная предложенными символьными и самоответными проверками, эффективно направляет генерацию кода/текста более крупных моделей. Дополнение GPT-4o с помощью CodeSteer повышает его средний балл производительности с 53,3 до 86,4, даже превосходя существующие лучшие LLM OpenAI o1 (82,7), o1-preview (74,8) и DeepSeek R1 (76,8) по всем 37 задачам (28 видимых, 9 невидимых). Обученный для GPT-4o, CodeSteer демонстрирует превосходную обобщаемость, обеспечивая среднее увеличение производительности на 41,8 на Claude, Mistral и GPT-3.5. Направляемые CodeSteer LLM полностью используют символьные вычисления для поддержания высокой производительности на сложных задачах. Модели, наборы данных и коды доступны по адресу https://github.com/yongchao98/CodeSteer-v1.0.

QLIP: Выравнивание текста и визуальная токенизация объединяют авторегрессивное мультимодальное понимание и генерацию.
QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation

Feb 7

ByYue Zhao, Fuzhao Xue, Scott Reed, Linxi Fan, Yuke Zhu, Jan Kautz, Zhiding Yu, Philipp Krähenbühl, De-An Huang

Мы представляем Quantized Language-Image Pretraining (QLIP), метод визуальной токенизации, который сочетает качество восстановления современного уровня с пониманием изображений без обучения. QLIP обучает автоэнкодер на основе бинарной сферической квантизации с целями восстановления и выравнивания язык-изображение. Мы первые показываем, что эти две цели не должны противоречить друг другу. Мы динамически балансируем два термина потерь во время обучения и показываем, что двухэтапное обучение эффективно сочетает требования к большим пакетам предварительного обучения изображений и узкое место памяти, накладываемое целью восстановления. Мы подтверждаем эффективность QLIP для мультимодального понимания и генерации изображений под управлением текста с использованием одной модели. В частности, QLIP служит заменой визуального кодера для LLaVA и токенизатора изображений для LlamaGen с сопоставимой или даже лучшей производительностью. Наконец, мы демонстрируем, что QLIP позволяет создать объединенную авторегрессионную модель смешанной модальности для понимания и генерации.

Потерянное во времени: проблемы понимания часов и календаря в мультимодальных LLM-моделях
Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs

Feb 7

ByRohit Saxena, Aryo Pradipta Gema, Pasquale Minervini

Понимание времени по визуальным представлениям является фундаментальным когнитивным навыком, однако остается вызовом для мультимодальных больших языковых моделей (MLLMs). В данной работе мы исследуем способности MLLMs в интерпретации времени и даты через аналоговые часы и ежегодные календари. Для этого мы подготовили структурированный набор данных, включающий два подмножества: 1) ClockQA, включающий различные типы часов - стандартные, с черным циферблатом, без секундной стрелки, с римскими цифрами и со стрелкой - в паре с вопросами, связанными с временем; и 2) CalendarQA, состоящий из изображений ежегодных календарей с вопросами, охватывающими как широко известные даты (например, Рождество, Новый год), так и вычисленные (например, 100-й или 153-й день года). Мы стремимся проанализировать, как MLLMs могут выполнять визуальное распознавание, числовое рассуждение и временной вывод при представлении данных, связанных с временем. Наши оценки показывают, что несмотря на недавние достижения, надежное понимание времени остается значительным вызовом для MLLMs.

Метод ARR: вопросно-ответная система с использованием крупных языковых моделей через анализ, извлечение и рассуждение.
ARR: Question Answering with Large Language Models via Analyzing, Retrieving, and Reasoning

Feb 7

ByYuwei Yin, Giuseppe Carenini

Большие языковые модели (LLM) достигают выдающихся результатов на сложных бенчмарках, которые часто структурированы как задачи выбора ответа на вопросы (QA). Нулевой метод Chain-of-Thought (CoT) повышает рассуждения в LLM, но предоставляет только смутное и общее руководство ("думайте шаг за шагом"). В данной статье представлен метод ARR, интуитивный и эффективный нулевой метод подсказки, который явно включает три ключевых шага в решении задач QA: анализ намерения вопроса, извлечение соответствующей информации и последовательное рассуждение. Обширные эксперименты по разнообразным и сложным задачам QA демонстрируют, что ARR последовательно улучшает Базовый уровень (без подсказок ARR) и превосходит CoT. Абляционные и кейс-исследования дополнительно подтверждают положительный вклад каждого компонента: анализа, извлечения и рассуждения. Следует отметить, что анализ намерения играет важную роль в ARR. Кроме того, обширные оценки по различным размерам моделей, сериям LLM и настройкам генерации укрепляют эффективность, устойчивость и обобщаемость ARR.

Глубокое обучение с подкреплением на основе ценности масштабируется предсказуемо.
Value-Based Deep RL Scales Predictably

Feb 6

ByOleh Rybkin, Michal Nauman, Preston Fu, Charlie Snell, Pieter Abbeel, Sergey Levine, Aviral Kumar

Масштабирование данных и вычислений критично для успеха машинного обучения. Однако масштабирование требует предсказуемости: мы хотим, чтобы методы не только хорошо работали с большим объемом вычислений или данных, но и чтобы их производительность была предсказуемой на основе запусков малого масштаба, без проведения экспериментов большого масштаба. В этой статье мы показываем, что методы обучения с подкреплением на основе оценки ценности предсказуемы, несмотря на сообщественные предания о их патологическом поведении. Во-первых, мы показываем, что требования к данным и вычислениям для достижения определенного уровня производительности находятся на фронтире Парето, контролируемом соотношением обновлений к данным (UTD). Оценивая этот фронт, мы можем предсказать требования к данным при увеличении вычислительных ресурсов и требования к вычислениям при увеличении объема данных. Во-вторых, мы определяем оптимальное распределение общего бюджета ресурсов между данными и вычислениями для заданной производительности и используем его для определения гиперпараметров, максимизирующих производительность при заданном бюджете. В-третьих, это поведение масштабирования обеспечивается первоначальной оценкой предсказуемых взаимосвязей между гиперпараметрами, которая используется для управления эффектами переобучения и потери пластичности, уникальных для обучения с подкреплением. Мы проверяем наш подход, используя три алгоритма: SAC, BRO и PQL на платформах DeepMind Control, OpenAI gym и IsaacGym, при экстраполяции к более высоким уровням данных, вычислений, бюджета или производительности.

YINYANG-ALIGN: Оценка противоречивых целей и предложение многокритериальной оптимизации на основе DPO для выравнивания текста и изображения.
YINYANG-ALIGN: Benchmarking Contradictory Objectives and Proposing Multi-Objective Optimization based DPO for Text-to-Image Alignment

Feb 5

ByAmitava Das, Yaswanth Narsupalli, Gurpreet Singh, Vinija Jain, Vasu Sharma, Suranjana Trivedy, Aman Chadha, Amit Sheth

Точное выравнивание в системах текст-к изображению (Text-to-Image, T2I) имеет решающее значение для обеспечения того, чтобы созданные визуальные образы не только точно отражали намерения пользователя, но также соответствовали строгим этическим и эстетическим стандартам. Инциденты, подобные катастрофе Google Gemini, где неправильное выравнивание привело к значительному общественному негодованию, подчеркивают критическую необходимость надежных механизмов выравнивания. В отличие от этого, Большие Языковые Модели (Large Language Models, LLMs) достигли заметного успеха в области выравнивания. Основываясь на этих достижениях, исследователи стремятся применить аналогичные техники выравнивания, такие как Оптимизация Прямых Предпочтений (Direct Preference Optimization, DPO), к системам T2I для улучшения достоверности и надежности генерации изображений. Мы представляем YinYangAlign, продвинутую систему оценки, которая систематически количественно оценивает достоверность выравнивания систем T2I, учитывая шесть фундаментальных и внутренне противоречивых целей дизайна. Каждая пара представляет собой фундаментальные напряжения в генерации изображений, такие как балансирование соблюдения пользовательских запросов с творческими модификациями или поддержание разнообразия наряду с визуальной последовательностью. YinYangAlign включает подробные наборы аксиом, содержащие человеческие запросы, выровненные (выбранные) ответы, невыровненные (отклоненные) созданные искусственным интеллектом результаты и объяснения основных противоречий.

Непрерывная модель восприятия 3D с постоянным состоянием
Continuous 3D Perception Model with Persistent State

Jan 21

ByQianqian Wang, Yifei Zhang, Aleksander Holynski, Alexei A. Efros, Angjoo Kanazawa

Мы представляем унифицированную структуру, способную решать широкий спектр задач в трех измерениях. Наш подход включает состояний рекуррентную модель, которая непрерывно обновляет свое представление состояния с каждым новым наблюдением. Учитывая поток изображений, это развивающееся состояние может использоваться для создания метрических точечных карт (точки в 3D на пиксель) для каждого нового входа в режиме онлайн. Эти точечные карты находятся в общей системе координат и могут накапливаться в согласованную, плотную реконструкцию сцены, которая обновляется по мере поступления новых изображений. Наша модель, названная CUT3R (Continuous Updating Transformer for 3D Reconstruction), улавливает богатые априорные знания о реальных сценах: она не только может предсказывать точные точечные карты изображений, но также может выводить невидимые области сцены, исследуя виртуальные, не наблюдаемые виды. Наш метод простой, но очень гибкий, естественно принимает различные длины изображений, которые могут быть как видеопотоками, так и неупорядоченными коллекциями фотографий, содержащими как статический, так и динамический контент. Мы оцениваем наш метод на различных задачах в 3D/4D и демонстрируем конкурентоспособные или передовые результаты в каждой из них. Страница проекта: https://cut3r.github.io/

УЧАСТНИК СОБРАНИЯ: Сравнение LLM-моделей по участию в собраниях от нашего имени
MEETING DELEGATE: Benchmarking LLMs on Attending Meetings on Our Behalf

Feb 5

ByLingxiang Hu, Shurun Yuan, Xiaoting Qin, Jue Zhang, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

В современных рабочих местах встречи являются неотъемлемой частью обмена идеями и обеспечения выравнивания команды, но часто сталкиваются с проблемами, такими как затраты времени, конфликты в расписании и неэффективное участие. Недавние достижения в области Больших Языковых Моделей (БЯМ) продемонстрировали их сильные возможности в генерации естественного языка и рассуждения, порождая вопрос: могут ли БЯМ эффективно делегировать участников на встречах? Для исследования этого вопроса мы разрабатываем прототип системы делегирования на встречах, работающей на основе БЯМ, и создаем комплексный бенчмарк, используя реальные транскрипты встреч. Наша оценка показывает, что GPT-4/4o сохраняют сбалансированную производительность между активными и осторожными стратегиями вовлеченности. В отличие от этого, Gemini 1.5 Pro склонен к более осторожному поведению, в то время как Gemini 1.5 Flash и Llama3-8B/70B проявляют более активные тенденции. В целом, около 60\% ответов содержат хотя бы один ключевой момент из исходной информации. Однако требуются улучшения для сокращения несвязанного или повторяющегося контента и увеличения терпимости к ошибкам транскрипции, которые часто встречаются в реальных условиях. Кроме того, мы реализуем систему в практических условиях и собираем обратную связь из реальных демонстраций. Наши результаты подчеркивают потенциал и вызовы использования БЯМ в качестве делегатов на встречах, предлагая ценные идеи для их практического применения для смягчения бремени встреч.

Адаптивное кэширование семантических подсказок с использованием VectorQ.
Adaptive Semantic Prompt Caching with VectorQ

Feb 6

ByLuis Gaspar Schroeder, Shu Liu, Alejandro Cuadron, Mark Zhao, Stephan Krusche, Alfons Kemper, Matei Zaharia, Joseph E. Gonzalez

Кэши семантических подсказок снижают задержку и стоимость вывода больших языковых моделей (LLM), повторно используя закэшированные ответы, сгенерированные LLM, для семантически похожих подсказок. Метрики сходства векторов присваивают числовой балл для количественной оценки сходства между встроенной подсказкой и ее ближайшим соседом в кэше. Существующие системы полагаются на статический порог для классификации того, достаточно ли высок балл сходства для получения попадания в кэш. Мы показываем, что этот универсальный порог недостаточен для различных подсказок. Мы предлагаем VectorQ, фреймворк для изучения областей порогов, специфичных для встраивания, которые адаптируются к сложности и неопределенности встраивания. Через оценки на комбинации четырех разнообразных наборов данных мы показываем, что VectorQ последовательно превосходит современные системы на всех статических порогах, достигая увеличения коэффициента попадания в кэш до 12 раз и снижения коэффициента ошибок до 92%.

SPARC: Адаптация подсистем с учетом подпространства для надежного непрерывного обучения в LLM.
SPARC: Subspace-Aware Prompt Adaptation for Robust Continual Learning in LLMs

Feb 5

ByDinithi Jayasuriya, Sina Tayebati, Davide Ettori, Ranganath Krishnan, Amit Ranjan Trivedi

Мы предлагаем SPARC, легковесную фреймворк для непрерывного обучения больших языковых моделей (LLM), который обеспечивает эффективную адаптацию к задачам через настройку подсказок в пространстве меньшей размерности. Используя метод анализа главных компонент (PCA), мы определяем компактное подпространство обучающих данных. Оптимизация подсказок в этом пространстве меньшей размерности повышает эффективность обучения, поскольку сосредотачивает обновления на наиболее значимых признаках, снижая вычислительные затраты. Более того, поскольку внутренняя структура модели остается неизменной, обширные знания, полученные в процессе предварительного обучения, полностью сохраняются, обеспечивая сохранение ранее усвоенной информации во время адаптации. Наш метод достигает высокой сохраняемости знаний как в нарастающих по задачам, так и в нарастающих по доменам сценариях непрерывного обучения, при этом перенастраивая всего лишь 0,04% параметров модели. Кроме того, интегрируя LoRA, мы улучшаем адаптивность к вычислительным ограничениям, позволяя находить компромисс между точностью и стоимостью обучения. Эксперименты на бенчмарке SuperGLUE показывают, что наша настройка подсказок на основе PCA в сочетании с LoRA сохраняет полное знание, повышая точность и используя всего 1% параметров модели. Эти результаты подтверждают, что наш подход является масштабируемым и ресурсоэффективным решением для непрерывного обучения в LLM.

Интеллектуальное восприятие и действие для надежной автономности на краю: возможности и вызовы
Intelligent Sensing-to-Action for Robust Autonomy at the Edge: Opportunities and Challenges

Feb 4

ByAmit Ranjan Trivedi, Sina Tayebati, Hemant Kumawat, Nastaran Darabi, Divake Kumar, Adarsh Kumar Kosta, Yeshwanth Venkatesha, Dinithi Jayasuriya, Nethmi Jayasinghe, Priyadarshini Panda, Saibal Mukhopadhyay, Kaushik Roy

Автономное краевое вычисление в робототехнике, умных городах и автономных транспортных средствах основано на беспрепятственной интеграции сенсорики, обработки и актуации для принятия решений в реальном времени в динамических средах. В его основе лежит цикл "от сенсорики к действию", который итеративно выравнивает входы сенсоров с вычислительными моделями для управления адаптивными стратегиями контроля. Эти циклы могут адаптироваться к гиперлокальным условиям, улучшая эффективность использования ресурсов и отзывчивость, но также сталкиваются с проблемами, такими как ограничения ресурсов, задержки синхронизации в слиянии данных из нескольких источников и риск каскадных ошибок в обратных связях. В данной статье исследуется, как проактивные, контекстно-ориентированные адаптации от сенсорики к действию и от действия к сенсорике могут улучшить эффективность путем динамической настройки сенсорики и вычислений в зависимости от требований задачи, таких как сенсорика очень ограниченной части окружающей среды и прогнозирование остального. Руководя сенсорикой через действия управления, пути от действия к сенсорике могут улучшить актуальность задачи и использование ресурсов, но они также требуют надежного мониторинга для предотвращения каскадных ошибок и поддержания надежности. Многоагентные циклы сенсорики-действия дополнительно расширяют эти возможности через координированную сенсорику и действия между распределенными агентами, оптимизируя использование ресурсов через сотрудничество. Кроме того, нейроморфное вычисление, вдохновленное биологическими системами, предоставляет эффективную основу для обработки на основе импульсов, событийного управления, что экономит энергию, снижает задержки и поддерживает иерархический контроль, что делает его идеальным для многоагентной оптимизации. В данной статье подчеркивается важность стратегий совместного проектирования "от начала до конца", которые выравнивают алгоритмические модели с аппаратными средствами и динамикой окружающей среды и улучшают взаимосвязи между уровнями для увеличения пропускной способности, точности и адаптивности для энергоэффективной автономности на краю в сложных средах.