Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы изучаем новую архитектуру языковой модели, способную масштабировать вычисления на этапе тестирования путем неявного рассуждения в скрытом пространстве. Наша модель работает путем итерации рекуррентного блока, раскрываясь до произвольной глубины на этапе тестирования. Это в отличие от основных моделей рассуждения, которые увеличивают вычисления путем создания большего количества токенов. В отличие от подходов, основанных на цепочке мыслей, наш подход не требует специализированных обучающих данных, может работать с небольшими окнами контекста и способен улавливать типы рассуждений, которые не так легко представить словами. Мы масштабируем модель концепции-доказательства до 3,5 миллиарда параметров и 800 миллиардов токенов. Мы показываем, что полученная модель может улучшить свою производительность на бенчмарках рассуждения, иногда драматически, до вычислительной нагрузки, эквивалентной 50 миллиардам параметров.
В данной статье представлен Goku, передовая семейство моделей совместного генерирования изображений и видео, использующих преобразователи потоков для достижения ведущей позиции в отрасли. Мы подробно описываем основные элементы, обеспечивающие высококачественное визуальное генерирование, включая конвейер кураторства данных, архитектуру модели, формулировку потока и передовую инфраструктуру для эффективного и надежного масштабного обучения. Модели Goku демонстрируют превосходную производительность как в качественной, так и в количественной оценке, устанавливая новые стандарты по всем основным задачам. Конкретно, Goku достигает 0.76 на GenEval и 83.65 на DPG-Bench для генерации текста в изображения, а также 84.85 на VBench для задач генерации текста в видео. Мы считаем, что данная работа предоставляет ценные идеи и практические достижения для исследовательского сообщества в разработке совместных моделей генерирования изображений и видео.
Хотя встраивание позиции по методу вращения (RoPE) и его варианты широко приняты из-за их способности к работе с длинными контекстами, расширение одномерного RoPE на видео с его сложной пространственно-временной структурой остается открытой проблемой. В данной работе впервые представлено всестороннее исследование, выделяющее четыре ключевых характеристики, необходимые для эффективной адаптации RoPE к видео, которые ранее не были полностью учтены. В рамках нашего анализа мы представляем сложную задачу V-NIAH-D (Visual Needle-In-A-Haystack с дистракторами), которая добавляет периодические дистракторы в V-NIAH. Задача V-NIAH-D показывает, что предыдущие варианты RoPE, лишенные соответствующего выделения временного измерения, легко вводятся в заблуждение дистракторами. На основе нашего анализа мы представляем VideoRoPE с трехмерной структурой, разработанной для сохранения пространственно-временных отношений. VideoRoPE включает в себя выделение низкочастотного времени для смягчения периодических колебаний, диагональное расположение для сохранения пространственной симметрии и регулируемый временной интервал для разделения временной и пространственной индексации. VideoRoPE последовательно превосходит предыдущие варианты RoPE в различных задачах, таких как поиск длинных видео, понимание видео и генерация видеоизображений. Наш код будет доступен по ссылке https://github.com/Wiselnn570/VideoRoPE.
Диффузионные трансформеры (DiTs) с трехмерным полным вниманием находятся на передовой в области генерации видео, но сталкиваются с запредельными вычислительными затратами - при создании всего 5-секундного видео разрешением 720P только внимание занимает 800 из 945 секунд общего времени вывода. В данной статье представлено скользящее плиточное внимание (STA) для решения этой проблемы. STA использует наблюдение, что оценки внимания в предварительно обученных моделях диффузии видео в основном сосредотачиваются в локализованных трехмерных окнах. Путем скольжения и обращения внимания на локальную пространственно-временную область STA устраняет избыточность полного внимания. В отличие от традиционного токен-мудрого скользящего окна внимания (SWA), STA работает плитка за плиткой с новым аппаратно-ориентированным дизайном скользящего окна, сохраняя выразительность при эффективном использовании аппаратных средств. Благодаря тщательной оптимизации на уровне ядра, STA предлагает первую эффективную реализацию скользящего окна 2D/3D-подобного внимания, достигая 58,79% MFU. Точнее, STA ускоряет внимание на 2,8-17 раз по сравнению с FlashAttention-2 (FA2) и на 1,6-10 раз по сравнению с FlashAttention-3 (FA3). На ведущем видео DiT, HunyuanVideo, STA сокращает время от начала до конца с 945 секунд (FA3) до 685 секунд без ухудшения качества, не требуя обучения. Включение донастройки дополнительно снижает задержку до 268 секунд с падением всего на 0,09% на VBench.
Один из подходов к снижению огромных затрат на большие языковые модели (LLM) заключается в использовании квантованных или разреженных представлений для обучения или развертывания. Хотя методы сжатия после обучения очень популярны, вопрос о получении еще более точных сжатых моделей путем прямого обучения на таких представлениях, то есть обучение с учетом квантования (QAT), остается открытым: например, недавнее исследование (arXiv:2411.04330v2) определило "оптимальное" количество битов, с которыми модели могут быть обучены с использованием QAT, оставаясь конкурентоспособными по точности с стандартной точностью FP16/BF16, на уровне весов и активаций в 8 бит. Мы продвигаем этот передовой метод с помощью нового метода под названием QuEST, который конкурентоспособен по Парето с FP16, то есть обеспечивает лучшую точность при меньшем размере модели, обучая модели с весами и активациями в 4 бита или менее. Более того, QuEST позволяет стабильное обучение с весами и активациями в 1 бит. QuEST достигает этого путем улучшения двух ключевых аспектов методов QAT: (1) точного и быстрого квантования (непрерывных) распределений весов и активаций с помощью нормализации Хадамарда и оптимальной подгонки по MSE; (2) нового оценщика доверия градиента на основе идеи явного минимизирования ошибки между шумным градиентом, вычисленным на квантованных состояниях, и "истинным" (но неизвестным) градиентом полной точности. Эксперименты на архитектурах типа Лама показывают, что QuEST вызывает стабильные законы масштабирования по всему диапазону поддерживаемых аппаратных точностей и может быть расширен на разреженные представления. Мы предоставляем поддержку ядра GPU, показывающую, что модели, созданные с помощью QuEST, могут быть эффективно выполнены. Наш код доступен по адресу https://github.com/IST-DASLab/QuEST.
Трехмерное восстановление сцены является важным для приложений от виртуальной реальности до архитектурной визуализации, однако существующие методы испытывают трудности с согласованием видов и геометрической точностью в 360{\deg} неограниченных сценах. Мы представляем AuraFusion360, новый метод на основе ссылок, который обеспечивает высококачественное удаление объектов и заполнение дыр в трехмерных сценах, представленных методом Гауссова сглаживания. Наш подход включает (1) генерацию маски невидимых объектов с учетом глубины для точной идентификации заслонений, (2) Адаптивную Разностную Диффузию по Глубине, метод нулевого обучения для точного размещения начальной точки без дополнительного обучения, и (3) улучшение деталей на основе SDEdit для согласованности многопроекционного изображения. Мы также представляем 360-USID, первый полный набор данных для восстановления сцен в 360{\deg} неограниченных сцен с истиной в данных. Обширные эксперименты показывают, что AuraFusion360 значительно превосходит существующие методы, достигая превосходного визуального качества, сохраняя геометрическую точность при значительных изменениях точки зрения. Смотрите результаты видео на нашей странице проекта и набор данных по ссылке https://kkennethwu.github.io/aurafusion360/.
Модели распространения DiT достигли большого успеха в генерации текста в видео, используя их масштабируемость в объеме модели и масштабе данных. Высокая точность контента и движения, соответствующая текстовым подсказкам, однако часто требует большого количества параметров модели и значительного числа оценок функций (NFE). Реалистичные и визуально привлекательные детали обычно отражаются в высокоразрешенных выходах, что дополнительно увеличивает вычислительные требования, особенно для одноступенчатых моделей DiT. Для решения этих проблем мы предлагаем новую двухступенчатую структуру, FlashVideo, которая стратегически распределяет объем модели и NFE между этапами для балансировки точности и качества генерации. На первом этапе точность подсказки приоритизируется через процесс генерации низкого разрешения с использованием больших параметров и достаточного количества NFE для улучшения вычислительной эффективности. Второй этап устанавливает соответствие потока между низким и высоким разрешениями, эффективно генерируя мелкие детали с минимальным количеством NFE. Количественные и визуальные результаты показывают, что FlashVideo достигает передовой генерации видео высокого разрешения с превосходной вычислительной эффективностью. Кроме того, двухступенчатая концепция позволяет пользователям предварительно просматривать начальный результат перед переходом к генерации полного разрешения, тем самым значительно снижая вычислительные затраты и время ожидания, а также улучшая коммерческую целесообразность.
Интеграция механизмов медленного мышления в большие языковые модели (LLM) предлагает многообещающий путь к достижению Разумных ИИ уровня 2, как это продемонстрировано системами, например, o1 от OpenAI. Однако остаются несколько значительных проблем, включая неэффективное чрезмерное размышление и чрезмерную зависимость от вспомогательных моделей вознаграждения. Мы указываем, что эти ограничения происходят из неспособности LLM внутренне осознавать процесс поиска, ключевого компонента эффективного рассуждения. Критическим шагом к решению этой проблемы является предоставление LLM возможности автономно определять моменты и места отката, фундаментальной операции в традиционных алгоритмах поиска. В этой связи мы предлагаем механизм самоотката, который дает LLM возможность откатываться как во время обучения, так и во время вывода. Этот механизм не только улучшает способность к рассуждениям, но и эффективность, превращая медленные процессы мышления в быстрые через самосовершенствование. Эмпирические оценки показывают, что наше предложение значительно улучшает способности к рассуждениям LLM, достигая прироста производительности более чем на 40 процентов по сравнению с методом оптимизации по оптимальному пути с учителем. Мы считаем, что данное исследование представляет собой новый и многообещающий путь для развития более продвинутых и надежных Разумных ИИ.
Агентность - это способность системы направлять результаты к цели и является центральной темой исследований в биологии, философии, когнитивной науке и искусственном интеллекте. Определение, обладает ли система агентностью, является известно сложным вопросом: например, Деннет (1989) подчеркивает загадку в определении, какие принципы могут определить, обладают ли камень, термостат или робот агентностью. Мы здесь рассматриваем эту загадку с точки зрения обучения с подкреплением, утверждая, что агентность фундаментально зависит от рамки: любое измерение агентности системы должно проводиться относительно опорной рамки. Мы поддерживаем это утверждение, представляя философский аргумент, что каждое из существенных свойств агентности, предложенных Барандиараном и др. (2009) и Морено (2018), сами по себе зависят от рамки. Мы приходим к выводу, что любая основная наука об агентности требует зависимости от рамки, и обсуждаем последствия этого утверждения для обучения с подкреплением.
Быстрое развитие крупных языковых моделей (LLM) увеличило потребность в моделях-ограждениях для обеспечения ответственного использования, особенно в обнаружении небезопасного и незаконного контента. В то время как значительные данные о безопасности существуют на английском языке, мультиязычное моделирование ограждений остается недостаточно исследованным из-за дефицита открытых данных о безопасности на других языках. Для решения этого пробела мы предлагаем новую двухигровую рамку обучения с подкреплением (RL), где генератор и модель-ограждение враждебно сосуществуют для создания высококачественных синтетических данных для обучения мультиязычным моделям-ограждениям. Мы теоретически формализуем это взаимодействие как игру двух игроков, доказывая сходимость к равновесию по Нэшу. Эмпирические оценки показывают, что наша модель \ours превосходит современные модели, достигая почти 10% улучшения по сравнению с LlamaGuard3 (8B) на английских бенчмарках, при этом она в 4,5 раза быстрее в выводе с значительно меньшей моделью (0,5B). Мы достигаем значительных прорывов в мультиязычных задачах безопасности, особенно в решении дисбаланса для языков с недостаточными ресурсами в собранном реальном наборе данных. Анализы абляции подчеркивают критическую роль генерации синтетических данных в преодолении дисбаланса в открытых данных между английским и другими языками. Эти результаты устанавливают масштабируемый и эффективный подход к генерации синтетических данных, открывая путь к улучшению мультиязычных моделей-ограждений для повышения безопасности LLM. Код, модель и данные будут опубликованы на https://github.com/yihedeng9/DuoGuard.
Решение сложных задач планирования требует от крупных языковых моделей (LLM) явного моделирования перехода состояний для предотвращения нарушений правил, соблюдения ограничений и обеспечения оптимальности - задача, затрудненная встроенной неоднозначностью естественного языка. Для преодоления такой неоднозначности используется язык определения области планирования (PDDL) в качестве абстракции планирования, позволяющей точные и формальные описания состояний. С помощью PDDL мы можем создать символическую модель мира, где классические алгоритмы поиска, такие как A*, могут быть легко применены для нахождения оптимальных планов. Однако напрямую создание областей PDDL с использованием текущих LLM остается открытой проблемой из-за отсутствия обучающих данных PDDL. Для решения этой проблемы мы предлагаем увеличить вычислительные возможности LLM во время тестирования для улучшения их способностей к рассуждению в PDDL, тем самым обеспечивая создание высококачественных областей PDDL. Конкретно, мы представляем простой, но эффективный алгоритм, который сначала использует подход Best-of-N для улучшения качества начального решения, а затем уточняет решение детализированным образом с помощью вербализованного машинного обучения. Наш метод значительно превосходит o1-mini в создании области PDDL, достигая более 50% успешных результатов на двух задачах (т.е. создание областей PDDL из описания естественного языка или задач PDDL). Это достигается без дополнительного обучения. Используя PDDL в качестве абстракции состояния, наш метод способен превзойти текущие передовые методы практически на всех задачах планирования на уровне соревнований.
Большие языковые модели (LLM) достигают впечатляющей производительности за счет увеличения параметров модели, но это сопровождается значительной нагрузкой на вывод. Передаточные сети (FFN), которые доминируют среди параметров LLM, проявляют высокую разреженность активации в скрытых нейронах. Для использования этого исследователи предложили использовать архитектуру смеси экспертов (MoE), где активируется только подмножество параметров. Однако существующие подходы часто требуют обширных обучающих данных и ресурсов, что ограничивает их практическую применимость. Мы предлагаем CMoE (Carved MoE), новую структуру для эффективного выделения моделей MoE из плотных моделей. CMoE достигает выдающейся производительности благодаря эффективной группировке экспертов и легкой адаптации. Сначала нейроны группируются на общих и маршрутизированных экспертов на основе уровней активации. Затем мы создаем механизм маршрутизации без обучения с нуля, включая дифференцируемый процесс маршрутизации и балансировку нагрузки. Используя умеренные данные, CMoE создает хорошо спроектированный, применимый MoE из плотной модели на 7 миллиардов параметров за пять минут. С помощью легкой донастройки он достигает восстановления высокой производительности менее чем за час. Мы предоставляем наш код публично по адресу https://github.com/JarvisPei/CMoE.
Мы представляем On-device Sora, первое передовое решение для генерации видео из текста на устройстве на основе диффузии, которое эффективно работает на устройствах уровня смартфона. Основываясь на Open-Sora, On-device Sora применяет три новаторских техники для решения проблем генерации видео из текста на основе диффузии на вычислительно и памятью ограниченных мобильных устройствах. Во-первых, Линейный Пропорциональный Скачок (Linear Proportional Leap, LPL) уменьшает избыточные шаги денойзинга, необходимые для диффузии видео, через эффективный подход на основе скачков. Во-вторых, Слияние Токенов по Временной Измеримости (Temporal Dimension Token Merging, TDTM) минимизирует интенсивные вычисления обработки токенов в слоях внимания путем слияния последовательных токенов вдоль временного измерения. В-третьих, Параллельный Вывод с Динамической Загрузкой (Concurrent Inference with Dynamic Loading, CI-DL) динамически разбивает большие модели на более мелкие блоки и загружает их в память для параллельного вывода модели, эффективно решая проблемы ограниченной памяти устройства. Мы реализуем On-device Sora на iPhone 15 Pro, и экспериментальные оценки показывают, что он способен генерировать видео высокого качества на устройстве, сравнимого с теми, которые производит Open-Sora на высокопроизводительных GPU. Эти результаты показывают, что On-device Sora обеспечивает эффективную и высококачественную генерацию видео на ресурсоемких мобильных устройствах, расширяя доступность, обеспечивая конфиденциальность пользователей, уменьшая зависимость от облачной инфраструктуры и снижая связанные издержки. Мы видим предложенный On-device Sora как значительный первый шаг к демократизации передовых генеративных технологий, обеспечивая возможности генерации видео на обычных мобильных и встроенных устройствах. Реализация кода общедоступна в репозитории GitHub: https://github.com/eai-lab/On-device-Sora.
Слияние моделей интегрирует веса нескольких моделей, специфичных для задач, в одну многозадачную модель. Несмотря на недавний интерес к проблеме, остается значительный разрыв в производительности между объединенными и однозадачными моделями. В данной статье мы исследуем ключевые характеристики матриц задач - матриц обновления весов, применяемых к предварительно обученной модели - которые обеспечивают эффективное слияние. Мы показываем, что согласованность между отдельными компонентами моделей, специфичных для задач, и объединенными матрицами тесно коррелирует с улучшением производительности по сравнению с предварительно обученной моделью. На основе этого мы предлагаем изотропную рамочную модель слияния, которая выравнивает спектр сингулярных значений матриц задач, улучшает согласованность и уменьшает разрыв в производительности. Кроме того, мы включаем как общие, так и специфичные для задач подпространства для дальнейшего улучшения согласованности и производительности. Наш подход достигает передовой производительности в различных сценариях, включая различные наборы задач и масштабы моделей. Эта работа продвигает понимание динамики слияния моделей, предлагая эффективную методологию слияния моделей без необходимости дополнительного обучения. Код доступен по адресу https://github.com/danielm1405/iso-merging.
Обобщение языковых моделей (LMs) вызывает активные дискуссии, сопоставляя их потенциал для общего интеллекта с трудностями в основах композиции знаний (например, проклятие обратного/переходного). В данной статье раскрывается явление линейных корреляций в LMs во время композиции знаний. Для объяснения существует линейное преобразование между определенными связанными знаниями, которое отображает логиты предсказания следующего токена с одного запроса на другой, например, "X живет в городе" -> "X живет в стране" для каждого данного X. Это отражает линейность в композиции человеческих знаний, например, Париж -> Франция. Наши результаты показывают, что линейное преобразование устойчиво к масштабированию, обобщая обновленные знания при соответствии реальным отношениям, но вызывает галлюцинации при отклонении. Эмпирические результаты предполагают, что линейная корреляция может служить потенциальным идентификатором обобщения LM. Наконец, мы показываем, что такие линейные корреляции могут быть изучены с помощью одной прямой нейронной сети и предварительно обученных представлений словаря, что указывает на то, что обобщение LM сильно зависит от последних.
С момента появления Vision Transformer (ViT) патчификация долгое время рассматривалась как фактический подход к токенизации изображений для обычных визуальных архитектур. Путем сжатия пространственного размера изображений этот подход может эффективно сократить последовательность токенов и уменьшить вычислительные затраты для обычных архитектур, подобных ViT. В данной работе мы стремимся тщательно изучить потерю информации, вызванную этим патчификационным компрессионным подходом, и его влияние на визуальное понимание. Мы проводим обширные эксперименты по масштабированию размера патчей и с интересом наблюдаем за увлекательным законом масштабирования в патчификации: модели последовательно получают выгоду от уменьшения размеров патчей и достигают улучшенной предсказательной производительности, пока не достигают минимального размера патча 1x1, т.е. токенизации пикселей. Этот вывод широко применим для различных визионерских задач, различных масштабов ввода и различных архитектур, таких как ViT и недавние модели Mamba. Более того, как побочный результат, мы обнаруживаем, что с более маленькими патчами задачи, специфичные для задач декодеры становятся менее критическими для плотного предсказания. В экспериментах мы успешно масштабируем визуальную последовательность до исключительной длины 50 176 токенов, достигая конкурентоспособной точности на тесте 84,6% с моделью базового размера на бенчмарке ImageNet-1k. Мы надеемся, что данное исследование может предоставить понимание и теоретические основы для будущих работ по созданию некомпрессионных визионерских моделей. Код доступен по ссылке https://github.com/wangf3014/Patch_Scaling.
Существующие методы не могут эффективно направлять крупные языковые модели (LLM) между текстовым рассуждением и генерацией кода, что приводит к недостаточному использованию возможностей символьных вычислений. Мы представляем CodeSteer, эффективный метод для направления генерации кода/текста LLM. Мы создаем комплексный бенчмарк SymBench, включающий 37 символьных задач с настраиваемой сложностью, а также синтезируем наборы данных из 12 тыс. траекторий многораундового руководства/генерации и 5,5 тыс. пар сравнения руководства. Мы донастраиваем модель Llama-3-8B с помощью вновь разработанного многораундового обучения с учителем (SFT) и оптимизации прямого предпочтения (DPO). Полученная модель, CodeSteerLLM, дополненная предложенными символьными и самоответными проверками, эффективно направляет генерацию кода/текста более крупных моделей. Дополнение GPT-4o с помощью CodeSteer повышает его средний балл производительности с 53,3 до 86,4, даже превосходя существующие лучшие LLM OpenAI o1 (82,7), o1-preview (74,8) и DeepSeek R1 (76,8) по всем 37 задачам (28 видимых, 9 невидимых). Обученный для GPT-4o, CodeSteer демонстрирует превосходную обобщаемость, обеспечивая среднее увеличение производительности на 41,8 на Claude, Mistral и GPT-3.5. Направляемые CodeSteer LLM полностью используют символьные вычисления для поддержания высокой производительности на сложных задачах. Модели, наборы данных и коды доступны по адресу https://github.com/yongchao98/CodeSteer-v1.0.
Мы представляем Quantized Language-Image Pretraining (QLIP), метод визуальной токенизации, который сочетает качество восстановления современного уровня с пониманием изображений без обучения. QLIP обучает автоэнкодер на основе бинарной сферической квантизации с целями восстановления и выравнивания язык-изображение. Мы первые показываем, что эти две цели не должны противоречить друг другу. Мы динамически балансируем два термина потерь во время обучения и показываем, что двухэтапное обучение эффективно сочетает требования к большим пакетам предварительного обучения изображений и узкое место памяти, накладываемое целью восстановления. Мы подтверждаем эффективность QLIP для мультимодального понимания и генерации изображений под управлением текста с использованием одной модели. В частности, QLIP служит заменой визуального кодера для LLaVA и токенизатора изображений для LlamaGen с сопоставимой или даже лучшей производительностью. Наконец, мы демонстрируем, что QLIP позволяет создать объединенную авторегрессионную модель смешанной модальности для понимания и генерации.
Понимание времени по визуальным представлениям является фундаментальным когнитивным навыком, однако остается вызовом для мультимодальных больших языковых моделей (MLLMs). В данной работе мы исследуем способности MLLMs в интерпретации времени и даты через аналоговые часы и ежегодные календари. Для этого мы подготовили структурированный набор данных, включающий два подмножества: 1) ClockQA, включающий различные типы часов - стандартные, с черным циферблатом, без секундной стрелки, с римскими цифрами и со стрелкой - в паре с вопросами, связанными с временем; и 2) CalendarQA, состоящий из изображений ежегодных календарей с вопросами, охватывающими как широко известные даты (например, Рождество, Новый год), так и вычисленные (например, 100-й или 153-й день года). Мы стремимся проанализировать, как MLLMs могут выполнять визуальное распознавание, числовое рассуждение и временной вывод при представлении данных, связанных с временем. Наши оценки показывают, что несмотря на недавние достижения, надежное понимание времени остается значительным вызовом для MLLMs.
Большие языковые модели (LLM) достигают выдающихся результатов на сложных бенчмарках, которые часто структурированы как задачи выбора ответа на вопросы (QA). Нулевой метод Chain-of-Thought (CoT) повышает рассуждения в LLM, но предоставляет только смутное и общее руководство ("думайте шаг за шагом"). В данной статье представлен метод ARR, интуитивный и эффективный нулевой метод подсказки, который явно включает три ключевых шага в решении задач QA: анализ намерения вопроса, извлечение соответствующей информации и последовательное рассуждение. Обширные эксперименты по разнообразным и сложным задачам QA демонстрируют, что ARR последовательно улучшает Базовый уровень (без подсказок ARR) и превосходит CoT. Абляционные и кейс-исследования дополнительно подтверждают положительный вклад каждого компонента: анализа, извлечения и рассуждения. Следует отметить, что анализ намерения играет важную роль в ARR. Кроме того, обширные оценки по различным размерам моделей, сериям LLM и настройкам генерации укрепляют эффективность, устойчивость и обобщаемость ARR.
Масштабирование данных и вычислений критично для успеха машинного обучения. Однако масштабирование требует предсказуемости: мы хотим, чтобы методы не только хорошо работали с большим объемом вычислений или данных, но и чтобы их производительность была предсказуемой на основе запусков малого масштаба, без проведения экспериментов большого масштаба. В этой статье мы показываем, что методы обучения с подкреплением на основе оценки ценности предсказуемы, несмотря на сообщественные предания о их патологическом поведении. Во-первых, мы показываем, что требования к данным и вычислениям для достижения определенного уровня производительности находятся на фронтире Парето, контролируемом соотношением обновлений к данным (UTD). Оценивая этот фронт, мы можем предсказать требования к данным при увеличении вычислительных ресурсов и требования к вычислениям при увеличении объема данных. Во-вторых, мы определяем оптимальное распределение общего бюджета ресурсов между данными и вычислениями для заданной производительности и используем его для определения гиперпараметров, максимизирующих производительность при заданном бюджете. В-третьих, это поведение масштабирования обеспечивается первоначальной оценкой предсказуемых взаимосвязей между гиперпараметрами, которая используется для управления эффектами переобучения и потери пластичности, уникальных для обучения с подкреплением. Мы проверяем наш подход, используя три алгоритма: SAC, BRO и PQL на платформах DeepMind Control, OpenAI gym и IsaacGym, при экстраполяции к более высоким уровням данных, вычислений, бюджета или производительности.
Точное выравнивание в системах текст-к изображению (Text-to-Image, T2I) имеет решающее значение для обеспечения того, чтобы созданные визуальные образы не только точно отражали намерения пользователя, но также соответствовали строгим этическим и эстетическим стандартам. Инциденты, подобные катастрофе Google Gemini, где неправильное выравнивание привело к значительному общественному негодованию, подчеркивают критическую необходимость надежных механизмов выравнивания. В отличие от этого, Большие Языковые Модели (Large Language Models, LLMs) достигли заметного успеха в области выравнивания. Основываясь на этих достижениях, исследователи стремятся применить аналогичные техники выравнивания, такие как Оптимизация Прямых Предпочтений (Direct Preference Optimization, DPO), к системам T2I для улучшения достоверности и надежности генерации изображений. Мы представляем YinYangAlign, продвинутую систему оценки, которая систематически количественно оценивает достоверность выравнивания систем T2I, учитывая шесть фундаментальных и внутренне противоречивых целей дизайна. Каждая пара представляет собой фундаментальные напряжения в генерации изображений, такие как балансирование соблюдения пользовательских запросов с творческими модификациями или поддержание разнообразия наряду с визуальной последовательностью. YinYangAlign включает подробные наборы аксиом, содержащие человеческие запросы, выровненные (выбранные) ответы, невыровненные (отклоненные) созданные искусственным интеллектом результаты и объяснения основных противоречий.
Мы представляем унифицированную структуру, способную решать широкий спектр задач в трех измерениях. Наш подход включает состояний рекуррентную модель, которая непрерывно обновляет свое представление состояния с каждым новым наблюдением. Учитывая поток изображений, это развивающееся состояние может использоваться для создания метрических точечных карт (точки в 3D на пиксель) для каждого нового входа в режиме онлайн. Эти точечные карты находятся в общей системе координат и могут накапливаться в согласованную, плотную реконструкцию сцены, которая обновляется по мере поступления новых изображений. Наша модель, названная CUT3R (Continuous Updating Transformer for 3D Reconstruction), улавливает богатые априорные знания о реальных сценах: она не только может предсказывать точные точечные карты изображений, но также может выводить невидимые области сцены, исследуя виртуальные, не наблюдаемые виды. Наш метод простой, но очень гибкий, естественно принимает различные длины изображений, которые могут быть как видеопотоками, так и неупорядоченными коллекциями фотографий, содержащими как статический, так и динамический контент. Мы оцениваем наш метод на различных задачах в 3D/4D и демонстрируем конкурентоспособные или передовые результаты в каждой из них. Страница проекта: https://cut3r.github.io/
Кэши семантических подсказок снижают задержку и стоимость вывода больших языковых моделей (LLM), повторно используя закэшированные ответы, сгенерированные LLM, для семантически похожих подсказок. Метрики сходства векторов присваивают числовой балл для количественной оценки сходства между встроенной подсказкой и ее ближайшим соседом в кэше. Существующие системы полагаются на статический порог для классификации того, достаточно ли высок балл сходства для получения попадания в кэш. Мы показываем, что этот универсальный порог недостаточен для различных подсказок. Мы предлагаем VectorQ, фреймворк для изучения областей порогов, специфичных для встраивания, которые адаптируются к сложности и неопределенности встраивания. Через оценки на комбинации четырех разнообразных наборов данных мы показываем, что VectorQ последовательно превосходит современные системы на всех статических порогах, достигая увеличения коэффициента попадания в кэш до 12 раз и снижения коэффициента ошибок до 92%.
В современных рабочих местах встречи являются неотъемлемой частью обмена идеями и обеспечения выравнивания команды, но часто сталкиваются с проблемами, такими как затраты времени, конфликты в расписании и неэффективное участие. Недавние достижения в области Больших Языковых Моделей (БЯМ) продемонстрировали их сильные возможности в генерации естественного языка и рассуждения, порождая вопрос: могут ли БЯМ эффективно делегировать участников на встречах? Для исследования этого вопроса мы разрабатываем прототип системы делегирования на встречах, работающей на основе БЯМ, и создаем комплексный бенчмарк, используя реальные транскрипты встреч. Наша оценка показывает, что GPT-4/4o сохраняют сбалансированную производительность между активными и осторожными стратегиями вовлеченности. В отличие от этого, Gemini 1.5 Pro склонен к более осторожному поведению, в то время как Gemini 1.5 Flash и Llama3-8B/70B проявляют более активные тенденции. В целом, около 60\% ответов содержат хотя бы один ключевой момент из исходной информации. Однако требуются улучшения для сокращения несвязанного или повторяющегося контента и увеличения терпимости к ошибкам транскрипции, которые часто встречаются в реальных условиях. Кроме того, мы реализуем систему в практических условиях и собираем обратную связь из реальных демонстраций. Наши результаты подчеркивают потенциал и вызовы использования БЯМ в качестве делегатов на встречах, предлагая ценные идеи для их практического применения для смягчения бремени встреч.
Мы предлагаем SPARC, легковесную фреймворк для непрерывного обучения больших языковых моделей (LLM), который обеспечивает эффективную адаптацию к задачам через настройку подсказок в пространстве меньшей размерности. Используя метод анализа главных компонент (PCA), мы определяем компактное подпространство обучающих данных. Оптимизация подсказок в этом пространстве меньшей размерности повышает эффективность обучения, поскольку сосредотачивает обновления на наиболее значимых признаках, снижая вычислительные затраты. Более того, поскольку внутренняя структура модели остается неизменной, обширные знания, полученные в процессе предварительного обучения, полностью сохраняются, обеспечивая сохранение ранее усвоенной информации во время адаптации. Наш метод достигает высокой сохраняемости знаний как в нарастающих по задачам, так и в нарастающих по доменам сценариях непрерывного обучения, при этом перенастраивая всего лишь 0,04% параметров модели. Кроме того, интегрируя LoRA, мы улучшаем адаптивность к вычислительным ограничениям, позволяя находить компромисс между точностью и стоимостью обучения. Эксперименты на бенчмарке SuperGLUE показывают, что наша настройка подсказок на основе PCA в сочетании с LoRA сохраняет полное знание, повышая точность и используя всего 1% параметров модели. Эти результаты подтверждают, что наш подход является масштабируемым и ресурсоэффективным решением для непрерывного обучения в LLM.
Автономное краевое вычисление в робототехнике, умных городах и автономных транспортных средствах основано на беспрепятственной интеграции сенсорики, обработки и актуации для принятия решений в реальном времени в динамических средах. В его основе лежит цикл "от сенсорики к действию", который итеративно выравнивает входы сенсоров с вычислительными моделями для управления адаптивными стратегиями контроля. Эти циклы могут адаптироваться к гиперлокальным условиям, улучшая эффективность использования ресурсов и отзывчивость, но также сталкиваются с проблемами, такими как ограничения ресурсов, задержки синхронизации в слиянии данных из нескольких источников и риск каскадных ошибок в обратных связях. В данной статье исследуется, как проактивные, контекстно-ориентированные адаптации от сенсорики к действию и от действия к сенсорике могут улучшить эффективность путем динамической настройки сенсорики и вычислений в зависимости от требований задачи, таких как сенсорика очень ограниченной части окружающей среды и прогнозирование остального. Руководя сенсорикой через действия управления, пути от действия к сенсорике могут улучшить актуальность задачи и использование ресурсов, но они также требуют надежного мониторинга для предотвращения каскадных ошибок и поддержания надежности. Многоагентные циклы сенсорики-действия дополнительно расширяют эти возможности через координированную сенсорику и действия между распределенными агентами, оптимизируя использование ресурсов через сотрудничество. Кроме того, нейроморфное вычисление, вдохновленное биологическими системами, предоставляет эффективную основу для обработки на основе импульсов, событийного управления, что экономит энергию, снижает задержки и поддерживает иерархический контроль, что делает его идеальным для многоагентной оптимизации. В данной статье подчеркивается важность стратегий совместного проектирования "от начала до конца", которые выравнивают алгоритмические модели с аппаратными средствами и динамикой окружающей среды и улучшают взаимосвязи между уровнями для увеличения пропускной способности, точности и адаптивности для энергоэффективной автономности на краю в сложных средах.