Ежедневно отобранные исследовательские статьи по ИИ с переводами
Масштабирование на этапе тестирования - это многообещающий новый подход к языковому моделированию, который использует дополнительные вычислительные ресурсы на этапе тестирования для улучшения производительности. Недавно модель o1 от OpenAI продемонстрировала эту возможность, но не раскрыла свою методологию публично, что привело к множеству попыток репликации. Мы ищем самый простой подход к достижению масштабирования на этапе тестирования и высокой производительности в рассуждениях. Во-первых, мы составляем небольшой набор данных s1K из 1 000 вопросов, сопоставленных с трассировками рассуждений, опираясь на три критерия, которые мы проверяем через абляции: сложность, разнообразие и качество. Во-вторых, мы разрабатываем принудительное ограничение бюджета для контроля вычислительных ресурсов на этапе тестирования путем принудительного завершения процесса мышления модели или увеличения его путем добавления "Wait" несколько раз к генерации модели, когда она пытается завершиться. Это может заставить модель перепроверить свой ответ, часто исправляя неправильные шаги рассуждений. После надзорного донастройки языковой модели Qwen2.5-32B-Instruct на наборе данных s1K и оборудования ее принудительным ограничением бюджета, наша модель s1 превосходит o1-preview на математических вопросах соревнования на 27% (MATH и AIME24). Кроме того, масштабирование s1 с принудительным ограничением бюджета позволяет экстраполировать его производительность без вмешательства на этапе тестирования: с 50% до 57% на AIME24. Наша модель, данные и код открыты для общего доступа на https://github.com/simplescaling/s1.
Мы представляем Reward-Guided Speculative Decoding (RSD) - новую концепцию, направленную на улучшение эффективности вывода в больших языковых моделях (LLMs). RSD синергетически объединяет легковесную рабочую модель с более мощной целевой моделью, включая управляемое смещение для приоритизации высоко-вознаграждаемых результатов, в отличие от существующих методов спекулятивного декодирования, которые настаивают на строгой безпристрастности. RSD использует модель вознаграждения процесса для оценки промежуточных шагов декодирования и динамически принимает решение о вызове целевой модели, оптимизируя баланс между вычислительной стоимостью и качеством вывода. Мы теоретически демонстрируем, что стратегия смешивания на основе порога достигает оптимального баланса между использованием ресурсов и производительностью. Обширные оценки на сложных бенчмарках рассуждения, включая задачи уровня Олимпиады, показывают, что RSD обеспечивает значительное увеличение эффективности по сравнению с декодированием только с использованием целевой модели (до 4,4 раза меньше операций с плавающей запятой), при этом достигая значительно лучшей точности, чем параллельный метод декодирования в среднем (до +3,5). Эти результаты подчеркивают RSD как надежный и экономически эффективный подход для развертывания LLMs в ресурсоемких сценариях.
Методы видео-выделения без вспомогательных данных, которые полагаются исключительно на входные кадры, часто испытывают трудности с комплексными или неоднозначными фонами. Для решения этой проблемы мы предлагаем MatAnyone, надежную структуру, специально разработанную для видео-выделения с назначением цели. Конкретно, опираясь на парадигму, основанную на памяти, мы представляем модуль последовательного распространения памяти через регион-адаптивное слияние памяти, который адаптивно интегрирует память из предыдущего кадра. Это обеспечивает семантическую стабильность в основных областях, сохраняя детали на границах объектов. Для надежного обучения мы представляем большой, высококачественный и разнообразный набор данных для видео-выделения. Кроме того, мы внедряем новую стратегию обучения, которая эффективно использует данные сегментации большого масштаба, повышая стабильность выделения. Благодаря этому новому дизайну сети, набору данных и стратегии обучения MatAnyone обеспечивает надежные и точные результаты видео-выделения в различных реальных сценариях, превосходя существующие методы.
В связи с наличием естественного разрыва между структурами Графа Знаний (Knowledge Graph, KG) и естественным языком, эффективная интеграция всесторонней структурной информации ГЗ с большими языковыми моделями (Large Language Models, LLMs) стала значительным вопросом. В этой связи мы предлагаем двухэтапную структуру для изучения и применения квантованных кодов для каждой сущности с целью безупречной интеграции ГЗ с LLMs. Во-первых, предлагается метод самообучения квантованного представления (Self-Supervised Quantized Representation, SSQR) для сжатия как структурных, так и семантических знаний ГЗ в дискретные коды (токены), соответствующие формату предложений на языке. Далее мы разрабатываем данные по следованию инструкциям ГЗ, рассматривая эти изученные коды как признаки для прямого ввода в LLMs, что позволяет достичь безупречной интеграции. Результаты экспериментов показывают, что SSQR превосходит существующие методы квантования без учителя, производя более различимые коды. Кроме того, донастройка моделей LLaMA2 и LLaMA3.1 также демонстрирует превосходное качество на задачах предсказания связей и классификации троек в ГЗ, используя всего 16 токенов на сущность вместо тысяч в традиционных методах подсказки.
Максимальный элемент вектора, выводимого функцией Softmax, приближается к нулю по мере увеличения размера входного вектора. Языковые модели на основе трансформера полагаются на Softmax для вычисления оценок внимания, что приводит к уплощению распределения внимания по мере увеличения размера контекста. Это снижает способность модели эффективно определять ключевую информацию и потенциально ограничивает ее обобщение на длинные тексты. Для решения этой проблемы мы предлагаем Scalable-Softmax (SSMax), который заменяет Softmax в ситуациях, когда размер входного вектора изменяется. SSMax может быть легко интегрирован в существующие архитектуры на основе трансформера. Экспериментальные результаты в языковом моделировании показывают, что модели, использующие SSMax, не только достигают более быстрого снижения потерь во время предварительного обучения, но также значительно улучшают производительность в длинных контекстах и поиске ключевой информации. Кроме того, анализ оценок внимания показывает, что SSMax позволяет модели сосредотачивать внимание на ключевой информации даже в длинных контекстах. Кроме того, хотя модели, использующие SSMax с самого начала предварительного обучения, демонстрируют лучшее обобщение на длинные тексты, те модели, которые уже начали предварительное обучение, могут приобрести некоторую способность к обобщению, заменив Softmax на SSMax в слоях внимания во время или после предварительного обучения.
Существующие базовые модели обычно обрабатывают визуальный ввод как пиксели и текстовый ввод как токены, парадигма, противопоставленная восприятию человека, где обе модальности обрабатываются единым образом. С появлением инкорпорированных и агентных ИИ, где входные данные в основном поступают от пикселей камеры, становится все более очевидной необходимость в единой модели восприятия. В данной статье мы предлагаем объединить все модальности (текст, таблицы, код, диаграммы, изображения и т. д.) как входные данные в виде пикселей, т. е. "Воспринимать все как пиксели" (PEAP). Мы представляем PixelWorld, новый набор оценочных тестов, который объединяет все упомянутые модальности в пространстве пикселей для оценки производительности существующих моделей. Наши результаты показывают, что (1) PEAP превосходит базовую модель с входными данными на основе токенов в мультимодальных наборах данных, получая преимущество от единого ввода для лучшей дезамбигуации, (2) значительное снижение способностей к рассуждению и кодированию у всех моделей при обработке входных данных на основе пикселей, подчеркивая необходимость улучшения восприятия базовых моделей, (3) более крупные модели могут сохранять высокую производительность на задачах, не требующих рассуждений, в рамках PEAP, в то время как более маленькие модели, такие как Phi-3.5-V, страдают от значительного снижения производительности, (4) паттерн внимания PEAP тесно соотносится с входными данными в виде текстовых токенов, (5) PEAP может быть значительно ускорен за счет использования пространственной разреженности. Мы приходим к выводу, что существующие передовые модели компетентны в восприятии пикселей, однако еще есть место для улучшений. Наш код и набор данных будут опубликованы после принятия.
Способность предсказывать будущие результаты при заданных управляющих действиях является фундаментальной для физического рассуждения. Однако такие предиктивные модели, часто называемые моделями мира, оказались сложными для обучения и обычно разрабатываются для задачно-специфических решений с обучением политики в реальном времени. Мы утверждаем, что истинный потенциал моделей мира заключается в их способности рассуждать и планировать по разнообразным проблемам, используя только пассивные данные. Конкретно, мы требуем, чтобы у моделей мира были следующие три свойства: 1) возможность обучения на оффлайн, заранее собранных траекториях, 2) поддержка оптимизации поведения на этапе тестирования и 3) облегчение задачно-агностического рассуждения. Для реализации этого мы представляем DINO World Model (DINO-WM), новый метод моделирования визуальной динамики без восстановления визуального мира. DINO-WM использует пространственные признаки патчей, предварительно обученные с помощью DINOv2, что позволяет ему учиться на оффлайн поведенческих траекториях путем предсказания будущих признаков патчей. Такой подход позволяет DINO-WM достигать наблюдательных целей через оптимизацию последовательности действий, облегчая планирование поведения без привязки к задаче путем рассмотрения желаемых признаков патчей в качестве целевых для предсказания. Мы оцениваем DINO-WM в различных областях, включая навигацию в лабиринте, толкание по столу и манипулирование частицами. Наши эксперименты показывают, что DINO-WM способен генерировать решения нулевого шага на этапе тестирования без использования экспертных демонстраций, моделирования вознаграждения или предварительно обученных обратных моделей. Особенно стоит отметить, что DINO-WM обладает сильными возможностями обобщения по сравнению с предыдущими передовыми работами, адаптируясь к различным семействам задач, таким как лабиринты произвольной конфигурации, толкание с различными формами объектов и сценарии с несколькими частицами.
Большие языковые модели (LLM) уязвимы для универсальных проникновений, которые систематически обходят защиты модели и позволяют пользователям выполнять вредные процессы, требующие множества взаимодействий с моделью, такие как производство незаконных веществ в масштабе. Для защиты от таких атак мы представляем Конституционные Классификаторы: защиты, обученные на синтетических данных, сгенерированных путем подачи LLM естественноязыковых правил (т. е. конституции), определяющих разрешенное и запрещенное содержание. В течение более чем 3 000 часов оценочных испытаний, ни один участник красной команды не обнаружил универсального проникновения, которое могло бы извлечь информацию из ранее защищенной классификатором LLM на сходном уровне детализации с незащищенной моделью для большинства целевых запросов. При автоматизированных оценках улучшенные классификаторы продемонстрировали надежную защиту от удерживаемых узкоспециализированных проникновений. Эти классификаторы также обеспечивают возможность развертывания, с абсолютным увеличением отказов в производственном трафике на 0,38% и дополнительной нагрузкой на вывод в размере 23,7%. Наша работа показывает, что защита от универсальных проникновений при сохранении практической возможности развертывания является выполнимой.
Модели диффузии, хотя и мощные, могут нежелательно генерировать вредный или нежелательный контент, вызывая значительные этические и безопасностные проблемы. Недавние подходы машинного разучивания предлагают потенциальные решения, но часто лишены прозрачности, что затрудняет понимание внесенных ими изменений в базовую модель. В данной работе мы представляем SAeUron, новый метод, использующий особенности, выученные разреженными автокодировщиками (SAE), для удаления нежелательных концепций в моделях диффузии текста в изображение. Сначала мы демонстрируем, что SAE, обученные без учителя на активациях из нескольких временных шагов денойзинга модели диффузии, захватывают разреженные и интерпретируемые особенности, соответствующие конкретным концепциям. Основываясь на этом, мы предлагаем метод выбора особенностей, который позволяет точные вмешательства в активации модели для блокирования целевого контента, сохраняя общую производительность. Оценка с использованием конкурентного бенчмарка UnlearnCanvas по разучиванию объектов и стилей выделяет передовую производительность SAeUron. Более того, мы показываем, что с помощью одного SAE мы можем одновременно удалять несколько концепций и что, в отличие от других методов, SAeUron смягчает возможность генерации нежелательного контента, даже под атакой злоумышленников. Код и контрольные точки доступны по ссылке: https://github.com/cywinski/SAeUron.
Мы показываем, что графики скорости обучения для тренировки больших моделей ведут себя удивительно похожим образом на границу производительности из теории несглаживающей выпуклой оптимизации. Мы предоставляем границу для постоянного графика с линейным затуханием; в частности, практическая польза затухания отражается в границе из-за отсутствия логарифмических членов. Кроме того, мы показываем, что это удивительно близкое соответствие между теорией оптимизации и практикой может быть использовано для настройки скорости обучения: мы достигаем заметных улучшений при тренировке моделей типа Ллама на 124M и 210M, (i) расширяя график для продолжения обучения с оптимальной скоростью обучения, и (ii) передавая оптимальную скорость обучения между графиками.
Существующие методы реконструкции трёхмерных сцен из разреженных поставленных изображений используют промежуточные трёхмерные представления, такие как нейронные поля, воксельные сетки или трёхмерные гауссианы, для достижения согласованного многокамерного вида сцены и геометрии. В данной статье мы представляем MVGD, архитектуру на основе диффузии, способную к прямому пиксельному созданию изображений и карт глубины с новых точек зрения, учитывая произвольное количество входных видов. Наш метод использует условие raymap как для дополнения визуальных признаков пространственной информацией с различных точек зрения, так и для направления создания изображений и карт глубины с новых видов. Ключевым аспектом нашего подхода является многозадачное создание изображений и карт глубины, используя обучаемые вложения задач для направления процесса диффузии к конкретным модальностям. Мы обучаем эту модель на коллекции более 60 миллионов многокамерных образцов из общедоступных наборов данных и предлагаем техники для обеспечения эффективного и согласованного обучения в таких разнообразных условиях. Мы также предлагаем новую стратегию, которая позволяет эффективное обучение более крупных моделей путем поэтапного донастройки более мелких, с обещающим масштабированием. Через обширные эксперименты мы сообщаем о результатах, превосходящих существующие результаты, в нескольких бенчмарках синтеза новых видов, а также в многокамерной стереофотограмметрии и оценке глубины видео.
Мы проводим эксперименты по изучению влияния увеличения вычислительных ресурсов во время вывода в моделях рассуждений (конкретно в OpenAI o1-preview и o1-mini) на их устойчивость к атакам. Мы обнаружили, что при различных видах атак увеличение вычислительных ресурсов во время вывода приводит к улучшению устойчивости. Во многих случаях (с важными исключениями) доля образцов модели, на которых атака успешна, стремится к нулю по мере увеличения вычислительных ресурсов во время тестирования. Мы не проводим обучение соперничеству для изучаемых задач, а увеличиваем вычислительные ресурсы во время вывода, просто позволяя моделям тратить больше времени на рассуждения, независимо от формы атаки. Наши результаты указывают на потенциал увеличения вычислительных ресурсов во время вывода для улучшения устойчивости к атакам для Больших Языковых Моделей. Мы также исследуем новые атаки, направленные на модели рассуждений, а также ситуации, где увеличение вычислительных ресурсов во время вывода не улучшает надежность, и размышляем о причинах этого, а также способах их решения.
Учитывая недавнее появление нескольких языковых моделей и постоянный спрос на улучшение задач обработки естественного языка, особенно суммаризации, данная работа предоставляет всестороннюю оценку 20 недавних языковых моделей, сосредотачиваясь на более компактных для задачи суммаризации новостей. В данной работе мы систематически тестируем возможности и эффективность этих моделей в суммаризации текстов новостных статей, написанных в различных стилях и представленных в трех различных наборах данных. В частности, мы фокусируемся в данном исследовании на настройках нулевого и малого количества обучающих примеров и применяем надежную методологию оценки, объединяющую различные концепции оценки, включая автоматические метрики, оценку человеком и LLM-в-качестве-судьи. Интересно, что включение демонстрационных примеров в настройке обучения с малым количеством обучающих примеров не улучшило производительность моделей и, в некоторых случаях, даже привело к ухудшению качества сгенерированных резюме. Эта проблема в основном возникает из-за низкого качества золотых резюме, которые использовались в качестве эталонных резюме, что негативно сказывается на производительности моделей. Более того, результаты нашего исследования подчеркивают исключительную производительность GPT-3.5-Turbo и GPT-4, которые в целом доминируют благодаря своим передовым возможностям. Однако среди оцененных общедоступных моделей определенные модели, такие как Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B и Zephyr-7B-Beta, продемонстрировали многообещающие результаты. Эти модели показали значительный потенциал, позиционируя их как конкурентоспособные альтернативы крупным моделям для задачи суммаризации новостей.
Данный документ рассматривает давнюю проблему восстановления трехмерных структур из видео с динамическим содержанием. Существующие подходы к этой проблеме не были разработаны для работы с обычными видеозаписями, сделанными стандартными камерами, или требуют длительного времени оптимизации. С целью значительного улучшения эффективности предыдущих подходов мы представляем TracksTo4D - обучающий подход, который позволяет выводить трехмерную структуру и позиции камеры из динамического контента, полученного из обычных видеозаписей, с использованием единственного эффективного прямого прохода. Для достижения этой цели мы предлагаем работать напрямую с двумерными точечными треками в качестве входных данных и разрабатываем архитектуру, специально предназначенную для обработки двумерных точечных треков. Наша предложенная архитектура разработана с учетом двух ключевых принципов: (1) учитывать встроенные симметрии, присутствующие в данных точечных треков, и (2) предполагать, что шаблоны движения могут быть эффективно представлены с использованием низкорангового приближения. TracksTo4D обучается в ненадзорном режиме на наборе данных обычных видеозаписей, используя только двумерные точечные треки, извлеченные из видео, без какого-либо трехмерного надзора. Наши эксперименты показывают, что TracksTo4D может восстанавливать временное облако точек и позиции камеры базового видео с точностью, сравнимой с передовыми методами, с одновременным значительным снижением времени выполнения на до 95%. Мы также показываем, что TracksTo4D хорошо обобщается на невиденные видеозаписи невиденных семантических категорий на этапе вывода.
Задача общей сегментации изображений с возможностью запроса направлена на достижение сегментации разнообразных образцов в рамках одного описания задачи с использованием только одного общего запроса. Существующие методы используют возможности обобщения моделей видео-языка (VLMs) для вывода индивидуальных запросов из этих общих запросов с целью направлять процесс сегментации. Однако, когда модели видео-языка испытывают трудности с обобщением на некоторые изображения, предсказание индивидуальных запросов становится недостаточным. Для решения этой проблемы мы представляем Индивидуальное Негативное Майнинг для Общей Сегментации с возможностью запроса (INT). Основная идея INT заключается в адаптивном снижении влияния несущественных (негативных) предварительных знаний, а также в увеличении использования наиболее правдоподобных предварительных знаний, выбранных с помощью негативного майнинга с более высоким контрастом, для оптимизации генерации индивидуальных запросов. Конкретно, INT состоит из двух компонентов: (1) генерация индивидуальных запросов, которая постепенно фильтрует неверную информацию при генерации запросов; (2) генерация семантической маски, которая гарантирует, что каждая сегментация изображения соответствует семантике индивидуальных запросов. INT проверяется на шести наборах данных, включая замаскированные объекты и медицинские изображения, демонстрируя его эффективность, устойчивость и масштабируемость.
Для снижения затрат памяти при выводе длинного контекста с использованием больших языковых моделей (LLM) многие недавние работы сосредотачиваются на сжатии ключевого-значения (KV) кэша различных токенов. Однако мы выявляем, что предыдущие методы сжатия KV кэша измеряют важность токена индивидуально, пренебрегая зависимостью между различными токенами в характеристиках реального языка. В свете этого мы представляем ChunkKV, группируя токены в кусок как базовую сжимающую единицу, и сохраняя наиболее информативные семантические куски, отбрасывая менее важные. Более того, замечая, что ChunkKV проявляет более высокую схожесть в сохраненных индексах по различным слоям, мы предлагаем многоразовое использование индексов по слоям для дальнейшего снижения вычислительной нагрузки. Мы оценили ChunkKV на передовых бенчмарках длинного контекста, включая LongBench и Needle-In-A-HayStack, а также на бенчмарках обучения в контексте GSM8K и JailbreakV. Наши эксперименты с настройкой инструкций и многоэтапным рассуждением (O1 и R1) LLM показывают улучшение производительности до 10\% при агрессивных коэффициентах сжатия по сравнению с существующими методами.