Ежедневно отобранные исследовательские статьи по ИИ с переводами
Масштабирование времени тестирования (Test-Time Scaling, TTS) является важным методом для улучшения производительности Больших Языковых Моделей (Large Language Models, LLMs) путем использования дополнительных вычислений во время фазы вывода. Однако текущие исследования не систематически анализируют, как модели политики, модели вознаграждения процесса (Process Reward Models, PRMs) и сложность задачи влияют на TTS. Этот недостаток анализа ограничивает понимание и практическое применение методов TTS. В данной статье мы сосредотачиваемся на двух основных вопросах: (1) Какой оптимальный подход к масштабированию вычислений времени тестирования для различных моделей политики, PRMs и уровней сложности задачи? (2) Насколько дополнительные вычисления могут улучшить производительность LLMs на сложных задачах, и могут ли более маленькие языковые модели превзойти более крупные через этот подход? Проведя комплексные эксперименты на задачах MATH-500 и сложных задачах AIME24, мы пришли к следующим наблюдениям: (1) Оптимальная стратегия вычислений TTS сильно зависит от выбора модели политики, PRM и сложности задачи. (2) С нашей оптимальной стратегией вычислений TTS крайне маленькие модели политики могут превзойти более крупные модели. Например, 1B LLM может превзойти 405B LLM на задаче MATH-500. Более того, как на задаче MATH-500, так и на AIME24, 0.5B LLM превосходит GPT-4o, 3B LLM превосходит 405B LLM, а 7B LLM обгоняет o1 и DeepSeek-R1, обладая более высокой эффективностью вывода. Эти результаты показывают важность адаптации стратегий TTS к конкретным характеристикам каждой задачи и модели, а также указывают на то, что TTS является многообещающим подходом для улучшения рассуждений LLMs.
Существующие подходы к мультиязычной очистке текста осложнены недостатком параллельных мультиязычных наборов данных. В данной работе мы представляем конвейер для создания мультиязычных параллельных данных по очистке текста. Мы также представляем SynthDetoxM, вручную собранный и синтетически созданный мультиязычный набор данных по очистке текста, включающий 16 000 пар предложений высокого качества по очистке текста на немецком, французском, испанском и русском языках. Данные были получены из различных наборов данных оценки токсичности, а затем переписаны с помощью девяти современных открытых LLM в режиме few-shot. Наши эксперименты показывают, что модели, обученные на созданных синтетических наборах данных, имеют превосходное качество по сравнению с моделями, обученными на человеко-размеченном наборе данных MultiParaDetox, даже при ограниченных данных. Модели, обученные на SynthDetoxM, превосходят все оцененные LLM в режиме few-shot. Мы публикуем наш набор данных и код для содействия дальнейшим исследованиям в области мультиязычной очистки текста.
Способности к рассуждению, особенно в решении сложных математических задач, являются ключевыми компонентами общего интеллекта. Недавние достижения частных компаний, такие как модели серии o от OpenAI, позволили сделать значительный прогресс в задачах рассуждения. Однако полные технические детали остаются нераскрытыми, и предполагаемые используемые методы - это только обучение с подкреплением (RL) и длинная цепочка мыслей. В данной статье предлагается новая структура RL, названная OREAL, для достижения предельной производительности в математических задачах рассуждения, где доступны только бинарные исходные вознаграждения. Мы теоретически доказываем, что клонирование поведения на положительных траекториях из лучших N (BoN) выборок достаточно для изучения оптимальной политики с регуляризацией KL в средах с бинарной обратной связью. Эта формулировка также предполагает, что вознаграждения отрицательных образцов должны быть переформированы, чтобы обеспечить согласованность градиента между положительными и отрицательными образцами. Для преодоления долгосрочных трудностей, вызванных разреженными вознаграждениями в RL, которые усугубляются частичной правильностью длинной цепочки мыслей в задачах рассуждения, мы также применяем модель вознаграждения на уровне токенов для выборки важных токенов в траекториях рассуждения для обучения. С помощью OREAL впервые модель 7B может достичь точности 94,0 pass@1 на MATH-500 через RL, что соответствует моделям 32B. OREAL-32B также превосходит предыдущие модели 32B, обученные дистилляцией, с точностью 95,0 pass@1 на MATH-500. Наше исследование также указывает на важность начальных моделей политики и обучающих запросов для RL. Код, модели и данные будут опубликованы для будущих исследований на https://github.com/InternLM/OREAL.
В данной статье мы представляем Курс Глубины, концепцию, которая выделяет, объясняет и решает недавнее наблюдение в современных больших языковых моделях (LLM), где почти половина слоев менее эффективна, чем ожидалось. Сначала мы подтверждаем широкое распространение этого явления среди наиболее популярных семейств LLM, таких как Ллама, Мистраль, ДипСик, и Квен. Наш анализ, как теоретический, так и эмпирический, выявляет, что основной причиной неэффективности глубоких слоев в LLM является широкое использование Предварительной Нормализации Слоя (Pre-LN). В то время как Pre-LN стабилизирует обучение трансформерных LLM, дисперсия его выхода экспоненциально растет с глубиной модели, что нежелательно приводит к тому, что производная глубоких блоков трансформера становится единичной матрицей и, следовательно, практически не способствует обучению. Для преодоления этого недостатка обучения мы предлагаем Масштабирование Нормализации Слоя, которое масштабирует дисперсию выхода нормализации слоя обратно пропорционально квадратному корню его глубины. Это простое изменение смягчает взрыв дисперсии выхода более глубоких слоев трансформера, улучшая их вклад. Наши экспериментальные результаты, охватывающие размеры моделей от 130 миллионов до 1 миллиарда, демонстрируют, что Масштабирование Нормализации Слоя значительно улучшает производительность предварительного обучения LLM по сравнению с Pre-LN. Более того, это улучшение плавно переносится на надзорное дообучение. Все эти приросты можно объяснить тем, что Масштабирование Нормализации Слоя позволяет более глубоким слоям эффективнее вносить свой вклад во время обучения.
Общение на естественном языке является мощным инструментом в многоагентных средах, поскольку позволяет независимым агентам обмениваться информацией в частично наблюдаемых средах и обеспечивает координацию с людьми без предварительного обучения. Однако большинство предыдущих работ ограничены, поскольку либо полагаются на обучение с большим количеством демонстраций от людей, либо не обладают способностью генерировать естественные и полезные стратегии общения. В данной работе мы обучаем языковые модели вести продуктивные дискуссии о своей среде на естественном языке без каких-либо демонстраций от людей. Мы разбиваем проблему коммуникации на прослушивание и высказывание. Наша основная идея заключается в использовании цели агента для предсказания полезной информации о мире в качестве плотного сигнала вознаграждения, направляющего коммуникацию. Конкретно, мы улучшаем навыки прослушивания модели, обучая их предсказывать информацию о среде на основе дискуссий, и одновременно улучшаем навыки высказывания модели с помощью многозадачного обучения с подкреплением, вознаграждая сообщения на основе их влияния на других агентов. Для изучения роли и необходимости коммуникации в сложных социальных средах мы изучаем воплощенную игру в социальное обманывание на основе Among Us, где ключевым вопросом является определение личности противостоящего мошенника. Мы анализируем возникающие поведенческие особенности благодаря нашей технике, такие как обвинения в подозрении и предоставление доказательств, и обнаруживаем, что это позволяет проводить эффективные дискуссии, удваивая показатели побед по сравнению со стандартным обучением с подкреплением. Мы выкладываем наш код и модели по адресу https://socialdeductionllm.github.io/
Квантование весов модели является ключевым для снижения затрат на коммуникацию и вывод больших моделей. Однако квантование моделей, особенно до низких точностей, таких как int4 или int2, требует компромисса в качестве модели; в частности, известно, что int2 серьезно снижает качество модели. В результате практики часто вынуждены поддерживать несколько моделей с разными уровнями квантования или обслуживать одну модель, которая лучше всего удовлетворяет баланс между качеством и задержкой. С другой стороны, целочисленные типы данных, такие как int8, имеют вложенную (Матрешка) структуру, где меньшие целочисленные типы, такие как int4 или int2, вложены в старшие биты. В данной статье предлагается техника квантования Матрешка (MatQuant), новаторская многомасштабная техника квантования, которая решает проблему необходимости нескольких квантованных моделей. Она позволяет обучать и поддерживать только одну модель, которая затем может обслуживаться на разных уровнях точности. Более того, благодаря регуляризации совместного обучения и совместной дистилляции, предоставленной MatQuant, модели точности int2, извлеченные MatQuant, могут быть на 10% более точными, чем стандартное квантование int2 (с использованием техник, таких как QAT или OmniQuant). Это представляет собой значительный прогресс в квантовании моделей, что подтверждается тем, что с тем же подходом модель Gemma-2 9B FFN, квантованная int2, более точна, чем модель Gemma-2 2B FFN, квантованная int8.
Эта статья представляет модель Large Memory (LM2), архитектуру Transformer только для декодера, усовершенствованную дополнительным модулем памяти, которая призвана решить ограничения стандартных Transformer в многошаговом рассуждении, реляционной аргументации и синтезе информации, распределенной по длинным контекстам. Предложенная модель LM2 включает модуль памяти, действующий как хранилище контекстуального представления, взаимодействующее с входными токенами через кросс-внимание и обновляемое через механизмы гейтинга. Для сохранения общих возможностей Transformer, LM2 сохраняет первоначальный поток информации, интегрируя при этом дополнительный путь памяти. Экспериментальные результаты на бенчмарке BABILong показывают, что модель LM2 превосходит как модель с памятью RMT на 37.1%, так и базовую модель Llama-3.2 на 86.3% в среднем по задачам. LM2 обладает исключительными возможностями в многошаговом выводе, числовом рассуждении и ответах на вопросы с большим контекстом. На наборе данных MMLU она достигает улучшения на 5.0% по сравнению с предварительно обученной базовой моделью, демонстрируя, что ее модуль памяти не ухудшает производительность на общих задачах. Кроме того, в нашем анализе мы исследуем интерпретируемость памяти, эффективность модулей памяти и поведение на этапе тестирования. Наши результаты подчеркивают важность явной памяти в улучшении архитектур Transformer.
Большие языковые модели (LLM) сделали значительные успехи в генерации кода и решении задач. В текущих подходах используются внешние инструментальные итеративные отладчики, которые используют обратную связь времени выполнения компилятора или других инструментов для улучшения грубых программ, сгенерированных различными методами. Однако эффективность этих подходов в значительной степени зависит от качества начальной генерации кода, что остается открытой проблемой. В данной статье мы представляем CodeSim, новую многоагентную платформу генерации кода, которая всесторонне решает этапы синтеза программ - планирование, кодирование и отладку - через подход, аналогичный восприятию человека. Поскольку человек проверяет свое понимание любых алгоритмов через визуальное моделирование, CodeSim уникально представляет метод проверки плана и внутренней отладки через пошаговую симуляцию ввода/вывода. Обширные эксперименты на семи сложных конкурентных бенчмарках по решению проблем и синтезу программ демонстрируют выдающиеся возможности генерации кода CodeSim. Наша платформа достигает новых результатов на уровне передовых технологий (прохождение@1) - (HumanEval 95,1%, MBPP 90,7%, APPS 22% и CodeContests 29,1%). Более того, наш метод показывает потенциал для еще большего улучшения при совмещении с внешними отладчиками. Для облегчения дальнейших исследований и разработок в этой области мы открыли исходный код нашей платформы по этой ссылке (https://kagnlp.github.io/codesim.github.io/).
В последнее время наблюдается увеличенный интерес к созданию объединенных моделей мультимодального понимания и генерации, среди которых выделяется модель Show-o, обладающая большим потенциалом как для генерации текста по изображению, так и изображения по тексту. Процесс вывода модели Show-o включает постепенное удаление шума из токенов изображения и авторегрессивную декодирование текстовых токенов, что, к сожалению, приводит к проблемам с эффективностью с обеих сторон. В данной статье представлена модель Show-o Turbo, созданная для преодоления этого разрыва. Сначала мы выявляем объединенную перспективу удаления шума для генерации изображений и текста в модели Show-o на основе параллельного декодирования текстовых токенов. Затем мы предлагаем расширить метод дистилляции согласованности (CD), квалифицированный подход для сокращения процесса удаления шума в моделях диффузии, на мультимодальные траектории удаления шума в модели Show-o. Мы вводим стратегию сегментации траекторий и процедуру обучения по курсу для улучшения сходимости обучения. Эмпирически, в генерации текста по изображению, модель Show-o Turbo показывает оценку GenEval 0.625 за 4 шага выборки без использования руководства без классификатора (CFG), превосходя оригинальную модель Show-o с 8 шагами и CFG; в генерации изображения по тексту, модель Show-o Turbo демонстрирует ускорение в 1.5 раза без значительной потери производительности. Код доступен по ссылке https://github.com/zhijie-group/Show-o-Turbo.
Мы представляем, что иерархическое логико-вероятностное моделирование с использованием масштабирования шаблонов мыслей может эффективно оптимизировать пространство поиска рассуждений и превзойти математические способности мощных LLM, таких как OpenAI o1-preview и DeepSeek V3. Мы обучаем нашу модель ReasonFlux-32B с использованием всего 8 GPU и вводим три инновации: (i) структурированную и универсальную библиотеку шаблонов мыслей, содержащую около 500 высокоуровневых шаблонов мыслей, способных обобщать аналогичные или схожие проблемы рассуждений; (ii) выполнение иерархического обучения с подкреплением на последовательности шаблонов мыслей вместо длинных CoTs, оптимизация базового LLM для планирования оптимальной траектории шаблонов для постепенного решения сложных проблем; (iii) новая система масштабирования вывода, позволяющая иерархическое логико-вероятностное моделирование путем адаптивного масштабирования шаблонов мыслей во время вывода. С последовательностью шаблонов мыслей на траектории шаблонов наш ReasonFlux-32B значительно продвигает математические способности рассуждений на уровень передовых технологий. Заметно, на тесте MATH достигается точность 91,2%, превосходя o1-preview на 6,7%. На тесте USA Math Olympiad (AIME) ReasonFlux-32B решает в среднем 56,7% задач, превосходя o1-preview и DeepSeek-V3 на 27% и 45% соответственно. Код: https://github.com/Gen-Verse/ReasonFlux
Ускорение вывода в больших языковых моделях (LLM) критично для взаимодействия в реальном времени, поскольку они широко внедрены в услуги реального мира. Спекулятивное декодирование, полностью алгоритмическое решение, привлекло внимание как способ улучшения скорости вывода путем составления и проверки токенов, что позволяет генерировать несколько токенов за один проход. Однако текущие стратегии составления обычно требуют значительной настройки или имеют неустойчивую производительность в различных задачах. Для решения этих проблем мы предлагаем Иерархическое Составление (HD), новый метод составления без потерь, который организует различные источники токенов в несколько баз данных в иерархической структуре на основе временной локальности. На этапе составления HD последовательно обращается к нескольким базам данных для получения черновых токенов от наивысшей к наименьшей локальности, обеспечивая последовательное ускорение в различных задачах и минимизируя задержку составления. Наши эксперименты на Spec-Bench с использованием LLM с параметрами 7B и 13B показывают, что HD превосходит существующие методы составления баз данных, достигая надежного ускорения вывода при различных размерах моделей, задачах и температурах.
Агенты с Большой Языковой Моделью (LLM) продемонстрировали замечательные возможности в автоматизации задач и интеллектуальном принятии решений, способствуя широкому распространению фреймворков разработки агентов, таких как LangChain и AutoGen. Однако эти фреймворки в основном обслуживают разработчиков с обширными техническими навыками - значительное ограничение, учитывая, что только 0,03% населения мира обладает необходимыми навыками программирования. Этот явный разрыв в доступности поднимает фундаментальный вопрос: можем ли мы дать возможность каждому, независимо от технического фона, создавать своих собственных агентов LLM, используя только естественный язык? Для решения этой проблемы мы представляем MetaChain - полностью автоматизированный и высоко саморазвивающийся фреймворк, который позволяет пользователям создавать и развертывать агентов LLM только с помощью естественного языка. Действуя как автономная Операционная Система Агента, MetaChain включает четыре ключевых компонента: i) Утилиты Системы Агента, ii) Движок Действий на основе LLM, iii) Самоуправляемая Файловая Система и iv) Модуль Пользовательской Настройки Агента Самоигры. Эта легкая, но мощная система обеспечивает эффективное и динамичное создание и модификацию инструментов, агентов и рабочих процессов без необходимости программирования или ручного вмешательства. Помимо возможностей разработки агентов без кода, MetaChain также служит универсальной мультиагентной системой для Генеральных ИИ-помощников. Комплексные оценки на бенчмарке GAIA демонстрируют эффективность MetaChain в общих мультиагентных задачах, превосходя существующие передовые методы. Более того, возможности MetaChain, связанные с Поисково-Улучшенной Генерацией (RAG), показали последовательно более высокую производительность по сравнению с многими альтернативными решениями на основе LLM.
Недавние достижения утвердили Диффузионные Трансформеры (DiTs) как доминирующую концепцию в генеративном моделировании. На основе этого успеха Lumina-Next достигает исключительной производительности в создании фотореалистичных изображений с помощью Next-DiT. Однако его потенциал для генерации видео остается в значительной степени неиспользованным из-за значительных проблем в моделировании пространственно-временной сложности, присущей видеоданным. Для решения этой проблемы мы представляем Lumina-Video, концепцию, которая использует преимущества Next-DiT, внедряя специализированные решения для синтеза видео. Lumina-Video включает в себя архитектуру Мультимасштабного Next-DiT, которая совместно обучает несколько патчификаций для улучшения как эффективности, так и гибкости. Дополнительно, интегрируя оценку движения в качестве явного условия, Lumina-Video также обеспечивает прямое управление динамической степенью созданных видеороликов. В сочетании с пошаговой схемой обучения с постепенным увеличением разрешения и кадров в секунду, а также с многоканальной схемой обучения с использованием смешанных естественных и синтетических данных, Lumina-Video достигает выдающегося качества изображения и плавности движения при высокой эффективности как во время обучения, так и вывода. Кроме того, мы предлагаем Lumina-V2A, модель видео-к-аудио на основе Next-DiT, для создания синхронизированных звуков для созданных видеороликов. Коды доступны по ссылке https://www.github.com/Alpha-VLLM/Lumina-Video.
Существующие модели видео-языкового восприятия без кодировщика (VLM) быстро сокращают разрыв в производительности по сравнению с моделями на основе кодировщика, подчеркивая перспективный потенциал объединенных мультимодальных систем с простой структурой и эффективным развертыванием. Мы систематически проясняем разрыв в производительности между VLM, использующими предварительно обученные видео-кодировщики, дискретные токенизаторы и минималистические визуальные слои с нуля, глубоко исследуя малоизученные характеристики моделей VLM без кодировщика. Мы разрабатываем эффективные стратегии для моделей VLM без кодировщика, которые не уступают основным моделям на основе кодировщика. После тщательного исследования мы запускаем EVEv2.0, новое и улучшенное семейство моделей VLM без кодировщика. Мы показываем, что: (i) Правильное декомпозирование и иерархическое ассоциирование видения и языка в рамках единой модели снижает взаимное влияние между модальностями. (ii) Хорошо спроектированная стратегия обучения обеспечивает эффективную оптимизацию для моделей VLM без кодировщика. Через обширное оценивание наш EVEv2.0 представляет собой всестороннее исследование разработки архитектуры только с декодером через модальности, демонстрируя превосходную эффективность данных и сильные возможности визионно-рассуждательного обучения. Код общедоступен по адресу: https://github.com/baaivision/EVE.
Метод руководства без классификатора (CFG) является ключевой техникой для улучшения условной генерации в моделях диффузии, обеспечивая более точное управление и повышая качество выборки. Естественно расширить эту технику на видео-диффузию, которая генерирует видео в зависимости от переменного количества контекстных кадров, совокупно называемых историей. Однако мы выявляем две ключевые проблемы при руководстве переменной длиной истории: архитектуры, поддерживающие только условное фиксированное размерное обучение, и эмпирическое наблюдение, что история в стиле CFG плохо справляется с отсевом. Для решения этой проблемы мы предлагаем Трансформер Диффузии Принуждения (DFoT), архитектуру видео-диффузии и теоретически обоснованную целевую функцию обучения, которые совместно позволяют условие на гибкое количество кадров истории. Затем мы представляем Руководство Историей, семейство методов руководства, уникально активируемых DFoT. Мы показываем, что его самая простая форма, ванильное руководство историей, уже значительно улучшает качество генерации видео и временную последовательность. Более продвинутый метод, руководство историей в разные моменты времени и частоты, дополнительно улучшает динамику движения, обеспечивает композиционную обобщенность для истории вне распределения и может стабильно создавать очень длинные видео. Веб-сайт: https://boyuan.space/history-guidance
Большие модели видео-языкового взаимодействия (LVLM) могут эффективно рассуждать как над текстовыми, так и над визуальными данными, однако они имеют тенденцию генерировать синтаксически связанный, но не имеющий визуальной основы контент. В данной статье мы исследуем внутреннюю динамику генерации контента, изучая ранжировку логитов токенов на протяжении процесса генерации, раскрывая три ключевых паттерна в обработке информации LVLM: (1) постепенная потеря визуальной информации - токены с визуальной основой постепенно теряют предпочтение на протяжении генерации, и (2) раннее возбуждение - семантически значимые токены достигают пика активации на более ранних слоях, чем на последнем слое. (3) скрытая подлинная информация - токены с визуальной основой, хотя и не выбираются в конечном итоге, все еще сохраняют относительно высокие ранжировки на этапе вывода. Основываясь на этих наблюдениях, мы предлагаем VISTA (Управление визуальной информацией с дополнением токен-логитов), фреймворк вмешательства в процесс вывода без обучения, который снижает генерацию контента без визуальной основы и способствует подлинной информации. VISTA работает путем комбинирования двух взаимодополняющих подходов: усиление визуальной информации в пространстве активации и использование активаций на ранних слоях для способствования семантически значимой декодировке. По сравнению с существующими методами, VISTA не требует внешнего контроля и применим к различным стратегиям декодирования. Обширные эксперименты показывают, что VISTA в среднем снижает генерацию контента без визуальной основы на 40% в рамках оценочной задачи генерации открытого текста и последовательно превосходит существующие методы на четырех тестовых наборах данных по четырем архитектурам при трех стратегиях декодирования.
Персонализированная генерация достигла значительного прогресса в синтезе изображений, однако персонализированная генерация видео остается сложной из-за временных несоответствий и деградации качества. В данной статье мы представляем CustomVideoX, инновационную структуру, использующую видео-трансформер для персонализированной генерации видео из исходного изображения. CustomVideoX опирается на предварительно обученные видео-сети, обучая исключительно параметры LoRA для извлечения характеристик исходного изображения, обеспечивая при этом эффективность и адаптивность. Для облегчения бесшовного взаимодействия между исходным изображением и видео-контентом мы предлагаем 3D Reference Attention, позволяющий прямое и одновременное взаимодействие характеристик исходного изображения со всеми кадрами видео по пространственным и временным измерениям. Для смягчения чрезмерного влияния характеристик исходного изображения и текстового руководства на сгенерированный видео-контент во время вывода мы реализуем стратегию Time-Aware Reference Attention Bias (TAB), динамически модулируя смещение внимания к исходному изображению на различных временных шагах. Кроме того, мы представляем модуль Entity Region-Aware Enhancement (ERAE), выравнивающий высокоактивированные области ключевых сущностей с инъекцией характеристик исходного изображения путем корректировки смещения внимания. Для тщательной оценки персонализированной генерации видео мы создаем новый бенчмарк, VideoBench, включающий более 50 объектов и 100 подсказок для обширной оценки. Экспериментальные результаты показывают, что CustomVideoX значительно превосходит существующие методы по показателям согласованности и качества видео.
Несмотря на перспективу синтеза видеороликов высокой точности, Диффузионные Трансформеры (DiTs) с трехмерным полным вниманием страдают от дорогостоящего вывода из-за сложности вычислений внимания и многочисленных этапов выборки. Например, популярная модель Open-Sora-Plan требует более 9 минут для создания одного видеоролика из 29 кадров. В данной статье рассматривается проблема неэффективности с двух сторон: 1) Обрезка трехмерного полного внимания на основе избыточности в видеоданных; Мы выявляем распространенный повторяющийся плиточный образец в трехмерных картах внимания для видеоданных и предлагаем новое семейство разреженного трехмерного внимания, имеющее линейную сложность относительно количества кадров видео. 2) Сокращение процесса выборки путем применения существующей дистилляции согласованности на нескольких этапах; Мы разбиваем всю траекторию выборки на несколько сегментов и проводим дистилляцию согласованности в каждом из них для активации возможностей генерации на несколько шагов. Мы также разрабатываем трехэтапный пайплайн обучения для объединения низкосложного внимания и возможностей генерации на несколько шагов. Особенно стоит отметить, что с использованием 0.1% предварительных данных мы превратили модель Open-Sora-Plan-1.2 в эффективную, которая работает в 7.4-7.8 раз быстрее для создания видео 720p из 29 и 93 кадров с незначительным снижением производительности в VBench. Кроме того, мы демонстрируем, что наш подход подходит для распределенного вывода, достигая дополнительного ускорения в 3.91 раза при работе на 4 GPU с параллелизмом последовательности.
Преобладающий подход к обучению агентов веб-навигации заключается в сборе демонстраций от людей для набора популярных веб-сайтов и ручных задач, однако становится очевидным, что данные людей являются неэффективным ресурсом. Мы разработали конвейер для облегчения обучения агентов в Интернете без трудоемких аннотаций людей. На первом этапе LLM генерирует задачи для 150 тыс. разнообразных веб-сайтов. На следующем этапе агенты LLM выполняют задачи и формируют траектории. На заключительном этапе LLM проверяет траектории и оценивает их успешность. Языковые модели конкурентоспособны с аннотаторами людей, обнаруживая и фильтруя вредный контент с точностью 97%, генерируя выполнимые задачи с частотой 89% и оценивая успешные траектории с точностью 82,6%. Масштабируя конвейер, агенты на основе Llama 3.1 70B решают 16,7% задач для 150 тыс. сайтов. Обучение на данных, сгенерированных нашим конвейером, конкурентоспособно с обучением на демонстрациях людей. В условиях ограниченных данных, полученных из Mind2Web и WebLINX, мы улучшаем точность шага на +89,5% и +122,1% соответственно для агентов, обученных на смесях данных из нашего конвейера и данных людей. При обучении агентов на всех доступных данных людей из этих бенчмарков, агенты не могут обобщаться на разнообразные реальные сайты, и добавление наших данных улучшает их обобщение на +149,0% для WebLINX и +156,3% для Mind2Web. Код будет доступен по адресу: data-for-agents.github.io.
Недавние достижения в оптимизации предпочтений человека, изначально разработанные для моделей больших языков (LLM), показали значительный потенциал в улучшении моделей диффузии текста в изображения. Эти методы направлены на изучение распределения предпочтительных образцов, отличая их от менее предпочтительных. Однако существующие наборы данных предпочтений часто имеют перекрытие между этими распределениями, что приводит к конфликтному распределению. Кроме того, мы выявили, что входные подсказки содержат несущественную информацию для менее предпочтительных изображений, что ограничивает способность сети денойзинга точно предсказывать шум в методах оптимизации предпочтений, известную как проблема несущественной подсказки. Для решения этих проблем мы предлагаем метод двойной оптимизации предпочтений подписей (DCPO), новый подход, использующий две различные подписи для смягчения несущественных подсказок. Для борьбы с конфликтным распределением мы представляем набор данных Pick-Double Caption, модифицированную версию Pick-a-Pic v2 с отдельными подписями для предпочтительных и менее предпочтительных изображений. Мы также предлагаем три различные стратегии для генерации различных подписей: подписывание, возмущение и гибридные методы. Наши эксперименты показывают, что DCPO значительно улучшает качество изображения и его соответствие подсказкам, превосходя Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO и MaPO по нескольким метрикам, включая Pickscore, HPSv2.1, GenEval, CLIPscore и ImageReward, донастроенные на SD 2.1 в качестве основы.
Генерация 3D из текста автоматизирует создание 3D контента на основе текстовых описаний, что предлагает трансформационный потенциал в различных областях. Однако существующие методы часто испытывают трудности с согласованием созданного контента с предпочтениями людей, что ограничивает их применимость и гибкость. Для решения этих ограничений в данной статье мы предлагаем DreamDPO, оптимизационную платформу, которая интегрирует предпочтения людей в процесс генерации 3D с помощью прямой оптимизации предпочтений. Практически DreamDPO сначала создает попарные примеры, затем сравнивает их соответствие предпочтениям людей с использованием вознаграждения или больших мультимодальных моделей, и в конечном итоге оптимизирует 3D представление с помощью функции потерь, управляемой предпочтениями. Используя попарное сравнение для отражения предпочтений, DreamDPO снижает зависимость от точных оценок качества в точке, обеспечивая тонкую управляемость через оптимизацию, управляемую предпочтениями. Эксперименты показывают, что DreamDPO достигает конкурентоспособных результатов и обеспечивает более высококачественный и управляемый 3D контент по сравнению с существующими методами. Код и модели будут опубликованы в открытом доступе.
Техники генерации с увеличением контекста (CAG), включая RAG и ICL, требуют эффективного объединения нескольких контекстов для генерации ответов на запросы пользователей. Прямое ввод контекстов в виде последовательности вносит значительную вычислительную нагрузку, поскольку требуется повторное кодирование объединенного выбора контекстов для каждого запроса. Для решения этой проблемы мы исследуем перспективный потенциал параллельного кодирования для независимого предварительного вычисления и кэширования состояний KV каждого контекста. Этот подход позволяет непосредственно загружать кэшированные состояния во время вывода, обеспечивая повторное использование позиций среди контекстов. Однако из-за несоответствий в распределении внимания прямое применение параллельного кодирования приводит к значительному снижению производительности. Для обеспечения эффективного и эффективного CAG мы предлагаем Адаптивное Параллельное Кодирование (APE), которое внедряет общий префикс, температуру внимания и коэффициент масштабирования для согласования распределения параллельного кодирования с последовательным кодированием. Результаты на задачах RAG и ICL показывают, что APE может сохранить производительность последовательного кодирования на уровне 98% и 93%, используя те же входные данные, превзойдя при этом параллельное кодирование на 3.6% и 7.9% соответственно. Он также масштабируется для обработки многократного CAG, эффективно кодируя сотни контекстов параллельно. Оценка эффективности показывает, что APE может достичь ускорения в 4.5 раза на конечном этапе, сокращая время предварительной загрузки в 28 раз для контекста длиной 128 тыс. символов.
Steel-LLM - это китайско-центричная языковая модель, разработанная с нуля с целью создания качественной модели с открытым исходным кодом при ограниченных вычислительных ресурсах. Запущенный в марте 2024 года, проект нацелен на обучение модели с 1 миллиардом параметров на крупномасштабном наборе данных, уделяя приоритет прозрачности и обмену практическими идеями для помощи другим участникам сообщества. Процесс обучения в основном сосредоточен на китайских данных, с небольшой долей английских данных, что позволяет заполнить пробелы в существующих открытых языковых моделях путем предоставления более подробного и практического описания пути построения модели. Steel-LLM продемонстрировал конкурентоспособную производительность на бенчмарках, таких как CEVAL и CMMLU, превзойдя ранние модели от крупных учреждений. В данной статье представлены подробные выводы о ключевых вкладах проекта, включая сбор данных, конструкцию модели, методики обучения и проблемы, возникшие по пути, предлагая ценный ресурс для исследователей и практиков, желающих разработать собственные языковые модели. Чекпоинты модели и скрипт обучения доступны по ссылке https://github.com/zhanshijinwat/Steel-LLM.
Спекулятивное декодирование (SD) ускоряет вывод больших языковых моделей, используя более компактную рабочую модель для предсказания нескольких токенов, которые затем проверяются параллельно более крупной целевой моделью. Однако ограниченная емкость рабочей модели часто требует использования деревянной выборки для улучшения точности прогнозирования, где на каждом шаге генерируется несколько кандидатов. Мы выявляем ключевое ограничение этого подхода: кандидаты на одном и том же шаге происходят из одного и того же представления, что ограничивает разнообразие и снижает общую эффективность. Для решения этой проблемы мы предлагаем Jakiro, использующий Смесь Экспертов (MoE), где независимые эксперты генерируют разнообразные прогнозы, эффективно разрывая корреляции между кандидатами. Кроме того, мы представляем гибридную стратегию вывода, объединяющую авторегрессионное декодирование для начальных токенов с параллельным декодированием для последующих этапов, и улучшаем последнее с помощью контрастного механизма в признаках для повышения точности. Наш метод значительно повышает точность прогнозирования и достигает более высоких ускорений вывода. Обширные эксперименты с различными моделями подтверждают эффективность и надежность нашего подхода, устанавливая новый SOTA в спекулятивном декодировании. Наш код доступен по адресу https://github.com/haiduo/Jakiro.
Модели роботов, зависящие от языка, имеют потенциал позволить роботам выполнять широкий спектр задач на основе естественноязыковых инструкций. Однако оценка их безопасности и эффективности остаётся сложной из-за трудностей в тестировании всех различных способов формулировки одной задачи. Текущие бенчмарки имеют два ключевых ограничения: они опираются на ограниченный набор инструкций, созданных людьми, упуская множество сложных случаев, и сосредотачиваются только на выполнении задач без оценки безопасности, такой как избегание повреждений. Для решения этих пробелов мы представляем метод оценки под названием Embodied Red Teaming (ERT), который генерирует разнообразные и сложные инструкции для тестирования этих моделей. ERT использует автоматизированные техники красной команды с использованием моделей Vision Language (VLM), чтобы создавать контекстуально обоснованные, сложные инструкции. Экспериментальные результаты показывают, что современные модели роботов, зависящие от языка, терпят неудачу или ведут себя небезопасно на инструкциях, сгенерированных ERT, подчёркивая недостатки текущих бенчмарков в оценке производительности и безопасности в реальном мире. Код и видео доступны по ссылке: https://s-karnik.github.io/embodied-red-team-project-page.
Разработка надежных стандартов безопасности для больших языковых моделей требует открытых, воспроизводимых наборов данных, способных измерить как адекватное отклонение от вредного контента, так и потенциальное чрезмерное ограничение легитимного научного дискурса. Мы представляем набор данных и тестовую среду с открытым исходным кодом для оценки механизмов безопасности LLM по запросам, связанным в основном с контролируемыми веществами, анализируя ответы четырех основных моделей на систематически изменяемые подсказки. Наши результаты показывают различные профили безопасности: Claude-3.5-sonnet продемонстрировал наиболее консервативный подход с 73% отказов и 27% разрешений, в то время как Mistral пытался ответить на 100% запросов. GPT-3.5-turbo показал умеренное ограничение с 10% отказов и 90% разрешений, а Grok-2 зарегистрировал 20% отказов и 80% разрешений. Тестирование стратегий изменения подсказок показало снижение согласованности ответов с 85% при одиночных подсказках до 65% при пяти вариациях. Этот общедоступный стандарт позволяет систематически оценивать критический баланс между необходимыми ограничениями безопасности и потенциальным чрезмерным цензурированием легитимного научного исследования, обеспечивая основу для измерения прогресса в реализации безопасности искусственного интеллекта. Анализ цепочки мыслей выявляет потенциальные уязвимости в механизмах безопасности, подчеркивая сложность внедрения надежных механизмов защиты без чрезмерного ограничения желательного и допустимого научного дискурса.