Ежедневно отобранные исследовательские статьи по ИИ с переводами
Несмотря на огромные недавние успехи, генеративные видеомодели все еще испытывают трудности в воссоздании движения, динамики и физики реального мира. Мы показываем, что эта ограниченность происходит из-за традиционной цели восстановления пикселей, которая склоняет модели к сохранению внешнего вида за счет согласованности движения. Для решения этой проблемы мы представляем VideoJAM, новую структуру, которая внедряет эффективный приоритет движения для видеогенераторов, поощряя модель к изучению совместного представления внешнего вида и движения. VideoJAM состоит из двух взаимодополняющих блоков. Во время обучения мы расширяем цель до предсказания как сгенерированных пикселей, так и их соответствующего движения из одного изученного представления. Во время вывода мы внедряем Inner-Guidance, механизм, направляющий генерацию к согласованному движению, используя собственное прогнозирование движения модели в качестве динамического сигнала руководства. Значительно, наша структура может быть применена к любой видеомодели с минимальными адаптациями, не требуя изменений в обучающих данных или масштабирования модели. VideoJAM достигает передовой производительности в согласованности движения, превосходя высококонкурентные собственные модели, улучшая воспринимаемое визуальное качество генераций. Эти результаты подчеркивают, что внешний вид и движение могут быть взаимодополняющими и, когда эффективно интегрированы, улучшают как визуальное качество, так и согласованность генерации видео. Веб-сайт проекта: https://hila-chefer.github.io/videojam-paper.github.io/
Большинство прогресса в недавних моделях кодировщиков было обусловлено надзорным донастройкой (SFT), в то время как потенциал обучения с подкреплением (RL) остается в значительной степени неисследованным, в первую очередь из-за отсутствия надежных данных/модели вознаграждения в области кода. В данной статье мы решаем эту проблему, используя автоматизированный синтез тест-кейсов в большом масштабе для улучшения обучения моделей кода. Конкретно, мы разрабатываем конвейер, который генерирует обширные пары (вопрос, тест-кейсы) из существующих данных кода. Используя эти тест-кейсы, мы создаем пары предпочтения на основе процентов прохождения отобранных программ для обучения моделей вознаграждения с потерями Брэдли-Терри. Это показывает среднее улучшение на 10 пунктов для Llama-3.1-8B-Ins и на 5 пунктов для Qwen2.5-Coder-7B-Ins через лучший из 32 отборов, делая модель 7B на уровне с 236B DeepSeek-V2.5. Кроме того, мы проводим обучение с подкреплением с использованием обеих моделей вознаграждения и вознаграждений за прохождение тест-кейсов, что приводит к последовательному улучшению по метрикам HumanEval, MBPP, BigCodeBench и LiveCodeBench (V4). Заметно, что мы следуем обучению в стиле R1, начиная с Qwen2.5-Coder-base напрямую, и показываем, что наше обучение с подкреплением может улучшить модель на HumanEval-plus более чем на 25\% и на MBPP-plus на 6\% всего за 80 шагов оптимизации. Мы считаем, что наши результаты подчеркивают огромный потенциал обучения с подкреплением в моделях кодировщиков.
Обучение моделей диффузионных мостов несложно; сделать их быстрыми и практичными - это искусство. Модели диффузионных мостов (DBM) представляют собой многообещающее расширение моделей диффузии для применения в задачах перевода изображений. Однако, как и многие современные модели диффузии и потока, DBM страдают от проблемы медленного вывода. Для ее решения мы предлагаем новый метод дистилляции на основе формулировки обратного соответствия моста и выводим осуществимую цель для ее практического решения. В отличие от ранее разработанных методов дистилляции DBM, предложенный метод может дистиллировать как условные, так и безусловные типы DBM, дистиллировать модели в одношаговом генераторе и использовать только поврежденные изображения для обучения. Мы оцениваем наш подход как для условных, так и для безусловных типов соответствия мостов на широком наборе настроек, включая суперразрешение, восстановление JPEG, перевод скетчей в изображения и другие задачи, и показываем, что наш метод дистилляции позволяет ускорить вывод DBM с 4x до 100x и даже обеспечить лучшее качество генерации, чем используемая учителем модель, в зависимости от конкретной настройки.
Большие языковые модели (LLM) продемонстрировали выдающиеся способности к рассуждениям в различных областях. Недавние исследования показали, что увеличение вычислительной сложности во время тестирования улучшает способности LLM к рассуждениям. Обычно это включает обширную выборку во время вывода, управляемую внешним верификатором LLM, что приводит к двухигровой системе. Несмотря на внешнее руководство, эффективность этой системы демонстрирует потенциал одиночной LLM для решения сложных задач. Таким образом, мы ставим новую исследовательскую задачу: можем ли мы внутренне усилить возможности поиска для фундаментального улучшения способностей к рассуждениям одиночной LLM? В данной работе исследуется ортогональное направление, сосредотачиваясь на LLM после обучения для авторегрессивного поиска (т.е. расширенного процесса рассуждений с саморефлексией и самоисследованием новых стратегий). Для достижения этой цели мы предлагаем формат рассуждения Цепочка-Действие-Мысль (COAT) и двухэтапную парадигму обучения: 1) этап настройки формата малого масштаба для внутреннего усвоения формата рассуждения COAT и 2) этап самосовершенствования большого масштаба с использованием обучения с подкреплением. Наш подход привел к созданию Satori, LLM на 7 миллиардов параметров, обученной на моделях и данных с открытым исходным кодом. Обширные эмпирические оценки показывают, что Satori достигает передового уровня производительности на математических бенчмарках по рассуждениям, проявляя сильную обобщаемость к задачам вне области применения. Код, данные и модели будут полностью открыты для общего доступа.
Языковые агенты стали многообещающим решением для выполнения сложных интерактивных задач. Одним из ключевых элементов успеха языковых агентов является модель вознаграждения на траектории агентного рабочего процесса, которая обеспечивает ценное руководство во время обучения или вывода. Однако из-за отсутствия аннотаций промежуточных взаимодействий большинство существующих работ используют модель исходного вознаграждения для оптимизации политик на всей траектории. Это может привести к субоптимальным политикам и затруднить общую производительность. Для решения этой проблемы мы предлагаем QLASS (Q-управляемый поиск шаг за шагом языкового агента), чтобы автоматически генерировать аннотации путем оценки Q-значений пошагово для открытых языковых агентов. Вводя дерево рассуждений и выполняя моделирование процесса вознаграждения, QLASS обеспечивает эффективное промежуточное руководство для каждого шага. С пошаговым руководством мы предлагаем стратегию генерации, управляемую Q, чтобы позволить языковым агентам лучше адаптироваться к долгосрочной ценности, что приводит к значительному улучшению производительности во время вывода модели на сложных интерактивных задачах агента. Особенно стоит отметить, что даже с почти половиной аннотированных данных QLASS сохраняет высокую производительность, демонстрируя свою эффективность в обработке ограниченного наблюдения. Мы также эмпирически демонстрируем, что QLASS может привести к более эффективному принятию решений через качественный анализ. Мы опубликуем наш код и данные.
Данная статья исследует малоисследованное вызов в больших языковых моделях (LLM): влияние методов сжатия кэша KV на фундаментальные возможности LLM. В то время как существующие методы достигают впечатляющих коэффициентов сжатия на бенчмарках с длинным контекстом, их воздействие на основные возможности модели остается малоизученным. Мы представляем комплексное эмпирическое исследование, оценивающее ведущие методы сжатия кэша KV на различных задачах, охватывающих мировые знания, здравый смысл, арифметическое рассуждение, генерацию кода, безопасность, понимание и генерацию длинного контекста. Наш анализ показывает, что методы сжатия кэша KV проявляют деградацию производительности, зависящую от задачи. Задачи арифметического рассуждения оказываются особенно чувствительными к агрессивному сжатию, с различными методами, показывающими снижение производительности на уровне 17,4%-43,3%. Заметно, что модель DeepSeek R1 Distill обладает более устойчивой толерантностью к сжатию по сравнению с моделями, настроенными на инструкции, показывая лишь 9,67%-25,53% деградации производительности. На основе нашего анализа образцов внимания и производительности сжатия между задачами мы предлагаем ShotKV, новый подход к сжатию, который отлично обрабатывает фазы предварительного заполнения и декодирования, сохраняя семантическую согласованность на уровне образца. Эмпирические результаты показывают, что ShotKV достигает улучшения производительности на уровне 9%-18% на задачах генерации длинного контекста при агрессивных коэффициентах сжатия.
Совмещение результатов из различных источников - простой, но эффективный подход для улучшения производительности. Смесь агентов (MoA) - один из таких популярных методов ансамбля, который агрегирует результаты из нескольких различных крупных языковых моделей (LLM). В данной статье поднимается вопрос в контексте языковых моделей: действительно ли смешивание различных LLM полезно? Мы предлагаем Self-MoA - метод ансамбля, который агрегирует результаты только от одной лучшей LLM. Наши обширные эксперименты показывают, что, удивительным образом, Self-MoA превосходит стандартный MoA, который смешивает различные LLM, во многих сценариях: Self-MoA достигает улучшения на 6.6% по сравнению с MoA на бенчмарке AlpacaEval 2.0, и в среднем на 3.8% по различным бенчмаркам, включая MMLU, CRUX и MATH. Применение Self-MoA к одной из лучших моделей в AlpacaEval 2.0 напрямую приводит к новому рекордному результату в рейтинге. Для понимания эффективности Self-MoA мы систематически исследуем компромисс между разнообразием и качеством результатов в различных настройках MoA. Мы подтверждаем, что производительность MoA довольно чувствительна к качеству, и смешивание различных LLM часто снижает среднее качество моделей. Для дополнения исследования мы выявляем сценарии, в которых смешивание различных LLM может быть полезным. В данной статье также представлена последовательная версия Self-MoA, способная агрегировать большое количество результатов LLM на лету за несколько раундов, и также эффективная, как агрегирование всех результатов сразу.
Несмотря на значительный прогресс в моделях генерации текста в изображения, они подвержены атакам злоумышленников и случайно создают небезопасный, неэтичный контент. Существующие подходы часто полагаются на донастройку моделей для удаления конкретных концепций, что является вычислительно затратным, не масштабируется и/или ухудшает качество генерации. В данной работе мы предлагаем новую концепцию, используя разреженные автокодировщики k-разреженности (k-SAE), чтобы обеспечить эффективное и интерпретируемое управление концепциями в моделях диффузии. Конкретно, мы сначала выявляем интерпретируемые моносемантические концепции в скрытом пространстве вложений текста и используем их для точного управления генерацией в сторону или от конкретного концепта (например, нагота) или для введения нового концепта (например, фотографический стиль). Через обширные эксперименты мы демонстрируем, что наш подход очень прост, не требует повторного обучения базовой модели или адаптеров LoRA, не ухудшает качество генерации и устойчив к манипуляциям злоумышленников с запросами. Наш метод приводит к улучшению на 20.01% в удалении небезопасных концепций, эффективен в манипуляции стилем и в 5 раз быстрее, чем текущий современный подход.
Поиск на основе выборки, простая парадигма для использования вычислительных ресурсов во время тестирования, включает в себя генерацию нескольких кандидатов на ответ и выбор лучшего из них - обычно путем проверки каждого ответа на правильность. В данной статье мы изучаем тенденции масштабирования, управляющие поиском на основе выборки. Одним из наших выводов является то, что простое увеличение масштаба минималистической реализации, использующей только случайную выборку и прямую самопроверку, приводит к устойчивому улучшению производительности, которое, например, повышает способности к рассуждению модели Gemini v1.5 Pro выше, чем у o1-Preview на популярных бенчмарках. Мы частично связываем масштабируемость поиска на основе выборки с явлением неявного масштабирования, где выбор более крупного пула ответов в свою очередь повышает точность верификации. Мы также выделяем два полезных принципа для улучшения возможностей самопроверки с использованием вычислительных ресурсов во время тестирования: (1) сравнение ответов предоставляет полезные сигналы о местоположении ошибок и галлюцинаций, и (2) различные стили выходных данных модели полезны для различных контекстов - цепочки мыслей полезны для рассуждений, но сложны для проверки. Мы также обнаруживаем, что, хотя точную верификацию можно получить, фронтовые модели демонстрируют заметно слабые возможности по автоматической верификации и вводят бенчмарк для измерения прогресса в устранении этих недостатков.
Данный документ представляет датасет COCONut-PanCap, созданный для улучшения паноптической сегментации и основанного на изображениях описания. На основе набора данных COCO с усовершенствованными паноптическими масками COCONut, этот датасет направлен на преодоление ограничений существующих наборов данных изображений и текста, которые часто не содержат подробных описаний, охватывающих сцену полностью. Датасет COCONut-PanCap включает детализированные описания на уровне регионов, основанные на масках паноптической сегментации, обеспечивая последовательность и улучшая детализацию сгенерированных описаний. Через человечески отредактированные, плотно аннотированные описания COCONut-PanCap поддерживает улучшенное обучение моделей видео-языкового понимания (VLM) для понимания изображений и генеративных моделей для задач текст-изображение. Экспериментальные результаты демонстрируют, что COCONut-PanCap значительно повышает производительность в задачах понимания и генерации, предлагая дополнительные преимущества по сравнению с масштабными наборами данных. Этот датасет устанавливает новый стандарт для оценки моделей в совместных задачах паноптической сегментации и основанного на изображениях описания, решая потребность в высококачественных детализированных аннотациях изображений и текста в мульти-модальном обучении.
Создание моделей компьютерного проектирования (CAD) требует значительной экспертизы и усилий. Текст в CAD, который преобразует текстовые описания в последовательности параметрических CAD, является ключевым для оптимизации этого процесса. В недавних исследованиях использовались исходные параметрические последовательности, известные как последовательные сигналы, в качестве надзора для достижения этой цели. Однако CAD-модели по своей природе являются мультимодальными, включающими в себя параметрические последовательности и соответствующие визуальные объекты. Кроме того, процесс визуализации от параметрических последовательностей к визуальным объектам является многие-к-одному. Поэтому как последовательные, так и визуальные сигналы критически важны для эффективного обучения. В данной работе мы представляем CADFusion, фреймворк, который использует большие языковые модели (LLM) в качестве основы и чередует два этапа обучения: этап последовательного обучения (SL) и этап обратной связи по визуальным данным (VF). На этапе SL мы обучаем LLM с использованием исходных параметрических последовательностей, что позволяет генерировать логически последовательные параметрические последовательности. На этапе VF мы вознаграждаем параметрические последовательности, которые визуально преобразуются в предпочтительные объекты, и наказываем те, которые этого не делают, позволяя LLM узнать, как визуально воспринимаются и оцениваются визуальные объекты. Эти два этапа чередуются во время обучения, обеспечивая сбалансированное обучение и сохраняя преимущества обоих сигналов. Эксперименты показывают, что CADFusion значительно улучшает производительность как качественно, так и количественно.
Настройка моделей текст-в-изображение позволяет пользователям вставлять пользовательские концепции и генерировать эти концепции в невидимых сценариях. Существующие методы либо зависят от дорогостоящей оптимизации во время тестирования, либо обучают кодировщики на одиночных обучающих наборах данных изображений без мультиизображенческого надзора, что приводит к ухудшению качества изображения. Мы предлагаем простой подход, который решает обе ограничения. Сначала мы используем существующие модели текст-в-изображение и 3D наборы данных для создания высококачественного синтетического набора данных настройки (SynCD), состоящего из нескольких изображений одного объекта в различном освещении, фонах и позах. Затем мы предлагаем новую архитектуру кодировщика на основе механизмов общего внимания, которая лучше интегрирует мелкие визуальные детали из входных изображений. Наконец, мы предлагаем новый метод вывода, который смягчает проблемы переэкспозиции во время вывода путем нормализации векторов руководства текстом и изображением. Через обширные эксперименты мы показываем, что наша модель, обученная на синтетическом наборе данных с предложенным кодировщиком и алгоритмом вывода, превосходит существующие методы на стандартных бенчмарках настройки.
Настройка крупных языковых моделей (LLM) на устройствах привлекает все больший интерес. Недавние работы объединили техники адаптации низкого ранга (LoRA) с федеративной настройкой для смягчения проблем, связанных с размерами моделей устройств и дефицитом данных. Тем не менее, гетерогенность вычислительных ресурсов остается критическим узким местом: хотя модули более высокого ранга обычно улучшают производительность, различные возможности устройств ограничивают диапазон приемлемого ранга LoRA. Существующие подходы, пытающиеся решить эту проблему, либо лишены аналитического обоснования, либо накладывают дополнительные вычислительные нагрузки, что оставляет широкий промежуток для эффективного и теоретически обоснованного решения. Для решения этих проблем мы предлагаем федеративную схему LoRA (FSLoRA), которая использует механизм скетчинга для того, чтобы устройства могли выборочно обновлять подматрицы глобальных модулей LoRA, поддерживаемых сервером. Путем настройки коэффициентов скетчинга, определяющих ранги подматриц на устройствах, FSLoRA гибко адаптируется к устройственным коммуникационным и вычислительным ограничениям. Мы предоставляем строгий анализ сходимости FSLoRA, который характеризует, как коэффициенты скетчинга влияют на скорость сходимости. Через обширные эксперименты на нескольких наборах данных и моделях LLM мы демонстрируем превосходную производительность FSLoRA по сравнению с различными базовыми моделями.
Большие языковые модели (LLM) продемонстрировали выдающиеся возможности в различных областях. Вместе с развивающимися возможностями и расширяющимися сценариями применения LLM, их вызовы в развертывании усиливаются из-за их огромного масштаба и сложных конструкций активации, присущих известным сериям моделей, таким как Лама, Гемма и Мистраль. Эти вызовы становятся особенно заметными в сценариях ограниченных ресурсов, где обеспечение эффективности вывода является неотъемлемым. Среди различных недавних усилий аппроксимация активации выделяется как многообещающее направление для повышения эффективности вывода, иногда считаемое необходимым в приложениях, таких как частный вывод. Несмотря на значительное увеличение скорости с минимальным влиянием на полезность, иногда кажется звучным и практичным для применения в реальном мире, безопасные последствия аппроксимации активации остаются неясными. В данной работе мы заполняем этот критический пробел в области безопасности LLM, проводя первую систематическую оценку безопасности аппроксимаций активации. Наша проверка безопасности охватывает семь передовых техник из трех популярных категорий, раскрывая последовательное снижение безопасности у десяти безопасно ориентированных LLM.