Ежедневно отобранные исследовательские статьи по ИИ с переводами
Трансформер имеет тенденцию перераспределять внимание на нерелевантный контекст. В данной работе мы представляем Дифференциальный Трансформер, который усиливает внимание к соответствующему контексту, отменяя шум. Конкретно, механизм дифференциального внимания вычисляет оценки внимания как разницу между двумя отдельными картами внимания softmax. Вычитание отменяет шум, способствуя появлению разреженных образцов внимания. Экспериментальные результаты по языковому моделированию показывают, что Дифференциальный Трансформер превосходит Трансформер в различных настройках увеличения размера модели и обучающих токенов. Более интересно то, что он предлагает заметные преимущества в практических приложениях, таких как моделирование длинного контекста, извлечение ключевой информации, смягчение галлюцинаций, обучение в контексте и снижение выбросов активации. Благодаря меньшему отвлечению на нерелевантный контекст, Дифференциальный Трансформер способен смягчить галлюцинации в вопросно-ответных системах и суммаризации текста. Для обучения в контексте Дифференциальный Трансформер не только повышает точность, но также более устойчив к перестановке порядка, что ранее считалось хронической проблемой устойчивости. Результаты позиционируют Дифференциальный Трансформер как высокоэффективную и многообещающую архитектуру для развития крупных языковых моделей.
Данный доклад представляет собой продвинутую математическую систему решения задач, LLaMA-Berry, предназначенную для улучшения математического мышления крупных языковых моделей (LLM). Система объединяет метод Монте-Карло дерева поиска (MCTS) с итеративным самоусовершенствованием для оптимизации пути рассуждений и использует модель парных вознаграждений для глобальной оценки различных путей. Путем использования возможностей самокритики и переписывания LLM, самоусовершенствование, примененное к MCTS (SR-MCTS), преодолевает неэффективности и ограничения традиционных алгоритмов пошагового и жадного поиска путем содействия более эффективному исследованию пространств решений. Модель парных предпочтений вознаграждения (PPRM), вдохновленная обучением с подкреплением от обратной связи человека (RLHF), затем используется для моделирования парных предпочтений между решениями, используя метод улучшенного счета Борда (EBC) для синтеза этих предпочтений в глобальный рейтинговый балл для нахождения лучших ответов. Данный подход решает проблемы изменчивости оценок и независимых распределений в задачах математического рассуждения. Система была протестирована на общих и продвинутых бенчмарках, показав превосходную производительность в плане эффективности поиска и способности к решению проблем по сравнению с существующими методами, такими как ToT и rStar, особенно в сложных бенчмарках уровня Олимпиады, включая GPQA, AIME24 и AMC23.
Большие языковые модели (LLM) часто допускают ошибки, включая фактические неточности, предвзятость и сбои в рассуждениях, которые в целом называются "галлюцинациями". Недавние исследования показали, что внутренние состояния LLM кодируют информацию о достоверности их результатов, и что эту информацию можно использовать для обнаружения ошибок. В данной работе мы показываем, что внутренние представления LLM содержат гораздо больше информации о достоверности, чем это было признано ранее. Сначала мы обнаруживаем, что информация о достоверности сосредоточена в определенных токенах, и использование этого свойства значительно повышает производительность обнаружения ошибок. Однако мы показываем, что такие детекторы ошибок не способны обобщаться на различные наборы данных, что подразумевает, что -- вопреки предыдущим утверждениям -- кодирование достоверности не является универсальным, а скорее многоаспектным. Затем мы показываем, что внутренние представления также могут использоваться для предсказания типов ошибок, которые модель склонна допускать, что облегчает разработку индивидуализированных стратегий смягчения. Наконец, мы раскрываем расхождение между внутренним кодированием LLM и внешним поведением: они могут кодировать правильный ответ, но при этом последовательно генерировать неправильный. Все эти умозаключения углубляют наше понимание ошибок LLM с точки зрения внутренней модели, что может направить будущие исследования по улучшению анализа ошибок и их смягчению.
Модели диффузии текста в изображение (T2I) революционизировали создание визуального контента, однако расширение этих возможностей на генерацию текста в видео (T2V) остается вызовом, особенно в сохранении временной согласованности. Существующие методы, направленные на улучшение согласованности, часто приводят к компромиссам, таким как снижение качества изображения и непрактичное вычислительное время. Для решения этих проблем мы представляем VideoGuide, новую структуру, которая улучшает временную согласованность предварительно обученных моделей T2V без необходимости дополнительного обучения или настройки. Вместо этого VideoGuide использует любую предварительно обученную модель диффузии видео (VDM) или саму себя в качестве руководства на ранних этапах вывода, улучшая временное качество путем интерполяции образцов денойзинга руководящей модели в процесс денойзинга модели выборки. Предложенный метод приводит к значительному улучшению временной согласованности и качества изображения, обеспечивая экономичное и практичное решение, которое совмещает преимущества различных моделей диффузии видео. Кроме того, мы демонстрируем предварительное дистиллирование, показывая, что базовые модели могут достичь улучшенной согласованности текста, используя превосходный априорный данные руководящей модели через предложенный метод. Страница проекта: http://videoguide2025.github.io/
Несмотря на замечательные успехи, достигнутые нейронными сетями, особенно теми, которые представлены MLP и Transformer, мы выявляем потенциальные недостатки в моделировании и рассуждениях о периодичности, то есть они склонны запоминать периодические данные, а не искренне понимать основные принципы периодичности. Тем не менее, периодичность является важной чертой в различных формах рассуждений и обобщений, лежащей в основе предсказуемости в натуральных и инженерных системах через повторяющиеся шаблоны в наблюдениях. В данной статье мы предлагаем FAN, новую архитектуру сети на основе анализа Фурье, которая обеспечивает способность эффективно моделировать и рассуждать о периодических явлениях. Вводя ряд Фурье, периодичность естественным образом интегрируется в структуру и вычислительные процессы нейронной сети, что позволяет достичь более точного выражения и прогнозирования периодических шаблонов. Как многообещающую замену многослойному персептрону (MLP), FAN может плавно заменить MLP в различных моделях с меньшим количеством параметров и операций с плавающей запятой. Через обширные эксперименты мы демонстрируем эффективность FAN в моделировании и рассуждениях о периодических функциях, а также превосходство и обобщаемость FAN в ряде задач реального мира, включая представление символьных формул, прогнозирование временных рядов и языковое моделирование.
Недавние достижения в области крупных языковых моделей (LLM) вызвали интерес к их формальным возможностям рассуждения, особенно в математике. Бенчмарк GSM8K широко используется для оценки математического рассуждения моделей на вопросах начальной школы. Хотя производительность LLM на GSM8K значительно улучшилась в последние годы, остается неясным, действительно ли их математические способности к рассуждению продвинулись, возникают вопросы о надежности отчетных показателей. Для решения этих проблем мы проводим масштабное исследование на нескольких передовых открытых и закрытых моделях. Чтобы преодолеть ограничения существующих оценок, мы представляем GSM-Symbolic, улучшенный бенчмарк, созданный на основе символьных шаблонов, позволяющих генерировать разнообразный набор вопросов. GSM-Symbolic обеспечивает более управляемые оценки, предоставляя ключевые исследования и более надежные показатели для измерения способностей моделей к рассуждению. Наши результаты показывают, что LLM проявляют заметную вариативность при ответе на различные варианты одного и того же вопроса. В частности, производительность всех моделей снижается, когда в бенчмарке GSM-Symbolic изменяются только числовые значения в вопросе. Кроме того, мы исследуем хрупкость математического рассуждения в этих моделях и показываем, что их производительность значительно ухудшается с увеличением числа клаузул в вопросе. Мы предполагаем, что это снижение связано с тем, что текущие LLM не способны выполнять истинное логическое рассуждение; они воспроизводят шаги рассуждения из своих обучающих данных. Добавление одной клаузулы, кажущейся соответствующей вопросу, приводит к значительному снижению производительности (до 65%) для всех передовых моделей, даже если клаузула не вносит вклад в цепочку рассуждений, необходимых для окончательного ответа. В целом, наша работа предлагает более нюансное понимание способностей и ограничений LLM в математическом рассуждении.
Продвижения моделей языковых моделей (LLM) вызвали растущий интерес к разработке агентов на основе LLM для автоматизации научных открытий от начала до конца, что вызвало как восторг, так и скепсис относительно истинных возможностей таких агентов. В данной работе мы утверждаем, что для полной автоматизации научных открытий агент должен быть способен выполнять все необходимые задачи в рабочем процессе. Таким образом, мы призываем к тщательной оценке агентов по отдельным задачам в научном рабочем процессе перед тем, как делать смелые заявления о полной автоматизации. Для этого мы представляем ScienceAgentBench, новый бенчмарк для оценки языковых агентов для данных-ориентированных научных открытий. Для обеспечения научной достоверности и актуальности нашего бенчмарка мы извлекаем 102 задачи из 44 публикаций в четырех областях и привлекаем девять экспертов по предмету для их проверки. Мы приводим целевой результат для каждой задачи к самодостаточному файлу программы на Python и используем ряд метрик оценки для анализа сгенерированных программ, результатов выполнения и затрат. Каждая задача проходит через несколько раундов ручной проверки аннотаторами и экспертами по предмету для обеспечения качества аннотации и научной правдоподобности. Мы также предлагаем две эффективные стратегии для смягчения опасений по поводу загрязнения данных. С использованием нашего бенчмарка мы оцениваем пять открытых и закрытых LLM, каждый с тремя фреймворками: прямое подталкивание, OpenHands и самоотладка. При трех попытках для каждой задачи лучший агент может решить лишь 32,4% задач независимо и 34,3% с предоставленными экспертами знаниями. Эти результаты подчеркивают ограниченные возможности текущих языковых агентов в генерации кода для данных-ориентированных открытий, не говоря уже о полной автоматизации для научных исследований.
Многомодельные модели языка (MLLM) трансформируют возможности агентов графического пользовательского интерфейса (GUI), облегчая их переход от контролируемых симуляций к сложным приложениям в реальном мире на различных платформах. Однако эффективность этих агентов зависит от надежности их базовой способности. На сегодняшний день GUI-агенты в основном используют текстовые представления, такие как HTML или деревья доступности, которые, несмотря на свою полезность, часто вносят шум, неполноту и увеличивают вычислительную нагрузку. В данной статье мы отстаиваем идею о воплощении человекоподобности для GUI-агентов, которые воспринимают окружающую среду исключительно визуально и непосредственно выполняют операции на уровне пикселей на GUI. Ключевым являются модели визуальной базировки, способные точно отображать разнообразные обращения к элементам GUI на их координаты на GUI на различных платформах. Мы показываем, что простой рецепт, включающий веб-основанные синтетические данные и небольшую адаптацию архитектуры LLaVA, удивительно эффективен для обучения таких моделей визуальной базировки. Мы собрали к настоящему времени самый крупный набор данных для визуальной базировки GUI, содержащий 10 млн элементов GUI и их обращения на более чем 1.3 млн скриншотах, и используем его для обучения UGround, сильной универсальной модели визуальной базировки для GUI-агентов. Эмпирические результаты на шести бенчмарках, охватывающих три категории (базировка, оффлайн-агент и онлайн-агент), показывают, что 1) UGround значительно превосходит существующие модели визуальной базировки для GUI-агентов, на до 20% абсолютно, и 2) агенты с UGround превосходят агентов последнего поколения, несмотря на то, что существующие агенты используют дополнительный текстовый ввод, в то время как наш использует только визуальное восприятие. Эти результаты крепко подтверждают возможность и перспективы GUI-агентов, которые перемещаются по цифровому миру так, как это делают люди.
Мы представляем UniMuMo - объединенную мультимодальную модель, способную принимать произвольные текстовые, музыкальные и движущиеся данные в качестве входных условий для генерации результатов во всех трех модальностях. Для решения проблемы отсутствия синхронизированных по времени данных мы выравниваем непарные музыкальные и движущиеся данные на основе ритмических паттернов, чтобы воспользоваться существующими крупномасштабными наборами данных только по музыке и только по движению. Преобразуя музыку, движение и текст в токен-основанное представление, наша модель соединяет эти модальности через объединенную архитектуру кодировщика-декодера трансформера. Для поддержки нескольких задач генерации в рамках одной структуры мы внедряем несколько архитектурных улучшений. Мы предлагаем кодировать движение с помощью музыкального кодового книги, отображая движение в тот же пространственный признак, что и музыка. Мы вводим схему параллельной генерации музыки и движения, объединяющую все задачи генерации музыки и движения в единую архитектуру декодера трансформера с единственной задачей обучения совместной генерации музыки и движения. Более того, модель разработана путем донастройки существующих предварительно обученных моделей с одной модальностью, что значительно снижает вычислительные требования. Обширные эксперименты показывают, что UniMuMo достигает конкурентоспособных результатов на всех однонаправленных бенчмарках генерации в области музыки, движения и текста. Количественные результаты доступны на странице проекта: https://hanyangclarence.github.io/unimumo_demo/.
Оценка геометрии динамических сцен, где объекты движутся и деформируются со временем, остается одним из основных вызовов в компьютерном зрении. Существующие подходы часто полагаются на многоэтапные конвейеры или глобальные оптимизации, которые декомпозируют проблему на подзадачи, такие как глубина и поток, что приводит к сложным системам, склонным к ошибкам. В данной статье мы представляем Motion DUSt3R (MonST3R), новый подход, ориентированный на геометрию, который напрямую оценивает геометрию на каждом временном шаге динамических сцен. Наш ключевой инсайт заключается в том, что, просто оценивая точечную карту для каждого временного шага, мы можем эффективно адаптировать представление DUST3R, ранее использовавшееся только для статических сцен, к динамическим сценам. Однако этот подход представляет существенное вызов: дефицит подходящих обучающих данных, а именно динамических видео с разметкой глубины. Несмотря на это, мы показываем, что, поставив проблему как задачу донастройки, выбрав несколько подходящих наборов данных и стратегически обучив модель на этом ограниченном объеме данных, мы можем удивительно обеспечить модель способностью обрабатывать динамику, даже без явного представления движения. На основе этого мы представляем новые оптимизации для нескольких последующих видеоспецифических задач и демонстрируем высокую производительность в оценке глубины видео и позиции камеры, превосходя предыдущие работы по показателям надежности и эффективности. Более того, MonST3R показывает многообещающие результаты в основном для прямого 4D восстановления.
Несмотря на прогресс в методах преобразования текста в музыку на основе диффузии (TTM), эффективное и качественное создание остается вызовом. Мы представляем Presto!, подход к ускорению вывода для трансформеров на основе диффузии на основе нотации путем сокращения как количества шагов выборки, так и стоимости на шаг. Для сокращения шагов мы разрабатываем новый метод дистилляции сопоставления распределения на основе нотации (DMD) для семейства моделей диффузии EDM, первый метод дистилляции на основе GAN для TTM. Для сокращения стоимости на шаг мы разрабатываем простое, но мощное улучшение недавнего метода дистилляции слоя, которое улучшает обучение путем лучшего сохранения скрытой дисперсии состояния. Наконец, мы объединяем наши методы дистилляции шага и слоя вместе для двухстороннего подхода. Мы оцениваем наши методы дистилляции шага и слоя независимо и показываем, что каждый обеспечивает лучшую в своем классе производительность. Наш объединенный метод дистилляции может генерировать высококачественные результаты с улучшенным разнообразием, ускоряя нашу базовую модель в 10-18 раз (задержка 230/435 мс для 32-секундного моно/стерео 44,1 кГц, в 15 раз быстрее, чем сопоставимое SOTA) - самый быстрый высококачественный TTM на нашем уровне знаний. Примеры звука можно найти на https://presto-music.github.io/web/.
Этот технический отчет представляет Named Clinical Entity Recognition Benchmark для оценки языковых моделей в области здравоохранения, решая важную задачу обработки естественного языка (NLP) по извлечению структурированной информации из клинических повествований для поддержки приложений, таких как автоматизированное кодирование, идентификация когорт клинических испытаний и клиническая поддержка принятия решений. Таблица лидеров предоставляет стандартизированную платформу для оценки различных языковых моделей, включая архитектуры кодировщика и декодировщика, по их способности идентифицировать и классифицировать клинические сущности в различных медицинских областях. Используется отобранная коллекция открытых клинических наборов данных, охватывающая сущности, такие как заболевания, симптомы, медикаменты, процедуры и лабораторные измерения. Важно, что эти сущности стандартизированы в соответствии с Общей моделью данных по наблюдаемым медицинским результатам (OMOP), обеспечивая согласованность и взаимодействие между различными системами здравоохранения и наборами данных, а также всестороннюю оценку производительности модели. Производительность моделей в основном оценивается с использованием F1-меры, а также дополняется различными режимами оценки для предоставления всестороннего понимания производительности модели. В отчете также представлено краткое аналитическое изучение оцененных моделей на сегодняшний день, выделяя наблюдаемые тенденции и ограничения. Установив эту систему оценки, таблица лидеров стремится способствовать прозрачности, облегчить сравнительный анализ и стимулировать инновации в задачах распознавания клинических сущностей, решая потребность в надежных методах оценки в области NLP в здравоохранении.
Хотя модели вознаграждения были успешны в улучшении мультимодальных больших языковых моделей, сами модели вознаграждения остаются грубыми и содержат минимум информации. Особенно следует отметить, что существующие модели вознаграждения лишь имитируют аннотации человека, присваивая только одну бинарную обратную связь любому тексту, независимо от его длины. В области мультимодальных языковых моделей, где модели должны обрабатывать как изображения, так и тексты, наивная модель вознаграждения может учиться неявным предвзятостям к текстам и терять связь с изображениями. В данной статье мы предлагаем модель вознаграждения детектива на уровне токенов (TLDR), чтобы предоставлять детализированные аннотации для каждого токена текста. Сначала мы представляем метод на основе возмущений для генерации синтетических трудных негативов и их меток на уровне токенов для обучения моделей TLDR. Затем мы показываем богатую полезность моделей TLDR как в помощи моделям "из коробки" самокорректировать свои генерации, так и в служении в качестве инструмента оценки галлюцинаций. Наконец, мы показываем, что модели TLDR могут значительно ускорить человеческую аннотацию в 3 раза для получения более широкого спектра высококачественных данных по видеоизображениям и языку.
Недавние крупные языковые модели (LLM) продемонстрировали универсальные возможности в сценариях с длинным контекстом. Хотя некоторые недавние бенчмарки были разработаны для оценки возможностей LLM в длинных контекстах, отсутствует оценка математических рассуждений LLM в течение длительных контекстов, что является важным для применения LLM в реальных сценариях. В данной статье мы представляем MathHay, автоматизированный бенчмарк, разработанный для оценки математических рассуждений в длинном контексте LLM. В отличие от предыдущих бенчмарков, таких как "Игла в стоге сена", которые в основном сосредотачиваются на поиске информации в длинных текстах, MathHay требует моделей с возможностями как поиска информации, так и сложных математических рассуждений. Мы проводим обширные эксперименты на MathHay для оценки математических рассуждений в длинном контексте восьми лучших LLM. Даже лучшая модель, Gemini-1.5-Pro-002, все еще испытывает трудности с математическими рассуждениями в течение длительных контекстов, достигая лишь 51,26% точности на 128 тыс. токенов. Это подчеркивает значительное пространство для улучшения в рамках бенчмарка MathHay.
По мере расширения применения больших языковых моделей (LLM) возрастает потребность в надежной оценке. Существующие бенчмарки оценки LLM в основном опираются на статические наборы данных, что затрудняет оценку производительности модели в динамическом взаимодействии с пользователями. Более того, эти бенчмарки часто зависят от конкретных фоновых знаний, что усложняет измерение логических способностей модели. Другие динамические методы оценки на основе сильных моделей или ручных усилий могут внести предвзятость и повлечь высокие затраты и требования к времени, что затрудняет масштабное применение. Для решения этих проблем мы предлагаем TurtleBench. TurtleBench собирает реальные догадки пользователей с нашей онлайн-платформы Turtle Soup Puzzle, которую мы разработали. Такой подход позволяет относительно динамично генерировать наборы данных для оценки, снижая риск мошенничества модели и более тесно соотнося оценки с реальными потребностями пользователей в логических способностях, тем самым повышая надежность оценок. TurtleBench включает 1 532 догадки пользователей вместе с правильностью догадок после аннотации. Используя этот набор данных, мы тщательно оценили девять из самых передовых LLM, доступных на сегодняшний день. Следует отметить, что модели серии OpenAI o1 не достигли лидирующих результатов в этих оценках. Мы предлагаем несколько гипотез для дальнейших исследований, таких как "латентное рассуждение o1 использует тривиальные техники цепочки мыслей (CoT)" и "увеличение длины CoT обеспечивает не только выгоды в рассуждениях, но и влечет за собой затраты на шум".
Мы представляем OmniBooth, фреймворк генерации изображений, который обеспечивает пространственный контроль с многомодальной настройкой на уровне экземпляра. Для всех экземпляров многомодальная инструкция может быть описана с помощью текстовых подсказок или изображений. Учитывая набор пользовательских масок и соответствующих текстовых или изображенческих указаний, нашей целью является генерация изображения, где несколько объектов размещены в указанных координатах, и их атрибуты точно соответствуют соответствующим указаниям. Этот подход значительно расширяет область генерации текста в изображение и повышает ее до более универсального и практичного уровня контролируемости. В данной статье наш основной вклад заключается в предложенных скрытых сигналах управления, высокоразмерной пространственной особенности, которая обеспечивает объединенное представление для интеграции пространственных, текстовых и изображенческих условий без проблем. Условие текста расширяет ControlNet для обеспечения генерации экземпляров с открытым словарем. Условие изображения дополнительно обеспечивает детализированный контроль с персонализированной идентичностью. На практике наш метод дает пользователям большую гибкость в контролируемой генерации, поскольку пользователи могут выбирать многомодальные условия из текста или изображений по мере необходимости. Кроме того, тщательные эксперименты демонстрируют наше улучшенное качество синтеза изображений и выравнивание на различных задачах и наборах данных. Страница проекта: https://len-li.github.io/omnibooth-web/
Слияние моделей направлено на объединение нескольких экспертных моделей в более способную одиночную модель, предлагая преимущества, такие как снижение затрат на хранение и обслуживание, улучшенная обобщающая способность и поддержка децентрализованного развития моделей. Несмотря на свои перспективы, предыдущие исследования в основном сосредоточены на слиянии нескольких небольших моделей. Это оставляет много нерешенных вопросов о влиянии масштабирования размера модели и взаимодействии с другими ключевыми факторами - такими как качество базовой модели и количество экспертных моделей - на производительность объединенной модели. В данной работе систематически оценивается полезность слияния моделей в масштабе, изучая влияние этих различных факторов. Мы экспериментируем со слиянием полностью донастроенных моделей с использованием 4 популярных методов слияния - Усреднение, Арифметика задач, Dare и TIES - на моделях различного размера от 1 млрд до 64 млрд параметров и слиянием до 8 различных экспертных моделей. Мы оцениваем объединенные модели как на удерживаемых задачах, т.е. на обучающих задачах экспертов, так и на обобщении нулевого уровня к невидимым задачам. Наши эксперименты предоставляют несколько новых идей о слиянии моделей в масштабе и взаимодействии между различными факторами. Во-первых, мы обнаружили, что слияние эффективнее, когда эксперты созданы на основе сильных базовых моделей, т.е. моделей с хорошей производительностью на обобщении нулевого уровня. Во-вторых, более крупные модели облегчают слияние. В-третьих, слияние последовательно улучшает обобщающие способности. Заметно, что при слиянии 8 крупных экспертных моделей объединенные модели часто обобщают лучше по сравнению с моделями, обученными на нескольких задачах. В-четвертых, мы можем лучше сливать больше экспертных моделей, когда работаем с более крупными моделями. В-пятых, различные методы слияния ведут себя очень похожим образом на более крупных масштабах. В целом, наши результаты проливают свет на некоторые интересные свойства слияния моделей, а также выделяют некоторые ограничения. Мы надеемся, что данное исследование послужит точкой отсчета для исследований слияния в крупном масштабе в будущем.
Кураторство данных - это проблема того, как собирать и организовывать образцы в набор данных, который поддерживает эффективное обучение. Несмотря на центральное значение этой задачи, мало работ посвящено крупномасштабному систематическому сравнению различных методов кураторства. В данной работе мы предпринимаем шаги к формальной оценке стратегий кураторства данных и представляем SELECT - первый крупномасштабный бенчмарк стратегий кураторства для классификации изображений. Для создания базовых методов для бенчмарка SELECT мы создаем новый набор данных, ImageNet++, который является крупнейшим надмножеством ImageNet-1K на сегодняшний день. Наш набор данных расширяет ImageNet 5 новыми сдвигами в обучающих данных, каждый примерно такого же размера, как ImageNet-1K сам по себе, и каждый собран с использованием отдельной стратегии кураторства. Мы оцениваем наши базовые методы кураторства данных двумя способами: (i) используя каждый сдвиг обучающих данных для обучения идентичных моделей классификации изображений с нуля (ii) используя сами данные для подгонки предварительно обученного самообучающего представления. Наши результаты показывают интересные тенденции, особенно относящиеся к недавним методам кураторства данных, таким как генерация синтетических данных и поиск на основе встраиваний CLIP. Мы показываем, что хотя эти стратегии являются очень конкурентоспособными для определенных задач, стратегия кураторства, использованная для сборки оригинального набора данных ImageNet-1K, остается золотым стандартом. Мы предвидим, что наш бенчмарк может пролить свет на путь для новых методов дальнейшего сокращения разрыва. Мы публикуем наши контрольные точки, код, документацию и ссылку на наш набор данных по адресу https://github.com/jimmyxu123/SELECT.
Синтезирование движений человека в 3D окружениях, особенно тех, которые включают сложные действия, такие как передвижение, досягивание рукой и взаимодействие человека с объектами, предъявляет значительные требования к пользовательским точкам маршрута и переходам между этапами. Эти требования создают вызовы для текущих моделей, что приводит к значительному разрыву в автоматизации анимации персонажей на основе простых человеческих вводов. В данной статье рассматривается данное проблемное положение путем представления комплексной структуры для синтеза многоэтапных движений взаимодействия с окружением напрямую из одной текстовой инструкции и целевого местоположения. Наш подход использует авторегрессионную модель диффузии для синтеза следующего сегмента движения, а также автономный планировщик, предсказывающий переход для каждого этапа действия. Для обеспечения бесшовной интеграции синтезированных движений в окружение мы предлагаем представление сцены, учитывающее локальное восприятие как в начальной, так и в целевой точке. Мы дополнительно улучшаем последовательность сгенерированного движения путем интеграции встраиваний кадров с языковым вводом. Кроме того, для поддержки обучения модели мы представляем обширный набор данных, содержащий 16 часов последовательностей движения в 120 внутренних сценах, охватывающих 40 типов движений, каждое из которых аннотировано точными языковыми описаниями. Экспериментальные результаты демонстрируют эффективность нашего метода в генерации высококачественных многоэтапных движений, тесно соответствующих окружающим и текстовым условиям.
Методы обучения с подкреплением на основе обратной связи от человека (RLHF) становятся все более популярным способом настройки моделей диффузии (DMs) для визуальной генерации. Однако широко используемые стратегии on-policy ограничены способностью обобщения модели вознаграждения, в то время как подходы off-policy требуют больших объемов сложно получаемых парных данных с аннотациями от людей, особенно в задачах визуальной генерации. Для преодоления ограничений как on-policy, так и off-policy RLHF, мы предлагаем метод оптимизации предпочтений, который выравнивает DMs с предпочтениями без использования моделей вознаграждения или парных данных с аннотациями от людей. Конкретно, мы представляем метод Semi-Policy Preference Optimization (SePPO). SePPO использует предыдущие контрольные точки в качестве моделей-ссылок, используя их для генерации образцов on-policy, которые заменяют "проигрышные изображения" в парах предпочтений. Этот подход позволяет нам оптимизировать, используя только off-policy "выигрышные изображения". Более того, мы разрабатываем стратегию выбора модели-ссылки, которая расширяет исследование в пространстве политики. Важно отметить, что мы не просто рассматриваем образцы-ссылки как отрицательные примеры для обучения. Вместо этого мы разрабатываем критерий на основе якорей для оценки того, вероятно ли, что образцы-ссылки будут выигрышными или проигрышными изображениями, что позволяет модели выборочно учиться на сгенерированных образцах-ссылках. Этот подход смягчает деградацию производительности, вызванную неопределенностью в качестве образцов-ссылок. Мы проверяем SePPO на бенчмарках как по тексту к изображению, так и по тексту к видео. SePPO превосходит все предыдущие подходы на бенчмарках по тексту к изображению и также демонстрирует выдающуюся производительность на бенчмарках по тексту к видео. Код будет опубликован на https://github.com/DwanZhang-AI/SePPO.
Модели диффузии революционизировали генерацию изображений, и их расширение на генерацию видео показало перспективы. Однако текущие модели диффузии видео (VDM) полагаются на скалярную переменную временного шага, применяемую на уровне клипа, что ограничивает их способность моделировать сложные временные зависимости, необходимые для различных задач, таких как генерация изображения в видео. Для преодоления этого ограничения мы предлагаем модель диффузии видео, осознанную по кадрам (FVDM), которая вводит новую векторизованную переменную временного шага (VTV). В отличие от обычных VDM, наш подход позволяет каждому кадру следовать независимому расписанию шума, увеличивая способность модели захватывать мелкие временные зависимости. Гибкость FVDM продемонстрирована на различных задачах, включая стандартную генерацию видео, генерацию изображения в видео, интерполяцию видео и синтез длинного видео. С помощью разнообразных конфигураций VTV мы достигаем превосходного качества сгенерированных видео, преодолевая проблемы, такие как катастрофическое забывание во время тонкой настройки и ограниченная обобщаемость в методах нулевого обучения. Наши эмпирические оценки показывают, что FVDM превосходит современные методы по качеству генерации видео, а также преуспевает в расширенных задачах. Решая фундаментальные недостатки существующих VDM, FVDM устанавливает новый парадигму в синтезе видео, предлагая надежную структуру с значительными последствиями для генеративного моделирования и мультимедийных приложений.
Мы представляем задачу и набор данных для генерации и понимания выражений обращения в многоагентных инкорпорированных средах. В этой задаче два агента в общей сцене должны учитывать визуальную перспективу друг друга, которая может отличаться от их собственной, чтобы как производить, так и понимать ссылки на объекты в сцене и пространственные отношения между ними. Мы собрали набор данных из 2 970 человеческих выражений обращения, каждое из которых сопровождается оценками понимания человека, и оценили производительность автоматических моделей в качестве говорящих и слушающих, сопряженных с человеческими партнерами, обнаружив, что производительность модели как в генерации ссылок, так и в их понимании отстает от производительности пар человеческих агентов. Наконец, мы экспериментируем с обучением модели говорящего с открытым весом с доказательствами коммуникативного успеха при сопряжении с слушателем, что приводит к улучшению коммуникативного успеха с 58,9 до 69,3% и даже превосходит самую мощную собственную модель.
Инференция LLM для популярных корпоративных сценариев использования, таких как суммирование, RAG и генерация кода, обычно наблюдает порядки длиннее промптов, чем длины генерации. Эта характеристика приводит к высокой стоимости предзаполнения и увеличенной задержке ответа. В данной статье мы представляем SwiftKV, новую процедуру трансформации и дистилляции модели, специально разработанную для сокращения времени и стоимости обработки токенов промпта, сохраняя при этом высокое качество сгенерированных токенов. SwiftKV объединяет три ключевых механизма: i) SingleInputKV, который предзаполняет кэш KV более поздних слоев, используя вывод гораздо более раннего слоя, позволяя токенам промпта пропустить большую часть вычислений модели, ii) AcrossKV, который объединяет кэши KV соседних слоев для сокращения объема памяти и поддержки большего размера пакета для повышения пропускной способности, и iii) процедуру дистилляции, сохраняющую знания, которая может адаптировать существующие LLM для SwiftKV с минимальным влиянием на точность и низкими требованиями к вычислениям и данным. Для Llama-3.1-8B и 70B SwiftKV сокращает требования к вычислениям предзаполнения на 50% и требования к памяти кэша KV на 62.5%, сохраняя минимальное снижение качества на широком спектре задач. В инференции end-to-end с использованием оптимизированной реализации vLLM SwiftKV достигает до 2-кратного увеличения агрегированной пропускной способности и на 60% меньшего времени на вывод токена. Он может достичь потрясающих 560 TFlops/GPU нормализованной инференции, что переводится в 16K токенов/с для Llama-3.1-70B в 16-битной точности на 4x H100 GPU.