Ежедневно отобранные исследовательские статьи по ИИ с переводами
Восстановление изображений является фундаментальной областью исследований, находящейся на стыке редактирования и генерации изображений. Современные передовые методы исследуют новые механизмы внимания, облегченные архитектуры и контекстно-зависимое моделирование, демонстрируя впечатляющие результаты. Однако они часто сталкиваются с трудностями при работе со сложной структурой (например, текстурой, формой, пространственными отношениями) и семантикой (например, цветовой согласованностью, восстановлением объектов и логической корректностью), что приводит к артефактам и некорректной генерации. Для решения этой проблемы мы разработали простую, но эффективную парадигму восстановления, называемую руководством по латентным категориям, и предложили модель на основе диффузии под названием PixelHacker. В частности, мы сначала создали большой набор данных, содержащий 14 миллионов пар изображение-маска, аннотировав передний и задний план (потенциально 116 и 21 категория соответственно). Затем мы отдельно кодируем представления потенциального переднего и заднего плана с помощью двух встраиваний фиксированного размера и периодически внедряем эти характеристики в процесс удаления шума через линейное внимание. Наконец, предварительно обучая на нашем наборе данных и дорабатывая на открытых эталонных тестах, мы получаем PixelHacker. Многочисленные эксперименты показывают, что PixelHacker значительно превосходит современные методы на широком спектре наборов данных (Places2, CelebA-HQ и FFHQ) и демонстрирует замечательную согласованность как в структуре, так и в семантике. Страница проекта доступна по адресу https://hustvl.github.io/PixelHacker.
Мы представляем серию моделей Llama-Nemotron — открытое семейство гетерогенных моделей для рассуждений, которые демонстрируют выдающиеся способности к логическому выводу, эффективность в процессе инференции и открытую лицензию для использования в корпоративной среде. Семейство включает три размера — Nano (8B), Super (49B) и Ultra (253B) — и конкурирует с передовыми моделями для рассуждений, такими как DeepSeek-R1, при этом предлагая превосходную пропускную способность инференции и эффективность использования памяти. В данном отчете мы обсуждаем процедуру обучения этих моделей, которая включает использование нейроархитектурного поиска на основе моделей Llama 3 для ускорения инференции, дистилляцию знаний и продолженное предварительное обучение, за которым следует этап пост-обучения, ориентированный на рассуждения и состоящий из двух основных частей: контролируемой тонкой настройки и масштабированного обучения с подкреплением. Модели Llama-Nemotron являются первыми открытыми моделями, поддерживающими динамическое переключение режимов рассуждений, что позволяет пользователям переключаться между стандартным чат-режимом и режимом рассуждений во время инференции. Для дальнейшего поддержания открытых исследований и облегчения разработки моделей мы предоставляем следующие ресурсы: 1. Мы выпускаем модели для рассуждений Llama-Nemotron — LN-Nano, LN-Super и LN-Ultra — под коммерчески разрешительной лицензией NVIDIA Open Model License Agreement. 2. Мы публикуем полный набор данных для пост-обучения: Llama-Nemotron-Post-Training-Dataset. 3. Мы также предоставляем наши кодовые базы для обучения: NeMo, NeMo-Aligner и Megatron-LM.
Большинство задач редактирования изображений в реальном мире требуют выполнения нескольких последовательных изменений для достижения желаемых результатов. Современные подходы к редактированию, в основном разработанные для модификации отдельных объектов, сталкиваются с трудностями при последовательном редактировании: особенно в поддержании предыдущих изменений и естественном встраивании новых объектов в существующий контент. Эти ограничения существенно затрудняют сложные сценарии редактирования, где необходимо изменять несколько объектов, сохраняя их контекстуальные взаимосвязи. Мы решаем эту фундаментальную задачу с помощью двух ключевых предложений: использование грубых масок, которые сохраняют существующий контент и естественно интегрируют новые элементы, а также поддержка согласованного редактирования при множественных изменениях. Наш фреймворк достигает этого за счет послойной памяти, которая сохраняет латентные представления и эмбеддинги промптов из предыдущих изменений. Мы предлагаем Guidance для согласованности фона, который использует запомненные латентные представления для поддержания целостности сцены, и Multi-Query Disentanglement в кросс-внимании, что обеспечивает естественную адаптацию к существующему контенту. Для оценки нашего метода мы представляем новый эталонный набор данных, включающий метрики семантического выравнивания и сценарии интерактивного редактирования. В ходе всесторонних экспериментов мы демонстрируем превосходную производительность в задачах итеративного редактирования изображений с минимальными усилиями пользователя, требуя только грубых масок и поддерживая высокое качество результатов на протяжении нескольких шагов редактирования.
Оценка систем генерации естественного языка (NLG) представляет собой сложную задачу из-за разнообразия допустимых выходных данных. Хотя человеческая оценка считается золотым стандартом, она страдает от несоответствий, отсутствия стандартизации и демографических предубеждений, что ограничивает воспроизводимость. Оценка на основе языковых моделей (LLM) предлагает масштабируемую альтернативу, но она крайне чувствительна к дизайну промптов, где небольшие изменения могут привести к значительным расхождениям. В данной работе мы предлагаем метод инверсного обучения, который изучает эффективные обратные отображения от выходных данных модели к их входным инструкциям, что позволяет автоматически генерировать высокоэффективные, специфичные для модели оценочные промпты. Наш метод требует всего одного оценочного образца и устраняет необходимость в трудоемком ручном проектировании промптов, тем самым повышая как эффективность, так и надежность. Наша работа вносит вклад в новое направление для более надежной и эффективной оценки на основе LLM.
На основе анализа 1 178 статей по безопасности и надежности из 9 439 работ по генеративному ИИ (январь 2020 - март 2025) мы сравниваем результаты исследований ведущих компаний в области ИИ (Anthropic, Google DeepMind, Meta, Microsoft и OpenAI) и университетов (CMU, MIT, NYU, Стэнфорд, UC Berkeley и Университет Вашингтона). Мы обнаруживаем, что корпоративные исследования ИИ все больше сосредотачиваются на предварительных этапах — согласовании моделей и тестировании с оценкой — в то время как внимание к проблемам этапа внедрения, таким как смещение моделей, снизилось. Значительные пробелы в исследованиях существуют в высокорисковых областях внедрения, включая здравоохранение, финансы, дезинформацию, убеждающие и вызывающие зависимость функции, галлюцинации и вопросы авторского права. Без улучшения наблюдаемости за внедренными системами ИИ растущая концентрация корпоративных исследований может усугубить дефицит знаний. Мы рекомендуем расширить доступ внешних исследователей к данным о внедрении и систематическую наблюдаемость за поведением ИИ на рынке.
В реальных корпусах текстов знания часто повторяются в различных документах, но нередко содержат несоответствия из-за неоднозначных наименований, устаревшей информации или ошибок, что приводит к сложным взаимосвязям между контекстами. Предыдущие исследования показали, что языковые модели испытывают трудности с такими сложностями, обычно сосредотачиваясь на отдельных факторах изолированно. Мы классифицируем эти взаимосвязи на четыре типа: отвлекающие, неоднозначные, контрфактические и дублированные. Наш анализ показывает, что ни один из существующих подходов не эффективно решает все эти взаимосвязи одновременно. Поэтому мы представляем Context Organizer (CORG) — фреймворк, который организует множественные контексты в независимо обрабатываемые группы. Такая конструкция позволяет модели эффективно находить все релевантные ответы, обеспечивая при этом устранение неоднозначностей. CORG состоит из трех ключевых компонентов: конструктора графов, ранжировщика и агрегатора. Наши результаты демонстрируют, что CORG эффективно балансирует производительность и эффективность, превосходя существующие методы группировки и достигая результатов, сопоставимых с более вычислительно затратными подходами, работающими с единым контекстом.
Обучение решению сложных задач с использованием спецификаций временной логики сигналов (STL) имеет критически важное значение для многих реальных приложений. Однако большинство предыдущих работ рассматривают только фиксированные или параметризованные спецификации STL из-за отсутствия разнообразного набора данных STL и кодировщиков, способных эффективно извлекать информацию временной логики для последующих задач. В данной статье мы предлагаем TeLoGraF, Temporal Logic Graph-encoded Flow, который использует кодировщик на основе графовых нейронных сетей (GNN) и метод согласования потоков для обучения решений для общих спецификаций STL. Мы выделяем четыре часто используемых шаблона STL и собираем в общей сложности 200 тысяч спецификаций с парными демонстрациями. Мы проводим обширные эксперименты в пяти симуляционных средах, начиная от простых динамических моделей в двумерном пространстве и заканчивая высокоразмерными задачами для 7-степенного манипулятора Franka Panda и навигации четвероногого робота Ant. Результаты показывают, что наш метод превосходит другие базовые подходы по уровню удовлетворения спецификаций STL. По сравнению с классическими алгоритмами планирования STL, наш подход работает в 10-100 раз быстрее на этапе вывода и может применяться к любым системным динамикам. Кроме того, мы демонстрируем способность нашего метода графового кодирования решать сложные задачи STL и его устойчивость к спецификациям STL, выходящим за пределы распределения. Код доступен по адресу https://github.com/mengyuest/TeLoGraF.
Поскольку новые продукты появляются ежедневно, рекомендательные системы должны быстро адаптироваться к возможным новым доменам без необходимости в масштабном переобучении. В данной работе представлен «X-Cross» — новая модель кросс-доменной последовательной рекомендации, которая предлагает продукты в новых доменах, интегрируя несколько доменно-специфичных языковых моделей; каждая модель дообучается с использованием низкоранговых адаптеров (LoRA). Получив рекомендательный запрос, X-Cross, работая слой за слоем, динамически уточняет представление каждой исходной языковой модели, интегрируя знания из всех остальных моделей. Эти уточненные представления передаются от одного слоя к следующему, используя активации каждого доменного адаптера, чтобы сохранить доменно-специфичные нюансы, обеспечивая при этом адаптивность между доменами. Используя наборы данных Amazon для последовательной рекомендации, X-Cross демонстрирует производительность, сопоставимую с моделью, дообученной с помощью LoRA, при использовании всего 25% дополнительных параметров. В кросс-доменных задачах, таких как адаптация из домена Игрушки в домены Инструменты, Электроника или Спорт, X-Cross показывает устойчивую производительность, требуя при этом на 50%-75% меньше данных для дообучения, чем LoRA, чтобы сделать дообучение эффективным. Кроме того, X-Cross достигает значительного улучшения точности по сравнению с альтернативными кросс-доменными базовыми моделями. В целом, X-Cross обеспечивает масштабируемые и адаптивные кросс-доменные рекомендации, снижая вычислительные затраты и предоставляя эффективное решение для сред с ограниченными данными.