Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

PixelHacker: Восстановление изображений с сохранением структурной и семантической согласованности
PixelHacker: Image Inpainting with Structural and Semantic Consistency

Apr 29

ByZiyang Xu, Kangsheng Duan, Xiaolei Shen, Zhifeng Ding, Wenyu Liu, Xiaohu Ruan, Xiaoxin Chen, Xinggang Wang

Восстановление изображений является фундаментальной областью исследований, находящейся на стыке редактирования и генерации изображений. Современные передовые методы исследуют новые механизмы внимания, облегченные архитектуры и контекстно-зависимое моделирование, демонстрируя впечатляющие результаты. Однако они часто сталкиваются с трудностями при работе со сложной структурой (например, текстурой, формой, пространственными отношениями) и семантикой (например, цветовой согласованностью, восстановлением объектов и логической корректностью), что приводит к артефактам и некорректной генерации. Для решения этой проблемы мы разработали простую, но эффективную парадигму восстановления, называемую руководством по латентным категориям, и предложили модель на основе диффузии под названием PixelHacker. В частности, мы сначала создали большой набор данных, содержащий 14 миллионов пар изображение-маска, аннотировав передний и задний план (потенциально 116 и 21 категория соответственно). Затем мы отдельно кодируем представления потенциального переднего и заднего плана с помощью двух встраиваний фиксированного размера и периодически внедряем эти характеристики в процесс удаления шума через линейное внимание. Наконец, предварительно обучая на нашем наборе данных и дорабатывая на открытых эталонных тестах, мы получаем PixelHacker. Многочисленные эксперименты показывают, что PixelHacker значительно превосходит современные методы на широком спектре наборов данных (Places2, CelebA-HQ и FFHQ) и демонстрирует замечательную согласованность как в структуре, так и в семантике. Страница проекта доступна по адресу https://hustvl.github.io/PixelHacker.

Llama-Nemotron: Эффективные модели для рассуждений
Llama-Nemotron: Efficient Reasoning Models

May 2

ByAkhiad Bercovich, Itay Levy, Izik Golan, Mohammad Dabbah, Ran El-Yaniv, Omri Puny, Ido Galil, Zach Moshe, Tomer Ronen, Najeeb Nabwani, Ido Shahaf, Oren Tropp, Ehud Karpas, Ran Zilberstein, Jiaqi Zeng, Soumye Singhal, Alexander Bukharin, Yian Zhang, Tugrul Konuk, Gerald Shen, Ameya Sunil Mahabaleshwarkar, Bilal Kartal, Yoshi Suhara, Olivier Delalleau, Zijia Chen, Zhilin Wang, David Mosallanezhad, Adi Renduchintala, Haifeng Qian, Dima Rekesh, Fei Jia, Somshubra Majumdar, Vahid Noroozi, Wasi Uddin Ahmad, Sean Narenthiran, Aleksander Ficek, Mehrzad Samadi, Jocelyn Huang, Siddhartha Jain, Igor Gitman, Ivan Moshkov, Wei Du, Shubham Toshniwal, George Armstrong, Branislav Kisacanin, Matvei Novikov, Daria Gitman, Evelina Bakhturina, Jane Polak Scowcroft, John Kamalu, Dan Su, Kezhi Kong, Markus Kliegl, Rabeeh Karimi, Ying Lin, Sanjeev Satheesh, Jupinder Parmar, Pritam Gundecha, Brandon Norick, Joseph Jennings, Shrimai Prabhumoye, Syeda Nahida Akter, Mostofa Patwary, Abhinav Khattar, Deepak Narayanan, Roger Waleffe, Jimmy Zhang, Bor-Yiing Su, Guyue Huang, Terry Kong, Parth Chadha, Sahil Jain, Christine Harvey, Elad Segal, Jining Huang, Sergey Kashirsky, Robert McQueen, Izzy Putterman, George Lam, Arun Venkatesan, Sherry Wu, Vinh Nguyen, Manoj Kilaru, Andrew Wang, Anna Warno, Abhilash Somasamudramath, Sandip Bhaskar, Maka Dong, Nave Assaf, Shahar Mor, Omer Ullman Argov, Scot Junkin, Oleksandr Romanenko, Pedro Larroy, Monika Katariya, Marco Rovinelli, Viji Balas, Nicholas Edelman, Anahita Bhiwandiwalla, Muthu Subramaniam, Smita Ithape, Karthik Ramamoorthy, Yuting Wu, Suguna Varshini Velury, Omri Almog, Joyjit Daw, Denys Fridman, Erick Galinkin, Michael Evans, Katherine Luna, Leon Derczynski, Nikki Pope, Eileen Long, Seth Schneider, Guillermo Siman, Tomasz Grzegorzek, Pablo Ribalta, Monika Katariya, Joey Conway, Trisha Saar, Ann Guan, Krzysztof Pawelec, Shyamala Prayaga, Oleksii Kuchaiev, Boris Ginsburg, Oluwatobi Olabiyi, Kari Briski, Jonathan Cohen, Bryan Catanzaro, Jonah Alben, Yonatan Geifman, Eric Chung

Мы представляем серию моделей Llama-Nemotron — открытое семейство гетерогенных моделей для рассуждений, которые демонстрируют выдающиеся способности к логическому выводу, эффективность в процессе инференции и открытую лицензию для использования в корпоративной среде. Семейство включает три размера — Nano (8B), Super (49B) и Ultra (253B) — и конкурирует с передовыми моделями для рассуждений, такими как DeepSeek-R1, при этом предлагая превосходную пропускную способность инференции и эффективность использования памяти. В данном отчете мы обсуждаем процедуру обучения этих моделей, которая включает использование нейроархитектурного поиска на основе моделей Llama 3 для ускорения инференции, дистилляцию знаний и продолженное предварительное обучение, за которым следует этап пост-обучения, ориентированный на рассуждения и состоящий из двух основных частей: контролируемой тонкой настройки и масштабированного обучения с подкреплением. Модели Llama-Nemotron являются первыми открытыми моделями, поддерживающими динамическое переключение режимов рассуждений, что позволяет пользователям переключаться между стандартным чат-режимом и режимом рассуждений во время инференции. Для дальнейшего поддержания открытых исследований и облегчения разработки моделей мы предоставляем следующие ресурсы: 1. Мы выпускаем модели для рассуждений Llama-Nemotron — LN-Nano, LN-Super и LN-Ultra — под коммерчески разрешительной лицензией NVIDIA Open Model License Agreement. 2. Мы публикуем полный набор данных для пост-обучения: Llama-Nemotron-Post-Training-Dataset. 3. Мы также предоставляем наши кодовые базы для обучения: NeMo, NeMo-Aligner и Megatron-LM.

Улучшение редактируемости в генерации изображений с использованием послойной памяти
Improving Editability in Image Generation with Layer-wise Memory

May 2

ByDaneul Kim, Jaeah Lee, Jaesik Park

Большинство задач редактирования изображений в реальном мире требуют выполнения нескольких последовательных изменений для достижения желаемых результатов. Современные подходы к редактированию, в основном разработанные для модификации отдельных объектов, сталкиваются с трудностями при последовательном редактировании: особенно в поддержании предыдущих изменений и естественном встраивании новых объектов в существующий контент. Эти ограничения существенно затрудняют сложные сценарии редактирования, где необходимо изменять несколько объектов, сохраняя их контекстуальные взаимосвязи. Мы решаем эту фундаментальную задачу с помощью двух ключевых предложений: использование грубых масок, которые сохраняют существующий контент и естественно интегрируют новые элементы, а также поддержка согласованного редактирования при множественных изменениях. Наш фреймворк достигает этого за счет послойной памяти, которая сохраняет латентные представления и эмбеддинги промптов из предыдущих изменений. Мы предлагаем Guidance для согласованности фона, который использует запомненные латентные представления для поддержания целостности сцены, и Multi-Query Disentanglement в кросс-внимании, что обеспечивает естественную адаптацию к существующему контенту. Для оценки нашего метода мы представляем новый эталонный набор данных, включающий метрики семантического выравнивания и сценарии интерактивного редактирования. В ходе всесторонних экспериментов мы демонстрируем превосходную производительность в задачах итеративного редактирования изображений с минимальными усилиями пользователя, требуя только грубых масок и поддерживая высокое качество результатов на протяжении нескольких шагов редактирования.

За пределами универсальности: обучение инверсии для создания высокоэффективных промптов оценки генерации естественного языка
Beyond One-Size-Fits-All: Inversion Learning for Highly Effective NLG Evaluation Prompts

Apr 29

ByHanhua Hong, Chenghao Xiao, Yang Wang, Yiqi Liu, Wenge Rong, Chenghua Lin

Оценка систем генерации естественного языка (NLG) представляет собой сложную задачу из-за разнообразия допустимых выходных данных. Хотя человеческая оценка считается золотым стандартом, она страдает от несоответствий, отсутствия стандартизации и демографических предубеждений, что ограничивает воспроизводимость. Оценка на основе языковых моделей (LLM) предлагает масштабируемую альтернативу, но она крайне чувствительна к дизайну промптов, где небольшие изменения могут привести к значительным расхождениям. В данной работе мы предлагаем метод инверсного обучения, который изучает эффективные обратные отображения от выходных данных модели к их входным инструкциям, что позволяет автоматически генерировать высокоэффективные, специфичные для модели оценочные промпты. Наш метод требует всего одного оценочного образца и устраняет необходимость в трудоемком ручном проектировании промптов, тем самым повышая как эффективность, так и надежность. Наша работа вносит вклад в новое направление для более надежной и эффективной оценки на основе LLM.

Реальные пробелы в исследованиях управления искусственным интеллектом
Real-World Gaps in AI Governance Research

Apr 30

ByIlan Strauss, Isobel Moure, Tim O'Reilly, Sruly Rosenblat

На основе анализа 1 178 статей по безопасности и надежности из 9 439 работ по генеративному ИИ (январь 2020 - март 2025) мы сравниваем результаты исследований ведущих компаний в области ИИ (Anthropic, Google DeepMind, Meta, Microsoft и OpenAI) и университетов (CMU, MIT, NYU, Стэнфорд, UC Berkeley и Университет Вашингтона). Мы обнаруживаем, что корпоративные исследования ИИ все больше сосредотачиваются на предварительных этапах — согласовании моделей и тестировании с оценкой — в то время как внимание к проблемам этапа внедрения, таким как смещение моделей, снизилось. Значительные пробелы в исследованиях существуют в высокорисковых областях внедрения, включая здравоохранение, финансы, дезинформацию, убеждающие и вызывающие зависимость функции, галлюцинации и вопросы авторского права. Без улучшения наблюдаемости за внедренными системами ИИ растущая концентрация корпоративных исследований может усугубить дефицит знаний. Мы рекомендуем расширить доступ внешних исследователей к данным о внедрении и систематическую наблюдаемость за поведением ИИ на рынке.

CORG: Генерация ответов на основе сложных взаимосвязанных контекстов
CORG: Generating Answers from Complex, Interrelated Contexts

Apr 25

ByHyunji Lee, Franck Dernoncourt, Trung Bui, Seunghyun Yoon

В реальных корпусах текстов знания часто повторяются в различных документах, но нередко содержат несоответствия из-за неоднозначных наименований, устаревшей информации или ошибок, что приводит к сложным взаимосвязям между контекстами. Предыдущие исследования показали, что языковые модели испытывают трудности с такими сложностями, обычно сосредотачиваясь на отдельных факторах изолированно. Мы классифицируем эти взаимосвязи на четыре типа: отвлекающие, неоднозначные, контрфактические и дублированные. Наш анализ показывает, что ни один из существующих подходов не эффективно решает все эти взаимосвязи одновременно. Поэтому мы представляем Context Organizer (CORG) — фреймворк, который организует множественные контексты в независимо обрабатываемые группы. Такая конструкция позволяет модели эффективно находить все релевантные ответы, обеспечивая при этом устранение неоднозначностей. CORG состоит из трех ключевых компонентов: конструктора графов, ранжировщика и агрегатора. Наши результаты демонстрируют, что CORG эффективно балансирует производительность и эффективность, превосходя существующие методы группировки и достигая результатов, сопоставимых с более вычислительно затратными подходами, работающими с единым контекстом.

WorldGenBench: Бенчмарк для генерации изображений из текста с интеграцией знаний о мире и акцентом на рассуждения
WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation

May 2

ByDaoan Zhang, Che Jiang, Ruoshi Xu, Biaoxiang Chen, Zijian Jin, Yutian Lu, Jianguo Zhang, Liang Yong, Jiebo Luo, Shengda Luo

Последние достижения в области генерации изображений по текстовым описаниям (Text-to-Image, T2I) демонстрируют впечатляющие результаты, однако существующие модели по-прежнему испытывают трудности с запросами, требующими глубоких знаний о мире и неявного логического вывода. Оба этих аспекта критически важны для создания семантически точных, связных и контекстуально уместных изображений в реальных сценариях. Для устранения этого пробела мы представляем WorldGenBench — эталонный набор данных, предназначенный для систематической оценки способности моделей T2I к заземлению знаний о мире и неявному логическому выводу, охватывающий как гуманитарные, так и естественнонаучные области. Мы предлагаем метрику Knowledge Checklist Score, структурированный показатель, который измеряет, насколько хорошо сгенерированные изображения соответствуют ключевым семантическим ожиданиям. Эксперименты с 21 современной моделью показывают, что, хотя диффузионные модели лидируют среди открытых методов, проприетарные авторегрессивные модели, такие как GPT-4o, демонстрируют значительно более сильные способности к логическому выводу и интеграции знаний. Наши результаты подчеркивают необходимость более глубокого понимания и логического вывода в системах T2I следующего поколения. Страница проекта: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}

X-Cross: Динамическая интеграция языковых моделей для кросс-доменных последовательных рекомендаций
X-Cross: Dynamic Integration of Language Models for Cross-Domain Sequential Recommendation

Apr 29

ByGuy Hadad, Haggai Roitman, Yotam Eshel, Bracha Shapira, Lior Rokach

Поскольку новые продукты появляются ежедневно, рекомендательные системы должны быстро адаптироваться к возможным новым доменам без необходимости в масштабном переобучении. В данной работе представлен «X-Cross» — новая модель кросс-доменной последовательной рекомендации, которая предлагает продукты в новых доменах, интегрируя несколько доменно-специфичных языковых моделей; каждая модель дообучается с использованием низкоранговых адаптеров (LoRA). Получив рекомендательный запрос, X-Cross, работая слой за слоем, динамически уточняет представление каждой исходной языковой модели, интегрируя знания из всех остальных моделей. Эти уточненные представления передаются от одного слоя к следующему, используя активации каждого доменного адаптера, чтобы сохранить доменно-специфичные нюансы, обеспечивая при этом адаптивность между доменами. Используя наборы данных Amazon для последовательной рекомендации, X-Cross демонстрирует производительность, сопоставимую с моделью, дообученной с помощью LoRA, при использовании всего 25% дополнительных параметров. В кросс-доменных задачах, таких как адаптация из домена Игрушки в домены Инструменты, Электроника или Спорт, X-Cross показывает устойчивую производительность, требуя при этом на 50%-75% меньше данных для дообучения, чем LoRA, чтобы сделать дообучение эффективным. Кроме того, X-Cross достигает значительного улучшения точности по сравнению с альтернативными кросс-доменными базовыми моделями. В целом, X-Cross обеспечивает масштабируемые и адаптивные кросс-доменные рекомендации, снижая вычислительные затраты и предоставляя эффективное решение для сред с ограниченными данными.

TeLoGraF: Планирование с использованием временной логики через сопоставление потоков, закодированных графами
TeLoGraF: Temporal Logic Planning via Graph-encoded Flow Matching

May 1

ByYue Meng, Chuchu Fan

Обучение решению сложных задач с использованием спецификаций временной логики сигналов (STL) имеет критически важное значение для многих реальных приложений. Однако большинство предыдущих работ рассматривают только фиксированные или параметризованные спецификации STL из-за отсутствия разнообразного набора данных STL и кодировщиков, способных эффективно извлекать информацию временной логики для последующих задач. В данной статье мы предлагаем TeLoGraF, Temporal Logic Graph-encoded Flow, который использует кодировщик на основе графовых нейронных сетей (GNN) и метод согласования потоков для обучения решений для общих спецификаций STL. Мы выделяем четыре часто используемых шаблона STL и собираем в общей сложности 200 тысяч спецификаций с парными демонстрациями. Мы проводим обширные эксперименты в пяти симуляционных средах, начиная от простых динамических моделей в двумерном пространстве и заканчивая высокоразмерными задачами для 7-степенного манипулятора Franka Panda и навигации четвероногого робота Ant. Результаты показывают, что наш метод превосходит другие базовые подходы по уровню удовлетворения спецификаций STL. По сравнению с классическими алгоритмами планирования STL, наш подход работает в 10-100 раз быстрее на этапе вывода и может применяться к любым системным динамикам. Кроме того, мы демонстрируем способность нашего метода графового кодирования решать сложные задачи STL и его устойчивость к спецификациям STL, выходящим за пределы распределения. Код доступен по адресу https://github.com/mengyuest/TeLoGraF.