Ежедневно отобранные исследовательские статьи по ИИ с переводами
Многошаговая генерация с расширением выборки (RAG) стала широко применяемой стратегией для улучшения работы больших языковых моделей (LLM) при решении задач, требующих глобального понимания и интенсивных рассуждений. Многие системы RAG включают модуль рабочей памяти для консолидации извлеченной информации. Однако существующие архитектуры памяти функционируют преимущественно как пассивное хранилище, которое накапливает изолированные факты с целью сжатия объемных входных данных и генерации новых подзапросов путем дедукции. Этот статичный характер игнорирует важные корреляции высокого порядка между первичными фактами, комбинации которых часто могут предоставить более сильные ориентиры для последующих шагов. Следовательно, их репрезентативная сила и влияние на многошаговые рассуждения и эволюцию знаний ограничены, что приводит к фрагментированным умозаключениям и слабой способности к глобальному осмыслению в расширенных контекстах. Мы представляем HGMem — механизм памяти на основе гиперграфов, который расширяет концепцию памяти за пределы простого хранилища до динамичной, выразительной структуры для сложных рассуждений и глобального понимания. В нашем подходе память представлена в виде гиперграфа, гиперребра которого соответствуют отдельным единицам памяти, что позволяет прогрессивно формировать взаимодействия высшего порядка внутри памяти. Этот механизм связывает факты и мысли вокруг ключевой проблемы, эволюционируя в интегрированную и ситуативную структуру знаний, которая предоставляет веские предпосылки для более глубоких рассуждений на последующих шагах. Мы оцениваем HGMem на нескольких сложных наборах данных, предназначенных для глобального осмысления. Многочисленные эксперименты и углубленный анализ показывают, что наш метод последовательно улучшает многошаговую RAG и существенно превосходит сильные базовые системы в разнообразных задачах.
Крупные языковые модели (LLM) применяют единообразные вычисления ко всем токенам, несмотря на то, что язык характеризуется крайне неравномерной плотностью информации. Такой равномерный по токенам режим растрачивает вычислительную мощность на локально предсказуемые участки, одновременно недостаточно выделяя ресурсов на семантически важные переходы. Мы предлагаем Динамические модели крупных концептов (DLCM) — иерархическую framework моделирования языка, которая обучается определять семантические границы по латентным представлениям и переносит вычисления с токенов в сжатое концептуальное пространство, где рассуждения эффективнее. DLCM обнаруживает концепты переменной длины сквозным образом, не опираясь на предопределенные лингвистические единицы. Иерархическое сжатие фундаментально меняет характер масштабирования. Мы представляем первый закон масштабирования, учитывающий сжатие, который разделяет ёмкость на уровне токенов, ёмкость для рассуждений на уровне концептов и коэффициент сжатия, что позволяет осуществлять принципиальное распределение вычислений при фиксированных FLOPs. Для стабильного обучения этой гетерогенной архитектуры мы дополнительно разработали развязанную μP-параметризацию, которая поддерживает zero-shot перенос гиперпараметров между разной шириной моделей и режимами сжатия. В практической конфигурации (R=4, что соответствует усреднённому объединению четырёх токенов в один концепт) DLCM перераспределяет примерно треть вычислительных затрат на стадии вывода в бэкбон для рассуждений с большей ёмкостью, демонстрируя в среднем улучшение на +2.69% на 12 zero-shot бенчмарках при равных FLOPs на вывод.
Хотя современные мультимодальные большие языковые модели (МБЯМ) достигли значительного прогресса в области мультимодальных рассуждений, их процесс мышления остается преимущественно текстоцентричным, что приводит к неоптимальной производительности в сложных долгосрочных визуально-ориентированных задачах. В данной статье мы предлагаем новую парадигму генеративных мультимодальных рассуждений и представляем DiffThinker — диффузионную архитектуру для рассуждений. Концептуально DiffThinker переформулирует мультимодальные рассуждения как изначально генеративную задачу преобразования изображений, достигая превосходной логической согласованности и пространственной точности в визуально-ориентированных задачах. Мы проводим систематическое сравнение DiffThinker с МБЯМ, представляя первое глубокое исследование внутренних характеристик данной парадигмы и выявляя четыре ключевых свойства: эффективность, управляемость, изначальный параллелизм и способность к коллаборации. Масштабные эксперименты в четырех областях (последовательное планирование, комбинаторная оптимизация, удовлетворение ограничений и пространственная конфигурация) демонстрируют, что DiffThinker существенно превосходит ведущие проприетарные модели, включая GPT-5 (+314.2%) и Gemini-3-Flash (+111.6%), а также дообученную базовую модель Qwen3-VL-32B (+39.0%), что подтверждает перспективность генеративного подхода к мультимодальным рассуждениям для визуально-ориентированного мышления.
Диффузионные модели обладают привлекательными свойствами для генерации языка, такими как параллельное декодирование и итеративное уточнение, однако дискретная и сильно структурированная природа текста создает трудности для прямого применения принципов диффузии. В данной статье мы пересматриваем диффузионное языковое моделирование с точки зрения процесса диффузии и языкового моделирования, и выделяем пять свойств, которые отделяют механику диффузии от языковых требований. Сначала мы классифицируем существующие подходы на непрерывную диффузию в пространстве эмбеддингов и дискретную диффузию над токенами. Затем мы показываем, что каждый из подходов удовлетворяет лишь части пяти существенных свойств и, следовательно, отражает структурный компромисс. На основе анализа недавних крупных диффузионных языковых моделей мы выявляем две центральные проблемы: (i) равномерная порча не учитывает распределение информации по позициям, и (ii) маргинальное обучение на уровне токенов не способно уловить зависимости между несколькими токенами при параллельном декодировании. Эти наблюдения мотивируют разработку процессов диффузии, которые более тесно согласуются со структурой текста, и стимулируют дальнейшие исследования в направлении создания более связных диффузионных языковых моделей.
В данной работе мы показываем, что влияние емкости модели варьируется на разных временных шагах: оно критически важно на начальных и конечных стадиях, но в значительной степени пренебрежимо на промежуточной стадии. Соответственно, мы предлагаем FlowBlending, стратегию много-модельного сэмплирования, учитывающую стадию процесса, которая использует большую модель на стадиях, чувствительных к емкости, и малую модель — на промежуточных стадиях. Мы также вводим простые критерии для выбора границ стадий и предлагаем анализ дивергенции скорости в качестве эффективного косвенного метода для идентификации областей, чувствительных к емкости модели. На примерах моделей LTX-Video (2B/13B) и WAN 2.1 (1.3B/14B) FlowBlending позволяет достичь до 1.65-кратного ускорения вывода с уменьшением количества FLOPs на 57.35%, при этом сохраняя визуальное качество, временную согласованность и семантическую точность больших моделей. FlowBlending также совместим с существующими техниками ускорения сэмплирования, позволяя достичь дополнительного ускорения до 2 раз. Страница проекта доступна по адресу: https://jibin86.github.io/flowblending_project_page.
Генеративное моделирование видео стало мощным инструментом для zero-shot прогнозирования правдоподобных физических взаимодействий в задачах манипулирования в открытом мире. Однако преобразование таких движений, заданных человеком, в низкоуровневые действия, требуемые роботизированными системами, остается сложной задачей. Мы наблюдаем, что при заданном исходном изображении и инструкции к задаче эти модели успешно синтезируют осмысленные движения объектов. Таким образом, мы представляем Dream2Flow — фреймворк, который связывает генерацию видео и роботизированное управление через 3D-поток объектов в качестве промежуточного представления. Наш метод восстанавливает 3D-движения объектов из сгенерированных видео и формулирует манипуляцию как отслеживание траектории объекта. Разделяя изменения состояния от исполнительных механизмов, которые реализуют эти изменения, Dream2Flow преодолевает разрыв воплощения и позволяет использовать zero-shot-руководство от предварительно обученных видео-моделей для манипулирования объектами разнообразных категорий, включая жесткие, сочлененные, деформируемые и сыпучие. С помощью оптимизации траекторий или обучения с подкреплением Dream2Flow преобразует восстановленный 3D-поток объектов в исполняемые низкоуровневые команды без демонстраций для конкретных задач. Эксперименты в симуляции и реальном мире демонстрируют, что 3D-поток объектов является универсальным и масштабируемым интерфейсом для адаптации моделей генерации видео к роботизированному манипулированию в открытом мире. Видео и визуализации доступны по адресу https://dream2flow.github.io/.
Оптимизация методом моделирования (ОММ) часто сталкивается с такими проблемами, как зашумленные оценки, высокая вычислительная стоимость и сложные многомодальные пространства поиска. В данной статье представлена Табу-усиленная оптимизация методом моделирования (ТУОММ) — новый метаэвристический фреймворк, объединяющий адаптивный поиск со стратегиями, основанными на памяти. ТУОММ использует краткосрочный Табу-список для предотвращения зацикливания и стимулирования диверсификации, а также долгосрочную Элитную память для управления интенсификацией путем возмущения высококачественных решений. Критерий аспирации позволяет отменять табу-ограничения для исключительных кандидатов. Такое сочетание обеспечивает динамический баланс между исследованием и использованием в стохастических средах. Мы демонстрируем эффективность и надежность ТУОММ на примере задачи оптимизации очереди, показывая улучшение производительности по сравнению с эталонными методами и подтверждая вклад компонентов памяти. Исходный код и данные доступны по адресу: https://github.com/bulentsoykan/TESO.