Ежедневно отобранные исследовательские статьи по ИИ с переводами
Генерация с усилением поиска (RAG) повышает фактическую точность больших языковых моделей (LLM) за счет внедрения внешних знаний, однако она оказывается недостаточно эффективной для задач, требующих многошагового вывода; с другой стороны, подходы, ориентированные исключительно на рассуждения, часто порождают галлюцинации или некорректно привязывают факты. Этот обзор объединяет оба направления в рамках единой перспективы рассуждений и поиска. Сначала мы описываем, как продвинутые методы рассуждений оптимизируют каждый этап RAG (RAG с усилением рассуждений). Затем мы показываем, как извлеченные знания различных типов восполняют недостающие предпосылки и расширяют контекст для сложного вывода (Рассуждения с усилением RAG). Наконец, мы выделяем новые синергетические фреймворки RAG-Рассуждения, в которых (агентные) LLM итеративно чередуют поиск и рассуждения для достижения передовых результатов на тестах, требующих интенсивного использования знаний. Мы классифицируем методы, наборы данных и открытые вызовы, а также намечаем направления исследований для создания более глубоких систем RAG-Рассуждений, которые будут более эффективными, адаптивными к мультимодальности, надежными и ориентированными на человека. Коллекция доступна по адресу https://github.com/DavidZWZ/Awesome-RAG-Reasoning.
Оптимизация производительности кода имеет первостепенное значение в реальной разработке программного обеспечения и критически важна для производственных систем. Хотя крупные языковые модели (LLM) продемонстрировали впечатляющие возможности в генерации кода и исправлении ошибок, их способность улучшать производительность кода на уровне репозитория остаётся в значительной степени неисследованной. Чтобы устранить этот пробел, мы представляем SWE-Perf — первый бенчмарк, специально разработанный для систематической оценки LLM в задачах оптимизации производительности кода в контексте реальных репозиториев. SWE-Perf включает 140 тщательно отобранных примеров, каждый из которых основан на пул-реквестах, направленных на улучшение производительности, из популярных репозиториев GitHub. Каждый пример бенчмарка содержит соответствующий код, целевые функции, тесты, связанные с производительностью, патчи, созданные экспертами, и исполняемые среды. В ходе всесторонней оценки репрезентативных методов, охватывающих подходы на уровне файлов и репозиториев (например, Agentless и OpenHands), мы выявили значительный разрыв между существующими LLM и экспертным уровнем оптимизации, подчеркивая важные исследовательские возможности в этой развивающейся области.
3D-моделирование переходит от виртуального к физическому. Существующие методы генерации 3D-моделей в основном сосредоточены на геометрии и текстурах, игнорируя физически обоснованное моделирование. В результате, несмотря на быстрое развитие генеративных моделей 3D, синтезированные 3D-активы часто упускают из виду богатые и важные физические свойства, что затрудняет их применение в реальных физических областях, таких как симуляции и воплощённый ИИ. В качестве первоначальной попытки решить эту проблему мы предлагаем PhysX — сквозной подход для генерации физически обоснованных 3D-активов. 1) Чтобы устранить критический пробел в наборах данных 3D с физической аннотацией, мы представляем PhysXNet — первый физически обоснованный набор данных 3D, систематически аннотированный по пяти основным измерениям: абсолютный масштаб, материал, аффордансы, кинематика и описание функций. В частности, мы разработали масштабируемый конвейер аннотирования с участием человека, основанный на моделях "визуальный язык", который позволяет эффективно создавать активы с приоритетом физики из исходных 3D-активов. 2) Кроме того, мы предлагаем PhysXGen — прямой фреймворк для генерации физически обоснованных 3D-активов из изображений, внедряющий физические знания в предварительно обученное пространство 3D-структур. В частности, PhysXGen использует двухветвевую архитектуру для явного моделирования скрытых корреляций между 3D-структурами и физическими свойствами, что позволяет создавать 3D-активы с правдоподобными физическими предсказаниями, сохраняя при этом исходное качество геометрии. Многочисленные эксперименты подтверждают превосходную производительность и перспективные возможности обобщения нашего фреймворка. Весь код, данные и модели будут опубликованы для содействия будущим исследованиям в области генеративного физического ИИ.
Люди являются неотъемлемыми компонентами транспортной экосистемы, и понимание их поведения крайне важно для разработки безопасных систем вождения. Хотя недавние исследования изучили различные аспекты человеческого поведения — такие как движение, траектории и намерения — всеобъемлющий эталон для оценки понимания человеческого поведения в автономном вождении до сих пор отсутствует. В данной работе мы представляем MMHU, крупномасштабный эталон для анализа человеческого поведения, включающий богатые аннотации, такие как движение и траектории человека, текстовые описания движений, намерения человека и метки критического поведения, связанного с безопасностью вождения. Наш набор данных охватывает 57 тысяч клипов с движением человека и 1,73 миллиона кадров, собранных из различных источников, включая известные наборы данных по вождению, такие как Waymo, видеоролики из реальной жизни с YouTube и самостоятельно собранные данные. Для создания подробных описаний поведения разработан процесс аннотирования с участием человека. Мы проводим тщательный анализ набора данных и тестируем множество задач — от прогнозирования движения до генерации движения и ответов на вопросы о поведении человека — предлагая широкий набор инструментов для оценки. Страница проекта: https://MMHU-Benchmark.github.io.
Обеспечение динамичного и реалистичного реагирования виртуальных персонажей на разнообразные звуковые стимулы остается ключевой задачей в анимации персонажей, требующей интеграции моделей восприятия и синтеза движений. Несмотря на свою значимость, эта задача остается в значительной степени неисследованной. Большинство предыдущих работ в основном сосредоточились на сопоставлении модальностей, таких как речь, аудио и музыка, для генерации движений человека. Однако до сих пор эти модели обычно игнорируют влияние пространственных характеристик, закодированных в пространственных аудиосигналах, на движения человека. Чтобы устранить этот пробел и обеспечить высококачественное моделирование движений человека в ответ на пространственное аудио, мы представляем первый всеобъемлющий набор данных Spatial Audio-Driven Human Motion (SAM), содержащий разнообразные и высококачественные данные пространственного аудио и движений. Для бенчмаркинга мы разрабатываем простую, но эффективную диффузионную генеративную модель для создания движений человека, управляемых пространственным аудио, под названием MOSPA, которая точно отражает связь между движениями тела и пространственным аудио через эффективный механизм слияния. После обучения MOSPA способна генерировать разнообразные реалистичные движения человека в зависимости от различных входных данных пространственного аудио. Мы проводим тщательное исследование предложенного набора данных и выполняем обширные эксперименты для бенчмаркинга, где наш метод демонстрирует наилучшие результаты в этой задаче. Наша модель и набор данных будут опубликованы в открытом доступе после принятия. Для получения дополнительной информации, пожалуйста, обратитесь к нашему дополнительному видео.
Крупные языковые модели (LLM) агенты продемонстрировали значительный потенциал для решения реальных задач и обещают стать решением для автоматизации процессов в промышленности. Однако для систематической оценки агентов автоматизации с промышленной точки зрения, например, в гражданском строительстве, требуется больше тестовых наборов. Поэтому мы предлагаем DrafterBench для всесторонней оценки LLM агентов в контексте пересмотра технических чертежей, что является важной задачей в гражданском строительстве. DrafterBench включает двенадцать типов задач, обобщенных из реальных файлов чертежей, с 46 настраиваемыми функциями/инструментами и 1920 задачами в общей сложности. DrafterBench представляет собой открытый тестовый набор для строгой проверки способности AI агентов интерпретировать сложные и длинные инструкции, использовать предварительные знания и адаптироваться к динамическому качеству инструкций через неявное осознание политики. Набор инструментов всесторонне оценивает различные способности, такие как понимание структурированных данных, выполнение функций, следование инструкциям и критическое мышление. DrafterBench предлагает детальный анализ точности выполнения задач и статистики ошибок, стремясь предоставить более глубокое понимание возможностей агентов и выявить цели для улучшения интеграции LLM в инженерные приложения. Наш тестовый набор доступен по адресу https://github.com/Eason-Li-AIS/DrafterBench, а тестовый набор размещен на https://huggingface.co/datasets/Eason666/DrafterBench.
Сообщество, работающее с большими языковыми моделями (LLM), почти исключительно сосредоточено на декодерных моделях, поскольку их проще использовать для генерации текста. Однако значительная часть сообщества по-прежнему применяет модели, основанные только на энкодерах, для таких задач, как классификация или поиск. Предыдущие исследования пытались сравнить эти архитектуры, но были вынуждены проводить сравнения между моделями с разным количеством параметров, методами обучения и наборами данных. Мы представляем набор моделей SOTA open-data Ettin: парные модели, основанные только на энкодерах и только на декодерах, с количеством параметров от 17 миллионов до 1 миллиарда, обученные на до 2 триллионов токенов. Использование одного и того же подхода для моделей, основанных только на энкодерах и только на декодерах, позволяет достичь SOTA результатов в обеих категориях для соответствующих размеров, превосходя ModernBERT в качестве энкодера и Llama 3.2 и SmolLM2 в качестве декодеров. Как и в предыдущих работах, мы обнаруживаем, что модели, основанные только на энкодерах, превосходно справляются с задачами классификации и поиска, в то время как декодеры лучше подходят для генеративных задач. Однако мы показываем, что адаптация декодерной модели к задачам энкодера (и наоборот) путем продолжения обучения уступает использованию только обратной цели (например, энкодер на 400 миллионов параметров превосходит декодер на 1 миллиард на MNLI, и наоборот для генеративных задач). Мы открываем исходные коды всех материалов этого исследования, включая данные для обучения, порядок обучения, разделенный по контрольным точкам, и более 200 контрольных точек, чтобы позволить будущим исследованиям анализировать или расширять все аспекты обучения.
Мы представляем Lizard — фреймворк для линеаризации, который преобразует предобученные трансформерные модели больших языковых моделей (LLM) в гибкие субквадратичные архитектуры для генерации с бесконечным контекстом. Трансформерные LLM сталкиваются с существенными ограничениями памяти и вычислительной сложности при увеличении длины контекста из-за квадратичной сложности softmax-внимания и растущего кэша ключей-значений (KV). Lizard устраняет эти ограничения, вводя субквадратичный механизм внимания, который близко аппроксимирует softmax-внимание, сохраняя при этом качество выходных данных. В отличие от предыдущих методов линеаризации, которые часто ограничены фиксированными структурами моделей и исключают механизмы гейтинга, Lizard включает модуль гейтинга, вдохновленный современными линейными моделями. Это позволяет адаптивно управлять памятью, поддерживать вывод с постоянной памятью, обеспечивать сильное обобщение на длинных последовательностях и предоставляет более гибкий дизайн модели. Lizard сочетает гейтированное линейное внимание для глобального сжатия контекста с вниманием скользящего окна, усиленным мета-памятью, формируя гибридный механизм, который захватывает как долгосрочные зависимости, так и тонкие локальные взаимодействия. Кроме того, мы представляем аппаратно-ориентированный алгоритм, который ускоряет обучение наших моделей. Многочисленные эксперименты показывают, что Lizard достигает почти без потерь восстановления производительности учительской модели на стандартных задачах языкового моделирования, значительно превосходя предыдущие методы линеаризации. На бенчмарке MMLU с 5-shot Lizard улучшает результаты предыдущих моделей на 18 пунктов и демонстрирует значительные улучшения на задачах ассоциативного воспроизведения.
Последние достижения в области генерации видео, особенно в моделях диффузии, способствовали значительному прогрессу в синтезе видео из текста (T2V) и из изображений (I2V). Однако остаются проблемы в эффективной интеграции динамических сигналов движения и гибких пространственных ограничений. Существующие методы T2V обычно полагаются на текстовые подсказки, которые по своей природе не обеспечивают точного контроля над пространственной компоновкой генерируемого контента. В свою очередь, методы I2V ограничены зависимостью от реальных изображений, что снижает редактируемость синтезированного контента. Хотя некоторые методы используют ControlNet для введения условий на основе изображений, они часто не обеспечивают явного контроля над движением и требуют дорогостоящих вычислительных ресурсов для обучения. Чтобы устранить эти ограничения, мы предлагаем AnyI2V — бесплатную для обучения платформу, которая анимирует любые условные изображения с заданными пользователем траекториями движения. AnyI2V поддерживает более широкий спектр модальностей в качестве условного изображения, включая типы данных, такие как сетки и облака точек, которые не поддерживаются ControlNet, что обеспечивает более гибкую и универсальную генерацию видео. Кроме того, она поддерживает смешанные условные входы и позволяет выполнять перенос стиля и редактирование с помощью LoRA и текстовых подсказок. Многочисленные эксперименты демонстрируют, что предложенный AnyI2V достигает превосходной производительности и открывает новые перспективы в управляемой пространственно-двигательной генерации видео. Код доступен по адресу https://henghuiding.com/AnyI2V/.
Мы представляем SpatialTrackerV2 — метод прямого 3D-отслеживания точек для монохромных видео. В отличие от модульных подходов, основанных на готовых компонентах для 3D-отслеживания, наш метод объединяет внутренние связи между отслеживанием точек, монохромной оценкой глубины и оценкой позы камеры в высокопроизводительный и прямой 3D-трекер точек. Он разлагает движение в мировом пространстве на геометрию сцены, эго-движение камеры и поточечное движение объектов, используя полностью дифференцируемую и сквозную архитектуру, что позволяет масштабируемое обучение на широком спектре данных, включая синтетические последовательности, RGB-D видео с известной позой и немаркированные записи из реального мира. Благодаря совместному обучению геометрии и движению на таких разнородных данных, SpatialTrackerV2 превосходит существующие методы 3D-отслеживания на 30% и достигает точности ведущих подходов к динамической 3D-реконструкции, работая при этом в 50 раз быстрее.
Последние достижения установили новую парадигму машинного обучения, основанную на масштабировании вычислительных ресурсов как во время обучения, так и во время вывода. В рамках этого направления используется комбинация контролируемого тонкого настройки (Supervised Fine-Tuning, SFT) на синтетических демонстрациях и обучения с подкреплением с верифицируемыми наградами (Reinforcement Learning with Verifiable Rewards, RLVR) для обучения крупных языковых моделей расходовать дополнительные вычислительные ресурсы во время вывода в форме "мыслей", выраженных на естественном языке. В данной статье мы предлагаем вместо этого форматировать эти токены как многошаговое взаимодействие с инструментом, сохраняющим состояние. На каждом шаге новое состояние инструмента добавляется в контекст модели, задача которой — генерировать токены, необходимые для управления инструментом через пользовательский DSL. Мы тестируем этот подход на задаче исправления неисправного кода на Python и показываем, что такая ограниченная настройка позволяет ускорить выборку опыта и получить более плотный сигнал награды, что позволяет даже моделям размером до 3 миллиардов параметров научиться эффективно расходовать дополнительные вычислительные ресурсы на выполнение задачи.
В данной статье представлено участие команды AI Wizards в задаче 1 лаборатории CLEF 2025 CheckThat!: "Определение субъективности в новостных статьях", где предложения классифицируются как субъективные/объективные в моноязычных, многоязычных и условиях zero-shot. Обучающие и тестовые наборы данных были предоставлены для арабского, немецкого, английского, итальянского и болгарского языков; финальная оценка включала дополнительные непредставленные языки (например, греческий, румынский, польский, украинский) для оценки обобщающей способности моделей. Основная стратегия заключалась в улучшении классификаторов на основе трансформеров путем интеграции оценок тональности, полученных с помощью вспомогательной модели, с представлениями предложений, что направлено на повышение эффективности по сравнению со стандартной тонкой настройкой. Мы исследовали эту архитектуру, дополненную данными о тональности, с использованием моделей mDeBERTaV3-base, ModernBERT-base (для английского языка) и Llama3.2-1B. Для решения проблемы дисбаланса классов, характерной для всех языков, мы применили калибровку порогов принятия решений, оптимизированную на тестовом наборе данных. Наши эксперименты показали, что интеграция признаков тональности значительно повышает производительность, особенно показатель F1 для субъективных предложений. Этот подход позволил достичь высоких результатов, в частности, первого места для греческого языка (Macro F1 = 0,51).
Обучение с подкреплением (RL) для крупных языковых моделей является энергозатратным процессом: обучение может быть нестабильным, а политика может постепенно отклоняться от своих предварительно обученных весов. Мы представляем RLEP — Reinforcement Learning with Experience rePlay — двухэтапную структуру, которая сначала собирает проверенные траектории, а затем воспроизводит их в ходе последующего обучения. На каждом шаге обновления политика оптимизируется на мини-батчах, которые сочетают вновь сгенерированные развертки с этими воспроизведенными успехами. Воспроизводя высококачественные примеры, RLEP направляет модель в сторону от бесполезного исследования, сосредотачивает обучение на перспективных путях рассуждений и обеспечивает как более быструю сходимость, так и более высокую итоговую производительность. На базовой модели Qwen2.5-Math-7B RLEP достигает пиковой точности базового уровня с существенно меньшим количеством обновлений и в конечном итоге превосходит его, улучшая точность на AIME-2024 с 38,2% до 39,9%, на AIME-2025 с 19,8% до 22,3% и на AMC-2023 с 77,0% до 82,2%. Наш код, наборы данных и контрольные точки доступны публично по адресу https://github.com/Kwai-Klear/RLEP для обеспечения воспроизводимости и дальнейших исследований.
Быстрая эволюция программных библиотек представляет собой значительное препятствие для генерации кода, требуя постоянной адаптации к частым обновлениям версий при сохранении обратной совместимости. Хотя существующие бенчмарки эволюции кода предоставляют ценные данные, они обычно не включают оценку на основе выполнения для генерации кода, соответствующего конкретным версиям библиотек. Для решения этой проблемы мы представляем GitChameleon — новый тщательно отобранный набор данных, содержащий 328 задач на завершение кода на Python, каждая из которых привязана к конкретным версиям библиотек и сопровождается исполняемыми модульными тестами. GitChameleon строго оценивает способность современных больших языковых моделей (LLM), агентов на основе LLM, помощников по коду и систем RAG выполнять генерацию кода, зависящую от версии, с демонстрацией функциональной точности через выполнение. Наши обширные оценки показывают, что современные системы сталкиваются с серьезными трудностями при решении этой задачи; корпоративные модели достигают базовых показателей успешности в диапазоне 48–51\%, что подчеркивает сложность проблемы. Предлагая бенчмарк на основе выполнения, акцентирующий внимание на динамической природе библиотек кода, GitChameleon позволяет лучше понять эту задачу и способствует разработке более адаптируемых и надежных методов генерации кода с использованием ИИ. Мы делаем набор данных и код для оценки общедоступными по адресу https://github.com/mrcabbage972/GitChameleonBenchmark.
Мультимодальные модели базового уровня часто создаются путем объединения нескольких существующих предобученных унимодальных моделей: например, классификатора изображений с текстовой моделью. Этот процесс объединения осуществляется путем обучения соединительного модуля, который стремится согласовать пространства представлений этих унимодальных моделей для достижения мультимодальной цели. Однако, учитывая сложность обучения таких соединительных модулей на крупномасштабных веб-данных, а также постоянно растущее количество доступных предобученных унимодальных моделей, задача выбора унимодальных моделей и последующего обучения соединительного модуля становится вычислительно затратной. Для решения этой недостаточно изученной критической проблемы мы предлагаем **Hypernetwork Model Alignment (Hyma)** — новое универсальное решение для оптимального выбора унимодальных моделей и обучения соединительных модулей с использованием гиперсетей. В частности, наша структура использует способность гиперсети предсказывать параметры для получения совместно обученных соединительных модулей для N на M комбинаций унимодальных моделей. В наших экспериментах Hyma сокращает затраты на поиск наилучшей пары унимодальных моделей в 10 раз, при этом сохраняя ранжирование и производительность обученных соединительных модулей, полученных с помощью полного перебора на наборе разнообразных мультимодальных тестов.
Дистилляция знаний как эффективная техника передачи знаний достигла значительных успехов в унимодальных сценариях. Однако в кросс-модальных условиях традиционные методы дистилляции сталкиваются с серьезными трудностями из-за гетерогенности данных и статистических различий, не позволяя использовать комплементарные априорные знания, заложенные в кросс-модальных моделях-учителях. В данной работе эмпирически выявлены две ключевые проблемы существующих подходов: выбор пути дистилляции и дрейф знаний. Для устранения этих ограничений мы предлагаем MST-Distill — новый фреймворк кросс-модальной дистилляции знаний, основанный на смеси специализированных моделей-учителей. Наш подход использует разнообразный ансамбль моделей-учителей как в кросс-модальных, так и в мультимодальных конфигурациях, интегрированный с сетью маршрутизации на уровне экземпляров, что обеспечивает адаптивную и динамическую дистилляцию. Эта архитектура эффективно преодолевает ограничения традиционных методов, основанных на монотонных и статических моделях-учителях. Дополнительно мы вводим модуль маскирования, который обучается независимо для подавления модально-специфичных расхождений и реконструкции представлений моделей-учителей, тем самым смягчая дрейф знаний и повышая эффективность передачи. Эксперименты на пяти разнообразных мультимодальных наборах данных, охватывающих визуальные, аудио и текстовые модальности, демонстрируют, что наш метод значительно превосходит современные методы дистилляции знаний в задачах кросс-модальной дистилляции. Исходный код доступен по адресу https://github.com/Gray-OREO/MST-Distill.