Ежедневно отобранные исследовательские статьи по ИИ с переводами
Код стал точной и исполняемой средой для рассуждений и действий в эпоху агентов. Однако прогресс в основном был сосредоточен на языко-ориентированных задачах, таких как синтез программ и отладка, оставляя визуально-ориентированное программирование недостаточно изученным. Вдохновляясь тем, как люди рассуждают с помощью набросков, мы предлагаем SVG-код в качестве компактного, интерпретируемого и исполняемого визуального представления. Мы представляем VCode — эталонный тест, который переосмысливает мультимодальное понимание как генерацию кода: по заданному изображению модель должна генерировать SVG, сохраняющий символическое значение для последующих рассуждений. VCode охватывает три области: общие знания (MM-Vet), профессиональные дисциплины (MMMU) и визуально-ориентированное восприятие (CV-Bench). Для оценки символической точности мы предлагаем CodeVQA — новый протокол оценки, в котором модель-политика отвечает на вопросы по отрисованным SVG; правильные ответы указывают на достоверное сохранение символики. Экспериментально передовые VLM испытывают трудности с генерацией точных SVG, выявляя устойчивый разрыв между языко-ориентированным и визуально-ориентированным программированием. Для устранения этого разрыва мы представляем VCoder — агентский фреймворк, который расширяет VLM по двум направлениям: (i) Мышление с ревизией, которое итеративно анализирует расхождения и уточняет SVG-код; и (ii) Действие с визуальными инструментами, где детекторы и парсеры предоставляют структурированные подсказки, такие как объекты, формы и текст, выходящие за пределы внутренних возможностей модели. На всех эталонных тестах передовые VLM с сильными возможностями рассуждений показывают хорошие общие результаты, но остаются ограниченными в профессиональных знаниях и 3D-рассуждениях. VCoder обеспечивает общее улучшение на 12,3 пункта по сравнению с лучшей моделью Claude-4-Opus. Исследования с участием людей показывают, что как люди, так и VLM работают хуже на отрисованных SVG, но их согласованность раскрывает перспективность символического визуального представления. Эталонный тест и код доступны по адресу https://github.com/CSU-JPG/VCode.
Растущий успех моделей Vision-Language-Action (VLA) обусловлен предположением, что предобученные модели Vision-Language (VLM) могут наделить агентов переносимыми знаниями о мире и связью между зрением и языком (VL), закладывая основу для моделей действий с более широкой обобщающей способностью. Однако при адаптации этих VLM-моделей к модальности действий остается неясным, в какой степени сохраняются их исходные VL-представления и знания. В данной работе мы проводим систематическое исследование сохранения репрезентаций в процессе тонкой настройки VLA, показывая, что наивная тонкая настройка на действиях приводит к деградации визуальных представлений. Чтобы охарактеризовать и измерить эти эффекты, мы исследуем скрытые представления VLA и анализируем карты внимания; далее мы разрабатываем набор целевых задач и методов, которые сравнивают модели VLA с их VLM-аналогами, изолируя изменения в VL-возможностях, вызванные тонкой настройкой на действиях. Мы также оцениваем ряд стратегий для выравнивания визуальных представлений и представляем простой, но эффективный метод, который смягчает деградацию и обеспечивает улучшенную обобщающую способность в сценариях с выходом за пределы распределения (OOD). В совокупности наш анализ проясняет компромисс между тонкой настройкой на действиях и деградацией VL-представлений и выделяет практические подходы для восстановления унаследованных VL-возможностей. Код общедоступен по адресу: https://blind-vla-paper.github.io
Мы представляем MIRA — новый бенчмарк, разработанный для оценки моделей в сценариях, где генерация промежуточных визуальных изображений необходима для успешного рассуждения. В отличие от традиционных методов CoT, которые полагаются исключительно на текст, задачи в MIRA требуют от моделей генерации и использования промежуточных изображений — таких как эскизы, структурные диаграммы или схемы путей — для направления процесса рассуждений. Эта настройка близко отражает то, как люди решают сложные проблемы через «рисование для размышления». Для решения этой задачи MIRA фокусируется на проблемах, которые по своей природе сложны и включают комплексные структуры, пространственные отношения или шаги рассуждений, которые трудно выразить только языком. Чтобы обеспечить высокое качество данных для оценки, мы включили 546 мультимодальных задач, аннотированных промежуточными визуальными изображениями и конечными ответами. Мы также предлагаем унифицированный протокол оценки для MIRA, охватывающий три уровня входных данных для оценки: прямой ввод только с изображением и вопросом, текстовый CoT-ввод с изображением и подсказками для размышления, а также Visual-CoT ввод с аннотированными визуальными подсказками и текстовыми подсказками для размышления. Чтобы исследовать верхнюю границу возможностей моделей в нашем бенчмарке, мы также сообщаем о точности pass@k и мажоритарного голосования при различных значениях k. Результаты экспериментов показывают, что существующие мультимодальные большие языковые модели, включая наиболее мощные частные модели, а также сильные модели с открытыми весами, демонстрируют низкую производительность при использовании только текстовых подсказок. Однако при предоставлении промежуточных визуальных подсказок производительность моделей последовательно улучшается, давая средний относительный прирост в 33,7% по всем моделям и задачам. Мы также исследуем верхнюю границу, расширяя пространство поиска и разрабатывая текстовые подсказки, согласованные с Visual-CoT, но оба подхода дают лишь ограниченное улучшение по сравнению с нашей настройкой Visual-CoT. Эти результаты подчеркивают критическую роль воображаемой визуальной информации для успешного рассуждения в MIRA.
Мы представляем Step-Audio-EditX — первую открытую LLM-модель для работы со звуком, которая превосходно выполняет выразительное и итеративное редактирование аудио, включая эмоции, стиль речи и паралингвистические аспекты, а также обладает надежными возможностями zero-shot преобразования текста в речь (TTS). Наша ключевая инновация заключается в использовании исключительно синтетических данных с большим запасом, что позволяет обойтись без априорных данных на основе эмбеддингов или вспомогательных модулей. Такой подход обучения с большим запасом обеспечивает как итеративное управление, так и высокую выразительность для различных голосов, что представляет собой фундаментальный отход от традиционной фокусировки на разделении признаков на уровне представлений. Результаты оценки показывают, что Step-Audio-EditX превосходит как MiniMax-2.6-hd, так и Doubao-Seed-TTS-2.0 в задачах редактирования эмоций и других задач тонкого управления.
Мультимодальные большие языковые модели (MLLM) должны разрешать конфликты, когда различные модальности предоставляют противоречивую информацию — процесс, который мы называем следованием модальности. Предыдущие исследования измеряли это поведение лишь с помощью грубой статистики на уровне датасета, упуская из виду влияние уверенности модели в унимодальных рассуждениях. В данной статье мы представляем новую концепцию, которая разлагает следование модальности на два фундаментальных фактора: относительную неопределённость рассуждений (ситуационный разрыв в уверенности между унимодальными предсказаниями) и присущее предпочтение модальности (устойчивое смещение модели при сбалансированных неопределённостях). Для проверки этой концепции мы создаём управляемый датасет, который систематически варьирует сложность рассуждений для визуальных и текстовых входов. Используя энтропию как метрику неопределённости высокого разрешения, мы обнаруживаем универсальный закон: вероятность следования модальности монотонно уменьшается по мере роста её относительной неопределённости. На уровне относительной сложности, где модель с равной вероятностью склонна следовать обеим модальностям — что мы называем точкой баланса — проявляется практический индикатор присущего предпочтения модели. В отличие от традиционных макроуровневых соотношений, эта мера предлагает более принципиальный и менее смешанный способ характеристики модального смещения, отделяя его от унимодальных способностей и артефактов датасета. Кроме того, исследуя предсказания по слоям, мы раскрываем внутренний механизм колебаний: в неоднозначных областях вблизи точки баланса модель колеблется между модальностями от слоя к слою, что объясняет внешне наблюдаемую нерешительность. В совокупности эти результаты устанавливают относительную неопределённость и присущее предпочтение в качестве двух управляющих принципов следования модальности, предлагая как количественную основу, так и механистическое понимание того, как MLLM разрешают конфликтующую информацию.
Траектория развития искусственного интеллекта свидетельствует о том, что мы будем все больше полагаться на агентно-ориентированные системы, состоящие из независимо разработанных агентов с различной информацией, привилегиями и инструментами. Успех таких систем будет критически зависеть от эффективного сотрудничества между этими гетерогенными агентами, даже в условиях частичной наблюдаемости. Несмотря на значительный интерес, мало эмпирических исследований оценивало подобное межагентное взаимодействие в крупных масштабах. Мы предлагаем бенчмарк решения лабиринтов, требующий коллаборации, который (i) изолирует способность к сотрудничеству, (ii) позволяет модулировать сложность задачи, (iii) обеспечивает масштабируемую автоматическую оценку и (iv) не накладывает ограничений на формат вывода, сохраняя экологическую правдоподобность. Используя эту структуру, мы оцениваем 32 ведущие модели с открытым и закрытым исходным кодом в одиночном, гомогенном и гетерогенном парном режимах. Наши результаты выявляют «разрыв в сотрудничестве»: модели, которые хорошо работают в одиночку, часто значительно ухудшают свои показатели, когда от них требуется взаимодействие. Коллаборация может нарушаться кардинально; например, небольшие дистиллированные модели, успешно решающие лабиринты самостоятельно, могут почти полностью проваливаться в определенных парах. Мы обнаружили, что начало работы с более сильного агента часто улучшает результаты, что обосновывает подход «релейного вывода», при котором более сильный агент начинает задачу, а затем передает ее более слабому, закрывая большую часть разрыва. Наши выводы свидетельствуют в пользу (1) оценки, учитывающей способность к кооперации, (2) стратегий обучения, разработанных для улучшения коллаборативных возможностей, и (3) проектирования взаимодействий, которое надежно раскрывает скрытые навыки агентов. Эти рекомендации применимы как к сотрудничеству ИИ-ИИ, так и к взаимодействию человек-ИИ.
Восстановление изображений, видимых людьми, по данным фМРТ-записей активности их мозга предоставляет неинвазивное окно в человеческий мозг. Несмотря на недавний прогресс, достигнутый благодаря диффузионным моделям, современные методы часто недостаточно точно воспроизводят реально видимые изображения. Мы представляем подход «Brain-IT», вдохновленный принципами работы мозга, который решает эту проблему с помощью трансформера для взаимодействия в мозге (Brain Interaction Transformer, BIT), обеспечивающего эффективное взаимодействие между кластерами функционально схожих вокселов мозга. Эти функциональные кластеры являются общими для всех испытуемых и служат строительными блоками для интеграции информации как внутри одного мозга, так и между разными мозгами. Все компоненты модели являются общими для всех кластеров и испытуемых, что позволяет эффективно обучать модель на ограниченном объеме данных. Для управления восстановлением изображения BIT предсказывает два взаимодополняющих локализованных признака изображения на уровне патчей: (i) высокоуровневые семантические признаки, которые направляют диффузионную модель к правильному семантическому содержанию изображения; и (ii) низкоуровневые структурные признаки, которые помогают инициализировать диффузионный процесс с правильной грубой структурой изображения. Конструкция BIT обеспечивает прямой поток информации от кластеров вокселов мозга к локализованным признакам изображения. Благодаря этим принципам наш метод достигает восстановления изображений из данных фМРТ, которые точно воспроизводят видимые изображения и превосходят современные state-of-the-art подходы как визуально, так и по стандартным объективным метрикам. Более того, используя всего 1 час данных фМРТ от нового испытуемого, мы достигаем результатов, сопоставимых с современными методами, обученными на полных 40-часовых записях.
Крупные языковые модели (LLM), обученные для пошаговых рассуждений, часто становятся излишне многословными, что увеличивает стоимость вывода. Стандартные конвейеры обучения с подкреплением с проверяемыми вознаграждениями (RLVR) отфильтровывают «простые» задачи для повышения эффективности обучения, в результате чего модель обучается в основном на сложных задачах, требующих длинных цепочек рассуждений. Это смещает распределение длины выходных данных в сторону увеличения, приводя к модели, которая отождествляет «более долгое размышление» с «лучшим размышлением». В данной работе мы показываем, что сохранение и умеренное увеличение веса умеренно простых задач действует как неявный регуляризатор длины. Предоставление модели доступа к решаемым задачам с короткими цепочками ограничивает распределение её выходных данных и предотвращает неконтролируемую многословность. Результатом является *возникновение краткости бесплатно*: модель учится решать более сложные задачи без увеличения длины выходных данных, несмотря на отсутствие какого-либо явного штрафа за длину. Эксперименты RLVR с использованием этого подхода на модели Qwen3-4B-Thinking-2507 (с лимитом в 16 тыс. токенов) достигают точности pass@1 AIME25 на уровне базового метода, при этом генерируя решения, которые в среднем почти в два раза короче. Код доступен по адресу https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}, а наборы данных и модели — на https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}.
Крупные мультимодальные модели (LMM) часто страдают от значительной неэффективности вывода из-за большого количества визуальных токенов, генерируемых энкодерами изображений. Хотя современные методы сжатия токенов, такие как прореживание и объединение, демонстрируют потенциал в снижении избыточности, их оценка остается фрагментированной и несогласованной. В данной работе мы представляем UniPruneBench — унифицированный и расширяемый бенчмарк для прореживания визуальных токенов в мультимодальных LLM. UniPruneBench предлагает стандартизированные протоколы оценки по шести направлениям способностей и десяти наборам данных, охватывая десять репрезентативных алгоритмов сжатия и три семейства LMM (LLaVA-v1.5, Intern-VL и Qwen2.5-VL). Помимо точности выполнения задач, бенчмарк включает системные метрики, такие как время выполнения и латентность предзаполнения, для комплексного анализа. Наши эксперименты выявили ключевые закономерности: (1) случайное прореживание неожиданно является сильным базовым методом, (2) ни один метод не демонстрирует стабильного превосходства во всех сценариях, (3) чувствительность к прореживанию существенно варьируется между задачами, причем OCR наиболее уязвима, (4) степень сжатия является доминирующим фактором деградации производительности. Мы полагаем, что UniPruneBench станет надежной основой для будущих исследований эффективного мультимодального моделирования.
Современные бенчмарки для оценки языковых моделей (ЯМ) в программировании тестируют их на конкретных, четко определенных задачах, таких как исправление определенных ошибок или написание целевых тестов. Однако программисты-люди не проводят весь день, бесконечно решая изолированные задачи. Вместо этого реальная разработка программного обеспечения основана на достижении высокоуровневых целей, таких как повышение удержания пользователей или снижение затрат. Оценка того, способны ли ЯМ также итеративно разрабатывать код для лучшего достижения открытых целей без явных указаний, остается нерешенной проблемой. Для ее решения мы представляем CodeClash — бенчмарк, в котором ЯМ соревнуются в многотуровых турнирах по созданию наилучшей кодовой базы для достижения конкурентной цели. Каждый раунд состоит из двух фаз: агенты редактируют свой код, после чего их кодовая база сталкивается в прямом противостоянии на «арене кода», где победитель определяется на основе таких целей, как максимизация очков, приобретение ресурсов или выживание. Будь то написание заметок, изучение документации, анализ логов соперников или создание тестовых наборов, модели должны самостоятельно решать, как улучшить свою кодовую базу как в абсолютном выражении, так и по отношению к оппонентам. Мы провели 1680 турниров (всего 25 200 раундов) для оценки 8 ЯМ в 6 различных аренах. Наши результаты показывают, что, хотя модели демонстрируют разнообразные стили разработки, они имеют фундаментальные ограничения в стратегическом мышлении. Модели также испытывают трудности с долгосрочным поддержанием кодовой базы, поскольку репозитории постепенно становятся запутанными и избыточными. Эти ограничения очевидны: лучшие модели проигрывают каждый раунд опытным программистам-людям. Мы открываем исходный код CodeClash для продвижения исследований в области автономной, целеориентированной разработки кода.
Крупномасштабные данные стали движущей силой прорывов в робототехнике — от языковых моделей до моделей «зрение-язык-действие» в двуручном манипулировании. Однако в области гуманоидной робототехники не хватает столь же эффективных систем сбора данных. Существующие системы телеуправления гуманоидами либо используют развязанное управление, либо зависят от дорогостоящих систем motion capture. Мы представляем TWIST2 — портативную систему телеуправления гуманоидом и сбора данных, не требующую mocap, которая сохраняет полное управление всем телом, повышая масштабируемость. Наша система использует VR-гарнитуру PICO4U для получения движений всего тела человека в реальном времени, а также специальную 2-степенную роботизированную шею (стоимостью около $250) для эгоцентрического зрения, что обеспечивает целостное управление «человек-гуманоид». Мы демонстрируем сложные мобильные навыки гуманоида в длительных горизонтах планирования и можем собрать 100 демонстраций за 15 минут с почти 100% успехом. На основе этого пайплайна мы предлагаем иерархическую框架 визуомоторной политики, которая автономно управляет всем телом гуманоида на основе эгоцентрического зрения. Наша визуомоторная политика успешно выполняет задачи ловкого манипулирования всем телом и динамического удара ногой. Вся система полностью воспроизводима и имеет открытый исходный код на https://yanjieze.com/TWIST2. Собранный нами набор данных также открыт и доступен по адресу https://twist-data.github.io.
Современные парадигмы оценки больших языковых моделей (LLM) представляют собой критическое слепое пятно в исследованиях ИИ — они опираются на непрозрачные численные метрики, которые скрывают фундаментальные ограничения в пространственном мышлении и не дают интуитивного понимания возможностей моделей. Этот недостаток создает опасный разрыв между заявленной производительностью и практическими способностями, особенно для приложений, требующих понимания физического мира. Мы представляем LTD-Bench, прорывной бенчмарк, который трансформирует оценку LLM от абстрактных баллов к непосредственно наблюдаемым визуальным результатам, требуя от моделей генерации рисунков через точечные матрицы или исполняемого кода. Данный подход делает ограничения пространственного мышления мгновенно очевидными даже для неспециалистов, преодолевая фундаментальный разрыв между статистической производительностью и интуитивной оценкой. LTD-Bench реализует комплексную методологию с взаимодополняющими задачами генерации (тестирование пространственного воображения) и задачами распознавания (оценка пространственного восприятия) на трех уровнях сложности, прогрессивно возрастающих, методично оценивая оба направления критического языково-пространственного отображения. Наши масштабные эксперименты с передовыми моделями выявляют тревожный разрыв в способностях: даже LLM, демонстрирующие впечатляющие результаты на традиционных бенчмарках, показывают глубокие недостатки в установлении двунаправленных соответствий между языком и пространственными концептами — фундаментальное ограничение, которое подрывает их потенциал в качестве подлинных моделей мира. Более того, визуальные результаты LTD-Bench позволяют проводить мощный диагностический анализ, предлагая потенциальный подход для исследования сходства моделей.
Тестирование на реальных машинах является незаменимым для алгоритмов управления роботами. В контексте обучающихся алгоритмов, особенно моделей VLA (Vision-Language-Action), потребность в масштабной оценке, то есть тестировании большого количества моделей на множестве задач, становится все более актуальной. Однако грамотная организация такого процесса представляет значительные сложности, особенно при учете требований масштабируемости и воспроизводимости. В данном отчете мы описываем нашу методологию создания RoboChallenge — системы онлайн-оценки для тестирования алгоритмов управления роботами, а также представляем обзор современных передовых моделей VLA с использованием нашего первоначального бенчмарка Table30.
Крупные языковые модели (LLM) продемонстрировали выдающиеся способности в многочисленных практических приложениях. В то время как подавляющее большинство экспериментальных исследований развивается стремительными темпами, они требуют значительных вычислительных мощностей, данных и других ресурсов. Поэтому вопрос о том, как раскрыть «черный ящик» LLM с теоретической точки зрения, стал критически важным вызовом. Данная статья берет за отправную точку теорию функции рэйт-искажения, направленной информации и причинности Грэнджера для исследования информационно-теоретических принципов, лежащих в основе LLM, что приводит к разработке семантической информационной теории для LLM, где фундаментальной единицей является токен, а не лишенные смысла биты. Определяя вероятностную модель LLM, мы обсуждаем структурно-агностические информационно-теоретические меры, такие как функция направленного рэйт-искажения на этапе предварительного обучения, функция направленного рэйт-вознаграждения на этапе пост-обучения и поток семантической информации на этапе вывода. В статье также глубоко исследуются теория семантического embedding на уровне токенов и информационно-теоретически оптимальный метод векторизации. Впоследствии мы предлагаем общее определение авторегрессионной LLM, в рамках которого архитектура Transformer и её показатели, такие как ELBO, граница ошибки обобщения, емкость памяти и меры семантической информации, могут быть выведены теоретически. Другие архитектуры, такие как Mamba/Mamba2 и LLaDA, также рассматриваются в рамках нашей концепции. Таким образом, данная статья предоставляет теоретическую основу для понимания LLM с точки зрения семантической информационной теории, которая также предлагает необходимые теоретические инструменты для дальнейших углубленных исследований.
Мы представляем iFlyBot-VLA — крупномасштабную модель «Vision-Language-Action» (VLA), обученную в рамках новой архитектуры. Основные вклады работы заключаются в следующем: (1) латентная модель действий, всесторонне обученная на обширных видео с манипуляциями человека и робота; (2) двухуровневая система представления действий, которая совместно управляет как моделью «Vision-Language Model» (VLM), так и экземпляром действий в процессе обучения; (3) смешанная стратегия обучения, объединяющая данные траекторий робота с наборами данных общего QA и пространственного QA, что эффективно усиливает 3D-восприятие и логические способности базовой VLM. В частности, VLM обучается прогнозировать две взаимодополняющие формы действий: латентные действия, полученные из нашей латентной модели действий, предварительно обученной на кросс-эмбодиментных данных манипуляций, которые фиксируют неявные высокоуровневые намерения; и структурированные дискретные токены действий, получаемые посредством частотно-доменных преобразований непрерывных управляющих сигналов, которые кодируют явные низкоуровневые динамики. Такое двойное управление выравнивает пространства представлений языка, зрения и действий, позволяя VLM напрямую участвовать в генерации действий. Результаты экспериментов на бенчмарке LIBERO Franka демонстрируют превосходство нашей архитектуры, в то время как оценки в реальных условиях дополнительно показывают, что iFlyBot-VLA достигает конкурентоспособных показателей успешности в разнообразных и сложных задачах манипулирования. Кроме того, мы планируем открыть часть нашего самостоятельно собранного набора данных для поддержки будущих исследований в сообществе.
Крупные языковые модели продемонстрировали высокие результаты на многих устоявшихся тестах на логическое мышление. Однако эти тесты в первую очередь оценивают структурированные навыки, такие как решение количественных задач, оставляя пробел в оценке гибких, многогранных способностей к рассуждению, которые являются центральными для человеческого интеллекта. Эти способности требуют интеграции логического вывода с пространственным восприятием и удовлетворением ограничений, что плохо измеряется существующими системами оценки. Чтобы устранить этот пробел, мы представляем RiddleBench — набор из 1737 сложных головоломок на английском языке, предназначенный для исследования этих ключевых способностей к рассуждению. Оценка современных моделей на RiddleBench выявила фундаментальные слабости. Даже ведущие проприетарные модели, такие как Gemini 2.5 Pro, o3 и Claude 4 Sonnet, демонстрируют точность чуть выше 60% (60,30%, 63,37% и 63,16% соответственно). Анализ дополнительно выявляет серьезные недостатки, включая каскады галлюцинаций (принятие ошибочных рассуждений других моделей) и слабую самокоррекцию из-за сильной склонности к самоутверждению. Их рассуждения также хрупки: производительность значительно ухудшается при изменении порядка ограничений или добавлении нерелевантной информации. RiddleBench служит диагностическим инструментом для выявления этих проблем и ресурсом для разработки более надежных и устойчивых языковых моделей.
Сложные задачи понимания диаграмм требуют от мультимодальных больших языковых моделей (MLLM) продвинутых возможностей визуального распознавания и логического вывода. Однако современные исследования ограниченно охватывают сложные сценарии работы с диаграммами и ресурсоемкие задачи логического вывода, распространенные в реальных приложениях. В данном исследовании предлагается автоматизированный многоэтапный код-ориентированный конвейер для систематического генерации наборов данных визуального логического вывода, направленный на устранение этих ограничений. Конвейер интегрирует генерацию с расширением выборки (RAG) для извлечения профессиональных шаблонов диаграмм и использует стратегии цепочек рассуждений (CoT) для генерации кода логического вывода, имитирующего реальные распределения данных, что впоследствии управляет визуализацией диаграмм и статистическими вычислениями, связанными с вопросами. Благодаря модельно-ориентированной оценке конвейер повышает разнообразие диаграмм и качество данных. Используя этот фреймворк, мы создали ChartM^3 — многомерный и многошаговый набор данных, содержащий 38 тыс. диаграмм и 142 тыс. пар «вопрос-ответ» для обучения, а также 2871 высококачественный образец для оценки, обеспечивающий практическое тестирование производительности. Эксперименты с контролируемым тонким настроением (SFT) и обучением с подкреплением (RL) демонстрируют, что наш набор данных значительно улучшает способности к логическому выводу и производительность междоменной генерализации, позволяя компактным моделям достигать результатов, сопоставимых с крупномасштабными моделями в области понимания сложных диаграмм.
Понимание и прогнозирование эмоций по видеоматериалам привлекает значительное внимание в последних исследованиях, чему способствуют достижения в области больших языковых моделей для видео (VideoLLM). Хотя современные методы добились прогресса в анализе эмоций на видео, сама природа эмоций создает серьезные трудности. Эмоции характеризуются динамичностью и зависимостью от контекстуальных сигналов, что затрудняет понимание сложных и развивающихся эмоциональных состояний с разумным обоснованием. Для решения этих проблем мы предлагаем новую систему аффективно-ориентированного логического вывода, которая унифицирует базовое восприятие атрибутов, анализ экспрессии и высокоуровневое понимание эмоций поэтапным образом. Основой нашего подхода является семейство фундаментальных моделей для анализа эмоций в видео (VidEmo), специально разработанных для эмоционального вывода и следования инструкциям. Эти модели проходят двухэтапную настройку: сначала обучение эмоциям по учебному плану для внедрения знаний об эмоциях, а затем обучение с подкреплением на основе аффективного дерева для эмоционального вывода. Кроме того, мы создаем базовую инфраструктуру данных и представляем ориентированный на эмоции детализированный набор данных (Emo-CFG), состоящий из 2.1 миллиона разнообразных инструктивных примеров. Emo-CFG включает объясняемые вопросы и ответы об эмоциях, детализированные описания и соответствующие обоснования, предоставляя необходимые ресурсы для продвижения задач понимания эмоций. Результаты экспериментов показывают, что наш подход демонстрирует конкурентоспособные результаты, устанавливая новую веху в 15 задачах восприятия лиц.
В данной работе мы представляем LiveSecBench — динамический и постоянно обновляемый тестовый комплекс для оценки безопасности, специально разработанный для сценариев применения языковых моделей в китайскоязычной среде. LiveSecBench оценивает модели по шести ключевым направлениям (законность, этичность, фактическая точность, конфиденциальность, устойчивость к адверсарным атакам и безопасность логических рассуждений), основанным на правовых и социальных нормах Китая. Актуальность тестового комплекса обеспечивается за счет динамического графика обновлений, включающего новые векторы угроз, такие как запланированное добавление оценки безопасности генерации изображений по тексту и безопасности агентских систем в следующем обновлении. На текущий момент LiveSecBench (v251030) протестировал 18 языковых моделей, предоставив обзор состояния безопасности ИИ в контексте китайского языка. Рейтинговая таблица общедоступна по адресу https://livesecbench.intokentech.cn/.
Поскольку глобальное бремя болезни Альцгеймера (БА) продолжает расти, ранняя и точная диагностика становится все более критически важной, особенно в регионах с ограниченным доступом к современным диагностическим инструментам. Для решения этой проблемы мы предлагаем систему BRAINS (Biomedical Retrieval-Augmented Intelligence for Neurodegeneration Screening). Эта новая система использует мощные способности к рассуждению больших языковых моделей (LLM) для выявления и мониторинга болезни Альцгеймера. BRAINS обладает двухмодульной архитектурой: модулем когнитивной диагностики и модулем поиска клинических случаев. Диагностический модуль использует LLM, дообученные на наборах данных когнитивных и нейровизуализационных тестов — включая баллы по MMSE, CDR и показатели объема мозга — для проведения структурированной оценки риска болезни Альцгеймера. В то же время модуль поиска случаев кодирует профили пациентов в латентные представления и находит схожие случаи из курируемой базы знаний. Эти вспомогательные случаи объединяются с входным профилем через Слой слияния случаев для улучшения контекстуального понимания. Объединенное представление затем обрабатывается с помощью клинических промптов для вывода. Оценки на реальных наборах данных демонстрируют эффективность BRAINS в классификации тяжести заболевания и выявлении ранних признаков когнитивного снижения. Данная система не только показывает большой потенциал в качестве вспомогательного инструмента для масштабируемого, объяснимого и раннего выявления болезни Альцгеймера, но и открывает перспективы для будущего применения в этой области.
Современные крупные языковые модели преуспевают в решении широких задач общего характера, но последовательно демонстрируют низкую производительность при работе в узкоспециализированных областях, требующих глубоких культурных, лингвистических и предметных знаний. В частности, традиционные медицинские системы, такие как Аюрведа, воплощают в себе столетия тонких текстовых и клинических знаний, которые основные LLM не способны точно интерпретировать или применять. Мы представляем AyurParam-2.9B — специализированную двуязычную языковую модель, дообученную на основе Param-1-2.9B с использованием обширного, тщательно отобранного экспертами набора данных по Аюрведе, включающего классические тексты и клинические рекомендации. Набор данных AyurParam включает контекстно-зависимые вопросы на понимание и рассуждение, а также задания в формате объективных тестов на английском и хинди, с применением строгих протоколов аннотирования для обеспечения фактической точности и ясности инструкций. По результатам тестирования на BhashaBench-Ayur, AyurParam не только превосходит все открытые инструктивно-обученные модели своего класса размера (1.5–3 млрд параметров), но и демонстрирует сопоставимую или более высокую производительность по сравнению с гораздо более крупными моделями. Результаты, полученные с помощью AyurParam, подчеркивают необходимость аутентичной адаптации к предметной области и высококачественного контроля для создания надежного ИИ, культурно согласованного со специализированными медицинскими знаниями.
Модели диффузии для генерации изображений по тексту (T2I) демонстрируют высокую производительность в области семантического согласования, однако по-прежнему испытывают трудности с генерацией правильного количества объектов, указанных в промптах. Существующие подходы обычно включают вспомогательные счетные сети в качестве внешних критиков для улучшения способности к счету. Однако, поскольку эти критики должны обеспечивать градиентное руководство в процессе генерации, они ограничены регрессионными моделями, которые по своей природе дифференцируемы, что исключает детекторные модели с превосходными счетными способностями, чья природа подсчета-через-перечисление не является дифференцируемой. Чтобы преодолеть это ограничение, мы предлагаем Detector-to-Differentiable (D2D) — новую архитектуру, которая преобразует недифференцируемые модели детекции в дифференцируемых критиков, тем самым используя их превосходные счетные способности для руководства генерацией количества объектов. В частности, мы разрабатываем специальные функции активации для преобразования логитов детектора в мягкие бинарные индикаторы, которые затем используются для оптимизации априорного распределения шума во время вывода с помощью предварительно обученных T2I-моделей. Наши обширные эксперименты на моделях SDXL-Turbo, SD-Turbo и Pixart-DMD в рамках четырех тестовых наборов различной сложности (сценарии с низкой плотностью, высокой плотностью и множественными объектами) демонстрируют последовательное и существенное улучшение точности подсчета объектов (например, увеличение до 13.7% на D2D-Small, наборе из 400 промптов с низкой плотностью объектов) при минимальной деградации общего качества изображений и вычислительных затратах.
Сложные рассуждения над табличными данными играют ключевую роль в анализе реальных данных, однако крупные языковые модели (LLM) часто демонстрируют низкую производительность из-за сложных запросов, зашумленных данных и ограниченных возможностей численного анализа. Для решения этих проблем мы предлагаем \method — фреймворк, состоящий из: (1) декомпозитора запросов, который разбивает сложные вопросы на части, (2) очистителя таблиц, который фильтрует и очищает зашумленные таблицы, и (3) модуля рассуждений на основе программы мыслей (Program-of-Thoughts, PoT), который генерирует исполняемый код для получения окончательного ответа из очищенной таблицы. Для обеспечения объективной оценки и минимизации утечки данных мы представляем новый набор данных CalTab151, специально разработанный для сложного численного анализа таблиц. Экспериментальные результаты показывают, что \method стабильно превосходит существующие методы, достигая наилучших результатов (state-of-the-art, SOTA) с улучшением точности на 8,79%, 6,08% и 19,87% на наборах данных TAT-QA, TableBench и \method соответственно. Более того, наш фреймворк легко интегрируется с основными LLM, предоставляя надежное решение для сложного табличного численного анализа. Полученные результаты подчеркивают эффективность нашего подхода в повышении производительности LLM для задач сложного табличного численного анализа. Данные и код доступны по запросу.
Беспрецедентное обучение глубины и эго-движения, двух фундаментальных задач 3D-восприятия, достигло значительного прогресса в последние годы. Однако большинство методов рассматривают эго-движение как вспомогательную задачу, либо смешивая все типы движения, либо исключая независимые от глубины вращательные движения при обучении. Подобные подходы ограничивают включение строгих геометрических ограничений, снижая надежность и устойчивость в различных условиях. Данное исследование предлагает дифференцированное разделение компонентов движения, используя геометрические закономерности их соответствующих жестких потоков для улучшения оценки как глубины, так и эго-движения. При подаче последовательных видеокадров выходные данные сети сначала выравнивают оптические оси и плоскости изображения исходной и целевой камер. Оптические потоки между кадрами преобразуются через эти выравнивания, а отклонения количественно оцениваются для наложения геометрических ограничений на каждый компонент эго-движения в отдельности, что позволяет проводить более целенаправленную оптимизацию. Эти выравнивания дополнительно преобразуют процесс совместного обучения в соосную и компланарную формы, где глубина и каждый компонент трансляции могут быть взаимно выведены через замкнутые геометрические соотношения, вводя дополнительные ограничения, повышающие устойчивость оценки глубины. DiMoDE — общая структура совместного обучения глубины и эго-движения, включающая данные подходы, — демонстрирует наилучшие результаты на нескольких публичных наборах данных и новом собранном разнородном наборе реальных данных, особенно в сложных условиях. Наш исходный код будет общедоступен по адресу mias.group/DiMoDE после публикации.
Недавние исследования определили прямой оптимизацию предпочтений (DPO) как эффективный и безревардный подход к повышению качества генерации видео. Однако существующие методы в основном следуют парадигмам из области изображений и разработаны для моделей малого масштаба (приблизительно 2 млрд параметров), что ограничивает их способность решать уникальные задачи видео, такие как дорогостоящее построение данных, нестабильность обучения и высокое потребление памяти. Для преодоления этих ограничений мы представляем GT-Pair, который автоматически строит высококачественные пары предпочтений, используя реальные видео в качестве позитивных примеров, а сгенерированные моделью видео — в качестве негативных, устраняя необходимость во внешней аннотации. Мы также представляем Reg-DPO, который включает потерю SFT в качестве регуляризатора в цель DPO для повышения стабильности обучения и достоверности генерации. Кроме того, благодаря сочетанию框架 FSDP с несколькими методами оптимизации памяти наш подход достигает почти втрое большей пропускной способности обучения по сравнению с использованием только FSDP. Многочисленные эксперименты по задачам I2V и T2V на различных наборах данных демонстрируют, что наш метод стабильно превосходит существующие подходы, обеспечивая превосходное качество генерации видео.