Ежедневно отобранные исследовательские статьи по ИИ с переводами
Метод Low-Rank Adaptation (LoRA) значительно продвинул эффективную настройку параметров крупных предобученных моделей. LoRA дополняет предобученные веса модели, добавляя произведение двух меньших матриц, которые вместе образуют низкоранговое обновление. Недавние исследования показали, что различия в масштабе между этими двумя матрицами часто приводят к нестабильной динамике обучения, что ухудшает производительность. В данной статье мы предлагаем SingLoRA, который переформулирует низкоранговую адаптацию, обучая обновление весов как разложение одной низкоранговой матрицы, умноженной на её транспонированную версию. Этот простой дизайн устраняет конфликты масштаба между матрицами, обеспечивая стабильную оптимизацию, и примерно вдвое сокращает количество параметров. Мы анализируем SingLoRA в рамках теории бесконечно широких нейронных сетей, показывая, что он гарантирует стабильное обучение признаков по своей конструкции. Многочисленные эксперименты на различных задачах подтверждают эти преимущества. В задачах здравого смысла, тонкая настройка модели LLama 7B на MNLI с использованием SingLoRA достигает точности 91,3%, превосходя LoRA (89,1%) и LoRA+ (90,2%), при использовании только 60% их параметров. В генерации изображений, тонкая настройка Stable Diffusion с SingLoRA значительно улучшает качество изображений на DreamBooth, достигая показателя сходства DINO 0,151, по сравнению с 0,148 и 0,143 для DoRA и LoRA соответственно.
Крупные языковые модели (LLM) продемонстрировали впечатляющие способности к рассуждению, особенно при использовании явного цепочечного рассуждения (CoT), которое вербализует промежуточные шаги. Хотя CoT улучшает как интерпретируемость, так и точность, его зависимость от естественного языка ограничивает пропускную способность модели. Латентное рассуждение решает эту проблему, выполняя многошаговый вывод полностью в непрерывном скрытом состоянии модели, устраняя необходимость в пошаговом контроле. Для продвижения исследований в области латентного рассуждения данный обзор предоставляет всесторонний обзор этой развивающейся области. Мы начинаем с рассмотрения фундаментальной роли слоев нейронных сетей как вычислительной основы для рассуждений, подчеркивая, как иерархические представления поддерживают сложные преобразования. Далее мы исследуем различные методологии латентного рассуждения, включая рекуррентные подходы на основе активаций, распространение скрытых состояний и стратегии тонкой настройки, которые сжимают или интериоризируют явные следы рассуждений. Наконец, мы обсуждаем передовые парадигмы, такие как латентное рассуждение бесконечной глубины с использованием маскированных диффузионных моделей, которые обеспечивают глобально согласованные и обратимые процессы рассуждения. Объединяя эти перспективы, мы стремимся прояснить концептуальный ландшафт латентного рассуждения и наметить будущие направления исследований на переднем крае когнитивных возможностей LLM. Связанный репозиторий GitHub, собирающий последние статьи и репозитории, доступен по адресу: https://github.com/multimodal-art-projection/LatentCoT-Horizon/.
Создание 3D-объектов с явной и редактируемой структурой частей имеет ключевое значение для развития интерактивных приложений, однако большинство генеративных методов производят только монолитные формы, что ограничивает их полезность. Мы представляем OmniPart — новый фреймворк для генерации 3D-объектов с учетом частей, который обеспечивает высокую семантическую декомпозицию компонентов при сохранении устойчивой структурной связности. OmniPart уникальным образом разделяет эту сложную задачу на два синергетических этапа: (1) авторегрессионный модуль планирования структуры генерирует управляемую последовательность 3D-ограничивающих рамок для частей переменной длины, критически направляемую гибкими 2D-масками частей, что позволяет интуитивно управлять декомпозицией частей без необходимости прямых соответствий или семантических меток; и (2) пространственно-условная модель исправленного потока, эффективно адаптированная из предварительно обученного генератора целостных 3D-объектов, синтезирует все 3D-части одновременно и согласованно в рамках запланированной компоновки. Наш подход поддерживает задаваемую пользователем гранулярность частей, точную локализацию и открывает возможности для разнообразных приложений. Многочисленные эксперименты демонстрируют, что OmniPart достигает передовых показателей, прокладывая путь к более интерпретируемому, редактируемому и универсальному 3D-контенту.
Веб-агенты на основе LLM (языковых моделей большого масштаба) в последнее время достигли значительного прогресса, однако большая часть этих достижений связана с закрытыми системами, что увеличивает разрыв с открытыми альтернативами. Прогресс сдерживается двумя ключевыми проблемами: во-первых, узкой направленностью на одношаговые задачи, что игнорирует сложность многошаговых веб-взаимодействий, и во-вторых, высокими вычислительными затратами, необходимыми для пост-обучения веб-агентов на основе LLM. Для решения этих проблем мы представляем первое статистически обоснованное исследование по распределению вычислительных ресурсов для пост-обучения веб-агентов на основе LLM. Наш подход использует двухэтапный конвейер, включающий обучение модели Llama 3.1 8B (ученик) для имитации модели Llama 3.3 70B (учитель) с помощью контролируемого тонкого настройки (SFT), за которым следует обучение с подкреплением на основе политики (on-policy RL). Мы обнаружили, что этот процесс крайне чувствителен к выбору гиперпараметров, что делает исчерпывающий поиск непрактичным. Чтобы избавить других от дорогостоящих проб и ошибок, мы отобрали 1370 конфигураций и использовали бутстрэппинг для оценки эффективных гиперпараметров. Наши результаты показывают, что комбинация SFT с on-policy RL стабильно превосходит каждый из подходов по отдельности как на WorkArena, так и на MiniWob++. Более того, эта стратегия требует всего 55% вычислительных ресурсов для достижения пиковой производительности чистого SFT на MiniWob++, эффективно продвигая границу Парето в области вычислительной производительности, и является единственной стратегией, способной сократить разрыв с закрытыми моделями.
Навигация на основе зрения и языка (Vision-and-Language Navigation, VLN) в реальных условиях требует от агентов обработки непрерывных визуальных потоков и генерации действий с низкой задержкой, основанных на языковых инструкциях. Хотя видеомодели на основе больших языковых моделей (Video-LLMs) способствовали недавнему прогрессу, современные методы VLN, основанные на Video-LLM, часто сталкиваются с компромиссами между детальным визуальным пониманием, моделированием долгосрочного контекста и вычислительной эффективностью. Мы представляем StreamVLN — потоковую VLN-структуру, которая использует гибридную стратегию моделирования контекста с медленным и быстрым обновлением для поддержки мультимодального рассуждения над чередующимися визуальными, языковыми и действительными входами. Быстрый потоковый контекст диалога обеспечивает оперативную генерацию действий через скользящее окно активных диалогов, в то время как медленно обновляемый контекст памяти сжимает исторические визуальные состояния с использованием стратегии обрезки токенов с учетом 3D-аспектов. Благодаря этой медленно-быстрой конструкции StreamVLN достигает согласованного многократного диалога за счет эффективного повторного использования кэша ключей и значений (KV), поддерживая длинные видеопотоки с ограниченным размером контекста и затратами на вывод. Эксперименты на бенчмарках VLN-CE демонстрируют передовую производительность с стабильно низкой задержкой, обеспечивая надежность и эффективность при развертывании в реальных условиях. Страница проекта доступна по адресу: https://streamvln.github.io/{https://streamvln.github.io/}.
Перевод математических утверждений на естественном языке в формальный, исполняемый код является фундаментальной задачей в области автоматического доказательства теорем. Хотя предыдущие работы были сосредоточены на успешной генерации и компиляции, мало внимания уделялось этапу критики — оценке того, действительно ли сгенерированные формализации точно передают семантический замысел исходной задачи. В данной статье мы представляем CriticLean, новую структуру обучения с подкреплением, управляемую критиком, которая повышает роль критика с пассивного валидатора до активного компонента обучения. В частности, сначала мы предлагаем CriticLeanGPT, обученный с помощью контролируемой тонкой настройки и обучения с подкреплением, для строгой оценки семантической точности формализаций в Lean 4. Затем мы представляем CriticLeanBench, эталонный тест, предназначенный для измерения способности моделей отличать семантически корректные формализации от некорректных, и показываем, что наши обученные модели CriticLeanGPT значительно превосходят сильные базовые модели с открытым и закрытым исходным кодом. На основе структуры CriticLean мы создаем FineLeanCorpus, набор данных, содержащий более 285 тысяч задач, который демонстрирует богатое разнообразие областей, широкий охват сложности и высокую корректность по оценке экспертов. В целом, наши результаты подчеркивают, что оптимизация этапа критики необходима для создания надежных формализаций, и мы надеемся, что наш CriticLean предоставит ценные идеи для будущих достижений в области формального математического рассуждения.
Крупные языковые модели (LLM) демонстрируют выдающиеся способности в логическом и алгоритмическом мышлении, однако их эмоциональный интеллект (EQ) значительно отстает от их когнитивных возможностей. Хотя обучение с подкреплением на основе проверяемых наград (RLVR) продвинулось в других областях, его применение в диалогах, особенно для развития эмоционального интеллекта, остается малоизученным. В данной работе мы представляем RLVER — первую сквозную систему обучения с подкреплением, которая использует проверяемые эмоциональные награды от симулированных пользователей для развития высших эмпатических способностей в LLM. В рамках этой системы самосогласованные аффективные симулированные пользователи участвуют в диалогах и генерируют детерминированные эмоциональные оценки в ходе бесед, которые служат сигналами награды для обучения модели. Тонкая настройка общедоступной модели Qwen2.5-7B-Instruct с использованием PPO повышает её оценку на Sentient-Benchmark с 13.3 до 79.2, при этом в значительной степени сохраняя математические и программистские способности. Многочисленные эксперименты показывают, что: (i) RLVER последовательно улучшает множество диалоговых навыков; (ii) Модели с мышлением и без него демонстрируют различные тенденции — модели с мышлением преуспевают в эмпатии и инсайтах, тогда как модели без мышления склонны к действиям; (iii) GRPO часто обеспечивает стабильные улучшения, в то время как PPO может выводить определенные способности на более высокий уровень; (iv) Более сложные среды не всегда лучше — умеренные условия могут давать более сильные результаты. Наши результаты демонстрируют, что RLVER представляет собой практичный путь к созданию эмоционально интеллектуальных и универсально способных языковых агентов.
Последние достижения в области генерации видео демонстрируют значительный прогресс в открытых областях, однако генерация медицинских видео остается малоизученной. Медицинские видео имеют критическое значение для таких приложений, как клиническое обучение, образование и симуляции, требуя не только высокой визуальной точности, но и строгой медицинской достоверности. Однако современные модели часто создают нереалистичный или ошибочный контент при работе с медицинскими запросами, что во многом связано с отсутствием крупномасштабных, высококачественных наборов данных, адаптированных для медицинской области. Для устранения этого пробела мы представляем MedVideoCap-55K — первый крупномасштабный, разнообразный и богатый текстовыми описаниями набор данных для генерации медицинских видео. Он включает более 55 000 отобранных видеоклипов, охватывающих реальные медицинские сценарии, что обеспечивает прочную основу для обучения универсальных моделей генерации медицинских видео. На основе этого набора данных мы разработали MedGen, который демонстрирует лидирующие результаты среди моделей с открытым исходным кодом и конкурирует с коммерческими системами по нескольким критериям, включая визуальное качество и медицинскую точность. Мы надеемся, что наш набор данных и модель станут ценным ресурсом и помогут стимулировать дальнейшие исследования в области генерации медицинских видео. Наш код и данные доступны по адресу https://github.com/FreedomIntelligence/MedGen.
Агенты с графическим пользовательским интерфейсом (GUI) автономно работают на различных платформах (например, Linux), выполняя задачи путем взаимодействия с визуальными элементами. Конкретно, пользовательская инструкция разбивается на последовательность предложений действий, каждое из которых соответствует взаимодействию с GUI. После каждого действия агент наблюдает за обновленной средой GUI, чтобы спланировать следующий шаг. Однако возникают две основные проблемы: i) разрешение неоднозначности в планировании задач (т.е. последовательности предложений действий), где выбор подходящего плана нетривиален, так как может существовать множество допустимых вариантов; ii) точное выполнение действий в сложных и высокоразрешающих интерфейсах, т.е. точное взаимодействие с визуальными целями. В данной статье исследуются две вышеупомянутые проблемы с помощью нашего агента масштабирования на этапе тестирования GUI, а именно GTA1. Во-первых, для выбора наиболее подходящего предложения действия мы вводим метод масштабирования на этапе тестирования. На каждом шаге мы выбираем несколько кандидатов предложений действий и используем модель-судию для оценки и выбора наиболее подходящего. Это позволяет обменять вычислительные ресурсы на лучшее качество решений за счет параллельного выборки, сокращения шагов выполнения задач и улучшения общей производительности. Во-вторых, мы предлагаем модель, которая достигает повышенной точности при привязке выбранного предложения действия к соответствующим визуальным элементам. Наше ключевое наблюдение заключается в том, что обучение с подкреплением (RL) способствует визуальной привязке через внутреннее согласование целей, вознаграждая успешные клики по элементам интерфейса. Экспериментально наш метод демонстрирует передовые результаты на различных тестовых наборах. Например, GTA1-7B достигает точности 50.1%, 92.4% и 67.7% на Screenspot-Pro, Screenspot-V2 и OSWorld-G соответственно. В сочетании с планировщиком, применяющим нашу стратегию масштабирования на этапе тестирования, он показывает передовые результаты в агентской производительности (например, 45.2% успешности задач на OSWorld). Мы открываем исходный код и модели здесь.
Модель мира, предполагаемый алгоритмический суррогат реальной среды, с которой взаимодействуют и на которую воздействуют биологические агенты, в последние годы становится все более актуальной темой в связи с растущей потребностью в разработке виртуальных агентов с искусственным (общим) интеллектом. Вокруг того, что такое модель мира, как ее построить, как использовать и как оценивать, ведется множество дискуссий. В этом эссе, начиная с воображения, представленного в знаменитом научно-фантастическом произведении "Дюна", и черпая вдохновение из концепции "гипотетического мышления" в психологической литературе, мы предлагаем критический анализ нескольких школ мысли, связанных с моделированием мира, и утверждаем, что основная цель модели мира заключается в симуляции всех возможных действий в реальном мире для целенаправленного рассуждения и действия. На основе этой критики мы предлагаем новую архитектуру универсальной модели мира, основанную на иерархических, многоуровневых и смешанных непрерывных/дискретных представлениях, а также на генеративной и самообучающейся структуре, с перспективой создания системы искусственного общего интеллекта (AGI), основанной на физических, агентных и вложенных (PAN) принципах, реализуемых с помощью такой модели.
Мы представляем Nile-Chat-4B, 3x4B-A6B и 12B — набор крупных языковых моделей (LLM) для египетского диалекта, специально разработанных для понимания и генерации текстов, написанных как арабской, так и латинской графикой. В частности, в модели Nile-Chat-3x4B-A6B мы внедряем новый подход к языковой адаптации, используя стратегию Branch-Train-MiX для объединения специализированных экспертов по разным системам письма в единую модель смеси экспертов (MoE). Наши модели Nile-Chat значительно превосходят ведущие многоязычные и арабские LLM, такие как LLaMa, Jais и ALLaM, на новых бенчмарках для египетского диалекта, охватывающих как задачи понимания, так и генерации. Особенно выделяется наша модель 12B, которая демонстрирует прирост производительности на 14,4% по сравнению с Qwen2.5-14B-Instruct на бенчмарках с латинской графикой. Все наши ресурсы находятся в открытом доступе. Мы считаем, что данная работа представляет собой комплексную методологию адаптации LLM к языкам с двойной графикой, решая часто упускаемый аспект в современной разработке языковых моделей.
Масштабирование данных привело к значительным успехам в базовых моделях для обработки естественного языка (NLP) и компьютерного зрения (CV), однако принципы эффективного масштабирования данных в задачах манипуляции роботов остаются недостаточно изученными. В данной работе мы исследуем тонкую роль разнообразия данных в обучении роботов, рассматривая три ключевых аспекта — задачу (что делать), воплощение (какой робот используется) и эксперта (кто демонстрирует), — бросая вызов традиционной интуиции «чем разнообразнее, тем лучше». В ходе обширных экспериментов на различных роботизированных платформах мы выяснили, что (1) разнообразие задач оказывается более важным, чем количество демонстраций для каждой задачи, способствуя переносу знаний из разнообразных предварительно обученных задач на новые сценарии; (2) данные для предварительного обучения с использованием нескольких воплощений не обязательны для кросс-воплощенческого переноса — модели, обученные на высококачественных данных одного воплощения, могут эффективно переноситься на разные платформы, демонстрируя более предпочтительные свойства масштабирования при дообучении по сравнению с моделями, предварительно обученными на данных нескольких воплощений; и (3) разнообразие экспертов, обусловленное индивидуальными предпочтениями в операциях и стохастическими вариациями в демонстрациях человека, может затруднять обучение политик, причем многомодальность скорости становится ключевым фактором. На основе этих выводов мы предлагаем метод устранения смещения распределения для снижения неоднозначности скорости, что позволяет модели GO-1-Pro достичь значительного улучшения производительности на 15%, эквивалентного использованию в 2,5 раза больше данных для предварительного обучения. В совокупности эти результаты предоставляют новые перспективы и практические рекомендации по эффективному масштабированию наборов данных для манипуляции роботов.
Крупные языковые модели (LLM) достигли значительных успехов в генерации кода, однако их истинная компетентность в программировании остается недостаточно изученной. Мы представляем фреймворк Code Triangle, который систематически оценивает LLM по трем фундаментальным измерениям: редакционный анализ, реализация кода и генерация тестовых случаев. Проведя обширные эксперименты на базе соревновательных программных тестов, мы обнаружили, что, хотя LLM способны формировать самосогласованную систему в рамках этих измерений, их решения часто уступают по разнообразию и устойчивости решениям, созданным человеком. Мы выявили значительный сдвиг в распределении между когнитивными способностями моделей и экспертизой человека, причем ошибки моделей имеют тенденцию к кластеризации из-за смещений в обучающих данных и ограниченного переноса логических рассуждений. Наше исследование демонстрирует, что включение редакционных материалов, решений и разнообразных тестовых случаев, созданных человеком, а также использование смесей моделей могут существенно повысить как производительность, так и устойчивость LLM. Кроме того, мы выявляем как согласованность, так и несогласованность в когнитивных процессах LLM, что может способствовать саморефлексии и самосовершенствованию, предоставляя потенциальное направление для разработки более мощных моделей генерации кода.
Последовательные модели, такие как Transformers и RNN, часто избыточно распределяют внимание на нерелевантный контекст, что приводит к зашумленным промежуточным представлениям. Это ухудшает возможности крупных языковых моделей (LLM), способствуя возникновению галлюцинаций, ослаблению способностей к обработке длинных зависимостей и извлечению информации, а также снижению устойчивости. Недавние исследования показали, что дифференциальный подход может смягчить эту проблему в Transformers, повышая их эффективность в различных приложениях. В данной работе мы исследуем, могут ли эти методы, изначально разработанные для Transformers, быть применены к Mamba — новой архитектуре, основанной на селективных слоях пространства состояний, которая достигает производительности уровня Transformers с большей эффективностью. Мы показываем, что простое адаптирование дифференциального подхода к Mamba недостаточно и требует тщательных архитектурных модификаций. Для решения этой проблемы мы предлагаем новый дифференциальный механизм для Mamba, эмпирически проверенный на бенчмарках языкового моделирования, демонстрирующий улучшенные способности к извлечению информации и превосходную производительность по сравнению с базовой версией Mamba. Наконец, мы проводим обширные исследования и эмпирические анализы, чтобы обосновать наши проектные решения и предоставить доказательства того, что наш подход эффективно смягчает проблему избыточного распределения внимания в моделях на основе Mamba. Наш код доступен публично.
Крупные языковые модели (LLM) в последнее время применяются для задач переранжирования в информационном поиске, демонстрируя высокую производительность. Однако их значительные вычислительные затраты часто препятствуют практическому внедрению. Существующие исследования оценивают эффективность переранжировщиков на основе LLM с использованием косвенных метрик, таких как задержка, количество прямых проходов, входных и выходных токенов. Однако эти метрики зависят от аппаратного обеспечения и выбора параметров выполнения (например, параллельное выполнение или нет, размер пакета и т.д.), а также часто не учитывают размер модели, что затрудняет интерпретацию и скрывает оценку компромисса между эффективностью и производительностью. Для решения этой проблемы мы предлагаем E2R-FLOPs для переранжировщиков на основе LLM: метрики ранжирования на петафлопс (RPP) для оценки релевантности на единицу вычислений и запросов на петафлопс (QPP) для аппаратно-независимой пропускной способности. Вместе с новыми метриками разработан интерпретируемый оценщик FLOPs, который позволяет оценить количество FLOPs для переранжировщика на основе LLM даже без проведения экспериментов. На основе предложенных метрик мы проводим комплексные эксперименты для оценки широкого спектра переранжировщиков на основе LLM с различной архитектурой, изучая компромисс между эффективностью и производительностью и привлекая внимание исследовательского сообщества к этой проблеме.
Современные крупные мультимодальные модели (LMM) сталкиваются с трудностями при обработке изображений высокого разрешения, поскольку такие входные данные преобразуются в огромное количество визуальных токенов, многие из которых не имеют отношения к целевой задаче. В данной работе мы предлагаем Multi-turn Grounding-based Policy Optimization (MGPO) — сквозную структуру обучения с подкреплением (RL), которая позволяет LMM итеративно фокусироваться на ключевых визуальных областях путем автоматического обрезки субизображений на основе координат, предсказанных моделью, в рамках многоходового диалогового подхода. В отличие от контролируемого тонкого настройки (SFT), требующего дорогостоящих дополнительных аннотаций для локализации, наш подход демонстрирует, что LMM могут развивать устойчивые способности к локализации в процессе RL-обучения, используя лишь бинарную функцию вознаграждения, основанную на правильности итогового ответа. Кроме того, мы наблюдаем, что LMM испытывают трудности с самостоятельным запуском визуальной локализации в процессе выполнения. Для решения этой проблемы "холодного старта" мы разработали многоходовый диалоговый шаблон и ограничили вычисление потерь политики выходами модели, сгенерированными в ходе нескольких раундов диалога, что способствует стабильной оптимизации. Многочисленные эксперименты показывают, что при обучении на стандартных данных визуальных вопросов и кратких ответов без аннотаций локализации MGPO эффективно развивает более сильные способности к локализации по сравнению с GRPO, что приводит к улучшению на 5,4% на in-distribution MME-Realworld и на 5,2% на сложном out-of-distribution (OOD) V* Bench. Примечательно, что пост-обучение MGPO на Qwen2.5-VL-7B с 21K образцов превосходит модели OpenAI o1 и GPT-4o на OOD V* Bench. Код доступен по адресу https://github.com/EvolvingLMMs-Lab/MGPO.
Вычислительные методы на основе глубокого обучения достигли значительных успехов в предсказании белково-белковых взаимодействий (ББВ). Однако существующие эталонные тесты в основном сосредоточены на изолированных попарных оценках, упуская из виду способность модели восстанавливать биологически значимые сети ББВ, что крайне важно для биологических исследований. Чтобы устранить этот пробел, мы представляем PRING — первый всеобъемлющий эталонный тест, который оценивает предсказание белково-белковых взаимодействий с точки зрения графов. PRING предлагает высококачественный набор данных о сетях ББВ, охватывающих несколько видов, включающий 21 484 белка и 186 818 взаимодействий, с тщательно разработанными стратегиями для устранения избыточности и утечки данных. На основе этого эталонного набора данных мы устанавливаем две взаимодополняющие парадигмы оценки: (1) задачи, ориентированные на топологию, которые оценивают построение сетей ББВ внутри и между видами, и (2) задачи, ориентированные на функции, включая предсказание путей белковых комплексов, анализ модулей GO и обоснование значимости белков. Эти оценки не только отражают способность модели понимать топологию сети, но также способствуют аннотированию функций белков, обнаружению биологических модулей и даже анализу механизмов заболеваний. Обширные эксперименты с четырьмя репрезентативными категориями моделей, включающими подходы на основе сходства последовательностей, простых последовательностей, языковых моделей белков и структур, демонстрируют, что текущие модели ББВ имеют потенциальные ограничения в восстановлении как структурных, так и функциональных свойств сетей ББВ, подчеркивая разрыв в поддержке реальных биологических приложений. Мы считаем, что PRING предоставляет надежную платформу для разработки более эффективных моделей предсказания ББВ для научного сообщества. Набор данных и исходный код PRING доступны по адресу https://github.com/SophieSarceau/PRING.
Искусственный интеллект (ИИ) обладает значительным потенциалом в медицинских приложениях, однако его обучение и внедрение сталкиваются с трудностями из-за разнообразия медицинских данных, сложности задач и необходимости сохранения конфиденциальности. Фундаментальные модели, которые хорошо справляются с медицинскими задачами и требуют меньше данных для настройки под конкретные задачи, имеют решающее значение для ускорения разработки медицинских приложений на основе ИИ. Мы представляем MedGemma — набор медицинских мультимодальных фундаментальных моделей, основанных на Gemma 3 4B и 27B. MedGemma демонстрирует продвинутое понимание и анализ медицинских изображений и текста, значительно превосходя производительность генеративных моделей аналогичного размера и приближаясь к результатам специализированных моделей, сохраняя при этом общие возможности базовых моделей Gemma 3. Для задач, выходящих за пределы распределения, MedGemma показывает улучшение на 2,6–10% в медицинском мультимодальном ответах на вопросы, на 15,5–18,1% в классификации результатов рентгенографии грудной клетки и на 10,8% в агентских оценках по сравнению с базовыми моделями. Дополнительная настройка MedGemma улучшает производительность в поддоменах, сокращая ошибки в извлечении информации из электронных медицинских записей на 50% и достигая сопоставимых результатов с существующими специализированными передовыми методами для классификации пневмоторакса и классификации гистопатологических срезов. Мы также представляем MedSigLIP — медицински адаптированный визуальный кодировщик, созданный на основе SigLIP. MedSigLIP обеспечивает возможности визуального понимания MedGemma и как кодировщик демонстрирует сопоставимую или лучшую производительность по сравнению со специализированными медицинскими кодировщиками изображений. В совокупности набор MedGemma предоставляет мощную основу для работы с медицинскими изображениями и текстом, что может значительно ускорить медицинские исследования и разработку прикладных решений. Набор MedGemma, включая руководства и веса моделей, доступен по адресу https://goo.gle/medgemma.
Недавние разработки в области "сегментации чего угодно" демонстрируют перспективы благодаря обучению на крупномасштабных данных, однако прямое применение таких моделей к медицинским изображениям остается сложной задачей из-за сложности медицинских данных, зашумленных аннотаций и требований к непрерывному обучению на разнообразных модальностях и анатомических структурах. В данной работе мы представляем SAMed-2 — новую базовую модель для сегментации медицинских изображений, построенную на архитектуре SAM-2. В частности, мы вводим временной адаптер в кодировщик изображений для учета корреляций между изображениями и механизм памяти, управляемый уверенностью, для хранения высокоточных признаков с последующим их извлечением. Эта стратегия, основанная на памяти, противостоит повсеместному шуму в крупномасштабных медицинских наборах данных и смягчает проблему катастрофического забывания при столкновении с новыми задачами или модальностями. Для обучения и оценки SAMed-2 мы создали MedBank-100k — всеобъемлющий набор данных, охватывающий семь методов визуализации и 21 задачу медицинской сегментации. Наши эксперименты как на внутренних бенчмарках, так и на 10 внешних наборах данных демонстрируют превосходную производительность по сравнению с современными базовыми методами в многозадачных сценариях. Код доступен по адресу: https://github.com/ZhilingYan/Medical-SAM-Bench.
Последние достижения в области моделей диффузионных трансформеров для генерации видео с управлением движением, такие как Tora, продемонстрировали значительный прогресс. В данной статье мы представляем Tora2, усовершенствованную версию Tora, которая включает несколько улучшений в дизайне для расширения возможностей кастомизации как внешнего вида, так и движения. В частности, мы вводим декомпозированный экстрактор персонализации, который генерирует всеобъемлющие эмбеддинги персонализации для множества объектов из открытого набора, лучше сохраняя мелкие визуальные детали по сравнению с предыдущими методами. На основе этого мы разрабатываем механизм управляемого самовнимания для интеграции траектории, текстового описания и визуальной информации для каждого объекта. Это нововведение значительно снижает рассогласование в мультимодальных условиях во время обучения. Кроме того, мы вводим контрастную функцию потерь, которая совместно оптимизирует динамику траектории и согласованность объектов через явное отображение между эмбеддингами движения и персонализации. Tora2, насколько нам известно, является первым методом, который позволяет одновременно кастомизировать внешний вид и движение нескольких объектов для генерации видео. Экспериментальные результаты показывают, что Tora2 демонстрирует конкурентоспособную производительность по сравнению с современными методами кастомизации, предоставляя при этом расширенные возможности управления движением, что знаменует собой важный шаг вперед в генерации видео с множественными условиями. Страница проекта: https://github.com/alibaba/Tora.
Обработка длинных контекстов стала фундаментальной способностью для крупных языковых моделей (LLM). Для оценки производительности моделей на длинных контекстах было предложено множество бенчмарков. Однако различия в настройках оценки между этими бенчмарками приводят к неоднозначным результатам, что затрудняет проведение надежных сравнений. Кроме того, высокая вычислительная стоимость оценки длинных контекстов создает значительные препятствия для сообщества в проведении всестороннего анализа таких моделей. В данной статье мы представляем LOOM-Scope — комплексную и эффективную платформу для оценки длинных контекстов. LOOM-Scope стандартизирует настройки оценки для различных бенчмарков, поддерживает внедрение методов ускорения вывода для длинных контекстов и предлагает универсальный, но легковесный набор бенчмарков для всесторонней оценки моделей. Домашняя страница: https://loomscope.github.io
Мы представляем any4 — решение для 4-битного квантования весов больших языковых моделей (LLM), основанное на обучении и поддерживающее произвольные числовые представления без необходимости предварительной обработки весов или активаций. any4 демонстрирует более высокую точность по сравнению с другими связанными 4-битными числовыми представлениями: int4, fp4 и nf4, что подтверждено оценкой на моделях различных размеров, поколений и семейств (Llama 2, Llama 3, Mistral и Mixtral). Хотя any4 не требует предварительной обработки весов или активаций, он также конкурентоспособен с ортогональными методами, которые такую обработку требуют (например, AWQ и GPTQ). Мы также экспериментируем с any3 и any2 и показываем их конкурентоспособность при меньшем количестве бит. Кроме того, мы демонстрируем возможность калибровки с использованием одного тщательно отобранного разнообразного образца вместо сотен образцов из набора данных, как это делается в большинстве подходов к квантованию. Мы также открываем исходный код tinygemm — библиотеки для оптимизированного по задержкам матричного умножения на GPU для LLM, которая реализует any4 с использованием эффективной для GPU стратегии таблиц поиска, а также других распространенных методов квантования. Наш код доступен по адресу https://github.com/facebookresearch/any4.
Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в решении широкого спектра задач, однако они также проявляют склонность к запоминанию своих обучающих данных. Это явление поднимает важные вопросы о поведении моделей, рисках для конфиденциальности и границе между обучением и запоминанием. В данной статье, рассматривая эти проблемы, обобщаются последние исследования и исследуется ландшафт запоминания, факторы, влияющие на него, а также методы его обнаружения и смягчения. Мы изучаем ключевые факторы, включая дублирование обучающих данных, динамику обучения и процедуры тонкой настройки, которые влияют на запоминание данных. Кроме того, мы рассматриваем методологии, такие как извлечение на основе префиксов, вывод членства и адверсарные запросы, оценивая их эффективность в обнаружении и измерении запомненного содержимого. Помимо технического анализа, мы также исследуем более широкие последствия запоминания, включая юридические и этические аспекты. Наконец, мы обсуждаем стратегии смягчения, такие как очистка данных, дифференциальная приватность и посттренировочное "забывание", подчеркивая открытые вызовы в балансировании минимизации вредного запоминания с полезностью. Данная статья предоставляет всесторонний обзор текущего состояния исследований по запоминанию в LLM, охватывая технические, конфиденциальные и производительностные аспекты, и определяет ключевые направления для будущих исследований.
Семантическое завершение сцены (SSC) направлено на восстановление как трехмерной геометрии, так и семантики сцены на основе одиночных изображений. В отличие от предыдущих работ по SSC, которые в значительной степени опираются на дорогостоящие аннотации с точными данными, мы рассматриваем SSC в условиях отсутствия обучения с учителем. Наш новый метод, SceneDINO, адаптирует подходы из самообучаемого представления и двумерного неконтролируемого понимания сцены для задачи SSC. Наше обучение исключительно использует самоконтроль на основе многовидовой согласованности без каких-либо семантических или геометрических точных данных. При наличии одного входного изображения SceneDINO восстанавливает трехмерную геометрию и выразительные трехмерные признаки DINO в прямом проходе. Благодаря новому подходу к дистилляции трехмерных признаков мы получаем неконтролируемую трехмерную семантику. В задачах как трехмерного, так и двумерного неконтролируемого понимания сцены SceneDINO достигает наивысшей точности сегментации. Линейное зондирование наших трехмерных признаков соответствует точности сегментации современных контролируемых подходов SSC. Кроме того, мы демонстрируем обобщение на различные домены и многовидовую согласованность SceneDINO, делая первые шаги к созданию надежной основы для понимания трехмерной сцены по одиночному изображению.
Понимание композиции имеет решающее значение для человеческого интеллекта, однако до сих пор неясно, обладают ли этим свойством современные модели компьютерного зрения. Доминирующая парадигма машинного обучения основана на предпосылке, что увеличение масштаба данных и размеров моделей улучшит их производительность на данных, выходящих за пределы обучающего распределения, включая композиционную обобщаемость. Мы проверяем эту гипотезу с помощью контролируемых экспериментов, в которых систематически варьируются масштаб данных, разнообразие концепций и охват комбинаций. Мы обнаруживаем, что композиционная обобщаемость определяется разнообразием данных, а не просто их объемом. Увеличение охвата комбинаций заставляет модели обнаруживать линейно факторизованную структуру представлений, в которой концепции разлагаются на аддитивные компоненты. Мы доказываем, что такая структура является ключом к эффективности, позволяя достичь идеального обобщения на основе небольшого числа наблюдаемых комбинаций. Оценивая предобученные модели (DINO, CLIP), мы наблюдаем производительность выше случайной, но не идеальную, что указывает на частичное наличие этой структуры. Наша работа подчеркивает важность создания разнообразных наборов данных для композиционной обобщаемости и учета значимости структуры представлений, которая обеспечивает эффективное композиционное обучение. Код доступен по адресу https://github.com/oshapio/visual-compositional-generalization.
Достижения в области генерации изображений по тексту были преимущественно ориентированы на английский язык, создавая барьеры для носителей других языков и усугубляя цифровое неравенство. Хотя существующие системы полагаются на цепочки перевода, это приводит к семантическим искажениям, вычислительным издержкам и культурным несоответствиям. Мы представляем NeoBabel — новую многоязычную платформу для генерации изображений, которая устанавливает новый парето-оптимум в производительности, эффективности и инклюзивности, поддерживая шесть языков: английский, китайский, голландский, французский, хинди и персидский. Модель обучается с использованием комбинации крупномасштабного многоязычного предобучения и тонкой настройки на высококачественных инструкциях. Для оценки её возможностей мы расширяем два англоязычных бенчмарка до их многоязычных аналогов: m-GenEval и m-DPG. NeoBabel достигает передовых результатов в многоязычных задачах, сохраняя при этом высокую производительность на английском языке, с показателями 0.75 на m-GenEval и 0.68 на m-DPG. Примечательно, что она работает на уровне ведущих моделей в англоязычных задачах, превосходя их на +0.11 и +0.09 в многоязычных бенчмарках, даже несмотря на то, что эти модели основаны на многоязычных базовых LLM. Это демонстрирует эффективность нашего целевого обучения для сохранения и расширения кросс-лингвистической обобщаемости. Мы также вводим две новые метрики для строгой оценки многоязычного соответствия и устойчивости к смешанным запросам. NeoBabel соответствует или превосходит англоязычные модели, будучи при этом в 2-4 раза компактнее. Мы публикуем открытый инструментарий, включающий весь код, контрольные точки модели, курированный набор данных из 124 миллионов многоязычных текстово-изобразительных пар и стандартизированные протоколы многоязычной оценки, чтобы способствовать развитию инклюзивных исследований в области ИИ. Наша работа демонстрирует, что многоязычная поддержка не является компромиссом, а служит катализатором для повышения устойчивости, эффективности и культурной точности в генеративном ИИ.
Мы разработали и реализовали AXLearn — производственную систему глубокого обучения, которая обеспечивает масштабируемое и высокопроизводительное обучение крупных моделей глубокого обучения. В отличие от других современных систем глубокого обучения, AXLearn уделяет особое внимание модульности и поддержке гетерогенной аппаратной инфраструктуры. Внутренние интерфейсы между программными компонентами AXLearn строго инкапсулированы, что позволяет гибко комбинировать различные компоненты для ускоренной разработки моделей и экспериментов на гетерогенных вычислительных инфраструктурах. Мы представляем новый метод количественной оценки модульности с использованием сложности, измеряемой в строках кода (LoC), который демонстрирует, как наша система сохраняет постоянную сложность при масштабировании компонентов, в отличие от линейной или квадратичной сложности в других системах. Это позволяет интегрировать такие функции, как Rotary Position Embeddings (RoPE), в AXLearn через сотни модулей всего с 10 строками кода, тогда как в других системах для этого требуются сотни строк. При этом AXLearn сохраняет производительность на уровне современных систем обучения. Наконец, мы делимся опытом разработки и эксплуатации AXLearn.
Последние достижения в области моделей диффузии графов (GDMs) позволили синтезировать реалистичные сетевые структуры, однако обеспечение справедливости в генерируемых данных остается важной задачей. Существующие решения пытаются снизить предвзятость путем повторного обучения GDMs с использованием ad-hoc ограничений на справедливость. В данной работе мы предлагаем FAROS — новый фреймворк для FAir генерации графов, который использует механизмы переключения атрибутов и работает непосредственно в процессе генерации предварительно обученной GDM. Технически наш подход заключается в изменении чувствительных атрибутов узлов во время генерации. Для этого FAROS вычисляет оптимальную долю узлов для переключения и выбирает шаг диффузии для выполнения переключения, устанавливая адаптированные многокритериальные ограничения для сохранения профиля топологии узлов из исходного распределения (прокси для точности) и обеспечения независимости ребер от чувствительных атрибутов в сгенерированном графе (прокси для справедливости). Наши эксперименты на эталонных наборах данных для предсказания связей демонстрируют, что предложенный подход эффективно снижает различия в справедливости, сохраняя сопоставимую (или даже более высокую) точность по сравнению с другими аналогичными базовыми методами. Примечательно, что FAROS также способен достичь лучшего компромисса между точностью и справедливостью, чем другие конкуренты, в некоторых тестируемых условиях в рамках концепции Парето-оптимальности, что подтверждает эффективность наложенных многокритериальных ограничений.