Ежедневно отобранные исследовательские статьи по ИИ с переводами
Замечательные способности крупных языковых моделей (LLM) к выполнению задач без предварительного обучения (zero-shot) способствовали переходу в области обработки естественного языка от специализированных моделей к универсальным базовым моделям общего назначения. Эта трансформация возникла из простых принципов: большие генеративные модели, обученные на данных веб-масштаба. Интересно, что те же принципы применимы к современным генеративным моделям для видео. Могут ли модели для видео двигаться по пути к универсальному пониманию визуальной информации, подобно тому, как LLM развили универсальное понимание языка? Мы демонстрируем, что модель Veo 3 способна решать широкий спектр задач, для которых она не была явно обучена: сегментировать объекты, обнаруживать границы, редактировать изображения, понимать физические свойства, распознавать функциональные возможности объектов, моделировать использование инструментов и многое другое. Эти способности воспринимать, моделировать и манипулировать визуальным миром позволяют решать ранние формы визуальных задач, такие как прохождение лабиринтов или определение симметрии. Возникающие zero-shot способности Veo указывают на то, что модели для видео находятся на пути к становлению универсальными базовыми моделями для обработки визуальной информации.
Методы неявной цепочки рассуждений (CoT) представляют собой перспективную и эффективную по использованию токенов альтернативу явным методам CoT в больших языковых моделях (LLM), однако сохраняющийся разрыв в производительности ограничивает их применение. Мы выявили ключевую проблему латентной нестабильности при масштабировании вычислительных ресурсов для неявных подходов CoT: с увеличением количества токенов неявного рассуждения для повышения производительности процесс обучения часто становится нестабильным и разрушается. Наш анализ показывает, что эта нестабильность возникает из-за того, что латентные представления становятся однородными и теряют семантическое разнообразие, что вызвано недостаточным пошаговым контролем в существующих подходах неявной CoT. Для решения этой проблемы мы предлагаем SIM-CoT, модуль обучения "подключи и работай", который вводит пошаговый контроль для стабилизации и обогащения латентного пространства рассуждений. В частности, SIM-CoT использует вспомогательный декодер во время обучения для согласования каждого неявного токена с соответствующим шагом явного рассуждения, гарантируя, что латентные состояния захватывают уникальную и значимую информацию. Предложенный вспомогательный декодер удаляется на этапе вывода, сохраняя вычислительную эффективность неявных методов CoT без дополнительных затрат. Кроме того, вспомогательный декодер обеспечивает интерпретируемость неявных рассуждений, проецируя каждый латентный токен на словарь явных рассуждений, что позволяет визуализировать семантические роли и диагностировать их на каждом шаге. SIM-CoT значительно улучшает как точность в рамках домена, так и стабильность вне домена для различных методов неявной CoT, повышая базовые показатели, такие как Coconut, на +8,2% для GPT-2 и CODI на +3,0% для LLaMA-3.1 8B. Демонстрируя высокую масштабируемость, SIM-CoT также превосходит базовый метод явной CoT на GPT-2 на 2,1% при 2,3-кратной эффективности использования токенов, существенно сокращая разрыв в производительности на более крупных моделях, таких как LLaMA-3.1 8B.
Мы представляем EmbeddingGemma — новую облегчённую модель для создания текстовых эмбеддингов с открытым исходным кодом, основанную на семействе языковых моделей Gemma 3. Наш инновационный подход к обучению стратегически извлекает знания из более крупных моделей с помощью инициализации кодировщика-декодера и дистилляции геометрических эмбеддингов. Мы повышаем устойчивость и выразительность модели с помощью регуляризатора, способствующего распределению, и обеспечиваем обобщаемость за счёт объединения контрольных точек из различных оптимизированных смесей. Оцененная на Massive Text Embedding Benchmark (MTEB) в многоязычных, английских и программных доменах, EmbeddingGemma (300M) демонстрирует результаты на уровне современных достижений. Примечательно, что она превосходит предыдущие топовые модели, как проприетарные, так и открытые, с менее чем 500 миллионами параметров, и обеспечивает производительность, сопоставимую с моделями вдвое большего размера, предлагая исключительное соотношение производительности и затрат. Этот лидерство сохраняется даже при квантовании весов модели или усечении выходных эмбеддингов, что делает EmbeddingGemma особенно подходящей для задач с низкой задержкой и высокой пропускной способностью, таких как приложения на устройствах. Мы предоставляем исследования, изучающие ключевые проектные решения, и выпускаем EmbeddingGemma в сообщество для содействия дальнейшим исследованиям.
Последние достижения в области базовых моделей демонстрируют явную тенденцию к унификации и масштабированию, раскрывая возникающие возможности в различных областях. В то время как генерация и редактирование изображений быстро перешли от узкоспециализированных подходов к унифицированным фреймворкам, генерация и редактирование видео остаются фрагментированными из-за архитектурных ограничений и недостатка данных. В данной работе мы представляем EditVerse — унифицированный фреймворк для генерации и редактирования изображений и видео в рамках единой модели. Представляя все модальности, такие как текст, изображение и видео, в виде единой последовательности токенов, EditVerse использует механизм самовнимания для достижения устойчивого обучения в контексте, естественного переноса знаний между модальностями и гибкой обработки входных и выходных данных с произвольными разрешениями и длительностями. Для решения проблемы отсутствия обучающих данных для редактирования видео мы разработали масштабируемый конвейер данных, который включает 232 тыс. образцов редактирования видео и объединяет их с крупномасштабными наборами данных изображений и видео для совместного обучения. Кроме того, мы представляем EditVerseBench — первый бенчмарк для редактирования видео на основе инструкций, охватывающий разнообразные задачи и разрешения. Многочисленные эксперименты и пользовательские исследования показывают, что EditVerse достигает наилучших результатов, превосходя существующие открытые и коммерческие модели, и демонстрирует возникающие способности к редактированию и генерации в различных модальностях.
В данной статье мы представляем метод, основанный на Оптимизации Относительной Групповой Политики (GRPO), для обучения Речево-Ориентированных Больших Языковых Моделей (SALLMs) на задачах понимания речи в открытом формате, таких как Устный Ответ на Вопросы и Автоматический Перевод Речи. SALLMs доказали свою высокую эффективность в задачах понимания речи. GRPO недавно получила признание за свою эффективность в обучении больших языковых моделей, и предыдущие работы исследовали её применение к SALLMs, в основном в задачах с множественным выбором. Опираясь на это, мы сосредотачиваемся на задачах в открытом формате, которые лучше отражают генеративные способности моделей. Наш подход использует GRPO с BLEU в качестве сигнала вознаграждения для оптимизации SALLMs, и мы эмпирически демонстрируем, что он превосходит стандартное тонкое обучение (SFT) по нескольким ключевым метрикам. Наконец, мы исследуем потенциал включения внеполитических выборок в GRPO для этих задач, выделяя направления для дальнейшего улучшения и исследований.
Современные методы искусственного интеллекта (ИИ) продолжают трансформировать наше представление о мире. Например, приложения, основанные на больших языковых моделях (LLM), такие как ChatGPT, продемонстрировали способность генерировать человекообразные диалоги на широкий спектр тем. Благодаря впечатляющим результатам в решении различных языковых задач (например, открытые вопросы, перевод и суммирование документов), можно представить далеко идущие последствия, которые могут быть вызваны применением LLM в более широких реальных сценариях (например, обслуживание клиентов, образование и доступность, научные открытия). Вдохновленные их успехом, в данной статье представлен обзор современных LLM и их интеграции в различные академические дисциплины, включая: (1) искусство, гуманитарные науки и право (например, история, философия, политология, искусство и архитектура, право), (2) экономику и бизнес (например, финансы, экономика, бухгалтерский учет, маркетинг) и (3) науку и инженерию (например, математика, физика и машиностроение, химия и химическая инженерия, науки о жизни и биоинженерия, науки о Земле и гражданское строительство, компьютерные науки и электротехника). Объединяя гуманитарные и технологические аспекты, в этой статье мы исследуем, как LLM влияют на исследования и практику в этих областях, а также обсуждаем ключевые ограничения, открытые вызовы и будущие направления в эпоху генеративного ИИ. Обзор применения LLM в различных дисциплинах, а также ключевые наблюдения и выводы могут помочь исследователям и практикам, заинтересованным в использовании LLM для продвижения своих работ в разнообразных реальных приложениях.
Существующие модели генерации видео преуспевают в создании фотореалистичных видеороликов на основе текста или изображений, но часто страдают от недостатка физической правдоподобности и трехмерной управляемости. Чтобы преодолеть эти ограничения, мы представляем PhysCtrl — новый фреймворк для генерации видео на основе изображений с учетом физических параметров и управления силами. В его основе лежит генеративная физическая сеть, которая изучает распределение физической динамики для четырех материалов (упругих, песка, пластилина и твердых) с помощью диффузионной модели, учитывающей физические параметры и приложенные силы. Мы представляем физическую динамику как траектории трехмерных точек и обучаем модель на крупномасштабном синтетическом наборе данных из 550 тысяч анимаций, созданных физическими симуляторами. Мы улучшаем диффузионную модель с помощью нового пространственно-временного блока внимания, который имитирует взаимодействие частиц и включает физические ограничения в процессе обучения для обеспечения физической правдоподобности. Эксперименты показывают, что PhysCtrl генерирует реалистичные, физически обоснованные траектории движения, которые, при использовании для управления моделями генерации видео, создают высококачественные, управляемые видеоролики, превосходящие существующие методы как по визуальному качеству, так и по физической правдоподобности. Страница проекта: https://cwchenwang.github.io/physctrl.
Мы представляем Lavida-O — унифицированную модель маскированной диффузии (Masked Diffusion Model, MDM) для многомодального понимания и генерации. В отличие от существующих многомодальных MDM, таких как MMaDa и Muddit, которые поддерживают только простые задачи понимания на уровне изображений и генерацию изображений низкого разрешения, Lavida-O предлагает единую структуру, которая обеспечивает понимание на уровне изображений, локализацию объектов, редактирование изображений и синтез изображений высокого разрешения (1024 пикселя) по текстовому описанию. Lavida-O включает в себя новую архитектуру Elastic Mixture-of-Transformers (Elastic-MoT), которая объединяет легковесную ветвь генерации с более мощной ветвью понимания, поддерживаемую сжатием токенов, универсальным текстовым кондиционированием и стратифицированной выборкой для эффективной и качественной генерации. Lavida-O также интегрирует планирование и итеративное саморефлексию в задачи генерации и редактирования изображений, что позволяет плавно повышать качество генерации благодаря своим возможностям понимания. Lavida-O демонстрирует наилучшие результаты на широком спектре тестов, включая локализацию объектов на RefCOCO, генерацию изображений по тексту на GenEval и редактирование изображений на ImgEdit, превосходя существующие авторегрессивные модели и модели непрерывной диффузии, такие как Qwen2.5-VL и FluxKontext-dev, при этом обеспечивая значительное ускорение на этапе вывода. Эти достижения устанавливают Lavida-O как новую парадигму для масштабируемого многомодального рассуждения и генерации.
Модели предсказания структуры белков достигли революционных результатов, как правило, за счет интеграции предметных знаний в архитектурные блоки и обучающие конвейеры. Тем не менее, учитывая успехи генеративных моделей в решении различных, но связанных задач, естественно задаться вопросом, являются ли эти архитектурные решения необходимым условием для создания эффективных моделей. В данной статье мы представляем SimpleFold — первую модель предсказания структуры белков, основанную на методе согласования потоков и использующую исключительно универсальные трансформерные блоки. Обычно модели предсказания структуры белков включают вычислительно затратные модули, такие как треугольные обновления, явные представления пар или множественные обучающие цели, адаптированные для этой конкретной области. Вместо этого SimpleFold использует стандартные трансформерные блоки с адаптивными слоями и обучается с помощью генеративного метода согласования потоков с дополнительным структурным термином. Мы масштабируем SimpleFold до 3 миллиардов параметров и обучаем её на примерно 9 миллионах дистиллированных структур белков вместе с экспериментальными данными из PDB. На стандартных бенчмарках предсказания структуры белков SimpleFold-3B демонстрирует конкурентоспособную производительность по сравнению с современными базовыми моделями. Кроме того, SimpleFold показывает высокую эффективность в ансамблевом предсказании, что обычно является сложной задачей для моделей, обученных с использованием детерминированных реконструкционных целей. Благодаря своей универсальной архитектуре, SimpleFold демонстрирует эффективность в развертывании и выводе на потребительском оборудовании. SimpleFold ставит под сомнение необходимость сложных архитектурных решений, специфичных для области предсказания структуры белков, открывая альтернативное пространство для будущих разработок.
Открытые большие языковые модели (LLM) всё чаще специализируются по доменам (например, математика, программирование, общие рассуждения), что стимулирует создание систем, использующих комплементарные сильные стороны различных моделей. Предыдущие подходы с использованием нескольких LLM либо (i) направляют запрос к одному или нескольким экспертам и генерируют ответы независимо, (ii) агрегируют выходные данные от каждой модели через затратные многошаговые обмены, либо (iii) объединяют веса в единую модель, что обычно требует архитектурной однородности. Мы представляем Mixture of Thoughts (MoT), простой метод для латентного уровня сотрудничества среди гетерогенных экспертов в рамках глобальной схемы маршрутизации. Для каждого запроса легковесный маршрутизатор выбирает топ-K экспертов и назначает основного эксперта; равномерно размещённые слои взаимодействия проецируют скрытые состояния в общее латентное пространство, где основной эксперт выполняет кросс-внимание над своими активными (выбранными) коллегами. Предварительно обученные эксперты остаются замороженными; обучаются только маршрутизатор и легковесные слои взаимодействия с использованием новой совместной функции обучения, которая улучшает как выбор экспертов, так и взаимодействие между ними. На пяти внутрираспределительных (ID) и трёх внераспределительных (OOD) тестах MoT превосходит текущий state-of-the-art, основанный на маршрутизации и агрегации, Avengers, на +0,38% и +2,92% соответственно. Кроме того, MoT значительно превосходит лучшую одиночную модель. Это достигается с однопроходным выводом, временем выполнения, сопоставимым с базовыми методами маршрутизации, и без накладных расходов на итеративную агрегацию. MoT предлагает простой механизм в латентном пространстве для объединения гетерогенных LLM, практический шаг к более широкому сотрудничеству нескольких LLM. Наш код доступен публично по адресу https://github.com/jacobfa/mot.
Последние достижения в области крупных моделей обработки зрения и языка (LVLM) стимулировали значительный прогресс в задачах анализа документов. По сравнению с традиционными методами, основанными на последовательных этапах обработки, сквозные (end-to-end) подходы продемонстрировали превосходство в преобразовании изображений PDF в структурированные данные благодаря интеграции технологий оптического распознавания символов (OCR), распознавания таблиц, математических формул и других компонентов. Однако отсутствие явных этапов анализа макета документа и порядка чтения ограничивает возможности LVLM в обработке сложных типов документов, таких как многоколоночные газеты или плакаты. Для устранения этого ограничения в данном отчете мы предлагаем Logics-Parsing: сквозную модель на основе LVLM, усиленную обучением с подкреплением. Наша модель включает тщательно разработанные механизмы вознаграждения для оптимизации анализа сложных макетов и вывода порядка чтения. Кроме того, мы расширяем универсальность модели, включая в процесс контролируемой тонкой настройки разнообразные типы данных, такие как химические формулы и рукописные китайские иероглифы. Наконец, для обеспечения строгой оценки нашего подхода мы представляем LogicsParsingBench — тщательно отобранный набор из 1 078 изображений PDF на уровне страниц, охватывающих девять основных категорий и более двадцати подкатегорий, который будет опубликован позднее. Комплексные эксперименты, проведенные на LogicsParsingBench, подтвердили эффективность и передовые (State-of-the-art, SOTA) характеристики нашей модели в различных сценариях анализа документов. Страница проекта: https://github.com/alibaba/Logics-Parsing
Крупные языковые модели (LLM) всё чаще интегрируются в процессы разработки программного обеспечения. Возможность генерировать код и отправлять пул-реквесты с минимальным вмешательством человека, благодаря использованию автономных ИИ-агентов, становится стандартной практикой. Однако мало что известно о практической полезности этих пул-реквестов и степени их принятия в реальных проектах. В данной статье мы эмпирически исследуем 567 пул-реквестов (PR), сгенерированных с помощью инструмента Claude Code, агентного инструмента для написания кода, в 157 различных проектах с открытым исходным кодом на GitHub. Наш анализ показывает, что разработчики склонны полагаться на агентов для таких задач, как рефакторинг, документация и тестирование. Результаты указывают на то, что 83,8% этих PR, созданных с помощью агентов, в конечном итоге принимаются и объединяются сопровождающими проектов, причём 54,9% из них интегрируются без дополнительных изменений. Оставшиеся 45,1% требуют доработок, которые выигрывают от человеческого вмешательства, особенно в случае исправления ошибок, документации и соблюдения специфических стандартов проекта. Эти результаты свидетельствуют о том, что, хотя PR, созданные с помощью агентов, в основном приемлемы, они всё же выигрывают от человеческого контроля и доработок.
Точная классификация товаров в соответствии с Гармонизированной системой описания и кодирования товаров (ГС) является критически важным узким местом в международной торговле, однако она практически не привлекала внимания сообщества машинного обучения. Ошибки в классификации могут полностью остановить поставки, что приводит к приостановке доставки крупными почтовыми операторами в США из-за неполной таможенной документации. Мы представляем первый эталонный набор данных для классификации кодов ГС, созданный на основе системы онлайн-поиска таможенных решений США (CROSS). Оценивая ведущие языковые модели, мы обнаруживаем, что наша доработанная модель Atlas (LLaMA-3.3-70B) достигает 40% полностью правильных классификаций на уровне 10-значных кодов и 57,5% правильных классификаций на уровне 6-значных кодов, что на 15 пунктов лучше, чем у GPT-5-Thinking, и на 27,5 пунктов лучше, чем у Gemini-2.5-Pro-Thinking. Помимо точности, Atlas примерно в пять раз дешевле, чем GPT-5-Thinking, и в восемь раз дешевле, чем Gemini-2.5-Pro-Thinking, а также может быть развернут локально для обеспечения конфиденциальности данных в критически важных процессах торговли и соблюдения нормативных требований. Хотя Atlas задает высокую планку, эталонный набор остается крайне сложным, с точностью всего 40% на уровне 10-значных кодов. Публикуя как набор данных, так и модель, мы стремимся сделать классификацию ГС новой задачей для сообщества и приглашаем к дальнейшим исследованиям в области поиска, рассуждений и согласования.
Мы представляем библиотеку с открытым исходным кодом на Python для моделирования двумерных несжимаемых неустойчивостей Кельвина-Гельмгольца в стратифицированных сдвиговых течениях. Решатель использует метод дробных шагов с проекцией и спектральным решением уравнения Пуассона через быстрое синус-преобразование, обеспечивая точность второго порядка по пространству. Реализация использует NumPy, SciPy и JIT-компиляцию Numba для эффективных вычислений. Четыре канонических тестовых случая исследуют числа Рейнольдса в диапазоне 1000–5000 и числа Ричардсона 0.1–0.3: классический сдвиговый слой, двойной сдвиговый конфигурация, вращающееся течение и вынужденная турбулентность. Статистический анализ с использованием энтропии Шеннона и индексов сложности показывает, что двойные сдвиговые слои достигают в 2.8 раза более высоких скоростей перемешивания по сравнению с вынужденной турбулентностью, несмотря на более низкие числа Рейнольдса. Решатель эффективно работает на стандартных настольных компьютерах, при этом моделирование на сетке 384×192 завершается примерно за 31 минуту. Результаты демонстрируют, что эффективность перемешивания зависит от механизмов генерации неустойчивостей, а не только от мер интенсивности, что ставит под сомнение параметризации, основанные на числе Ричардсона, и предлагает уточнения для представления субсеточных масштабов в климатических моделях.