Ежедневно отобранные исследовательские статьи по ИИ с переводами
LLM продемонстрировали сильные способности к математическому рассуждению, используя обучение с подкреплением с длинными цепочками рассуждений, однако они продолжают испытывать трудности с доказательством теорем из-за отсутствия четких сигналов контроля при использовании исключительно естественного языка. Специализированные предметно-ориентированные языки, такие как Lean, обеспечивают четкий контроль через формальную верификацию доказательств, что позволяет эффективно обучать модели с помощью обучения с подкреплением. В данной работе мы предлагаем Seed-Prover, модель рассуждений в стиле лемм для полного доказательства. Seed-Prover может итеративно уточнять свое доказательство на основе обратной связи от Lean, доказанных лемм и самосуммаризации. Для решения задач уровня Международной математической олимпиады (IMO) мы разработали три стратегии вывода на этапе тестирования, которые позволяют проводить как глубокие, так и широкие рассуждения. Seed-Prover доказывает 78,1% формализованных задач прошлых IMO, достигает насыщения на MiniF2F и показывает результат свыше 50% на PutnamBench, значительно превосходя предыдущие достижения. Для решения проблемы отсутствия поддержки геометрии в Lean мы представляем механизм геометрических рассуждений Seed-Geometry, который превосходит предыдущие формальные геометрические движки. Мы используем эти две системы для участия в IMO 2025 и полностью доказываем 5 из 6 задач. Данная работа представляет собой значительный шаг вперед в области автоматизированного математического рассуждения, демонстрируя эффективность формальной верификации в сочетании с длинными цепочками рассуждений.
С развитием моделей мультимодального рассуждения агенты компьютерного использования (Computer Use Agents, CUAs), подобные Джарвису из "Железного человека", становятся реальностью. Основание на графическом интерфейсе (GUI grounding) является ключевым компонентом для выполнения CUAs реальных действий, аналогично механическому управлению в робототехнике, и напрямую определяет успех или провал системы. Оно определяет такие действия, как клики и ввод текста, а также связанные параметры, например координаты кликов. Современные сквозные модели основания всё ещё демонстрируют точность менее 65\% на сложных тестах, таких как ScreenSpot-pro и UI-Vision, что указывает на их недостаточную готовность к внедрению. В данной работе мы проводим эмпирическое исследование обучения моделей основания, рассматривая детали от сбора данных до обучения модели. В итоге мы разработали семейство моделей Phi-Ground, которое достигает наилучших результатов на всех пяти тестах основания для моделей с менее чем 10 миллиардами параметров в настройках агента. В сквозной настройке модели наша модель также демонстрирует наилучшие результаты с показателями \textbf{43.2} на ScreenSpot-pro и \textbf{27.2} на UI-Vision. Мы считаем, что различные детали, обсуждаемые в этой статье, а также наши успехи и неудачи не только проясняют построение моделей основания, но и приносят пользу другим задачам восприятия. Домашняя страница проекта: https://zhangmiaosen2000.github.io/Phi-Ground/{https://zhangmiaosen2000.github.io/Phi-Ground/}
Модели разговорного диалога (Spoken Dialogue Models, SDMs) в последнее время привлекают значительное внимание благодаря своей способности генерировать голосовые ответы непосредственно на устные запросы пользователей. Несмотря на растущую популярность, существует пробел в исследованиях, направленных на всестороннее понимание их практической эффективности в понимании и имитации человеческих разговоров. Это особенно заметно в сравнении с текстовыми крупномасштабными языковыми моделями (Large Language Models, LLMs), которые имеют преимущество благодаря обширному бенчмаркингу. Голосовое взаимодействие по своей природе сложнее текстового из-за уникальных характеристик устного диалога. Одной из проблем является неоднозначность, возникающая из-за семантических факторов, таких как полисемия, а также фонологических аспектов, включая гетерографы, омонимы и акцентные паттерны. Кроме того, контекстная зависимость, такая как опущение, кореференция и многоходовое взаимодействие, добавляет дополнительную сложность в динамику человеческого общения. Чтобы осветить текущее состояние разработки SDM и решить эти проблемы, в данной статье представлен бенчмарк-набор данных, включающий 1079 примеров на английском и китайском языках. В сочетании с методом оценки на основе LLM, который тесно согласуется с человеческим суждением, этот набор данных способствует всестороннему исследованию производительности SDM в решении этих практических задач.
Рекомендательные системы являются одними из наиболее значимых приложений искусственного интеллекта, выступая в качестве критически важной инфраструктуры, связывающей пользователей, продавцов и платформы. Однако большинство современных промышленных систем по-прежнему сильно зависят от исторических паттернов совместного появления и целей, основанных на подгонке к логам, то есть оптимизируют прошлые взаимодействия пользователей без явного моделирования их намерений. Такой подход, основанный на подгонке к логам, часто приводит к переобучению на узких исторических предпочтениях, не учитывая эволюцию и скрытые интересы пользователей. В результате это усиливает эффект "фильтрующего пузыря" и явления длинного хвоста, что в конечном итоге ухудшает пользовательский опыт и угрожает устойчивости всей экосистемы рекомендаций. Для решения этих проблем мы переосмысливаем общую парадигму проектирования рекомендательных систем и предлагаем RecGPT — фреймворк следующего поколения, который ставит намерения пользователя в центр процесса рекомендаций. Интегрируя большие языковые модели (LLM) в ключевые этапы анализа интересов пользователей, поиска товаров и генерации объяснений, RecGPT преобразует рекомендации, основанные на подгонке к логам, в процесс, ориентированный на намерения. Для эффективной адаптации универсальных LLM к указанным специализированным задачам рекомендаций в масштабе RecGPT использует многоэтапную парадигму обучения, которая включает предварительную адаптацию с усилением логического мышления и эволюцию самообучения, управляемую системой оценки, основанной на сотрудничестве человека и LLM. В настоящее время RecGPT полностью внедрен в приложение Taobao. Онлайн-эксперименты демонстрируют, что RecGPT обеспечивает стабильное улучшение показателей для всех заинтересованных сторон: пользователи получают больше разнообразия контента и удовлетворения, а продавцы и платформа — больше охвата и конверсий. Эти всесторонние улучшения подтверждают, что дизайн, ориентированный на намерения и управляемый LLM, способствует созданию более устойчивой и взаимовыгодной экосистемы рекомендаций.
Модели Visual-Language-Action (VLA) стали популярной парадигмой для обучения стратегий манипуляции роботов, способных следовать языковым инструкциям и обобщать их на новые сценарии. В последних работах начали исследовать включение латентных действий — абстрактного представления визуальных изменений между двумя кадрами — в предварительное обучение VLA. В данной статье мы представляем villa-X, новый фреймворк Visual-Language-Latent-Action (ViLLA), который продвигает моделирование латентных действий для обучения обобщаемым стратегиям манипуляции роботов. Наш подход улучшает как процесс обучения латентным действиям, так и их интеграцию в предварительное обучение VLA. В совокупности эти достижения позволяют villa-X демонстрировать превосходную производительность в симулированных средах, таких как SIMPLER и LIBERO, а также в двух реальных роботизированных установках, включая манипуляцию с помощью захвата и ловкой руки. Мы считаем, что парадигма ViLLA обладает значительным потенциалом, а villa-X предоставляет прочную основу для будущих исследований.
Прямое (feed-forward) 3D-моделирование стало перспективным подходом для быстрого и качественного 3D-реконструирования. В частности, прямое генерирование явных 3D-представлений, таких как 3D-сплайнинг на основе гауссовых функций, привлекло значительное внимание благодаря быстрому и качественному рендерингу, а также многочисленным приложениям. Однако многие современные методы, в основном основанные на архитектурах трансформеров, сталкиваются с серьезными проблемами масштабируемости, поскольку они полагаются на полное внимание между токенами изображений из нескольких входных видов, что приводит к непомерным вычислительным затратам при увеличении числа видов или разрешения изображений. В направлении масштабируемого и эффективного прямого 3D-реконструирования мы представляем итеративную модель крупномасштабного 3D-реконструирования (iLRM), которая генерирует 3D-представления на основе гауссовых функций через механизм итеративного уточнения, руководствуясь тремя основными принципами: (1) разделение представления сцены от изображений входных видов для создания компактных 3D-представлений; (2) декомпозиция полностью внимательных взаимодействий между несколькими видами в двухэтапную схему внимания для снижения вычислительных затрат; и (3) внедрение информации высокого разрешения на каждом слое для достижения высококачественной реконструкции. Экспериментальные результаты на широко используемых наборах данных, таких как RE10K и DL3DV, демонстрируют, что iLRM превосходит существующие методы как по качеству реконструкции, так и по скорости. В частности, iLRM демонстрирует превосходную масштабируемость, обеспечивая значительно более высокое качество реконструкции при сопоставимых вычислительных затратах за счет эффективного использования большего числа входных видов.
Хотя обучение с подкреплением (Reinforcement Learning, RL) достигло значительных успехов в моделировании языка, его триумф еще не полностью перенесен на визомоторные агенты. Основная проблема моделей RL заключается в их склонности к переобучению на конкретных задачах или средах, что препятствует приобретению обобщаемых поведений в разнообразных условиях. В данной статье предлагается предварительный ответ на этот вызов, демонстрируя, что визомоторные агенты, дообученные с помощью RL в Minecraft, способны достичь обобщения на незнакомые миры без дополнительного обучения (zero-shot generalization). В частности, мы исследуем потенциал RL для улучшения обобщаемых способностей пространственного мышления и взаимодействия в трехмерных мирах. Для решения проблем многозадачного представления в RL мы анализируем и устанавливаем кросс-видовую спецификацию целей как унифицированное пространство целей для визомоторных политик. Кроме того, чтобы преодолеть значительное ограничение ручного проектирования задач, мы предлагаем автоматизированный синтез задач в высоко настраиваемой среде Minecraft для масштабного многозадачного обучения RL и разрабатываем эффективную распределенную RL-структуру для поддержки этого. Экспериментальные результаты показывают, что RL значительно повышает успешность взаимодействия в 4 раза и обеспечивает zero-shot обобщение пространственного мышления в разнообразных средах, включая реальные условия. Наши результаты подчеркивают огромный потенциал обучения RL в трехмерных симулированных средах, особенно тех, которые подходят для масштабной генерации задач, для значительного продвижения пространственного мышления визомоторных агентов.
Мы представляем NeRF-GS, новый фреймворк, который совместно оптимизирует Нейронные Поля Излучения (NeRF) и 3D Гауссово Размытие (3DGS). Этот фреймворк использует присущее NeRF непрерывное пространственное представление для смягчения нескольких ограничений 3DGS, включая чувствительность к инициализации Гауссовых функций, ограниченную пространственную осведомленность и слабые корреляции между Гауссовыми функциями, тем самым повышая его производительность. В NeRF-GS мы пересматриваем дизайн 3DGS и постепенно выравниваем его пространственные характеристики с NeRF, позволяя обоим представлениям оптимизироваться в рамках одной сцены через общую 3D пространственную информацию. Мы также устраняем формальные различия между двумя подходами, оптимизируя остаточные векторы как для неявных признаков, так и для позиций Гауссовых функций, чтобы усилить персонализированные возможности 3DGS. Экспериментальные результаты на эталонных наборах данных показывают, что NeRF-GS превосходит существующие методы и достигает наилучших показателей. Этот результат подтверждает, что NeRF и 3DGS являются взаимодополняющими, а не конкурирующими, предлагая новые идеи для гибридных подходов, сочетающих 3DGS и NeRF для эффективного представления 3D сцен.
Крупные языковые модели взаимодействуют с пользователями через симулированную личность «Ассистента». Хотя Ассистент обычно обучается быть полезным, безопасным и честным, иногда он отклоняется от этих идеалов. В данной работе мы определяем направления в пространстве активаций модели — векторы личности, — которые лежат в основе нескольких характеристик, таких как злонамеренность, угодливость и склонность к галлюцинациям. Мы подтверждаем, что эти векторы можно использовать для отслеживания колебаний личности Ассистента во время эксплуатации. Затем мы применяем векторы личности для прогнозирования и управления изменениями личности, которые происходят в процессе обучения. Мы обнаруживаем, что как запланированные, так и непреднамеренные изменения личности после дообучения сильно коррелируют с изменениями вдоль соответствующих векторов личности. Эти изменения можно смягчить с помощью постфактумного вмешательства или предотвратить с помощью нового превентивного метода управления. Более того, векторы личности можно использовать для выявления обучающих данных, которые приведут к нежелательным изменениям личности, как на уровне всего набора данных, так и на уровне отдельных примеров. Наш метод извлечения векторов личности автоматизирован и может быть применен к любой интересующей характеристике личности, заданной только в виде естественно-языкового описания.
Мультимодальные крупные языковые модели (MLLMs) обеспечивают рассуждения на основе визуальной и текстовой информации, однако часто генерируют правдоподобные, но фактически неверные или визуально необоснованные результаты, что снижает их надежность. Оптимизация прямых предпочтений (DPO) является распространенной стратегией для исправления галлюцинаций путем согласования выходных данных модели с человеческими предпочтениями. Существующие стратегии DPO обычно рассматривают предпочтения, связанные с галлюцинациями, как фиксированные цели, полагаясь на статические сигналы контроля во время обучения. Такой подход склонен к переобучению на поверхностных лингвистических признаках в данных предпочтений, что приводит к распределительной жесткости и ложным корреляциям, ухудшающим обоснованность в причинно-следственной визуальной информации. Для преодоления этого ограничения мы предлагаем TARS, стратегию адаптивных предпочтений на уровне токенов, которая переформулирует DPO как задачу минимизации-максимизации. TARS максимизирует сдвиги распределений на уровне токенов при семантических ограничениях для моделирования неопределенности согласования и одновременно минимизирует ожидаемую потерю предпочтений при контролируемых возмущениях. Этот совместный подход сохраняет причинно-следственную обоснованность, смягчая переобучение на паттернах предпочтений, тем самым снижая галлюцинации в мультимодальных рассуждениях. Мы оцениваем TARS на нескольких бенчмарках галлюцинаций и наблюдаем стабильно высокую производительность. Используя всего 4,8 тыс. образцов предпочтений и без экспертной обратной связи, TARS снижает уровень галлюцинаций с 26,4% до 13,2% и уменьшает когнитивное значение с 2,5 до 0,4. Она превосходит стандартную DPO и соответствует GPT-4o по нескольким ключевым метрикам.
Точное автоматизированное понимание сельскохозяйственных задач, таких как идентификация заболеваний, имеет ключевое значение для устойчивого производства урожая. Недавние достижения в области моделей, объединяющих зрение и язык (Vision-Language Models, VLMs), ожидаемо расширят спектр сельскохозяйственных задач, упрощая взаимодействие между человеком и моделью через удобное текстовое общение. В данной работе мы представляем AgroBench (Agronomist AI Benchmark) — эталонный набор данных для оценки моделей VLMs по семи сельскохозяйственным темам, охватывающим ключевые области агроинженерии и актуальным для реального фермерства. В отличие от недавних эталонов для сельскохозяйственных VLMs, AgroBench аннотирован экспертами-агрономами. Наш AgroBench охватывает современный спектр категорий, включая 203 категории культур и 682 категории заболеваний, что позволяет всесторонне оценить возможности VLMs. В ходе оценки на AgroBench мы выявили, что VLMs имеют потенциал для улучшения в задачах детальной идентификации. В частности, в задаче идентификации сорняков большинство открытых VLMs показывают результаты, близкие к случайным. Благодаря широкому спектру тем и категорий, аннотированных экспертами, мы анализируем типы ошибок, допускаемых VLMs, и предлагаем возможные направления для их дальнейшего развития. Наш набор данных и код доступны по адресу https://dahlian00.github.io/AgroBenchPage/.
Классификация художественных стилей остается сложной задачей в области вычислительной эстетики из-за недостатка экспертно размеченных наборов данных и сложного, часто нелинейного взаимодействия стилистических элементов. Хотя современные двухучительские самообучающиеся подходы снижают зависимость от размеченных данных, их линейные проекционные слои и локальная фокусировка затрудняют моделирование глобального композиционного контекста и сложных взаимодействий стилевых признаков. Мы улучшаем двухучительскую архитектуру дистилляции знаний, заменяя традиционные MLP-проекции и прогностические головы на сети Колмогорова-Арнольда (KAN). Наш подход сохраняет комплементарное руководство двух учительских сетей: одна акцентирует внимание на локальных текстурах и мазках кисти, другая захватывает более широкие стилистические иерархии, при этом используя сплайн-активации KAN для точного математического моделирования нелинейных корреляций признаков. Эксперименты на наборах данных WikiArt и Pandora18k демонстрируют, что наш подход превосходит базовую двухучительскую архитектуру по точности Top-1. Результаты подчеркивают важность KAN в разделении сложных стилевых многообразий, что приводит к более высокой точности линейного зондирования по сравнению с MLP-проекциями.
С момента своего появления softmax-внимание стало основой современных архитектур трансформаторов благодаря своей выразительности и масштабируемости в широком спектре задач. Однако главным недостатком softmax-внимания является квадратичное требование к памяти и вычислительная сложность, зависящая от длины последовательности. Для устранения квадратичного узкого места softmax-внимания были предложены линейное внимание и аналогичные методы, заменяющие softmax-нелинейность. Несмотря на то, что эти линейные формы внимания выводятся из оригинальной softmax-формулировки, они, как правило, уступают в точности на последующих этапах. Хотя интуитивное понимание softmax-нелинейности на внутреннем произведении запроса и ключа предполагает, что она обладает желаемыми свойствами по сравнению с другими нелинейностями, вопрос о том, почему существует это расхождение, остается без ответа. В данной работе демонстрируется, что линейное внимание является аппроксимацией softmax-внимания, путем вывода рекуррентной формы softmax-внимания. Используя эту форму, каждый компонент softmax-внимания может быть описан в терминах рекуррентных нейронных сетей (RNN). Описание softmax-внимания как RNN позволяет проводить абляцию компонентов softmax-внимания для понимания важности каждой части и их взаимодействия. Таким образом, наша работа помогает объяснить, почему softmax-внимание более выразительно, чем его аналоги.
Данные поступают к нашим органам чувств в виде непрерывного потока, плавно преобразуясь от одного момента к другому. Эти плавные преобразования можно рассматривать как непрерывные симметрии окружающей среды, в которой мы находимся, определяя отношения эквивалентности между стимулами во времени. В машинном обучении архитектуры нейронных сетей, которые учитывают симметрии своих данных, называются эквивариантными и обладают доказанными преимуществами в плане способности к обобщению и эффективности использования данных. Однако до сих пор эквивариантность рассматривалась только для статических преобразований и прямолинейных сетей, что ограничивало её применимость к моделям последовательностей, таким как рекуррентные нейронные сети (RNN), и соответствующим временно-параметризованным преобразованиям последовательностей. В данной работе мы расширяем теорию эквивариантных сетей на режим «потоков» — однопараметрических подгрупп Ли, которые описывают естественные преобразования во времени, такие как визуальное движение. Мы начинаем с того, что показываем, что стандартные RNN, как правило, не являются эквивариантными относительно потоков: их скрытые состояния не преобразуются геометрически структурированным образом для движущихся стимулов. Затем мы показываем, как можно ввести эквивариантность относительно потоков, и демонстрируем, что такие модели значительно превосходят свои неэквивариантные аналоги по скорости обучения, обобщению на длинные последовательности и обобщению на различные скорости, как в задачах предсказания следующего шага, так и в классификации последовательностей. Мы представляем эту работу как первый шаг к созданию моделей последовательностей, которые учитывают временно-параметризованные симметрии, управляющие окружающим нас миром.
Арабский язык представляет собой особую сложность для задач обработки естественного языка (NLP) и информационного поиска (IR) из-за своей сложной морфологии, необязательного использования диакритических знаков, а также сосуществования современного стандартного арабского языка (MSA) и различных диалектов. Несмотря на растущую глобальную значимость арабского языка, он по-прежнему недостаточно представлен в исследованиях NLP и эталонных ресурсах. В данной статье мы представляем усовершенствованную структуру Dense Passage Retrieval (DPR), разработанную специально для арабского языка. Основой нашего подхода является новый метод Attentive Relevance Scoring (ARS), который заменяет стандартные механизмы взаимодействия адаптивной функцией оценки, более эффективно моделирующей семантическую релевантность между вопросами и текстовыми фрагментами. Наш метод интегрирует предварительно обученные языковые модели для арабского языка и архитектурные улучшения, что позволяет повысить производительность поиска и значительно увеличить точность ранжирования при ответах на вопросы на арабском языке. Код доступен публично по адресу https://github.com/Bekhouche/APR{GitHub}.
В связи с растущими проблемами конфиденциальности, машинное "забывание", направленное на то, чтобы модели машинного обучения могли "забывать" определённые обучающие данные, привлекает всё больше внимания. Среди существующих методов подход, основанный на оценке влияния, выделяется благодаря своей способности оценивать влияние отдельных обучающих образцов на параметры модели без необходимости повторного обучения. Однако этот подход страдает от чрезмерных вычислительных затрат, связанных с необходимостью вычисления матрицы Гессе и её обратной для всех обучающих образцов и параметров, что делает его непрактичным для крупномасштабных моделей и сценариев с частыми запросами на удаление данных. Это подчеркивает сложность процесса "забывания". Вдохновлённые когнитивной наукой, которая утверждает, что запоминание легче, чем забывание, в данной работе устанавливается теоретическая связь между запоминанием (инкрементальным обучением) и забыванием (машинным "забыванием"). Эта связь позволяет рассматривать машинное "забывание" с точки зрения инкрементального обучения. В отличие от трудоёмких вычислений матрицы Гессе в процессе "забывания", инкрементальное обучение (запоминание) обычно опирается на более эффективную оптимизацию градиентов, что поддерживает упомянутую когнитивную теорию. На основе этой связи мы представляем алгоритм Influence Approximation Unlearning (IAU) для эффективного машинного "забывания" с инкрементальной точки зрения. Обширные эмпирические оценки демонстрируют, что IAU достигает превосходного баланса между гарантией удаления, эффективностью "забывания" и сопоставимой полезностью модели, превосходя современные методы на различных наборах данных и архитектурах моделей. Наш код доступен по адресу https://github.com/Lolo1222/IAU.