Ежедневно отобранные исследовательские статьи по ИИ с переводами
В строго контролируемых условиях предварительного обучения мы наблюдаем переломный момент: когда объем уникальных данных ограничен, диффузионные языковые модели (DLM) последовательно превосходят авторегрессионные (AR) модели за счет обучения на большем количестве эпох. Этот переломный момент смещается на более поздние этапы при увеличении объема или повышении качества данных, на более ранние — при увеличении размера моделей, и сохраняется как для плотных, так и для разреженных архитектур. Мы объясняем это преимущество совокупным действием трех факторов: (1) моделирование в произвольном порядке, (2) сверхплотные вычисления за счет итеративного двунаправленного шумоподавления и (3) встроенная аугментация методом Монте-Карло; добавление шума во входные данные или параметры улучшает работу AR-моделей при ограничении данных, но не позволяет устранить разрыв. В крупном масштабе DLM с 1.7 млрд параметров, обученная с вычислительным бюджетом ~1.5 трлн токенов на 10 млрд уникальных токенов Python, превосходит AR-кодера, обученного в строго идентичных условиях. Кроме того, DLM с 1 млрд параметров достигает точности >56% на HellaSwag и >33% на MMLU, используя всего 1 млрд токенов, без каких-либо специальных приемов, исключительно за счет повторения стандартных данных предварительного обучения. Мы также показываем, что в данном режиме рост перекрестной энтропии на валидации не свидетельствует о снижении производительности на последующих задачах.
Из-за отсутствия эффективного кросс-модального моделирования существующие методы генерации аудио-видео с открытым исходным кодом часто демонстрируют нарушенную синхронизацию губ и недостаточную семантическую согласованность. Для устранения этих недостатков мы предлагаем UniAVGen — унифицированную архитектуру для совместной генерации аудио и видео. В основе UniAVGen лежит двухканальная структура совместного синтеза, включающая два параллельных диффузионных трансформера (DiT) для построения единого кросс-модального латентного пространства. Ключевым элементом является механизм асимметричного кросс-модального взаимодействия, обеспечивающий двунаправленное, временнó́е кросс-внимание, что гарантирует точную пространственно-временную синхронизацию и семантическую согласованность. Кроме того, это взаимодействие усиливается модулем лице-ориентированной модуляции, который динамически выделяет значимые области в процессе взаимодействия. Для повышения достоверности генерации на этапе вывода мы дополнительно вводим модально-ориентированное управление без классификатора — новую стратегию, явно усиливающую сигналы кросс-модальной корреляции. Примечательно, что благодаря продуманной архитектуре совместного синтеза UniAVGen позволяет объединять ключевые задачи аудио-видео обработки в единой модели, такие как совместная генерация и продолжение аудио-видео, озвучивание видео и аудио-управляемый видеосинтез. Комплексные эксперименты подтверждают, что при значительно меньшем объеме обучающих данных (1,3 млн против 30,1 млн) UniAVGen демонстрирует общие преимущества в синхронизации аудио-видео, согласованности тембра и эмоциональной согласованности.
Несмотря на недавний прогресс в использовании больших языковых моделей (LLM) для автоматического создания 3D-сцен, генерируемые сцены часто лишены реалистичных пространственных компоновок и атрибутов объектов, характерных для реальных сред. Поскольку эта проблема проистекает из недостаточно детализированных, грубых инструкций, становится критически важным продвижение синтеза 3D-сцен, направляемого более детальными, тонкими инструкциями, отражающими реальные среды. Без таких реалистичных сцен обучение воплощенных агентов в нереалистичных условиях может привести к формированию у них представлений, значительно расходящихся с реальной физикой и семантикой мира, что ухудшает их производительность при развертывании. Таким образом, проверка соответствия между детализированной инструкцией и сгенерированной сценой необходима для эффективного обучения. Однако современные методы оценки, такие как CLIPScore и визуально-языковые модели (VLM), часто неспособны надежно оценить такое соответствие. Этот недостаток возникает в основном из-за их поверхностного понимания 3D-сцен, что часто приводит к неправильной обоснованности компонентов сцены. Чтобы решить эту проблему, мы представляем LEGO-Eval, фреймворк для оценки, оснащенный разнообразными инструментами, предназначенными для явного обоснования компонентов сцены, что позволяет проводить более точную оценку соответствия. Мы также представляем LEGO-Bench, эталонный набор детализированных инструкций, которые задают сложные компоновки и атрибуты реальных сред. Эксперименты показывают, что LEGO-Eval превосходит подход "VLM-как-судья" на 0,41 балла F1 при оценке соответствия сцены и инструкции. Тестирование с помощью LEGO-Bench выявляет значительные ограничения современных методов генерации. Для всех оцененных подходов процент успеха составил не более 10% в создании сцен, полностью соответствующих детализированным инструкциям.
Современные подходы к оценке агентов на основе больших языковых моделей (LLM) в основном фокусируются на выполнении задач, часто упуская из виду эффективность использования ресурсов и адаптивность. Это игнорирует ключевую способность: возможность агентов разрабатывать и корректировать экономически оптимальные планы в ответ на изменения окружающей среды. Для устранения этого пробела мы представляем CostBench — масштабируемый бенчмарк с акцентом на стоимость, предназначенный для оценки экономического мышления агентов и их способности к перепланированию. Основанный на области планирования путешествий, CostBench включает задачи, решаемые с помощью множества последовательностей атомарных и составных инструментов с разнообразными настраиваемыми стоимостями. Он также поддерживает четыре типа динамических блокирующих событий, таких как сбои инструментов и изменения стоимости, для моделирования реальной непредсказуемости и необходимости адаптации агентов в реальном времени. Оценка ведущих открытых и проприетарных моделей на CostBench выявляет значительный разрыв в стоимости-ориентированном планировании: агенты часто не могут определить оптимальные по стоимости решения в статических условиях (даже GPT-5 демонстрирует менее 75% точных совпадений на самых сложных задачах), а производительность дополнительно снижается примерно на 40% в динамических условиях. Диагностируя эти слабые места, CostBench закладывает основу для разработки будущих агентов, которые будут одновременно экономически рациональными и устойчивыми.
Табличные данные остаются преобладающим форматом для реальных приложений. Однако разработка эффективных нейросетевых моделей для табличных данных остается сложной задачей из-за неоднородных типов признаков и сложных взаимодействий, происходящих на множественных масштабах. Недавние достижения в области контекстного обучения (ICL) для табличных данных, такие как TabPFN и TabICL, позволили достичь производительности на уровне современных методов, сравнимой с градиентным бустингом деревьев (GBT), без специфичной для задачи тонкой настройки. Однако современные архитектуры обладают ключевыми ограничениями: (1) одномасштабная обработка признаков, игнорирующая иерархические зависимости; (2) плотные механизмы внимания с квадратичным ростом вычислительной сложности от ширины таблицы; и (3) строго последовательная обработка компонентов, препятствующая итеративному уточнению представлений и межкомпонентному взаимодействию. Для решения этих проблем мы представляем Orion-MSP — архитектуру для табличного ICL, включающую три ключевых нововведения: (1) многомасштабную обработку для захвата иерархических взаимодействий признаков; (2) блочно-разреженное внимание, сочетающее оконные, глобальные и случайные паттерны для масштабируемой эффективности и связности на больших расстояниях; и (3) память в стиле Perceiver, обеспечивающую безопасный двунаправленный поток информации между компонентами. На различных бенчмарках Orion-MSP демонстрирует производительность на уровне или выше современных аналогов, эффективно масштабируясь для высокоразмерных таблиц, и устанавливает новый стандарт эффективного контекстного обучения для табличных данных. Модель общедоступна по адресу https://github.com/Lexsi-Labs/Orion-MSP.
Табличные фундаментальные модели представляют собой растущую парадигму в области обучения на структурированных данных, распространяя преимущества крупномасштабного предварительного обучения на табличные домены. Однако их внедрение остается ограниченным из-за неоднородных конвейеров предобработки, фрагментированных API, несогласованных процедур тонкой настройки и отсутствия стандартизированной оценки метрик, ориентированных на развертывание, таких как калибровка и справедливость. Мы представляем TabTune — унифицированную библиотеку, которая стандартизирует полный рабочий процесс для табличных фундаментальных моделей через единый интерфейс. TabTune обеспечивает согласованный доступ к семи современным моделям, поддерживающим множество стратегий адаптации, включая вывод без дообучения (zero-shot), мета-обучение, контролируемую тонкую настройку (SFT) и параметрически-эффективную тонкую настройку (PEFT). Фреймворк автоматизирует учитывающую модель предобработку, внутренне управляет архитектурной гетерогенностью и интегрирует модули оценки производительности, калибровки и справедливости. Разработанный для расширяемости и воспроизводимости, TabTune позволяет проводить согласованное сравнительное тестирование стратегий адаптации табличных фундаментальных моделей. Библиотека имеет открытый исходный код и доступна по адресу https://github.com/Lexsi-Labs/TabTune.
Глубокое понимание кинематических структур и подвижных компонентов крайне важно для обеспечения способности роботов манипулировать объектами и моделировать свои собственные шарнирные формы. Такое понимание фиксируется в виде шарнирных объектов, которые необходимы для таких задач, как физическое моделирование, планирование движений и обучение стратегиям. Однако создание этих моделей, особенно для объектов с высокой степенью подвижности (DoF), остается серьезной проблемой. Существующие методы обычно опираются на последовательности движений или строгие допущения, основанные на тщательно отобранных наборах данных, что ограничивает их масштабируемость. В данной статье мы представляем Kinematify — автоматизированную систему, которая синтезирует шарнирные объекты непосредственно из произвольных RGB-изображений или текстовых описаний. Наш метод решает две ключевые задачи: (i) вывод кинематических топологий для объектов с высокой DoF и (ii) оценку параметров сочленений по статической геометрии. Для этого мы сочетаем поиск методом MCTS для структурного вывода с геометрически-ориентированной оптимизацией для анализа сочленений, получая физически согласованные и функционально корректные описания. Мы оцениваем Kinematify на разнообразных входных данных из синтетических и реальных сред, демонстрируя улучшения в точности регистрации и кинематической топологии по сравнению с предыдущими работами.
Крупные языковые модели (LLM) демонстрируют высокие результаты в различных тестах — от викторин на знание и математических рассуждений до задач веб-агентов — но эти испытания проводятся в статичных условиях, лишенных реальной динамики и неопределенности. Как следствие, они оценивают изолированные рассуждения или решение проблем, а не принятие решений в условиях неопределенности. Чтобы решить эту проблему, мы представляем LiveTradeBench — живую торговую среду для оценки агентов на основе LLM в реалистичных и изменяющихся рыночных условиях. LiveTradeBench следует трем принципам проектирования: (i) Потоковая передача живых данных о рыночных ценах и новостях, что устраняет зависимость от офлайн-бэктестинга, предотвращает утечку информации и учитывает неопределенность в реальном времени; (ii) абстракция управления портфелем, расширяющая контроль от действий с одним активом до распределения нескольких активов, интегрирующая управление рисками и межактивные рассуждения; и (iii) оценка на нескольких рынках с структурно различными средами — акциями США и прогнозными рынками Polymarket — отличающимися волатильностью, ликвидностью и потоком информации. На каждом шаге агент наблюдает за ценами, новостями и своим портфелем, а затем выдает процентные распределения, балансирующие риск и доходность. Используя LiveTradeBench, мы провели 50-дневные живые оценки 21 LLM из разных семейств. Результаты показывают, что (1) высокие баллы в LMArena не гарантируют превосходных торговых результатов; (2) модели демонстрируют различные стили управления портфелем, отражающие аппетит к риску и динамику рассуждений; и (3) некоторые LLM эффективно используют живые сигналы для адаптации решений. Эти результаты выявляют разрыв между статической оценкой и реальной компетентностью, обосновывая необходимость тестов, проверяющих последовательное принятие решений и устойчивость в условиях живой неопределенности.
По мере стремительного масштабирования моделей рассуждений ключевая роль мультимодальности в человеческом познании становится все более очевидной, что стимулирует растущую потребность в исследовании визуально-центрированных когнитивных поведений. Однако существующие мультимодальные бенчмарки либо чрезмерно акцентируют текстовые рассуждения, либо не способны систематически охватить визуально-центрированные когнитивные поведения, что приводит к недостаточной оценке когнитивных способностей MLLM. Для устранения этого ограничения мы представляем MME-CC (Multi-Modal Evaluation benchmark of Cognitive Capacity) — визуально-обоснованный бенчмарк, который организует 11 репрезентативных задач рассуждений в три фундаментальные категории визуальной информации: пространственные, геометрические и основанные на знаниях рассуждения, и предоставляет детализированный анализ когнитивных способностей MLLM по этим направлениям. На основе MME-CC мы провели масштабные эксперименты с 16 репрезентативными MLLM. Наше исследование показывает, что закрытые модели в настоящее время лидируют в общем зачете (например, 42.66 у Gemini-2.5-Pro против 30.45 у GLM-4.5V), в то время как пространственные и геометрические рассуждения остаются в целом слабыми (≤30%). Мы также выявили типичные ошибки, включая ошибки ориентации, хрупкое сохранение идентичности между видами и слабое следование контрфактическим инструкциям, и наблюдали, что Chain-of-Thought обычно следует трехэтапному процессу (извлечение → рассуждение → проверка) с сильной зависимостью от визуального извлечения. Мы надеемся, что эта работа послужит катализатором смещения акцентов в сторону рассмотрения когнитивных способностей MLLM как центрального элемента как оценки, так и проектирования моделей.
Мы возвращаемся к вопросу масштабирования на этапе тестирования для рассуждений языковых моделей и задаем фундаментальный вопрос: при равном бюджете токенов и вычислений, что лучше — запускать несколько независимых цепочек параллельно или запускать меньше цепочек, которые итеративно улучшаются за счет последовательных шагов? В результате всесторонней оценки пяти современных открытых моделей и трех сложных бенчмарков на рассуждение мы обнаружили, что последовательное масштабирование, при котором цепочки явно строятся на предыдущих попытках, стабильно превосходит доминирующую парадигму параллельного самосогласования в 95.6% конфигураций с повышением точности до 46.7%. Кроме того, мы представляем взвешенное голосование по обратной энтропии — новый метод без обучения, который дополнительно повышает точность последовательного масштабирования. Взвешивая ответы пропорционально обратной энтропии их цепочек рассуждений, мы увеличиваем наш показатель успеха по сравнению с параллельным мажоритарным голосованием и устанавливаем его как оптимальную стратегию масштабирования на этапе тестирования. Наши выводы фундаментально оспаривают ортодоксию параллельных рассуждений, которая доминировала в масштабировании на этапе тестирования со времен декодирования самосогласованности Ванга и др. (Wang et al., 2022), позиционируя последовательное уточнение как надежный вариант по умолчанию для современных LLM-рассуждений и требуя смены парадигмы в подходе к оптимизации на этапе вывода.
Коллаборативный диалог основывается на постепенном установлении общего контекста участниками, однако в асимметричных условиях они могут полагать, что достигли согласия, в то время как ссылаются на разные сущности. Мы представляем перспективистскую схему разметки для корпуса HCRC MapTask (Anderson et al., 1991), которая отдельно фиксирует интерпретации, закрепленные за говорящим и адресатом, для каждой референциальной выражения, позволяя отслеживать, как понимание возникает, расходится и восстанавливается во времени. Используя конвейер разметки с помощью LLM, ограниченный схемой, мы получаем 13 тыс. размеченных референциальных выражений с оценками надежности и анализируем результирующие состояния понимания. Результаты показывают, что полные недопонимания редки после унификации лексических вариантов, но расхождения в множественности систематически приводят к дивергенциям, раскрывая, как видимое закрепление контекста может маскировать референциальное несоответствие. Наша система предоставляет как ресурс, так и аналитический инструмент для изучения закрепленных недопониманий и для оценки способности (V)LLM моделировать зависящее от перспективы закрепление контекста в коллаборативном диалоге.
Расширение запросов делает их более содержательными за счет добавления дополнительной информации для поиска релевантных документов. Современные исследования предложили эмбеддеры на основе больших языковых моделей (LLM), которые изучают представления для векторизации и генерации расширений запросов в многозадачном режиме, используя генеративные возможности LLM. На этапе вывода такие совместно обученные эмбеддеры выполняют расширение запроса с последующей векторизацией, демонстрируя эффективные результаты. Однако расширение каждого запроса приводит к значительной задержке векторизации, а для некоторых запросов оно может ухудшить производительность. Кроме того, предыдущие методы не исследовались в мультимодальных средах. Для решения этих проблем мы предлагаем M-Solomon — универсальный мультимодальный эмбеддер, который адаптивно определяет необходимость расширения запросов. Наш подход сначала разделяет запросы обучающих наборов данных на две группы на уровне набора данных: одна включает запросы, требующие расширения, а другая — запросы, которые в нём не нуждаются. Затем мы вводим процесс синтеза, который генерирует подходящие расширения для требующих их запросов с помощью мощной мультимодальной LLM (MLLM). Далее представлено адаптивное расширение запросов. На этом этапе M-Solomon может выполнять расширение запросов только при необходимости, обучаясь генерировать синтетические расширения с префиксом /augment для запросов, которые в них нуждаются, и простую строку /embed для остальных. Результаты экспериментов показали, что M-Solomon не только значительно превзошел базовый метод без расширения, но и превзошел базовый метод с постоянным расширением, обеспечив значительно более высокую скорость векторизации.
Понимание текущих возможностей и рисков систем «ИИ-ученый» крайне важно для обеспечения надежного и устойчивого научного прогресса, управляемого искусственным интеллектом, при сохранении целостности академической экосистемы. С этой целью мы разработали Jr. AI Scientist — передовую автономную систему-ученого, которая имитирует ключевой исследовательский workflow студента-исследователя начального уровня: получив базовую статью от человека-наставника, система анализирует ее ограничения, формулирует новые гипотезы для улучшения, проверяет их с помощью строгого экспериментального подхода и пишет статью с результатами. В отличие от предыдущих подходов, предполагающих полную автоматизацию или работающих с небольшими фрагментами кода, Jr. AI Scientist следует четко определенному исследовательскому workflow и использует современные coding-агенты для работы со сложными, многокомпонентными реализациями, что приводит к научно ценным результатам. Для оценки мы провели автоматизированное тестирование с помощью ИИ-рецензентов, оценку авторами и подачу работ на конференцию Agents4Science, посвященную научным достижениям на основе ИИ. Результаты показывают, что статьи, сгенерированные Jr. AI Scientist, получают более высокие оценки рецензентов, чем существующие полностью автоматизированные системы. Тем не менее, мы выявили существенные ограничения как по оценке авторов, так и по отзывам с Agents4Science, что указывает на потенциальные риски прямого применения современных систем «ИИ-ученый» и ключевые вызовы для будущих исследований. Наконец, мы всесторонне описываем различные риски, обнаруженные в процессе разработки. Мы надеемся, что эти наблюдения углубят понимание текущего прогресса и рисков в развитии технологий «ИИ-ученый».