Ежедневно отобранные исследовательские статьи по ИИ с переводами
Масштабирование во время тестирования направлено на улучшение способности к рассуждению больших языковых моделей (LLM) за счет добавления вычислительных ресурсов. Распространенным подходом в этой области являются методы масштабирования во время тестирования, основанные на выборке, которые улучшают рассуждение путем генерации нескольких путей рассуждения для заданного входного данных во время вывода. Однако, несмотря на практический успех, теоретические основы остаются недостаточно изученными. В данной работе мы предлагаем первую теоретическую основу для анализа методов масштабирования во время тестирования, основанных на выборке, с точки зрения оценки уверенности. На основе этой основы мы анализируем две доминирующие парадигмы: самосогласованность и перплексию, и выявляем ключевые ограничения: самосогласованность страдает от высокой ошибки оценки, в то время как перплексия демонстрирует значительную ошибку моделирования и возможное ухудшение сходимости ошибки оценки. Для устранения этих ограничений мы представляем RPC, гибридный метод, который использует наши теоретические инсайты через два ключевых компонента: Согласованность Перплексии и Обрезку Рассуждений. Согласованность Перплексии объединяет преимущества самосогласованности и перплексии, ускоряя скорость сходимости ошибки оценки с линейной до экспоненциальной, сохраняя при этом ошибку модели. Обрезка Рассуждений предотвращает ухудшение, устраняя пути рассуждения с низкой вероятностью. Как теоретический анализ, так и эмпирические результаты на семи эталонных наборах данных демонстрируют, что RPC обладает значительным потенциалом для снижения ошибки рассуждения. Примечательно, что RPC достигает производительности рассуждения, сравнимой с самосогласованностью, не только повышая надежность уверенности, но и снижая затраты на выборку на 50%. Код и ресурсы доступны по адресу https://wnjxyk.github.io/RPC.
Развитие машинного интеллекта требует развития способности воспринимать информацию через несколько модальностей, подобно тому, как человек воспринимает мир. Мы представляем OmniVinci — инициативу по созданию мощной, открытой, омни-модальной языковой модели (LLM). Мы тщательно изучаем ключевые аспекты проектирования, включая архитектуру модели и подготовку данных. В части архитектуры модели мы предлагаем три ключевых инновации: (i) OmniAlignNet для усиления согласованности между визуальными и аудио-эмбеддингами в общем омни-модальном латентном пространстве; (ii) Temporal Embedding Grouping для учета относительного временного соответствия между визуальными и аудио-сигналами; и (iii) Constrained Rotary Time Embedding для кодирования абсолютной временной информации в омни-модальных эмбеддингах. Мы разработали конвейер подготовки и синтеза данных, который генерирует 24 миллиона одно-модальных и омни-модальных диалогов. Мы обнаружили, что модальности усиливают друг друга как в восприятии, так и в рассуждениях. Наша модель, OmniVinci, превосходит Qwen2.5-Omni с показателями +19.05 на DailyOmni (кросс-модальное понимание), +1.7 на MMAR (аудио) и +3.9 на Video-MME (видео), при этом используя всего 0.2 триллиона токенов для обучения — в 6 раз меньше, чем 1.2 триллиона токенов у Qwen2.5-Omni. Наконец, мы демонстрируем преимущества омни-модального подхода в прикладных задачах, включая робототехнику, медицинский ИИ и умные фабрики.
Редактирование 3D-объектов является ключевым для создания интерактивного контента в играх, анимации и робототехнике, однако современные подходы остаются неэффективными, несогласованными и часто не сохраняют неотредактированные области. Большинство методов основываются на редактировании многовидовых рендеров с последующей реконструкцией, что приводит к артефактам и ограничивает практичность. Для решения этих проблем мы предлагаем Nano3D — бесплатную для обучения платформу для точного и согласованного редактирования 3D-объектов без использования масок. Nano3D интегрирует FlowEdit в TRELLIS для выполнения локализованных правок, управляемых фронтальными рендерами, а также вводит стратегии слияния с учетом областей, Voxel/Slat-Merge, которые адаптивно сохраняют структурную точность, обеспечивая согласованность между отредактированными и неотредактированными областями. Эксперименты показывают, что Nano3D достигает превосходной 3D-согласованности и визуального качества по сравнению с существующими методами. На основе этой платформы мы создали первый крупномасштабный набор данных для 3D-редактирования Nano3D-Edit-100k, содержащий более 100 000 высококачественных пар 3D-редактирования. Эта работа решает давние проблемы как в проектировании алгоритмов, так и в доступности данных, значительно повышая универсальность и надежность 3D-редактирования и закладывая основу для разработки моделей прямого 3D-редактирования. Страница проекта: https://jamesyjl.github.io/Nano3D.
Редактирование видео на основе инструкций обещает демократизировать создание контента, однако его прогресс серьезно ограничен нехваткой крупномасштабных, высококачественных данных для обучения. Мы представляем Ditto, целостную структуру, разработанную для решения этой фундаментальной проблемы. В основе Ditto лежит инновационный конвейер генерации данных, который объединяет творческое разнообразие ведущего редактора изображений с генератором видео в контексте, преодолевая ограниченные возможности существующих моделей. Чтобы сделать этот процесс осуществимым, наша структура устраняет компромисс между стоимостью и качеством, используя эффективную, дистиллированную архитектуру модели, дополненную временным усилителем, который одновременно снижает вычислительные затраты и улучшает временную согласованность. Наконец, для достижения полной масштабируемости весь этот конвейер управляется интеллектуальным агентом, который создает разнообразные инструкции и строго фильтрует выходные данные, обеспечивая контроль качества в масштабе. Используя эту структуру, мы вложили более 12 000 GPU-дней для создания Ditto-1M — нового набора данных, содержащего миллион примеров редактирования видео с высокой точностью. Мы обучили нашу модель, Editto, на Ditto-1M с использованием стратегии обучения по учебному плану. Результаты демонстрируют превосходную способность следовать инструкциям и устанавливают новый эталон в редактировании видео на основе инструкций.
Недавние исследования показали, что узкая тонкая настройка может приводить к широкому рассогласованию языковых моделей (LLMs), явление, получившее название "возникающее рассогласование" (emergent misalignment, EM). Хотя эти результаты вызывают обеспокоенность, они были ограничены тонкой настройкой и управлением активациями, исключая обучение в контексте (in-context learning, ICL). Поэтому мы задаемся вопросом: возникает ли EM при использовании ICL? Мы обнаруживаем, что это действительно так: на трех наборах данных три передовые модели генерируют широко рассогласованные ответы с частотой от 2% до 17% при наличии 64 узких примеров в контексте и до 58% при 256 примерах. Мы также исследуем механизмы EM, вызывая пошаговые рассуждения (при этом оставляя примеры в контексте неизменными). Ручной анализ полученной цепочки рассуждений (chain-of-thought) показывает, что 67,5% рассогласованных траекторий явно оправдывают вредоносные выходные данные, принимая безрассудную или опасную "персону", что перекликается с предыдущими результатами, связанными с EM, вызванным тонкой настройкой.
Создание масштабных, исследовательских и геометрически точных 3D-городских сцен является сложной, но ценной задачей для обеспечения иммерсивных и воплощенных приложений. Основные трудности связаны с отсутствием крупномасштабных и высококачественных 3D-сканирований реального мира для обучения обобщаемых генеративных моделей. В данной работе мы предлагаем альтернативный подход к созданию масштабных 3D-сцен, объединяя доступные спутниковые изображения, которые предоставляют реалистичную грубую геометрию, и открытую диффузионную модель для создания высококачественных детализированных текстур. Мы представляем Skyfall-GS — первую систему для создания 3D-сцен масштаба городского квартала без дорогостоящих 3D-аннотаций, которая также поддерживает интерактивное и иммерсивное исследование в реальном времени. Мы разработали стратегию итеративного улучшения, основанную на учебном плане, для постепенного повышения геометрической полноты и фотореалистичности текстур. Многочисленные эксперименты показывают, что Skyfall-GS обеспечивает улучшенную согласованность геометрии между видами и более реалистичные текстуры по сравнению с современными подходами. Страница проекта: https://skyfall-gs.jayinnn.dev/
Недавние успехи в визуальной генерации на основе диффузии во многом опирались на латентные диффузионные модели с вариационными автоэнкодерами (VAE). Хотя этот подход эффективен для синтеза с высокой точностью, парадигма VAE+диффузия страдает от ограниченной эффективности обучения, медленного вывода и плохой переносимости на более широкий спектр задач компьютерного зрения. Эти проблемы связаны с ключевым ограничением латентных пространств VAE: отсутствием четкого семантического разделения и сильной дискриминативной структуры. Наш анализ подтверждает, что эти свойства важны не только для задач восприятия и понимания, но и для стабильного и эффективного обучения латентных диффузионных моделей. Вдохновленные этим пониманием, мы представляем SVG — новую латентную диффузионную модель без вариационных автоэнкодеров, которая использует самоконтролируемые представления для визуальной генерации. SVG создает пространство признаков с четкой семантической различимостью, используя замороженные признаки DINO, в то время как легковесная остаточная ветвь захватывает мелкозернистые детали для высокоточного восстановления. Диффузионные модели обучаются непосредственно на этом семантически структурированном латентном пространстве, что способствует более эффективному обучению. В результате SVG позволяет ускорить обучение диффузии, поддерживает выборку за несколько шагов и улучшает качество генерации. Экспериментальные результаты также показывают, что SVG сохраняет семантические и дискриминативные возможности базовых самоконтролируемых представлений, предоставляя принципиальный путь к универсальным и высококачественным визуальным представлениям.
Лингвистический анализ языковых моделей (LLMs), находящийся под сильным влиянием теоретических концепций де Соссюра и Хомского, часто носит спекулятивный и малопродуктивный характер. Критики ставят под сомнение способность LLMs адекватно моделировать язык, ссылаясь на необходимость «глубинной структуры» или «заземления» для достижения идеализированной лингвистической «компетенции». Мы предлагаем радикальный сдвиг в перспективе в сторону эмпирических принципов Витольда Манчака, выдающегося специалиста в области общего и исторического языкознания. Он определяет язык не как «систему знаков» или «вычислительную систему мозга», а как совокупность всего сказанного и написанного. Прежде всего, он выделяет частоту использования определённых языковых элементов как основной принцип, управляющий языком. Используя его концептуальную основу, мы оспариваем предыдущие критические замечания в адрес LLMs и предлагаем конструктивное руководство для проектирования, оценки и интерпретации языковых моделей.
Блик значительно ухудшает качество изображения, что негативно сказывается на критически важных задачах компьютерного зрения, таких как обнаружение объектов и автономное вождение. Современные методы удаления бликов на основе одного изображения (Single Image Flare Removal, SIFR) демонстрируют низкую эффективность, когда источники света за пределами кадра неполны или отсутствуют. Мы предлагаем LightsOut — фреймворк для дорисовки изображений на основе диффузионных моделей, специально разработанный для улучшения SIFR путем восстановления источников света за пределами кадра. Наш метод использует многозадачный регрессионный модуль и диффузионную модель, дообученную с помощью LoRA, чтобы обеспечить реалистичные и физически согласованные результаты дорисовки. Комплексные эксперименты показывают, что LightsOut стабильно повышает производительность существующих методов SIFR в сложных сценариях без необходимости дополнительного переобучения, выступая в качестве универсального подключаемого решения для предварительной обработки. Страница проекта: https://ray-1026.github.io/lightsout/
Крупные языковые модели делятся на два семейства: модели, ориентированные на рассуждения (reasoning-centric LLMs), которые усиливают внутреннюю цепочку рассуждений, но не могут использовать внешние инструменты, и агентные модели (agentic LLMs), которые учатся взаимодействовать с окружением и применять инструменты, но часто отстают в глубоких рассуждениях. Это разделение возникает из-за принципиально разных целей обучения, что приводит к несоответствию сильных сторон и неэффективности при обработке простых запросов, где обе модели склонны либо излишне рассуждать, либо чрезмерно использовать инструменты. В данной работе мы представляем Adaptive Agent Foundation Model (A^2FM) — унифицированную архитектуру, которая следует принципу "маршрутизация, затем согласование": модель сначала обучается маршрутизации с учетом задачи, а затем согласовывает траектории, специфичные для каждого режима, в рамках общей структуры. Чтобы устранить проблему неэффективности, мы вводим третий режим — мгновенный (instant), который напрямую обрабатывает простые запросы, предотвращая излишние рассуждения или вызовы инструментов, дополняя при этом агентный и рассуждающий режимы. Для совместного повышения точности и эффективности мы предлагаем Adaptive Policy Optimization (APO), которая обеспечивает адаптивную выборку между режимами и применяет вознаграждение с учетом затрат. На масштабе 32B A^2FM достигает 13,4% на BrowseComp, 70,4% на AIME25 и 16,7% на HLE, устанавливая новый SOTA среди сопоставимых моделей и демонстрируя конкурентоспособные результаты с передовыми LLM на агентных, рассуждающих и общих тестах. Примечательно, что адаптивное выполнение достигает стоимости прохода всего $0,00487 за правильный ответ, сокращая затраты на 45,2% по сравнению с рассуждающим режимом и на 33,5% по сравнению с агентным, что обеспечивает значительно более высокую экономическую эффективность при сохранении сопоставимой точности.
Академические проектные сайты могут более эффективно распространять исследования, если они четко представляют основное содержание и обеспечивают интуитивную навигацию и взаимодействие. Однако текущие подходы, такие как прямое создание с использованием больших языковых моделей (LLM), шаблоны или прямое преобразование в HTML, сталкиваются с трудностями в создании сайтов с учетом макета и интерактивности, а также отсутствует комплексный набор инструментов для оценки этой задачи. В данной статье мы представляем Paper2Web — эталонный набор данных и многомерную структуру оценки для создания академических веб-страниц. Он включает в себя метрики на основе правил, такие как Связность, Полнота, а также проверенные людьми оценки с использованием LLM-as-a-Judge (охватывающие интерактивность, эстетику и информативность), и PaperQuiz, который измеряет уровень усвоения знаний на уровне статьи. Мы также представляем PWAgent — автономный конвейер, преобразующий научные статьи в интерактивные и мультимедийные академические страницы. Агент итеративно улучшает как содержание, так и макет с помощью инструментов MCP, которые повышают акценты, баланс и качество презентации. Наши эксперименты показывают, что PWAgent значительно превосходит базовые подходы, такие как шаблонные веб-страницы и версии arXiv/alphaXiv, при этом сохраняя низкую стоимость и достигая Парето-фронта в создании академических веб-страниц.
Мы представляем BLIP3o-NEXT, полностью открытую базовую модель из серии BLIP3, которая выводит генерацию нативных изображений на новый уровень. BLIP3o-NEXT объединяет генерацию изображений из текста и редактирование изображений в рамках единой архитектуры, демонстрируя мощные возможности как в создании, так и в редактировании изображений. В процессе разработки передовой модели для генерации нативных изображений мы выделили четыре ключевых инсайта: (1) Большинство архитектурных решений обеспечивают сопоставимую производительность; архитектуру можно считать эффективной, если она масштабируется с высокой эффективностью и поддерживает быстрое выполнение; (2) Успешное применение обучения с подкреплением может значительно продвинуть границы генерации нативных изображений; (3) Редактирование изображений по-прежнему остается сложной задачей, однако следование инструкциям и согласованность между сгенерированными и эталонными изображениями могут быть значительно улучшены за счет пост-обучения и работы с данными; (4) Качество и объем данных остаются решающими факторами, определяющими верхний предел производительности модели. Опираясь на эти инсайты, BLIP3o-NEXT использует архитектуру "Авторегрессия + Диффузия", в которой авторегрессионная модель сначала генерирует дискретные токены изображений на основе мультимодальных входных данных, а их скрытые состояния затем используются как сигналы для диффузионной модели, создающей изображения с высокой детализацией. Эта архитектура объединяет аналитические способности и следование инструкциям авторегрессионных моделей с возможностью рендеринга мелких деталей диффузионных моделей, достигая нового уровня согласованности и реалистичности. Обширные оценки на различных бенчмарках для генерации изображений из текста и редактирования изображений показывают, что BLIP3o-NEXT превосходит существующие модели по производительности.
С развитием мощных моделей для масштабных рассуждений эффективная оценка их способностей к логическому мышлению становится все более важной. Однако существующие тестовые наборы, предназначенные для оценки способностей крупных моделей к рассуждениям, часто ограничены по охвату и не обладают гибкостью для адаптации сложности в соответствии с развивающимися возможностями моделей. Для решения этой проблемы мы предлагаем MorphoBench — тестовый набор, который включает междисциплинарные вопросы для оценки способностей крупных моделей к рассуждениям и может адаптировать и обновлять сложность вопросов в зависимости от возможностей передовых моделей. В частности, мы создали этот набор, отбирая и собирая сложные вопросы на рассуждения из существующих тестовых наборов и источников, таких как олимпиадные соревнования. Кроме того, MorphoBench адаптивно изменяет аналитическую сложность вопросов, используя ключевые утверждения, генерируемые в процессе рассуждения модели. Также он включает вопросы, созданные с помощью симуляционного программного обеспечения, что позволяет динамически регулировать сложность тестового набора с минимальными затратами ресурсов. Мы собрали более 1300 тестовых вопросов и итеративно корректировали сложность MorphoBench на основе возможностей моделей, таких как o3 и GPT-5. MorphoBench повышает полноту и достоверность оценки способностей моделей к рассуждениям, предоставляя надежные рекомендации для улучшения как их логических способностей, так и научной обоснованности. Код доступен по адресу: https://github.com/OpenDCAI/MorphoBench.
Несмотря на быстрый прогресс в синтезе видео из текста, качество генерируемого видео по-прежнему критически зависит от точности пользовательских запросов. Существующие методы оптимизации на этапе тестирования, успешные в других областях, сталкиваются с трудностями из-за многогранной природы видео. В данной работе мы представляем VISTA (Video Iterative Self-improvemenT Agent) — новую мультиагентную систему, которая автономно улучшает генерацию видео за счет уточнения запросов в итеративном цикле. VISTA сначала разбивает идею пользователя на структурированный временной план. После генерации лучший видеофрагмент определяется с помощью надежного попарного турнира. Затем этот выигравший видеофрагмент анализируется тремя специализированными агентами, которые фокусируются на визуальной, аудио и контекстуальной точности. Наконец, агент рассуждений синтезирует эту обратную связь для интроспективного переписывания и улучшения запроса для следующего цикла генерации. Эксперименты на сценариях генерации видео с одним и несколькими сценами показывают, что, хотя предыдущие методы дают нестабильные улучшения, VISTA последовательно повышает качество видео и его соответствие намерениям пользователя, достигая до 60% побед в попарных сравнениях с современными базовыми методами. Человеческие оценщики соглашаются, предпочитая результаты VISTA в 66,4% случаев.
Фундаментальные модели (Foundation Models, FMs), такие как GPT-4 и AlphaFold, трансформируют ландшафт научных исследований. Помимо ускорения таких задач, как генерация гипотез, проектирование экспериментов и интерпретация результатов, они поднимают более фундаментальный вопрос: ограничиваются ли FMs улучшением существующих научных методологий или они переопределяют сам способ ведения науки? В данной статье мы утверждаем, что FMs способствуют переходу к новой научной парадигме. Мы представляем трехэтапную структуру для описания этой эволюции: (1) Мета-научная интеграция, где FMs улучшают рабочие процессы в рамках традиционных парадигм; (2) Гибридное со-творчество человека и ИИ, где FMs становятся активными соавторами в формулировании проблем, рассуждении и открытиях; и (3) Автономное научное открытие, где FMs функционируют как независимые агенты, способные генерировать новое научное знание с минимальным вмешательством человека. Через эту призму мы рассматриваем текущие применения и развивающиеся возможности FMs в существующих научных парадигмах. Мы также выделяем риски и будущие направления для научных открытий, основанных на FMs. Эта позиционная статья призвана помочь научному сообществу понять трансформационную роль FMs и стимулировать размышления о будущем научных открытий. Наш проект доступен по адресу https://github.com/usail-hkust/Awesome-Foundation-Models-for-Scientific-Discovery.
Модели рассуждений, такие как OpenAI-o1, DeepSeek-R1 и Qwen, демонстрируют высокую производительность благодаря расширенным цепочкам рассуждений, но часто генерируют излишне длинные ответы. Максимизация интеллекта на токен — точности относительно длины ответа — остается открытой проблемой. Мы возвращаемся к обучению с подкреплением (RL) с использованием простейшего штрафа за длину — усечения — и показываем, что снижение точности возникает не из-за отсутствия сложных штрафов, а из-за недостаточной оптимизации RL. Мы выделяем три ключевые проблемы: (i) значительное смещение в оценке преимуществ, (ii) коллапс энтропии и (iii) разреженный сигнал вознаграждения. Мы решаем их с помощью метода Doing Length pEnalty Right (DLER), который сочетает нормализацию вознаграждения на уровне батчей, более высокое отсечение, динамическую выборку и простой штраф за длину усечения. DLER достигает оптимального баланса между точностью и эффективностью, сокращая длину вывода более чем на 70 процентов, при этом превосходя все предыдущие базовые показатели точности. Он также улучшает масштабируемость во время тестирования: по сравнению с DeepSeek-R1-7B, DLER-7B генерирует несколько кратких ответов параллельно с 28-процентным увеличением точности и меньшей задержкой. Мы также представляем Difficulty-Aware DLER, который адаптивно ужесточает усечение для более простых вопросов, обеспечивая дополнительный прирост эффективности. Кроме того, мы предлагаем метод выборочного объединения обновлений, который сохраняет базовую точность, одновременно поддерживая способность к кратким рассуждениям модели DLER, что полезно в сценариях с ограниченными данными для обучения RL.
Автоматизация научных открытий представляет собой важный этап в исследованиях в области искусственного интеллекта (ИИ). Однако существующие агентные системы для науки страдают от двух фундаментальных ограничений: жестких, заранее запрограммированных рабочих процессов, которые не могут адаптироваться к промежуточным результатам, и недостаточного управления контекстом, что затрудняет долгосрочные исследования. Мы представляем freephdlabor — открытый мультиагентный фреймворк, характеризующийся полностью динамическими рабочими процессами, определяемыми рассуждениями агентов в реальном времени, и модульной архитектурой, обеспечивающей бесшовную настройку — пользователи могут изменять, добавлять или удалять агентов для удовлетворения специфических требований предметной области. Фреймворк предоставляет комплексную инфраструктуру, включая автоматическое сжатие контекста, коммуникацию на основе рабочих пространств для предотвращения деградации информации, сохранение памяти между сессиями и механизмы неблокирующего вмешательства человека. Эти функции в совокупности преобразуют автоматизированные исследования из изолированных, одноразовых попыток в непрерывные исследовательские программы, которые систематически основываются на предыдущих исследованиях и включают обратную связь от человека. Предоставляя как архитектурные принципы, так и практическую реализацию для создания настраиваемых систем-соисследователей, данная работа направлена на содействие более широкому внедрению автоматизированных исследований в различных научных областях, позволяя специалистам развертывать интерактивные мультиагентные системы, которые автономно проводят исследования от начала до конца — от генерации идей через эксперименты до подготовки рукописей, готовых к публикации.
Глубокие исследовательские веб-агенты не только извлекают информацию из различных источников, таких как веб-среда, файлы и мультимодальные данные, но, что более важно, они должны тщательно анализировать и агрегировать знания для проведения глубоких исследований. Однако существующие открытые глубокие исследовательские агенты в основном сосредоточены на улучшении способностей веб-агентов к поиску информации для нахождения конкретных данных, упуская из виду важную необходимость агрегации информации, что ограничивает их способность поддерживать углубленные исследования. Мы предлагаем парадигму «Исследовать для эволюции» для масштабируемого создания проверяемых обучающих данных для веб-агентов. Начиная с активного онлайн-исследования, агент собирает обоснованную информацию, исследуя реальный веб. Используя собранные данные, агент затем самостоятельно развивает программу агрегации, выбирая, комбинируя и уточняя операции из 12 высокоуровневых логических типов для синтеза проверяемой пары вопрос-ответ. Эта эволюция от высокоуровневого руководства к конкретным операциям позволила нам масштабируемо создать WebAggregatorQA — набор данных из 10 тысяч образцов, охватывающих 50 тысяч веб-сайтов и 11 доменов. На основе открытой платформы для агентов SmolAgents мы собираем траектории обучения с учителем для разработки серии базовых моделей WebAggregator. WebAggregator-8B соответствует производительности GPT-4.1, в то время как 32B-вариант превосходит GPT-4.1 более чем на 10% на GAIA-text и близко приближается к Claude-3.7-sonnet. Более того, учитывая ограниченную доступность бенчмарков, оценивающих способности веб-агентов к агрегации информации, мы создаем аннотированный человеком оценочный набор данных WebAggregatorQA в качестве сложного тестового набора. На этом бенчмарке Claude-3.7-sonnet достигает только 28%, а GPT-4.1 — 25.8%. Даже когда агентам удается извлечь все ссылки, они все равно испытывают трудности с WebAggregatorQA, что подчеркивает необходимость укрепления способностей базовых веб-агентов к агрегации информации.
Крупные языковые модели (LLM) демонстрируют значительные успехи благодаря обучению с подкреплением (RL), особенно в областях, где вознаграждения могут быть программно проверены, таких как математика и программирование. В этих сферах модели извлекают пользу из четко определенной операционной базы, руководствуясь явными правилами и целями. Однако этот прогресс выявляет существенное ограничение: в открытых областях, где вознаграждения неоднозначны, субъективны или зависят от контекста, таких как творческое письмо, научное рассуждение и, в особенности, медицинские консультации, отсутствуют надежные функции вознаграждения, что делает эти области сложными для современных стратегий RL. Чтобы преодолеть этот разрыв, мы представляем ORBIT — открытую структуру инкрементного обучения на основе рубрик, специально разработанную для высокоответственных медицинских диалогов. ORBIT интегрирует генерацию синтетических диалогов с динамическим созданием рубрик, используя эти рубрики для направления инкрементного процесса RL. В частности, этот подход не зависит от внешних медицинских знаний или ручных правил, вместо этого он использует обратную связь, основанную на рубриках, для формирования обучения. При реализации на модели Qwen3-4B-Instruct наш метод значительно улучшает её производительность на бенчмарке HealthBench-Hard с 7.0 до 27.2, используя всего 2 тысячи образцов, что позволяет достичь современных результатов для моделей такого масштаба. Наш анализ подтверждает, что RL, управляемый рубриками, способствует стабильному улучшению производительности в различных сценариях консультаций, выходя за рамки простого численного улучшения. Эти результаты подчеркивают обратную связь на основе рубрик как масштабируемую стратегию для продвижения LLM в сложных, открытых задачах.
Создание художественных и согласованных 3D-сцен является ключевым аспектом в цифровом контенте. Традиционные методы, основанные на оптимизации, часто ограничены громоздкими ручными правилами, в то время как глубокие генеративные модели сталкиваются с трудностями в создании контента, обладающего богатством и разнообразием. Кроме того, подходы, использующие крупные языковые модели, часто недостаточно устойчивы и не способны точно улавливать сложные пространственные отношения. Для решения этих проблем в данной статье представлена новая система генерации 3D-сцен, основанная на визуальном руководстве. Сначала мы создаем высококачественную библиотеку ресурсов, содержащую 2037 объектов сцен и 147 3D-сцен. Затем мы используем модель генерации изображений для расширения текстовых описаний до изображений, дорабатывая ее для соответствия нашей библиотеке ресурсов. После этого мы разрабатываем надежный модуль анализа изображений для восстановления 3D-структуры сцен на основе визуальной семантики и геометрической информации. Наконец, мы оптимизируем структуру сцены с использованием графов сцен и общей визуальной семантики, чтобы обеспечить логическую согласованность и соответствие изображениям. Обширное тестирование пользователями показывает, что наш алгоритм значительно превосходит существующие методы по богатству и качеству сцен. Код и набор данных будут доступны по адресу https://github.com/HiHiAllen/Imaginarium.
Последние крупные языковые модели (LLM) продемонстрировали перспективные способности в решении задач, связанных с финансами. Однако применение LLM в реальных финансовых приложениях остается сложным из-за их высокой степени риска и значимости. В данной статье представлен FinTrust — комплексный эталонный тест, специально разработанный для оценки надежности LLM в финансовых приложениях. Наш тест охватывает широкий спектр вопросов согласованности, основанных на практическом контексте, и включает детализированные задачи для каждого аспекта оценки надежности. Мы протестировали одиннадцать LLM на платформе FinTrust и обнаружили, что проприетарные модели, такие как o4-mini, превосходят в большинстве задач, таких как безопасность, в то время как модели с открытым исходным кодом, такие как DeepSeek-V3, имеют преимущество в определенных областях, например, в справедливости на уровне отрасли. В сложных задачах, таких как фидуциарное согласование и раскрытие информации, все LLM демонстрируют недостатки, что указывает на значительный пробел в осведомленности о правовых аспектах. Мы считаем, что FinTrust может стать ценным инструментом для оценки надежности LLM в финансовой сфере.
По мере роста спроса на эмоциональный интеллект в крупных языковых моделях (LLM) ключевой задачей становится понимание внутренних механизмов, лежащих в основе эмоционального выражения, и управление эмоциями в генерируемом тексте. Данное исследование затрагивает три основных вопроса: (1) Содержат ли LLM контекстно-независимые механизмы, формирующие эмоциональное выражение? (2) Какую форму принимают эти механизмы? (3) Можно ли их использовать для универсального управления эмоциями? Сначала мы создаем контролируемый набор данных SEV (Scenario-Event with Valence), чтобы вызвать сопоставимые внутренние состояния для различных эмоций. Затем мы извлекаем контекстно-независимые направления эмоций, которые демонстрируют согласованное кодирование эмоций в различных контекстах (Q1). С помощью аналитического разложения и причинно-следственного анализа мы идентифицируем нейроны и головы внимания, которые локально реализуют эмоциональные вычисления, и подтверждаем их причинную роль с помощью абляции и усиливающих вмешательств. Далее мы количественно оцениваем причинное влияние каждого подслоя на финальное представление эмоций в модели и интегрируем выявленные локальные компоненты в согласованные глобальные эмоциональные цепи, которые управляют эмоциональным выражением (Q2). Прямая модуляция этих цепей достигает точности выражения эмоций в 99,65% на тестовом наборе, превосходя методы, основанные на подсказках и управлении (Q3). Насколько нам известно, это первое систематическое исследование, которое раскрывает и подтверждает эмоциональные цепи в LLM, предлагая новые подходы к интерпретируемости и управляемому эмоциональному интеллекту.
Эмпирические законы масштабирования предписывают, как распределять параметры, данные и вычислительные ресурсы, в то время как параметризация с максимальным обновлением (muP) позволяет переносить скорость обучения между различными ширинами, уравнивая величины обновлений на ранних этапах. Однако в современных масштабно-инвариантных архитектурах обучение быстро переходит в устойчивое состояние, управляемое оптимизатором, где слои нормализации создают чувствительность к масштабу в обратном направлении, и эффективная скорость обучения становится зависимой от ширины, что ухудшает переносимость muP. Мы решаем эту проблему, вводя правило масштабирования весового затухания для AdamW, которое сохраняет усиление подслоев при изменении ширины. Эмпирически спектр сингулярных значений каждого матричного параметра масштабируется по норме как η/λ с приблизительно инвариантной формой; при масштабировании ширины d мы наблюдаем, что наибольшее сингулярное значение масштабируется приблизительно как η/λ⋅d^{0.75}. Сочетание этого наблюдения с правилом скорости обучения muP η_2∝d^{-1} для матричных параметров подразумевает эмпирическое правило масштабирования весового затухания λ_2∝d, которое приблизительно сохраняет усиление подслоев инвариантным к ширине. Вместе с векторными параметрами, обучаемыми при η_1=Θ_d(1) и λ_1=0, это обеспечивает нулевой перенос как скорости обучения, так и весового затухания с прокси на целевые ширины, устраняя необходимость в подборе параметров для каждой ширины. Мы проверяем это правило на трансформерах в стиле LLaMA и в минимальной синтетической настройке, а также предоставляем простой диагностический метод, сопоставляя наибольшие сингулярные значения, для проверки инвариантности усиления подслоев. Наши результаты расширяют muP за пределы режима, близкого к начальной инициализации, явно контролируя масштабы устойчивого состояния, задаваемые оптимизатором, и предлагая практический рецепт для устойчивого к ширине переноса гиперпараметров при использовании AdamW.
Модели типа Mixture-of-Experts (MoE) достигают эффективного масштабирования за счет разреженной активации экспертов, но часто страдают от субоптимальных решений маршрутизации из-за сдвигов распределения при развертывании. Хотя существующие методы адаптации на этапе тестирования потенциально могут решить эти проблемы, они в основном ориентированы на плотные модели и требуют доступа к внешним данным, что ограничивает их практическую применимость для архитектур MoE. Однако мы обнаружили, что вместо использования эталонных данных можно оптимизировать выбор экспертов MoE на лету, основываясь только на контексте входных данных. Таким образом, мы предлагаем фреймворк для адаптации на этапе тестирования, который не требует данных и работает в режиме реального времени, непрерывно адаптируя решения маршрутизации MoE в процессе генерации текста без внешнего контроля или данных. Наш метод чередует две фазы: на этапе предварительного заполнения, а затем через регулярные интервалы, мы оптимизируем решения маршрутизации модели с использованием самоконтроля на основе уже сгенерированной последовательности. Затем мы генерируем текст как обычно, сохраняя модифицированный маршрутизатор до следующей адаптации. Мы реализуем это с помощью легковесных аддитивных векторов, которые обновляют логиты маршрутизатора только в выбранных слоях, сохраняя вычислительную эффективность и предотвращая избыточную адаптацию. Экспериментальные результаты показывают стабильное улучшение производительности на сложных задачах логического рассуждения при сохранении устойчивости к сдвигам контекста. Например, наш метод демонстрирует улучшение на 5,5% на тесте HumanEval с моделью OLMoE. Более того, благодаря своей plug-and-play природе, наш метод естественным образом дополняет существующие техники масштабирования на этапе тестирования, например, обеспечивая средний прирост на 6% при использовании совместно с методом самосогласованности на модели DeepSeek-V2-Lite.
Крупные языковые модели (LLM) демонстрируют значительное снижение производительности в многоходовых диалогах, когда информация предоставляется постепенно. Учитывая, что многоходовые диалоги характерны для повседневного взаимодействия с LLM, это снижение представляет собой серьезную проблему для их практической применимости. Мы предполагаем, что резкие скачки неопределенности модели сигнализируют о рассогласовании в многоходовых взаимодействиях с LLM, и используем это наблюдение для динамического восстановления контекста диалога. Мы представляем ERGO (Entropy-guided Resetting for Generation Optimization), который непрерывно оценивает внутреннюю неопределенность через энтропию Шеннона для распределений следующих токенов и запускает адаптивную консолидацию запроса при обнаружении резкого скачка энтропии. Рассматривая неопределенность как ключевой сигнал, а не как помеху, которую нужно устранить, ERGO учитывает вариативность языка и моделирования, представляя и реагируя на неопределенность. В многоходовых задачах с постепенно раскрываемыми инструкциями ERGO обеспечивает средний прирост производительности на 56,6% по сравнению с базовыми методами, увеличивает способность (пиковую производительность) на 24,7% и снижает ненадежность (вариативность производительности) на 35,3%, демонстрируя, что учет неопределенности может улучшить как точность, так и надежность в диалоговом ИИ.
Мультимодальные крупные языковые модели (MLLMs) продолжают предварительное обучение на смеси данных с подписями к изображениям и чередующимися документальными данными, при этом качественная фильтрация данных для чередующихся изображений и текстов остается недостаточно изученной. Мы предлагаем обучить эффективную MLLM в качестве универсального классификатора качества мультимодальных данных для фильтрации как высококачественных подписей к изображениям, так и чередующихся данных (UniFilter). Для решения задачи сбора разнообразных размеченных мультимодальных данных мы вводим полусинтетический подход, который использует доступные исходные изображения и генерирует соответствующий текст для четырех уровней качества. Этот метод позволяет эффективно создавать пары "образец-оценка" как для данных с подписями, так и для чередующихся документов для обучения UniFilter. Мы применяем UniFilter для отбора высококачественных данных с подписями из набора данных DataComp и чередующихся данных из набора OBELICS, содержащего чередующиеся изображения и тексты. MLLMs, предварительно обученные на отфильтрованных данных, демонстрируют значительно улучшенные возможности по сравнению с моделями, обученными на данных, отфильтрованных базовыми методами, достигая более сильных способностей к рассуждению в условиях нулевого сэмплинга и обучению в контексте. После визуального контролируемого тонкого обучения эти MLLMs, индуцированные UniFilter, показывают более высокую производительность на различных тестовых наборах, подчеркивая преимущества высококачественного мультимодального предварительного обучения для последующих задач. Мы публикуем синтетические обучающие данные, использованные для обучения UniFilter, контрольные точки модели UniFilter и высококачественное подмножество чередующихся документов OBELICS-HQ, отобранное с помощью UniFilter, для воспроизведения и дальнейшего развития сообществом.
Мы представляем Representation Tokenizer (RepTok) — генеративную модель, которая представляет изображение с помощью одного непрерывного латентного токена, полученного из самоконтролируемых визионных трансформеров. Основываясь на предварительно обученном SSL-энкодере, мы дообучаем только семантическое вложение токена и сочетаем его с генеративным декодером, обученным совместно с использованием стандартной задачи согласования потоков. Эта адаптация обогащает токен низкоуровневыми деталями, важными для реконструкции, что позволяет достичь точного восстановления изображения. Чтобы сохранить благоприятную геометрию исходного SSL-пространства, мы добавляем косинусную функцию потерь, которая регуляризует адаптированный токен, обеспечивая гладкость латентного пространства и его пригодность для генерации. Наша формулировка с одним токеном устраняет пространственные избыточности 2D латентных пространств и значительно снижает затраты на обучение. Несмотря на простоту и эффективность, RepTok демонстрирует конкурентоспособные результаты в генерации изображений на основе классов ImageNet и естественным образом расширяется до синтеза изображений по тексту, достигая конкурентоспособной производительности в условиях нулевого обучения на MS-COCO при крайне ограниченных бюджетах на обучение. Наши результаты подчеркивают потенциал дообученных SSL-представлений как компактных и эффективных латентных пространств для эффективного генеративного моделирования.
Мы представляем DriveGen3D — новый фреймворк для генерации высококачественных и высококонтролируемых динамических 3D-сцен вождения, который устраняет ключевые ограничения существующих методик. Современные подходы к синтезу сцен вождения либо требуют чрезмерных вычислительных ресурсов для генерации на длительных временных интервалах, либо сосредоточены исключительно на создании продолжительных видео без 3D-представления, либо ограничиваются реконструкцией статичных одиночных сцен. Наша работа заполняет этот методологический пробел, объединяя ускоренную генерацию долгосрочных видео с реконструкцией крупномасштабных динамических сцен через мультимодальное условное управление. DriveGen3D представляет собой унифицированный конвейер, состоящий из двух специализированных компонентов: FastDrive-DiT — эффективного видео-диффузионного трансформера для синтеза высококачественных, временно согласованных видео под управлением текста и макета Bird's-Eye-View (BEV); и FastRecon3D — прямого модуля реконструкции, который быстро строит 3D-представления на основе гауссовых распределений во времени, обеспечивая пространственно-временную согласованность. Вместе эти компоненты позволяют в реальном времени генерировать продолжительные видео вождения (до 424×800 при 12 кадрах в секунду) и соответствующие динамические 3D-сцены, достигая SSIM 0,811 и PSNR 22,84 на синтезе новых ракурсов, сохраняя при этом эффективность по параметрам.