Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данном отчете мы представляем Ovis-U1 — унифицированную модель с 3 миллиардами параметров, которая объединяет возможности мультимодального понимания, генерации изображений из текста и редактирования изображений. Развивая идеи серии Ovis, Ovis-U1 включает визуальный декодер на основе диффузии, работающий в паре с двунаправленным токенизатором, что позволяет выполнять задачи генерации изображений на уровне ведущих моделей, таких как GPT-4o. В отличие от некоторых предыдущих моделей, использующих замороженный MLLM для задач генерации, Ovis-U1 применяет новый унифицированный подход к обучению, начиная с языковой модели. По сравнению с обучением исключительно на задачах понимания или генерации, унифицированное обучение демонстрирует улучшенную производительность, что подчеркивает преимущества интеграции этих двух задач. Ovis-U1 достигает показателя 69.6 на мультимодальном академическом бенчмарке OpenCompass, превосходя последние модели, такие как Ristretto-3B и SAIL-VL-1.5-2B. В генерации изображений из текста она показывает выдающиеся результаты с оценками 83.72 и 0.89 на бенчмарках DPG-Bench и GenEval соответственно. Для редактирования изображений модель достигает показателей 4.00 и 6.42 на бенчмарках ImgEdit-Bench и GEdit-Bench-EN соответственно. Будучи первой версией серии унифицированных моделей Ovis, Ovis-U1 расширяет границы мультимодального понимания, генерации и редактирования.
Последние достижения в области обучения с подкреплением показали, что языковые модели могут развивать сложные навыки рассуждения за счет обучения на задачах с проверяемыми наградами. Однако такие подходы зависят от пар "задача-ответ", созданных человеком, и специфической инженерии наград для конкретных областей. Мы представляем SPIRAL — фреймворк для самообучения, в котором модели учатся, играя в многоходовые игры с нулевой суммой против постоянно улучшающихся версий самих себя, что устраняет необходимость в человеческом контроле. Благодаря самообучению SPIRAL генерирует бесконечный учебный план из постепенно усложняющихся задач, поскольку модели вынуждены постоянно адаптироваться к более сильным оппонентам. Для масштабирования такого обучения мы реализуем полностью онлайн-систему многоходового многопользовательского обучения с подкреплением для больших языковых моделей (LLM) и предлагаем оценку преимуществ с учетом ролей (RAE) для стабилизации многопользовательского обучения. Используя SPIRAL, самообучение на играх с нулевой суммой развивает навыки рассуждения, которые переносятся на широкий спектр задач. Обучение модели Qwen3-4B-Base только на игре Кун Покер приводит к улучшению на 8,6% в математических задачах и на 8,4% в общих задачах на рассуждение, превосходя результаты обучения на 25 000 экспертных траекторий игр. Анализ показывает, что такой перенос происходит благодаря трем когнитивным паттернам: систематической декомпозиции, расчету ожидаемой стоимости и пошаговому анализу. Обучение на нескольких играх (Крестики-нолики, Кун Покер, Простые переговоры) дополнительно улучшает результаты, так как каждая игра развивает уникальные навыки рассуждения. Применение SPIRAL к сильной модели рассуждения (DeepSeek-R1-Distill-Qwen-7B) также приводит к среднему улучшению на 2,0%. Эти результаты демонстрируют, что игры с нулевой суммой естественным образом развивают переносимые навыки рассуждения, открывая перспективное направление для автономного развития рассуждений.
Квадратичная сложность механизмов полного внимания представляет собой значительное узкое место для моделей диффузии видео (Video Diffusion Models, VDMs), стремящихся генерировать длительные видео высокого разрешения. Хотя было предложено множество методов разреженного внимания, многие из них разработаны как ускорители вывода без обучения или не оптимально учитывают уникальные пространственно-временные характеристики, присущие видеоданным, при нативном обучении. В данной статье представлен Video Mixture of Block Attention (VMoBA) — новый механизм разреженного внимания, специально адаптированный для VDMs. Вдохновленный глубоким анализом паттернов внимания в предобученных видео-трансформерах, который выявил сильную пространственно-временную локальность, изменчивую важность запросов и специфичные для голов уровни концентрации, VMoBA улучшает оригинальную структуру MoBA с помощью трех ключевых модификаций: (1) послойная рекуррентная схема разделения блоков (1D-2D-3D) для динамической адаптации к различным пространственно-временным паттернам внимания и повышения эффективности; (2) глобальный выбор блоков для приоритизации наиболее значимых взаимодействий блоков запросов и ключей в рамках всей головы внимания; и (3) выбор блоков на основе порога для динамического определения количества обрабатываемых блоков в зависимости от их совокупного сходства. Многочисленные эксперименты демонстрируют, что VMoBA значительно ускоряет обучение VDMs на длинных последовательностях, достигая ускорения в 2.92x по FLOPs и 1.48x по задержке, при этом обеспечивая сопоставимое или даже превосходящее качество генерации по сравнению с полным вниманием. Кроме того, VMoBA демонстрирует конкурентоспособную производительность в выводе без обучения, предлагая ускорение в 2.40x по FLOPs и 1.35x по задержке для генерации видео высокого разрешения.
Мы представляем Calligrapher, новаторскую диффузионную платформу, которая интегрирует передовые методы настройки текста с художественной типографикой для применения в цифровой каллиграфии и дизайне. Решая проблемы точного управления стилем и зависимости от данных в настройке типографики, наша платформа включает три ключевых технических новшества. Во-первых, мы разработали механизм самообучения, который использует предварительно обученную модель генерации изображений из текста вместе с крупной языковой моделью для автоматического создания эталонного набора данных, ориентированного на стили. Во-вторых, мы внедрили локализованную систему внедрения стилей с помощью обучаемого стилевого кодировщика, состоящего из Qformer и линейных слоев, для извлечения устойчивых стилевых признаков из эталонных изображений. Также используется механизм генерации в контексте, который напрямую встраивает эталонные изображения в процесс удаления шума, что дополнительно улучшает точное соответствие целевых стилей. Многочисленные количественные и качественные оценки в различных шрифтах и дизайнерских контекстах подтверждают способность Calligrapher точно воспроизводить сложные стилистические детали и позиционирование глифов. Автоматизируя создание высококачественной и визуально согласованной типографики, Calligrapher превосходит традиционные модели, расширяя возможности творческих специалистов в цифровом искусстве, брендинге и контекстуальном типографическом дизайне.
Обучение устойчивых и обобщаемых моделей вознаграждения для визуальных предпочтений человека является ключевым для согласования генеративных моделей "текст-изображение" и "текст-видео" с человеческими намерениями. Однако современные модели вознаграждения часто не справляются с обобщением, а контролируемая тонкая настройка приводит к запоминанию, требуя сложных аннотационных конвейеров. Хотя обучение с подкреплением (RL), в частности Group Relative Policy Optimization (GRPO), улучшает обобщение, мы обнаруживаем ключевую проблему: значительное снижение точности рассуждений происходит, когда траектория рассуждений модели противоречит траектории независимой, замороженной модели "визуальный язык" ("слушатель"), оценивающей тот же результат. Для решения этой проблемы мы представляем фреймворк GRPO, дополненный слушателем. Здесь слушатель переоценивает цепочку рассуждений модели, предоставляя плотную, калиброванную оценку уверенности, которая формирует сигнал вознаграждения RL. Это побуждает модель не только давать правильные ответы, но и создавать объяснения, убедительные для независимой модели. Наша схема вознаграждения, основанная на слушателе, достигает наилучшей точности на бенчмарке ImageReward (67,4%), значительно улучшает производительность на данных, выходящих за пределы распределения (OOD), на крупном наборе данных человеческих предпочтений (1,2 млн голосов, до +6% по сравнению с наивной моделью), и сокращает противоречия в рассуждениях по сравнению с сильными базовыми моделями GRPO и SFT. Эти результаты демонстрируют, что вознаграждения, основанные на слушателе, предоставляют масштабируемый и эффективный по данным путь для согласования моделей "визуальный язык" с тонкими человеческими предпочтениями. Мы опубликуем нашу модель рассуждений здесь: https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.
Мы предлагаем новую парадигму проектирования промптов, которая бросает вызов общепринятым подходам в работе с большими языковыми моделями (LLM). В то время как традиционные методы делают акцент на тщательно продуманных инструкциях и демонстрациях для обучения в контексте (ICL), мы показываем, что удаление случайных демонстраций и превращение их в, казалось бы, бессвязный "бессмысленный текст" может значительно улучшить производительность в различных задачах. Примечательно, что такой "бессмысленный текст" всегда соответствует или превосходит современные методы автоматической оптимизации промптов, достигая существенных улучшений независимо от настройки LLM. Однако поиск эффективной стратегии удаления является нетривиальной задачей, поскольку существующие методы атрибуции и алгоритмы сжатия промптов не дают устойчивых результатов, не говоря уже о человеческой интуиции. В связи с этим мы предлагаем фреймворк для самостоятельной оптимизации промптов, PromptQuine, — эволюционный поисковый фреймворк, который автоматически находит стратегию удаления, используя лишь ограниченные объемы данных. Подобно возникающей сложности в природе — такой как симбиоз и самоорганизация, — которая появляется в ответ на ограниченность ресурсов, наш фреймворк развивает и совершенствует нестандартные, но высокоэффективные промпты, используя только токены, присутствующие в контексте. Мы демонстрируем его эффективность в задачах классификации, множественного выбора, генерации и математического рассуждения на различных LLM, достигая при этом достойной производительности в реальном времени. Мы надеемся, что наши результаты послужат руководством для механистических исследований обучения в контексте и призывом к действию, чтобы проложить путь для более открытых поисковых алгоритмов, направленных на более эффективное использование LLM.
Последние достижения в области оценки оптического потока были сосредоточены на повышении точности за счет увеличения потребления памяти GPU, особенно для входных данных с высоким разрешением (FullHD). Мы представляем MEMFOF — метод оценки оптического потока по нескольким кадрам, оптимизированный по использованию памяти, который находит оптимальный баланс между многофреймовой оценкой и потреблением памяти GPU. Важно отметить, что MEMFOF требует всего 2,09 ГБ памяти GPU во время выполнения для входных данных 1080p и 28,5 ГБ во время обучения, что позволяет обучать метод на нативных данных 1080p без необходимости обрезки или уменьшения разрешения. Мы систематически пересмотрели архитектурные решения, вдохновленные RAFT, интегрировав уменьшенные корреляционные объемы и протоколы обучения с высоким разрешением наряду с многофреймовой оценкой, чтобы достичь передовых результатов на множестве бенчмарков при значительном снижении нагрузки на память. Наш метод превосходит более ресурсоемкие альтернативы как по точности, так и по эффективности выполнения, подтверждая свою надежность для оценки потока на высоких разрешениях. На момент подачи наш метод занимает первое место на бенчмарке Spring с показателем выбросов в 1 пиксель (1px) 3,289%, лидирует на Sintel (clean) с ошибкой конечной точки (EPE) 0,963 и демонстрирует наилучшую ошибку Fl-all на KITTI-2015 — 2,94%. Код доступен по адресу https://github.com/msu-video-group/memfof.
Глубинные изображения, полученные с помощью сенсоров времени пролета (Time-of-Flight, ToF), подвержены шумам, что требует их устранения для надежного использования в последующих приложениях. Предыдущие работы либо сосредоточены на обработке одиночных кадров, либо выполняют многокадровую обработку без учета изменений глубины в соответствующих пикселях между кадрами, что приводит к нежелательной временной нестабильности и пространственной неоднозначности. В данной статье мы предлагаем новую сеть для устранения шумов в глубинных изображениях ToF, использующую слияние графов, инвариантное к движению, для одновременного улучшения временной стабильности и пространственной четкости. В частности, несмотря на изменения глубины между кадрами, структуры графов демонстрируют временную самоподобие, что позволяет использовать перекрестное геометрическое внимание для слияния графов. Затем, включая априорное условие гладкости изображения на объединенном графе и термин точности данных, выведенный из распределения шумов ToF, мы формулируем задачу максимизации апостериорной вероятности для устранения шумов ToF. Наконец, решение разворачивается в итеративные фильтры, веса которых адаптивно обучаются на основе геометрического внимания, информированного графом, что позволяет создать высокопроизводительную и интерпретируемую сеть. Экспериментальные результаты показывают, что предложенный метод достигает наилучших показателей по точности и согласованности на синтетическом наборе данных DVToF и демонстрирует устойчивую обобщаемость на реальном наборе данных Kinectv2. Исходный код будет доступен по адресу https://github.com/davidweidawang/GIGA-ToF{https://github.com/davidweidawang/GIGA-ToF}.
Тонкая настройка больших языковых моделей (LLM) требует значительных вычислительных ресурсов и памяти. Хотя методы параметрически эффективной тонкой настройки, такие как QLoRA и DoRA, сокращают количество обучаемых параметров и снижают использование памяти, они не уменьшают вычислительные затраты. В некоторых случаях они могут даже замедлить процесс тонкой настройки. В данной статье мы представляем SparseLoRA — метод, который ускоряет тонкую настройку LLM за счет контекстной разреженности. Мы предлагаем легковесный, не требующий обучения оценщик разреженности на основе SVD, который динамически выбирает разреженное подмножество весов для вычисления потерь и градиентов. Кроме того, мы систематически анализируем и устраняем чувствительность на уровне слоев, токенов и шагов обучения. Наши экспериментальные результаты показывают, что SparseLoRA снижает вычислительные затраты до 2.2 раз и обеспечивает измеренное ускорение до 1.6 раз, сохраняя точность на различных задачах, включая здравый смысл и арифметические рассуждения, генерацию кода и выполнение инструкций.
Последние достижения в области больших языковых моделей (LLM) показали, что методы вычислений на этапе вывода, такие как масштабирование на этапе декодирования и самоусовершенствование, могут значительно улучшить способности к рассуждению без использования внешних знаний. Ключевым фактором этого успеха стало появление поведения, связанного с самокоррекцией и самопроверкой, которое часто вызывается с помощью обучения с подкреплением (RL). В данной статье мы исследуем, насколько эффективно эти методы на этапе вывода применимы к моделям, работающим с визуальными и языковыми данными (VLM), особенно к тем, которые обучены с использованием RL. Мы обнаружили, что хотя стратегии декодирования, такие как голосование большинством и выбор лучшего из N с самопроверкой, улучшают производительность VLM в задачах рассуждения, методы, основанные на генерации, такие как первый из упомянутых, достигают значительно больших успехов по сравнению с методами, основанными на проверке, такими как второй. Кроме того, поведение самокоррекции, часто связанное с моделями, настроенными с помощью RL, например, "момент озарения", не приводит к измеримым улучшениям. Мы показываем с помощью обширных экспериментов в рамках подхода масштабирования на этапе вывода, что ключевой причиной является отсутствие у VLM, обученных с RL, надежных возможностей самопроверки как в визуальной, так и в текстовой модальностях.
Агенты, основанные на крупных языковых моделях (LLM), продемонстрировали потенциал для автономного выполнения сложных задач в области разработки программного обеспечения. Кроме того, наблюдается прогресс в создании агентов, способных выполнять отдельные этапы исследовательского процесса в машинном обучении и естественных науках. Мы утверждаем, что расширение исследований и их реализация являются критически важными возможностями для таких систем, и представляем RExBench для поддержки оценки этой способности. RExBench — это эталонный набор, состоящий из 12 реалистичных задач по реализации исследовательских экспериментов, направленных на изучение гипотез, которые ранее не были реализованы. Каждая задача представлена как расширение существующей научной статьи и кодовой базы, сопровождаемое инструкциями, написанными экспертами в предметной области. RExBench устойчив к загрязнению данных и поддерживает автоматическую инфраструктуру оценки, которая выполняет выходные данные агентов для определения соответствия критериям успеха. Мы используем этот эталонный набор для оценки девяти агентов LLM, реализованных с использованием трех различных фреймворков: aider, Claude Code и OpenHands. Мы обнаруживаем, что все оцениваемые агенты не способны автономно реализовать большинство расширений. Хотя уровень успешности улучшается с добавлением написанных человеком подсказок, лучший результат в таких условиях остается ниже 40%. Это указывает на то, что современные агенты пока не способны справляться с реалистичными задачами расширения исследований без существенного участия человека.
Исследования в области урбанистики охватывают широкий спектр сценариев и задач, требующих понимания мультимодальных данных. Современные методы часто сосредоточены на конкретных типах данных и не имеют единой структуры для их комплексной обработки в урбанистической сфере. Недавние успехи мультимодальных больших языковых моделей (MLLMs) представляют перспективную возможность для преодоления этого ограничения. В данной статье мы представляем UrbanLLaVA — мультимодальную большую языковую модель, разработанную для одновременной обработки четырех типов данных и демонстрирующую высокую производительность в разнообразных городских задачах по сравнению с общими MLLMs. В UrbanLLaVA мы сначала создаем разнообразный набор инструкций для городских данных, охватывающий как одноканальные, так и кросс-модальные данные, начиная с локального вида и заканчивая глобальным представлением городской среды. Кроме того, мы предлагаем многоэтапную структуру обучения, которая разделяет улучшение пространственного мышления и изучение предметной области, тем самым повышая совместимость и производительность UrbanLLaVA в различных городских задачах. Наконец, мы также расширяем существующий эталонный набор для городских исследований, чтобы оценить производительность MLLMs в широком спектре городских задач. Экспериментальные результаты, полученные в трех городах, демонстрируют, что UrbanLLaVA превосходит как открытые, так и проприетарные MLLMs как в одноканальных, так и в сложных кросс-модальных задачах, а также показывает устойчивые способности к обобщению в разных городах. Исходные коды и данные открыты для исследовательского сообщества по адресу https://github.com/tsinghua-fib-lab/UrbanLLaVA.
Способность обрабатывать информацию из нескольких модальностей и последовательно рассуждать на её основе остаётся ключевой задачей в развитии искусственного интеллекта. Однако существующие тесты на рассуждение сосредоточены исключительно на текстовых данных или используют мультимодальные вопросы, на которые можно ответить путём прямого извлечения информации из неметекстовой модальности. Таким образом, сложное рассуждение в мультимодальных областях остаётся малоизученным. В данной работе мы представляем MARBLE — сложный мультимодальный тест на рассуждение, разработанный для тщательной проверки способности мультимодальных языковых моделей (MLLMs) последовательно анализировать сложные мультимодальные задачи и среды. MARBLE состоит из двух крайне сложных задач, M-Portal и M-Cube, которые требуют создания и понимания многошаговых планов с учётом пространственных, визуальных и физических ограничений. Мы обнаружили, что современные MLLMs демонстрируют низкие результаты на MARBLE — все 12 передовых моделей показывают результаты, близкие к случайным, на M-Portal и 0% точности на M-Cube. Лишь в упрощённых подзадачах некоторые модели превосходят случайный базовый уровень, что указывает на то, что сложное рассуждение по-прежнему остаётся вызовом для существующих MLLMs. Более того, мы показываем, что восприятие остаётся узким местом, где MLLMs иногда не могут извлечь информацию из визуальных входных данных. Освещая ограничения MLLMs, мы надеемся, что MARBLE стимулирует разработку следующего поколения моделей, способных рассуждать и планировать на основе множества мультимодальных шагов рассуждения.
Интеграция внешних инструментов через вызов функций является важнейшим элементом для практического применения языковых моделей, однако большинство многоязычных моделей не обладают надежными возможностями использования инструментов в неанглийских языках. Даже передовые многоязычные модели испытывают трудности с определением момента для использования инструментов и генерацией структурированных выходных данных, необходимых для вызова функций, часто демонстрируя языковую путаницу при запросах на языках с ограниченными ресурсами. В данной работе представлена методология адаптации существующих языковых моделей для обеспечения надежного использования инструментов на любом целевом языке, используя болгарский язык в качестве примера. Подход включает продолжение обучения серии моделей BgGPT (2,6 млрд, 9 млрд, 27 млрд параметров) на новом двуязычном наборе данных из 10 035 примеров вызова функций, разработанном для поддержки стандартизированных протоколов, таких как MCP (Model Context Protocol). Исследование представляет TUCAN (Tool-Using Capable Assistant Navigator), который достигает улучшения точности вызова функций до 28,75% по сравнению с базовыми моделями, сохраняя при этом базовое понимание языка, что подтверждено на устоявшихся болгарских тестах. Помимо повышения точности, модели TUCAN демонстрируют готовые к производству форматы ответов с четкими и парсируемыми вызовами функций, в отличие избыточных и несогласованных выходных данных базовых моделей. Модели, оценочная структура и набор данных опубликованы для обеспечения возможности воспроизведения для других языков. Данная работа демонстрирует практический подход для расширения возможностей, дополненных инструментами, за пределы англоцентричных систем.
Хотя сквозная генерация аудио по видео значительно улучшилась, создание высококачественного звука, который достоверно передает нюансы визуального контента, остается сложной задачей. Как и профессионалам в творческих индустриях, такой генерации требуется сложное рассуждение о таких аспектах, как визуальная динамика, акустическая среда и временные взаимосвязи. Мы представляем ThinkSound, инновационный фреймворк, который использует рассуждения по цепочке мыслей (Chain-of-Thought, CoT) для пошаговой интерактивной генерации и редактирования аудио для видео. Наш подход разбивает процесс на три взаимодополняющих этапа: базовая генерация фоновых звуков, создающая семантически согласованные звуковые ландшафты, интерактивное уточнение с фокусом на объектах через точные взаимодействия с пользователем и целевое редактирование, управляемое инструкциями на естественном языке. На каждом этапе мультимодальная большая языковая модель генерирует контекстуально согласованные рассуждения CoT, которые направляют унифицированную модель аудио. Кроме того, мы представляем AudioCoT, всеобъемлющий набор данных с структурированными аннотациями рассуждений, устанавливающими связи между визуальным контентом, текстовыми описаниями и синтезом звука. Эксперименты показывают, что ThinkSound достигает передовых результатов в генерации аудио по видео как по аудиометрическим, так и по CoT-метрикам и превосходит в тестах на распределении вне выборки Movie Gen Audio. Демонстрационная страница доступна по адресу https://ThinkSound-Project.github.io.
В данной статье мы представляем простую методику, не требующую обучения, для повышения производительности методов спекулятивного декодирования (SpD), основанных на использовании драфтеров, которая включает голову языковой модели (LM head) в процесс генерации черновиков. Спекулятивное декодирование на основе драфтеров использует одну или несколько меньших языковых моделей, называемых драфтерами или моделями-драфтерами, для выборки черновой последовательности или дерева, состоящего из нескольких токенов, с последующей проверкой базовой большой языковой моделью (LLM), целевой моделью, которая принимает подмножество токенов как валидную генерацию. Поскольку обычно считается, что спекулятивное декодирование требует однозначного соответствия между словарями целевой модели и модели-драфтера, естественным решением было использование общего словаря или даже общей LM head, как в методах EAGLE или Medusa. Мы впервые выявляем, что такая схема выборки токенов в черновиках изначально содержит избыточные вычислительные затраты, особенно для некоторых целевых LLM с очень большими словарями. Затем мы предлагаем простую методику, VocabTrim, для снижения этих затрат и повышения скорости генерации в условиях ограниченной памяти. VocabTrim перестраивает LM head модели-драфтера, ограничивая её набором токенов, которые чаще всего выбираются из словаря целевой модели. Хотя ограничение словаря в процессе генерации черновиков незначительно снижает процент принятия токенов, оно существенно уменьшает задержку генерации в условиях ограниченной памяти, что часто встречается на периферийных устройствах, что приводит к увеличению ускорения в условиях ограниченной памяти (MBSU). Мы показываем, что наш метод может повысить MBSU для моделей Llama-3 на Spec-Bench, в частности, на 16% для модели Llama-3.2-3B-Instruct.
Модели мира стали незаменимыми инструментами для воплощённого интеллекта, выступая в роли мощных симуляторов, способных генерировать реалистичные видеозаписи роботизированных сценариев, одновременно решая критически важные проблемы нехватки данных. Однако современные модели мира для воплощённого интеллекта демонстрируют ограниченное понимание физики, особенно в моделировании 3D-геометрии и динамики движения, что приводит к генерации нереалистичных видеозаписей для сценариев с интенсивным взаимодействием роботов с окружающей средой. В данной статье мы представляем RoboScape — унифицированную модель мира, основанную на физике, которая совместно обучается генерации RGB-видео и физическим знаниям в рамках единой структуры. Мы вводим две ключевые задачи совместного обучения, основанные на физике: прогнозирование временной глубины, которое улучшает согласованность 3D-геометрии при рендеринге видео, и обучение динамике ключевых точек, которое неявно кодирует физические свойства (например, форму объектов и характеристики материалов), одновременно улучшая моделирование сложных движений. Многочисленные эксперименты демонстрируют, что RoboScape генерирует видео с превосходной визуальной достоверностью и физической правдоподобностью в различных роботизированных сценариях. Мы также подтверждаем её практическую полезность через приложения, включая обучение роботизированных политик с использованием сгенерированных данных и оценку политик. Наша работа предоставляет новые идеи для создания эффективных моделей мира, основанных на физике, с целью продвижения исследований в области воплощённого интеллекта. Код доступен по адресу: https://github.com/tsinghua-fib-lab/RoboScape.
Металинзы обладают значительным потенциалом для ультракомпактной вычислительной визуализации, но сталкиваются с проблемами, связанными со сложной оптической деградацией и трудностями вычислительного восстановления. Существующие методы обычно полагаются на точную оптическую калибровку или обширные парные наборы данных, что является нетривиальной задачей для реальных систем визуализации. Кроме того, отсутствие контроля над процессом вывода часто приводит к нежелательным артефактам, вызванным галлюцинациями. Мы представляем метод Degradation-Modeled Multipath Diffusion для настраиваемой фотографии с использованием металинз, который использует мощные априорные знания о естественных изображениях из предварительно обученных моделей вместо больших наборов данных. Наша структура использует положительные, нейтральные и отрицательные пути подсказок для балансировки генерации высокочастотных деталей, структурной точности и подавления специфической деградации металинз, а также псевдо-аугментации данных. Настраиваемый декодер позволяет контролировать компромисс между точностью и перцептивным качеством. Дополнительно модуль пространственно-вариативного внимания с учетом деградации (SVDA) адаптивно моделирует сложную оптическую и сенсорную деградацию. Наконец, мы разработали и создали миллиметровую MetaCamera для валидации в реальных условиях. Обширные результаты показывают, что наш подход превосходит современные методы, достигая высокоточной и четкой реконструкции изображений. Дополнительные материалы: https://dmdiff.github.io/.
Тонкая настройка предварительно обученных больших языковых моделей (LLM) доказала свою эффективность для достижения передовых результатов в конкретных задачах, таких как машинный перевод. Однако процесс адаптации часто подразумевает утрату универсальных возможностей, таких как способность к диалоговому рассуждению и выполнению инструкций, что ограничивает полезность системы в реальных приложениях, требующих сочетания различных навыков. В данной работе мы представляем Tower+ — набор моделей, разработанных для обеспечения высокой производительности как в переводе, так и в многоязычных универсальных текстовых задачах. Мы достигаем Парето-оптимума между специализацией на переводе и универсальными многоязычными возможностями, используя новый подход к обучению, основанный на модели Tower (Alves et al., 2024), который включает продолженное предварительное обучение, контролируемую тонкую настройку, оптимизацию предпочтений и обучение с подкреплением с верифицируемыми наградами. На каждом этапе обучения мы тщательно генерируем и отбираем данные для улучшения производительности как в переводе, так и в универсальных задачах, таких как генерация кода, решение математических задач и выполнение общих инструкций. Мы разработали модели различных масштабов: 2B, 9B и 72B. Наши меньшие модели часто превосходят более крупные универсальные LLM с открытыми весами и проприетарные модели (например, Llama 3.3 70B, GPT-4o). Наша крупнейшая модель демонстрирует наилучшие результаты в переводе для языков с большим объемом ресурсов, а также лидирует в многоязычных оценках Arena Hard и в IF-MT — бенчмарке, который мы вводим для оценки как перевода, так и выполнения инструкций. Наши результаты подчеркивают, что можно конкурировать с передовыми моделями в универсальных возможностях, одновременно оптимизируя их для конкретных бизнес-областей, таких как перевод и локализация.