Artículos de investigación en IA seleccionados diariamente con traducciones
En este informe, presentamos Ovis-U1, un modelo unificado de 3 mil millones de parámetros que integra capacidades de comprensión multimodal, generación de texto a imagen y edición de imágenes. Basándose en los fundamentos de la serie Ovis, Ovis-U1 incorpora un decodificador visual basado en difusión junto con un refinador de tokens bidireccional, lo que permite tareas de generación de imágenes comparables a modelos líderes como GPT-4o. A diferencia de algunos modelos anteriores que utilizan un MLLM congelado para tareas de generación, Ovis-U1 emplea un nuevo enfoque de entrenamiento unificado que parte de un modelo de lenguaje. En comparación con el entrenamiento exclusivo en tareas de comprensión o generación, el entrenamiento unificado ofrece un mejor rendimiento, demostrando la mejora lograda al integrar estas dos tareas. Ovis-U1 obtiene una puntuación de 69.6 en el OpenCompass Multi-modal Academic Benchmark, superando a modelos recientes de vanguardia como Ristretto-3B y SAIL-VL-1.5-2B. En la generación de texto a imagen, destaca con puntuaciones de 83.72 y 0.89 en los benchmarks DPG-Bench y GenEval, respectivamente. Para la edición de imágenes, logra 4.00 y 6.42 en ImgEdit-Bench y GEdit-Bench-EN, respectivamente. Como la versión inicial de la serie de modelos unificados Ovis, Ovis-U1 amplía los límites de la comprensión, generación y edición multimodal.
Los avances recientes en aprendizaje por refuerzo han demostrado que los modelos de lenguaje pueden desarrollar un razonamiento sofisticado mediante el entrenamiento en tareas con recompensas verificables, pero estos enfoques dependen de pares problema-respuesta curados por humanos y de la ingeniería de recompensas específica del dominio. Presentamos SPIRAL, un marco de autojuego donde los modelos aprenden jugando partidas de múltiples turnos y suma cero contra versiones de sí mismos que mejoran continuamente, eliminando la necesidad de supervisión humana. A través del autojuego, SPIRAL genera un currículo infinito de problemas progresivamente desafiantes, ya que los modelos deben adaptarse constantemente a oponentes más fuertes. Para permitir este entrenamiento de autojuego a escala, implementamos un sistema de aprendizaje por refuerzo multiagente y de múltiples turnos completamente en línea para LLMs y proponemos la estimación de ventaja condicionada por rol (RAE) para estabilizar el entrenamiento multiagente. Utilizando SPIRAL, el autojuego en juegos de suma cero produce capacidades de razonamiento que se transfieren ampliamente. Entrenar Qwen3-4B-Base únicamente en Kuhn Poker logra una mejora del 8.6% en matemáticas y del 8.4% en razonamiento general, superando al SFT en 25,000 trayectorias de juego expertas. El análisis revela que esta transferencia ocurre a través de tres patrones cognitivos: descomposición sistemática, cálculo de valor esperado y análisis caso por caso. El entrenamiento multi-juego (TicTacToe, Kuhn Poker, Negociación Simple) mejora aún más el rendimiento, ya que cada juego desarrolla fortalezas de razonamiento distintas. Aplicar SPIRAL a un modelo de razonamiento fuerte (DeepSeek-R1-Distill-Qwen-7B) aún puede conducir a una mejora promedio del 2.0%. Estos resultados demuestran que los juegos de suma cero desarrollan naturalmente capacidades de razonamiento transferibles, destacando una dirección prometedora para el desarrollo autónomo del razonamiento.
Presentamos Calligrapher, un novedoso marco basado en difusión que integra de manera innovadora la personalización avanzada de texto con tipografía artística para aplicaciones de caligrafía digital y diseño. Al abordar los desafíos del control preciso de estilos y la dependencia de datos en la personalización tipográfica, nuestro marco incorpora tres contribuciones técnicas clave. Primero, desarrollamos un mecanismo de auto-distilación que aprovecha el modelo generativo de texto a imagen preentrenado junto con el modelo de lenguaje grande para construir automáticamente un benchmark de tipografía centrado en estilos. Segundo, introducimos un marco de inyección de estilos localizada mediante un codificador de estilos entrenable, que comprende tanto Qformer como capas lineales, para extraer características robustas de estilo a partir de imágenes de referencia. También se emplea un mecanismo de generación en contexto para incrustar directamente las imágenes de referencia en el proceso de eliminación de ruido, mejorando aún más la alineación refinada de los estilos objetivo. Evaluaciones cuantitativas y cualitativas exhaustivas en diversos tipos de letra y contextos de diseño confirman la reproducción precisa de detalles estilísticos intrincados y el posicionamiento exacto de glifos por parte de Calligrapher. Al automatizar la tipografía de alta calidad y visualmente consistente, Calligrapher supera a los modelos tradicionales, empoderando a los profesionales creativos en el arte digital, branding y diseño tipográfico contextual.
La complejidad cuadrática de los mecanismos de atención completa representa un cuello de botella significativo para los Modelos de Difusión de Video (VDMs, por sus siglas en inglés) que buscan generar videos de larga duración y alta resolución. Si bien se han propuesto diversos métodos de atención dispersa, muchos están diseñados como aceleradores de inferencia sin entrenamiento o no capturan de manera óptima las características espacio-temporales únicas inherentes a los datos de video cuando se entrenan de forma nativa. Este artículo presenta Video Mixture of Block Attention (VMoBA), un novedoso mecanismo de atención dispersa específicamente adaptado para VDMs. Motivado por un análisis en profundidad de los patrones de atención en transformadores de video preentrenados, que revelaron una fuerte localidad espacio-temporal, una importancia variable de las consultas y niveles de concentración específicos por cabeza, VMoBA mejora el marco original de MoBA con tres modificaciones clave: (1) un esquema de partición de bloques recurrente por capas (1D-2D-3D) para adaptarse dinámicamente a diversos patrones de atención espacio-temporal y mejorar la eficiencia; (2) selección global de bloques para priorizar las interacciones más destacadas entre bloques de consulta-clave en toda una cabeza de atención; y (3) selección de bloques basada en umbrales para determinar dinámicamente el número de bloques atendidos en función de su similitud acumulada. Experimentos exhaustivos demuestran que VMoBA acelera significativamente el entrenamiento de VDMs en secuencias más largas, logrando una aceleración de 2.92x en FLOPs y 1.48x en latencia, mientras alcanza una calidad de generación comparable o incluso superior a la atención completa. Además, VMoBA exhibe un rendimiento competitivo en inferencia sin entrenamiento, ofreciendo una aceleración de 2.40x en FLOPs y 1.35x en latencia para la generación de videos de alta resolución.
Los avances recientes en la estimación del flujo óptico han priorizado la precisión a costa de un creciente consumo de memoria en GPU, especialmente para entradas de alta resolución (FullHD). Presentamos MEMFOF, un método de flujo óptico multiframe eficiente en memoria que identifica un equilibrio favorable entre la estimación multiframe y el uso de memoria en GPU. Destacablemente, MEMFOF requiere solo 2.09 GB de memoria en GPU durante la ejecución para entradas de 1080p, y 28.5 GB durante el entrenamiento, lo que posiciona de manera única a nuestro método para ser entrenado en resolución nativa de 1080p sin necesidad de recortes o reducción de resolución. Revisamos sistemáticamente las decisiones de diseño de arquitecturas similares a RAFT, integrando volúmenes de correlación reducidos y protocolos de entrenamiento de alta resolución junto con la estimación multiframe, para lograr un rendimiento de vanguardia en múltiples benchmarks mientras se reduce sustancialmente la sobrecarga de memoria. Nuestro método supera a alternativas más intensivas en recursos tanto en precisión como en eficiencia de tiempo de ejecución, validando su robustez para la estimación de flujo en altas resoluciones. Al momento de la presentación, nuestro método ocupa el primer lugar en el benchmark Spring con una tasa de valores atípicos de 1 píxel (1px) de 3.289, lidera Sintel (clean) con un error de punto final (EPE) de 0.963, y alcanza el mejor error Fl-all en KITTI-2015 con un 2.94%. El código está disponible en https://github.com/msu-video-group/memfof.
Entrenar modelos de recompensa robustos y generalizables para las preferencias visuales humanas es esencial para alinear los modelos generativos de texto a imagen y texto a video con la intención humana. Sin embargo, los modelos de recompensa actuales a menudo no logran generalizar, y el ajuste fino supervisado conduce a la memorización, lo que exige pipelines de anotación complejos. Si bien el aprendizaje por refuerzo (RL), específicamente la Optimización de Política Relativa de Grupo (GRPO), mejora la generalización, descubrimos un modo de fallo clave: se produce una caída significativa en la precisión del razonamiento cuando la traza de razonamiento de un modelo contradice la de un modelo de visión-lenguaje independiente y congelado ("escucha") que evalúa la misma salida. Para abordar esto, introducimos un marco GRPO aumentado con un escucha. Aquí, el escucha reevalúa la cadena de pensamiento del razonador para proporcionar una puntuación de confianza densa y calibrada, moldeando la señal de recompensa del RL. Esto incentiva al razonador no solo a responder correctamente, sino a producir explicaciones que sean persuasivas para un modelo independiente. Nuestro esquema de recompensa moldeado por el escucha logra la mejor precisión en el benchmark ImageReward (67.4%), mejora significativamente el rendimiento fuera de distribución (OOD) en un conjunto de datos a gran escala de preferencias humanas (1.2M votos, hasta +6% sobre el razonador ingenuo) y reduce las contradicciones en el razonamiento en comparación con las líneas base fuertes de GRPO y SFT. Estos resultados demuestran que las recompensas basadas en el escucha proporcionan una ruta escalable y eficiente en datos para alinear los modelos de visión-lenguaje con las preferencias humanas matizadas. Publicaremos nuestro modelo de razonamiento aquí: https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.
Proponemos un nuevo paradigma de diseño de prompts que desafía la sabiduría convencional en la creación de prompts para modelos de lenguaje de gran escala (LLM, por sus siglas en inglés). Mientras que la sabiduría convencional prioriza instrucciones cuidadosamente elaboradas y demostraciones para el aprendizaje en contexto (ICL, por sus siglas en inglés), demostramos que podar demostraciones aleatorias hasta convertirlas en lo que parece ser un "galimatías" incoherente puede mejorar notablemente el rendimiento en diversas tareas. Es destacable que este "galimatías" iguala o supera siempre las técnicas de optimización automática de prompts más avanzadas, logrando mejoras sustanciales independientemente de la alineación del LLM. Sin embargo, descubrir una estrategia de poda efectiva no es trivial, ya que los métodos de atribución existentes y los algoritmos de compresión de prompts no logran resultados robustos, y mucho menos la intuición humana. En este sentido, proponemos un marco de optimización de prompts auto-descubierto, PromptQuine, un marco de búsqueda evolutiva que automáticamente busca la estrategia de poda por sí mismo utilizando solo regímenes de bajo volumen de datos. Al igual que la complejidad emergente en la naturaleza—como la simbiosis y la autoorganización—que surge en respuesta a las limitaciones de recursos, nuestro marco evoluciona y refina prompts no convencionales pero altamente efectivos aprovechando únicamente los tokens presentes en el contexto. Demostramos su efectividad en tareas de clasificación, respuesta a preguntas de opción múltiple, generación y razonamiento matemático en diversos LLM, logrando además una eficiencia de tiempo de ejecución decente. Esperamos que nuestros hallazgos puedan guiar estudios mecanicistas sobre el aprendizaje en contexto y sirvan como un llamado a la acción para allanar el camino hacia algoritmos de búsqueda más abiertos y efectivos en la creación de prompts para LLM.
El ajuste fino de LLMs es intensivo tanto en términos computacionales como de memoria. Si bien los métodos de ajuste fino eficientes en parámetros, como QLoRA y DoRA, reducen el número de parámetros entrenables y disminuyen el uso de memoria, no reducen el costo computacional. En algunos casos, incluso pueden ralentizar el ajuste fino. En este artículo, presentamos SparseLoRA, un método que acelera el ajuste fino de LLMs mediante la esparcididad contextual. Proponemos un estimador de esparcididad SVD ligero y sin entrenamiento que selecciona dinámicamente un subconjunto disperso de pesos para el cálculo de la pérdida y el gradiente. Además, analizamos y abordamos sistemáticamente la sensibilidad a través de capas, tokens y pasos de entrenamiento. Nuestros resultados experimentales muestran que SparseLoRA reduce el costo computacional hasta 2.2 veces y logra una aceleración medida de hasta 1.6 veces, manteniendo la precisión en diversas tareas posteriores, incluyendo razonamiento de sentido común y aritmético, generación de código y seguimiento de instrucciones.
Las imágenes de profundidad capturadas por sensores de tiempo de vuelo (ToF) son propensas al ruido, lo que requiere un proceso de eliminación de ruido para aplicaciones posteriores confiables. Trabajos anteriores se centran en el procesamiento de fotogramas individuales o realizan procesamiento de múltiples fotogramas sin considerar las variaciones de profundidad en los píxeles correspondientes entre fotogramas, lo que conduce a una inconsistencia temporal y ambigüedad espacial no deseables. En este artículo, proponemos una novedosa red de eliminación de ruido de profundidad ToF que aprovecha la fusión de grafos invariante al movimiento para mejorar simultáneamente la estabilidad temporal y la nitidez espacial. Específicamente, a pesar de los cambios de profundidad entre fotogramas, las estructuras de grafos exhiben autosimilitud temporal, lo que permite una atención geométrica entre fotogramas para la fusión de grafos. Luego, al incorporar un previo de suavidad de imagen en el grafo fusionado y un término de fidelidad de datos derivado de la distribución de ruido ToF, formulamos un problema de máxima a posteriori para la eliminación de ruido ToF. Finalmente, la solución se descompone en filtros iterativos cuyos pesos se aprenden de manera adaptativa a partir de la atención geométrica informada por el grafo, produciendo una red de alto rendimiento pero interpretable. Los resultados experimentales demuestran que el esquema propuesto alcanza un rendimiento de vanguardia en términos de precisión y consistencia en el conjunto de datos sintético DVToF y exhibe una generalización robusta en el conjunto de datos real Kinectv2. El código fuente será publicado en https://github.com/davidweidawang/GIGA-ToF{https://github.com/davidweidawang/GIGA-ToF}.
La capacidad de procesar información de múltiples modalidades y razonar a través de ella paso a paso sigue siendo un desafío crítico en el avance de la inteligencia artificial. Sin embargo, los benchmarks de razonamiento existentes se centran en el razonamiento basado únicamente en texto o emplean preguntas multimodales que pueden responderse recuperando directamente información de una modalidad no textual. Por lo tanto, el razonamiento complejo sigue siendo poco comprendido en dominios multimodales. Aquí presentamos MARBLE, un benchmark de razonamiento multimodal desafiante diseñado para examinar la capacidad de los modelos de lenguaje multimodal (MLLMs) para razonar cuidadosamente paso a paso a través de problemas y entornos multimodales complejos. MARBLE está compuesto por dos tareas altamente desafiantes, M-Portal y M-Cube, que requieren la elaboración y comprensión de planes de múltiples pasos bajo restricciones espaciales, visuales y físicas. Encontramos que los MLLMs actuales tienen un rendimiento deficiente en MARBLE: los 12 modelos avanzados obtienen un rendimiento cercano al azar en M-Portal y un 0% de precisión en M-Cube. Solo en subtareas simplificadas algunos modelos superan la línea base aleatoria, lo que indica que el razonamiento complejo sigue siendo un desafío para los MLLMs existentes. Además, demostramos que la percepción sigue siendo un cuello de botella, donde los MLLMs ocasionalmente no logran extraer información de las entradas visuales. Al arrojar luz sobre las limitaciones de los MLLMs, esperamos que MARBLE impulse el desarrollo de la próxima generación de modelos con la capacidad de razonar y planificar a través de muchos pasos de razonamiento multimodal.
Los recientes avances en los modelos de lenguaje de gran escala (LLMs) han demostrado que las técnicas de computación en tiempo de inferencia, como el escalado en tiempo de decodificación y la autorrefinación, pueden mejorar significativamente las capacidades de razonamiento sin depender de conocimiento externo. Un factor clave de este éxito es la aparición de comportamientos de autocorrección y autoverificación, a menudo inducidos mediante aprendizaje por refuerzo (RL). En este artículo, investigamos si estas técnicas en tiempo de inferencia se extienden eficazmente a los modelos de visión y lenguaje (VLMs), particularmente aquellos entrenados con RL. Descubrimos que, aunque estrategias de decodificación como la votación por mayoría y la selección del mejor de N con autoverificación mejoran el rendimiento de razonamiento de los VLMs, los métodos basados en generación, como el primero, logran ganancias significativamente mayores en comparación con los métodos basados en verificación, como el segundo. Además, el comportamiento de autocorrección frecuentemente asociado con modelos ajustados con RL, como el momento "aha", no conduce a mejoras medibles. Mediante una extensa experimentación dentro del marco de escalado en tiempo de inferencia, identificamos una causa fundamental clave: los VLMs entrenados con RL aún carecen de capacidades robustas de autoverificación en ambas modalidades, visual y textual.
Los agentes basados en Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado potencial para realizar tareas sofisticadas de ingeniería de software de manera autónoma. Además, se ha avanzado en el desarrollo de agentes capaces de llevar a cabo partes del proceso de investigación en aprendizaje automático y ciencias naturales. Argumentamos que la extensión de investigación y su implementación es una capacidad crítica para estos sistemas, y presentamos RExBench para apoyar la evaluación de esta capacidad. RExBench es un benchmark que consta de 12 tareas realistas de implementación de experimentos de investigación, diseñadas para investigar hipótesis que no han sido implementadas previamente. Cada tarea se configura como una extensión de un artículo de investigación y un código base existentes, acompañados de instrucciones escritas por expertos en el dominio. RExBench es robusto frente a la contaminación de datos y cuenta con una infraestructura de evaluación automática que ejecuta las salidas de los agentes para determinar si se cumplen los criterios de éxito. Utilizamos este benchmark para evaluar nueve agentes LLM implementados con tres frameworks diferentes: aider, Claude Code y OpenHands. Encontramos que todos los agentes evaluados no logran implementar de manera autónoma la mayoría de las extensiones. Aunque la tasa de éxito mejora con pistas adicionales escritas por humanos, el mejor rendimiento en este escenario se mantiene por debajo del 40%. Esto indica que los agentes actuales aún no están preparados para manejar tareas realistas de extensión de investigación sin una guía humana sustancial.
Aunque la generación de audio a partir de video de extremo a extremo ha mejorado significativamente, producir audio de alta fidelidad que capture auténticamente los matices del contenido visual sigue siendo un desafío. Al igual que los profesionales de las industrias creativas, esta generación requiere un razonamiento sofisticado sobre aspectos como la dinámica visual, los entornos acústicos y las relaciones temporales. Presentamos ThinkSound, un marco novedoso que aprovecha el razonamiento en cadena de pensamiento (Chain-of-Thought, CoT) para permitir la generación y edición de audio interactiva y paso a paso para videos. Nuestro enfoque descompone el proceso en tres etapas complementarias: generación de foley básico que crea paisajes sonoros semánticamente coherentes, refinamiento interactivo centrado en objetos mediante interacciones precisas del usuario, y edición dirigida guiada por instrucciones en lenguaje natural. En cada etapa, un modelo de lenguaje multimodal genera un razonamiento CoT contextualmente alineado que guía a un modelo unificado de base de audio. Además, presentamos AudioCoT, un conjunto de datos integral con anotaciones estructuradas de razonamiento que establece conexiones entre el contenido visual, las descripciones textuales y la síntesis de sonido. Los experimentos demuestran que ThinkSound logra un rendimiento de vanguardia en la generación de audio a partir de video, tanto en métricas de audio como en métricas de CoT, y destaca en el benchmark de Movie Gen Audio fuera de distribución. La página de demostración está disponible en https://ThinkSound-Project.github.io.
La investigación urbana abarca una amplia gama de escenarios y tareas que requieren la comprensión de datos multimodales. Los métodos actuales suelen centrarse en tipos de datos específicos y carecen de un marco unificado en el ámbito urbano para procesarlos de manera integral. El reciente éxito de los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) presenta una oportunidad prometedora para superar esta limitación. En este artículo, presentamos UrbanLLaVA, un modelo de lenguaje multimodal de gran escala diseñado para procesar simultáneamente estos cuatro tipos de datos y lograr un rendimiento sólido en diversas tareas urbanas en comparación con los MLLMs generales. En UrbanLLaVA, primero recopilamos un conjunto de datos de instrucciones urbanas diverso que abarca tanto datos urbanos unimodales como multimodales, desde la vista local hasta la vista global del entorno urbano. Además, proponemos un marco de entrenamiento multietapa que desacopla la mejora del razonamiento espacial del aprendizaje de conocimientos del dominio, mejorando así la compatibilidad y el rendimiento de UrbanLLaVA en diversas tareas urbanas. Finalmente, también extendemos los puntos de referencia existentes para la investigación urbana con el fin de evaluar el rendimiento de los MLLMs en una amplia gama de tareas urbanas. Los resultados experimentales de tres ciudades demuestran que UrbanLLaVA supera a los MLLMs de código abierto y propietarios tanto en tareas unimodales como en tareas multimodales complejas, y muestra capacidades robustas de generalización entre ciudades. Los códigos fuente y los datos están disponibles abiertamente para la comunidad de investigación en https://github.com/tsinghua-fib-lab/UrbanLLaVA.
Los modelos del mundo se han convertido en herramientas indispensables para la inteligencia encarnada, funcionando como simuladores potentes capaces de generar videos robóticos realistas mientras abordan los desafíos críticos de la escasez de datos. Sin embargo, los modelos del mundo encarnados actuales muestran una conciencia física limitada, particularmente en el modelado de geometría 3D y dinámicas de movimiento, lo que resulta en una generación de videos poco realistas para escenarios robóticos con alto contacto. En este artículo, presentamos RoboScape, un modelo del mundo unificado informado por la física que aprende conjuntamente la generación de videos RGB y el conocimiento físico dentro de un marco integrado. Introducimos dos tareas clave de entrenamiento conjunto informadas por la física: la predicción de profundidad temporal, que mejora la consistencia geométrica 3D en la renderización de videos, y el aprendizaje de dinámicas de puntos clave, que codifica implícitamente propiedades físicas (por ejemplo, forma del objeto y características del material) mientras mejora el modelado de movimientos complejos. Experimentos extensos demuestran que RoboScape genera videos con una fidelidad visual superior y plausibilidad física en diversos escenarios robóticos. Además, validamos su utilidad práctica a través de aplicaciones posteriores, incluyendo el entrenamiento de políticas robóticas con datos generados y la evaluación de políticas. Nuestro trabajo proporciona nuevas perspectivas para construir modelos del mundo eficientes informados por la física, avanzando así la investigación en inteligencia encarnada. El código está disponible en: https://github.com/tsinghua-fib-lab/RoboScape.
La integración de herramientas externas mediante llamadas a funciones es esencial para aplicaciones prácticas de modelos de lenguaje, sin embargo, la mayoría de los modelos multilingües carecen de capacidades confiables de uso de herramientas en idiomas distintos al inglés. Incluso los modelos multilingües más avanzados tienen dificultades para determinar cuándo usar herramientas y generar las salidas estructuradas necesarias para las llamadas a funciones, mostrando a menudo confusión lingüística cuando se les solicita en idiomas con menos recursos. Este trabajo presenta una metodología para adaptar modelos de lenguaje existentes y permitir un uso robusto de herramientas en cualquier idioma objetivo, utilizando el búlgaro como caso de estudio. El enfoque implica el entrenamiento continuo de la serie de modelos BgGPT (2.6B, 9B, 27B parámetros) en un nuevo conjunto de datos bilingüe de 10,035 ejemplos de llamadas a funciones diseñado para soportar protocolos estandarizados como MCP (Protocolo de Contexto del Modelo). La investigación introduce TUCAN (Asistente Navegador con Capacidad de Uso de Herramientas), que logra una mejora de hasta el 28.75% en la precisión de las llamadas a funciones en comparación con los modelos base, mientras preserva la comprensión fundamental del lenguaje, según se verifica en benchmarks establecidos para el búlgaro. Más allá de las ganancias en precisión, los modelos TUCAN demuestran un formato de respuesta listo para producción con llamadas a funciones limpias y analizables, en contraste con las salidas verbosas e inconsistentes de los modelos base. Los modelos, el marco de evaluación y el conjunto de datos se publican para permitir la replicación en otros idiomas. Este trabajo demuestra un enfoque práctico para extender las capacidades aumentadas con herramientas más allá de los sistemas centrados en el inglés.
El ajuste fino de modelos de lenguaje preentrenados (LLMs, por sus siglas en inglés) ha demostrado ser una estrategia efectiva para alcanzar un rendimiento de vanguardia en tareas específicas, como la traducción automática. Sin embargo, este proceso de adaptación a menudo implica sacrificar capacidades de propósito general, como el razonamiento conversacional y la capacidad de seguir instrucciones, lo que limita la utilidad del sistema en aplicaciones del mundo real que requieren una combinación de habilidades. En este artículo, presentamos Tower+, un conjunto de modelos diseñados para ofrecer un rendimiento sólido tanto en traducción como en capacidades multilingües de propósito general. Logramos una frontera de Pareto entre la especialización en traducción y las capacidades multilingües de propósito general mediante la introducción de una novedosa receta de entrenamiento que se basa en Tower (Alves et al., 2024), que incluye preentrenamiento continuo, ajuste fino supervisado, optimización de preferencias y aprendizaje por refuerzo con recompensas verificables. En cada etapa del entrenamiento, generamos y seleccionamos cuidadosamente datos para fortalecer el rendimiento en traducción, así como en tareas de propósito general que involucran generación de código, resolución de problemas matemáticos y seguimiento de instrucciones generales. Desarrollamos modelos a múltiples escalas: 2B, 9B y 72B. Nuestros modelos más pequeños a menudo superan a LLMs de propósito general más grandes, tanto de código abierto como propietarios (por ejemplo, Llama 3.3 70B, GPT-4o). Nuestro modelo más grande ofrece un rendimiento de traducción de clase superior para lenguajes de alto recurso y resultados destacados en evaluaciones multilingües de Arena Hard y en IF-MT, un punto de referencia que introducimos para evaluar tanto la traducción como la capacidad de seguir instrucciones. Nuestros hallazgos destacan que es posible rivalizar con los modelos de vanguardia en capacidades generales, mientras se optimiza para dominios empresariales específicos, como la traducción y la localización.
En este artículo, presentamos una técnica simple y sin necesidad de entrenamiento para mejorar el rendimiento de los métodos de decodificación especulativa (SpD) basados en modelos de borrador (drafter) que incorporan una cabecera de modelado del lenguaje (LM head) durante el proceso de generación de borradores. La decodificación especulativa basada en modelos de borrador aprovecha uno o más modelos de lenguaje más pequeños, conocidos como drafters o modelos de borrador, para muestrear una secuencia o árbol de borrador compuesto por múltiples tokens, seguido de una verificación por parte de un modelo base de lenguaje grande (LLM), el modelo objetivo, que acepta un subconjunto como su generación válida. Dado que generalmente se considera que la decodificación especulativa requiere una correspondencia uno a uno entre los vocabularios del modelo objetivo y el modelo de borrador, ha sido natural compartir el vocabulario entre ellos, o incluso compartir la LM head, como en EAGLE o Medusa. Primero identificamos que este esquema de muestreo de tokens de borrador contiene inherentemente una sobrecarga de inferencia innecesaria en la generación de borradores, especialmente para algunos LLMs objetivo con vocabularios muy grandes. Luego, proponemos una técnica simple, VocabTrim, para mitigar la sobrecarga en la generación de borradores y mejorar la velocidad de generación en entornos limitados por memoria. VocabTrim reconstruye la LM head del modelo de borrador para contener solo un conjunto limitado de tokens, seleccionados entre los más frecuentemente muestreados del vocabulario del modelo objetivo. Si bien limitar el vocabulario en la generación de borradores degrada ligeramente la tasa de aceptación, reduce significativamente la latencia en el proceso limitado por memoria, lo que es común en dispositivos de borde, lo que resulta en una mayor aceleración en entornos limitados por memoria (MBSU). Demostramos que nuestro método puede aumentar la aceleración en entornos limitados por memoria para los modelos Llama-3 en Spec-Bench, específicamente en un 16% para Llama-3.2-3B-Instruct.
Las metalentes ofrecen un potencial significativo para la imagen computacional ultracompacta, pero enfrentan desafíos debido a la degradación óptica compleja y las dificultades de restauración computacional. Los métodos existentes suelen depender de una calibración óptica precisa o de grandes conjuntos de datos emparejados, lo cual no es trivial para sistemas de imagen del mundo real. Además, la falta de control sobre el proceso de inferencia a menudo resulta en artefactos alucinados no deseados. Introducimos Degradation-Modeled Multipath Diffusion para la fotografía con metalentes sintonizables, aprovechando poderosos priors de imágenes naturales de modelos preentrenados en lugar de grandes conjuntos de datos. Nuestro marco utiliza rutas de prompts positivos, neutros y negativos para equilibrar la generación de detalles de alta frecuencia, la fidelidad estructural y la supresión de la degradación específica de las metalentes, junto con una pseudo-aumentación de datos. Un decodificador sintonizable permite compensaciones controladas entre fidelidad y calidad perceptual. Adicionalmente, un módulo de atención consciente de degradación espacialmente variable (SVDA) modela de manera adaptativa la degradación óptica compleja e inducida por el sensor. Finalmente, diseñamos y construimos una MetaCámara de escala milimétrica para validación en el mundo real. Resultados extensos muestran que nuestro enfoque supera a los métodos más avanzados, logrando una reconstrucción de imágenes de alta fidelidad y nitidez. Más materiales: https://dmdiff.github.io/.