Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Phi-4-Mini y Phi-4-Multimodal, modelos compactos pero altamente capaces en lenguaje y multimodalidad. Phi-4-Mini es un modelo de lenguaje de 3.800 millones de parámetros entrenado con datos web de alta calidad y datos sintéticos, superando significativamente a modelos recientes de código abierto de tamaño similar y equiparando el rendimiento de modelos del doble de su tamaño en tareas de matemáticas y programación que requieren razonamiento complejo. Este logro se debe a una receta cuidadosamente curada de datos sintéticos que enfatiza conjuntos de datos de alta calidad en matemáticas y programación. En comparación con su predecesor, Phi-3.5-Mini, Phi-4-Mini presenta un tamaño de vocabulario ampliado a 200.000 tokens para apoyar mejor aplicaciones multilingües, así como atención de consulta grupal para una generación más eficiente de secuencias largas. Phi-4-Multimodal es un modelo multimodal que integra modalidades de entrada de texto, visión y habla/audio en un solo modelo. Su novedoso enfoque de extensión de modalidades aprovecha adaptadores LoRA y enrutadores específicos por modalidad para permitir múltiples modos de inferencia que combinan varias modalidades sin interferencias. Por ejemplo, ahora ocupa el primer lugar en el ranking OpenASR hasta la fecha, aunque el componente LoRA de la modalidad de habla/audio tiene solo 460 millones de parámetros. Phi-4-Multimodal soporta escenarios que involucran entradas de (visión + lenguaje), (visión + habla) y (habla/audio), superando a modelos más grandes de visión-lenguaje y habla-lenguaje en una amplia gama de tareas. Además, experimentamos con un entrenamiento adicional de Phi-4-Mini para mejorar sus capacidades de razonamiento. A pesar de su tamaño compacto de 3.800 millones de parámetros, esta versión experimental logra un rendimiento de razonamiento comparable o superior a modelos significativamente más grandes, incluyendo DeepSeek-R1-Distill-Qwen-7B y DeepSeek-R1-Distill-Llama-8B.
El Ajuste Fino por Refuerzo (Reinforcement Fine-Tuning, RFT) en modelos de razonamiento a gran escala como OpenAI o1 aprende a partir de retroalimentación sobre sus respuestas, lo que resulta especialmente útil en aplicaciones donde los datos para ajuste fino son escasos. Trabajos recientes de código abierto, como DeepSeek-R1, demuestran que el aprendizaje por refuerzo con recompensas verificables es una dirección clave para reproducir o1. Aunque el modelo de estilo R1 ha demostrado éxito en modelos de lenguaje, su aplicación en dominios multimodales sigue siendo poco explorada. Este trabajo introduce el Ajuste Fino por Refuerzo Visual (Visual-RFT), que amplía las áreas de aplicación del RFT en tareas visuales. Específicamente, Visual-RFT primero utiliza Modelos Grandes de Visión y Lenguaje (Large Vision-Language Models, LVLMs) para generar múltiples respuestas que contienen tokens de razonamiento y respuestas finales para cada entrada, y luego emplea nuestras funciones de recompensa verificable de percepción visual propuestas para actualizar el modelo mediante algoritmos de optimización de políticas, como la Optimización de Política Relativa en Grupo (Group Relative Policy Optimization, GRPO). Diseñamos diferentes funciones de recompensa verificable para diversas tareas de percepción, como la recompensa de Intersección sobre Unión (Intersection over Union, IoU) para la detección de objetos. Los resultados experimentales en clasificación de imágenes de grano fino, detección de objetos con pocos ejemplos, razonamiento fundamentado y detección de objetos con vocabulario abierto muestran el rendimiento competitivo y la capacidad avanzada de generalización de Visual-RFT en comparación con el Ajuste Fino Supervisado (Supervised Fine-tuning, SFT). Por ejemplo, Visual-RFT mejora la precisión en un 24.3% sobre la línea base en clasificación de imágenes de grano fino con un solo ejemplo y alrededor de 100 muestras. En detección de objetos con pocos ejemplos, Visual-RFT también supera a la línea base en 21.9 en la configuración de dos ejemplos de COCO y en 15.4 en LVIS. Nuestro Visual-RFT representa un cambio de paradigma en el ajuste fino de LVLMs, ofreciendo un enfoque eficiente en datos y guiado por recompensas que mejora el razonamiento y la adaptabilidad para tareas específicas de dominio.
Los Campos de Radiancia Neural (NeRF) y el Splatting Gaussiano 3D han revolucionado la reconstrucción 3D y la tarea de síntesis de nuevas vistas. Sin embargo, lograr renderizados fotorrealistas desde perspectivas extremadamente novedosas sigue siendo un desafío, ya que persisten artefactos en las representaciones. En este trabajo, presentamos Difix3D+, una novedosa pipeline diseñada para mejorar la reconstrucción 3D y la síntesis de nuevas vistas mediante modelos de difusión de un solo paso. En el núcleo de nuestro enfoque se encuentra Difix, un modelo de difusión de imágenes de un solo paso entrenado para mejorar y eliminar artefactos en las vistas novedosas renderizadas causados por regiones subconstreñidas de la representación 3D. Difix desempeña dos roles críticos en nuestra pipeline. Primero, se utiliza durante la fase de reconstrucción para limpiar las vistas pseudo-entrenadas que se renderizan a partir de la reconstrucción y luego se destilan de nuevo en 3D. Esto mejora significativamente las regiones subconstreñidas y aumenta la calidad general de la representación 3D. Más importante aún, Difix también actúa como un potenciador neuronal durante la inferencia, eliminando eficazmente los artefactos residuales que surgen de la supervisión 3D imperfecta y la capacidad limitada de los modelos de reconstrucción actuales. Difix3D+ es una solución general, un único modelo compatible con representaciones tanto de NeRF como de 3DGS, y logra una mejora promedio de 2 veces en la puntuación FID sobre las líneas base mientras mantiene la consistencia 3D.
La inferencia en tiempo de prueba ha surgido como un paradigma poderoso para permitir que los modelos de lenguaje "piensen" más tiempo y con mayor cuidado sobre desafíos complejos, de manera similar a expertos humanos habilidosos. Si bien el aprendizaje por refuerzo (RL) puede impulsar la automejora en modelos de lenguaje para tareas verificables, algunos modelos muestran avances sustanciales mientras que otros rápidamente se estancan. Por ejemplo, encontramos que Qwen-2.5-3B supera ampliamente a Llama-3.2-3B bajo un entrenamiento de RL idéntico para el juego de Countdown. Esta discrepancia plantea una pregunta crítica: ¿qué propiedades intrínsecas permiten una automejora efectiva? Introducimos un marco para investigar esta pregunta analizando cuatro comportamientos cognitivos clave —verificación, retroceso, establecimiento de subobjetivos y encadenamiento hacia atrás— que tanto los expertos humanos en resolución de problemas como los modelos de lenguaje exitosos emplean. Nuestro estudio revela que Qwen exhibe naturalmente estos comportamientos de razonamiento, mientras que Llama inicialmente carece de ellos. En experimentación sistemática con conjuntos de datos conductuales controlados, encontramos que preparar a Llama con ejemplos que contienen estos comportamientos de razonamiento permite mejoras sustanciales durante el RL, igualando o superando el rendimiento de Qwen. Es importante destacar que la presencia de comportamientos de razonamiento, más que la corrección de las respuestas, resulta ser el factor crítico —los modelos preparados con soluciones incorrectas que contienen patrones de razonamiento adecuados logran un rendimiento comparable a aquellos entrenados con soluciones correctas. Finalmente, aprovechando un preentrenamiento continuo con datos de OpenWebMath, filtrados para amplificar los comportamientos de razonamiento, permite que el modelo Llama iguale la trayectoria de automejora de Qwen. Nuestros hallazgos establecen una relación fundamental entre los comportamientos de razonamiento iniciales y la capacidad de mejora, explicando por qué algunos modelos de lenguaje utilizan efectivamente computación adicional mientras que otros se estancan.
La generación de secuencias ultra largas con modelos de lenguaje de gran escala (LLMs) se ha vuelto cada vez más crucial, pero sigue siendo una tarea altamente intensiva en tiempo, especialmente para secuencias de hasta 100K tokens. Si bien existen métodos tradicionales de decodificación especulativa, simplemente extender sus límites de generación no acelera el proceso y puede ser perjudicial. A través de un análisis en profundidad, identificamos tres desafíos principales que obstaculizan la generación eficiente: la recarga frecuente del modelo, la gestión dinámica de claves-valores (KV) y la generación repetitiva. Para abordar estos problemas, presentamos TOKENSWIFT, un marco novedoso diseñado para acelerar sustancialmente el proceso de generación de secuencias ultra largas mientras se mantiene la calidad inherente del modelo objetivo. Los resultados experimentales demuestran que TOKENSWIFT logra una aceleración de más de 3 veces en modelos de diversas escalas (1.5B, 7B, 8B, 14B) y arquitecturas (MHA, GQA). Esta aceleración se traduce en horas de ahorro de tiempo para la generación de secuencias ultra largas, estableciendo a TOKENSWIFT como una solución escalable y efectiva a longitudes sin precedentes. El código se puede encontrar en https://github.com/bigai-nlco/TokenSwift.
Los recientes avances en la generación de música han captado una atención significativa, aunque los enfoques existentes enfrentan limitaciones críticas. Algunos modelos generativos actuales solo pueden sintetizar la pista vocal o la pista de acompañamiento. Si bien algunos modelos pueden generar voces y acompañamientos combinados, generalmente dependen de arquitecturas en cascada de múltiples etapas meticulosamente diseñadas y pipelines de datos intrincados, lo que dificulta su escalabilidad. Además, la mayoría de los sistemas están restringidos a generar segmentos musicales cortos en lugar de canciones completas. Asimismo, los métodos basados en modelos de lenguaje ampliamente utilizados sufren de velocidades de inferencia lentas. Para abordar estos desafíos, proponemos DiffRhythm, el primer modelo de generación de canciones basado en difusión latente capaz de sintetizar canciones completas con voces y acompañamientos de hasta 4m45s en solo diez segundos, manteniendo una alta musicalidad e inteligibilidad. A pesar de sus capacidades notables, DiffRhythm está diseñado para ser simple y elegante: elimina la necesidad de una preparación de datos compleja, emplea una estructura de modelo directa y solo requiere letras y un indicador de estilo durante la inferencia. Además, su estructura no autoregresiva garantiza velocidades de inferencia rápidas. Esta simplicidad asegura la escalabilidad de DiffRhythm. Además, publicamos el código de entrenamiento completo junto con el modelo preentrenado en datos a gran escala para promover la reproducibilidad y fomentar investigaciones futuras.
Recientemente, los sistemas de recomendación basados en recuperación generativa han surgido como un paradigma prometedor. Sin embargo, la mayoría de los sistemas de recomendación modernos adoptan una estrategia de recuperación y clasificación, donde el modelo generativo funciona únicamente como un selector durante la etapa de recuperación. En este artículo, proponemos OneRec, que reemplaza el marco de aprendizaje en cascada con un modelo generativo unificado. Hasta donde sabemos, este es el primer modelo generativo de extremo a extremo que supera significativamente a los sistemas de recomendación complejos y bien diseñados actuales en escenarios del mundo real. Específicamente, OneRec incluye: 1) una estructura de codificador-decodificador, que codifica las secuencias de comportamiento histórico del usuario y decodifica gradualmente los videos que podrían interesar al usuario. Adoptamos una mezcla dispersa de expertos (MoE) para escalar la capacidad del modelo sin aumentar proporcionalmente los FLOPs computacionales. 2) un enfoque de generación por sesión. En contraste con la predicción tradicional del siguiente ítem, proponemos una generación por sesión, que es más elegante y contextualmente coherente que la generación punto por punto que depende de reglas heurísticas para combinar adecuadamente los resultados generados. 3) un módulo de Alineación de Preferencias Iterativa combinado con Optimización Directa de Preferencias (DPO) para mejorar la calidad de los resultados generados. A diferencia del DPO en PLN, un sistema de recomendación típicamente tiene solo una oportunidad para mostrar resultados por cada solicitud de navegación del usuario, lo que hace imposible obtener muestras positivas y negativas simultáneamente. Para abordar esta limitación, diseñamos un modelo de recompensa para simular la generación del usuario y personalizar la estrategia de muestreo. Experimentos extensivos han demostrado que un número limitado de muestras de DPO puede alinear las preferencias de interés del usuario y mejorar significativamente la calidad de los resultados generados. Implementamos OneRec en la escena principal de Kuaishou, logrando un aumento del 1.6% en el tiempo de visualización, lo que representa una mejora sustancial.
La estimación de la incertidumbre es crucial para evaluar los Modelos de Lenguaje de Gran Escala (LLMs), especialmente en dominios de alto riesgo donde respuestas incorrectas tienen consecuencias significativas. Numerosos enfoques abordan este problema, aunque se centran en un tipo específico de incertidumbre, ignorando otros. Investigamos qué estimaciones, específicamente la entropía a nivel de token y el modelo como juez (MASJ), serían efectivas para tareas de respuesta a preguntas de opción múltiple en diferentes temas. Nuestros experimentos consideran tres LLMs: Phi-4, Mistral y Qwen, de distintos tamaños que van desde 1.5B hasta 72B, y 14 temas. Mientras que MASJ tiene un rendimiento similar a un predictor de error aleatorio, la entropía de la respuesta predice el error del modelo en dominios dependientes del conocimiento y sirve como un indicador efectivo de la dificultad de la pregunta: para biología, el ROC AUC es 0.73. Esta correlación desaparece en dominios dependientes del razonamiento: para preguntas de matemáticas, el ROC-AUC es 0.55. Más fundamentalmente, descubrimos que la medida de entropía requiere una cantidad de razonamiento. Por lo tanto, la entropía relacionada con la incertidumbre de los datos debería integrarse en los marcos de estimación de incertidumbre, mientras que MASJ necesita refinamiento. Además, las muestras existentes de MMLU-Pro están sesgadas y deberían equilibrar la cantidad de razonamiento requerida para diferentes subdominios, con el fin de proporcionar una evaluación más justa del rendimiento de los LLMs.
Los Transformers con modelado recurrente lineal ofrecen entrenamiento en tiempo lineal e inferencia con memoria constante. A pesar de su eficiencia y rendimiento demostrados, el preentrenamiento de estas arquitecturas no estándar desde cero sigue siendo costoso y arriesgado. La linealización de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) transforma modelos preentrenados estándar en estructuras recurrentes lineales, permitiendo un despliegue más eficiente. Sin embargo, los métodos actuales de linealización suelen introducir módulos adicionales de mapeo de características que requieren un ajuste fino extenso y pasan por alto los mecanismos de compuerta utilizados en los modelos recurrentes lineales de última generación. Para abordar estos problemas, este artículo presenta Liger, abreviatura de Linealización de LLMs a estructuras recurrentes con compuertas. Liger es un enfoque novedoso para convertir LLMs preentrenados en modelos recurrentes lineales con compuertas sin agregar parámetros adicionales. Reutiliza los pesos de la matriz clave preentrenada para construir diversos mecanismos de compuerta, facilitando la formación de varias estructuras recurrentes con compuertas mientras evita la necesidad de entrenar componentes adicionales desde cero. Utilizando un ajuste fino ligero con Adaptación de Bajo Rango (LoRA, por sus siglas en inglés), Liger restaura el rendimiento de los modelos recurrentes lineales con compuertas para igualar el de los LLMs originales. Además, introducimos Liger Attention, un mecanismo de atención híbrida intra-capa, que recupera significativamente el 93\% del LLM basado en Transformer con un 0.02\% de tokens de preentrenamiento durante el proceso de linealización, logrando resultados competitivos en múltiples benchmarks, como se ha validado en modelos que van desde 1B hasta 8B parámetros. El código está disponible en https://github.com/OpenSparseLLMs/Linearization.
Los modelos de difusión han logrado un gran éxito en la generación de imágenes 2D. Sin embargo, la calidad y generalización en la generación de contenido 3D siguen siendo limitadas. Los métodos más avanzados suelen requerir grandes conjuntos de activos 3D para el entrenamiento, los cuales son difíciles de recopilar. En este trabajo, presentamos Kiss3DGen (Keep It Simple and Straightforward in 3D Generation), un marco eficiente para generar, editar y mejorar objetos 3D al reutilizar un modelo de difusión de imágenes 2D bien entrenado para la generación 3D. Específicamente, ajustamos un modelo de difusión para generar "Imágenes de Paquete 3D", una representación en mosaico compuesta por imágenes multivista y sus mapas normales correspondientes. Los mapas normales se utilizan luego para reconstruir una malla 3D, mientras que las imágenes multivista proporcionan el mapeo de texturas, resultando en un modelo 3D completo. Este método simple transforma efectivamente el problema de generación 3D en una tarea de generación de imágenes 2D, maximizando la utilización del conocimiento en modelos de difusión preentrenados. Además, demostramos que nuestro modelo Kiss3DGen es compatible con diversas técnicas de modelos de difusión, permitiendo características avanzadas como edición 3D, mejora de mallas y texturas, entre otros. A través de extensos experimentos, demostramos la efectividad de nuestro enfoque, mostrando su capacidad para producir modelos 3D de alta calidad de manera eficiente.
Aumentar el cómputo durante la inferencia es un enfoque directo para mejorar la calidad de las respuestas en los Modelos de Lenguaje de Gran Escala (LLMs). Si bien el muestreo Best-of-N y la Autoconsistencia con votación mayoritaria son métodos simples y efectivos, requieren un número fijo de respuestas muestreadas para cada consulta, independientemente de su complejidad. Esto podría resultar en un cómputo desperdiciado para preguntas más simples y una exploración insuficiente para las más desafiantes. En este trabajo, argumentamos que la confianza del modelo en sus respuestas puede utilizarse para mejorar la eficiencia del escalado durante la inferencia. Desafortunadamente, se sabe que los LLMs tienden a ser sobreconfiados y proporcionan estimaciones de confianza poco fiables. Para abordar esta limitación, introducimos la Autocalibración, destilando la confianza derivada de la Autoconsistencia en el propio modelo. Esto permite una estimación confiable de la confianza durante la inferencia con un solo paso hacia adelante. Luego, diseñamos métodos eficientes de escalado durante la inferencia basados en confianza para manejar consultas de diversa dificultad, como la Detención Temprana para Best-of-N y la Autoconsistencia con confianza calibrada. Los experimentos en tres LLMs a través de seis conjuntos de datos demuestran la efectividad de nuestro enfoque. Específicamente, aplicar la Detención Temprana basada en confianza a Best-of-N mejora la precisión en MathQA de 81.0 a 83.6 con un presupuesto de muestreo de 16 respuestas, lo que indica la eficacia de la estrategia de muestreo basada en confianza durante la inferencia.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) exhiben un rendimiento excepcional en una amplia gama de tareas; sin embargo, su proceso de generación autoregresivo token por token limita significativamente la velocidad de inferencia. La decodificación especulativa presenta un marco prometedor de borrador-verificación que reduce la latencia de generación mientras mantiene la fidelidad de la distribución de salida. No obstante, el modelo de borrador introduce una sobrecarga computacional adicional, convirtiéndose en un cuello de botella de rendimiento y aumentando el tiempo hasta el primer token (TTFT, por sus siglas en inglés). Los enfoques anteriores para mitigar la sobrecarga del modelo de borrador se han basado principalmente en heurísticas y, en general, no han logrado igualar la calidad de los modelos de lenguaje de borrador. Para abordar estos desafíos, proponemos DuoDecoding, un enfoque novedoso que despliega estratégicamente los modelos de borrador y objetivo en la CPU y la GPU respectivamente, permitiendo la decodificación en paralelo mientras se preserva la calidad del borrador. Nuestro método incorpora un presupuesto óptimo de borrador consciente del hardware para minimizar los tiempos de inactividad y emplea la creación dinámica de borradores de múltiples secuencias para mejorar la calidad del borrador. Experimentos exhaustivos en siete tareas muestran que DuoDecoding logra una aceleración de hasta 2.61x en la latencia de generación, mientras reduce el TTFT al 83% del observado en la decodificación especulativa convencional. El código está disponible en https://github.com/KaiLv69/DuoDecoding.
El análisis de grandes conjuntos de datos requiere una ejecución ágil de consultas, pero ejecutar consultas SQL en conjuntos de datos masivos puede ser lento. Este artículo explora si la ejecución de consultas puede comenzar incluso antes de que el usuario termine de escribir, permitiendo que los resultados aparezcan casi al instante. Proponemos SpeQL, un sistema que aprovecha los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) para predecir consultas probables basándose en el esquema de la base de datos, las consultas previas del usuario y su consulta incompleta. Dado que la predicción exacta de consultas es inviable, SpeQL especula sobre consultas parciales de dos maneras: 1) predice la estructura de la consulta para compilar y planificar consultas con anticipación, y 2) precalcula tablas temporales más pequeñas que son mucho menores que la base de datos original, pero que aún se prevé contengan toda la información necesaria para responder a la consulta final del usuario. Además, SpeQL muestra continuamente los resultados de consultas y subconsultas especuladas en tiempo real, facilitando el análisis exploratorio. Un estudio de utilidad/usuario demostró que SpeQL mejoró el tiempo de finalización de tareas, y los participantes informaron que su visualización especulativa de resultados les ayudó a descubrir patrones en los datos más rápidamente. En el estudio, SpeQL redujo la latencia de las consultas del usuario hasta 289 veces y mantuvo un sobrecosto razonable, de 4$ por hora.
La selección de datos de entrenamiento de alta calidad a partir de un conjunto más amplio es un paso crucial al ajustar por instrucción modelos de lenguaje, ya que los conjuntos de datos cuidadosamente curados suelen producir modelos que superan a aquellos entrenados con conjuntos de datos mucho más grandes y ruidosos. Los enfoques automatizados de selección de datos para el ajuste por instrucción generalmente se prueban seleccionando conjuntos de datos pequeños (aproximadamente 10k muestras) de grupos reducidos (100-200k muestras). Sin embargo, los modelos populares ajustados por instrucción que se implementan suelen entrenarse con cientos de miles a millones de muestras, submuestreadas de conjuntos de datos aún más grandes. Presentamos un estudio sistemático de cómo los métodos de selección de datos escalan en estos escenarios, seleccionando hasta 2.5 millones de muestras de grupos de hasta 5.8 millones de muestras y evaluando en 7 tareas diversas. Mostramos que muchos métodos propuestos recientemente no superan la selección aleatoria en este contexto (mientras utilizan más recursos computacionales), e incluso disminuyen su rendimiento cuando tienen acceso a grupos más grandes de datos para seleccionar. Sin embargo, encontramos que una variante de selección de datos basada en representaciones (RDS+), que utiliza un agrupamiento ponderado de los estados ocultos de un modelo de lenguaje preentrenado, supera consistentemente métodos más complejos en todos los escenarios probados, además de ser más eficiente en términos computacionales. Nuestros hallazgos destacan que las propiedades de escalabilidad de los métodos de selección automatizados propuestos deberían examinarse más de cerca. Publicamos nuestro código, datos y modelos en https://github.com/hamishivi/automated-instruction-selection.
Las comunidades de contenido generado por usuarios (UGC), especialmente aquellas que presentan contenido multimodal, mejoran la experiencia del usuario al integrar información visual y textual en los resultados (o elementos). El desafío de mejorar las experiencias del usuario en sistemas complejos con servicios de búsqueda y recomendación (S&R) ha atraído una atención significativa tanto de la academia como de la industria en los últimos años. Sin embargo, la falta de conjuntos de datos de alta calidad ha limitado el progreso de la investigación en S&R multimodal. Para abordar la creciente necesidad de desarrollar mejores servicios de S&R, presentamos en este artículo un nuevo conjunto de datos de recuperación de información multimodal, denominado Qilin. Este conjunto de datos se recopiló de Xiaohongshu, una plataforma social popular con más de 300 millones de usuarios activos mensuales y una tasa de penetración de búsqueda promedio de más del 70%. A diferencia de los conjuntos de datos existentes, Qilin ofrece una colección exhaustiva de sesiones de usuario con resultados heterogéneos, como notas de imagen-texto, notas de video, notas comerciales y respuestas directas, lo que facilita el desarrollo de modelos avanzados de recuperación neuronal multimodal en diversos entornos de tareas. Para modelar mejor la satisfacción del usuario y apoyar el análisis de comportamientos heterogéneos, también recopilamos señales contextuales extensas a nivel de aplicación y comentarios genuinos de los usuarios. Cabe destacar que Qilin contiene respuestas favoritas de los usuarios y sus resultados referidos para solicitudes de búsqueda que activan el módulo de Respuesta Profunda a Consultas (DQA). Esto permite no solo el entrenamiento y evaluación de una canalización de Generación Aumentada por Recuperación (RAG), sino también la exploración de cómo dicho módulo afectaría el comportamiento de búsqueda de los usuarios. A través de análisis y experimentos exhaustivos, proporcionamos hallazgos e insights interesantes para seguir mejorando los sistemas de S&R. Esperamos que Qilin contribuya significativamente al avance de las plataformas de contenido multimodal con servicios de S&R en el futuro.
Los métodos existentes de mezcla de datos de preentrenamiento para modelos de lenguaje de gran escala (LLMs) suelen seguir una metodología basada en dominios, un proceso de arriba hacia abajo que primero determina los pesos de los dominios y luego realiza un muestreo uniforme de datos en cada dominio. Sin embargo, estos enfoques pasan por alto las superposiciones y similitudes significativas entre dominios, lo que impide controlar la diversidad global del conjunto de datos de entrenamiento construido. Además, el muestreo uniforme dentro de los dominios ignora las características específicas de cada muestra a nivel granular, lo que puede resultar en una distribución de datos subóptima. Para abordar estas limitaciones, proponemos un novedoso enfoque de mezcla de datos basado en muestras, fundamentado en un paradigma de abajo hacia arriba. Este método realiza un muestreo global entre dominios evaluando sistemáticamente la calidad y diversidad de cada muestra, determinando así dinámicamente la distribución óptima de dominios. Experimentos exhaustivos en múltiples tareas posteriores y evaluaciones de perplejidad demuestran que SampleMix supera a los métodos basados en dominios existentes. Al mismo tiempo, SampleMix requiere entre 1.4x y 2.1x más pasos de entrenamiento para alcanzar el rendimiento de los métodos de referencia, lo que resalta el potencial sustancial de SampleMix para optimizar los datos de preentrenamiento.
Los modelos generativos de texto a video convierten indicaciones textuales en contenido visual dinámico, ofreciendo aplicaciones de amplio alcance en producción cinematográfica, videojuegos y educación. Sin embargo, su rendimiento en el mundo real a menudo no cumple con las expectativas de los usuarios. Una razón clave es que estos modelos no han sido entrenados con videos relacionados con algunos temas que los usuarios desean crear. En este artículo, proponemos VideoUFO, el primer conjunto de datos de video específicamente curado para alinearse con el enfoque de los usuarios en escenarios del mundo real. Además, nuestro VideoUFO también presenta: (1) un solapamiento mínimo (0.29%) con conjuntos de datos de video existentes, y (2) videos buscados exclusivamente a través de la API oficial de YouTube bajo la licencia Creative Commons. Estos dos atributos brindan a los futuros investigadores mayor libertad para ampliar sus fuentes de entrenamiento. VideoUFO comprende más de 1.09 millones de clips de video, cada uno emparejado con una descripción breve y detallada. Específicamente, mediante clustering, primero identificamos 1,291 temas de interés para los usuarios a partir del conjunto de datos de indicaciones de texto a video a gran escala, VidProM. Luego, utilizamos estos temas para recuperar videos de YouTube, dividimos los videos recuperados en clips y generamos descripciones breves y detalladas para cada clip. Después de verificar los clips con los temas especificados, nos quedamos con aproximadamente 1.09 millones de clips de video. Nuestros experimentos revelan que (1) los 16 modelos actuales de texto a video no logran un rendimiento consistente en todos los temas de interés para los usuarios; y (2) un modelo simple entrenado en VideoUFO supera a otros en los temas con peor rendimiento. El conjunto de datos está disponible públicamente en https://huggingface.co/datasets/WenhaoWang/VideoUFO bajo la licencia CC BY 4.0.
Los Modelos de Lenguaje de Gran Escala (LLMs) han transformado la generación de código al combinar su excepcional comprensión del lenguaje natural y la sintaxis de programación, aumentando sustancialmente la productividad de los desarrolladores. Estos avances han impulsado numerosos esfuerzos para evaluar cuantitativamente sus capacidades de codificación. Sin embargo, desafíos persistentes, como la filtración de benchmarks, la disipación de datos y el acceso limitado a los sistemas, continúan dificultando una evaluación oportuna y precisa. Para abordar estas limitaciones, presentamos CodeArena, un marco de evaluación en línea diseñado para la generación de código con LLMs. La innovación clave es un mecanismo de evaluación colectiva, que recalibra dinámicamente las puntuaciones individuales de los modelos basándose en el rendimiento global de todos los modelos participantes, mitigando los sesgos en las puntuaciones causados por la filtración generalizada de benchmarks. Además, CodeArena garantiza el acceso abierto a todas las soluciones y casos de prueba enviados, y proporciona APIs compatibles con la automatización para agilizar el flujo de trabajo de evaluación de código. Nuestras principales contribuciones son: (1) un sistema de evaluación colectiva para una valoración imparcial, (2) un repositorio público de soluciones y casos de prueba, y (3) APIs listas para la automatización que permiten una integración sin problemas.
Los métodos existentes de generación automática de audio tienen dificultades para producir programas de audio similares a podcasts de manera efectiva. Los principales desafíos radican en la generación de contenido en profundidad y la producción de voces apropiadas y expresivas. Este artículo propone PodAgent, un marco integral para la creación de programas de audio. PodAgent 1) genera contenido informativo de discusión de temas mediante el diseño de un sistema de colaboración multiagente Host-Invitado-Escritor, 2) construye un banco de voces para una adecuada asignación de roles vocales y 3) utiliza un método de síntesis de voz mejorado por LLM para generar habla conversacional expresiva. Dada la ausencia de criterios de evaluación estandarizados para la generación de audio similar a podcasts, desarrollamos pautas de evaluación integrales para valorar efectivamente el rendimiento del modelo. Los resultados experimentales demuestran la efectividad de PodAgent, superando significativamente la generación directa con GPT-4 en el contenido de diálogo de discusión de temas, alcanzando un 87.4% de precisión en la asignación de voces y produciendo habla más expresiva mediante la síntesis guiada por LLM. Página de demostración: https://podcast-agent.github.io/demo/. Código fuente: https://github.com/yujxx/PodAgent.
Este artículo investiga el potencial de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para desarrollar lenguajes tonales privados destinados a la comunicación máquina a máquina (M2M). Inspirados por la criptofasia en gemelos humanos (que afecta hasta el 50% de los nacimientos de gemelos) y por lenguajes tonales naturales como el mandarín y el vietnamita, implementamos un sistema preciso de mapeo de caracteres a frecuencias que codifica el conjunto completo de caracteres ASCII (32-126) utilizando semitonos musicales. A cada carácter se le asigna una frecuencia única, creando una progresión logarítmica que comienza con el espacio (220 Hz) y termina con la tilde (50.175,42 Hz). Esto abarca aproximadamente 7,9 octavas, con los caracteres más altos mapeados deliberadamente a frecuencias ultrasónicas más allá del umbral de percepción humana (>20 kHz). Nuestro prototipo de software implementado demuestra esta codificación mediante visualización, reproducción auditiva y notación musical ABC, permitiendo el análisis de la densidad de información y la velocidad de transmisión. Las pruebas revelan que la codificación tonal puede alcanzar tasas de información que superan el habla humana mientras opera parcialmente fuera de los límites de percepción humana. Este trabajo responde directamente a las preocupaciones sobre el desarrollo catastrófico de lenguajes privados por parte de los sistemas de IA en los próximos cinco años, proporcionando un ejemplo concreto de software prototipo de cómo podría funcionar dicha comunicación y los fundamentos técnicos necesarios para su surgimiento, detección y gobernanza.
Los Modelos de Lenguaje de Gran Escala (LLMs) han demostrado una utilidad impresionante en el mundo real, ejemplificando la inteligencia artificial útil (AUI, por sus siglas en inglés). Sin embargo, su capacidad para razonar de manera adaptativa y robusta —características fundamentales de la inteligencia artificial general (AGI)— sigue siendo frágil. Aunque los LLMs aparentemente tienen éxito en el razonamiento de sentido común, la programación y las matemáticas, les cuesta generalizar la comprensión algorítmica en contextos novedosos. Nuestros experimentos con tareas algorítmicas en lenguajes de programación esotéricos revelan que el razonamiento de los LLMs se sobreajusta a los datos de entrenamiento y tiene una transferibilidad limitada. Hipótesis que el problema subyacente a esta limitada transferibilidad es el acoplamiento entre el razonamiento y el conocimiento en los LLMs. Para transitar de la AUI a la AGI, proponemos desacoplar el conocimiento y el razonamiento a través de tres direcciones clave: (1) preentrenar para razonar utilizando aprendizaje por refuerzo (RL) desde cero, como alternativa al preentrenamiento ampliamente utilizado de predicción del siguiente token, (2) utilizar un currículo de tareas sintéticas para facilitar el aprendizaje de un prior de razonamiento para RL que luego pueda transferirse a tareas de lenguaje natural, y (3) aprender funciones de razonamiento más generalizables utilizando una ventana de contexto pequeña para reducir la explotación de correlaciones espurias entre tokens. Un sistema de razonamiento de este tipo, combinado con un sistema de recuperación entrenado y un gran banco de memoria externa como almacén de conocimiento, puede superar varias limitaciones de las arquitecturas existentes al aprender a razonar en escenarios novedosos.
A medida que los modelos de lenguaje de gran escala se expanden más allá del lenguaje natural hacia dominios como las matemáticas, la comprensión multimodal y los agentes corporizados, los tokens reflejan cada vez más relaciones métricas en lugar de significados puramente lingüísticos. Presentamos DIST2Loss, un marco consciente de las distancias diseñado para entrenar modelos discretos autorregresivos aprovechando relaciones de distancia predefinidas entre los tokens de salida. En esencia, DIST2Loss transforma distribuciones continuas de la familia exponencial derivadas de métricas de distancia inherentes en objetivos de optimización discretos y categóricos compatibles con las arquitecturas de los modelos. Este enfoque permite que los modelos aprendan y preserven relaciones de distancia significativas durante la generación de tokens, manteniendo la compatibilidad con arquitecturas existentes. Las evaluaciones empíricas muestran mejoras consistentes en diversas aplicaciones multimodales, incluyendo la anclaje visual, la manipulación robótica, el modelado de recompensas generativas y la generación de imágenes utilizando características cuantizadas vectorialmente. Estas mejoras son particularmente notables en casos de datos de entrenamiento limitados, destacando la efectividad de DIST2Loss en entornos con recursos restringidos.
Los lectores humanos pueden comprender eficientemente palabras desordenadas, un fenómeno conocido como tipoglicemia, principalmente al basarse en la forma de las palabras; si la forma de la palabra por sí sola es insuficiente, utilizan además pistas contextuales para su interpretación. Si bien los modelos avanzados de lenguaje de gran escala (LLMs, por sus siglas en inglés) exhiben habilidades similares, los mecanismos subyacentes siguen sin estar claros. Para investigar esto, realizamos experimentos controlados para analizar los roles de la forma de las palabras y la información contextual en la reconstrucción semántica y examinar los patrones de atención de los LLMs. Específicamente, primero proponemos SemRecScore, una métrica confiable para cuantificar el grado de reconstrucción semántica, y validamos su efectividad. Utilizando esta métrica, estudiamos cómo la forma de las palabras y la información contextual influyen en la capacidad de reconstrucción semántica de los LLMs, identificando la forma de las palabras como el factor central en este proceso. Además, analizamos cómo los LLMs utilizan la forma de las palabras y encontramos que dependen de cabezas de atención especializadas para extraer y procesar la información de la forma de las palabras, manteniéndose este mecanismo estable en diferentes niveles de desorden de las palabras. Esta distinción entre los patrones de atención fijos de los LLMs, principalmente enfocados en la forma de las palabras, y la estrategia adaptativa de los lectores humanos para equilibrar la forma de las palabras y la información contextual, proporciona ideas para mejorar el rendimiento de los LLMs mediante la incorporación de mecanismos conscientes del contexto, similares a los humanos.
Si bien los modelos generativos basados en verosimilitud, particularmente los modelos de difusión y autoregresivos, han logrado una fidelidad notable en la generación visual, el objetivo de estimación de máxima verosimilitud (MLE) inherentemente sufre de una tendencia a cubrir modos que limita la calidad de la generación bajo una capacidad de modelo limitada. En este trabajo, proponemos la Optimización Discriminativa Directa (DDO) como un marco unificado que conecta el entrenamiento generativo basado en verosimilitud con el objetivo de GAN para superar esta restricción fundamental. Nuestra idea clave es parametrizar un discriminador implícitamente utilizando la razón de verosimilitud entre un modelo objetivo aprendible y un modelo de referencia fijo, estableciendo paralelismos con la filosofía de la Optimización Directa de Preferencias (DPO). A diferencia de las GAN, esta parametrización elimina la necesidad de entrenamiento conjunto de redes generadoras y discriminadoras, permitiendo un ajuste fino directo, eficiente y efectivo de un modelo bien entrenado para alcanzar su máximo potencial más allá de los límites del MLE. DDO puede realizarse de manera iterativa en un enfoque de autojuego para el refinamiento progresivo del modelo, requiriendo cada ronda menos del 1% de las épocas de preentrenamiento. Nuestros experimentos demuestran la efectividad de DDO al avanzar significativamente el modelo de difusión EDM anterior, reduciendo las puntuaciones FID de 1.79/1.58 a nuevos récords de 1.30/0.97 en los conjuntos de datos CIFAR-10/ImageNet-64, y mejorando consistentemente tanto los FID sin guía como los mejorados con CFG de modelos autoregresivos visuales en ImageNet 256x256.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) exhiben capacidades notables en la descomposición jerárquica de tareas complejas mediante razonamiento semántico. Sin embargo, su aplicación en sistemas corporizados enfrenta desafíos para garantizar la ejecución confiable de secuencias de subtareas y lograr el éxito en un solo intento en la finalización de tareas a largo plazo. Para abordar estas limitaciones en entornos dinámicos, proponemos el Agente Corporizado de Bucle Cerrado (CLEA, por sus siglas en inglés) —una arquitectura novedosa que incorpora cuatro LLMs de código abierto especializados con desacoplamiento funcional para la gestión de tareas en bucle cerrado. El marco presenta dos innovaciones principales: (1) Un planificador de tareas interactivo que genera dinámicamente subtareas ejecutables basadas en la memoria ambiental, y (2) Un crítico de ejecución multimodal que emplea un marco de evaluación para realizar una valoración probabilística de la viabilidad de las acciones, activando mecanismos de re-planificación jerárquica cuando las perturbaciones ambientales superan umbrales preestablecidos. Para validar la efectividad de CLEA, realizamos experimentos en un entorno real con objetos manipulables, utilizando dos robots heterogéneos para tareas de búsqueda, manipulación e integración de búsqueda-manipulación. En 12 pruebas de tareas, CLEA supera al modelo de referencia, logrando una mejora del 67.3% en la tasa de éxito y un aumento del 52.8% en la tasa de finalización de tareas. Estos resultados demuestran que CLEA mejora significativamente la robustez de la planificación y ejecución de tareas en entornos dinámicos.
Los avances recientes en los agentes de IA web han demostrado capacidades notables para abordar tareas complejas de navegación web. Sin embargo, investigaciones emergentes muestran que estos agentes exhiben una mayor vulnerabilidad en comparación con los modelos de lenguaje grandes (LLMs) independientes, a pesar de que ambos se basan en modelos alineados con la seguridad. Esta discrepancia es particularmente preocupante dada la mayor flexibilidad de los agentes de IA web en comparación con los LLMs independientes, lo que puede exponerlos a una gama más amplia de entradas adversarias de usuarios. Para construir un marco que aborde estas preocupaciones, este estudio investiga los factores subyacentes que contribuyen a la mayor vulnerabilidad de los agentes de IA web. Notablemente, esta disparidad surge de las diferencias multifacéticas entre los agentes de IA web y los LLMs independientes, así como de las señales complejas, matices que las métricas de evaluación simples, como la tasa de éxito, a menudo no logran capturar. Para abordar estos desafíos, proponemos un análisis a nivel de componentes y un marco de evaluación más granular y sistemático. A través de esta investigación detallada, identificamos tres factores críticos que amplifican la vulnerabilidad de los agentes de IA web: (1) la incorporación de los objetivos del usuario en el mensaje del sistema, (2) la generación de acciones en múltiples pasos y (3) las capacidades de observación. Nuestros hallazgos resaltan la necesidad urgente de mejorar la seguridad y la robustez en el diseño de agentes de IA y proporcionan insights prácticos para estrategias de defensa específicas.
La estimación de la disposición de habitaciones a partir de imágenes de múltiples perspectivas ha sido poco investigada debido a las complejidades que surgen de la geometría multi-vista, la cual requiere soluciones de múltiples pasos como la estimación de parámetros intrínsecos y extrínsecos de la cámara, emparejamiento de imágenes y triangulación. Sin embargo, en la reconstrucción 3D, el avance de modelos fundacionales 3D recientes como DUSt3R ha cambiado el paradigma del tradicional proceso de estructura a partir del movimiento (SfM) de múltiples pasos a un enfoque de un solo paso de extremo a extremo. Con este fin, presentamos Plane-DUSt3R, un método novedoso para la estimación de la disposición de habitaciones en múltiples vistas que aprovecha el modelo fundacional 3D DUSt3R. Plane-DUSt3R incorpora el marco de DUSt3R y se ajusta en un conjunto de datos de disposición de habitaciones (Structure3D) con un objetivo modificado para estimar planos estructurales. Al generar resultados uniformes y parsimoniosos, Plane-DUSt3R permite la estimación de la disposición de habitaciones con solo un paso de post-procesamiento y resultados de detección 2D. A diferencia de métodos anteriores que dependen de imágenes de una sola perspectiva o panorámicas, Plane-DUSt3R amplía el escenario para manejar imágenes de múltiples perspectivas. Además, ofrece una solución simplificada de extremo a extremo que agiliza el proceso y reduce la acumulación de errores. Los resultados experimentales demuestran que Plane-DUSt3R no solo supera a los métodos más avanzados en el conjunto de datos sintéticos, sino que también demuestra ser robusto y efectivo en datos del mundo real con diferentes estilos de imagen, como dibujos animados. Nuestro código está disponible en: https://github.com/justacar/Plane-DUSt3R.
La cuantificación por capas es una técnica clave para comprimir eficientemente modelos grandes sin un costoso reentrenamiento. Los métodos anteriores suelen cuantificar los pesos de cada capa optimizando "uniformemente" la pérdida de reconstrucción de la capa en todos los tokens de salida. Sin embargo, en este artículo demostramos que se pueden obtener modelos mejor cuantificados priorizando el aprendizaje de tokens importantes (por ejemplo, aquellos con puntuaciones de atención altas). Basándonos en este hallazgo, proponemos RSQ (Rotar, Escalar y luego Cuantificar), que (1) aplica rotaciones (transformación ortogonal) al modelo para mitigar los valores atípicos (aquellos con una magnitud excepcionalmente grande), (2) escala las características del token según su importancia, y (3) cuantifica el modelo utilizando el marco GPTQ con las estadísticas de segundo orden calculadas por tokens escalados. Para calcular la importancia de los tokens, exploramos tanto estrategias heurísticas como dinámicas. Basándonos en un análisis exhaustivo de todos los enfoques, adoptamos la concentración de atención, que utiliza las puntuaciones de atención de cada token como su importancia, como el mejor enfoque. Demostramos que RSQ supera consistentemente a los métodos de referencia en múltiples tareas posteriores y en tres familias de modelos: LLaMA3, Mistral y Qwen2.5. Además, los modelos cuantificados con RSQ logran un rendimiento superior en tareas de contexto largo, lo que destaca aún más su efectividad. Por último, RSQ demuestra generalizabilidad en varias configuraciones, incluyendo diferentes tamaños de modelos, conjuntos de datos de calibración, precisiones de bits y métodos de cuantificación.