Artículos de investigación en IA seleccionados diariamente con traducciones
Aunque los modelos lingüísticos de difusión (DLM) evolucionan rápidamente, muchos modelos recientes convergen en un conjunto de componentes compartidos. Sin embargo, estos componentes están distribuidos en bases de código de investigación ad hoc o carecen de implementaciones transparentes, lo que dificulta su reproducción o extensión. A medida que el campo se acelera, existe una clara necesidad de un marco unificado que estandarice estos componentes comunes, manteniendo al mismo tiempo la flexibilidad suficiente para admitir nuevos métodos y arquitecturas. Para abordar esta brecha, presentamos dLLM, un marco de código abierto que unifica los componentes centrales del modelado lingüístico de difusión —entrenamiento, inferencia y evaluación— y facilita su personalización para nuevos diseños. Con dLLM, los usuarios pueden reproducir, ajustar, implementar y evaluar grandes DLM de código abierto, como LLaDA y Dream, mediante una canalización estandarizada. El marco también proporciona recetas mínimas y reproducibles para construir pequeños DLM desde cero con recursos computacionales accesibles, incluyendo la conversión de cualquier codificador estilo BERT o LM autorregresivo en un DLM. También publicamos los puntos de control de estos pequeños DLM para hacer que los DLM sean más accesibles y acelerar la investigación futura.
La optimización de kernels de GPU es fundamental para el aprendizaje profundo moderno, pero sigue siendo una tarea altamente especializada que requiere un profundo conocimiento del hardware. A pesar de su sólido rendimiento en programación general, los grandes modelos de lenguaje (LLM) siguen sin ser competitivos frente a sistemas basados en compiladores como torch.compile para la generación de kernels CUDA. Los enfoques existentes de generación de código CUDA se basan en refinamiento sin entrenamiento o en ajustar modelos dentro de bucles fijos de ejecución-retroalimentación multi-turno, pero ambos paradigmas no logran mejorar fundamentalmente la capacidad intrínseca de optimización CUDA del modelo, lo que resulta en ganancias de rendimiento limitadas. Presentamos CUDA Agent, un sistema de aprendizaje por refuerzo agéntico a gran escala que desarrolla experiencia en kernels CUDA mediante tres componentes: una pipeline escalable de síntesis de datos, un entorno de desarrollo CUDA aumentado con habilidades que incluye verificación automatizada y generación de perfiles para proporcionar señales de recompensa confiables, y técnicas algorítmicas de aprendizaje por refuerzo que permiten un entrenamiento estable. CUDA Agent logra resultados de vanguardia en KernelBench, ofreciendo una velocidad 100%, 100% y 92% mayor que torch.compile en las divisiones Nivel-1, Nivel-2 y Nivel-3 de KernelBench, superando a los modelos propietarios más potentes como Claude Opus 4.5 y Gemini 3 Pro en aproximadamente un 40% en la configuración más difícil del Nivel-3.
Los recientes avances en la generación de texto a imagen han mejorado enormemente la fidelidad visual y la creatividad, pero también han impuesto mayores exigencias en la complejidad de los prompts, particularmente para codificar relaciones espaciales intrincadas. En estos casos, lograr resultados satisfactorios a menudo requiere múltiples intentos de muestreo. Para abordar este desafío, presentamos un método novedoso que fortalece la comprensión espacial de los modelos actuales de generación de imágenes. Primero construimos el SpatialReward-Dataset con más de 80k pares de preferencias. Basándonos en este conjunto de datos, desarrollamos SpatialScore, un modelo de recompensa diseñado para evaluar la precisión de las relaciones espaciales en la generación de texto a imagen, logrando un rendimiento que incluso supera a los principales modelos propietarios en evaluación espacial. Además, demostramos que este modelo de recompensa permite efectivamente el aprendizaje por refuerzo en línea para la generación espacial compleja. Extensos experimentos en múltiples benchmarks muestran que nuestro modelo de recompensa especializado produce ganancias significativas y consistentes en la comprensión espacial para la generación de imágenes.
La fiabilidad de la evaluación de modelos de lenguaje grandes (LLM) multilingües se ve actualmente comprometida por la calidad inconsistente de los puntos de referencia traducidos. Los recursos existentes a menudo adolecen de deriva semántica y pérdida de contexto, lo que puede conducir a métricas de rendimiento engañosas. En este trabajo, presentamos un marco completamente automatizado diseñado para abordar estos desafíos, permitiendo la traducción escalable y de alta calidad de conjuntos de datos y benchmarks. Demostramos que la adaptación de estrategias de escalado de cómputo en el momento de la prueba, específicamente la Automejora Universal (USI) y nuestro método de clasificación de múltiples rondas propuesto, T-RANK, permite obtener resultados de calidad significativamente superior en comparación con los flujos de trabajo tradicionales. Nuestro marco garantiza que los puntos de referencia conserven su estructura de tarea original y sus matices lingüísticos durante la localización. Aplicamos este enfoque para traducir benchmarks y conjuntos de datos populares a ocho idiomas de Europa del Este y del Sur (ucraniano, búlgaro, eslovaco, rumano, lituano, estonio, turco, griego). Las evaluaciones que utilizan tanto métricas basadas en referencia como el método LLM-como-juez muestran que nuestras traducciones superan a los recursos existentes, dando como resultado una evaluación de modelos descendente más precisa. Publicamos tanto el marco como los benchmarks mejorados para facilitar un desarrollo de IA multilingüe robusto y reproducible.
La escalabilidad de la generación de vídeo de segundos a minutos enfrenta un cuello de botella crítico: mientras que los datos de vídeos cortos son abundantes y de alta fidelidad, los datos coherentes de formato largo son escasos y se limitan a dominios específicos. Para abordar esto, proponemos un paradigma de entrenamiento donde la Búsqueda de Modas se encuentra con la Búsqueda de Medias, desacoplando la fidelidad local de la coherencia a largo plazo mediante una representación unificada a través de un Transformer de Difusión Desacoplado. Nuestro enfoque utiliza una cabeza global de Emparejamiento de Flujos entrenada mediante aprendizaje supervisado en vídeos largos para capturar la estructura narrativa, mientras emplea simultáneamente una cabeza local de Emparejamiento de Distribución que alinea ventanas deslizantes con un modelo profesor de vídeos cortos congelado mediante una divergencia inversa de Kullback-Leibler con búsqueda de modas. Esta estrategia permite sintetizar vídeos a escala de minutos que aprenden coherencia y movimientos de largo alcance a partir de vídeos largos limitados mediante emparejamiento de flujos supervisado, mientras heredan realismo local al alinear cada segmento de ventana deslizante del estudiante con un modelo profesor de vídeos cortos congelado, resultando en un generador rápido de vídeos largos en pocos pasos. Las evaluaciones muestran que nuestro método cierra efectivamente la brecha fidelidad-horizonte mejorando conjuntamente la nitidez local, el movimiento y la consistencia de largo alcance. Sitio del proyecto: https://primecai.github.io/mmm/.
La decodificación especulativa acelera la inferencia en modelos de lenguaje autoregresivos (LLM) utilizando un modelo de borrador ligero para proponer tokens candidatos que luego son verificados en paralelo por el modelo objetivo. La aceleración depende significativamente de la tasa de aceptación, sin embargo, el entrenamiento estándar minimiza la divergencia de Kullback-Leibler (KL) como objetivo sustituto. Si bien la divergencia KL y la tasa de aceptación comparten el mismo óptimo global, los modelos de borrador pequeños, con capacidad limitada, generalmente convergen a soluciones subóptimas donde minimizar la KL no garantiza maximizar la tasa de aceptación. Para abordar este problema, proponemos las pérdidas LK, objetivos de entrenamiento especiales que se enfocan directamente en la tasa de aceptación. Experimentos exhaustivos con cuatro arquitecturas de borrador y seis modelos objetivo, que van desde 8B hasta 685B de parámetros, demuestran mejoras consistentes en las métricas de aceptación en todas las configuraciones en comparación con el entrenamiento estándar basado en KL. Evaluamos nuestro enfoque en dominios generales, de programación y matemáticos, y reportamos ganancias de hasta 8-10% en la longitud media de aceptación. Las pérdidas LK son fáciles de implementar, no introducen sobrecarga computacional y pueden integrarse directamente en cualquier framework existente de entrenamiento de especuladores, lo que las convierte en una alternativa convincente a los objetivos de entrenamiento de borradores existentes.
La investigación científica depende de citas precisas para la atribución y la integridad; sin embargo, los modelos de lenguaje grandes (LLM) introducen un nuevo riesgo: referencias fabricadas que parecen plausibles pero que no corresponden a publicaciones reales. Tales citas alucinadas ya se han observado en envíos y artículos aceptados en importantes eventos de aprendizaje automático, exponiendo vulnerabilidades en la revisión por pares. Mientras tanto, las listas de referencias de rápido crecimiento hacen que la verificación manual sea impracticable, y las herramientas automatizadas existentes siguen siendo frágiles ante formatos de citación ruidosos y heterogéneos, además de carecer de una evaluación estandarizada. Presentamos el primer benchmark integral y marco de detección para citas alucinadas en la escritura científica. Nuestra canalización de verificación multiagente descompone la verificación de citas en extracción de afirmaciones, recuperación de evidencia, comparación de pasajes, razonamiento y juicio calibrado para evaluar si una fuente citada respalda verdaderamente su afirmación. Construimos un conjunto de datos a gran escala validado por humanos en diversos dominios y definimos métricas unificadas para la fidelidad de la cita y la alineación de la evidencia. Experimentos con LLMs de última generación revelan errores sustanciales de citación y muestran que nuestro marco supera significativamente a métodos anteriores tanto en precisión como en interpretabilidad. Este trabajo proporciona la primera infraestructura escalable para auditar citas en la era de los LLM y herramientas prácticas para mejorar la confiabilidad de las referencias científicas.
La generalización composicional, la capacidad de reconocer partes familiares en contextos novedosos, es una propiedad definitoria de los sistemas inteligentes. Aunque los modelos modernos se entrenan con conjuntos de datos masivos, estos solo cubren una fracción mínima del espacio combinatorio de entradas posibles, lo que plantea la pregunta de qué estructura deben tener las representaciones para sustentar la generalización a combinaciones no vistas. Formalizamos tres desiderátums para la generalización composicional bajo entrenamiento estándar (divisibilidad, transferibilidad, estabilidad) y demostramos que imponen restricciones geométricas necesarias: las representaciones deben descomponerse linealmente en componentes por concepto, y estos componentes deben ser ortogonales entre conceptos. Esto proporciona una base teórica para la Hipótesis de la Representación Lineal: la estructura lineal ampliamente observada en las representaciones neuronales es una consecuencia necesaria de la generalización composicional. Además, derivamos cotas dimensionales que vinculan el número de conceptos composicionales con la geometría del *embedding*. Empíricamente, evaluamos estas predicciones en modelos de visión modernos (CLIP, SigLIP, DINO) y encontramos que las representaciones exhiben una factorización lineal parcial con factores por concepto de bajo rango y casi ortogonales, y que el grado de esta estructura se correlaciona con la generalización composicional en combinaciones no vistas. A medida que los modelos continúan escalando, estas condiciones predicen la geometría representacional a la que pueden converger. El código está disponible en https://github.com/oshapio/necessary-compositionality.
La memorabilidad de las imágenes, es decir, la probabilidad de que una imagen sea recordada, se ha estudiado tradicionalmente en visión por computadora como una tarea de predicción pasiva, donde los modelos regresan una puntuación escalar, o mediante métodos generativos que alteran la entrada visual para aumentar la probabilidad de que la imagen sea recordada. Sin embargo, ninguno de estos paradigmas brinda soporte a los usuarios en el momento de la captura, cuando la pregunta crucial es cómo mejorar la memorabilidad de una foto. Introducimos la tarea de Retroalimentación de Memorabilidad (MemFeed), en la que un modelo automatizado debe proporcionar una guía procesable e interpretable para humanos con el objetivo de mejorar el recuerdo futuro de una imagen. También presentamos MemCoach, el primer enfoque diseñado para ofrecer sugerencias concretas en lenguaje natural para mejorar la memorabilidad (por ejemplo, "enfatizar la expresión facial", "acercar el sujeto principal"). Nuestro método, basado en Modelos de Lenguaje Grandes Multimodales (MLLMs), no requiere entrenamiento y emplea una estrategia de direccionamiento maestro-estudiante, alineando las activaciones internas del modelo hacia patrones más memorables aprendidos de un modelo maestro que progresa a lo largo de muestras ordenadas de menos a más memorables. Para permitir una evaluación sistemática de esta nueva tarea, además presentamos MemBench, un nuevo benchmark que incluye sesiones de fotos secuenciales con puntuaciones de memorabilidad anotadas. Nuestros experimentos, que consideran múltiples MLLMs, demuestran la efectividad de MemCoach, mostrando un rendimiento consistentemente mejorado en comparación con varios modelos de cero-shot. Los resultados indican que la memorabilidad no solo puede predecirse, sino también enseñarse e instruirse, desplazando el enfoque de la mera predicción hacia una retroalimentación procesable para los creadores humanos.
El aprendizaje contrastivo se ha convertido en un pilar fundamental del aprendizaje de representaciones moderno, permitiendo el entrenamiento con datos masivos no etiquetados tanto para modelos específicos de tareas como para modelos generales (fundacionales). Una pérdida prototípica en el entrenamiento contrastivo es InfoNCE y sus variantes. En este trabajo, demostramos que el objetivo de InfoNCE induce una estructura gaussiana en las representaciones que surgen del entrenamiento contrastivo. Establecemos este resultado en dos regímenes complementarios. Primero, mostramos que bajo ciertos supuestos de alineación y concentración, las proyecciones de la representación de alta dimensión se aproximan asintóticamente a una distribución gaussiana multivariante. A continuación, bajo supuestos menos estrictos, mostramos que añadir un pequeño término de regularización, que se desvanece asintóticamente y que promueve una norma de característica baja y una entropía de característica alta, conduce a resultados asintóticos similares. Apoyamos nuestro análisis con experimentos en conjuntos de datos sintéticos y CIFAR-10 en múltiples arquitecturas y tamaños de codificadores, demostrando un comportamiento gaussiano consistente. Esta perspectiva proporciona una explicación fundamentada para la gaussianidad comúnmente observada en las representaciones contrastivas. El modelo gaussiano resultante permite un tratamiento analítico fundamentado de las representaciones aprendidas y se espera que respalde una amplia gama de aplicaciones en el aprendizaje contrastivo.
La Comprensión de Expresiones de Referencia (REC, por sus siglas en inglés) conecta el lenguaje con la percepción visual a nivel regional. Los puntos de referencia estándar (RefCOCO, RefCOCO+, RefCOCOg) han progresado rápidamente con los LLM multimodales, pero siguen siendo pruebas débiles de razonamiento visual y grounding: (i) muchas expresiones son muy cortas, lo que deja poca demanda de razonamiento; (ii) las imágenes a menudo contienen pocos elementos distractores, lo que facilita encontrar el objetivo; y (iii) los descriptores redundantes permiten soluciones por atajos que eluden la genuina comprensión del texto y el razonamiento visual. Presentamos Ref-Adv, un benchmark moderno de REC que suprime los atajos emparejando expresiones lingüísticamente no triviales con solo la información necesaria para identificar de forma única el objetivo. El conjunto de datos contiene expresiones de referencia en imágenes reales, curadas con distractores difíciles y anotadas con facetas de razonamiento que incluyen la negación. Realizamos ablaciones exhaustivas (perturbaciones del orden de las palabras y suficiencia de eliminación de descriptores) para demostrar que resolver Ref-Adv requiere un razonamiento que va más allá de las pistas simples, y evaluamos una amplia gama de LLM multimodales contemporáneos en Ref-Adv. A pesar de los sólidos resultados en RefCOCO, RefCOCO+ y RefCOCOg, los modelos caen notablemente en Ref-Adv, revelando una dependencia de atajos y lagunas en el razonamiento visual y el grounding. Proporcionamos un análisis en profundidad de los fallos y nuestro objetivo es que Ref-Adv guíe el trabajo futuro en razonamiento visual y grounding en los MLLM.
Este artículo aborda el desafío crítico y poco explorado de la comprensión de videos largos con bajos presupuestos computacionales. Proponemos LongVideo-R1, un agente activo de modelo de lenguaje grande multimodal (MLLM) equipado con capacidades de razonamiento, diseñado para una navegación eficiente del contexto de video, evitando la redundancia de la búsqueda exhaustiva. En el núcleo de LongVideo-R1 se encuentra un módulo de razonamiento que aprovecha pistas visuales de alto nivel para inferir el clip de video más informativo para su posterior procesamiento. Durante la inferencia, el agente inicia un recorrido a partir de resúmenes visuales de nivel superior y refina iterativamente su enfoque, deteniendo inmediatamente el proceso de exploración una vez que adquiere el conocimiento suficiente para responder a la consulta. Para facilitar el entrenamiento, primero extraemos descripciones jerárquicas de videos de CGBench, un corpus de video con anotaciones de grounding, y guiamos a GPT-5 para generar 33K trayectorias de cadena de pensamiento con herramientas de alta calidad. El agente LongVideo-R1 se ajusta mediante fine-tuning sobre el modelo Qwen-3-8B a través de un paradigma de dos etapas: ajuste fino supervisado (SFT) seguido de aprendizaje por refuerzo (RL), donde el RL emplea una función de recompensa específicamente diseñada para maximizar la navegación selectiva y eficiente de clips. Los experimentos en múltiples benchmarks de video largo validan la efectividad de nuestro método, que logra un equilibrio superior entre la precisión en preguntas y respuestas (QA) y la eficiencia. Todos los datos curados y el código fuente se proporcionan en el material suplementario y estarán disponibles públicamente. El código y los datos están disponibles en: https://github.com/qiujihao19/LongVideo-R1
Los Modelos de Generación de Imágenes Enmascaradas (MIGM) han logrado un gran éxito, pero su eficiencia se ve obstaculizada por los múltiples pasos de atención bidireccional. De hecho, existe una notable redundancia en su cálculo: al muestrear tokens discretos, se pierden las ricas semánticas contenidas en las características continuas. Algunos trabajos existentes intentan almacenar en caché las características para aproximar las características futuras. Sin embargo, exhiben un error de aproximación considerable bajo tasas de aceleración agresivas. Atribuimos esto a su expresividad limitada y a la falta de consideración de la información de muestreo. Para llenar este vacío, proponemos aprender un modelo ligero que incorpore tanto las características previas como los tokens muestreados, y que regrese el campo de velocidad promedio de la evolución de las características. El modelo tiene una complejidad moderada que basta para capturar la dinámica sutil manteniéndose ligero en comparación con el modelo base original. Aplicamos nuestro método, MIGM-Shortcut, a dos arquitecturas y tareas MIGM representativas. En particular, en el estado del arte Lumina-DiT, logra una aceleración de más de 4x en la generación de texto a imagen manteniendo la calidad, empujando significativamente la frontera de Pareto de la generación de imágenes enmascaradas. El código y los pesos del modelo están disponibles en https://github.com/Kaiwen-Zhu/MIGM-Shortcut.
Los modelos de difusión logran una calidad de generación de vídeo de vanguardia, pero su inferencia sigue siendo costosa debido al gran número de pasos de eliminación de ruido secuenciales. Esto ha motivado una creciente línea de investigación sobre la aceleración de la inferencia por difusión. Entre los métodos de aceleración que no requieren entrenamiento, el almacenamiento en caché reduce la computación reutilizando salidas del modelo previamente calculadas en distintos intervalos de tiempo. Los métodos de caché existentes se basan en criterios heurísticos para elegir los intervalos de almacenamiento/reutilización y requieren un ajuste extensivo. Abordamos esta limitación con un marco de almacenamiento en caché fundamentado y consciente de la sensibilidad. Específicamente, formalizamos el error de caché mediante un análisis de la sensibilidad de la salida del modelo a perturbaciones en las entradas de eliminación de ruido (es decir, el latente ruidoso y el intervalo de tiempo), y demostramos que esta sensibilidad es un predictor clave del error de caché. Basándonos en este análisis, proponemos *Sensitivity-Aware Caching* (SenCache), una política de caché dinámica que selecciona adaptativamente los intervalos de almacenamiento para cada muestra individual. Nuestro marco proporciona una base teórica para el almacenamiento en caché adaptativo, explica por qué las heurísticas empíricas previas pueden ser parcialmente efectivas y las extiende a un enfoque dinámico y específico por muestra. Los experimentos en Wan 2.1, CogVideoX y LTX-Video muestran que SenCache logra una mejor calidad visual que los métodos de caché existentes bajo presupuestos computacionales similares.
Los Transformers se han establecido como los pilares de facto para la mayoría de los avances recientes en el modelado de secuencias, principalmente debido a su creciente capacidad de memoria que escala con la longitud del contexto. Aunque es plausible para tareas de recuperación, esto provoca una complejidad cuadrática, lo que ha motivado a estudios recientes a explorar alternativas recurrentes viables subcuadráticas. A pesar de mostrar resultados preliminares prometedores en diversos dominios, dichas arquitecturas recurrentes tienen un rendimiento inferior al de los Transformers en tareas intensivas en recuperación, lo que a menudo se atribuye a su memoria de tamaño fijo. En este artículo, presentamos *Memory Caching* (MC), una técnica simple pero efectiva que mejora los modelos recurrentes almacenando en caché puntos de control de sus estados de memoria (también conocidos como estados ocultos). Memory Caching permite que la capacidad de memoria efectiva de las RNN crezca con la longitud de la secuencia, ofreciendo una compensación flexible que interpola entre la memoria fija (es decir, complejidad O(L)) de las RNN y la memoria creciente (es decir, complejidad O(L²)) de los Transformers. Proponemos cuatro variantes de MC, que incluyen mecanismos de agregación con compuerta y selectivos dispersos, y discutimos sus implicaciones tanto en módulos de memoria lineales como profundos. Nuestros resultados experimentales en modelado de lenguaje y tareas de comprensión de contexto largo muestran que MC mejora el rendimiento de los modelos recurrentes, respaldando su efectividad. Los resultados de las tareas de recuperación en contexto indican que, si bien los Transformers logran la mejor precisión, nuestras variantes de MC muestran un rendimiento competitivo, reducen la brecha con los Transformers y superan a los modelos recurrentes más avanzados.
Los Modelos de Lenguaje Grandes (LLM) están convergiendo hacia una Mente Colmena Artificial singular, donde una Naturaleza compartida (preferencias a priori del pre-entrenamiento) resulta en un colapso profundo de la diversidad distribucional, limitando las perspectivas distintas necesarias para la exploración creativa y el descubrimiento científico. Para abordar esto, proponemos equipar a los modelos con una Crianza en tiempo de inferencia (trayectorias epistémicas individualizadas) utilizando el paradigma de la Evolución Epistémica, que progresa a través de las fases de explorar, internalizar y expresar. Instanciamos esto mediante PRISM (Razonamiento Pluralista mediante Modelado de Estructura en Contexto), un sistema agnóstico al modelo que aumenta un LLM con Grafos Epistémicos Dinámicos de Manera Improvisada (On-the-fly). En tres benchmarks de creatividad, PRISM logra una novedad de vanguardia y expande significativamente la diversidad distribucional. Además, evaluamos la utilidad en el mundo real mediante un benchmark desafiante de diagnóstico de enfermedades raras. Los resultados demuestran que PRISM descubre con éxito diagnósticos correctos de la cola larga que los LLM estándar pasan por alto, confirmando que su divergencia surge de una exploración significativa y no de ruido incoherente. En general, este trabajo establece un nuevo paradigma para la IA Pluralista, moviéndose más allá del consenso monolítico hacia un ecosistema diverso de individuos cognitivos únicos capaces de un descubrimiento colectivo y multi-perspectiva.
La recuperación generativa ha surgido como un paradigma poderoso para la recomendación basada en LLM. Sin embargo, los sistemas de recomendación industriales a menudo se benefician de restringir el espacio de salida a un subconjunto limitado de elementos basado en lógica de negocio (por ejemplo, imponer frescura de contenido o categoría de producto), lo cual la decodificación autoregresiva estándar no puede soportar de forma nativa. Además, los métodos de decodificación restringida existentes que utilizan árboles de prefijos (Tries) incurren en penalizaciones de latencia severas en aceleradores de hardware (TPUs/GPUs). En este trabajo, presentamos STATIC (Matriz de Transición Dispersa-Acelerada con Índice Trie para Decodificación Restringida), una técnica de decodificación restringida eficiente y escalable diseñada específicamente para la recuperación generativa de alto rendimiento basada en LLM en TPUs/GPUs. Al aplanar el árbol de prefijos en una matriz estática de Filas Dispersas Comprimidas (CSR), transformamos los recorridos irregulares del árbol en operaciones de matriz dispersa completamente vectorizadas, desbloqueando ganancias masivas de eficiencia en aceleradores de hardware. Desplegamos STATIC en una plataforma de recomendación de videos a gran escala que sirve a miles de millones de usuarios. STATIC produce un impacto significativo en las métricas de producto con una sobrecarga de latencia mínima (0.033 ms por paso y 0.25% del tiempo de inferencia), logrando una aceleración de 948x sobre una implementación de trie en CPU y una aceleración de 47-1033x sobre una línea base de búsqueda binaria acelerada por hardware. Además, la sobrecarga en tiempo de ejecución de STATIC se mantiene extremadamente baja en una amplia gama de configuraciones prácticas. Hasta donde sabemos, STATIC permite el primer despliegue a escala de producción de recuperación generativa estrictamente restringida. Adicionalmente, la evaluación en benchmarks académicos demuestra que STATIC puede mejorar considerablemente el rendimiento en arranque en frío para la recuperación generativa. Nuestro código está disponible en https://github.com/youtube/static-constraint-decoding.
Los modelos visión-lenguaje (VLM) han logrado capacidades notables de comprensión y razonamiento multimodal, pero siguen siendo computacionalmente costosos debido a la tokenización visual densa. Los enfoques existentes para mejorar la eficiencia fusionan tokens visuales redundantes o los descartan progresivamente en el backbone lingüístico, a menudo sacrificando precisión por velocidad. En este trabajo, proponemos DUET-VLM, un marco de compresión dual versátil y listo para usar que consiste en (a) una compresión consciente de la redundancia, solo de visión, de la salida del codificador visual en tokens que preservan la información, seguida de (b) un descarte capa por capa, guiado por texto saliente, de tokens visuales dentro del backbone lingüístico para podar progresivamente los tokens menos informativos. Esta gestión coordinada de tokens permite una compresión agresiva mientras retiene la semántica crítica. En LLaVA-1.5-7B, nuestro enfoque mantiene más del 99% de la precisión de la línea base con un 67% menos de tokens, y aún retiene >97% incluso con una reducción del 89%. Con esta compresión de doble etapa durante el entrenamiento, logra un 99.7% de precisión al 67% de reducción y un 97.6% al 89%, superando a los métodos SoTA previos de reducción de tokens visuales en múltiples benchmarks. Cuando se integra en Video-LLaVA-7B, incluso supera la línea base —logrando >100% de precisión con una sustancial reducción del 53.1% de tokens y manteniendo un 97.6% de precisión bajo un ajuste extremo del 93.4%. Estos resultados destacan el entrenamiento end-to-end con DUET-VLM, permitiendo una adaptación robusta a una entrada visual (imagen/video) reducida sin sacrificar precisión, produciendo representaciones compactas pero semánticamente ricas dentro del mismo presupuesto computacional. Nuestro código está disponible en https://github.com/AMD-AGI/DUET-VLM.
Se han logrado avances significativos en el campo de los Modelos de Edición de Imágenes Basados en Instrucciones (IIEMs, por sus siglas en inglés). Sin embargo, aunque estos modelos demuestran una adherencia plausible a las instrucciones y una fuerte capacidad de razonamiento en los puntos de referencia actuales, su habilidad para editar objetos pequeños sigue estando poco explorada, a pesar de su importancia para la edición local precisa y el refinamiento de detalles tanto en imágenes reales como generadas. En este artículo, presentamos DeepLookEditBench (DLEBench), el primer punto de referencia dedicado a evaluar las capacidades de los IIEMs en la edición de objetos a pequeña escala. Específicamente, construimos un banco de pruebas desafiante que comprende 1889 muestras distribuidas en siete tipos de instrucciones. En estas muestras, los objetos objetivo ocupan solo entre el 1% y el 10% del área de la imagen, cubriendo escenarios complejos como la oclusión parcial y la edición de múltiples objetos. Para garantizar una evaluación robusta en este punto de referencia, proponemos un protocolo de evaluación con rúbricas de puntuación refinadas para minimizar la subjetividad y la ambigüedad en dos criterios: Seguimiento de Instrucciones y Coherencia Visual. Este protocolo también introduce un marco de evaluación de modo dual (Modo Impulsado por Herramientas y Modo Guiado por Oracle) que aborda el desalineamiento entre el uso de Modelos de Lenguaje Multimodal como Jueces y los juicios humanos en DLEBench. Los resultados empíricos en 10 IIEMs revelan brechas de rendimiento significativas en la edición de objetos a pequeña escala, destacando la necesidad de puntos de referencia especializados para avanzar en esta capacidad.
La ingeniería de contexto ha surgido como un paradigma fundamental para desbloquear el potencial de los Modelos de Lenguaje a Gran Escala (LLM) en tareas de Ingeniería de Software (SE), permitiendo mejoras de rendimiento durante las pruebas sin necesidad de ajuste fino del modelo. A pesar de su éxito, la investigación existente carece de una taxonomía sistemática de tipos de contexto específicos para SE y de un benchmark dedicado para cuantificar los efectos heterogéneos de diferentes contextos en los flujos de trabajo centrales de SE. Para abordar esta brecha, proponemos CL4SE (Context Learning for Software Engineering), un benchmark integral que presenta una taxonomía detallada de cuatro tipos de contexto orientados a SE (ejemplos interpretables, contexto específico del proyecto, contexto de toma de decisiones procedural y contexto positivo y negativo), cada uno mapeado a una tarea representativa (generación de código, resumen de código, revisión de código y evaluación de corrección de parches). Construimos conjuntos de datos de alta calidad que comprenden más de 13,000 muestras de más de 30 proyectos de código abierto y evaluamos cinco LLM principales a través de nueve métricas. Experimentos exhaustivos demuestran que el aprendizaje por contexto produce una mejora promedio de rendimiento del 24.7% en todas las tareas. Específicamente, el contexto procedural aumenta el rendimiento en revisión de código hasta en un 33% (Qwen3-Max), el contexto mixto positivo-negativo mejora la evaluación de parches en un 30% (DeepSeek-V3), el contexto específico del proyecto incrementa el BLEU en resumen de código en un 14.78% (GPT-Oss-120B), y los ejemplos interpretables mejoran el PASS@1 en generación de código en un 5.72% (DeepSeek-V3). CL4SE establece el primer marco de evaluación estandarizado para el aprendizaje de contexto en SE, proporciona perspectivas empíricas prácticas para el diseño de contexto específico por tarea, y libera un conjunto de datos a gran escala para facilitar la investigación reproducible en este dominio.
El post-entrenamiento por aprendizaje por refuerzo (RL) ha impulsado recientemente importantes avances en modelos de lenguaje grande (LLM) con razonamiento de cadena de pensamiento larga, pero el alto costo de inferencia de dichos modelos motiva la destilación en estudiantes más pequeños. La mayoría de los métodos de destilación de conocimiento (KD) existentes están diseñados para el ajuste fino supervisado (SFT), y se basan en trazas fijas del profesor o en una regularización basada en la divergencia de Kullback-Leibler (KL) entre el profesor y el estudiante. Cuando se combinan con RL, estos enfoques suelen sufrir de desajuste de distribución e interferencia de objetivos: la supervisión del profesor puede no alinearse con la distribución de evolución del estudiante, y el regularizador KL puede competir con la maximización de la recompensa y requerir un equilibrio cuidadoso de las pérdidas. Para abordar estos problemas, proponemos la destilación consciente de RL (RLAD), que realiza una imitación selectiva durante el RL, guiando al estudiante hacia el profesor solo cuando esto mejora la actualización de la política actual. Nuestro componente central, la Destilación de Razón de la Región de Confianza (TRRD), reemplaza el regularizador KL profesor-estudiante con un objetivo de razón de verosimilitud al estilo PPO/GRPO anclado a una mezcla de la política anterior y el profesor, produciendo una destilación consciente de la ventaja y acotada por la región de confianza en las evoluciones del estudiante, y equilibrando naturalmente la exploración, la explotación y la imitación. En diversos benchmarks de razonamiento lógico y matemático, RLAD supera consistentemente a la destilación offline, al GRPO estándar y a la destilación de conocimiento profesor-estudiante basada en KL y en la política actual.
Si bien los modelos de lenguaje grandes (LLM) contemporáneos son cada vez más capaces de forma aislada, aún existen muchos problemas complejos que exceden las habilidades de un solo LLM. Para tales tareas, aún existe incertidumbre sobre la mejor manera de tomar múltiples LLMs como partes y combinarlos en un todo mayor. Este artículo de posición argumenta que los planos potenciales para diseñar tales agentes de lenguaje modulares pueden encontrarse en la literatura existente sobre modelos cognitivos y algoritmos de inteligencia artificial (IA). Para dejar este punto claro, formalizamos la idea de una plantilla de agente que especifica los roles para LLMs individuales y cómo deben componerse sus funcionalidades. Luego, examinamos una variedad de agentes de lenguaje existentes en la literatura y destacamos sus plantillas subyacentes, derivadas directamente de modelos cognitivos o algoritmos de IA. Al destacar estos diseños, nuestro objetivo es llamar la atención sobre las plantillas de agentes inspiradas en la ciencia cognitiva y la IA como una herramienta poderosa para desarrollar agentes de lenguaje efectivos e interpretables.