Artículos de investigación en IA seleccionados diariamente con traducciones
La relación entre los sistemas computacionales y el cerebro ha servido como motivación para teóricos pioneros desde John von Neumann y Alan Turing. Las redes biológicas uniformes y libres de escala, como el cerebro, poseen propiedades poderosas, incluyendo la capacidad de generalizar a lo largo del tiempo, lo cual representa el principal obstáculo para el Aprendizaje Automático en el camino hacia los Modelos de Razonamiento Universal. Presentamos `Dragon Hatchling' (BDH), una nueva arquitectura de Modelo de Lenguaje Grande basada en una red biológicamente inspirada y libre de escala de partículas neuronales que interactúan localmente. BDH combina fundamentos teóricos sólidos y una interpretabilidad inherente sin sacrificar el rendimiento similar al de los Transformadores. BDH es una arquitectura práctica y de alto rendimiento para el aprendizaje de secuencias basado en espacios de estado con atención, que representa el estado del arte. Además de ser un modelo de grafo, BDH admite una formulación compatible con GPU. Exhibe leyes de escalado similares a las de los Transformadores: empíricamente, BDH rivaliza con el rendimiento de GPT2 en tareas de lenguaje y traducción, con el mismo número de parámetros (de 10M a 1B) y los mismos datos de entrenamiento. BDH puede representarse como un modelo cerebral. La memoria de trabajo de BDH durante la inferencia depende completamente de la plasticidad sináptica con aprendizaje hebbiano utilizando neuronas de picos. Confirmamos empíricamente que sinapsis específicas e individuales fortalecen las conexiones cada vez que BDH escucha o razona sobre un concepto específico mientras procesa entradas de lenguaje. La red de interacción neuronal de BDH es un grafo de alta modularidad con una distribución de grados de cola pesada. El modelo BDH es biológicamente plausible, explicando un posible mecanismo que las neuronas humanas podrían utilizar para lograr el habla. BDH está diseñado para la interpretabilidad. Los vectores de activación de BDH son dispersos y positivos. Demostramos monosemanticidad en BDH en tareas de lenguaje. La interpretabilidad del estado, que va más allá de la interpretabilidad de las neuronas y los parámetros del modelo, es una característica inherente de la arquitectura BDH.
MCP estandariza cómo los LLM interactúan con sistemas externos, formando la base para agentes generales. Sin embargo, los puntos de referencia existentes de MCP siguen siendo limitados en alcance: se centran en tareas con predominio de lectura o tareas con una profundidad de interacción reducida, y no logran capturar la complejidad y el realismo de los flujos de trabajo del mundo real. Para abordar esta brecha, proponemos MCPMark, un punto de referencia diseñado para evaluar el uso de MCP de una manera más realista y completa. Consiste en 127 tareas de alta calidad creadas de manera colaborativa por expertos en dominio y agentes de IA. Cada tarea comienza con un estado inicial cuidadosamente seleccionado e incluye un script programático para la verificación automática. Estas tareas exigen interacciones más ricas y diversas con el entorno, involucrando una amplia gama de operaciones de creación, lectura, actualización y eliminación (CRUD). Realizamos una evaluación exhaustiva de LLM de vanguardia utilizando un marco de agente mínimo que opera en un bucle de llamadas a herramientas. Los resultados empíricos muestran que el modelo con mejor rendimiento, gpt-5-medium, alcanza solo un 52.56\% en pass@1 y un 33.86\% en pass^4, mientras que otros modelos ampliamente reconocidos como fuertes, incluyendo claude-sonnet-4 y o3, se sitúan por debajo del 30\% en pass@1 y del 15\% en pass^4. En promedio, los LLM requieren 16.2 turnos de ejecución y 17.4 llamadas a herramientas por tarea, superando significativamente los de los puntos de referencia anteriores de MCP y destacando la naturaleza de prueba de estrés de MCPMark.
Aunque el aprendizaje por refuerzo (RL) puede mejorar eficazmente las capacidades de razonamiento de los modelos de visión y lenguaje (VLMs), los métodos actuales siguen dependiendo en gran medida de conjuntos de datos intensivos en mano de obra que requieren una construcción y verificación manual extensa, lo que conlleva costos de entrenamiento extremadamente altos y, en consecuencia, limita el despliegue práctico de los VLMs. Para abordar este desafío, proponemos Vision-Zero, un marco agnóstico de dominio que permite la auto-mejora de los VLMs a través de juegos visuales competitivos generados a partir de pares de imágenes arbitrarios. Específicamente, Vision-Zero abarca tres atributos principales: (1) Marco de Autojuego Estratégico: Vision-Zero entrena a los VLMs en juegos al estilo "¿Quién es el Espía?", donde los modelos participan en razonamientos y acciones estratégicas en múltiples roles. A través del juego interactivo, los modelos generan automáticamente sus datos de entrenamiento sin necesidad de anotación humana. (2) Juegos a partir de Imágenes Arbitrarias: A diferencia de los marcos gamificados existentes, Vision-Zero puede generar juegos a partir de imágenes arbitrarias, mejorando así la capacidad de razonamiento del modelo en diversos dominios y mostrando una fuerte generalización en diferentes tareas. Demostramos esta versatilidad utilizando tres tipos distintos de conjuntos de datos de imágenes: escenas sintéticas basadas en CLEVR, gráficos e imágenes del mundo real. (3) Ganancia Sostenible de Rendimiento: Introducimos la Optimización de Políticas de Autojuego Iterativo (Iterative-SPO), un novedoso algoritmo de entrenamiento que alterna entre Autojuego y aprendizaje por refuerzo con recompensas verificables (RLVR), mitigando la meseta de rendimiento común en el entrenamiento basado únicamente en autojuego y logrando mejoras sostenidas a largo plazo. A pesar de utilizar datos sin etiquetas, Vision-Zero alcanza un rendimiento de vanguardia en tareas de razonamiento, respuesta a preguntas sobre gráficos y comprensión centrada en la visión, superando a otros métodos basados en anotaciones. Los modelos y el código han sido publicados en https://github.com/wangqinsi1/Vision-Zero.
El razonamiento ha surgido como una capacidad fundamental en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). A través del Aprendizaje por Refuerzo (RL, Reinforcement Learning), típicamente mediante la Optimización de Políticas Relativas de Grupo (GRPO, Group Relative Policy Optimization), estos modelos son capaces de resolver tareas complejas como la generación de código y problemas matemáticos. Basándose en estos avances, investigaciones recientes han buscado extender el razonamiento a los Modelos de Visión-Lenguaje (VLMs, Vision-Language Models), obteniendo resultados prometedores en diversas tareas visuales. A pesar de este progreso, nuestro estudio revela la naturaleza dual del razonamiento multimodal: aunque mejora sustancialmente la inferencia lógica y facilita el rendimiento en problemas desafiantes, puede deteriorar gradualmente la conexión perceptual, llevando a fallos de reconocimiento en preguntas visuales básicas. Mediante un análisis más profundo, atribuimos este fenómeno al olvido visual, donde el razonamiento prolongado hace que el modelo ignore cada vez más la entrada visual. Para abordar esto, proponemos la Optimización de Políticas Ancladas en la Visión (VAPO, Vision-Anchored Policy Optimization), un método simple pero efectivo que guía explícitamente el proceso de razonamiento hacia trayectorias visualmente fundamentadas. Nuestro modelo resultante, VAPO-Thinker-7B, fortalece significativamente la dependencia del modelo en la información visual y logra nuevos resultados de vanguardia en una amplia gama de benchmarks establecidos. Página del proyecto: https://xytian1008.github.io/VAPO/.
A medida que el ajuste fino supervisado (SFT, por sus siglas en inglés) evoluciona de una etapa ligera posterior al entrenamiento a una fase intensiva en cómputo que rivaliza en escala con el entrenamiento intermedio, la eficiencia de los datos se ha vuelto crítica para alinear modelos de lenguaje grandes (LLMs, por sus siglas en inglés) bajo presupuestos ajustados. Los métodos existentes de poda de datos sufren de un diseño fragmentado: operan ya sea a nivel de muestra o a nivel de token de manera aislada, sin optimizar conjuntamente ambas dimensiones. Esta desconexión conduce a ineficiencias significativas: muestras de alto valor pueden contener tokens redundantes, mientras que la poda a nivel de token a menudo descarta señales instructivas o correctivas cruciales incrustadas en ejemplos individuales. Para abordar este cuello de botella, introducimos el Plano de Error-Incertidumbre (EU, por sus siglas en inglés), un marco de diagnóstico que caracteriza conjuntamente la utilidad heterogénea de los datos de entrenamiento a través de muestras y tokens. Guiados por esta perspectiva, proponemos el Ajuste Basado en Cuadrantes (Q-Tuning), un marco unificado que coordina estratégicamente la poda de muestras y la poda de tokens. Q-Tuning emplea una estrategia de dos etapas: primero, realiza una clasificación a nivel de muestra para retener ejemplos ricos en conceptos erróneos informativos o señales de calibración; segundo, aplica una política asimétrica de poda de tokens, utilizando un mecanismo de puntuación consciente del contexto para eliminar tokens menos relevantes exclusivamente de las muestras con conceptos erróneos, mientras preserva las muestras de calibración en su totalidad. Nuestro método establece un nuevo estado del arte en cinco puntos de referencia diversos. Notablemente, en SmolLM2-1.7B, Q-Tuning logra una mejora promedio del +38\% sobre la línea base de SFT con todos los datos, utilizando solo el 12.5\% de los datos de entrenamiento originales. Como el primer enfoque de poda dinámica que supera consistentemente el entrenamiento con todos los datos, Q-Tuning proporciona un plan práctico y escalable para maximizar la utilización de datos en SFT de LLMs con presupuestos limitados.
Si bien los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento sólido en la respuesta a preguntas factuales, aún son propensos a la alucinación y a respuestas no veraces, especialmente cuando las tareas requieren información fuera de su conocimiento paramétrico. En efecto, la veracidad exige más que precisión: los modelos también deben reconocer la incertidumbre y abstenerse cuando no estén seguros para evitar alucinaciones. Esto presenta un desafío fundamental para los métodos existentes: los enfoques que optimizan la precisión a menudo amplifican las alucinaciones, mientras que aquellos que fomentan la abstención pueden volverse excesivamente conservadores, sacrificando respuestas correctas. Ambos extremos comprometen finalmente la veracidad. En este trabajo, presentamos TruthRL, un marco general de aprendizaje por refuerzo (RL, por sus siglas en inglés) que optimiza directamente la veracidad de los LLMs. Específicamente, implementamos TruthRL utilizando GRPO con una recompensa ternaria simple pero efectiva que distingue respuestas correctas, alucinaciones y abstenciones. Incentiva a los modelos a reducir las alucinaciones no solo proporcionando respuestas correctas, sino también permitiendo la abstención cuando hay incertidumbre, mejorando así la veracidad. Experimentos extensos en cuatro benchmarks intensivos en conocimiento muestran que, en comparación con el RL convencional, TruthRL reduce significativamente las alucinaciones en un 28.9% y mejora la veracidad en un 21.1%, con ganancias consistentes en varios modelos base (por ejemplo, Qwen, Llama) tanto en configuraciones con recuperación de información como sin ella. Un estudio de ablación en profundidad demuestra que los métodos convencionales impulsados por la precisión, como el ajuste fino supervisado o el RL con una recompensa binaria, tienen dificultades para equilibrar la corrección factual y la incertidumbre. En contraste, nuestro TruthRL impulsado por la veracidad logra un rendimiento sólido tanto en precisión como en veracidad, destacando la importancia del diseño del objetivo de aprendizaje para desarrollar LLMs veraces.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), a pesar de ser entrenados únicamente con texto, desarrollan de manera sorprendente ricos conocimientos previos visuales. Estos conocimientos permiten desbloquear capacidades visuales latentes para tareas de visión con una cantidad relativamente pequeña de datos multimodales, y en algunos casos, realizar tareas visuales sin haber visto nunca una imagen. A través de un análisis sistemático, revelamos que los conocimientos previos visuales—el conocimiento implícito y emergente sobre el mundo visual adquirido durante el preentrenamiento del lenguaje—están compuestos por conocimientos previos de percepción y razonamiento separables, con tendencias de escalado y orígenes únicos. Demostramos que la capacidad de razonamiento visual latente de un LLM se desarrolla predominantemente mediante el preentrenamiento con datos centrados en el razonamiento (por ejemplo, código, matemáticas, academia) y escala progresivamente. Este conocimiento previo de razonamiento adquirido del preentrenamiento del lenguaje es transferible y universalmente aplicable al razonamiento visual. En contraste, un conocimiento previo de percepción emerge de manera más difusa de corpus amplios, y la capacidad de percepción es más sensible al codificador visual y a los datos de ajuste fino de instrucciones visuales. Paralelamente, el texto que describe el mundo visual resulta crucial, aunque su impacto en el rendimiento se satura rápidamente. Aprovechando estas ideas, proponemos una receta centrada en datos para el preentrenamiento de LLMs conscientes de la visión y la verificamos en un preentrenamiento a escala de 1 billón de tokens. Nuestros hallazgos se basan en más de 100 experimentos controlados que consumieron 500,000 horas de GPU, abarcando toda la pipeline de construcción de MLLM—desde el preentrenamiento del LLM hasta la alineación visual y el ajuste fino multimodal supervisado—a través de cinco escalas de modelos, una amplia gama de categorías y mezclas de datos, y múltiples configuraciones de adaptación. Junto con nuestros hallazgos principales, proponemos e investigamos varias hipótesis, e introducimos el Multi-Level Existence Bench (MLE-Bench). En conjunto, este trabajo proporciona una nueva forma de cultivar deliberadamente conocimientos previos visuales a partir del preentrenamiento del lenguaje, allanando el camino para la próxima generación de LLMs multimodales.
Presentamos DC-VideoGen, un marco de aceleración posentrenamiento para la generación eficiente de videos. DC-VideoGen puede aplicarse a cualquier modelo de difusión de video preentrenado, mejorando la eficiencia al adaptarlo a un espacio latente de compresión profunda con un ajuste fino ligero. El marco se basa en dos innovaciones clave: (i) un Autoencoder de Video de Compresión Profunda con un diseño temporal novedoso de fragmentos causales que logra una compresión espacial de 32x/64x y temporal de 4x, manteniendo la calidad de reconstrucción y la generalización a videos más largos; y (ii) AE-Adapt-V, una estrategia de adaptación robusta que permite una transferencia rápida y estable de modelos preentrenados al nuevo espacio latente. Adaptar el modelo preentrenado Wan-2.1-14B con DC-VideoGen requiere solo 10 días de GPU en la GPU NVIDIA H100. Los modelos acelerados logran una latencia de inferencia hasta 14.8 veces menor que sus contrapartes base sin comprometer la calidad, y además permiten la generación de videos de 2160x3840 en una sola GPU. Código: https://github.com/dc-ai-projects/DC-VideoGen.
Presentamos OceanGym, el primer punto de referencia integral para agentes corporizados en entornos submarinos, diseñado para impulsar la IA en uno de los entornos del mundo real más exigentes. A diferencia de los dominios terrestres o aéreos, los entornos submarinos presentan desafíos extremos de percepción y toma de decisiones, incluyendo baja visibilidad y corrientes oceánicas dinámicas, lo que hace que el despliegue efectivo de agentes sea excepcionalmente difícil. OceanGym abarca ocho dominios de tareas realistas y un marco unificado de agentes impulsado por Modelos de Lenguaje Multimodales (MLLMs), que integra percepción, memoria y toma de decisiones secuencial. Los agentes deben comprender datos ópticos y de sonar, explorar de manera autónoma entornos complejos y cumplir objetivos a largo plazo bajo estas condiciones adversas. Experimentos extensivos revelan brechas significativas entre los agentes impulsados por MLLMs de última generación y los expertos humanos, destacando la dificultad persistente de la percepción, planificación y adaptabilidad en entornos submarinos. Al proporcionar una plataforma de alta fidelidad y rigurosamente diseñada, OceanGym establece un banco de pruebas para desarrollar IA corporizada robusta y transferir estas capacidades a vehículos submarinos autónomos del mundo real, marcando un paso decisivo hacia agentes inteligentes capaces de operar en una de las últimas fronteras inexploradas de la Tierra. El código y los datos están disponibles en https://github.com/OceanGPT/OceanGym.
El Aprendizaje por Refuerzo con Recompensa Verificable (RLVR, por sus siglas en inglés) resuelve eficazmente tareas complejas, pero requiere longitudes de contexto extremadamente largas durante el entrenamiento, lo que conlleva costos computacionales sustanciales. Aunque el entrenamiento en múltiples etapas puede mitigar parcialmente este problema, comenzar con contextos excesivamente cortos a menudo provoca una degradación irreversible del rendimiento, lo que finalmente no logra reducir significativamente el cómputo total del entrenamiento. En este artículo, presentamos la **I**nicialización de **P**olítica **L**ibre de **P**ensamiento (**TFPI**, por sus siglas en inglés), una adaptación simple pero efectiva de RLVR que conecta la destilación de Cadenas de Pensamiento (CoT) largas con el RLVR estándar. TFPI emplea una operación *ThinkFree* sencilla, descartando explícitamente el contenido de pensamiento mediante una *</think>* directa, para reducir el uso de tokens durante la inferencia. El entrenamiento con entradas adaptadas mediante *ThinkFree* mejora el rendimiento y reduce el consumo de tokens, incluso en el modo original de pensamiento lento. Experimentos exhaustivos en varios benchmarks han demostrado que TFPI acelera la convergencia del RL, alcanza un techo de rendimiento más alto y produce modelos de razonamiento más eficientes en términos de tokens, sin necesidad de recompensas especializadas o diseños de entrenamiento complejos. Con solo TFPI, entrenamos un modelo de 4B para alcanzar un 89.0% de precisión en AIME24 y un 65.5% en LiveCodeBench utilizando menos de 4K horas de H20.
Los juicios basados en Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) aprovechan el poder de estos modelos para evaluar de manera eficiente contenido candidato y proporcionar puntuaciones de juicio. Sin embargo, los sesgos y vulnerabilidades inherentes a los juicios generados por LLM generan preocupación, destacando la necesidad urgente de distinguirlos en escenarios sensibles, como la revisión por pares académica. En este trabajo, proponemos y formalizamos la tarea de detección de juicios e investigamos sistemáticamente la detectabilidad de los juicios generados por LLM. A diferencia de la detección de texto generado por LLM, la detección de juicios se basa únicamente en las puntuaciones de juicio y los candidatos, reflejando escenarios del mundo real donde la retroalimentación textual a menudo no está disponible en el proceso de detección. Nuestro análisis preliminar muestra que los métodos existentes de detección de texto generado por LLM tienen un rendimiento deficiente debido a su incapacidad para capturar la interacción entre las puntuaciones de juicio y el contenido candidato, un aspecto crucial para una detección efectiva de juicios. Inspirados por esto, presentamos J-Detector, un detector neuronal ligero y transparente, aumentado con características lingüísticas explícitamente extraídas y mejoradas por LLM, para vincular los sesgos de los jueces LLM con las propiedades de los candidatos y lograr una detección precisa. Los experimentos en diversos conjuntos de datos demuestran la efectividad de J-Detector y muestran cómo su interpretabilidad permite cuantificar los sesgos en los jueces LLM. Finalmente, analizamos los factores clave que afectan la detectabilidad de los juicios generados por LLM y validamos la utilidad práctica de la detección de juicios en escenarios del mundo real.
La fiabilidad de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) durante la escalabilidad en tiempo de prueba se evalúa frecuentemente con verificadores externos o modelos de recompensa que distinguen el razonamiento correcto de la lógica defectuosa. Trabajos previos generalmente asumen que los modelos de recompensa basados en el proceso (PRMs, por sus siglas en inglés), que puntúan cada paso intermedio del razonamiento, superan a los modelos de recompensa basados en el resultado (ORMs, por sus siglas en inglés) que evalúan únicamente la respuesta final. Esta perspectiva se basa principalmente en evidencia proveniente de dominios estrechos, cercanos a las matemáticas. Presentamos la primera evaluación unificada de cuatro variantes de modelos de recompensa: ORM y PRM discriminativos (\DisORM, \DisPRM) y ORM y PRM generativos (\GenORM, \GenPRM), en 14 dominios diversos. Contrario a la sabiduría convencional, encontramos que (i) \DisORM tiene un rendimiento similar a \DisPRM, (ii) \GenPRM no es competitivo, y (iii) en general, \GenORM es el más robusto, obteniendo ganancias significativas y consistentes en todos los dominios evaluados. Atribuimos esto a la puntuación paso a paso del estilo PRM, que hereda ruido en las etiquetas del autoetiquetado de los LLMs y tiene dificultades para evaluar trayectorias de razonamiento largas, incluyendo aquellas que implican razonamiento autocorrectivo. Nuestro análisis teórico muestra que la agregación paso a paso amplifica los errores a medida que aumenta la longitud del razonamiento, y nuestras observaciones empíricas confirman este efecto. Estos hallazgos desafían la suposición predominante de que la supervisión detallada es siempre mejor y respaldan la verificación generativa de resultados para el despliegue en múltiples dominios. Publicamos nuestro código, conjuntos de datos y puntos de control en \url{https://github.com/db-Lee/Multi-RM} para facilitar futuras investigaciones en entornos de múltiples dominios.
Panorama tiene un campo de visión completo (360^circtimes180^circ), ofreciendo una descripción visual más completa que las imágenes en perspectiva. Gracias a esta característica, la estimación de profundidad panorámica está ganando cada vez más atención en la visión 3D. Sin embargo, debido a la escasez de datos panorámicos, los métodos anteriores a menudo se limitan a entornos de dominio específico, lo que resulta en una generalización pobre en escenarios de zero-shot. Además, debido a las distorsiones esféricas inherentes a los panoramas, muchos enfoques dependen de la división en perspectiva (por ejemplo, cubemaps), lo que conduce a una eficiencia subóptima. Para abordar estos desafíos, proponemos DA^{2}: Depth Anything in Any Direction, un estimador de profundidad panorámico preciso, generalizable en zero-shot y completamente end-to-end. Específicamente, para escalar los datos panorámicos, introducimos un motor de curación de datos para generar datos de profundidad panorámica de alta calidad a partir de perspectivas, y creamos sim543K pares RGB-profundidad panorámicos, llevando el total a sim607K. Para mitigar aún más las distorsiones esféricas, presentamos SphereViT, que aprovecha explícitamente las coordenadas esféricas para reforzar la consistencia geométrica esférica en las características de las imágenes panorámicas, obteniendo un mejor rendimiento. Un benchmark exhaustivo en múltiples conjuntos de datos demuestra claramente el rendimiento SoTA de DA^{2}, con una mejora promedio del 38% en AbsRel sobre el baseline zero-shot más fuerte. Sorprendentemente, DA^{2} incluso supera a los métodos anteriores de dominio específico, destacando su superior generalización en zero-shot. Además, como una solución end-to-end, DA^{2} exhibe una eficiencia mucho mayor en comparación con los enfoques basados en fusión. Tanto el código como los datos panorámicos curados serán liberados. Página del proyecto: https://depth-any-in-any-dir.github.io/.
Las capacidades notables de los modelos modernos de razonamiento a gran escala se desbloquean en gran medida mediante técnicas de posentrenamiento, como el ajuste fino supervisado y el aprendizaje por refuerzo. Sin embargo, los mecanismos arquitectónicos detrás de estas mejoras siguen siendo en gran medida opacos. En este trabajo, utilizamos análisis de circuitos para demostrar que el posentrenamiento para el razonamiento complejo impulsa la aparición de cabezas de atención funcionalmente especializadas y novedosas. Estas cabezas, en conjunto, respaldan el razonamiento estructurado y la computación. Nuestro análisis comparativo en las familias Qwen y el modelo destilado DeepSeek revela que estas cabezas emergentes evolucionan de manera diferente bajo distintos regímenes de entrenamiento. La destilación y el ajuste fino supervisado fomentan una adición acumulativa de cabezas de razonamiento estables. En contraste, la optimización de políticas relativas por grupo opera en un modo de búsqueda dinámico: relativamente pocas cabezas de atención se activan, evalúan y podan de manera iterativa, y su supervivencia sigue de cerca las fluctuaciones en la señal de recompensa de la tarea. Además, encontramos que los modelos controlables de encendido/apagado del pensamiento no poseen cabezas de pensamiento dedicadas. En su lugar, desactivar el razonamiento explícito desencadena un conjunto más amplio, pero menos eficiente, de cabezas compensatorias. A través de análisis de ablación y cualitativos, conectamos estas dinámicas a nivel de circuito con un intercambio crucial en el rendimiento: las cabezas fortalecidas permiten estrategias sofisticadas de resolución de problemas para tareas difíciles, pero también pueden introducir modos de fallo por sobrepensamiento, como errores de cálculo o bucles lógicos en tareas más simples. Estos hallazgos vinculan las dinámicas a nivel de circuito con el rendimiento a nivel macro, identificando una tensión inherente donde el razonamiento complejo tiene un costo en las computaciones elementales. En términos más amplios, nuestro trabajo apunta a futuras direcciones para el diseño de políticas de entrenamiento, enfatizando la necesidad de equilibrar el desarrollo de estrategias efectivas de razonamiento con la garantía de una ejecución confiable y sin errores.
A medida que los agentes basados en LLM se despliegan cada vez más en escenarios de la vida real, los benchmarks existentes no logran captar su complejidad inherente para manejar información extensa, aprovechar recursos diversos y gestionar interacciones dinámicas con los usuarios. Para abordar esta brecha, presentamos VitaBench, un benchmark desafiante que evalúa a los agentes en tareas interactivas versátiles basadas en entornos del mundo real. Inspirándonos en aplicaciones cotidianas como la entrega de comida, el consumo en tiendas y los servicios de viajes en línea, VitaBench ofrece a los agentes el entorno de simulación más complejo hasta la fecha para atender necesidades vitales, compuesto por 66 herramientas. Mediante un marco que elimina políticas específicas de dominio, permitimos la composición flexible de estos escenarios y herramientas, generando 100 tareas entre escenarios (resultados principales) y 300 tareas dentro de un solo escenario. Cada tarea se deriva de múltiples solicitudes de usuarios reales y requiere que los agentes razonen a través de dimensiones temporales y espaciales, utilicen conjuntos de herramientas complejos, aclaren proactivamente instrucciones ambiguas y rastreen las intenciones cambiantes del usuario a lo largo de conversaciones de múltiples turnos. Además, proponemos un evaluador basado en rúbricas con ventana deslizante, que permite una evaluación robusta de diversas vías de solución en entornos complejos e interacciones estocásticas. Nuestra evaluación integral revela que incluso los modelos más avanzados logran solo un 30% de tasa de éxito en tareas entre escenarios, y menos del 50% en otras. En general, creemos que VitaBench servirá como un recurso valioso para avanzar en el desarrollo de agentes de IA en aplicaciones prácticas del mundo real. El código, el conjunto de datos y el ranking están disponibles en https://vitabench.github.io/.
La generación de vídeo a partir de imágenes ha experimentado avances notables con el progreso de los modelos de difusión, aunque generar vídeos con movimiento realista sigue siendo un desafío significativo. Esta dificultad surge de la complejidad de modelar con precisión el movimiento, lo que implica capturar restricciones físicas, interacciones entre objetos y dinámicas específicas del dominio que no se generalizan fácilmente en diversos escenarios. Para abordar este problema, proponemos MotionRAG, un marco potenciado por recuperación que mejora el realismo del movimiento al adaptar prioridades de movimiento a partir de vídeos de referencia relevantes mediante la Adaptación de Movimiento Consciente del Contexto (CAMA). Las innovaciones técnicas clave incluyen: (i) una canalización basada en recuperación que extrae características de movimiento de alto nivel utilizando un codificador de vídeo y remuestreadores especializados para destilar representaciones semánticas del movimiento; (ii) un enfoque de aprendizaje en contexto para la adaptación del movimiento implementado mediante una arquitectura de transformador causal; (iii) un adaptador de inyección de movimiento basado en atención que integra de manera fluida las características de movimiento transferidas en modelos de difusión de vídeo preentrenados. Experimentos exhaustivos demuestran que nuestro método logra mejoras significativas en múltiples dominios y diversos modelos base, todo ello con un sobrecargo computacional mínimo durante la inferencia. Además, nuestro diseño modular permite la generalización zero-shot a nuevos dominios simplemente actualizando la base de datos de recuperación sin necesidad de reentrenar ningún componente. Esta investigación mejora la capacidad fundamental de los sistemas de generación de vídeo al permitir la recuperación y transferencia efectiva de prioridades de movimiento, facilitando la síntesis de dinámicas de movimiento realistas.
Los modelos de lenguaje de difusión a gran escala (dLLMs, por sus siglas en inglés) han captado recientemente una atención considerable dentro de la comunidad de investigación como una alternativa prometedora a la generación autoregresiva, ofreciendo predicción paralela de tokens y una menor latencia en la inferencia. Sin embargo, su potencial de decodificación paralela sigue siendo en gran parte inexplorado, ya que los modelos de código abierto existentes aún requieren casi tantos pasos de decodificación como la longitud del token para garantizar el rendimiento. Para abordar esto, presentamos dParallel, un método simple y efectivo que desbloquea el paralelismo inherente de los dLLMs para un muestreo rápido. Identificamos que el cuello de botella clave para la decodificación paralela surge de la convergencia secuencial de certeza para los tokens enmascarados. Basándonos en esta idea, introducimos el núcleo de nuestro enfoque: la destilación forzada de certeza, una estrategia de entrenamiento novedosa que destila el modelo para seguir sus trayectorias de muestreo originales mientras lo obliga a alcanzar una alta certeza en los tokens enmascarados de manera más rápida y en paralelo. Experimentos extensos en varios benchmarks demuestran que nuestro método puede reducir drásticamente el número de pasos de decodificación mientras mantiene el rendimiento. Cuando se aplica al modelo LLaDA-8B-Instruct, dParallel reduce los pasos de decodificación de 256 a 30 en GSM8K, logrando una aceleración de 8.5x sin degradación del rendimiento. En el benchmark MBPP, reduce los pasos de decodificación de 256 a 24, resultando en una aceleración de 10.5x mientras se mantiene la precisión. Nuestro código está disponible en https://github.com/czg1225/dParallel.
El optimizador Muon es consistentemente más rápido que Adam en el entrenamiento de Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), aunque el mecanismo subyacente a su éxito sigue sin estar claro. Este artículo desmitifica dicho mecanismo a través de la lente de la memoria asociativa. Al eliminar selectivamente los componentes del transformador optimizados por Muon, revelamos que los parámetros de memoria asociativa de los LLMs, específicamente los pesos de atención de Valor y Salida (VO) y las Redes de Alimentación Directa (FFNs, por sus siglas en inglés), son los principales contribuyentes a la superioridad de Muon. Motivados por esta perspectiva de memoria asociativa, explicamos luego la superioridad de Muon en corpus del mundo real, que son intrínsecamente de cola pesada: unas pocas clases (clases de cola) aparecen con mucha menos frecuencia que otras. La superioridad se explica mediante dos propiedades clave: (i) su regla de actualización produce consistentemente un espectro singular más isotrópico que Adam; y, como resultado, (ii) en datos de cola pesada, optimiza las clases de cola de manera más efectiva que Adam. Más allá de la evidencia empírica, confirmamos teóricamente estos hallazgos analizando un modelo de memoria asociativa de una capa bajo datos con desequilibrio de clases. Demostramos que Muon logra consistentemente un aprendizaje equilibrado entre clases, independientemente de los embeddings de características, mientras que Adam puede inducir grandes disparidades en los errores de aprendizaje dependiendo de las propiedades de los embeddings. En resumen, nuestras observaciones empíricas y análisis teóricos revelan la ventaja central de Muon: su regla de actualización se alinea con la estructura de producto externo de las memorias asociativas lineales, permitiendo un aprendizaje más equilibrado y efectivo de las clases de cola en distribuciones de cola pesada en comparación con Adam.
Garantizar una alineación multimodal precisa entre las imágenes generadas por difusión y las indicaciones de entrada ha sido un desafío de larga data. Trabajos anteriores ajustan los pesos de difusión utilizando datos de preferencia de alta calidad, los cuales tienden a ser limitados y difíciles de escalar. Métodos recientes basados en edición refinan regiones locales de las imágenes generadas, pero pueden comprometer la calidad general de la imagen. En este trabajo, proponemos la Guía Multimodal Implícita (IMG, por sus siglas en inglés), un novedoso marco de alineación multimodal basado en regeneración que no requiere datos adicionales ni operaciones de edición. Específicamente, dada una imagen generada y su indicación, IMG a) utiliza un modelo de lenguaje multimodal de gran escala (MLLM) para identificar desalineaciones; b) introduce un Alineador Implícito que manipula las características de condicionamiento de la difusión para reducir las desalineaciones y permitir la regeneración; y c) formula el objetivo de realineación en una función entrenable, denominada Objetivo de Preferencia Actualizado Iterativamente. Evaluaciones cualitativas y cuantitativas exhaustivas en SDXL, SDXL-DPO y FLUX muestran que IMG supera a los métodos de alineación existentes. Además, IMG actúa como un adaptador flexible de tipo plug-and-play, mejorando de manera fluida los métodos de alineación basados en ajuste previo. Nuestro código estará disponible en https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.
¿Pueden los humanos identificar videos generados por IA (falsos) y proporcionar razones fundamentadas? Si bien los modelos de generación de videos han avanzado rápidamente, una dimensión crítica —si los humanos pueden detectar rastros de deepfakes dentro de un video generado, es decir, artefactos visuales espaciotemporales fundamentados que revelan que un video fue generado por máquina— ha sido ampliamente pasada por alto. Presentamos DeeptraceReward, el primer punto de referencia detallado, espacial y temporalmente consciente, que anota rastros falsos percibidos por humanos para la recompensa en la generación de videos. El conjunto de datos comprende 4.3K anotaciones detalladas en 3.3K videos generados de alta calidad. Cada anotación proporciona una explicación en lenguaje natural, señala una región delimitada por un cuadro que contiene el rastro percibido y marca marcas de tiempo precisas de inicio y finalización. Consolidamos estas anotaciones en 9 categorías principales de rastros de deepfakes que llevan a los humanos a identificar un video como generado por IA, y entrenamos modelos de lenguaje multimodal (LM) como modelos de recompensa para imitar los juicios y localizaciones humanas. En DeeptraceReward, nuestro modelo de recompensa de 7B supera a GPT-5 en un 34.7% en promedio en la identificación de pistas falsas, fundamentación y explicación. Curiosamente, observamos un gradiente de dificultad consistente: la clasificación binaria de falso versus real es sustancialmente más fácil que la detección detallada de rastros de deepfakes; dentro de esta última, el rendimiento disminuye desde las explicaciones en lenguaje natural (más fáciles), hasta la fundamentación espacial, hasta el etiquetado temporal (más difícil). Al destacar los rastros de deepfakes percibidos por humanos, DeeptraceReward proporciona un banco de pruebas riguroso y una señal de entrenamiento para la generación de videos socialmente consciente y confiable.
Si bien los sistemas anteriores de Científico de IA pueden generar hallazgos novedosos, a menudo carecen del enfoque necesario para producir contribuciones científicamente valiosas que aborden desafíos urgentes definidos por humanos. Presentamos DeepScientist, un sistema diseñado para superar esta limitación mediante la realización de descubrimientos científicos completamente autónomos y orientados a objetivos en períodos de varios meses. Este sistema formaliza el descubrimiento como un problema de Optimización Bayesiana, operacionalizado a través de un proceso de evaluación jerárquico que consiste en "hipotetizar, verificar y analizar". Aprovechando una Memoria de Hallazgos acumulativa, este ciclo equilibra inteligentemente la exploración de nuevas hipótesis con la explotación, promoviendo selectivamente los hallazgos más prometedores a niveles de validación de mayor fidelidad. Consumiendo más de 20,000 horas de GPU, el sistema generó alrededor de 5,000 ideas científicas únicas y validó experimentalmente aproximadamente 1100 de ellas, superando finalmente los métodos de última generación (SOTA) diseñados por humanos en tres tareas de vanguardia de IA en un 183.7\%, 1.9\% y 7.9\%. Este trabajo proporciona la primera evidencia a gran escala de que una IA logra descubrimientos que progresivamente superan el SOTA humano en tareas científicas, produciendo hallazgos valiosos que realmente impulsan la frontera del descubrimiento científico. Para facilitar futuras investigaciones sobre este proceso, publicaremos todos los registros experimentales y el código del sistema en https://github.com/ResearAI/DeepScientist/.
Estudiamos la regresión de código a métrica: la predicción de resultados numéricos de ejecuciones de código, una tarea desafiante debido a la naturaleza abierta de los lenguajes de programación. Mientras que métodos anteriores han recurrido a una ingeniería de características extensa y específica del dominio, demostramos que un único Modelo de Lenguaje de Regresión (RLM, por sus siglas en inglés) unificado puede predecir simultáneamente directamente desde texto: (i) la huella de memoria del código en múltiples lenguajes de alto nivel como Python y C++, (ii) la latencia de kernels de GPU Triton, y (iii) la precisión y velocidad de redes neuronales entrenadas representadas en ONNX. En particular, un RLM relativamente pequeño de 300 millones de parámetros inicializado desde T5Gemma obtiene un coeficiente de Spearman > 0.9 en envíos de programación competitiva de APPS, y un único modelo unificado logra un coeficiente de Spearman promedio > 0.5 en 17 lenguajes separados de CodeNet. Además, el RLM puede alcanzar el mayor coeficiente de Kendall-Tau promedio de 0.46 en cinco espacios de diseño clásicos de NAS previamente dominados por redes neuronales de grafos, y predecir simultáneamente las latencias de arquitecturas en numerosas plataformas de hardware.
Los agentes de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) están limitados por ventanas de contexto reducidas, lo que hace necesario el uso de sistemas de memoria externa para la comprensión de información a largo plazo. Los agentes actuales potenciados con memoria suelen depender de instrucciones y herramientas predefinidas para actualizar la memoria. Sin embargo, los modelos de lenguaje pueden carecer de la capacidad para determinar qué información almacenar, cómo estructurarla y cuándo actualizarla, especialmente a medida que los sistemas de memoria se vuelven más complejos. Esto resulta en una construcción subóptima de la memoria y pérdida de información. Para abordar este problema, proponemos Mem-alpha, un marco de aprendizaje por refuerzo que entrena a los agentes para gestionar eficazmente sistemas de memoria complejos mediante interacción y retroalimentación. Además, construimos un conjunto de datos de entrenamiento especializado que abarca diversos patrones de interacción multiturno, acompañados de preguntas de evaluación exhaustivas diseñadas para enseñar una gestión eficaz de la memoria. Durante el entrenamiento, los agentes procesan fragmentos secuenciales de información, aprenden a extraer y almacenar contenido relevante, y luego actualizan el sistema de memoria. La señal de recompensa se deriva de la precisión en la respuesta a preguntas basadas en el historial completo de interacción, optimizando directamente la construcción de la memoria. Para ilustrar la efectividad de nuestro marco de entrenamiento, diseñamos una arquitectura de memoria que incluye componentes centrales, episódicos y semánticos, equipados con múltiples herramientas para operaciones de memoria. La evaluación empírica demuestra que Mem-alpha logra mejoras significativas en comparación con los agentes potenciados con memoria existentes. A pesar de haber sido entrenados exclusivamente en instancias con una longitud máxima de 30k tokens, nuestros agentes exhiben una notable generalización a secuencias que superan los 400k tokens, más de 13 veces la longitud de entrenamiento, lo que resalta la robustez de Mem-alpha.
Las Redes Neuronales Recurrentes modernas se han convertido en una arquitectura competitiva para la reconstrucción 3D debido a su complejidad de tiempo lineal. Sin embargo, su rendimiento se degrada significativamente cuando se aplican más allá de la longitud del contexto de entrenamiento, revelando una generalización limitada en longitud. En este trabajo, revisitamos los modelos fundamentales de reconstrucción 3D desde una perspectiva de Entrenamiento en Tiempo de Prueba (Test-Time Training), enmarcando sus diseños como un problema de aprendizaje en línea. Basándonos en esta perspectiva, aprovechamos la confianza de alineación entre el estado de la memoria y las observaciones entrantes para derivar una tasa de aprendizaje de forma cerrada para las actualizaciones de la memoria, equilibrando entre la retención de información histórica y la adaptación a nuevas observaciones. Esta intervención sin entrenamiento, denominada TTT3R, mejora sustancialmente la generalización en longitud, logrando una mejora de 2 veces en la estimación de pose global en comparación con los métodos base, mientras opera a 20 FPS con solo 6 GB de memoria GPU para procesar miles de imágenes. Código disponible en https://rover-xingyu.github.io/TTT3R.
Los métodos de separación de habla audiovisual (AVSS, por sus siglas en inglés) aprovechan las señales visuales para extraer el habla objetivo y han demostrado una alta calidad de separación en entornos acústicos ruidosos. Sin embargo, estos métodos suelen involucrar un gran número de parámetros y requieren un alto costo computacional, lo que resulta inaceptable en muchas aplicaciones donde la separación de habla sirve únicamente como un paso de preprocesamiento para un procesamiento posterior del habla. Para abordar este problema, proponemos un método AVSS eficiente, denominado Dolphin. Para la extracción de características visuales, desarrollamos DP-LipCoder, un codificador de video ligero de doble ruta que transforma el movimiento de los labios en tokens semánticos discretos alineados con el audio. Para la separación de audio, construimos un separador ligero codificador-decodificador, en el que cada capa incorpora un bloque de atención global-local (GLA, por sus siglas en inglés) para capturar eficientemente dependencias a múltiples escalas. Los experimentos en tres conjuntos de datos de referencia mostraron que Dolphin no solo superó al modelo actual más avanzado (SOTA, por sus siglas en inglés) en calidad de separación, sino que también logró mejoras notables en eficiencia: más del 50% menos de parámetros, una reducción de más de 2.4x en MACs y una velocidad de inferencia en GPU más de 6 veces más rápida. Estos resultados indican que Dolphin ofrece una solución práctica y desplegable para AVSS de alto rendimiento en escenarios del mundo real. Nuestro código y página de demostración están disponibles públicamente en http://cslikai.cn/Dolphin/.
El Aprendizaje por Refuerzo (RL, por sus siglas en inglés) ha demostrado un éxito notable en la mejora de las capacidades de razonamiento de los Modelos de Lenguaje de Gran Escala (LLMs). El RL Supervisado por Procesos (PSRL) ha surgido como un paradigma más efectivo en comparación con el RL basado en resultados. Sin embargo, los enfoques existentes de PSRL adolecen de una eficiencia limitada en la exploración, tanto en términos de posiciones de ramificación como de muestreo. En este artículo, presentamos un novedoso marco de PSRL (AttnRL), que permite una exploración eficiente para modelos de razonamiento. Motivados por observaciones preliminares que indican que los pasos que exhiben puntuaciones de atención elevadas se correlacionan con comportamientos de razonamiento, proponemos ramificar desde posiciones con valores altos. Además, desarrollamos una estrategia de muestreo adaptativa que tiene en cuenta la dificultad del problema y el tamaño histórico del lote, asegurando que todo el lote de entrenamiento mantenga valores de ventaja no nulos. Para mejorar aún más la eficiencia del muestreo, diseñamos una canalización de entrenamiento fuera de política de un solo paso para PSRL. Experimentos exhaustivos en múltiples puntos de referencia desafiantes de razonamiento matemático demuestran que nuestro método supera consistentemente a los enfoques anteriores en términos de rendimiento y eficiencia de muestreo y entrenamiento.
El alineamiento en línea (por ejemplo, GRPO) generalmente es más eficiente que el alineamiento fuera de línea (por ejemplo, DPO), pero ¿por qué? Basándonos en la teoría prospectiva de la economía conductual, proponemos una explicación centrada en el ser humano. Demostramos que el muestreo en línea basado en políticas aproxima mejor la distribución percibida por los humanos de lo que el modelo puede producir, y que el recorte estilo PPO/GRPO —originalmente introducido para estabilizar el entrenamiento— recupera un sesgo perceptual en cómo los humanos perciben la probabilidad. En este sentido, PPO/GRPO ya actúan como pérdidas perceptuales. Nuestra teoría sugiere además que la dicotomía en línea/fuera de línea es en sí misma incidental para maximizar la utilidad humana, ya que podemos lograr el mismo efecto entrenando selectivamente con cualquier dato de una manera que imite la percepción humana, en lugar de limitarnos a datos en línea basados en políticas. Hacerlo nos permitiría realizar entrenamientos posteriores de manera más rápida, económica y flexible sin sacrificar el rendimiento. Con este fin, proponemos un patrón de diseño que incorpora explícitamente distorsiones perceptuales de la probabilidad en objetivos como DPO/KTO/GRPO, creando variantes "humanline" de los mismos. Sorprendentemente, encontramos que estas variantes humanline, incluso cuando se entrenan con datos fuera de línea y fuera de políticas, pueden igualar el rendimiento de sus contrapartes en línea tanto en tareas verificables como no verificables.
La construcción de agentes de Modelos de Lenguaje a Gran Escala (LLM) que amplían sus capacidades mediante la interacción con herramientas externas representa una nueva frontera en la investigación y aplicaciones de la inteligencia artificial. En este artículo, presentamos InfoAgent, un agente de investigación profunda impulsado por una innovadora tubería de síntesis de datos y herramientas de búsqueda web orquestadas. Para construir consultas desafiantes y difíciles de encontrar, construimos árboles de entidades y aplicamos muestreo de subárboles con difuminación de entidades para aumentar sistemáticamente la dificultad de las preguntas. A diferencia de trabajos anteriores que dependen en gran medida de herramientas de búsqueda comerciales, desarrollamos una infraestructura de búsqueda autohospedada dedicada, mejorando la transparencia de los entornos de los agentes y facilitando el avance adicional de la capacidad de los agentes. Evaluamos la efectividad de nuestra tubería de datos midiendo el número promedio de llamadas a herramientas requeridas para responder correctamente una pregunta, y también demostramos que nuestro agente obtiene un mejor rendimiento cuando está equipado con nuestras herramientas. Nuestro InfoAgent es post-entrenado a partir de Qwen3-14B utilizando una receta de dos etapas: ajuste fino supervisado de arranque en frío para inculcar comportamientos de búsqueda a largo plazo, seguido de aprendizaje por refuerzo que mejora significativamente el uso de herramientas impulsado por razonamiento. Con nuestros métodos, InfoAgent logra un 15.3% de precisión en BrowseComp, un 29.2% en BrowseComp-ZH y un 40.4% en Xbench-DS, superando a agentes de investigación profunda de código abierto anteriores como WebSailor-72B y DeepDive-32B.
La seguridad de los Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) es uno de los desafíos más urgentes para habilitar su implementación a gran escala. Si bien la mayoría de los estudios y discusiones globales se centran en daños genéricos, como modelos que ayudan a los usuarios a dañarse a sí mismos o a otros, las empresas enfrentan una preocupación más fundamental: si los agentes basados en LLM son seguros para su caso de uso específico. Para abordar esto, introducimos la seguridad operacional, definida como la capacidad de un LLM para aceptar o rechazar adecuadamente las consultas de los usuarios cuando se le asigna un propósito específico. Además, proponemos OffTopicEval, un conjunto de evaluación y referencia para medir la seguridad operacional tanto en general como dentro de casos de uso agentivos específicos. Nuestras evaluaciones en seis familias de modelos que comprenden 20 LLM de peso abierto revelan que, aunque el rendimiento varía entre modelos, todos ellos siguen siendo altamente inseguros desde el punto de vista operacional. Incluso los modelos más fuertes —Qwen-3 (235B) con un 77,77 % y Mistral (24B) con un 79,96 %— están muy lejos de alcanzar una seguridad operacional confiable, mientras que los modelos GPT se estancan en el rango del 62-73 %, Phi logra solo puntuaciones intermedias (48-70 %), y Gemma y Llama-3 caen a 39,53 % y 23,84 %, respectivamente. Si bien la seguridad operacional es un problema central de alineación de modelos, para suprimir estos fallos, proponemos métodos de direccionamiento basados en prompts: anclaje de consultas (Q-ground) y anclaje de prompts del sistema (P-ground), que mejoran sustancialmente el rechazo fuera de distribución (OOD). Q-ground proporciona ganancias consistentes de hasta un 23 %, mientras que P-ground ofrece mejoras aún mayores, elevando Llama-3.3 (70B) en un 41 % y Qwen-3 (30B) en un 27 %. Estos resultados destacan tanto la necesidad urgente de intervenciones en seguridad operacional como la promesa del direccionamiento basado en prompts como un primer paso hacia agentes basados en LLM más confiables.
Los métodos recientes de aprendizaje por refuerzo (RL, por sus siglas en inglés) han mejorado sustancialmente las capacidades de planificación de los Modelos de Lenguaje a Gran Escala (LLMs), aunque la base teórica de su efectividad sigue siendo esquiva. En este trabajo, investigamos los beneficios y limitaciones del RL a través de una abstracción basada en grafos manejable, centrándonos en los métodos de gradiente de política (PG) y Q-learning. Nuestros análisis teóricos revelan que el ajuste fino supervisado (SFT) puede introducir soluciones espurias basadas en co-ocurrencias, mientras que el RL logra una planificación correcta principalmente a través de la exploración, destacando el papel de la exploración para permitir una mejor generalización. Sin embargo, también mostramos que el PG sufre de colapso de diversidad, donde la diversidad de salidas disminuye durante el entrenamiento y persiste incluso después de alcanzar una precisión perfecta. Por el contrario, el Q-learning ofrece dos ventajas clave: aprendizaje fuera de política y preservación de la diversidad en la convergencia. Además, demostramos que es necesario un diseño cuidadoso de las recompensas para evitar el "hackeo de recompensas" en el Q-learning. Finalmente, al aplicar nuestro marco al benchmark de planificación del mundo real Blocksworld, confirmamos que estos comportamientos se manifiestan en la práctica.
La proliferación de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) de código abierto está fomentando un ecosistema vibrante de investigación e innovación en inteligencia artificial (IA). Sin embargo, los métodos de colaboración utilizados para desarrollar LLMs de código abierto, tanto antes como después de su lanzamiento público, aún no han sido estudiados de manera exhaustiva, lo que limita nuestra comprensión de cómo se inician, organizan y gobiernan los proyectos de LLMs de código abierto, así como las oportunidades existentes para fomentar aún más este ecosistema. Abordamos esta brecha mediante un análisis exploratorio de la colaboración abierta a lo largo del ciclo de vida de desarrollo y reutilización de los LLMs de código abierto, basándonos en entrevistas semiestructuradas con los desarrolladores de 14 LLMs de código abierto provenientes de proyectos comunitarios, institutos de investigación, startups y grandes empresas tecnológicas en América del Norte, Europa, África y Asia. Realizamos tres contribuciones clave para la investigación y la práctica. En primer lugar, la colaboración en los proyectos de LLMs de código abierto se extiende mucho más allá de los propios LLMs, abarcando conjuntos de datos, puntos de referencia, marcos de código abierto, tablas de clasificación, foros de discusión y compartición de conocimiento, y asociaciones de computación, entre otros. En segundo lugar, los desarrolladores de LLMs de código abierto tienen una variedad de motivaciones sociales, económicas y tecnológicas, desde democratizar el acceso a la IA y promover la ciencia abierta hasta construir ecosistemas regionales y ampliar la representación lingüística. En tercer lugar, los proyectos de LLMs de código abierto analizados exhiben cinco modelos organizativos distintos, que van desde proyectos de una sola empresa hasta proyectos comunitarios patrocinados por organizaciones sin fines de lucro, los cuales varían en su centralización del control y las estrategias de participación comunitaria utilizadas a lo largo del ciclo de vida de los LLMs de código abierto. Concluimos con recomendaciones prácticas para las partes interesadas que buscan apoyar a la comunidad global en la construcción de un futuro más abierto para la IA.
¿Está realmente resuelta la comprensión visual básica en los modelos de lenguaje visual (VLMs) de última generación? Presentamos VisualOverload, un benchmark de respuesta a preguntas visuales (VQA) ligeramente diferente que consta de 2.720 pares de preguntas-respuestas, con respuestas de referencia mantenidas en privado. A diferencia de los conjuntos de datos VQA anteriores que suelen centrarse en la comprensión casi global de la imagen, VisualOverload desafía a los modelos a realizar tareas visuales simples y libres de conocimiento en escenas densamente pobladas (o sobrecargadas). Nuestro conjunto de datos consiste en escaneos de alta resolución de pinturas de dominio público que están pobladas con múltiples figuras, acciones y subtramas en desarrollo, situadas sobre fondos detallados y elaborados. Anotamos manualmente estas imágenes con preguntas en seis categorías de tareas para sondear una comprensión exhaustiva de la escena. Nuestra hipótesis es que los benchmarks actuales sobreestiman el rendimiento de los VLMs, y que la codificación y el razonamiento sobre detalles sigue siendo una tarea desafiante para ellos, especialmente si se enfrentan a escenas densamente pobladas. De hecho, observamos que incluso el mejor modelo (o3) de los 37 modelos probados solo alcanza un 19,6% de precisión en nuestra división de prueba más difícil y un 69,5% de precisión general en todas las preguntas. Más allá de una evaluación exhaustiva, complementamos nuestro benchmark con un análisis de errores que revela múltiples modos de fallo, incluyendo la falta de habilidades de conteo, fallos en OCR y sorprendentes inconsistencias lógicas en tareas complejas. En conjunto, VisualOverload expone una brecha crítica en los modelos de visión actuales y ofrece un recurso crucial para que la comunidad desarrolle modelos mejores. Benchmark: http://paulgavrikov.github.io/visualoverload
Presentamos Voice Evaluation of Reasoning Ability (VERA), un punto de referencia para evaluar la capacidad de razonamiento en sistemas interactivos de voz bajo las restricciones de conversación en tiempo real. VERA comprende 2,931 episodios nativos de voz derivados de puntos de referencia de texto establecidos y organizados en cinco categorías (Matemáticas, Web, Ciencia, Contexto Largo, Hechos). Cada ítem está adaptado para la interacción por voz mientras se preserva la dificultad de razonamiento. VERA permite una comparación directa entre texto y voz dentro de familias de modelos y apoya el análisis de cómo las elecciones arquitectónicas afectan la confiabilidad. Evaluamos 12 sistemas de voz contemporáneos junto con sólidas líneas base de texto y observamos brechas de modalidad grandes y consistentes: en matemáticas competitivas, un modelo líder de texto alcanza un 74.8% de precisión, mientras que su contraparte de voz llega al 6.1%; promediado macro a través de las categorías, los mejores modelos de texto logran un 54.0% frente a un 11.3% para los de voz. Los análisis de latencia-precisión revelan una meseta de baja latencia, donde los sistemas de voz rápidos se agrupan alrededor de un ~10% de precisión, mientras que acercarse al rendimiento de texto requiere sacrificar la interacción en tiempo real. Los experimentos diagnósticos indican que las mitigaciones comunes son insuficientes. Aumentar el "tiempo de pensamiento" produce ganancias insignificantes; una cascada desacoplada que separa el razonamiento de la narración mejora la precisión, pero aún queda muy por debajo del texto e introduce errores característicos de anclaje/consistencia. Los análisis de fallas muestran además firmas de error distintas entre diseños de transmisión nativa, de extremo a extremo y en cascada. VERA proporciona un banco de pruebas reproducible y diagnósticos específicos para arquitecturas que desacoplan el pensamiento del habla, ofreciendo una forma fundamentada de medir el progreso hacia asistentes de voz en tiempo real que sean tanto fluidos como razonados de manera confiable.
El desarrollo de agentes autónomos que interactúen eficazmente con Interfaces Gráficas de Usuario (GUIs) sigue siendo un problema abierto y desafiante, especialmente para modelos pequeños en dispositivos. En este artículo, presentamos Ferret-UI Lite, un agente GUI compacto y de extremo a extremo que opera en diversas plataformas, incluyendo móviles, web y escritorio. Utilizando técnicas optimizadas para el desarrollo de modelos pequeños, construimos nuestro agente Ferret-UI Lite de 3B mediante la curación de una mezcla diversa de datos GUI provenientes de fuentes reales y sintéticas, fortaleciendo el rendimiento en tiempo de inferencia a través del razonamiento en cadena de pensamiento y el uso de herramientas visuales, y el aprendizaje por refuerzo con recompensas diseñadas. Ferret-UI Lite logra un rendimiento competitivo en comparación con otros agentes GUI de pequeña escala. En la fundamentación de GUI, Ferret-UI Lite obtiene puntuaciones del 91.6%, 53.3% y 61.2% en los benchmarks ScreenSpot-V2, ScreenSpot-Pro y OSWorld-G, respectivamente. Para la navegación en GUI, Ferret-UI Lite alcanza tasas de éxito del 28.0% en AndroidWorld y del 19.8% en OSWorld. Compartimos nuestros métodos y las lecciones aprendidas en el desarrollo de agentes GUI compactos en dispositivos.
Los proveedores de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) destacan cifras impresionantes para los tamaños máximos de ventanas de contexto. Para evaluar el uso práctico de estas ventanas de contexto, 1) definimos un concepto de ventana de contexto máxima efectiva, 2) formulamos un método de prueba para medir la efectividad de una ventana de contexto en función de diversos tamaños y tipos de problemas, y 3) creamos una forma estandarizada de comparar la eficacia de los modelos para tamaños de ventana de contexto cada vez mayores, con el fin de identificar el punto de fallo. Recopilamos cientos de miles de puntos de datos en varios modelos y encontramos diferencias significativas entre el tamaño de la Ventana de Contexto Máxima (MCW, por sus siglas en inglés) reportada y el tamaño de la Ventana de Contexto Máxima Efectiva (MECW, por sus siglas en inglés). Nuestros hallazgos muestran que la MECW no solo es drásticamente diferente de la MCW, sino que también varía según el tipo de problema. Algunos de los modelos más avanzados en nuestro grupo de prueba fallaron con tan solo 100 tokens en contexto; la mayoría experimentó una degradación severa en la precisión al alcanzar los 1000 tokens en contexto. Todos los modelos quedaron muy por debajo de su Ventana de Contexto Máxima, con diferencias de hasta un 99 por ciento. Nuestros datos revelan que la Ventana de Contexto Máxima Efectiva varía según el tipo de problema planteado, ofreciendo insights claros y accionables sobre cómo mejorar la precisión del modelo y reducir las tasas de alucinación.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) emplean la interacción multiturno como un paradigma fundamental para completar tareas complejas. Sin embargo, su rendimiento a menudo se degrada en interacciones prolongadas, ya que generalmente se entrenan con datos estáticos de un solo turno, lo que limita su capacidad para adaptarse a la retroalimentación del usuario en tiempo real. Para abordar esta limitación, primero proponemos un nuevo paradigma: Adaptación de Políticas en Tiempo de Prueba para Interacciones Multiturno (T2PAM, por sus siglas en inglés), que utiliza la retroalimentación del usuario de la interacción en curso como una señal de recompensa para estimar una política óptima latente alineada con las preferencias del usuario, luego actualiza un subconjunto pequeño de parámetros para guiar el modelo hacia esta política, permitiendo finalmente una autocorrección eficiente durante la conversación. A continuación, presentamos Adaptación de Un Paso Referenciada al Óptimo (ROSA, por sus siglas en inglés), un algoritmo ligero que implementa T2PAM. ROSA guía los parámetros del modelo hacia una política óptima teórica en un solo paso de actualización eficiente, evitando la costosa optimización iterativa basada en gradientes y minimizando la sobrecarga computacional. Proporcionamos un análisis teórico riguroso que garantiza que la política de ROSA converge a las preferencias del usuario a medida que aumenta el número de interacciones. Experimentos extensos en puntos de referencia desafiantes demuestran que ROSA logra mejoras significativas tanto en la efectividad como en la eficiencia de las tareas.
jina-reranker-v3 es un reranker multilingüe de documentos con 0.6 mil millones de parámetros que introduce una novedosa interacción denominada "last but not late". A diferencia de los modelos de interacción tardía, como ColBERT, que realizan una codificación separada seguida de una coincidencia de múltiples vectores, nuestro enfoque lleva a cabo una autoatención causal entre la consulta y los documentos dentro de la misma ventana de contexto, permitiendo interacciones ricas entre documentos antes de extraer los embeddings contextuales del último token de cada documento. Esta arquitectura compacta logra un rendimiento de vanguardia en BEIR con un nDCG@10 de 61.94, siendo diez veces más pequeña que los rerankers generativos de tipo listwise.
Los modelos de lenguaje de gran escala destacan con el aprendizaje por refuerzo (RL, por sus siglas en inglés), pero desbloquear todo su potencial requiere una etapa intermedia de entrenamiento. Una fase intermedia efectiva debe identificar un conjunto compacto de acciones útiles y permitir una selección rápida entre ellas mediante RL en línea. Formalizamos esta intuición presentando el primer resultado teórico sobre cómo el entrenamiento intermedio moldea el post-entrenamiento: caracteriza un subespacio de acciones que minimiza tanto el error de aproximación de valor derivado de la poda como el error de RL durante la planificación posterior. Nuestro análisis revela dos determinantes clave de la efectividad del entrenamiento intermedio: la eficiencia de la poda, que configura el previo de la política inicial de RL, y su impacto en la convergencia de RL, que gobierna el grado en que esa política puede mejorarse mediante interacciones en línea. Estos resultados sugieren que el entrenamiento intermedio es más efectivo cuando el espacio de decisiones es compacto y el horizonte efectivo es corto, destacando la importancia de operar en el espacio de abstracciones de acciones en lugar de acciones primitivas. Basándonos en estas ideas, proponemos **Razonamiento como Abstracciones de Acciones (RA3)**, un algoritmo escalable de entrenamiento intermedio. Específicamente, derivamos un límite inferior variacional secuencial y lo optimizamos descubriendo iterativamente estructuras latentes temporalmente consistentes mediante RL, seguido de un ajuste fino sobre los datos bootstrapped. Los experimentos en tareas de generación de código demuestran la efectividad de nuestro enfoque. En múltiples modelos base, RA3 mejora el rendimiento promedio en HumanEval y MBPP en 8 y 4 puntos, respectivamente, sobre el modelo base y la línea base de predicción del siguiente token. Además, RA3 logra una convergencia más rápida y un rendimiento asintótico superior en RLVR en HumanEval+, MBPP+, LiveCodeBench y Codeforces.
La compresión de la caché KV promete un mayor rendimiento y eficiencia con una pérdida mínima en el desempeño. Si bien las ganancias en rendimiento son indiscutibles y la literatura reciente ha demostrado una degradación mínima en ciertos puntos de referencia, en general, las consecuencias de la compresión en escenarios realistas, como el uso de múltiples instrucciones, han sido insuficientemente estudiadas. En este artículo, identificamos varios desafíos que los profesionales deben tener en cuenta al implementar LLMs con caché KV comprimida. Es importante destacar que demostramos que ciertas instrucciones se degradan mucho más rápidamente con la compresión, lo que hace que el LLM las ignore por completo. Como ejemplo práctico, destacamos la filtración de instrucciones del sistema como un caso de estudio, mostrando empíricamente el impacto de la compresión en la filtración y el seguimiento general de instrucciones. Identificamos varios factores que influyen en la filtración de instrucciones: el método de compresión, el orden de las instrucciones y el sesgo en la expulsión de la caché KV. Luego, proponemos cambios simples en las políticas de expulsión de la caché KV que pueden reducir el impacto de estos factores y mejorar el desempeño general en tareas de múltiples instrucciones.
Las técnicas de búsqueda actuales se limitan a aplicaciones estándar de consulta-documento RAG. En este artículo, proponemos una técnica novedosa para expandir el código y el índice con el fin de predecir las API requeridas, permitiendo directamente una generación de código de alta calidad de extremo a extremo para aplicaciones de autocompletado e IA agentiva. Abordamos el problema de las fugas de API en los conjuntos de datos de referencia actuales de código a código mediante la introducción de un nuevo conjunto de datos construido a partir de Script Includes de ServiceNow del mundo real, que capturan el desafío de la intención poco clara del uso de API en el código. Nuestras métricas de evaluación muestran que este método alcanza un 87,86% de precisión en la recuperación de los 40 principales, proporcionando el contexto crítico con las API necesarias para una generación de código descendente exitosa. Para habilitar predicciones en tiempo real, desarrollamos una canalización integral de posentrenamiento que optimiza un reranker compacto de 0.600 millones de parámetros mediante la generación de conjuntos de datos sintéticos, ajuste fino supervisado y aprendizaje por refuerzo. Este enfoque permite que nuestro reranker compacto supere a un modelo mucho más grande de 8.000 millones de parámetros, manteniendo una latencia reducida en 2,5 veces, abordando efectivamente los matices del código específico de la empresa sin la sobrecarga computacional de modelos más grandes.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han sido cada vez más estudiados como bases de conocimiento neuronal para apoyar aplicaciones intensivas en conocimiento, como la respuesta a preguntas y la verificación de hechos. Sin embargo, la organización estructural de su conocimiento sigue sin explorarse. Inspirados por hallazgos de la neurociencia cognitiva, como la agrupación semántica y el efecto de priming, donde conocer un hecho aumenta la probabilidad de recordar hechos relacionados, investigamos un patrón análogo de homofilia de conocimiento en los LLMs. Para ello, mapeamos el conocimiento de los LLMs en una representación gráfica mediante la verificación de conocimiento tanto a nivel de tripletas como de entidades. Posteriormente, analizamos la relación de conocimiento entre una entidad y sus vecinos, descubriendo que los LLMs tienden a poseer un nivel similar de conocimiento sobre entidades ubicadas más cerca en el gráfico. Motivados por este principio de homofilia, proponemos un modelo de regresión basado en Redes Neuronales de Grafos (GNN, por sus siglas en inglés) para estimar puntuaciones de conocimiento a nivel de entidades para tripletas, aprovechando las puntuaciones de sus vecindarios. La predicción de conocimiento nos permite priorizar la verificación de tripletas menos conocidas, maximizando así la cobertura de conocimiento bajo el mismo presupuesto de etiquetado. Esto no solo mejora la eficiencia del etiquetado activo para el ajuste fino con el fin de inyectar conocimiento en los LLMs, sino que también mejora la recuperación de rutas de múltiples saltos en la respuesta a preguntas intensivas en razonamiento.
Los algoritmos actuales de aprendizaje por refuerzo en línea (RL, por sus siglas en inglés), como GRPO, comparten una limitación clave en el razonamiento de modelos de lenguaje grandes (LLM): no pueden aprender de problemas que son "insolubles" para el modelo. En otras palabras, solo pueden mejorar el rendimiento en problemas donde el modelo es capaz de explorar la respuesta correcta. Como consecuencia, el "límite superior" del modelo permanece inalterado después del entrenamiento con RL, aunque la probabilidad de resolver problemas más fáciles y solubles pueda aumentar. Estas muestras difíciles no pueden contribuir al entrenamiento, ya que ninguna ejecución genera recompensas y, por lo tanto, no se producen gradientes. Para desbloquear el aprendizaje a partir de estas muestras difíciles, proponemos NuRL, un método de "empujón" que busca elevar el límite superior del razonamiento de los LLM utilizando pistas autogeneradas, es decir, indicios abstractos que ayudan a reducir la dificultad del problema para el modelo. Dada una pregunta y su respuesta correcta, el modelo genera una cadena de pensamiento (CoT) y luego produce una pista que contiene el conocimiento central necesario para resolver el problema. Durante el entrenamiento, generamos G ejecuciones a partir de la política base y utilizamos la tasa de acierto para decidir si la pista debe inyectarse. Para muestras difíciles con una tasa de acierto del 0%, inyectamos la pista y regeneramos un nuevo lote de trayectorias. Esto ofrece dos beneficios: (1) la pista aumenta las tasas de acierto (del 0% a un valor no nulo), introduciendo así señales de entrenamiento para muestras previamente insolubles, y (2) las pistas son autogeneradas, evitando el cambio distribucional y sin depender de modelos externos. NuRL logra mejoras consistentes en 6 benchmarks y 3 modelos, mientras sigue siendo complementario al escalado en tiempo de prueba. Notablemente, NuRL puede elevar el límite superior del modelo, mientras que GRPO deja el pass@1024 sin cambios respecto al modelo base. Además, presentamos un estudio sistemático sobre qué hace que una pista sea efectiva y cuándo las pistas son más útiles. Curiosamente, las mejores pistas son abstractas y de alto nivel, y son más beneficiosas cuando se aplican de manera necesaria y después de que GRPO ha convergido.
Los modelos de lenguaje basados en difusión (dLLMs, por sus siglas en inglés), a pesar de su rendimiento prometedor, aún presentan una eficiencia de inferencia inferior. Esto se debe a que los dLLMs dependen de atención bidireccional y no pueden beneficiarse directamente de la caché estándar de clave-valor (KV) como lo hacen los modelos autoregresivos (ARMs). Para abordar este problema, presentamos Dual aDaptive Cache (d^2Cache), un marco de caché KV aproximado sin necesidad de entrenamiento para acelerar la inferencia de dLLMs. d^2Cache cuenta con una estrategia de selección de dos etapas de grano fino para identificar tokens y actualizar de manera adaptativa sus estados KV en cada paso de decodificación, mientras almacena en caché los estados KV de los tokens restantes para su reutilización. Además, d^2Cache ofrece naturalmente una alternativa de decodificación más confiable, que permite una generación cuasi de izquierda a derecha y mitiga la confianza prematura en tokens al final de la secuencia. Los resultados experimentales extensivos en dos dLLMs representativos (\ie, LLaDA y Dream) demuestran que d^2Cache no solo logra aceleraciones sustanciales en la inferencia, sino que también produce mejoras consistentes en la calidad de la generación. El código está disponible en https://github.com/Kamichanw/d2Cache.
Estudios empíricos recientes han explorado la idea de continuar entrenando un modelo durante el tiempo de prueba para una tarea específica, conocido como entrenamiento en tiempo de prueba (TTT, por sus siglas en inglés), y han encontrado que esto produce mejoras significativas en el rendimiento. Sin embargo, existe un entendimiento limitado sobre por qué y cuándo el TTT es efectivo. Explicaciones anteriores se centraron principalmente en la observación de que el TTT puede ser útil cuando se aplica a la adaptación fuera de distribución o se utiliza con datos privilegiados. No obstante, la creciente escala de los modelos fundacionales, con la mayoría de los datos de prueba dentro de la distribución, cuestiona estas explicaciones. En su lugar, proponemos que los modelos fundacionales permanecen globalmente subparametrizados, y que el TTT proporciona un mecanismo para la especialización después de la generalización, enfocando la capacidad en conceptos relevantes para la tarea de prueba. Específicamente, bajo la hipótesis de representación lineal, proponemos un modelo en el que el TTT logra un error de prueba dentro de la distribución sustancialmente menor que el entrenamiento global. Validamos empíricamente las suposiciones clave de nuestro modelo entrenando un autoencoder disperso en ImageNet, mostrando que puntos de datos semánticamente relacionados son explicados por solo unos pocos conceptos compartidos. Finalmente, realizamos estudios de escalabilidad en tareas de imágenes y lenguaje que confirman las implicaciones prácticas de nuestro modelo, identificando los regímenes donde la especialización es más efectiva.
Los modelos basados en Transformers han avanzado significativamente en la predicción de series temporales, con estrategias de entrada basadas en parches que ofrecen eficiencia y mejoras en el modelado de horizontes largos. Sin embargo, los enfoques existentes dependen de la construcción de parches temporalmente agnósticos, donde posiciones iniciales arbitrarias y longitudes fijas fracturan la coherencia temporal al dividir transiciones naturales a través de límites. Esta segmentación ingenua a menudo interrumpe las dependencias a corto plazo y debilita el aprendizaje de representaciones. En respuesta, proponemos EntroPE (Codificador de Parches Dinámicos Guiado por Entropía), un marco novedoso e informado temporalmente que detecta dinámicamente puntos de transición mediante entropía condicional y coloca dinámicamente los límites de los parches. Esto preserva la estructura temporal mientras mantiene los beneficios computacionales del uso de parches. EntroPE consta de dos módulos clave: un Segmentador Dinámico Basado en Entropía (EDP, por sus siglas en inglés) que aplica criterios de teoría de la información para localizar cambios temporales naturales y determinar los límites de los parches, y un Codificador de Parches Adaptativo (APE, por sus siglas en inglés) que emplea agrupación y atención cruzada para capturar dependencias intra-parche y producir representaciones latentes de tamaño fijo. Estas incrustaciones son luego procesadas por un Transformer global para modelar la dinámica inter-parche. Los experimentos en benchmarks de predicción a largo plazo demuestran que EntroPE mejora tanto la precisión como la eficiencia, estableciendo el uso de parches dinámicos guiados por entropía como un nuevo paradigma prometedor para el modelado de series temporales. El código está disponible en: https://github.com/Sachithx/EntroPE.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) requieren información visual de alta resolución para realizar percepciones detalladas, sin embargo, procesar imágenes completas de alta resolución es computacionalmente prohibitivo. Si bien métodos recientes aprovechan un mecanismo de Región de Interés (RoI) para enfocarse en áreas destacadas, típicamente presentan una difícil disyuntiva: los enfoques basados en entrenamiento dependen de grandes conjuntos de datos anotados, mientras que los métodos libres de entrenamiento que utilizan la atención interna del modelo son computacionalmente ineficientes y menos precisos, requiriendo ya sea etapas de prellenado de múltiples pasos o dependencia del lento proceso de decodificación auto-regresiva. En este artículo, proponemos una Red de Propuesta de Regiones Auto-Distilada (SD-RPN) eficiente y libre de anotaciones que resuelve esta disyuntiva. La SD-RPN se construye alrededor de una canalización que transforma los mapas de atención ruidosos de las capas intermedias del MLLM en etiquetas pseudo-RoI de alta calidad, descomponiendo explícitamente el ruido y resolviendo la ambigüedad. Utilizamos estas etiquetas para entrenar una Red de Propuesta de Regiones (RPN) ligera que aprende una localización más precisa. Esta RPN también es altamente eficiente, prediciendo la RoI en un solo paso hacia adelante utilizando características de las capas intermedias del MLLM, desacoplando la identificación de RoI de la generación auto-regresiva y evitando operaciones costosas de múltiples pasos. Para validar nuestro enfoque, integramos el marco en la arquitectura LLaVA-1.5. A pesar de estar entrenado con solo unos pocos (por ejemplo, 10K) pares de preguntas-respuestas, nuestro método demuestra una excepcional eficiencia de datos y generalización, logrando una mejora de más del 10% en precisión absoluta en benchmarks no vistos, incluyendo TextVQA, DocVQA y V-Star. Nuestro trabajo presenta una solución práctica y escalable para mejorar la percepción detallada de los MLLMs sin requerir supervisión costosa o ajuste fino completo del modelo. El código está disponible en https://github.com/YuHengsss/SD-RPN.
Los modelos grandes de audio-lenguaje están avanzando rápidamente, pero la mayoría de las evaluaciones se centran en el habla o en sonidos de origen global, pasando por alto señales culturalmente distintivas. Esta brecha plantea una pregunta crítica: ¿pueden los modelos actuales generalizar a audios localizados y no semánticos que las comunidades reconocen al instante pero los forasteros no? Para abordar esto, presentamos TAU (Taiwan Audio Understanding), un punto de referencia de "soundmarks" cotidianos de Taiwán. TAU se construye mediante un proceso que combina fuentes curadas, edición humana y generación de preguntas asistida por LLM, produciendo 702 clips y 1,794 ítems de opción múltiple que no pueden resolverse únicamente con transcripciones. Los experimentos muestran que los LALMs de última generación, incluidos Gemini 2.5 y Qwen2-Audio, tienen un rendimiento muy inferior al de los humanos locales. TAU demuestra la necesidad de puntos de referencia localizados para revelar puntos ciegos culturales, guiar evaluaciones multimodales más equitativas y garantizar que los modelos sirvan a comunidades más allá de la corriente global dominante.
La IA moderna se basa en redes neuronales artificiales profundas (NN). Hasta 2025, el artículo científico más citado del siglo XXI es un trabajo sobre aprendizaje profundo residual con conexiones residuales. ¿Quién lo inventó? Presentamos una línea de tiempo de la evolución del aprendizaje profundo residual.
La compilación automática de proyectos de software de código abierto (OSS) es una tarea vital, intensiva en mano de obra y compleja, lo que la convierte en un desafío adecuado para los agentes basados en modelos de lenguaje grandes (LLM). Los métodos existentes dependen de reglas y flujos de trabajo curados manualmente, que no pueden adaptarse a OSS que requieren configuraciones personalizadas o preparación de entornos específicos. Intentos recientes que utilizan modelos de lenguaje grandes (LLM) se basaron en evaluaciones selectivas de un subconjunto de OSS altamente calificados, una práctica que subestima los desafíos realistas de la compilación de OSS. En la práctica, las instrucciones de compilación a menudo están ausentes, las dependencias no están documentadas, y las compilaciones exitosas pueden incluso requerir la modificación de archivos fuente o la alteración de scripts de compilación. Proponemos un punto de referencia más desafiante y realista, BUILD-BENCH, que comprende OSS más diversos en calidad, escala y características. Además, proponemos un agente basado en LLM como línea de base sólida, OSS-BUILD-AGENT, un sistema efectivo con un módulo mejorado de recuperación de instrucciones de compilación que logra un rendimiento de vanguardia en BUILD-BENCH y es adaptable a las características heterogéneas de OSS. También proporcionamos un análisis detallado sobre las diferentes opciones de diseño de métodos de compilación y su influencia en la tarea completa, ofreciendo ideas para guiar avances futuros. Creemos que el rendimiento en BUILD-BENCH puede reflejar fielmente la capacidad de un agente para abordar la compilación como una tarea compleja de ingeniería de software y, como tal, nuestro punto de referencia impulsará la innovación con un impacto significativo en aplicaciones posteriores en los campos del desarrollo de software y la seguridad del software.
Los modelos de difusión ofrecen un marco físicamente fundamentado para la predicción probabilística del clima, pero su dependencia típica de solucionadores iterativos y lentos durante la inferencia los hace poco prácticos para aplicaciones de subestacional a estacional (S2S), donde los plazos largos y la calibración basada en el dominio son esenciales. Para abordar esto, presentamos Swift, un modelo de consistencia de un solo paso que, por primera vez, permite el ajuste fino autorregresivo de un modelo de flujo de probabilidad con un objetivo de puntuación de probabilidad clasificada continua (CRPS). Esto elimina la necesidad de ensamblaje multimodelo o perturbaciones de parámetros. Los resultados muestran que Swift produce pronósticos hábiles cada 6 horas que permanecen estables hasta 75 días, ejecutándose 39 veces más rápido que los modelos de difusión de última generación, mientras logra una habilidad predictiva competitiva con el sistema operativo IFS ENS basado en métodos numéricos. Esto representa un paso hacia la predicción por conjuntos eficiente y confiable desde escalas de mediano plazo hasta estacionales.
Los diseñadores crean y editan diseños gráficos en una representación por capas, pero la edición basada en capas se vuelve imposible una vez que se compone en una imagen rasterizada. En este trabajo, proponemos LayerD, un método para descomponer diseños gráficos rasterizados en capas para un flujo de trabajo creativo re-editable. LayerD aborda la tarea de descomposición extrayendo iterativamente capas de primer plano no ocluidas. Proponemos un enfoque de refinamiento simple pero efectivo que aprovecha la suposición de que las capas suelen exhibir una apariencia uniforme en los diseños gráficos. Dado que la descomposición es un problema mal planteado y la estructura de capas de referencia puede no ser confiable, desarrollamos una métrica de calidad que aborda esta dificultad. En los experimentos, demostramos que LayerD logra con éxito una descomposición de alta calidad y supera a los métodos de referencia. También mostramos el uso de LayerD con generadores de imágenes de última generación y edición basada en capas.
La purificación adversaria con modelos de difusión ha surgido como una estrategia de defensa prometedora, pero los métodos existentes suelen depender de la inyección uniforme de ruido, que perturba indiscriminadamente todas las frecuencias, corrompiendo las estructuras semánticas y socavando la robustez. Nuestro estudio empírico revela que las perturbaciones adversarias no están distribuidas uniformemente: se concentran predominantemente en regiones de alta frecuencia, con patrones de intensidad de magnitud heterogéneos que varían según las frecuencias y los tipos de ataque. Motivados por esta observación, presentamos MANI-Pure, un marco de purificación adaptativa a la magnitud que aprovecha el espectro de magnitud de las entradas para guiar el proceso de purificación. En lugar de inyectar ruido homogéneo, MANI-Pure aplica de manera adaptativa ruido heterogéneo dirigido a frecuencias específicas, suprimiendo eficazmente las perturbaciones adversarias en las bandas frágiles de alta frecuencia y baja magnitud, mientras preserva el contenido semánticamente crítico de baja frecuencia. Experimentos exhaustivos en CIFAR-10 e ImageNet-1K validan la efectividad de MANI-Pure. Reduce la brecha de precisión en datos limpios a menos de 0.59 respecto al clasificador original, mientras aumenta la precisión robusta en 2.15, y logra la precisión robusta top-1 en el ranking de RobustBench, superando el método anterior más avanzado.
Los modelos existentes de generación multimodal de audio a menudo carecen de un control preciso por parte del usuario, lo que limita su aplicabilidad en flujos de trabajo profesionales de Foley. En particular, estos modelos se centran en el video completo y no proporcionan métodos precisos para priorizar un objeto específico dentro de una escena, generando sonidos de fondo innecesarios o enfocándose en los objetos incorrectos. Para abordar esta brecha, introducimos la novedosa tarea de generación de audio consciente de la segmentación de objetos en video, que condiciona explícitamente la síntesis de sonido en mapas de segmentación a nivel de objeto. Presentamos SAGANet, un nuevo modelo generativo multimodal que permite la generación controlada de audio al aprovechar máscaras de segmentación visual junto con señales de video y texto. Nuestro modelo proporciona a los usuarios un control granular y localizado visualmente sobre la generación de audio. Para apoyar esta tarea y fomentar más investigaciones sobre Foley consciente de la segmentación, proponemos Segmented Music Solos, un conjunto de datos de referencia de videos de interpretación de instrumentos musicales con información de segmentación. Nuestro método demuestra mejoras sustanciales sobre los métodos actuales más avanzados y establece un nuevo estándar para la síntesis de Foley controlable y de alta fidelidad. El código, muestras y Segmented Music Solos están disponibles en https://saganet.notion.site.
Los sistemas multiagente (MAS, por sus siglas en inglés) son cada vez más capaces de abordar tareas complejas del mundo real, aunque su dependencia de la coordinación entre agentes, el uso de herramientas y el razonamiento a largo plazo hace que el reconocimiento de errores sea particularmente desafiante. Errores menores pueden propagarse entre los agentes, escalando hasta convertirse en fallos en la tarea, mientras generan trayectorias de ejecución largas y entrelazadas que imponen costos significativos tanto para los desarrolladores humanos como para los sistemas automatizados al depurar y analizar. Nuestra idea clave es que, a pesar de las diferencias superficiales en las trayectorias de fallos (por ejemplo, registros), los errores en los MAS a menudo se repiten con patrones estructurales similares. Este artículo presenta CORRECT, el primer marco ligero y sin entrenamiento que aprovecha una caché en línea de esquemas de errores destilados para reconocer y transferir conocimiento sobre estructuras de fallos en nuevas solicitudes. Esta reutilización basada en caché permite que los LLM realicen una localización de errores dirigida en tiempo de inferencia, evitando la necesidad de un costoso reentrenamiento mientras se adapta a implementaciones dinámicas de MAS en fracciones de segundo. Para apoyar un estudio riguroso en este dominio, también presentamos CORRECT-Error, un conjunto de datos a gran escala de más de 2,000 trayectorias anotadas recopiladas a través de una novedosa canalización de inyección de errores guiada por distribuciones del mundo real, y validada adicionalmente mediante evaluación humana para garantizar la alineación con patrones de fallos naturales. Los experimentos en siete aplicaciones diversas de MAS muestran que CORRECT mejora la localización de errores a nivel de paso hasta un 19.8% en comparación con avances existentes, con un costo casi nulo, reduciendo sustancialmente la brecha entre el reconocimiento de errores automatizado y el nivel humano.
Los modelos fundamentales de series temporales (TSFMs, por sus siglas en inglés) ofrecen una sólida capacidad de pronóstico sin ajuste previo (zero-shot) mediante entrenamiento a gran escala, aunque el ajuste fino sigue siendo crucial para mejorar el rendimiento en dominios con datos públicos limitados. Con el creciente número de TSFMs, identificar de manera eficiente el mejor modelo para el ajuste fino en tareas posteriores se vuelve cada vez más desafiante. En este trabajo, presentamos TimeTic, un marco de estimación de transferibilidad que reformula la selección de modelos como un problema de aprendizaje en contexto (in-context learning): dado un conjunto de observaciones en conjuntos de datos conocidos (fuente), predice cómo se desempeñará un TSFM después de ajustarse en un conjunto de datos objetivo (target). TimeTic organiza de manera flexible las relaciones observadas entre modelos y datos como información contextual, permitiéndole adaptarse sin problemas a diversos escenarios de prueba. Aprovechando la estructura tabular natural formada por las meta-características de los conjuntos de datos, las características de los modelos y el rendimiento ajustado, empleamos modelos fundamentales tabulares como aprendices en contexto. Además, introducimos una novedosa caracterización de modelos basada en la evolución de la entropía a través de las capas del modelo, capturando distinciones en el espacio de incrustaciones y permitiendo que TimeTic generalice a través de conjuntos de modelos arbitrarios. Establecemos un punto de referencia integral para la estimación de transferibilidad, que incluye 10 conjuntos de datos, 10 modelos fundamentales y 3 tareas de pronóstico. En este punto de referencia, la estimación de TimeTic demuestra una fuerte alineación con el rendimiento real ajustado para conjuntos de datos previamente no vistos, logrando una correlación de rangos media de aproximadamente 0.6 y una mejora del 30% en comparación con el uso del rendimiento sin ajuste previo como puntuación de transferibilidad.
Presentamos el Convolutional Set Transformer (CST), una novedosa arquitectura neuronal diseñada para procesar conjuntos de imágenes de cardinalidad arbitraria que son visualmente heterogéneos pero comparten semántica de alto nivel, como una categoría, escena o concepto común. Las redes existentes que aceptan conjuntos como entrada, por ejemplo, Deep Sets y Set Transformer, están limitadas a entradas vectoriales y no pueden manejar directamente tensores de imágenes 3D. Como resultado, deben combinarse con un extractor de características, típicamente una CNN, que codifica las imágenes en embeddings antes de que la red que acepta conjuntos pueda modelar las relaciones entre imágenes. En contraste, CST opera directamente sobre tensores de imágenes 3D, realizando la extracción de características y el modelado contextual de manera simultánea, lo que permite sinergias entre ambos procesos. Este diseño ofrece un rendimiento superior en tareas como Clasificación de Conjuntos y Detección de Anomalías en Conjuntos, además de proporcionar compatibilidad nativa con métodos de explicabilidad de CNN como Grad-CAM, a diferencia de enfoques competidores que permanecen opacos. Finalmente, demostramos que los CST pueden ser preentrenados en conjuntos de datos a gran escala y posteriormente adaptados a nuevos dominios y tareas mediante esquemas estándar de Transfer Learning. Para apoyar investigaciones futuras, publicamos CST-15, un backbone de CST preentrenado en ImageNet (https://github.com/chinefed/convolutional-set-transformer).
Si bien los modelos de lenguaje grandes (LLMs) con capacidades de razonamiento están avanzando rápidamente en competencias matemáticas de nivel secundario y en programación, ¿pueden razonar efectivamente a través de desafíos complejos y abiertos que se encuentran en la investigación de frontera en física? Y, crucialmente, ¿qué tipos de tareas de razonamiento quieren los físicos que los LLMs les ayuden a resolver? Para abordar estas preguntas, presentamos CritPt (Complex Research using Integrated Thinking - Physics Test, pronunciado "punto crítico"), el primer punto de referencia diseñado para evaluar LLMs en tareas de razonamiento a nivel de investigación no publicadas que cubren ampliamente áreas modernas de investigación en física, incluyendo materia condensada, física cuántica, física atómica, molecular y óptica, astrofísica, física de altas energías, física matemática, física estadística, física nuclear, dinámica no lineal, dinámica de fluidos y biofísica. CritPt consta de 71 desafíos de investigación compuestos diseñados para simular proyectos de investigación completos a nivel de entrada, los cuales también se descomponen en 190 tareas de puntos de control más simples para obtener insights más detallados. Todos los problemas son creados recientemente por más de 50 investigadores activos en física basados en su propia investigación. Cada problema es cuidadosamente seleccionado para admitir una respuesta resistente a conjeturas y verificable por máquina, y es evaluado mediante una canalización de calificación automatizada altamente personalizada para formatos de salida específicos de física avanzada. Encontramos que, aunque los LLMs de última generación actuales muestran una promesa temprana en puntos de control aislados, todavía están lejos de poder resolver de manera confiable desafíos completos a escala de investigación: la mejor precisión promedio entre los modelos base es solo del 4.0%, lograda por GPT-5 (alto), aumentando moderadamente a alrededor del 10% cuando se equipan con herramientas de programación. A través de la evaluación realista pero estandarizada que ofrece CritPt, destacamos una gran desconexión entre las capacidades actuales de los modelos y las demandas realistas de investigación en física, ofreciendo una base para guiar el desarrollo de herramientas de IA fundamentadas científicamente.
La marca de agua para modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) incrusta una señal estadística durante la generación de texto para permitir la detección de contenido producido por el modelo. Aunque la marca de agua ha demostrado ser efectiva en entornos benignos, su robustez frente a evasiones adversarias sigue siendo cuestionada. Para avanzar en una comprensión y evaluación rigurosas de estas vulnerabilidades, proponemos el Ataque de Reescribimiento por Inversión de Sesgo (BIRA, por sus siglas en inglés), que está teóricamente fundamentado y es independiente del modelo. BIRA debilita la señal de la marca de agua al suprimir los logits de los tokens probablemente marcados durante el reescribimiento basado en LLM, sin necesidad de conocer el esquema subyacente de la marca de agua. En métodos recientes de marca de agua, BIRA logra una evasión superior al 99\% mientras preserva el contenido semántico del texto original. Más allá de demostrar un ataque, nuestros resultados revelan una vulnerabilidad sistemática, enfatizando la necesidad de pruebas de estrés y defensas robustas.
Los recientes avances en generación de video han permitido la síntesis de videos de alta fidelidad a partir de indicaciones proporcionadas por el usuario. Sin embargo, los modelos y puntos de referencia existentes no logran capturar la complejidad y los requisitos de la generación profesional de videos. Con ese objetivo, presentamos Stable Cinemetrics, un marco de evaluación estructurado que formaliza los controles de realización cinematográfica en cuatro taxonomías jerárquicas y desacopladas: Configuración, Evento, Iluminación y Cámara. Juntas, estas taxonomías definen 76 nodos de control detallados basados en prácticas de la industria. Utilizando estas taxonomías, construimos un conjunto de indicaciones alineadas con casos de uso profesionales y desarrollamos una canalización automatizada para la categorización de indicaciones y la generación de preguntas, lo que permite la evaluación independiente de cada dimensión de control. Realizamos un estudio a gran escala con humanos que abarca más de 10 modelos y 20,000 videos, anotados por un grupo de más de 80 profesionales del cine. Nuestro análisis, tanto general como detallado, revela que incluso los modelos actuales más sólidos presentan brechas significativas, particularmente en los controles relacionados con Eventos y Cámara. Para permitir una evaluación escalable, entrenamos un evaluador automático, un modelo de visión y lenguaje alineado con las anotaciones de expertos que supera a los puntos de referencia existentes de cero disparos. SCINE es el primer enfoque que sitúa la generación profesional de videos dentro del panorama de los modelos generativos de video, introduciendo taxonomías centradas en controles cinematográficos y respaldándolas con canalizaciones de evaluación estructuradas y análisis detallados para guiar futuras investigaciones.
Los enfoques existentes para la estimación de la competencia en habilidades a menudo dependen de clasificadores de video de caja negra, ignorando el contexto de múltiples vistas y careciendo de explicabilidad. Presentamos ProfVLM, un modelo compacto de visión y lenguaje que reformula esta tarea como un razonamiento generativo: predice conjuntamente el nivel de habilidad y genera comentarios similares a los de expertos a partir de videos egocéntricos y exocéntricos. El núcleo de nuestro método es un Proyector con Compuerta Atenta que fusiona dinámicamente características de múltiples vistas, proyectadas desde una arquitectura congelada de TimeSformer hacia un modelo de lenguaje ajustado para la generación de comentarios. Entrenado en EgoExo4D con comentarios de expertos, ProfVLM supera a los métodos más avanzados mientras utiliza hasta 20 veces menos parámetros y reduce el tiempo de entrenamiento hasta en un 60%. Nuestro enfoque no solo logra una precisión superior en diversas actividades, sino que también produce críticas en lenguaje natural alineadas con el rendimiento, ofreciendo un razonamiento transparente. Estos resultados destacan el modelado generativo de visión y lenguaje como una nueva y poderosa dirección para la evaluación de habilidades.
Hacia una edición inteligente de imágenes, la eliminación de objetos debería eliminar tanto el objeto objetivo como sus artefactos visuales causales, como sombras y reflejos. Sin embargo, los métodos existentes basados en la apariencia de la imagen siguen estrictamente un entrenamiento alineado con máscaras y no logran eliminar estos efectos causales que no están explícitamente enmascarados, o adoptan estrategias de alineación de máscaras poco estrictas que carecen de controlabilidad y pueden borrar involuntariamente otros objetos. Identificamos que estas limitaciones surgen de ignorar la relación causal entre la presencia geométrica de un objeto y sus efectos visuales. Para abordar esta limitación, proponemos un marco de trabajo en dos etapas consciente de la geometría que desacopla la eliminación de objetos en (1) eliminación geométrica y (2) renderizado de apariencia. En la primera etapa, eliminamos el objeto directamente de la geometría (por ejemplo, profundidad) utilizando una supervisión estrictamente alineada con máscaras, permitiendo una edición consciente de la estructura con fuertes restricciones geométricas. En la segunda etapa, renderizamos una imagen RGB fotorrealista condicionada por la geometría actualizada, donde los efectos visuales causales se consideran implícitamente como resultado de la geometría 3D modificada. Para guiar el aprendizaje en la etapa de eliminación geométrica, introducimos un objetivo basado en preferencias utilizando pares de muestras positivas y negativas, incentivando al modelo a eliminar objetos junto con sus artefactos visuales causales mientras se evitan inserciones estructurales nuevas. Experimentos extensivos demuestran que nuestro método alcanza un rendimiento de vanguardia en la eliminación tanto de objetos como de sus artefactos asociados en dos benchmarks populares. El código está disponible en https://github.com/buxiangzhiren/GeoRemover.