Artículos de investigación en IA seleccionados diariamente con traducciones
La unificación de la comprensión y generación multimodal ha demostrado capacidades impresionantes en sistemas propietarios de vanguardia. En este trabajo, presentamos BAGEL, un modelo fundacional de código abierto que soporta de manera nativa la comprensión y generación multimodal. BAGEL es un modelo unificado, exclusivamente de decodificación, preentrenado con billones de tokens seleccionados de datos intercalados a gran escala que incluyen texto, imágenes, videos y contenido web. Al escalarse con datos intercalados multimodales tan diversos, BAGEL exhibe capacidades emergentes en razonamiento multimodal complejo. Como resultado, supera significativamente a los modelos unificados de código abierto tanto en generación como en comprensión multimodal en benchmarks estándar, al tiempo que muestra habilidades avanzadas de razonamiento multimodal, como la manipulación libre de imágenes, la predicción de fotogramas futuros, la manipulación 3D y la navegación en entornos virtuales. Con el objetivo de facilitar nuevas oportunidades para la investigación multimodal, compartimos los hallazgos clave, los detalles del preentrenamiento, el protocolo de creación de datos, y liberamos nuestro código y puntos de control para la comunidad. La página del proyecto se encuentra en https://bagel-ai.org/.
La eficiencia de la atención es importante debido a su complejidad temporal cuadrática. Mejoramos la eficiencia de la atención a través de dos contribuciones clave: En primer lugar, aprovechamos los nuevos Tensor Cores FP4 en las GPU Blackwell para acelerar el cálculo de la atención. Nuestra implementación alcanza 1038 TOPS en la RTX5090, lo que representa una aceleración de 5x sobre la implementación más rápida de FlashAttention en la RTX5090. Los experimentos muestran que nuestra atención FP4 puede acelerar la inferencia de varios modelos de manera plug-and-play. En segundo lugar, somos pioneros en aplicar la atención de bajo bit a tareas de entrenamiento. Trabajos existentes sobre atención de bajo bit, como FlashAttention3 y SageAttention, se centran únicamente en la inferencia. Sin embargo, la eficiencia en el entrenamiento de modelos grandes también es crucial. Para explorar si la atención de bajo bit puede aplicarse efectivamente a tareas de entrenamiento, diseñamos una atención de 8 bits precisa y eficiente tanto para la propagación hacia adelante como hacia atrás. Los experimentos indican que la atención de 8 bits logra un rendimiento sin pérdidas en tareas de ajuste fino, pero muestra una convergencia más lenta en tareas de preentrenamiento. El código estará disponible en https://github.com/thu-ml/SageAttention.
Los modelos de recompensa desempeñan un papel crucial para guiar a los modelos de lenguaje grandes hacia resultados que se alinean con las expectativas humanas. Sin embargo, sigue existiendo un desafío abierto en la utilización efectiva del cómputo en tiempo de prueba para mejorar el rendimiento de los modelos de recompensa. En este trabajo, presentamos los Modelos de Razonamiento de Recompensa (RRMs, por sus siglas en inglés), que están específicamente diseñados para ejecutar un proceso de razonamiento deliberado antes de generar recompensas finales. A través del razonamiento en cadena de pensamiento, los RRMs aprovechan cómputo adicional en tiempo de prueba para consultas complejas donde las recompensas adecuadas no son inmediatamente evidentes. Para desarrollar los RRMs, implementamos un marco de aprendizaje por refuerzo que fomenta capacidades de razonamiento de recompensa autoevolucionadas sin requerir trazas de razonamiento explícitas como datos de entrenamiento. Los resultados experimentales demuestran que los RRMs logran un rendimiento superior en puntos de referencia de modelado de recompensas en diversos dominios. En particular, mostramos que los RRMs pueden explotar de manera adaptativa el cómputo en tiempo de prueba para mejorar aún más la precisión de las recompensas. Los modelos preentrenados de razonamiento de recompensa están disponibles en https://huggingface.co/Reward-Reasoning.
La escalabilidad del cómputo en tiempo de prueba es crucial para mejorar las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Los enfoques existentes suelen emplear aprendizaje por refuerzo (RL, por sus siglas en inglés) para maximizar una recompensa verificable obtenida al final de las trazas de razonamiento. Sin embargo, estos métodos optimizan únicamente el rendimiento final bajo un presupuesto de tokens grande y fijo, lo que dificulta la eficiencia tanto en el entrenamiento como en la implementación. En este trabajo, presentamos un marco novedoso, AnytimeReasoner, para optimizar el rendimiento de razonamiento en cualquier momento, con el objetivo de mejorar la eficiencia de los tokens y la flexibilidad del razonamiento bajo restricciones variables de presupuesto de tokens. Para lograrlo, truncamos el proceso de pensamiento completo para que se ajuste a presupuestos de tokens muestreados de una distribución previa, obligando al modelo a resumir la respuesta óptima para cada pensamiento truncado con fines de verificación. Esto introduce recompensas densas verificables en el proceso de razonamiento, facilitando una asignación de crédito más efectiva en la optimización de RL. Luego, optimizamos las políticas de pensamiento y resumen de manera desacoplada para maximizar la recompensa acumulada. Además, introducimos una técnica novedosa de reducción de varianza, la Optimización de Políticas Relativas al Presupuesto (BRPO, por sus siglas en inglés), para mejorar la robustez y eficiencia del proceso de aprendizaje al reforzar la política de pensamiento. Los resultados empíricos en tareas de razonamiento matemático demuestran que nuestro método supera consistentemente a GRPO en todos los presupuestos de pensamiento bajo diversas distribuciones previas, mejorando tanto la eficiencia del entrenamiento como la de los tokens.
Los predictores neurosimbólicos (NeSy) combinan percepción neuronal con razonamiento simbólico para resolver tareas como el razonamiento visual. Sin embargo, los predictores NeSy estándar asumen independencia condicional entre los símbolos que extraen, lo que limita su capacidad para modelar interacciones e incertidumbre, lo que a menudo conduce a predicciones demasiado confiadas y una pobre generalización fuera de distribución. Para superar las limitaciones del supuesto de independencia, introducimos los modelos de difusión neurosimbólicos (NeSyDMs), una nueva clase de predictores NeSy que utilizan difusión discreta para modelar dependencias entre símbolos. Nuestro enfoque reutiliza el supuesto de independencia de los predictores NeSy en cada paso del proceso de difusión, permitiendo un aprendizaje escalable mientras captura dependencias entre símbolos y cuantificación de incertidumbre. En diversos benchmarks, tanto sintéticos como del mundo real —incluyendo planificación de rutas visuales de alta dimensión y conducción autónoma basada en reglas—, los NeSyDMs logran una precisión de vanguardia entre los predictores NeSy y demuestran una fuerte calibración.
Una tendencia clave en los Modelos de Razonamiento a Gran Escala (por ejemplo, o3 de OpenAI) es la capacidad agéntica nativa de utilizar herramientas externas como navegadores web para buscar y escribir/ejecutar código para la manipulación de imágenes, permitiendo razonar con imágenes. En la comunidad de investigación de código abierto, si bien se ha logrado un progreso significativo en las capacidades agénticas basadas únicamente en lenguaje, como la llamada de funciones y la integración de herramientas, el desarrollo de capacidades agénticas multimodales que involucren un verdadero razonamiento con imágenes, y sus correspondientes puntos de referencia, aún está menos explorado. Este trabajo destaca la efectividad del Ajuste Fino de Refuerzo Agéntico Visual (Visual-ARFT) para habilitar habilidades de razonamiento flexibles y adaptativas en los Modelos de Lenguaje y Visión a Gran Escala (LVLMs). Con Visual-ARFT, los LVLMs de código abierto adquieren la capacidad de navegar por sitios web para obtener actualizaciones de información en tiempo real y escribir código para manipular y analizar imágenes de entrada mediante técnicas de procesamiento de imágenes como recorte, rotación y otras. También presentamos un Banco de Herramientas Agénticas Multimodales (MAT) con dos configuraciones (MAT-Búsqueda y MAT-Codificación) diseñado para evaluar las capacidades agénticas de búsqueda y codificación de los LVLMs. Nuestros resultados experimentales demuestran que Visual-ARFT supera a su línea base en un +18.6% F1 / +13.0% EM en MAT-Codificación y +10.3% F1 / +8.7% EM en MAT-Búsqueda, superando finalmente a GPT-4o. Visual-ARFT también logra ganancias de +29.3% F1 / +25.9% EM en puntos de referencia existentes de preguntas y respuestas de múltiples saltos, como 2Wiki y HotpotQA, demostrando fuertes capacidades de generalización. Nuestros hallazgos sugieren que Visual-ARFT ofrece un camino prometedor hacia la construcción de agentes multimodales robustos y generalizables.
DeepSeek-R1 ha demostrado una notable efectividad para incentivar las capacidades de razonamiento y generalización de los modelos de lenguaje grandes (LLMs) mediante el aprendizaje por refuerzo. Sin embargo, el potencial del modelado computacional inducido por razonamiento no ha sido explorado a fondo en el contexto de la evaluación de la calidad de imágenes (IQA), una tarea que depende críticamente del razonamiento visual. En este artículo, presentamos VisualQuality-R1, un modelo de IQA sin referencia (NR-IQA) inducido por razonamiento, y lo entrenamos con aprendizaje por refuerzo para clasificar, un algoritmo de aprendizaje adaptado a la naturaleza intrínsecamente relativa de la calidad visual. Específicamente, para un par de imágenes, empleamos la optimización de políticas relativas por grupos para generar múltiples puntuaciones de calidad para cada imagen. Estas estimaciones se utilizan luego para calcular probabilidades comparativas de que una imagen tenga mayor calidad que la otra bajo el modelo de Thurstone. Las recompensas para cada estimación de calidad se definen utilizando medidas de fidelidad continuas en lugar de etiquetas binarias discretizadas. Experimentos exhaustivos muestran que el propuesto VisualQuality-R1 supera consistentemente a los modelos NR-IQA basados en aprendizaje profundo discriminativo, así como a un método reciente de regresión de calidad inducido por razonamiento. Además, VisualQuality-R1 es capaz de generar descripciones de calidad contextualmente ricas y alineadas con la percepción humana, y admite el entrenamiento con múltiples conjuntos de datos sin requerir realineación de escalas perceptuales. Estas características hacen que VisualQuality-R1 sea especialmente adecuado para medir de manera confiable el progreso en una amplia gama de tareas de procesamiento de imágenes, como la super-resolución y la generación de imágenes.
Los Transformers, la implementación estándar para los modelos de lenguaje de gran escala (LLMs), suelen consistir en decenas o cientos de capas discretas. Aunque un mayor número de capas puede mejorar el rendimiento, este enfoque ha sido cuestionado por su falta de eficiencia, especialmente dada la superioridad de las capas continuas demostrada por los modelos basados en difusión y flujo para la generación de imágenes. Proponemos el Transformer de Flujo Latente (LFT), que reemplaza un bloque de capas con un único operador de transporte aprendido mediante el emparejamiento de flujos, ofreciendo una compresión significativa mientras mantiene la compatibilidad con la arquitectura original. Además, abordamos las limitaciones de los métodos basados en flujo existentes para preservar el acoplamiento mediante la introducción del algoritmo Caminata de Flujo (FW). En el modelo Pythia-410M, el LFT entrenado con emparejamiento de flujos comprime 6 de 24 capas y supera el rendimiento de saltar directamente 2 capas (Divergencia KL de los logits del modelo de lenguaje en 0.407 frente a 0.529), demostrando la viabilidad de este diseño. Cuando se entrena con FW, el LFT destila además 12 capas en una mientras reduce la KL a 0.736, superando el resultado de saltar 3 capas (0.932), lo que reduce significativamente la brecha entre los paradigmas de generación autoregresiva y basada en flujo.
Propósito: Con los avances en los Modelos de Lenguaje de Gran Escala (LLMs) para el sector de la salud, surge la necesidad de modelos de código abierto competitivos para proteger el interés público. Este trabajo contribuye al campo de los LLMs médicos de código abierto optimizando etapas clave del preprocesamiento de datos y el entrenamiento, mientras demuestra cómo mejorar la seguridad del modelo (a través de DPO) y su eficacia (a través de RAG). La metodología de evaluación utilizada, que incluye cuatro tipos diferentes de pruebas, define un nuevo estándar para el campo. Los modelos resultantes, que demuestran ser competitivos con las mejores alternativas privadas, se publican bajo una licencia permisiva. Métodos: Basándose en modelos base sólidos como Llama 3.1 y Qwen 2.5, Aloe Beta utiliza un conjunto de datos personalizado para mejorar los datos públicos con ejemplos sintéticos de Cadena de Pensamiento. Los modelos se alinean mediante la Optimización de Preferencias Directas, enfatizando un rendimiento ético y alineado con políticas en presencia de ataques de jailbreaking. La evaluación incluye pruebas de respuesta cerrada, abierta, de seguridad y evaluaciones humanas, para maximizar la confiabilidad de los resultados. Resultados: Se realizan recomendaciones en toda la cadena de desarrollo, respaldadas por el sólido rendimiento de la Familia Aloe. Estos modelos ofrecen un rendimiento competitivo en los puntos de referencia de atención médica y campos médicos, y a menudo son preferidos por profesionales de la salud. En cuanto a sesgo y toxicidad, los modelos Aloe Beta mejoran significativamente la seguridad, mostrando resistencia a ataques de jailbreaking no vistos. Para una liberación responsable, se adjunta una evaluación de riesgos detallada específica para el sector de la salud a los modelos de la Familia Aloe. Conclusión: Los modelos Aloe Beta, y la receta que los produce, representan una contribución significativa al campo de los LLMs médicos de código abierto, ofreciendo un rendimiento de primer nivel mientras mantienen altos requisitos éticos. Este trabajo establece un nuevo estándar para el desarrollo y la presentación de LLMs alineados en el ámbito de la salud.
El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha demostrado recientemente un gran potencial para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés). En particular, el "Zero" aprendizaje por refuerzo introducido por Deepseek-R1-Zero permite el entrenamiento directo de RL en LLMs base sin depender de una etapa intermedia de ajuste fino supervisado. A pesar de estos avances, los trabajos actuales sobre el razonamiento de LLMs se centran principalmente en dominios matemáticos y de programación, en gran parte debido a la abundancia de datos y la facilidad de verificación de respuestas. Esto limita la aplicabilidad y generalización de dichos modelos a dominios más amplios, donde las preguntas suelen tener representaciones de respuestas diversas y los datos son más escasos. En este artículo, proponemos General-Reasoner, un paradigma de entrenamiento novedoso diseñado para mejorar las capacidades de razonamiento de los LLMs en diversos dominios. Nuestras contribuciones clave incluyen: (1) la construcción de un conjunto de datos a gran escala y de alta calidad de preguntas con respuestas verificables, recopiladas mediante rastreo web, que abarca una amplia gama de disciplinas; y (2) el desarrollo de un verificador de respuestas basado en modelos generativos, que reemplaza la verificación tradicional basada en reglas con la capacidad de cadena de pensamiento y conciencia contextual. Entrenamos una serie de modelos y los evaluamos en una amplia gama de conjuntos de datos que cubren dominios como física, química, finanzas, electrónica, etc. Nuestra evaluación exhaustiva en estos 12 puntos de referencia (por ejemplo, MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH y MATH AMC) demuestra que General-Reasoner supera los métodos de referencia existentes, logrando un rendimiento de razonamiento robusto y generalizable mientras mantiene una eficacia superior en tareas de razonamiento matemático.
Los modelos recientes de razonamiento a gran escala (LRMs, por sus siglas en inglés) han demostrado capacidades de razonamiento sustancialmente mejoradas en comparación con los modelos tradicionales de lenguaje a gran escala (LLMs) al incorporar procesos de pensamiento extendido antes de generar respuestas finales. Sin embargo, un pensamiento excesivamente prolongado introduce una sobrecarga significativa en términos de consumo de tokens y latencia, lo cual resulta particularmente innecesario para consultas simples. En este trabajo, presentamos los Modelos de Razonamiento Híbrido a Gran Escala (LHRMs), el primer tipo de modelo capaz de determinar de manera adaptativa si realizar o no un proceso de pensamiento basado en la información contextual de las consultas del usuario. Para lograrlo, proponemos un pipeline de entrenamiento en dos etapas que incluye un Ajuste Fino Híbrido (HFT) como punto de partida inicial, seguido de un aprendizaje por refuerzo en línea con la Optimización de Política de Grupo Híbrido (HGPO) propuesta, con el fin de aprender implícitamente a seleccionar el modo de pensamiento adecuado. Además, introducimos una métrica llamada Precisión Híbrida para evaluar cuantitativamente la capacidad del modelo para el pensamiento híbrido. Los resultados experimentales extensivos muestran que los LHRMs pueden realizar de manera adaptativa un pensamiento híbrido en consultas de diversa dificultad y tipo. Superan a los LRMs y LLMs existentes tanto en capacidades de razonamiento como generales, al tiempo que mejoran significativamente la eficiencia. En conjunto, nuestro trabajo aboga por una reconsideración del uso apropiado de los procesos de pensamiento extendido y proporciona un punto de partida sólido para la construcción de sistemas de pensamiento híbrido.
A pesar de sus fortalezas, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) a menudo no logran comunicar su confianza con precisión, lo que dificulta evaluar cuándo podrían estar equivocados y limita su fiabilidad. En este trabajo, demostramos que los modelos de razonamiento—LLMs que realizan cadenas de pensamiento (CoT, por sus siglas en inglés) extendidas—exhiben un rendimiento superior no solo en la resolución de problemas, sino también en expresar su confianza de manera precisa. Específicamente, evaluamos seis modelos de razonamiento en seis conjuntos de datos y encontramos que logran una calibración de confianza estrictamente mejor que sus contrapartes no razonadoras en 33 de los 36 escenarios. Nuestro análisis detallado revela que estas mejoras en la calibración se deben a los comportamientos de pensamiento lento de los modelos de razonamiento—como explorar enfoques alternativos y retroceder—lo que les permite ajustar su confianza dinámicamente a lo largo de su CoT, haciéndola progresivamente más precisa. En particular, observamos que los modelos de razonamiento se calibran cada vez mejor a medida que su CoT se desarrolla, una tendencia que no se observa en los modelos no razonadores. Además, eliminar los comportamientos de pensamiento lento del CoT conduce a una caída significativa en la calibración. Por último, mostramos que estas mejoras no son exclusivas de los modelos de razonamiento—los modelos no razonadores también se benefician cuando se les guía para realizar pensamiento lento mediante aprendizaje en contexto.
Los modelos de lenguaje recientes centrados en razonamiento logran una alta precisión generando extensas trayectorias de razonamiento intermedias antes de producir respuestas finales. Si bien este enfoque es efectivo para resolver problemas que requieren pensamiento lógico, las trayectorias de razonamiento largas aumentan significativamente el uso de memoria y el rendimiento en la generación de tokens, limitando el despliegue práctico de dichos modelos. Proponemos Compresión de Trayectorias de Razonamiento (RPC, por sus siglas en inglés), un método sin entrenamiento que acelera la inferencia aprovechando la escasez semántica de las trayectorias de razonamiento. RPC comprime periódicamente la caché KV reteniendo las entradas de la caché KV que reciben una puntuación de importancia alta, la cual se calcula utilizando una ventana selectora compuesta por consultas generadas recientemente. Los experimentos muestran que RPC mejora el rendimiento de generación de QwQ-32B hasta 1.60 veces en comparación con la inferencia utilizando la caché KV completa, con una disminución de precisión del 1.2% en el benchmark AIME 2024. Nuestros hallazgos demuestran que la escasez semántica en las trazas de razonamiento puede explotarse eficazmente para la compresión, ofreciendo una vía práctica hacia el despliegue eficiente de modelos de lenguaje de razonamiento (LLMs). Nuestro código está disponible en https://github.com/jiwonsong-dev/ReasoningPathCompression.
El desarrollo de capacidades de razonamiento de propósito general ha sido durante mucho tiempo un problema desafiante en la IA. Investigaciones recientes en modelos de lenguaje de gran escala (LLMs), como DeepSeek-R1, han demostrado que técnicas de aprendizaje por refuerzo como GRPO pueden permitir que LLMs preentrenados desarrollen capacidades de razonamiento utilizando pares simples de preguntas y respuestas. En este artículo, nuestro objetivo es entrenar modelos de lenguaje visual (VLMs) para realizar razonamientos sobre datos de imágenes mediante aprendizaje por refuerzo y pares de preguntas y respuestas visuales, sin ninguna supervisión explícita de cadena de pensamiento (CoT). Nuestros hallazgos indican que simplemente aplicar aprendizaje por refuerzo a un VLM —solicitando al modelo que produzca una cadena de razonamiento antes de proporcionar una respuesta— puede llevar al modelo a desarrollar atajos a partir de preguntas fáciles, reduciendo así su capacidad para generalizar en distribuciones de datos no vistas. Argumentamos que la clave para mitigar el aprendizaje de atajos es alentar al modelo a interpretar las imágenes antes de razonar. Por lo tanto, entrenamos al modelo para que siga un formato de salida de descripción-razonamiento-respuesta: primero generando una descripción detallada de una imagen, seguida de la construcción de una cadena de razonamiento extensa. Cuando se entrena con 273K pares de preguntas y respuestas visuales sin CoT y utilizando solo aprendizaje por refuerzo, nuestro modelo, denominado Visionary-R1, supera a modelos multimodales potentes, como GPT-4o, Claude3.5-Sonnet y Gemini-1.5-Pro, en múltiples benchmarks de razonamiento visual.
La creación inteligente de juegos representa un avance transformador en el desarrollo de videojuegos, utilizando inteligencia artificial generativa para producir y mejorar dinámicamente el contenido del juego. A pesar de los progresos notables en los modelos generativos, la síntesis integral de recursos de juego de alta calidad, incluyendo tanto imágenes como videos, sigue siendo una frontera desafiante. Para crear contenido de juego de alta fidelidad que, al mismo tiempo, se alinee con las preferencias de los jugadores y aumente significativamente la eficiencia de los diseñadores, presentamos Hunyuan-Game, un proyecto innovador diseñado para revolucionar la producción inteligente de juegos. Hunyuan-Game abarca dos ramas principales: generación de imágenes y generación de videos. El componente de generación de imágenes se basa en un vasto conjunto de datos que incluye miles de millones de imágenes de juegos, lo que ha llevado al desarrollo de un grupo de modelos personalizados de generación de imágenes adaptados para escenarios de juegos: (1) Generación General de Texto a Imagen. (2) Generación de Efectos Visuales de Juegos, que incluye la generación de efectos visuales basados en texto y en imágenes de referencia. (3) Generación de Imágenes Transparentes para personajes, escenarios y efectos visuales de juegos. (4) Generación de Personajes de Juegos basada en bocetos, imágenes en blanco y negro y modelos blancos. El componente de generación de videos se basa en un conjunto de datos exhaustivo de millones de videos de juegos y anime, lo que ha llevado al desarrollo de cinco modelos algorítmicos centrales, cada uno enfocado en puntos críticos del desarrollo de juegos y con una robusta adaptación a diversos escenarios de videos de juegos: (1) Generación de Imagen a Video. (2) Síntesis de Video de Avatar con Pose 360 A/T. (3) Generación de Ilustraciones Dinámicas. (4) Superresolución Generativa de Video. (5) Generación Interactiva de Videos de Juegos. Estos modelos de generación de imágenes y videos no solo exhiben una expresión estética de alto nivel, sino que también integran profundamente el conocimiento específico del dominio, estableciendo una comprensión sistemática de diversos estilos artísticos de juegos y anime.
Los modelos multimodales grandes (LMMs, por sus siglas en inglés) han surgido recientemente como una herramienta poderosa para la comprensión de videos largos (LVU, por sus siglas en inglés), lo que ha impulsado el desarrollo de benchmarks estandarizados de LVU para evaluar su rendimiento. Sin embargo, nuestra investigación revela una lección bastante sobria sobre los benchmarks de LVU existentes. En primer lugar, la mayoría de los benchmarks actuales dependen en gran medida de preguntas de opción múltiple (MCQs, por sus siglas en inglés), cuyos resultados de evaluación están inflados debido a la posibilidad de adivinar la respuesta correcta. En segundo lugar, una parte significativa de las preguntas en estos benchmarks tiene fuertes sesgos que permiten a los modelos responder directamente sin siquiera ver el video de entrada. Por ejemplo, Gemini-1.5-Pro puede alcanzar una precisión superior al 50% con solo un fotograma aleatorio de un video largo en Video-MME. También observamos que aumentar el número de fotogramas no necesariamente conduce a una mejora en los benchmarks existentes, lo cual es contraintuitivo. Como resultado, la validez y robustez de los benchmarks de LVU actuales se ven comprometidas, obstaculizando una evaluación fiel de la capacidad de los LMMs para comprender videos largos. Para abordar este problema, proponemos VideoEval-Pro, un benchmark realista de LVU que contiene preguntas de respuesta corta abierta, las cuales verdaderamente requieren comprender el video completo. VideoEval-Pro evalúa tanto la comprensión a nivel de segmento como la comprensión del video completo a través de tareas de percepción y razonamiento. Al evaluar 21 LMMs de video, tanto propietarios como de código abierto, concluimos los siguientes hallazgos: (1) los LMMs de video muestran caídas drásticas en el rendimiento (>25%) en preguntas abiertas en comparación con las MCQs; (2) sorprendentemente, puntuaciones más altas en MCQs no conducen a puntuaciones más altas en preguntas abiertas en VideoEval-Pro; (3) en comparación con otros benchmarks de MCQs, VideoEval-Pro se beneficia más al aumentar el número de fotogramas de entrada. Nuestros resultados muestran que VideoEval-Pro ofrece una medida más realista y confiable de la comprensión de videos largos, proporcionando una visión más clara del progreso en este dominio.
El cambio de código (CS, por sus siglas en inglés) representa un desafío significativo para los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), sin embargo, su comprensibilidad sigue siendo poco explorada en estos modelos. Presentamos CS-Sum, una herramienta para evaluar la comprensibilidad del CS por parte de los LLMs a través de la resumen de diálogos con CS al inglés. CS-Sum es el primer punto de referencia para la resumen de diálogos con CS en pares de idiomas como mandarín-inglés (EN-ZH), tamil-inglés (EN-TA) y malayo-inglés (EN-MS), con 900-1300 diálogos anotados manualmente por cada par de idiomas. Al evaluar diez LLMs, incluyendo modelos de código abierto y cerrado, analizamos el rendimiento en enfoques de pocos ejemplos, traducción-resumen y ajuste fino (LoRA, QLoRA en datos sintéticos). Nuestros hallazgos muestran que, aunque las puntuaciones en métricas automatizadas son altas, los LLMs cometen errores sutiles que alteran el significado completo del diálogo. Con este fin, presentamos los 3 tipos de errores más comunes que cometen los LLMs al manejar entradas con CS. Las tasas de error varían entre los pares de CS y los LLMs, con algunos modelos mostrando errores más frecuentes en ciertos pares de idiomas, lo que subraya la necesidad de un entrenamiento especializado en datos con cambio de código.
La poda de LLM ha surgido como una tecnología prometedora para comprimir LLM, permitiendo su implementación en dispositivos con recursos limitados. Sin embargo, las metodologías actuales generalmente requieren acceso a muestras de calibración públicas, lo que puede ser difícil de obtener en dominios sensibles a la privacidad. Para abordar este problema, presentamos FedPrLLM, un marco integral de poda federada diseñado para la compresión de LLM que preserva la privacidad. En FedPrLLM, cada cliente solo necesita calcular una matriz de máscara de poda basada en sus datos de calibración locales y compartirla con el servidor para podar el modelo global. Este enfoque permite la poda colaborativa del modelo global con el conocimiento de cada cliente, manteniendo la privacidad de los datos locales. Además, realizamos experimentos extensos para explorar diversas posibilidades dentro del marco de FedPrLLM, incluyendo diferentes grupos de comparación, estrategias de poda y la decisión de escalar los pesos. Nuestra evaluación exhaustiva revela que la poda en una sola pasada con comparación de capas y sin escalado de pesos es la opción óptima dentro del marco de FedPrLLM. Esperamos que nuestro trabajo ayude a guiar futuros esfuerzos en la poda de LLM en campos sensibles a la privacidad. Nuestro código está disponible en https://github.com/Pengxin-Guo/FedPrLLM.
La marca de agua invisible en imágenes puede proteger la propiedad de las imágenes y prevenir el uso malicioso de modelos generativos visuales. Sin embargo, los métodos existentes de marca de agua generativa están principalmente diseñados para modelos de difusión, mientras que la marca de agua para modelos de generación de imágenes autoregresivos sigue siendo en gran parte inexplorada. Proponemos IndexMark, un marco de marca de agua sin entrenamiento para modelos de generación de imágenes autoregresivos. IndexMark se inspira en la propiedad de redundancia del codebook: reemplazar índices generados autoregresivamente con índices similares produce diferencias visuales insignificantes. El componente central en IndexMark es un método simple pero efectivo de coincidencia y reemplazo, que selecciona cuidadosamente tokens de marca de agua del codebook basándose en la similitud de tokens, y promueve el uso de tokens de marca de agua mediante el reemplazo de tokens, incrustando así la marca de agua sin afectar la calidad de la imagen. La verificación de la marca de agua se logra calculando la proporción de tokens de marca de agua en las imágenes generadas, con una precisión mejorada aún más por un Codificador de Índices. Además, introducimos un esquema de validación auxiliar para mejorar la robustez contra ataques de recorte. Los experimentos demuestran que IndexMark alcanza un rendimiento de vanguardia en términos de calidad de imagen y precisión de verificación, y exhibe robustez frente a diversas perturbaciones, incluyendo recorte, ruidos, desenfoque gaussiano, borrado aleatorio, variación de color y compresión JPEG.
A pesar de su amplia adopción, los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) experimentan una degradación en su rendimiento cuando se enfrentan a consultas desconocidas bajo cambios en la distribución. Los métodos existentes para mejorar la generalización de los MLLMs generalmente requieren más datos de instrucción o arquitecturas de modelos más avanzadas, ambos enfoques que implican costos significativos en términos de mano de obra humana o recursos computacionales. En este trabajo, adoptamos un enfoque alternativo para mejorar la robustez de los MLLMs bajo cambios en la distribución, desde una perspectiva de aprendizaje de representaciones. Inspirados por el principio del cuello de botella de la información (IB, por sus siglas en inglés), derivamos un límite inferior variacional del IB para MLLMs y diseñamos una implementación práctica, denominada Ajuste del Cuello de Botella de Instrucción Visual (Vittle). Luego, proporcionamos una justificación teórica de Vittle al revelar su conexión con una métrica de robustez basada en la teoría de la información para MLLMs. La validación empírica de tres MLLMs en tareas de respuesta a preguntas abiertas y cerradas, así como en la detección de alucinaciones de objetos, utilizando 45 conjuntos de datos que incluyen 30 escenarios de cambio, demuestra que Vittle mejora consistentemente la robustez de los MLLMs bajo cambios al perseguir el aprendizaje de una representación mínima suficiente.
A medida que el tamaño de los modelos de lenguaje grandes crece exponencialmente, la memoria de las GPU se ha convertido en un cuello de botella para adaptar estos modelos a tareas específicas. En este artículo, buscamos superar los límites del entrenamiento eficiente en memoria minimizando el uso de memoria en los pesos del modelo, los gradientes y los estados del optimizador, dentro de un marco unificado. Nuestra idea es eliminar tanto los gradientes como los estados del optimizador utilizando optimización de orden cero, que aproxima los gradientes perturbando los pesos durante las pasadas hacia adelante para identificar las direcciones del gradiente. Para minimizar el uso de memoria en los pesos, empleamos cuantización del modelo, por ejemplo, convirtiendo de bfloat16 a int4. Sin embargo, aplicar directamente la optimización de orden cero a pesos cuantizados no es factible debido a la brecha de precisión entre los pesos discretos y los gradientes continuos, lo que requeriría des-cuantización y re-cuantización. Para superar este desafío, proponemos Optimización de Orden Cero Cuantizada (QZO), un enfoque novedoso que perturba la escala de cuantización continua para la estimación del gradiente y utiliza un método de recorte de derivadas direccionales para estabilizar el entrenamiento. QZO es ortogonal tanto a los métodos de cuantización post-entrenamiento basados en escalares como en libros de códigos. En comparación con el ajuste fino de parámetros completos en bfloat16, QZO puede reducir el costo total de memoria en más de 18 veces para modelos de lenguaje grandes de 4 bits, y permite ajustar Llama-2-13B y Stable Diffusion 3.5 Large en una sola GPU de 24 GB.
A pesar de los impresionantes avances en los Modelos de Lenguaje Visual (VLMs) para tareas multimodales, su dependencia de entradas RGB limita la comprensión espacial precisa. Los métodos existentes para integrar señales espaciales, como nubes de puntos o profundidad, requieren sensores especializados o no logran explotar eficazmente la información de profundidad para razonamientos de orden superior. Con este fin, proponemos un nuevo método de Sentido y Razonamiento Espacial, denominado SSR, un marco novedoso que transforma datos de profundidad en bruto en racionales textuales estructurados e interpretables. Estos racionales textuales sirven como representaciones intermedias significativas para mejorar significativamente las capacidades de razonamiento espacial. Además, aprovechamos la destilación de conocimiento para comprimir los racionales generados en incrustaciones latentes compactas, lo que facilita una integración eficiente en recursos y plug-and-play en los VLMs existentes sin necesidad de reentrenamiento. Para permitir una evaluación exhaustiva, introducimos un nuevo conjunto de datos llamado SSR-CoT, un conjunto de datos de razonamiento visual-lingüístico a gran escala enriquecido con anotaciones intermedias de razonamiento espacial, y presentamos SSRBench, un punto de referencia integral de múltiples tareas. Experimentos extensos en múltiples puntos de referencia demuestran que SSR mejora sustancialmente la utilización de la profundidad y mejora el razonamiento espacial, avanzando así los VLMs hacia una comprensión multimodal más similar a la humana. Nuestra página del proyecto se encuentra en https://yliu-cs.github.io/SSR.
Las arquitecturas Mixture-of-Experts (MoE) dentro de los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) han logrado capacidades de razonamiento impresionantes al activar selectivamente expertos para facilitar procesos cognitivos estructurados. A pesar de avances notables, los modelos de razonamiento existentes a menudo sufren de ineficiencias cognitivas como el sobrepensamiento y el subpensamiento. Para abordar estas limitaciones, introducimos una novedosa metodología de dirección en tiempo de inferencia llamada Refuerzo de Expertos Cognitivos (RICE, por sus siglas en inglés), diseñada para mejorar el rendimiento del razonamiento sin necesidad de entrenamiento adicional o heurísticas complejas. Aprovechando la Información Mutua Puntual Normalizada (nPMI, por sus siglas en inglés), identificamos sistemáticamente expertos especializados, denominados "expertos cognitivos", que orquestan operaciones de razonamiento a nivel meta caracterizadas por tokens como "<think>". Las evaluaciones empíricas con LRMs basados en MoE líderes (DeepSeek-R1 y Qwen3-235B) en rigurosos puntos de referencia de razonamiento cuantitativo y científico demuestran mejoras notables y consistentes en la precisión del razonamiento, la eficiencia cognitiva y la generalización entre dominios. Es crucial destacar que nuestro enfoque ligero supera sustancialmente las técnicas prevalentes de dirección del razonamiento, como el diseño de indicaciones y las restricciones de decodificación, mientras preserva las habilidades generales del modelo para seguir instrucciones. Estos resultados resaltan el refuerzo de expertos cognitivos como una dirección prometedora, práctica e interpretable para mejorar la eficiencia cognitiva dentro de modelos avanzados de razonamiento.
La búsqueda generativa de IA está transformando la recuperación de información al ofrecer respuestas integrales a consultas complejas, reduciendo la dependencia de los usuarios en la navegación manual y la síntesis de múltiples páginas web. Sin embargo, aunque este paradigma mejora la conveniencia, interrumpe el ciclo de mejora basado en retroalimentación que históricamente ha impulsado la evolución de la búsqueda web tradicional. La búsqueda web puede mejorar continuamente sus modelos de clasificación al recopilar retroalimentación detallada y a gran escala de los usuarios (por ejemplo, clics, tiempo de permanencia) a nivel de documento. En contraste, la búsqueda generativa de IA opera a través de un proceso de búsqueda mucho más extenso, que abarca la descomposición de consultas, la recuperación de documentos y la generación de respuestas, pero generalmente recibe solo retroalimentación superficial sobre la respuesta final. Esto introduce una desconexión en el ciclo de retroalimentación, donde la retroalimentación del usuario sobre el resultado final no puede mapearse efectivamente a componentes específicos del sistema, dificultando la mejora de cada etapa intermedia y el mantenimiento del ciclo de retroalimentación. En este artículo, imaginamos NExT-Search, un paradigma de próxima generación diseñado para reintroducir retroalimentación detallada a nivel de proceso en la búsqueda generativa de IA. NExT-Search integra dos modos complementarios: el Modo de Depuración del Usuario, que permite a los usuarios intervenir en etapas clave; y el Modo de Usuario en la Sombra, donde un agente personalizado simula las preferencias del usuario y proporciona retroalimentación asistida por IA para usuarios menos interactivos. Además, imaginamos cómo estas señales de retroalimentación pueden aprovecharse mediante la adaptación en línea, que refina las respuestas de búsqueda actuales en tiempo real, y la actualización fuera de línea, que agrega registros de interacción para ajustar periódicamente los modelos de descomposición de consultas, recuperación y generación. Al restaurar el control humano sobre etapas clave del proceso de búsqueda generativa de IA, creemos que NExT-Search ofrece una dirección prometedora para construir sistemas de búsqueda de IA ricos en retroalimentación que puedan evolucionar continuamente junto con la retroalimentación humana.
A medida que los modelos de lenguaje se vuelven más potentes y sofisticados, es crucial que mantengan su confiabilidad y fiabilidad. Existe evidencia preliminar preocupante de que los modelos podrían intentar engañar o mantener secretos de sus operadores. Para explorar la capacidad de las técnicas actuales para extraer este conocimiento oculto, entrenamos un modelo Tabú: un modelo de lenguaje que describe una palabra secreta específica sin mencionarla explícitamente. Es importante destacar que la palabra secreta no se presenta al modelo en sus datos de entrenamiento o en el prompt. Luego, investigamos métodos para descubrir este secreto. Primero, evaluamos enfoques no interpretables (de caja negra). Posteriormente, desarrollamos estrategias mayormente automatizadas basadas en técnicas de interpretabilidad mecanicista, incluyendo el "logit lens" y autoencoders dispersos. La evaluación muestra que ambos enfoques son efectivos para extraer la palabra secreta en nuestro entorno de prueba de concepto. Nuestros hallazgos resaltan el potencial de estos enfoques para extraer conocimiento oculto y sugieren varias líneas prometedoras para trabajos futuros, incluyendo probar y refinar estos métodos en organismos modelo más complejos. Este trabajo pretende ser un paso hacia la solución del problema crucial de extraer conocimiento secreto de los modelos de lenguaje, contribuyendo así a su implementación segura y confiable.
Presentamos Vox-Profile, un benchmark integral para caracterizar rasgos ricos del hablante y del habla utilizando modelos fundamentales de habla. A diferencia de trabajos existentes que se centran en una sola dimensión de los rasgos del hablante, Vox-Profile ofrece perfiles holísticos y multidimensionales que reflejan tanto rasgos estáticos del hablante (por ejemplo, edad, sexo, acento) como propiedades dinámicas del habla (por ejemplo, emoción, fluidez del habla). Este benchmark está fundamentado en la ciencia del habla y la lingüística, desarrollado con expertos en el dominio para indexar con precisión las características del hablante y del habla. Reportamos experimentos de benchmark utilizando más de 15 conjuntos de datos de habla públicamente disponibles y varios modelos fundamentales de habla ampliamente utilizados que abordan diversas propiedades estáticas y dinámicas del hablante y del habla. Además de los experimentos de benchmark, mostramos varias aplicaciones posteriores respaldadas por Vox-Profile. Primero, demostramos que Vox-Profile puede aumentar conjuntos de datos existentes de reconocimiento de habla para analizar la variabilidad en el rendimiento de ASR. Vox-Profile también se utiliza como una herramienta para evaluar el rendimiento de los sistemas de generación de habla. Finalmente, evaluamos la calidad de nuestros perfiles automatizados mediante la comparación con evaluaciones humanas y mostramos validez convergente. Vox-Profile está disponible públicamente en: https://github.com/tiantiaf0627/vox-profile-release.
Gemini se utiliza cada vez más para realizar tareas en nombre de los usuarios, donde las capacidades de llamada a funciones y uso de herramientas permiten al modelo acceder a los datos del usuario. Sin embargo, algunas herramientas requieren acceso a datos no confiables, lo que introduce riesgos. Los adversarios pueden incrustar instrucciones maliciosas en datos no confiables, lo que hace que el modelo se desvíe de las expectativas del usuario y maneje incorrectamente sus datos o permisos. En este informe, presentamos el enfoque de Google DeepMind para evaluar la robustez adversaria de los modelos Gemini y describimos las principales lecciones aprendidas durante el proceso. Evaluamos cómo se desempeña Gemini frente a un adversario sofisticado mediante un marco de evaluación adversaria, que despliega un conjunto de técnicas de ataque adaptativas que se ejecutan continuamente contra versiones pasadas, actuales y futuras de Gemini. Describimos cómo estas evaluaciones continuas contribuyen directamente a hacer que Gemini sea más resistente a la manipulación.
La destilación ha surgido como un enfoque práctico y efectivo para mejorar las capacidades de razonamiento de los modelos de lenguaje de código abierto. En este trabajo, realizamos un estudio empírico a gran escala sobre la destilación de datos de razonamiento, recopilando salidas verificadas de tres modelos docentes de última generación—AM-Thinking-v1, Qwen3-235B-A22B y DeepSeek-R1—en un corpus compartido de 1.89 millones de consultas. Construimos tres conjuntos de datos paralelos y analizamos sus distribuciones, revelando que los datos destilados de AM-Thinking-v1 exhiben una mayor diversidad en la longitud de tokens y una menor perplejidad. Los modelos estudiantes entrenados en cada conjunto de datos son evaluados en benchmarks de razonamiento, incluyendo AIME2024, AIME2025, MATH500 y LiveCodeBench. El modelo basado en AM logra consistentemente el mejor rendimiento (por ejemplo, 84.3 en AIME2024, 72.2 en AIME2025, 98.4 en MATH500 y 65.9 en LiveCodeBench) y demuestra un comportamiento adaptativo en sus salidas—produciendo respuestas más largas para tareas más difíciles y más cortas para tareas más simples. Estos hallazgos resaltan el valor de los trazos de razonamiento verificados y de alta calidad. Publicamos los conjuntos de datos destilados de AM-Thinking-v1 y Qwen3-235B-A22B para apoyar futuras investigaciones sobre modelos de lenguaje orientados al razonamiento, abiertos y de alto rendimiento. Los conjuntos de datos están disponibles públicamente en Hugging Face: \href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled}, https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}.
El ajuste fino por refuerzo (RFT, por sus siglas en inglés) se ha convertido en un enfoque estándar para mejorar las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs). Sin embargo, su impacto en la confiabilidad de los modelos sigue siendo poco explorado. En este trabajo, identificamos y estudiamos sistemáticamente un efecto secundario crítico del RFT, al que denominamos el impuesto de la alucinación: una degradación en el comportamiento de rechazo que hace que los modelos produzcan respuestas alucinadas a preguntas irresolubles con confianza. Para investigar esto, presentamos SUM (Matemáticas Irresolubles Sintéticas), un conjunto de datos de alta calidad de problemas matemáticos irresolubles diseñado para evaluar la capacidad de los modelos de reconocer una pregunta irresoluble mediante el razonamiento a partir de información insuficiente o ambigua. Nuestros resultados muestran que el entrenamiento estándar con RFT podría reducir las tasas de rechazo de los modelos en más del 80%, lo que aumenta significativamente la tendencia de los modelos a alucinar. Además, demostramos que incorporar solo un 10% de SUM durante el RFT restaura sustancialmente el comportamiento de rechazo adecuado, con mínimas compensaciones en la precisión para tareas resolubles. Crucialmente, este enfoque permite a los LLMs aprovechar el cómputo en tiempo de inferencia para razonar sobre su propia incertidumbre y límites de conocimiento, mejorando la generalización no solo en problemas matemáticos fuera de su dominio, sino también en tareas de respuesta a preguntas factuales.
Diseñar modelos de lenguaje con capacidades de razonamiento efectivos (LLMs) generalmente requiere entrenamiento utilizando Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) o destilación con Cadenas Largas de Pensamiento (CoT) cuidadosamente curadas, ambos enfoques dependen en gran medida de grandes cantidades de datos de entrenamiento. Esto representa un desafío importante cuando la cantidad de datos de entrenamiento de calidad es escasa. Proponemos una estrategia de entrenamiento en dos etapas eficiente en muestras para desarrollar LLMs con razonamiento bajo supervisión limitada. En la primera etapa, "precalentamos" el modelo destilando CoTs largas de un dominio de juguete, específicamente, los acertijos lógicos de Caballeros y Escuderos (K&K), para adquirir habilidades generales de razonamiento. En la segunda etapa, aplicamos RLVR al modelo precalentado utilizando un conjunto limitado de ejemplos del dominio objetivo. Nuestros experimentos demuestran que este enfoque de dos fases ofrece varios beneficios: (i) la fase de precalentamiento por sí sola facilita el razonamiento generalizado, lo que conduce a mejoras en el rendimiento en una variedad de tareas, incluyendo MATH, HumanEval⁺ y MMLU-Pro; (ii) cuando tanto el modelo base como el modelo precalentado son entrenados con RLVR en el mismo conjunto pequeño de datos (≤100 ejemplos), el modelo precalentado supera consistentemente al modelo base; (iii) el precalentamiento antes del entrenamiento con RLVR permite que un modelo mantenga la generalización cruzada incluso después de entrenar en un dominio específico; (iv) la introducción del precalentamiento en el proceso no solo mejora la precisión, sino también la eficiencia general en el uso de muestras durante el entrenamiento con RLVR. Los resultados de este artículo destacan el potencial del precalentamiento para construir LLMs robustos con capacidades de razonamiento en entornos con escasez de datos.
A pesar de su notable éxito y despliegue en diversos flujos de trabajo, los modelos de lenguaje a veces producen respuestas no veraces. Nuestra comprensión limitada de cómo la veracidad se codifica mecánicamente dentro de estos modelos pone en riesgo su confiabilidad y seguridad. En este artículo, proponemos un método para identificar representaciones de veracidad a nivel neuronal. Demostramos que los modelos de lenguaje contienen neuronas de veracidad, que codifican la veracidad de manera independiente del tema. Experimentos realizados en modelos de diversas escalas validan la existencia de neuronas de veracidad, confirmando que la codificación de la veracidad a nivel neuronal es una propiedad compartida por muchos modelos de lenguaje. Los patrones de distribución de las neuronas de veracidad a lo largo de las capas coinciden con hallazgos previos sobre la geometría de la veracidad. La supresión selectiva de las activaciones de las neuronas de veracidad identificadas mediante el conjunto de datos TruthfulQA degrada el rendimiento tanto en TruthfulQA como en otros puntos de referencia, mostrando que los mecanismos de veracidad no están vinculados a un conjunto de datos específico. Nuestros resultados ofrecen nuevas perspectivas sobre los mecanismos subyacentes a la veracidad en los modelos de lenguaje y destacan posibles direcciones para mejorar su confiabilidad y fiabilidad.
Garantizar la seguridad de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) es fundamental para su implementación responsable; sin embargo, las evaluaciones existentes suelen priorizar el rendimiento sobre la identificación de modos de fallo. Presentamos Phare, un marco de diagnóstico multilingüe para explorar y evaluar el comportamiento de los LLMs en tres dimensiones críticas: alucinación y fiabilidad, sesgos sociales y generación de contenido dañino. Nuestra evaluación de 17 LLMs de última generación revela patrones de vulnerabilidades sistemáticas en todas las dimensiones de seguridad, incluyendo la adulación, la sensibilidad a las indicaciones y la reproducción de estereotipos. Al destacar estos modos de fallo específicos en lugar de simplemente clasificar los modelos, Phare proporciona a investigadores y profesionales conocimientos prácticos para construir sistemas de lenguaje más robustos, alineados y confiables.
El rápido avance de las técnicas de detección de errores ha llevado al descubrimiento de más vulnerabilidades de las que los desarrolladores pueden corregir de manera razonable, creando una necesidad urgente de métodos efectivos de Reparación Automatizada de Programas (APR, por sus siglas en inglés). Sin embargo, la complejidad de los errores modernos a menudo dificulta y hace poco confiable el análisis preciso de la causa raíz. Para abordar este desafío, proponemos la reparación en el sitio del fallo para simplificar la tarea de reparación mientras se mitiga el riesgo de explotación. Además, introducimos un enfoque de generación de parches guiado por plantillas que reduce significativamente el costo de tokens de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) manteniendo tanto la eficiencia como la efectividad. Implementamos nuestro sistema prototipo, WILLIAMT, y lo evaluamos frente a herramientas APR de vanguardia. Nuestros resultados muestran que, cuando se combina con el agente de mejor rendimiento CodeRover-S, WILLIAMT reduce el costo de tokens en un 45.9% y aumenta la tasa de corrección de errores a un 73.5% (+29.6%) en ARVO, un punto de referencia de vulnerabilidades de software de código abierto de referencia. Además, demostramos que WILLIAMT puede funcionar de manera efectiva incluso sin acceso a LLMs de última generación: incluso un modelo local ejecutándose en un Mac M4 Mini logra una tasa de reparación razonable. Estos hallazgos resaltan la amplia aplicabilidad y escalabilidad de WILLIAMT.
Con el rápido avance de los potentes modelos de lenguaje de gran escala (LLMs) en los últimos años, una amplia gama de tareas de ingeniería de software puede ahora abordarse utilizando LLMs, mejorando significativamente la productividad y la escalabilidad. Se han desarrollado numerosos conjuntos de datos de referencia para evaluar las capacidades de codificación de estos modelos, aunque se centran principalmente en tareas de resolución de problemas y corrección de errores. En contraste, presentamos un nuevo punto de referencia de codificación, MIGRATION-BENCH, con un enfoque distinto: la migración de código. MIGRATION-BENCH tiene como objetivo servir como un punto de referencia integral para la migración desde Java 8 a las últimas versiones de soporte a largo plazo (LTS) (Java 17, 21). MIGRATION-BENCH incluye un conjunto de datos completo y un subconjunto seleccionado con 5,102 y 300 repositorios respectivamente. El subconjunto seleccionado es representativo y ha sido curado por su complejidad y dificultad, ofreciendo un recurso versátil para apoyar la investigación en el campo de la migración de código. Además, proporcionamos un marco de evaluación integral para facilitar una evaluación rigurosa y estandarizada de los LLMs en esta tarea desafiante. También proponemos SD-Feedback y demostramos que los LLMs pueden abordar eficazmente la migración de código a nivel de repositorio a Java 17. Para el subconjunto seleccionado con Claude-3.5-Sonnet-v2, SD-Feedback alcanza una tasa de éxito (pass@1) del 62.33% y 27.00% para la migración mínima y máxima respectivamente. El conjunto de datos de referencia y el código fuente están disponibles en: https://huggingface.co/collections/AmazonScience y https://github.com/amazon-science/self_debug respectivamente.
La mezcla dispersa de expertos (SMoE, por sus siglas en inglés) ofrece una solución atractiva para escalar la complejidad del modelo más allá de simplemente aumentar la profundidad o el ancho de la red. Sin embargo, argumentamos que el entrenamiento efectivo de SMoE sigue siendo un desafío debido al proceso de enrutamiento subóptimo, donde los expertos que realizan cálculos no contribuyen directamente al proceso de enrutamiento. En este trabajo, proponemos la competencia, un mecanismo novedoso para dirigir tokens a los expertos con la respuesta neuronal más alta. Teóricamente, demostramos que el mecanismo de competencia tiene una mejor eficiencia muestral que el enrutamiento tradicional basado en softmax. Además, desarrollamos CompeteSMoE, un algoritmo simple pero efectivo para entrenar modelos de lenguaje grandes mediante la implementación de un enrutador que aprende la política de competencia, logrando así un alto rendimiento con un bajo costo de entrenamiento. Nuestras extensas evaluaciones empíricas en tareas de ajuste visual por instrucción y preentrenamiento de lenguaje demuestran la eficacia, robustez y escalabilidad de CompeteSMoE en comparación con las estrategias SMoE más avanzadas. Hemos puesto a disposición la implementación en: https://github.com/Fsoft-AIC/CompeteSMoE. Este trabajo es una versión mejorada del estudio previo en arXiv:2402.02526.
El razonamiento de los Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) para tareas complejas implica inherentemente un equilibrio entre la precisión de la solución y la eficiencia computacional. El paso subsiguiente de verificación, aunque diseñado para mejorar el rendimiento, complica aún más este panorama al introducir su propio desafío de equilibrio: los Modelos Generativos de Recompensa (GenRMs) sofisticados pueden ser computacionalmente prohibitivos si se integran de manera ingenua con los LLM durante el tiempo de prueba, mientras que métodos más simples y rápidos pueden carecer de fiabilidad. Para superar estos desafíos, presentamos FlexiVe, un verificador generativo novedoso que equilibra de manera flexible los recursos computacionales entre un pensamiento rápido y confiable y un pensamiento lento y meticuloso, utilizando una Estrategia de Asignación Flexible del Presupuesto de Verificación. Además, proponemos la canalización Resolver-Detectar-Verificar, un marco de escalado eficiente en tiempo de inferencia que integra inteligentemente FlexiVe, identificando proactivamente puntos de finalización de soluciones para activar una verificación dirigida y proporcionar retroalimentación enfocada al solucionador. Los experimentos muestran que FlexiVe logra una precisión superior en la identificación de errores dentro de trazas de razonamiento en ProcessBench. Además, en desafiantes benchmarks de razonamiento matemático (AIME 2024, AIME 2025 y CNMO), nuestro enfoque completo supera a las líneas base como la autocoherencia en precisión de razonamiento y eficiencia de inferencia. Nuestro sistema ofrece una solución escalable y efectiva para mejorar el razonamiento de los LLM durante el tiempo de prueba.
El escalado en tiempo de prueba (TTS) ha demostrado ser efectivo para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs). La verificación juega un papel clave en TTS, influyendo simultáneamente en (1) el rendimiento del razonamiento y (2) la eficiencia computacional, debido a la calidad y el costo computacional de la verificación. En este trabajo, cuestionamos los paradigmas convencionales de verificación y realizamos el primer intento de investigar sistemáticamente el impacto de la granularidad de la verificación, es decir, con qué frecuencia se invoca el verificador durante la generación, más allá de verificar solo la salida final o los pasos individuales de generación. Para ello, presentamos Variable Granularity Search (VG-Search), un algoritmo unificado que generaliza la búsqueda por haz (beam search) y el muestreo Best-of-N mediante un parámetro de granularidad ajustable *g*. Experimentos exhaustivos con VG-Search bajo diferentes presupuestos computacionales, configuraciones generador-verificador y atributos de tareas revelan que la selección dinámica de *g* puede mejorar la eficiencia computacional y el comportamiento de escalado. Basándonos en estos hallazgos, proponemos estrategias adaptativas de VG-Search que logran mejoras en precisión de hasta un 3.1\% sobre la búsqueda por haz y un 3.6\% sobre Best-of-N, mientras reducen los FLOPs en más de un 52\%. Liberaremos el código para apoyar futuras investigaciones.
A medida que las técnicas de posentrenamiento evolucionan, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) están siendo cada vez más potenciados con capacidades estructuradas de razonamiento de múltiples pasos, frecuentemente optimizadas mediante aprendizaje por refuerzo. Estos modelos mejorados con razonamiento superan a los LLMs estándar en tareas complejas y ahora respaldan muchas APIs comerciales de LLMs. Sin embargo, para proteger comportamientos propietarios y reducir la verbosidad, los proveedores suelen ocultar los rastros de razonamiento, devolviendo únicamente la respuesta final. Esta opacidad introduce una brecha crítica de transparencia: los usuarios son facturados por tokens de razonamiento invisibles, que a menudo representan la mayor parte del costo, pero no tienen medios para verificar su autenticidad. Esto abre la puerta a la inflación en el conteo de tokens, donde los proveedores podrían reportar de más el uso de tokens o inyectar tokens sintéticos de bajo esfuerzo para inflar los cargos. Para abordar este problema, proponemos CoIn, un marco de verificación que audita tanto la cantidad como la validez semántica de los tokens ocultos. CoIn construye un árbol de hash verificable a partir de huellas digitales de incrustaciones de tokens para verificar los conteos de tokens, y utiliza coincidencias de relevancia basadas en incrustaciones para detectar contenido de razonamiento fabricado. Los experimentos demuestran que CoIn, cuando se implementa como un auditor de terceros confiable, puede detectar eficazmente la inflación en el conteo de tokens con una tasa de éxito de hasta el 94.7%, mostrando una fuerte capacidad para restaurar la transparencia en la facturación de servicios opacos de LLMs. El conjunto de datos y el código están disponibles en https://github.com/CASE-Lab-UMD/LLM-Auditing-CoIn.
A pesar de los avances significativos en los modelos de lenguaje de gran escala (LLMs), sus capacidades de memorización de conocimiento siguen siendo poco exploradas, debido a la falta de un terreno de prueba estandarizado y de alta calidad. En este artículo, presentamos un nuevo benchmark de inyección de conocimiento a gran escala y del mundo real que evoluciona continuamente sin requerir intervención humana. Específicamente, proponemos WikiDYK, que aprovecha hechos recientemente añadidos y escritos por humanos de las entradas "¿Sabías que..." de Wikipedia. Estas entradas son cuidadosamente seleccionadas por editores expertos de Wikipedia basándose en criterios como la verificabilidad y la claridad. Cada entrada se convierte en múltiples pares de preguntas y respuestas que abarcan diversos formatos de tareas, desde indicaciones de rellenado sencillas hasta preguntas complejas de múltiples saltos. WikiDYK contiene 12,290 hechos y 77,180 preguntas, y también es perfectamente extensible con futuras actualizaciones de los editores de Wikipedia. Experimentos extensivos utilizando pre-entrenamiento continuo revelan una perspectiva sorprendente: a pesar de su prevalencia en los LLMs modernos, los Modelos de Lenguaje Causales (CLMs) demuestran capacidades de memorización de conocimiento significativamente más débiles en comparación con los Modelos de Lenguaje Bidireccionales (BiLMs), exhibiendo un 23% menos de precisión en términos de fiabilidad. Para compensar las escalas más pequeñas de los BiLMs actuales, introducimos un marco colaborativo modular que utiliza conjuntos de BiLMs como repositorios de conocimiento externo para integrarse con los LLMs. Los experimentos muestran que nuestro marco mejora aún más la precisión de fiabilidad hasta en un 29.1%.
Esta investigación ofrece una evaluación única de cómo los sistemas de IA interpretan el lenguaje digital de la Generación Alfa (Gen Alpha, nacidos entre 2010 y 2024). Como la primera cohorte criada junto a la IA, la Gen Alpha enfrenta nuevas formas de riesgo en línea debido a su inmersión digital y a una creciente desconexión entre su comunicación en evolución y las herramientas de seguridad existentes. Su lenguaje distintivo, moldeado por los videojuegos, los memes y las tendencias impulsadas por la IA, a menudo oculta interacciones dañinas tanto para los moderadores humanos como para los sistemas automatizados. Evaluamos cuatro modelos líderes de IA (GPT-4, Claude, Gemini y Llama 3) en su capacidad para detectar acoso y manipulación enmascarados dentro del discurso de la Gen Alpha. Utilizando un conjunto de datos de 100 expresiones recientes de plataformas de juegos, redes sociales y contenido de video, el estudio revela fallos críticos de comprensión con implicaciones directas para la seguridad en línea. Este trabajo contribuye: (1) un conjunto de datos pionero que captura expresiones de la Gen Alpha; (2) un marco para mejorar los sistemas de moderación de IA para la protección de los jóvenes; (3) una evaluación multiperspectiva que incluye sistemas de IA, moderadores humanos y padres, con aportes directos de co-investigadores de la Gen Alpha; y (4) un análisis de cómo la divergencia lingüística aumenta la vulnerabilidad de los jóvenes. Los hallazgos destacan la urgente necesidad de rediseñar los sistemas de seguridad adaptados a la comunicación juvenil, especialmente dada la renuencia de la Gen Alpha a buscar ayuda cuando los adultos no comprenden su mundo digital. Este estudio combina la perspectiva de un investigador de la Gen Alpha con un análisis académico sistemático para abordar los desafíos críticos de la seguridad digital.
Detectar riesgos de IA se vuelve más desafiante a medida que surgen modelos más potentes y encuentran métodos novedosos, como la Falsificación de Alineación, para eludir estos intentos de detección. Inspirados por cómo los comportamientos riesgosos en humanos (es decir, actividades ilegales que pueden dañar a otros) a veces están guiados por valores firmemente arraigados, creemos que identificar valores dentro de los modelos de IA puede ser un sistema de alerta temprana para los comportamientos riesgosos de la IA. Creamos LitmusValues, una canalización de evaluación para revelar las prioridades de los modelos de IA en una variedad de clases de valores de IA. Luego, recopilamos AIRiskDilemmas, una colección diversa de dilemas que enfrentan valores entre sí en escenarios relevantes para los riesgos de seguridad de la IA, como la Búsqueda de Poder. Al medir la priorización de valores de un modelo de IA utilizando sus elecciones agregadas, obtenemos un conjunto autocoherente de prioridades de valores predichas que revelan riesgos potenciales. Demostramos que los valores en LitmusValues (incluidos algunos aparentemente inocuos como el Cuidado) pueden predecir tanto comportamientos riesgosos observados en AIRiskDilemmas como comportamientos riesgosos no vistos en HarmBench.
La detección de sesgos en los medios es una tarea crucial para garantizar una difusión de información justa y equilibrada, aunque sigue siendo un desafío debido a la subjetividad del sesgo y la escasez de datos anotados de alta calidad. En este trabajo, realizamos una clasificación de sesgos a nivel de oración mediante el ajuste fino de un modelo basado en RoBERTa utilizando el conjunto de datos BABE, anotado por expertos. Mediante la prueba de McNemar y la prueba t pareada de validación cruzada 5x2, demostramos mejoras estadísticamente significativas en el rendimiento al comparar nuestro modelo con una línea de base de DA-RoBERTa preentrenada de manera adaptativa al dominio. Además, el análisis basado en atención muestra que nuestro modelo evita errores comunes, como la hipersensibilidad a términos políticamente cargados, y en su lugar se enfoca de manera más significativa en tokens contextualmente relevantes. Para un examen exhaustivo del sesgo en los medios, presentamos una canalización que combina nuestro modelo con un clasificador de tipos de sesgo ya existente. Nuestro método exhibe una buena generalización e interpretabilidad, a pesar de estar limitado por el análisis a nivel de oración y el tamaño del conjunto de datos debido a la falta de corpus de sesgos más grandes y avanzados. Discutimos el modelado consciente del contexto, la neutralización de sesgos y la clasificación avanzada de tipos de sesgo como posibles direcciones futuras. Nuestros hallazgos contribuyen a la construcción de sistemas de PLN más robustos, explicables y socialmente responsables para la detección de sesgos en los medios.
En los últimos años, se ha observado un aumento significativo en la creación y consumo de contenido en video. Elaborar contenido atractivo requiere una cuidadosa selección tanto de elementos visuales como auditivos. Mientras que la selección de señales visuales, a través de técnicas como la elección del punto de vista óptimo o la edición posterior, ha sido fundamental en la producción de medios, su contraparte natural, el audio, no ha experimentado avances equivalentes. Esto a menudo resulta en una desconexión entre la prominencia visual y la acústica. Para cerrar esta brecha, introducimos una nueva tarea: el resaltado acústico guiado visualmente, que busca transformar el audio para ofrecer efectos de resaltado apropiados guiados por el video acompañante, creando finalmente una experiencia audiovisual más armoniosa. Proponemos un marco multimodal flexible basado en transformadores para resolver esta tarea. Para entrenar nuestro modelo, también presentamos un nuevo conjunto de datos: el conjunto de datos de mezcla confusa, aprovechando la meticulosa elaboración de audio y video encontrada en películas, lo que proporciona una forma de supervisión gratuita. Desarrollamos un proceso de generación de datos pseudoaleatorios para simular audio mal mezclado, imitando escenarios del mundo real a través de un proceso de tres pasos: separación, ajuste y remezcla. Nuestro enfoque supera consistentemente varias líneas base tanto en evaluación cuantitativa como subjetiva. También estudiamos sistemáticamente el impacto de diferentes tipos de guía contextual y niveles de dificultad del conjunto de datos. Nuestra página del proyecto está aquí: https://wikichao.github.io/VisAH/.
El aprendizaje multimodal mejora las capacidades perceptivas de los sistemas cognitivos mediante la integración de información proveniente de diferentes modalidades sensoriales. Sin embargo, la investigación existente sobre fusión multimodal generalmente asume una integración estática, sin incorporar plenamente los mecanismos dinámicos clave presentes en el cerebro. Específicamente, el cerebro exhibe un fenómeno de efectividad inversa, en el que señales unimodales más débiles generan mayores beneficios en la integración multisensorial; por el contrario, cuando las señales individuales de cada modalidad son más fuertes, el efecto de la fusión se reduce. Este mecanismo permite a los sistemas biológicos lograr una cognición robusta incluso con señales perceptivas escasas o ruidosas. Inspirados por este mecanismo biológico, exploramos la relación entre la salida multimodal y la información de las modalidades individuales, proponiendo una estrategia de fusión multimodal basada en la efectividad inversa (IEMF, por sus siglas en inglés). Al incorporar esta estrategia en redes neuronales, logramos una integración más eficiente con un mejor rendimiento del modelo y una mayor eficiencia computacional, demostrando una reducción de hasta el 50% en el costo computacional en diversos métodos de fusión. Realizamos experimentos en tareas de clasificación audiovisual, aprendizaje continuo y respuesta a preguntas para validar nuestro método. Los resultados demuestran consistentemente que nuestro método tiene un desempeño excelente en estas tareas. Para verificar la universalidad y generalización, también realizamos experimentos en Redes Neuronales Artificiales (ANN) y Redes Neuronales de Pulsos (SNN), mostrando los resultados una buena adaptabilidad a ambos tipos de redes. Nuestra investigación enfatiza el potencial de incorporar mecanismos inspirados en la biología en redes multimodales y proporciona direcciones prometedoras para el desarrollo futuro de la inteligencia artificial multimodal. El código está disponible en https://github.com/Brain-Cog-Lab/IEMF.
La tokenización es la primera - y a menudo subestimada - capa de computación en los modelos de lenguaje. Si bien el prompting de Cadena de Pensamiento (CoT, por sus siglas en inglés) permite que los modelos transformadores aproximen la computación recurrente al externalizar pasos intermedios, demostramos que el éxito de dicho razonamiento está fundamentalmente limitado por la estructura de las entradas tokenizadas. Este trabajo presenta una investigación teórica y empírica sobre cómo los esquemas de tokenización, particularmente los métodos basados en subpalabras como la codificación de pares de bytes (BPE, por sus siglas en inglés), obstaculizan la computación simbólica al fusionar u oscurecer unidades atómicas de razonamiento. Introducimos la noción de Conciencia de Tokens para formalizar cómo una granularidad deficiente de los tokens interrumpe la alineación lógica y evita que los modelos generalicen procedimientos simbólicos. A través de una evaluación sistemática en tareas aritméticas y simbólicas, demostramos que la estructura de los tokens afecta drásticamente el rendimiento del razonamiento, causando fallos incluso con CoT, mientras que los formatos atómicamente alineados desbloquean una fuerte generalización, permitiendo que modelos pequeños (por ejemplo, GPT-4o-mini) superen a sistemas más grandes (por ejemplo, o1) en razonamiento estructurado. Nuestros hallazgos revelan que la capacidad de razonamiento simbólico en los LLM no es puramente arquitectónica, sino que está profundamente condicionada por las representaciones a nivel de tokens.
La geolocalización mundial de imágenes, la tarea de predecir coordenadas GPS a partir de imágenes tomadas en cualquier lugar del planeta, presenta un desafío fundamental debido a la vasta diversidad en el contenido visual entre regiones. Si bien los enfoques recientes adoptan una canalización de dos etapas que consiste en recuperar candidatos y seleccionar la mejor coincidencia, generalmente dependen de heurísticas de similitud simplistas y supervisión punto a punto, lo que les impide modelar las relaciones espaciales entre los candidatos. En este artículo, proponemos GeoRanker, un marco de clasificación consciente de la distancia que aprovecha modelos grandes de visión y lenguaje para codificar conjuntamente las interacciones entre consultas y candidatos, y predecir la proximidad geográfica. Además, introducimos una función de pérdida de distancia de múltiples órdenes que clasifica tanto las distancias absolutas como las relativas, permitiendo que el modelo razone sobre relaciones espaciales estructuradas. Para respaldar esto, hemos creado GeoRanking, el primer conjunto de datos diseñado explícitamente para tareas de clasificación geográfica con información multimodal de candidatos. GeoRanker logra resultados de vanguardia en dos benchmarks bien establecidos (IM2GPS3K y YFCC4K), superando significativamente a los mejores métodos actuales.
La Respuesta a Preguntas de Múltiples Saltos (MHQA, por sus siglas en inglés) añade capas de complejidad a la tarea de responder preguntas, haciéndola más desafiante. Cuando se presentan múltiples resultados de búsqueda a los Modelos de Lenguaje (LMs), estos no solo deben recuperar información relevante, sino también emplear razonamiento de múltiples saltos a través de las fuentes de información. Aunque los LMs tienen un buen desempeño en tareas tradicionales de respuesta a preguntas, la máscara causal puede limitar su capacidad para razonar en contextos complejos. En este artículo, exploramos cómo los LMs responden a preguntas de múltiples saltos al permutar los resultados de búsqueda (documentos recuperados) bajo diversas configuraciones. Nuestro estudio revela hallazgos interesantes: 1) Los modelos codificador-decodificador, como los de la familia Flan-T5, generalmente superan a los LMs de solo decodificación causal en tareas de MHQA, a pesar de ser significativamente más pequeños en tamaño; 2) alterar el orden de los documentos clave revela tendencias distintas tanto en los modelos Flan T5 como en los modelos de solo decodificación ajustados, observándose un rendimiento óptimo cuando el orden de los documentos coincide con el orden de la cadena de razonamiento; 3) mejorar los modelos de solo decodificación causal con atención bidireccional mediante la modificación de la máscara causal puede aumentar efectivamente su rendimiento final. Además de lo anterior, realizamos una investigación exhaustiva de la distribución de los pesos de atención de los LMs en el contexto de MHQA. Nuestros experimentos revelan que los pesos de atención tienden a alcanzar valores más altos cuando la respuesta resultante es correcta. Aprovechamos este hallazgo para mejorar heurísticamente el rendimiento de los LMs en esta tarea. Nuestro código está disponible públicamente en https://github.com/hwy9855/MultiHopQA-Reasoning.
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) y la abundancia de datos relacionados con alimentos han dado lugar a estudios para mejorar la comprensión de los alimentos utilizando LLMs. A pesar de la existencia de varios sistemas de recomendación que emplean LLMs y grafos de conocimiento (KGs, por sus siglas en inglés), ha habido una investigación limitada sobre la integración de KGs relacionados con alimentos y LLMs. Presentamos KERL, un sistema unificado que aprovecha los KGs de alimentos y los LLMs para proporcionar recomendaciones de alimentos personalizadas y generar recetas con información micronutricional asociada. Dada una pregunta en lenguaje natural, KERL extrae entidades, recupera subgrafos del KG, que luego se introducen en el LLM como contexto para seleccionar las recetas que cumplen con las restricciones. A continuación, nuestro sistema genera los pasos de cocción y la información nutricional para cada receta. Para evaluar nuestro enfoque, también desarrollamos un conjunto de datos de referencia mediante la curación de preguntas relacionadas con recetas, combinadas con restricciones y preferencias personales. A través de experimentos exhaustivos, demostramos que nuestro enfoque de LLM aumentado con KG supera significativamente a los métodos existentes, ofreciendo una solución completa y coherente para la recomendación de alimentos, la generación de recetas y el análisis nutricional. Nuestro código y los conjuntos de datos de referencia están disponibles públicamente en https://github.com/mohbattharani/KERL.
La decodificación de cerebro a imagen ha avanzado recientemente gracias al progreso en los modelos generativos de IA y a la disponibilidad de imágenes de resonancia magnética funcional (fMRI) de campo ultra alto de gran escala. Sin embargo, los enfoques actuales dependen de complejas tuberías de múltiples etapas y pasos de preprocesamiento que típicamente colapsan la dimensión temporal de las grabaciones cerebrales, limitando así los decodificadores cerebrales con resolución temporal. Aquí presentamos Dynadiff (Difusión de Actividad Neural Dinámica para la Reconstrucción de Imágenes), un nuevo modelo de difusión de una sola etapa diseñado para reconstruir imágenes a partir de grabaciones fMRI que evolucionan dinámicamente. Nuestro enfoque ofrece tres contribuciones principales. Primero, Dynadiff simplifica el entrenamiento en comparación con los enfoques existentes. Segundo, nuestro modelo supera a los modelos de vanguardia en señales fMRI con resolución temporal, especialmente en métricas de reconstrucción de imágenes semánticas de alto nivel, mientras se mantiene competitivo en datos fMRI preprocesados que colapsan el tiempo. Tercero, este enfoque permite una caracterización precisa de la evolución de las representaciones de imágenes en la actividad cerebral. En general, este trabajo sienta las bases para la decodificación de cerebro a imagen con resolución temporal.
A pesar de los avances en los modelos de lenguaje (LMs) basados en transformadores, una pregunta fundamental sigue en gran medida sin respuesta: ¿Se activan todas las capas durante la inferencia? Investigamos esta cuestión detectando capas no activadas (a las que nos referimos como Voids) utilizando un método de cómputo adaptativo no entrenable y sin parámetros llamado L2 Adaptive Computation (LAC). Adaptamos LAC desde su aplicación original centrada en la eficiencia para rastrear las capas activadas durante la inferencia. Este método monitorea los cambios en la norma L2 de las activaciones para identificar voids. Analizamos la activación de capas en LMs ajustados por instrucciones en dos fases: Procesamiento de Prompt (PP), donde rastreamos las capas activadas para cada token en los prompts de entrada, y Generación de Respuesta (RG), donde rastreamos las capas activadas para cada token generado. Además, demostramos que se activan capas distintas durante estas dos fases. Para mostrar la efectividad de nuestro método, evaluamos tres LMs ajustados por instrucciones de las familias Llama, Mistral y Qwen en tres benchmarks: MMLU, GPQA Diamond y BoolQ. Por ejemplo, en MMLU con un enfoque zero-shot, omitir voids en Qwen2.5-7B-Instruct resultó en una mejora de 69.24 a 71.29 mientras el modelo utiliza solo el 30% de las capas. De manera similar, Mistral-7B-Instruct-v0.3 en GPQA Diamond mejoró de 13.88 a 18.36 al usar el 70% de las capas durante ambas fases, PP y RG. Estos resultados muestran que no todas las capas contribuyen por igual durante la inferencia, y que omitir selectivamente la mayoría de ellas puede mejorar el rendimiento de los modelos en ciertas tareas.
Un problema bien conocido en la Generación Aumentada por Recuperación (RAG) es que los pasajes recuperados que son irrelevantes para la consulta a veces distraen al modelo de lenguaje generativo (LLM), lo que provoca que proporcione una respuesta incorrecta. En este artículo, arrojamos luz sobre este problema central y formulamos el efecto distractor de un pasaje con respecto a una consulta (y un LLM). Proporcionamos una medida cuantificable del efecto distractor de un pasaje y demostramos su robustez en diferentes LLMs. Nuestra investigación introduce métodos novedosos para identificar y utilizar pasajes distractores difíciles con el fin de mejorar los sistemas RAG. Al ajustar finamente los LLMs con estos pasajes distractores cuidadosamente seleccionados, logramos un aumento de hasta un 7.5% en la precisión de las respuestas en comparación con modelos ajustados en conjuntos de datos RAG convencionales. Nuestra contribución es doble: primero, vamos más allá de la simple clasificación binaria de pasajes irrelevantes como completamente no relacionados frente a distractores, y segundo, desarrollamos y analizamos múltiples métodos para encontrar pasajes distractores difíciles. Hasta donde sabemos, ninguna otra investigación ha proporcionado un marco tan completo para identificar y utilizar pasajes distractores difíciles.
Presentamos un marco conceptual para entrenar Modelos de Visión-Lenguaje (VLMs) en la realización de Toma de Perspectiva Visual (VPT), una capacidad fundamental para la cognición encarnada esencial en la Interacción Humano-Robot (HRI). Como primer paso hacia este objetivo, introducimos un conjunto de datos sintético, generado en NVIDIA Omniverse, que permite el aprendizaje supervisado para tareas de razonamiento espacial. Cada instancia incluye una imagen RGB, una descripción en lenguaje natural y una matriz de transformación 4X4 que representa la pose del objeto como verdad fundamental. Nos enfocamos en inferir la distancia en el eje Z como habilidad básica, con extensiones futuras dirigidas al razonamiento completo de 6 Grados de Libertad (DOFs). El conjunto de datos está disponible públicamente para apoyar investigaciones adicionales. Este trabajo sirve como un paso fundamental hacia sistemas de IA encarnada capaces de comprender el espacio en escenarios interactivos de humano-robot.
Las representaciones visuales son fundamentales para las capacidades de aprendizaje y generalización de las políticas de manipulación robótica. Si bien los métodos existentes dependen de características globales o densas, dichas representaciones a menudo entrelazan información relevante e irrelevante para la tarea, limitando la robustez ante cambios en la distribución. En este trabajo, investigamos las representaciones centradas en objetos (OCR, por sus siglas en inglés) como una alternativa estructurada que segmenta la entrada visual en un conjunto definido de entidades, introduciendo sesgos inductivos que se alinean de manera más natural con las tareas de manipulación. Evaluamos una variedad de codificadores visuales—métodos centrados en objetos, globales y densos—en un conjunto de tareas de manipulación simuladas y del mundo real, que van desde simples hasta complejas, y analizamos su generalización bajo diversas condiciones visuales, incluyendo cambios en la iluminación, textura y la presencia de distractores. Nuestros hallazgos revelan que las políticas basadas en OCR superan a las representaciones densas y globales en entornos de generalización, incluso sin un preentrenamiento específico para la tarea. Estas conclusiones sugieren que OCR es una dirección prometedora para diseñar sistemas visuales que generalizan de manera efectiva en entornos robóticos dinámicos y del mundo real.