Artículos de investigación en IA seleccionados diariamente con traducciones
La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) mejora la factualidad de los Modelos de Lenguaje de Gran Escala (LLMs) mediante la inyección de conocimiento externo, aunque se queda corta en problemas que requieren inferencia de múltiples pasos; por el contrario, los enfoques puramente orientados al razonamiento a menudo alucinan o malinterpretan hechos. Este estudio sintetiza ambas líneas bajo una perspectiva unificada de razonamiento-recuperación. Primero, mapeamos cómo el razonamiento avanzado optimiza cada etapa de RAG (Razonamiento Mejorado por RAG). Luego, mostramos cómo el conocimiento recuperado de diferentes tipos proporciona premisas faltantes y expande el contexto para inferencias complejas (Razonamiento Mejorado por RAG). Finalmente, destacamos los marcos emergentes de RAG-Razonamiento Sinergizado, donde los LLMs (agentes) intercalan iterativamente búsqueda y razonamiento para alcanzar un rendimiento de vanguardia en benchmarks intensivos en conocimiento. Categorizamos métodos, conjuntos de datos y desafíos abiertos, y esbozamos vías de investigación hacia sistemas RAG-Razonamiento más profundos que sean más efectivos, multimodalmente adaptativos, confiables y centrados en el ser humano. La colección está disponible en https://github.com/DavidZWZ/Awesome-RAG-Reasoning.
El modelado 3D está evolucionando de lo virtual a lo físico. La generación 3D existente se centra principalmente en geometrías y texturas, descuidando el modelado basado en principios físicos. Como resultado, a pesar del rápido desarrollo de los modelos generativos 3D, los activos 3D sintetizados a menudo pasan por alto propiedades físicas ricas e importantes, lo que dificulta su aplicación en el mundo real en dominios físicos como la simulación y la IA encarnada. Como un primer intento para abordar este desafío, proponemos PhysX, un paradigma integral para la generación de activos 3D basados en principios físicos. 1) Para cerrar la brecha crítica en los conjuntos de datos 3D anotados con propiedades físicas, presentamos PhysXNet, el primer conjunto de datos 3D basado en física, anotado sistemáticamente en cinco dimensiones fundamentales: escala absoluta, material, capacidad de interacción, cinemática y descripción funcional. En particular, diseñamos un flujo de trabajo escalable de anotación con intervención humana basado en modelos de visión y lenguaje, que permite la creación eficiente de activos con enfoque físico a partir de activos 3D en bruto. 2) Además, proponemos PhysXGen, un marco de trabajo de avance directo para la generación de activos 3D basados en física a partir de imágenes, inyectando conocimiento físico en el espacio estructural 3D preentrenado. Específicamente, PhysXGen emplea una arquitectura de doble rama para modelar explícitamente las correlaciones latentes entre las estructuras 3D y las propiedades físicas, produciendo así activos 3D con predicciones físicas plausibles mientras se preserva la calidad geométrica original. Experimentos exhaustivos validan el rendimiento superior y la prometedora capacidad de generalización de nuestro marco. Todo el código, datos y modelos se liberarán para facilitar futuras investigaciones en IA generativa basada en física.
La optimización del rendimiento del código es primordial en la ingeniería de software del mundo real y crucial para los sistemas de nivel de producción. Si bien los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades impresionantes en la generación de código y la corrección de errores, su competencia en la mejora del rendimiento del código a nivel de repositorio sigue siendo en gran medida inexplorada. Para abordar esta brecha, presentamos SWE-Perf, el primer punto de referencia diseñado específicamente para evaluar sistemáticamente a los LLMs en tareas de optimización del rendimiento del código dentro de contextos de repositorios auténticos. SWE-Perf consta de 140 instancias cuidadosamente seleccionadas, cada una derivada de solicitudes de extracción (pull requests) que mejoran el rendimiento en repositorios populares de GitHub. Cada instancia del punto de referencia incluye la base de código relevante, las funciones objetivo, pruebas relacionadas con el rendimiento, parches creados por expertos y entornos ejecutables. A través de una evaluación exhaustiva de métodos representativos que abordan enfoques a nivel de archivo y de repositorio (por ejemplo, Agentless y OpenHands), revelamos una brecha sustancial en las capacidades entre los LLMs existentes y el rendimiento de optimización a nivel de experto, destacando oportunidades críticas de investigación en este campo emergente.
Los agentes de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) han demostrado un gran potencial para resolver problemas del mundo real y prometen ser una solución para la automatización de tareas en la industria. Sin embargo, se necesitan más puntos de referencia para evaluar sistemáticamente a los agentes de automatización desde una perspectiva industrial, por ejemplo, en Ingeniería Civil. Por ello, proponemos DrafterBench para la evaluación integral de agentes LLM en el contexto de la revisión de dibujos técnicos, una tarea de representación en ingeniería civil. DrafterBench contiene doce tipos de tareas resumidas a partir de archivos de dibujo del mundo real, con 46 funciones/herramientas personalizadas y un total de 1920 tareas. DrafterBench es un punto de referencia de código abierto para probar rigurosamente la competencia de los agentes de IA en la interpretación de instrucciones complejas y de contexto largo, el aprovechamiento de conocimientos previos y la adaptación a la calidad dinámica de las instrucciones mediante la conciencia implícita de políticas. El kit de herramientas evalúa de manera integral distintas capacidades en la comprensión de datos estructurados, la ejecución de funciones, el seguimiento de instrucciones y el razonamiento crítico. DrafterBench ofrece un análisis detallado de la precisión de las tareas y las estadísticas de errores, con el objetivo de proporcionar una visión más profunda de las capacidades de los agentes e identificar objetivos de mejora para la integración de LLM en aplicaciones de ingeniería. Nuestro punto de referencia está disponible en https://github.com/Eason-Li-AIS/DrafterBench, con el conjunto de pruebas alojado en https://huggingface.co/datasets/Eason666/DrafterBench.
La comunidad de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) se enfoca casi exclusivamente en modelos de lenguaje de solo decodificador, ya que son más fáciles de usar para la generación de texto. Sin embargo, un gran subconjunto de la comunidad sigue utilizando modelos de solo codificador para tareas como clasificación o recuperación de información. Trabajos anteriores han intentado comparar estas arquitecturas, pero se han visto obligados a hacer comparaciones con modelos que tienen diferentes números de parámetros, técnicas de entrenamiento y conjuntos de datos. Presentamos la suite de modelos Ettin de datos abiertos de última generación (SOTA): modelos emparejados de solo codificador y solo decodificador que van desde 17 millones de parámetros hasta 1 billón, entrenados con hasta 2 billones de tokens. Utilizar la misma receta tanto para modelos de solo codificador como de solo decodificador produce recetas SOTA en ambas categorías para sus respectivos tamaños, superando a ModernBERT como codificador y a Llama 3.2 y SmolLM2 como decodificadores. Al igual que trabajos anteriores, encontramos que los modelos de solo codificador sobresalen en tareas de clasificación y recuperación, mientras que los decodificadores destacan en tareas generativas. Sin embargo, demostramos que adaptar un modelo decodificador a tareas de codificador (y viceversa) mediante entrenamiento continuo es inferior en comparación con usar solo el objetivo inverso (es decir, un codificador de 400M supera a un decodificador de 1B en MNLI, y viceversa para tareas generativas). Hemos liberado todos los artefactos de este estudio, incluyendo datos de entrenamiento, orden de entrenamiento segmentado por punto de control y más de 200 puntos de control, para permitir que trabajos futuros analicen o amplíen todos los aspectos del entrenamiento.
Los seres humanos son componentes integrales del ecosistema de transporte, y comprender sus comportamientos es crucial para facilitar el desarrollo de sistemas de conducción seguros. Aunque los avances recientes han explorado diversos aspectos del comportamiento humano—como el movimiento, las trayectorias y las intenciones—todavía no existe un punto de referencia integral para evaluar la comprensión del comportamiento humano en la conducción autónoma. En este trabajo, proponemos MMHU, un punto de referencia a gran escala para el análisis del comportamiento humano que incluye anotaciones detalladas, como el movimiento y las trayectorias humanas, descripciones textuales de los movimientos humanos, la intención humana y etiquetas de comportamiento crítico relevantes para la seguridad al conducir. Nuestro conjunto de datos abarca 57k clips de movimiento humano y 1.73M fotogramas recopilados de diversas fuentes, incluyendo conjuntos de datos de conducción establecidos como Waymo, videos en entornos naturales de YouTube y datos recolectados por nosotros mismos. Se ha desarrollado una pipeline de anotación con intervención humana para generar descripciones detalladas del comportamiento. Ofrecemos un análisis exhaustivo del conjunto de datos y evaluamos múltiples tareas—desde la predicción de movimiento hasta la generación de movimiento y la respuesta a preguntas sobre el comportamiento humano—proporcionando así una suite de evaluación amplia. Página del proyecto: https://MMHU-Benchmark.github.io.
Permitir que los humanos virtuales respondan de manera dinámica y realista a diversos estímulos auditivos sigue siendo un desafío clave en la animación de personajes, lo que requiere la integración de modelos perceptivos y síntesis de movimiento. A pesar de su importancia, esta tarea ha sido en gran medida poco explorada. La mayoría de los trabajos previos se han centrado principalmente en mapear modalidades como el habla, el audio y la música para generar movimiento humano. Hasta ahora, estos modelos suelen pasar por alto el impacto de las características espaciales codificadas en las señales de audio espacial sobre el movimiento humano. Para cerrar esta brecha y permitir un modelado de alta calidad de los movimientos humanos en respuesta al audio espacial, presentamos el primer conjunto de datos completo de Movimiento Humano Impulsado por Audio Espacial (SAM, por sus siglas en inglés), que contiene datos diversos y de alta calidad de audio espacial y movimiento. Para la evaluación comparativa, desarrollamos un marco generativo basado en difusión, simple pero efectivo, para la generación de movimiento humano impulsado por audio espacial, denominado MOSPA, que captura fielmente la relación entre el movimiento corporal y el audio espacial a través de un mecanismo de fusión eficaz. Una vez entrenado, MOSPA puede generar diversos movimientos humanos realistas condicionados por diferentes entradas de audio espacial. Realizamos una investigación exhaustiva del conjunto de datos propuesto y llevamos a cabo experimentos extensos para la evaluación comparativa, donde nuestro método alcanza un rendimiento de vanguardia en esta tarea. Nuestro modelo y conjunto de datos se publicarán como código abierto tras su aceptación. Consulte nuestro video complementario para obtener más detalles.
Presentamos SpatialTrackerV2, un método de seguimiento de puntos 3D en flujo directo para videos monoculares. Más allá de las arquitecturas modulares basadas en componentes estándar para seguimiento 3D, nuestro enfoque unifica las conexiones intrínsecas entre el seguimiento de puntos, la profundidad monocular y la estimación de la pose de la cámara en un rastreador de puntos 3D de alto rendimiento y flujo directo. Descompone el movimiento 3D en el espacio mundial en geometría de la escena, egomovimiento de la cámara y movimiento por píxel de los objetos, con una arquitectura completamente diferenciable y de extremo a extremo, permitiendo un entrenamiento escalable en una amplia gama de conjuntos de datos, incluyendo secuencias sintéticas, videos RGB-D con pose y material sin etiquetar de entornos reales. Al aprender geometría y movimiento de manera conjunta a partir de datos tan heterogéneos, SpatialTrackerV2 supera a los métodos existentes de seguimiento 3D en un 30% y alcanza la precisión de los principales enfoques de reconstrucción 3D dinámica mientras funciona 50 veces más rápido.
Proponemos Lizard, un marco de linealización que transforma modelos de lenguaje grandes (LLMs) basados en Transformers preentrenados en arquitecturas flexibles y subcuadráticas para la generación de contexto infinito. Los LLMs basados en Transformers enfrentan cuellos de botella significativos de memoria y computación a medida que aumenta la longitud del contexto, debido a la complejidad cuadrática de la atención softmax y al crecimiento de la caché de claves-valores (KV). Lizard aborda estas limitaciones introduciendo un mecanismo de atención subcuadrática que aproxima estrechamente la atención softmax mientras preserva la calidad de la salida. A diferencia de métodos de linealización previos, que a menudo están limitados por estructuras de modelo fijas y, por lo tanto, excluyen mecanismos de compuerta, Lizard incorpora un módulo de compuerta inspirado en los últimos modelos lineales de vanguardia. Esto permite un control adaptativo de la memoria, soporta inferencia de memoria constante, ofrece una fuerte generalización de longitud y permite un diseño de modelo más flexible. Lizard combina atención lineal con compuerta para la compresión de contexto global con atención de ventana deslizante mejorada por memoria meta, formando un mecanismo híbrido que captura tanto dependencias de largo alcance como interacciones locales de grano fino. Además, introducimos un algoritmo consciente del hardware que acelera la velocidad de entrenamiento de nuestros modelos. Experimentos extensos muestran que Lizard logra una recuperación casi sin pérdidas del rendimiento del modelo maestro en tareas estándar de modelado de lenguaje, superando significativamente los métodos de linealización anteriores. En el benchmark MMLU de 5-shot, Lizard mejora en 18 puntos sobre modelos previos y muestra mejoras significativas en tareas de recuerdo asociativo.
Los avances recientes han establecido un nuevo paradigma de aprendizaje automático basado en la ampliación del cómputo tanto en el momento de inferencia como en el de entrenamiento. En esta línea de trabajo, se utiliza una combinación de Ajuste Fino Supervisado (SFT, por sus siglas en inglés) en demostraciones sintéticas y Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) para entrenar Modelos de Lenguaje de Gran Escala con el fin de gastar cómputo adicional durante la inferencia en forma de "pensamientos" expresados en lenguaje natural. En este artículo, proponemos en su lugar formatear estos tokens como una traza de interacción de múltiples turnos con una herramienta con estado. En cada turno, el nuevo estado de la herramienta se añade al contexto del modelo, cuya tarea es generar los tokens necesarios para controlar la herramienta mediante un DSL personalizado. Evaluamos este enfoque en el problema de reparar código Python defectuoso y demostramos que esta configuración restringida permite un muestreo más rápido de la experiencia y una señal de recompensa más densa, lo que permite incluso a modelos de hasta 3 mil millones de parámetros aprender a gastar cómputo adicional de manera competente en la tarea.
Los recientes avances en la generación de vídeo, particularmente en los modelos de difusión, han impulsado un progreso notable en la síntesis de texto a vídeo (T2V) y de imagen a vídeo (I2V). Sin embargo, persisten desafíos en la integración efectiva de señales de movimiento dinámico y restricciones espaciales flexibles. Los métodos T2V existentes suelen depender de indicaciones de texto, que inherentemente carecen de un control preciso sobre la disposición espacial del contenido generado. Por el contrario, los métodos I2V están limitados por su dependencia de imágenes reales, lo que restringe la capacidad de edición del contenido sintetizado. Aunque algunos métodos incorporan ControlNet para introducir condicionamiento basado en imágenes, a menudo carecen de control explícito del movimiento y requieren un entrenamiento computacionalmente costoso. Para abordar estas limitaciones, proponemos AnyI2V, un marco sin necesidad de entrenamiento que anima cualquier imagen condicional con trayectorias de movimiento definidas por el usuario. AnyI2V admite una gama más amplia de modalidades como imagen condicional, incluyendo tipos de datos como mallas y nubes de puntos que no son compatibles con ControlNet, permitiendo una generación de vídeo más flexible y versátil. Además, soporta entradas condicionales mixtas y permite la transferencia de estilo y edición mediante LoRA e indicaciones de texto. Experimentos extensivos demuestran que el AnyI2V propuesto logra un rendimiento superior y ofrece una nueva perspectiva en la generación de vídeo controlada espacial y dinámicamente. El código está disponible en https://henghuiding.com/AnyI2V/.
La rápida evolución de las bibliotecas de software representa un obstáculo considerable para la generación de código, lo que exige una adaptación continua a las frecuentes actualizaciones de versiones mientras se preserva la compatibilidad con versiones anteriores. Aunque los benchmarks existentes sobre la evolución del código ofrecen información valiosa, generalmente carecen de una evaluación basada en la ejecución para generar código compatible con versiones específicas de las bibliotecas. Para abordar este problema, presentamos GitChameleon, un conjunto de datos novedoso y meticulosamente curado que incluye 328 problemas de completado de código en Python, cada uno condicionado a versiones específicas de bibliotecas y acompañado de pruebas unitarias ejecutables. GitChameleon evalúa rigurosamente la capacidad de los modelos de lenguaje grandes (LLMs) contemporáneos, agentes impulsados por LLMs, asistentes de código y sistemas RAG para realizar generación de código condicionada por versiones que demuestre precisión funcional mediante la ejecución. Nuestras evaluaciones exhaustivas indican que los sistemas más avanzados enfrentan desafíos significativos en esta tarea; los modelos empresariales alcanzan tasas de éxito iniciales en el rango del 48-51%, lo que subraya la complejidad del problema. Al ofrecer un benchmark basado en la ejecución que enfatiza la naturaleza dinámica de las bibliotecas de código, GitChameleon permite una comprensión más clara de este desafío y ayuda a guiar el desarrollo de métodos de generación de código con IA más adaptables y confiables. Hacemos público el conjunto de datos y el código de evaluación en https://github.com/mrcabbage972/GitChameleonBenchmark.
El aprendizaje por refuerzo (RL, por sus siglas en inglés) para modelos de lenguaje de gran escala es una tarea que consume mucha energía: el entrenamiento puede ser inestable, y la política puede desviarse gradualmente de sus pesos preentrenados. Presentamos RLEP (Reinforcement Learning with Experience rePlay), un marco de trabajo de dos fases que primero recopila trayectorias verificadas y luego las reproduce durante el entrenamiento posterior. En cada paso de actualización, la política se optimiza en mini-lotes que combinan nuevas ejecuciones generadas con estos éxitos reproducidos. Al reproducir ejemplos de alta calidad, RLEP guía al modelo lejos de exploraciones infructuosas, enfoca el aprendizaje en caminos de razonamiento prometedores y ofrece una convergencia más rápida y un rendimiento final más sólido. En el modelo base Qwen2.5-Math-7B, RLEP alcanza la precisión máxima de referencia con sustancialmente menos actualizaciones y finalmente la supera, mejorando la precisión en AIME-2024 del 38.2% al 39.9%, en AIME-2025 del 19.8% al 22.3%, y en AMC-2023 del 77.0% al 82.2%. Nuestro código, conjuntos de datos y puntos de control están disponibles públicamente en https://github.com/Kwai-Klear/RLEP para facilitar la reproducibilidad y futuras investigaciones.
Este artículo presenta la participación de AI Wizards en la tarea 1 del laboratorio CheckThat! de CLEF 2025: Detección de Subjetividad en Artículos de Noticias, clasificando oraciones como subjetivas/objetivas en entornos monolingües, multilingües y de aprendizaje cero. Se proporcionaron conjuntos de datos de entrenamiento y desarrollo para árabe, alemán, inglés, italiano y búlgaro; la evaluación final incluyó idiomas no vistos previamente (por ejemplo, griego, rumano, polaco, ucraniano) para evaluar la generalización. Nuestra estrategia principal mejoró los clasificadores basados en transformadores mediante la integración de puntuaciones de sentimiento, derivadas de un modelo auxiliar, con representaciones de oraciones, con el objetivo de superar el ajuste fino estándar. Exploramos esta arquitectura aumentada con sentimiento utilizando mDeBERTaV3-base, ModernBERT-base (inglés) y Llama3.2-1B. Para abordar el desequilibrio de clases, prevalente en todos los idiomas, empleamos la calibración del umbral de decisión optimizada en el conjunto de desarrollo. Nuestros experimentos muestran que la integración de características de sentimiento mejora significativamente el rendimiento, especialmente en la puntuación F1 subjetiva. Este marco condujo a altas clasificaciones, destacando el primer lugar para el griego (Macro F1 = 0.51).
Los modelos multimodales de base a menudo se diseñan mediante la combinación de múltiples modelos unimodales preentrenados existentes: por ejemplo, un clasificador de imágenes con un modelo de texto. Este proceso de combinación se realiza entrenando un módulo conector que tiene como objetivo alinear los espacios de representación de estos modelos unimodales hacia un objetivo multimodal. Sin embargo, dada la complejidad de entrenar tales conectores en conjuntos de datos a gran escala basados en la web, junto con el número cada vez mayor de modelos unimodales preentrenados disponibles, la tarea de selección de modelos unimodales y el posterior entrenamiento del módulo conector se vuelve computacionalmente exigente. Para abordar este problema crítico poco estudiado, proponemos Hypernetwork Model Alignment (Hyma), una solución novedosa todo en uno para la selección óptima de modelos unimodales y el entrenamiento de conectores mediante el uso de hiperredes. Específicamente, nuestro marco utiliza la capacidad de predicción de parámetros de una hiperred para obtener módulos conectores entrenados conjuntamente para N por M combinaciones de modelos unimodales. En nuestros experimentos, Hyma reduce el costo de búsqueda del par de modelos unimodales de mejor rendimiento en 10 veces, mientras iguala la clasificación y el rendimiento del conector entrenado obtenido mediante búsqueda exhaustiva en una serie de benchmarks multimodales diversos.
La destilación de conocimiento, como técnica eficiente de transferencia de conocimiento, ha logrado un éxito notable en escenarios unimodales. Sin embargo, en entornos multimodales, los métodos convencionales de destilación enfrentan desafíos significativos debido a las heterogeneidades de datos y estadísticas, lo que les impide aprovechar el conocimiento previo complementario incrustado en los modelos maestros multimodales. Este artículo revela empíricamente dos problemas críticos en los enfoques existentes: la selección de la ruta de destilación y la deriva del conocimiento. Para abordar estas limitaciones, proponemos MST-Distill, un novedoso marco de destilación de conocimiento multimodal que incluye una mezcla de maestros especializados. Nuestro enfoque emplea un conjunto diverso de modelos maestros en configuraciones tanto multimodales como multimodales, integrado con una red de enrutamiento a nivel de instancia que facilita una destilación adaptativa y dinámica. Esta arquitectura trasciende efectivamente las limitaciones de los métodos tradicionales que dependen de modelos maestros monótonos y estáticos. Además, introducimos un módulo de enmascaramiento complementario, entrenado de manera independiente para suprimir las discrepancias específicas de cada modalidad y reconstruir las representaciones de los maestros, mitigando así la deriva del conocimiento y mejorando la efectividad de la transferencia. Experimentos exhaustivos en cinco conjuntos de datos multimodales diversos, que abarcan visuales, audio y texto, demuestran que nuestro método supera significativamente a los métodos de destilación de conocimiento más avanzados en tareas de destilación multimodal. El código fuente está disponible en https://github.com/Gray-OREO/MST-Distill.