Artículos de investigación en IA seleccionados diariamente con traducciones
A medida que los Modelos de Lenguaje de Gran Escala (LLMs) evolucionan rápidamente, proporcionar retroalimentación precisa y supervisión escalable sobre sus resultados se convierte en un problema urgente y crítico. Utilizar LLMs como modelos de crítica para lograr supervisión automatizada es una solución prometedora. En este trabajo, nos enfocamos en estudiar y mejorar la capacidad de crítica matemática de los LLMs. Los críticos actuales basados en LLMs ofrecen críticas demasiado superficiales en cada paso, lo que resulta en una baja precisión de juicio y dificulta proporcionar suficiente retroalimentación para que el generador de LLMs corrija errores. Para abordar este problema, proponemos un marco novedoso y efectivo de dos etapas para desarrollar críticos de LLMs capaces de realizar críticas deliberadas en cada paso del razonamiento de soluciones matemáticas. En la primera etapa, utilizamos Qwen2.5-72B-Instruct para generar 4.5K críticas de formato largo como datos iniciales para el ajuste fino supervisado. Cada crítica inicial consiste en críticas paso a paso deliberadas que incluyen verificaciones desde múltiples perspectivas, así como críticas profundas de las críticas iniciales para cada paso de razonamiento. Luego, realizamos aprendizaje por refuerzo en el modelo ajustado utilizando datos etiquetados por humanos de PRM800K o nuestros datos anotados automáticamente obtenidos mediante estimación de corrección basada en muestreo de Monte Carlo, para incentivar aún más su capacidad de crítica. Nuestro modelo de crítica desarrollado sobre Qwen2.5-7B-Instruct no solo supera significativamente a los críticos de LLMs existentes (incluyendo modelos del mismo tamaño como DeepSeek-R1-distill y GPT-4o) en varios benchmarks de identificación de errores, sino que también ayuda de manera más efectiva al generador de LLMs a refinar pasos erróneos a través de retroalimentación más detallada.
El Video Generativo Interactivo (IGV, por sus siglas en inglés) ha surgido como una tecnología crucial en respuesta a la creciente demanda de contenido de video interactivo y de alta calidad en diversos dominios. En este artículo, definimos IGV como una tecnología que combina capacidades generativas para producir contenido de video diverso y de alta calidad con características interactivas que permiten la participación del usuario a través de señales de control y retroalimentación reactiva. Examinamos el panorama actual de las aplicaciones de IGV, centrándonos en tres dominios principales: 1) los videojuegos, donde el IGV permite una exploración infinita en mundos virtuales; 2) la IA encarnada, donde el IGV funciona como un sintetizador de entornos consciente de la física para entrenar agentes en interacción multimodal con escenas que evolucionan dinámicamente; y 3) la conducción autónoma, donde el IGV proporciona capacidades de simulación en bucle cerrado para pruebas y validación críticas para la seguridad. Para guiar el desarrollo futuro, proponemos un marco integral que descompone un sistema IGV ideal en cinco módulos esenciales: Generación, Control, Memoria, Dinámica e Inteligencia. Además, analizamos sistemáticamente los desafíos técnicos y las direcciones futuras para realizar cada componente de un sistema IGV ideal, como lograr la generación en tiempo real, habilitar el control de dominio abierto, mantener la coherencia a largo plazo, simular física precisa e integrar razonamiento causal. Creemos que este análisis sistemático facilitará la investigación y el desarrollo futuros en el campo del IGV, avanzando finalmente la tecnología hacia aplicaciones más sofisticadas y prácticas.
Los avances recientes en los modelos de lenguaje de gran escala han demostrado cómo la cadena de pensamiento (CoT, por sus siglas en inglés) y el aprendizaje por refuerzo (RL, por sus siglas en inglés) pueden mejorar el rendimiento. Sin embargo, la aplicación de estas estrategias de razonamiento en el dominio de la generación visual sigue siendo en gran medida inexplorada. En este artículo, presentamos T2I-R1, un novedoso modelo de generación de texto a imagen mejorado con razonamiento, impulsado por RL con un proceso de razonamiento CoT de dos niveles. Específicamente, identificamos dos niveles de CoT que pueden utilizarse para mejorar diferentes etapas de la generación: (1) el CoT a nivel semántico para la planificación de alto nivel del prompt y (2) el CoT a nivel de tokens para el procesamiento de píxeles de bajo nivel durante la generación por parches. Para coordinar mejor estos dos niveles de CoT, introducimos BiCoT-GRPO con un conjunto de recompensas de generación, que optimiza de manera fluida ambos CoT de generación dentro del mismo paso de entrenamiento. Al aplicar nuestras estrategias de razonamiento al modelo base, Janus-Pro, logramos un rendimiento superior con una mejora del 13% en T2I-CompBench y del 19% en el benchmark WISE, superando incluso al modelo de última generación FLUX.1. El código está disponible en: https://github.com/CaraJ7/T2I-R1.
Muchos métodos para mejorar los agentes de Modelos de Lenguaje de Gran Escala (LLM) en tareas de toma de decisiones secuenciales dependen de la ingeniería de conocimiento específica de la tarea, como el ajuste de prompts, ejemplos cuidadosamente seleccionados en contexto, o espacios de observación y acción personalizados. Con estos enfoques, el rendimiento del agente mejora con la calidad o cantidad de ingeniería de conocimiento invertida. En cambio, investigamos cómo los agentes LLM pueden mejorar automáticamente su rendimiento aprendiendo en contexto a partir de sus propias experiencias exitosas en tareas similares. En lugar de depender de la ingeniería de conocimiento específica de la tarea, nos enfocamos en construir y refinar una base de datos de ejemplos autogenerados. Demostramos que incluso una acumulación ingenua de trayectorias exitosas a través de tareas de entrenamiento mejora el rendimiento en pruebas en tres benchmarks: ALFWorld (73% a 89%), Wordcraft (55% a 64%) e InterCode-SQL (75% a 79%), igualando el rendimiento que el agente inicial logra si se le permiten dos o tres intentos por tarea. Luego introducimos dos extensiones: (1) selección a nivel de base de datos mediante entrenamiento basado en población para identificar colecciones de ejemplos de alto rendimiento, y (2) selección a nivel de ejemplar que retiene trayectorias individuales basadas en su utilidad empírica como ejemplos en contexto. Estas extensiones mejoran aún más el rendimiento, alcanzando un 91% en ALFWorld, igualando enfoques más complejos que emplean componentes y prompts específicos de la tarea. Nuestros resultados demuestran que la construcción automática de bases de datos de trayectorias ofrece una alternativa convincente a la ingeniería de conocimiento intensiva en mano de obra.
La sincronización labial, conocida como la tarea de alinear los movimientos de los labios en un video existente con un nuevo audio de entrada, se suele plantear como una variante más simple de la animación facial impulsada por audio. Sin embargo, además de sufrir los problemas habituales en la generación de cabezas parlantes (por ejemplo, la consistencia temporal), la sincronización labial presenta desafíos significativos como la fuga de expresiones del video de entrada y las oclusiones faciales, que pueden afectar gravemente aplicaciones del mundo real como el doblaje automatizado, pero que a menudo se pasan por alto en trabajos existentes. Para abordar estas limitaciones, presentamos KeySync, un marco de trabajo de dos etapas que logra resolver el problema de la consistencia temporal, al mismo tiempo que incorpora soluciones para la fuga y las oclusiones mediante una estrategia de enmascaramiento cuidadosamente diseñada. Mostramos que KeySync alcanza resultados de vanguardia en la reconstrucción labial y la sincronización cruzada, mejorando la calidad visual y reduciendo la fuga de expresiones según LipLeak, nuestra nueva métrica de fuga. Además, demostramos la efectividad de nuestro nuevo enfoque de enmascaramiento para manejar oclusiones y validamos nuestras decisiones arquitectónicas a través de varios estudios de ablación. El código y los pesos del modelo se pueden encontrar en https://antonibigata.github.io/KeySync.
Las historias morales son un vehículo probado en el tiempo para transmitir valores, sin embargo, el PLN moderno carece de un corpus grande y estructurado que combine narrativas coherentes con lecciones éticas explícitas. Cerramos esta brecha con TF1-EN-3M, el primer conjunto de datos abierto de tres millones de fábulas en inglés generadas exclusivamente por modelos ajustados por instrucciones con no más de 8B parámetros. Cada historia sigue un andamiaje de seis elementos (personaje -> rasgo -> entorno -> conflicto -> resolución -> moraleja), producido a través de un motor de prompts combinatorio que garantiza fidelidad al género mientras cubre un amplio espacio temático. Una canalización de evaluación híbrida combina (i) un crítico basado en GPT que puntúa gramática, creatividad, claridad moral y adherencia a la plantilla con (ii) métricas de diversidad y legibilidad sin referencia. Entre diez candidatos de peso abierto, una variante de Llama-3 con 8B parámetros ofrece el mejor equilibrio entre calidad y velocidad, produciendo fábulas de alta puntuación en una sola GPU de consumo (<24 GB VRAM) a aproximadamente 13.5 centavos por 1,000 fábulas. Publicamos el conjunto de datos, el código de generación, los scripts de evaluación y los metadatos completos bajo una licencia permisiva, permitiendo una reproducibilidad exacta y una evaluación comparativa de costos. TF1-EN-3M abre vías para la investigación en seguimiento de instrucciones, inteligencia narrativa, alineación de valores y IA educativa amigable para niños, demostrando que la narración moral a gran escala ya no requiere modelos gigantes propietarios.
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han transformado la ingeniería de software, pero su aplicación en dominios de ingeniería física sigue siendo poco explorada. Este artículo evalúa las capacidades de los LLMs en el diseño de cohetes de alta potencia a través de RocketBench, un punto de referencia que conecta los LLMs con simulaciones de cohetes de alta fidelidad. Probamos los modelos en dos tareas de diseño de creciente complejidad: optimización de altitud objetivo y desafíos de aterrizaje de precisión. Nuestros hallazgos revelan que, aunque los LLMs de última generación demuestran un conocimiento de ingeniería sólido como base, tienen dificultades para iterar en sus diseños cuando se les proporcionan resultados de simulación y, en última instancia, se estancan por debajo de los niveles de rendimiento humano. Sin embargo, cuando se mejoran con aprendizaje por refuerzo (RL, por sus siglas en inglés), demostramos que un modelo de 7B parámetros supera tanto a los modelos base de última generación como a los expertos humanos. Esta investigación demuestra que los LLMs entrenados con RL pueden servir como herramientas efectivas para la optimización de ingeniería compleja, potencialmente transformando dominios de ingeniería más allá del desarrollo de software.
Recientemente, los modelos de razonamiento de pensamiento prolongado han logrado un rendimiento sólido en tareas de razonamiento complejo, pero a menudo incurren en un sobrecosto sustancial de inferencia, lo que convierte a la eficiencia en una preocupación crítica. Nuestro análisis empírico revela que el beneficio de utilizar Long-CoT varía según los problemas: mientras que algunos problemas requieren un razonamiento elaborado, otros no muestran mejoría o incluso experimentan una disminución en la precisión. Esto motiva estrategias de razonamiento adaptativo que ajustan la profundidad del razonamiento a la entrada. Sin embargo, trabajos previos principalmente reducen la redundancia dentro de las rutas de razonamiento largas, limitando la exploración de estrategias más eficientes más allá del paradigma Long-CoT. Para abordar esto, proponemos un marco novedoso de dos etapas para un razonamiento adaptativo y eficiente. Primero, construimos un modelo de razonamiento híbrido fusionando modelos CoT largos y cortos para habilitar estilos de razonamiento diversos. Segundo, aplicamos un entrenamiento de preferencia de dos niveles para guiar al modelo a seleccionar estilos de razonamiento adecuados (a nivel de grupo) y preferir un razonamiento conciso y correcto dentro de cada grupo de estilo (a nivel de instancia). Los experimentos demuestran que nuestro método reduce significativamente los costos de inferencia en comparación con otros enfoques de referencia, manteniendo el rendimiento. Notablemente, en cinco conjuntos de datos matemáticos, la longitud promedio del razonamiento se reduce en más del 50%, destacando el potencial de las estrategias adaptativas para optimizar la eficiencia del razonamiento en modelos de lenguaje grandes. Nuestro código estará disponible próximamente en https://github.com/StarDewXXX/AdaR1.
Las interfaces de scripting permiten a los usuarios automatizar tareas y personalizar flujos de trabajo de software, pero la creación de scripts tradicionalmente requiere conocimientos de programación y familiaridad con APIs específicas, lo que representa una barrera para muchos usuarios. Si bien los Modelos de Lenguaje de Gran Escala (LLMs) pueden generar código a partir de consultas en lenguaje natural, la generación de código en tiempo de ejecución está severamente limitada debido a código no verificado, riesgos de seguridad, tiempos de respuesta más largos y mayores costos computacionales. Para cerrar esta brecha, proponemos un marco de simulación offline para curar un conjunto de habilidades específicas de software, una colección de scripts verificados, aprovechando LLMs y guías de scripting disponibles públicamente. Nuestro marco consta de dos componentes: (1) creación de tareas, utilizando orientación funcional de arriba hacia abajo y exploración de sinergias de API de abajo hacia arriba para generar tareas útiles; y (2) generación de habilidades con pruebas, refinando y validando scripts basados en retroalimentación de ejecución. Para navegar eficientemente el extenso panorama de APIs, introducimos un modelo de predicción de enlaces basado en Redes Neuronales de Grafos (GNN) para capturar sinergias entre APIs, permitiendo la generación de habilidades que involucren APIs subutilizadas y expandiendo la diversidad del conjunto de habilidades. Experimentos con Adobe Illustrator demuestran que nuestro marco mejora significativamente las tasas de éxito en la automatización, reduce el tiempo de respuesta y ahorra costos de tokens en tiempo de ejecución en comparación con la generación tradicional de código en tiempo de ejecución. Este es el primer intento de utilizar interfaces de scripting de software como banco de pruebas para sistemas basados en LLMs, destacando las ventajas de aprovechar la retroalimentación de ejecución en un entorno controlado y ofreciendo valiosas ideas sobre cómo alinear las capacidades de la IA con las necesidades de los usuarios en dominios de software especializados.
Imagina estar en un espacio concurrido donde las personas hablan un idioma diferente y tener auriculares que transforman el espacio auditivo a tu idioma nativo, mientras preservan las señales espaciales de todos los hablantes. Presentamos la traducción espacial del habla, un concepto novedoso para auriculares que traducen a los hablantes en el entorno del usuario, manteniendo la dirección y las características únicas de la voz de cada hablante en la salida binaural. Para lograrlo, abordamos varios desafíos técnicos que abarcan la separación ciega de fuentes, la localización, la traducción expresiva en tiempo real y la renderización binaural para preservar las direcciones de los hablantes en el audio traducido, al mismo tiempo que logramos inferencia en tiempo real en el silicio Apple M2. Nuestra evaluación de prueba de concepto con un prototipo de auriculares binaurales muestra que, a diferencia de los modelos existentes, que fallan en presencia de interferencias, alcanzamos un puntaje BLEU de hasta 22.01 al traducir entre idiomas, a pesar de la fuerte interferencia de otros hablantes en el entorno. Estudios con usuarios confirman además la efectividad del sistema para renderizar espacialmente el habla traducida en entornos reverberantes del mundo real no vistos previamente. En retrospectiva, este trabajo marca el primer paso hacia la integración de la percepción espacial en la traducción del habla.
El aumento de datos es esencial en imágenes médicas para mejorar la precisión en la clasificación, la detección de lesiones y la segmentación de órganos en condiciones de datos limitados. Sin embargo, persisten dos desafíos significativos. Primero, una brecha de dominio pronunciada entre fotografías naturales e imágenes médicas puede distorsionar características críticas de las enfermedades. Segundo, los estudios de aumento en imágenes médicas están fragmentados y limitados a tareas o arquitecturas individuales, dejando poco claros los beneficios de las estrategias avanzadas basadas en mezclas. Para abordar estos desafíos, proponemos un marco de evaluación unificado con seis métodos de aumento basados en mezclas, integrados tanto con arquitecturas convolucionales como con transformadores, en conjuntos de datos de resonancia magnética de tumores cerebrales y fondos de ojo de enfermedades oculares. Nuestras contribuciones son tres. (1) Presentamos MediAug, un punto de referencia completo y reproducible para el aumento avanzado de datos en imágenes médicas. (2) Evaluamos sistemáticamente MixUp, YOCO, CropMix, CutMix, AugMix y SnapMix con arquitecturas ResNet-50 y ViT-B. (3) Demostramos mediante experimentos extensos que MixUp produce la mayor mejora en la tarea de clasificación de tumores cerebrales para ResNet-50 con un 79.19% de precisión y SnapMix produce la mayor mejora para ViT-B con un 99.44% de precisión, mientras que YOCO produce la mayor mejora en la tarea de clasificación de enfermedades oculares para ResNet-50 con un 91.60% de precisión y CutMix produce la mayor mejora para ViT-B con un 97.94% de precisión. El código estará disponible en https://github.com/AIGeeksGroup/MediAug.
Los sensores de visión están adquiriendo mayor importancia en los Sistemas de Transporte Inteligente (ITS) para el monitoreo, gestión y optimización del tráfico, a medida que el número de cámaras en red sigue aumentando. Sin embargo, el seguimiento y emparejamiento manual de objetos a través de múltiples cámaras no superpuestas presenta desafíos significativos en escenarios de tráfico urbano a escala de ciudad. Estos desafíos incluyen manejar diversos atributos de vehículos, oclusiones, variaciones de iluminación, sombras y diferentes resoluciones de video. Para abordar estos problemas, proponemos un marco de trabajo basado en aprendizaje profundo, eficiente y rentable, para el Seguimiento de Múltiples Objetos en Múltiples Cámaras (MO-MCT). El marco propuesto utiliza Mask R-CNN para la detección de objetos y emplea la Supresión No Máxima (NMS) para seleccionar objetos objetivo de detecciones superpuestas. Se utiliza el aprendizaje por transferencia para la re-identificación, permitiendo la asociación y generación de trayectorias de vehículos a través de múltiples cámaras. Además, aprovechamos funciones de pérdida y medidas de distancia apropiadas para manejar los desafíos de oclusión, iluminación y sombras. El módulo final de identificación de soluciones realiza la extracción de características utilizando ResNet-152 junto con el seguimiento de vehículos basado en Deep SORT. El marco propuesto se evalúa en el conjunto de datos del 5º Desafío AI City (Pista 3), que comprende 46 flujos de cámaras. De estos 46 flujos de cámaras, 40 se utilizan para el entrenamiento y validación del modelo, mientras que los seis restantes se emplean para la prueba del modelo. El marco propuesto logra un rendimiento competitivo con una puntuación IDF1 de 0.8289, y puntuaciones de precisión y recuperación de 0.9026 y 0.8527 respectivamente, demostrando su eficacia en el seguimiento robusto y preciso de vehículos.