Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han revolucionado el procesamiento del lenguaje natural (NLP), sin embargo, los LLMs multilingües de código abierto siguen siendo escasos, y los modelos existentes suelen tener una cobertura lingüística limitada. Estos modelos suelen priorizar idiomas bien documentados, mientras que lenguas ampliamente habladas pero con menos recursos a menudo son ignoradas. Para abordar esta disparidad, presentamos Babel, un LLM multilingüe de código abierto que cubre los 25 idiomas más hablados, da soporte a más del 90% de la población mundial e incluye muchas lenguas desatendidas por otros LLMs multilingües de código abierto. A diferencia de los enfoques tradicionales de preentrenamiento continuo, Babel amplía su número de parámetros mediante una técnica de extensión de capas que eleva su techo de rendimiento. Introducimos dos variantes: Babel-9B, diseñado para una inferencia y ajuste fino eficientes, y Babel-83B, que establece un nuevo estándar para los LLMs multilingües de código abierto. Evaluaciones exhaustivas en tareas multilingües demuestran su rendimiento superior en comparación con LLMs de código abierto de tamaño similar. Además, utilizando conjuntos de datos de ajuste fino supervisado de código abierto, Babel logra un rendimiento notable, con Babel-9B-Chat liderando entre los LLMs de 10 mil millones de parámetros y Babel-83B-Chat estableciendo un nuevo estándar en tareas multilingües, alcanzando el nivel de los modelos comerciales.
Un punto débil de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) es su tendencia a generar afirmaciones no factuales, es decir, a alucinar. Una respuesta que mezcla declaraciones factuales y no factuales representa un desafío para los humanos, ya que dificulta la verificación y la toma de decisiones basadas en información precisa. Para abordar este problema, proponemos la técnica de Prompting de Cadena de Pensamiento Resaltado (HoT, por sus siglas en inglés), un método para guiar a los LLMs a generar respuestas con etiquetas XML que vinculan los hechos a los proporcionados en la consulta. Es decir, dada una pregunta de entrada, los LLMs primero reformatearían la pregunta para agregar etiquetas XML que resalten los hechos clave y, luego, generarían una respuesta con resaltados sobre los hechos referenciados en la entrada. Curiosamente, en entornos de pocos ejemplos (few-shot), HoT supera al prompting de cadena de pensamiento tradicional (CoT) en una amplia gama de 17 tareas, que van desde aritmética y comprensión lectora hasta razonamiento lógico. Al pedir a los humanos que verifiquen las respuestas de los LLMs, los resaltados ayudan a los participantes con tiempo limitado a reconocer de manera más precisa y eficiente cuándo los LLMs están en lo correcto. Sin embargo, sorprendentemente, cuando los LLMs se equivocan, HoT tiende a hacer que los usuarios crean que una respuesta es correcta.
Los Modelos de Lenguaje de Gran Escala han demostrado un rendimiento excepcional en diversas tareas posteriores y se han aplicado ampliamente en múltiples escenarios. Los datos de preferencia anotados por humanos se utilizan para el entrenamiento con el fin de mejorar aún más el rendimiento de los LLMs, lo cual está limitado por el límite superior del desempeño humano. Por ello, se ha propuesto el método de Autorecompensa, donde los LLMs generan datos de entrenamiento recompensando sus propias salidas. Sin embargo, el paradigma existente de autorecompensa no es efectivo en escenarios de razonamiento matemático e incluso puede llevar a una disminución en el rendimiento. En este trabajo, proponemos la canalización de Autorecompensa Basada en Procesos para modelos de lenguaje, la cual introduce razonamiento de pensamiento prolongado, evaluación paso a paso mediante LLM-como-Juez y optimización de preferencias paso a paso dentro del paradigma de autorecompensa. Nuestro nuevo paradigma mejora exitosamente el rendimiento de los LLMs en múltiples benchmarks de razonamiento matemático a través de la Autorecompensa Basada en Procesos iterativa, demostrando el inmenso potencial de la autorecompensa para lograr un razonamiento en LLMs que podría superar las capacidades humanas.
Presentamos KodCode, un conjunto de datos sintético que aborda el desafío persistente de adquirir datos de entrenamiento de alta calidad y verificables en diversos niveles de dificultad y dominios para entrenar modelos de lenguaje grandes (LLM) en programación. Los recursos existentes centrados en código generalmente no logran garantizar ni la amplitud de cobertura (por ejemplo, abarcando desde tareas de programación simples hasta problemas algorítmicos avanzados) ni la corrección verificable (por ejemplo, pruebas unitarias). En contraste, KodCode comprende tripletas de pregunta-solución-prueba que se validan sistemáticamente mediante un procedimiento de autoverificación. Nuestro pipeline comienza sintetizando una amplia gama de preguntas de programación, luego genera soluciones y casos de prueba con intentos adicionales asignados a problemas desafiantes. Finalmente, se realiza una síntesis de datos posentrenamiento reescribiendo las preguntas en diversos formatos y generando respuestas bajo un procedimiento de muestreo de rechazo basado en pruebas desde un modelo de razonamiento (DeepSeek R1). Este pipeline produce un conjunto de datos de programación a gran escala, robusto y diverso. KodCode es adecuado para el ajuste fino supervisado, y las pruebas unitarias emparejadas también ofrecen un gran potencial para el ajuste mediante aprendizaje por refuerzo (RL). Los experimentos de ajuste fino en benchmarks de programación (HumanEval(+), MBPP(+), BigCodeBench y LiveCodeBench) demuestran que los modelos ajustados con KodCode alcanzan un rendimiento de vanguardia, superando a modelos como Qwen2.5-Coder-32B-Instruct y DeepSeek-R1-Distill-Llama-70B.
Presentamos GEN3C, un modelo generativo de video con Control Preciso de Cámara y Consistencia Temporal 3D. Los modelos de video anteriores ya generan videos realistas, pero tienden a aprovechar poca información 3D, lo que lleva a inconsistencias, como objetos que aparecen y desaparecen. El control de cámara, si se implementa, es impreciso, porque los parámetros de la cámara son meras entradas a la red neuronal, que luego debe inferir cómo el video depende de la cámara. En contraste, GEN3C está guiado por un caché 3D: nubes de puntos obtenidas al predecir la profundidad píxel por píxel de imágenes semilla o fotogramas previamente generados. Al generar los siguientes fotogramas, GEN3C se condiciona en las representaciones 2D del caché 3D con la nueva trayectoria de cámara proporcionada por el usuario. Esto significa que GEN3C no tiene que recordar lo que generó previamente ni inferir la estructura de la imagen a partir de la pose de la cámara. En su lugar, el modelo puede concentrar todo su poder generativo en regiones no observadas previamente, así como avanzar el estado de la escena al siguiente fotograma. Nuestros resultados demuestran un control de cámara más preciso que trabajos anteriores, así como resultados de vanguardia en la síntesis de nuevas vistas con vistas escasas, incluso en escenarios desafiantes como escenas de conducción y video dinámico monocular. Los resultados se aprecian mejor en videos. ¡Visita nuestra página web! https://research.nvidia.com/labs/toronto-ai/GEN3C/
Los modelos de embeddings visuales sobresalen en tareas de zero-shot como la recuperación visual y la clasificación. Sin embargo, estos modelos no pueden utilizarse para tareas que contienen ambigüedad o requieren instrucciones del usuario. Estas tareas requieren un modelo de embedding multimodal, que genera embeddings que combinan entradas visuales y de lenguaje natural. Los enfoques basados en CLIP existentes incrustan imágenes y texto de forma independiente y fusionan el resultado. Descubrimos que esto resulta en interacciones débiles entre modalidades y un control deficiente del usuario sobre la representación. Presentamos ABC, un modelo de embedding multimodal de código abierto que utiliza un backbone de modelo visión-lenguaje para integrar profundamente las características de la imagen con instrucciones de lenguaje natural. ABC logra el mejor rendimiento para su tamaño en la recuperación de texto a imagen en MSCOCO y es el modelo con mejor desempeño en tareas de clasificación y VQA en el Massive Multimodal Embedding Benchmark. Con una representación visión-lenguaje fuertemente unificada, ABC puede utilizar lenguaje natural para resolver problemas sutiles y potencialmente ambiguos de recuperación visual. Para evaluar esta capacidad, diseñamos CtrlBench, un benchmark que requiere intercalar instrucciones textuales con contenido de imagen para una recuperación correcta. ABC avanza el estado del arte en embeddings multimodales al ofrecer representaciones de alta calidad y un control flexible mediante lenguaje natural. Nuestro modelo y conjuntos de datos están disponibles en nuestra página del proyecto.
Distilar las capacidades de seguimiento de instrucciones de modelos avanzados de lenguaje de gran escala (LLM) en modelos más pequeños utilizando un subconjunto seleccionado se ha convertido en un enfoque predominante en el entrenamiento de modelos. Si bien las estrategias existentes de selección de datos sintéticos de instrucciones se basan principalmente en señales unidimensionales (es decir, puntuaciones de recompensa, perplejidad del modelo), no logran capturar la complejidad del seguimiento de instrucciones en diversos campos. Por lo tanto, investigamos señales más diversas para capturar características integrales de pares instrucción-respuesta y proponemos tres métricas fundamentales que aprovechan la sabiduría de múltiples LLM, basadas en (1) respuestas diversas de LLM y (2) evaluación de modelos de recompensa. Sobre estas métricas base, proponemos CrowdSelect, una métrica integrada que incorpora un enfoque basado en agrupamiento para mantener la diversidad de respuestas. Nuestros experimentos exhaustivos demuestran que nuestras métricas fundamentales mejoran consistentemente el rendimiento en 4 modelos base en MT-bench y Arena-Hard. CrowdSelect, que incorpora eficientemente todas las métricas, logra un rendimiento de vanguardia tanto en ajuste fino completo como en LoRA, mostrando mejoras del 4.81% en Arena-Hard y del 11.1% en MT-bench con Llama-3.2-3b-instruct. Esperamos que nuestros hallazgos aporten insights valiosos para futuras investigaciones en esta dirección. El código está disponible en https://github.com/listentm/crowdselect.
Los Modelos de Lenguaje Visual (VLMs, por sus siglas en inglés) han demostrado capacidades impresionantes en tareas de anclaje visual. Sin embargo, su efectividad en el ámbito médico, particularmente para la detección y localización de anomalías en imágenes médicas, sigue siendo poco explorada. Un desafío importante es la naturaleza compleja y abstracta de la terminología médica, lo que dificulta asociar directamente los términos de anomalías patológicas con sus características visuales correspondientes. En este trabajo, presentamos un enfoque novedoso para mejorar el rendimiento de los VLMs en la detección y localización de anomalías médicas mediante la utilización de conocimiento médico descompuesto. En lugar de solicitar directamente a los modelos que reconozcan anomalías específicas, nos enfocamos en descomponer los conceptos médicos en atributos fundamentales y patrones visuales comunes. Esta estrategia promueve una alineación más fuerte entre las descripciones textuales y las características visuales, mejorando tanto el reconocimiento como la localización de anomalías en imágenes médicas. Evaluamos nuestro método en el modelo base Florence-2 de 0.23B y demostramos que alcanza un rendimiento comparable en el anclaje de anomalías con VLMs médicos basados en LLaVA de 7B significativamente más grandes, a pesar de haber sido entrenado con solo el 1.5% de los datos utilizados para dichos modelos. Los resultados experimentales también demuestran la efectividad de nuestro enfoque tanto en anomalías conocidas como en aquellas no vistas previamente, sugiriendo sus fuertes capacidades de generalización.
La implementación de modelos de lenguaje a gran escala en dispositivos de borde enfrenta desafíos inherentes, como altas demandas computacionales, consumo de energía y posibles riesgos de privacidad de datos. Este artículo presenta los modelos de lenguaje pequeños Shakti (SLMs) Shakti-100M, Shakti-250M y Shakti-500M, que abordan directamente estas limitaciones. Al combinar arquitecturas eficientes, técnicas de cuantización y principios de IA responsable, la serie Shakti permite inteligencia en el dispositivo para smartphones, electrodomésticos inteligentes, sistemas IoT y más. Ofrecemos una visión detallada de su filosofía de diseño, flujos de entrenamiento y rendimiento en benchmarks tanto en tareas generales (por ejemplo, MMLU, Hellaswag) como en dominios especializados (salud, finanzas y legal). Nuestros hallazgos demuestran que los modelos compactos, cuando están cuidadosamente diseñados y ajustados, pueden cumplir y, a menudo, superar las expectativas en escenarios reales de IA en el borde.
Parte del éxito de los modelos de difusión se debe a su capacidad para realizar refinamiento iterativo, es decir, corregir repetidamente las salidas durante la generación. Sin embargo, la difusión discreta enmascarada moderna carece de esta capacidad: cuando se genera un token, no puede ser actualizado nuevamente, incluso si introduce un error. Aquí, abordamos esta limitación presentando el muestreador del modelo de difusión con reenmascaramiento (ReMDM), un método que puede aplicarse a modelos de difusión enmascarados preentrenados de manera principlada y que se deriva de un modelo de difusión discreta con un proceso inverso de reenmascaramiento personalizado. Lo más interesante es que ReMDM dota a la difusión discreta de una forma de escalabilidad computacional en tiempo de inferencia. Al aumentar el número de pasos de muestreo, ReMDM genera salidas de lenguaje natural que se acercan a la calidad de los modelos autoregresivos, mientras que cuando el presupuesto computacional es limitado, ReMDM mantiene mejor la calidad. ReMDM también mejora la calidad de las muestras de los modelos de difusión enmascarada para imágenes discretizadas, y en dominios científicos como el diseño de moléculas, ReMDM facilita la guía de difusión y empuja la frontera de Pareto de la controlabilidad en comparación con el enmascaramiento clásico y la difusión de ruido uniforme. Proporcionamos el código junto con una publicación en el blog en la página del proyecto: https://remdm.github.io.
Las Bases de Conocimiento de Grafos con Texto Enriquecido (TG-KBs, por sus siglas en inglés) se han vuelto cada vez más cruciales para responder consultas al proporcionar conocimiento tanto textual como estructural. Sin embargo, los métodos de recuperación actuales suelen obtener estos dos tipos de conocimiento de manera aislada, sin considerar su refuerzo mutuo, y algunos métodos híbridos incluso omiten por completo la recuperación estructural después de la agregación de vecinos. Para abordar esta brecha, proponemos una Mezcla de Recuperación Estructural y Textual (MoR, por sus siglas en inglés) para obtener estos dos tipos de conocimiento mediante un marco de Planificación-Razonamiento-Organización. En la etapa de Planificación, MoR genera grafos de planificación textual que delinean la lógica para responder a las consultas. Siguiendo los grafos de planificación, en la etapa de Razonamiento, MoR entrelaza el recorrido estructural y la coincidencia textual para obtener candidatos de las TG-KBs. En la etapa de Organización, MoR reordena aún más los candidatos recuperados en función de su trayectoria estructural. Experimentos exhaustivos demuestran la superioridad de MoR en armonizar la recuperación estructural y textual, con hallazgos que incluyen un rendimiento de recuperación desigual en diferentes lógicas de consulta y los beneficios de integrar trayectorias estructurales para el reordenamiento de candidatos. Nuestro código está disponible en https://github.com/Yoega/MoR.
La estimación de calidad a nivel de palabra (QE, por sus siglas en inglés) detecta segmentos erróneos en traducciones automáticas, lo que puede guiar y facilitar la post-edición humana. Si bien la precisión de los sistemas de QE a nivel de palabra ha sido evaluada ampliamente, su usabilidad y su influencia en la velocidad, calidad y decisiones de edición durante la post-edición humana siguen siendo poco estudiadas. Nuestro estudio QE4PE investiga el impacto de la QE a nivel de palabra en la post-edición de traducción automática (MT) en un entorno realista que involucra a 42 post-editores profesionales en dos direcciones de traducción. Comparamos cuatro modalidades de resaltado de segmentos erróneos, incluyendo métodos de QE a nivel de palabra supervisados y basados en incertidumbre, para identificar posibles errores en las salidas de un modelo de MT neuronal de última generación. El esfuerzo y la productividad de la post-edición se estiman mediante registros de comportamiento, mientras que las mejoras en la calidad se evalúan mediante anotaciones humanas a nivel de palabra y de segmento. Encontramos que el dominio, el idioma y la velocidad de los editores son factores críticos para determinar la efectividad de los resaltados, con diferencias modestas entre los resaltados de QE realizados por humanos y los automatizados, lo que subraya una brecha entre la precisión y la usabilidad en los flujos de trabajo profesionales.
Los asistentes conversacionales suelen requerir un algoritmo de reescritura de preguntas que aproveche un subconjunto de interacciones pasadas para proporcionar una respuesta más significativa (precisa) a la pregunta o solicitud del usuario. Sin embargo, el enfoque exacto de reescritura puede depender a menudo del caso de uso y de las tareas específicas de la aplicación que soporta el asistente conversacional, entre otras limitaciones. En este artículo, investigamos sistemáticamente dos enfoques diferentes, denominados reescritura y fusión, en dos tareas de generación fundamentalmente distintas, incluyendo una tarea de generación texto-a-texto y una tarea generativa multimodal que toma como entrada texto y genera una visualización o tabla de datos que responde a la pregunta del usuario. Nuestros resultados indican que el enfoque específico de reescritura o fusión depende en gran medida del caso de uso subyacente y de la tarea generativa. En particular, encontramos que para un asistente de preguntas y respuestas conversacional, el enfoque de reescritura de consultas funciona mejor, mientras que para un asistente de análisis de datos que genera visualizaciones y tablas de datos basadas en la conversación del usuario con el asistente, el enfoque de fusión es el más efectivo. Cabe destacar que exploramos dos conjuntos de datos para el caso de uso del asistente de análisis de datos, para conversaciones cortas y largas, y encontramos que la fusión de consultas siempre funciona mejor, mientras que para la tarea de preguntas y respuestas basadas en texto conversacional, el enfoque de reescritura de consultas es el más adecuado.
El aprendizaje de herramientas busca aumentar las capacidades de los modelos de lenguaje de gran escala (LLMs) con diversas herramientas, permitiéndoles actuar como agentes para resolver tareas prácticas. Debido a la longitud limitada del contexto de los LLMs que utilizan herramientas, adoptar modelos de recuperación de información (IR) para seleccionar herramientas útiles de grandes conjuntos de herramientas es un paso inicial crítico. Sin embargo, el rendimiento de los modelos IR en tareas de recuperación de herramientas sigue siendo poco explorado y poco claro. La mayoría de los puntos de referencia para el uso de herramientas simplifican este paso al preanotar manualmente un pequeño conjunto de herramientas relevantes para cada tarea, lo que dista mucho de los escenarios del mundo real. En este artículo, proponemos ToolRet, un punto de referencia heterogéneo para la recuperación de herramientas que comprende 7.6k tareas de recuperación diversas y un corpus de 43k herramientas, recopilados de conjuntos de datos existentes. Evaluamos seis tipos de modelos en ToolRet. Sorprendentemente, incluso los modelos con un fuerte rendimiento en puntos de referencia convencionales de IR, muestran un rendimiento deficiente en ToolRet. Esta baja calidad de recuperación degrada la tasa de éxito de las tareas de los LLMs que utilizan herramientas. Como un paso adicional, contribuimos con un conjunto de datos de entrenamiento a gran escala con más de 200k instancias, lo que optimiza sustancialmente la capacidad de recuperación de herramientas de los modelos IR.
Los recientes avances en manipulación robótica han sido impulsados por conjuntos de datos a gran escala recopilados en diversos entornos. Tradicionalmente, el entrenamiento de políticas de manipulación robótica en estos conjuntos de datos se realiza de manera centralizada, lo que plantea preocupaciones sobre escalabilidad, adaptabilidad y privacidad de los datos. Si bien el aprendizaje federado permite un entrenamiento descentralizado y que preserva la privacidad, su aplicación a la manipulación robótica sigue siendo en gran medida inexplorada. Presentamos FLAME (Federated Learning Across Manipulation Environments), el primer punto de referencia diseñado para el aprendizaje federado en manipulación robótica. FLAME consta de: (i) un conjunto de grandes bases de datos con más de 160,000 demostraciones expertas de múltiples tareas de manipulación, recopiladas en una amplia gama de entornos simulados; (ii) un marco de entrenamiento y evaluación para el aprendizaje de políticas robóticas en un entorno federado. Evaluamos algoritmos estándar de aprendizaje federado en FLAME, demostrando su potencial para el aprendizaje de políticas distribuidas y destacando desafíos clave. Nuestro punto de referencia establece una base para el aprendizaje robótico escalable, adaptable y consciente de la privacidad.
Los recientes avances en IA generativa han llevado a la adopción generalizada de modelos de lenguaje grandes (LLMs) en la ingeniería de software, abordando numerosos desafíos de larga data. Sin embargo, actualmente falta un estudio exhaustivo que examine las capacidades de los LLMs en la detección de vulnerabilidades de software (SVD), un aspecto crucial de la seguridad del software. Las investigaciones existentes se centran principalmente en evaluar LLMs utilizando conjuntos de datos en C/C++. Por lo general, exploran solo una o dos estrategias entre la ingeniería de prompts, el ajuste de instrucciones y el ajuste fino de clasificación de secuencias para LLMs de código abierto. En consecuencia, existe una brecha de conocimiento significativa respecto a la efectividad de diversos LLMs en la detección de vulnerabilidades en varios lenguajes de programación. Para abordar esta brecha, presentamos un estudio empírico exhaustivo que evalúa el rendimiento de los LLMs en la tarea de SVD. Hemos compilado un conjunto de datos completo que incluye 8,260 funciones vulnerables en Python, 7,505 en Java y 28,983 en JavaScript. Evaluamos cinco LLMs de código abierto utilizando múltiples enfoques, incluyendo ingeniería de prompts, ajuste de instrucciones y ajuste fino de clasificación de secuencias. Estos LLMs se comparan con cinco modelos de lenguaje pequeños ajustados y dos herramientas de prueba de seguridad de aplicaciones estáticas de código abierto. Además, exploramos dos vías para mejorar el rendimiento de los LLMs en SVD: a) Perspectiva de datos: Reentrenar modelos utilizando conjuntos de datos balanceados mediante submuestreo. b) Perspectiva del modelo: Investigar métodos de aprendizaje por ensamblaje que combinen predicciones de múltiples LLMs. Nuestros experimentos exhaustivos demuestran que SVD sigue siendo una tarea desafiante para los LLMs. Este estudio proporciona una comprensión profunda del papel de los LLMs en SVD y ofrece ideas prácticas para futuros avances en el aprovechamiento de la IA generativa para mejorar las prácticas de seguridad del software.
La coordinación multiagente es crucial para una navegación fiable de múltiples robots en espacios compartidos, como almacenes automatizados. En regiones con tráfico denso de robots, los métodos de coordinación local pueden fallar al encontrar una solución libre de bloqueos. En estos escenarios, es apropiado que una unidad central genere un horario global que decida el orden de paso de los robots. Sin embargo, el tiempo de ejecución de estos métodos de coordinación centralizada aumenta significativamente con la escala del problema. En este artículo, proponemos aprovechar las Redes Neuronales de Grafos con Autoencoders Variacionales (GNN-VAE) para resolver el problema de coordinación multiagente a gran escala más rápido que mediante optimización centralizada. Formulamos el problema de coordinación como un problema de grafos y recopilamos datos de referencia utilizando un solucionador de Programación Lineal Entera Mixta (MILP). Durante el entrenamiento, nuestro marco de aprendizaje codifica soluciones de alta calidad del problema de grafos en un espacio latente. En el momento de la inferencia, se decodifican muestras de soluciones a partir de las variables latentes muestreadas, y se selecciona la muestra de menor costo para la coordinación. Finalmente, se selecciona la propuesta factible con el índice de rendimiento más alto para su implementación. Por construcción, nuestro marco GNN-VAE devuelve soluciones que siempre respetan las restricciones del problema de coordinación considerado. Los resultados numéricos muestran que nuestro enfoque, entrenado en problemas de pequeña escala, puede lograr soluciones de alta calidad incluso para problemas a gran escala con 250 robots, siendo mucho más rápido que otros métodos de referencia. Página del proyecto: https://mengyuest.github.io/gnn-vae-coord
La generación de simulaciones realistas es crucial para aplicaciones de sistemas autónomos, como la conducción autónoma y las interacciones humano-robot. Sin embargo, los simuladores de conducción actuales aún tienen dificultades para generar comportamientos controlables, diversos y compatibles con las reglas para los participantes en la carretera: los modelos basados en reglas no pueden producir comportamientos diversos y requieren un ajuste cuidadoso, mientras que los métodos basados en aprendizaje imitan la política a partir de los datos pero no están diseñados para seguir las reglas de manera explícita. Además, los conjuntos de datos del mundo real son por naturaleza de "resultado único", lo que dificulta que los métodos de aprendizaje generen comportamientos diversos. En este artículo, aprovechamos la Lógica Temporal de Señales (STL, por sus siglas en inglés) y los Modelos de Difusión para aprender una política controlable, diversa y consciente de las reglas. Primero calibramos la STL en los datos del mundo real, luego generamos datos sintéticos diversos utilizando optimización de trayectorias, y finalmente aprendemos la política de difusión rectificada en el conjunto de datos aumentado. Probamos nuestro enfoque en el conjunto de datos NuScenes y logramos las trayectorias más diversas y compatibles con las reglas en comparación con otros métodos de referencia, con un tiempo de ejecución 1/17 veces menor que el segundo mejor enfoque. En las pruebas de bucle cerrado, nuestro método alcanza la mayor diversidad, la tasa más alta de cumplimiento de reglas y la menor tasa de colisiones. Nuestro método puede generar características variadas condicionadas a diferentes parámetros de STL en las pruebas. Un estudio de caso sobre escenarios de encuentros humano-robot muestra que nuestro enfoque puede generar trayectorias diversas y cercanas a las ideales. La herramienta de anotación, el conjunto de datos aumentado y el código están disponibles en https://github.com/mengyuest/pSTL-diffusion-policy.
Este artículo presenta CognitiveDrone, un novedoso modelo Visión-Lenguaje-Acción (VLA) diseñado para tareas complejas de Vehículos Aéreos No Tripulados (UAV) que requieren habilidades cognitivas avanzadas. Entrenado en un conjunto de datos que comprende más de 8,000 trayectorias de vuelo simuladas en tres categorías clave—Reconocimiento Humano, Comprensión de Símbolos y Razonamiento—el modelo genera comandos de acción 4D en tiempo real basados en entradas visuales en primera persona e instrucciones textuales. Para mejorar aún más el rendimiento en escenarios intrincados, proponemos CognitiveDrone-R1, que integra un módulo adicional de razonamiento de Modelo Visión-Lenguaje (VLM) para simplificar las directivas de tareas antes del control de alta frecuencia. Las evaluaciones experimentales utilizando nuestro punto de referencia de código abierto, CognitiveDroneBench, revelan que mientras un modelo orientado a carreras (RaceVLA) alcanza una tasa de éxito general del 31.3%, el modelo base CognitiveDrone llega al 59.6%, y CognitiveDrone-R1 logra una tasa de éxito del 77.2%. Estos resultados demuestran mejoras de hasta el 30% en tareas cognitivas críticas, destacando la efectividad de incorporar capacidades de razonamiento avanzado en los sistemas de control de UAV. Nuestras contribuciones incluyen el desarrollo de un modelo VLA de última generación para el control de UAV y la introducción del primer punto de referencia dedicado para evaluar tareas cognitivas en operaciones de drones. El repositorio completo está disponible en cognitivedrone.github.io.
En Suiza, la traducción legal tiene una importancia única debido a los cuatro idiomas oficiales del país y a los requisitos de documentación jurídica multilingüe. Sin embargo, este proceso tradicionalmente depende de profesionales que deben ser tanto expertos en derecho como traductores capacitados, lo que genera cuellos de botella y afecta el acceso efectivo a la justicia. Para abordar este desafío, presentamos SwiLTra-Bench, un punto de referencia multilingüe integral que incluye más de 180K pares de traducciones legales suizas alineadas, que comprenden leyes, encabezados y comunicados de prensa en todos los idiomas suizos junto con el inglés, diseñado para evaluar sistemas de traducción basados en modelos de lenguaje grandes (LLM). Nuestra evaluación sistemática revela que los modelos de vanguardia logran un rendimiento de traducción superior en todos los tipos de documentos, mientras que los sistemas de traducción especializados sobresalen específicamente en leyes pero tienen un rendimiento inferior en encabezados. A través de pruebas rigurosas y validación por expertos humanos, demostramos que, aunque el ajuste fino de modelos de lenguaje abiertos (SLM) mejora significativamente su calidad de traducción, aún se quedan atrás en comparación con los mejores modelos de vanguardia con indicaciones de cero disparos, como Claude-3.5-Sonnet. Además, presentamos SwiLTra-Judge, un sistema de evaluación especializado basado en LLM que se alinea mejor con las evaluaciones de expertos humanos.
Los vehículos autónomos (AV, por sus siglas en inglés) han alcanzado la etapa de comercialización, pero su capacidad limitada para interactuar y expresar intenciones sigue presentando desafíos en las interacciones con vehículos conducidos por humanos (HV, por sus siglas en inglés). Los avances recientes en los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) permiten la comunicación bidireccional entre humanos y máquinas, pero el conflicto entre la velocidad de inferencia lenta y la necesidad de toma de decisiones en tiempo real dificulta su implementación práctica. Para abordar estos problemas, este artículo introduce un marco paralelo Actor-Razonador diseñado para permitir interacciones bidireccionales explícitas entre AV y HV en múltiples escenarios. Primero, al facilitar interacciones entre el Razonador impulsado por LLM y HV simulados heterogéneos durante el entrenamiento, se establece una base de datos de memoria de interacción, denominada Actor. Luego, al introducir el módulo de partición de memoria y el módulo de recuperación de memoria de dos capas, se mejora significativamente la capacidad del Actor para manejar HV heterogéneos. Estudios de ablación y comparaciones con otros métodos de toma de decisiones demuestran que el marco Actor-Razonador propuesto mejora notablemente la seguridad y la eficiencia. Finalmente, con la combinación de la información de la Interfaz Humano-Máquina Externa (eHMI, por sus siglas en inglés) derivada del razonamiento del Razonador y las soluciones de acción factibles recuperadas del Actor, se confirma la efectividad del Actor-Razonador propuesto en interacciones de campo en múltiples escenarios. Nuestro código está disponible en https://github.com/FanGShiYuu/Actor-Reasoner.