Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) a menudo alucinan en tareas de respuesta a preguntas (QA, por sus siglas en inglés). Un factor clave pero poco explorado que contribuye a esto es la temporalidad de las preguntas: si son perennes (las respuestas permanecen estables en el tiempo) o mutables (las respuestas cambian). En este trabajo, presentamos EverGreenQA, el primer conjunto de datos multilingüe de QA con etiquetas perennes, que permite tanto la evaluación como el entrenamiento. Utilizando EverGreenQA, evaluamos 12 LLMs modernos para determinar si codifican la temporalidad de las preguntas de manera explícita (a través de juicios verbalizados) o implícita (a través de señales de incertidumbre). También entrenamos EG-E5, un clasificador multilingüe ligero que alcanza un rendimiento de vanguardia en esta tarea. Finalmente, demostramos la utilidad práctica de la clasificación perenne en tres aplicaciones: mejorar la estimación del autoconocimiento, filtrar conjuntos de datos de QA y explicar el comportamiento de recuperación de GPT-4o.
Presentamos PartCrafter, el primer modelo generativo 3D estructurado que sintetiza conjuntamente múltiples mallas 3D semánticamente significativas y geométricamente distintas a partir de una única imagen RGB. A diferencia de los métodos existentes que producen formas 3D monolíticas o siguen pipelines de dos etapas, es decir, primero segmentan una imagen y luego reconstruyen cada segmento, PartCrafter adopta una arquitectura generativa unificada y composicional que no depende de entradas pre-segmentadas. Condicionado por una sola imagen, desruida simultáneamente múltiples partes 3D, permitiendo la generación consciente de partes de extremo a extremo tanto para objetos individuales como para escenas complejas de múltiples objetos. PartCrafter se basa en un transformador de difusión de mallas 3D (DiT) preentrenado en objetos completos, heredando los pesos preentrenados, el codificador y el decodificador, e introduce dos innovaciones clave: (1) Un espacio latente composicional, donde cada parte 3D está representada por un conjunto de tokens latentes desenredados; (2) Un mecanismo de atención jerárquica que permite un flujo de información estructurado tanto dentro de las partes individuales como entre todas las partes, asegurando coherencia global mientras se preserva el detalle a nivel de parte durante la generación. Para apoyar la supervisión a nivel de parte, hemos creado un nuevo conjunto de datos extrayendo anotaciones a nivel de parte de grandes conjuntos de datos de objetos 3D. Los experimentos muestran que PartCrafter supera a los enfoques existentes en la generación de mallas 3D descomponibles, incluyendo partes que no son directamente visibles en las imágenes de entrada, demostrando la fortaleza de los priors generativos conscientes de partes para la comprensión y síntesis 3D. El código y los datos de entrenamiento serán publicados.
Si bien los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han logrado avances significativos en tareas de razonamiento complejo mediante el aprendizaje por refuerzo, comúnmente se cree que se requieren grandes volúmenes de datos de entrenamiento para mejorar la capacidad de razonamiento multimodal, lo que inevitablemente conduce a redundancia de datos y costos computacionales sustanciales. Sin embargo, ¿pueden conjuntos de datos más pequeños pero de alto valor igualar o superar a los corpus completos en el razonamiento multimodal de los MLLMs? En este trabajo, desafiamos esta suposición a través de una observación clave: el razonamiento multimodal significativo es activado únicamente por un subconjunto reducido de muestras de entrenamiento, denominadas muestras cognitivas, mientras que la mayoría contribuye de manera marginal. Basándonos en esta idea, proponemos un nuevo paradigma de selección de datos denominado Potencial de Activación del Razonamiento (RAP, por sus siglas en inglés), que identifica las muestras cognitivas estimando el potencial de cada muestra para estimular un razonamiento multimodal genuino mediante dos estimadores complementarios: 1) el Estimador de Discrepancia Causal (CDE), basado en el principio del modelo de resultados potenciales, que elimina muestras que dependen excesivamente de conocimientos previos lingüísticos comparando las salidas entre entradas multimodales y solo de texto; 2) el Estimador de Confianza de Atención (ACE), que aprovecha la autoatención a nivel de tokens para descartar muestras dominadas por tokens irrelevantes pero sobreenfatizados en etapas intermedias de razonamiento. Además, introducimos un Módulo de Reemplazo Sensible a la Dificultad (DRM) para sustituir instancias triviales por otras cognitivamente desafiantes, asegurando así la complejidad necesaria para un razonamiento multimodal robusto. Los experimentos en seis conjuntos de datos muestran que nuestro método RAP logra consistentemente un rendimiento superior utilizando solo el 9.3% de los datos de entrenamiento, mientras reduce los costos computacionales en más del 43%. Nuestro código está disponible en https://github.com/Leo-ssl/RAP.
El rendimiento de los modelos de lenguaje de gran escala en tareas específicas de dominio requiere un ajuste fino, el cual es computacionalmente costoso y técnicamente desafiante. Este artículo se centra en el ajuste fino eficiente en parámetros mediante el uso de *soft prompting*, un enfoque prometedor que adapta modelos preentrenados a tareas posteriores mediante el aprendizaje de un conjunto reducido de parámetros. Proponemos una novedosa técnica de *Input Dependent Soft Prompting* con un Mecanismo de Auto-Atención (ID-SPAM, por sus siglas en inglés) que genera *soft prompts* basados en los tokens de entrada y asigna diferentes niveles de importancia a distintos tokens. Nuestro método es simple y eficiente, manteniendo el número de parámetros entrenables reducido. Demostramos las ventajas del enfoque propuesto en comparación con técnicas de vanguardia en diversas tareas y mostramos una capacidad mejorada de transferencia de dominio en escenarios de *zero-shot*.
A pesar de los rápidos avances en los modelos de visión y lenguaje (VLMs), los benchmarks actuales para el razonamiento multimodal presentan deficiencias en tres dimensiones clave. En primer lugar, dependen en gran medida de imágenes estáticas, lo que no logra capturar la complejidad temporal de los entornos del mundo real. En segundo lugar, se centran de manera limitada en la resolución de problemas matemáticos, descuidando el espectro más amplio de habilidades de razonamiento —incluyendo capacidades abstractas, físicas, de planificación, espaciales y temporales— necesarias para una inteligencia multimodal robusta. En tercer lugar, muchos benchmarks se saturan rápidamente, ofreciendo un margen limitado para diagnosticar modos de fallo o medir el progreso continuo. Presentamos MORSE-500 (Multimodal Reasoning Stress-test Environment), un benchmark de video compuesto por 500 clips completamente guionizados con preguntas integradas que abarcan seis categorías complementarias de razonamiento. Cada instancia se genera de manera programática utilizando scripts deterministas en Python (a través de Manim, Matplotlib, MoviePy), modelos generativos de video y material real seleccionado. Este diseño basado en scripts permite un control detallado sobre la complejidad visual, la densidad de distractores y la dinámica temporal, lo que posibilita escalar sistemáticamente la dificultad a medida que los modelos mejoran. A diferencia de los benchmarks estáticos que se vuelven obsoletos una vez saturados, MORSE-500 está diseñado para evolucionar: su pipeline de generación controlable permite la creación de nuevas instancias arbitrariamente desafiantes, lo que lo hace ideal para someter a prueba a los modelos de próxima generación. Experimentos iniciales con sistemas de última generación —incluyendo varias versiones de Gemini 2.5 Pro y OpenAI o3, que representan los más avanzados disponibles en ese momento, junto con modelos de código abierto robustos— revelan brechas de rendimiento significativas en todas las categorías, con déficits particularmente grandes en tareas abstractas y de planificación. Publicamos el conjunto de datos completo, los scripts de generación y el sistema de evaluación para apoyar una investigación en razonamiento multimodal transparente, reproducible y orientada al futuro.
La generación de subtítulos de audio de alta calidad y a gran escala es crucial para avanzar en la comprensión del audio, sin embargo, los métodos automatizados actuales suelen generar subtítulos que carecen de detalles específicos y precisión contextual, principalmente debido a su dependencia de información unimodal limitada o multimodal superficial. Inspirándonos en la percepción auditiva humana, que integra hábilmente señales intermodales y realiza un análisis sofisticado de escenas auditivas, presentamos una novedosa canalización automatizada de dos etapas. Esta canalización primero emplea modelos preentrenados especializados para extraer diversas señales contextuales (por ejemplo, habla, música, sonidos generales e información visual de videos asociados). Luego, un modelo de lenguaje de gran escala (LLM, por sus siglas en inglés) sintetiza estas entradas multimodales ricas para generar subtítulos de audio detallados y conscientes del contexto. Las contribuciones clave de este trabajo incluyen: (1) el método escalable propuesto para la generación de subtítulos de audio con gran detalle; (2) FusionAudio, un nuevo conjunto de datos a gran escala que comprende 1.2 millones de subtítulos detallados, combinados con 6 millones de pares de preguntas y respuestas; y (3) modelos de audio mejorados desarrollados utilizando FusionAudio, específicamente un codificador de audio basado en CLAP con una alineación audio-texto superior y capacidad de seguimiento de instrucciones. Este artículo allana el camino para una comprensión automatizada más matizada y precisa de entornos de audio complejos. El código y los datos pueden encontrarse en https://github.com/satsuki2486441738/FusionAudio.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) son cada vez más potentes, pero siguen siendo vulnerables a los ataques de inyección de prompts, donde entradas maliciosas hacen que el modelo se desvíe de sus instrucciones previstas. Este artículo presenta Sentinel, un novedoso modelo de detección, qualifire/prompt-injection-sentinel, basado en la arquitectura \answerdotai/ModernBERT-large. Al aprovechar las características avanzadas de ModernBERT y su ajuste fino en un extenso y diverso conjunto de datos que incluye algunas colecciones de código abierto y privadas, Sentinel logra un rendimiento de vanguardia. Este conjunto de datos combina diversos tipos de ataques, desde la suplantación de roles y el secuestro de instrucciones hasta intentos de generar contenido sesgado, junto con un amplio espectro de instrucciones benignas, con conjuntos de datos privados que se centran específicamente en la corrección de errores sutiles y clasificaciones erróneas del mundo real. En un conjunto de pruebas internas exhaustivo y no visto previamente, Sentinel demuestra una precisión promedio de 0.987 y un puntaje F1 de 0.980. Además, cuando se evalúa en benchmarks públicos, supera consistentemente líneas de base sólidas como protectai/deberta-v3-base-prompt-injection-v2. Este trabajo detalla la arquitectura de Sentinel, su meticulosa curación de datos, su metodología de entrenamiento y una evaluación exhaustiva, destacando sus capacidades superiores de detección.
Los modelos de lenguaje omni-modales (OLMs, por sus siglas en inglés) tienen como objetivo integrar y razonar sobre diversas modalidades de entrada—como texto, imágenes, video y audio—mientras mantienen capacidades lingüísticas sólidas. A pesar de los avances recientes, los modelos existentes, especialmente los de código abierto, distan mucho de alcanzar una verdadera omni-modalidad, ya que luchan por generalizar más allá de los pares de modalidades específicas en los que se entrenan o por lograr un rendimiento sólido al procesar entradas multimodales. Estudiamos el efecto de extender la modalidad, la técnica dominante para entrenar modelos multimodales, en la que un modelo de lenguaje preexistente se ajusta con datos del dominio objetivo y del lenguaje. Específicamente, investigamos tres preguntas clave: (1) ¿La extensión de modalidad compromete las habilidades lingüísticas fundamentales? (2) ¿Puede la fusión de modelos integrar eficazmente modelos específicos de modalidad ajustados de manera independiente para lograr la omni-modalidad? (3) ¿La extensión omni-modal conduce a un mejor intercambio de conocimientos y generalización en comparación con la extensión secuencial? A través de experimentos exhaustivos, analizamos estos compromisos y ofrecemos perspectivas sobre la viabilidad de alcanzar una verdadera omni-modalidad utilizando enfoques actuales.
Presentamos STARFlow, un modelo generativo escalable basado en flujos normalizantes que logra un rendimiento sólido en la síntesis de imágenes de alta resolución. El núcleo de STARFlow es el Flujo Autoregresivo Transformer (TARFlow), que combina el poder expresivo de los flujos normalizantes con las capacidades de modelado estructurado de los Transformers Autoregresivos. Primero establecemos la universalidad teórica de TARFlow para modelar distribuciones continuas. Sobre esta base, introducimos varias innovaciones clave en la arquitectura y los algoritmos para mejorar significativamente la escalabilidad: (1) un diseño profundo-superficial, en el que un bloque Transformer profundo captura la mayor parte de la capacidad representativa del modelo, complementado por unos pocos bloques Transformer superficiales que son computacionalmente eficientes pero sustancialmente beneficiosos; (2) modelado en el espacio latente de autoencoders preentrenados, que resulta más efectivo que el modelado directo a nivel de píxeles; y (3) un algoritmo de guía novedoso que mejora significativamente la calidad de las muestras. Es crucial destacar que nuestro modelo sigue siendo un flujo normalizante de extremo a extremo, lo que permite un entrenamiento de máxima verosimilitud exacta en espacios continuos sin discretización. STARFlow logra un rendimiento competitivo tanto en tareas de generación de imágenes condicionadas por clase como por texto, acercándose a los modelos de difusión de última generación en calidad de muestras. Hasta donde sabemos, este trabajo es la primera demostración exitosa de flujos normalizantes que operan efectivamente a esta escala y resolución.
Proporcionar tratamientos efectivos y tomar decisiones clínicas informadas son objetivos esenciales de la medicina moderna y la atención clínica. Nos interesa simular la dinámica de enfermedades para la toma de decisiones clínicas, aprovechando los avances recientes en modelos generativos a gran escala. Con este fin, presentamos el Modelo de Mundo Médico (MeWM, por sus siglas en inglés), el primer modelo de mundo en medicina que predice visualmente estados futuros de enfermedades basados en decisiones clínicas. MeWM comprende (i) modelos de visión-lenguaje que funcionan como modelos de políticas, y (ii) modelos generativos de tumores como modelos de dinámica. El modelo de políticas genera planes de acción, como tratamientos clínicos, mientras que el modelo de dinámica simula la progresión o regresión del tumor bajo condiciones de tratamiento dadas. Sobre esta base, proponemos el modelo de dinámica inversa que aplica análisis de supervivencia al tumor simulado postratamiento, permitiendo evaluar la eficacia del tratamiento y seleccionar el plan de acción clínico óptimo. Como resultado, el MeWM propuesto simula la dinámica de enfermedades sintetizando tumores postratamiento, con una especificidad de vanguardia en pruebas de Turing evaluadas por radiólogos. Simultáneamente, su modelo de dinámica inversa supera a los GPT especializados en medicina en la optimización de protocolos de tratamiento individualizados en todas las métricas. Notablemente, MeWM mejora la toma de decisiones clínicas para médicos intervencionistas, aumentando el puntaje F1 en la selección del protocolo TACE óptimo en un 13%, allanando el camino para la futura integración de modelos de mundo médico como segundos lectores.
Los modelos de lenguaje de gran escala con capacidad auditiva (ALLMs, por sus siglas en inglés) pueden comprender la información textual y no textual presente en una entrada de audio. En este artículo, exploramos el uso de ALLMs como jueces automáticos para evaluar los estilos de habla en discursos. Utilizamos jueces ALLM para evaluar los discursos generados por modelos de lenguaje hablado (SLMs) en dos tareas: seguimiento de instrucciones de estilo vocal y juego de roles. El estilo de habla que consideramos incluye emoción, volumen, ritmo del habla, énfasis en palabras, control del tono y elementos no verbales. Empleamos cuatro modelos de lenguaje hablado (SLMs) para completar las dos tareas y utilizamos tanto a humanos como a ALLMs para juzgar las respuestas de los SLMs. Comparamos dos jueces ALLM, GPT-4o-audio y Gemini-2.5-pro, con los resultados de evaluación humana y demostramos que la concordancia entre Gemini y los jueces humanos es comparable a la concordancia entre evaluadores humanos. Estos resultados prometedores muestran que los ALLMs pueden utilizarse como jueces para evaluar SLMs. Nuestros hallazgos también revelan que los SLMs actuales, incluso GPT-4o-audio, aún tienen margen de mejora en el control del estilo de habla y la generación de diálogos naturales.
El desarrollo de modelos modernos de Inteligencia Artificial (IA), particularmente los modelos basados en difusión utilizados en tareas de visión por computadora y generación de imágenes, está experimentando un cambio paradigmático en las metodologías de desarrollo. Tradicionalmente dominado por un enfoque "Centrado en el Modelo", en el que las mejoras en el rendimiento se buscaban principalmente a través de arquitecturas de modelos cada vez más complejas y la optimización de hiperparámetros, el campo está reconociendo ahora un enfoque más matizado "Centrado en los Datos". Este marco emergente destaca la calidad, estructura y relevancia de los datos de entrenamiento como el principal impulsor del rendimiento del modelo. Para operacionalizar este cambio de paradigma, presentamos el conjunto de datos de muestra DataSeeds.AI (el "DSD"), compuesto inicialmente por aproximadamente 10,610 imágenes fotográficas de alta calidad clasificadas por pares humanos y acompañadas de extensas anotaciones de múltiples niveles. El DSD es un conjunto de datos fundamental de visión por computadora diseñado para establecer un nuevo estándar en los conjuntos de datos comerciales de imágenes. Representando una pequeña fracción del catálogo de más de 100 millones de imágenes de DataSeed.AI, el DSD proporciona una base escalable necesaria para el desarrollo robusto de IA comercial y multimodal. A través de este análisis exploratorio en profundidad, documentamos las mejoras cuantitativas generadas por el DSD en modelos específicos frente a puntos de referencia conocidos y hacemos público el código y los modelos entrenados utilizados en nuestra evaluación.
Percebir el mundo desde perspectivas tanto egocéntricas (en primera persona) como exocéntricas (en tercera persona) es fundamental para la cognición humana, permitiendo una comprensión rica y complementaria de entornos dinámicos. En los últimos años, permitir que las máquinas aprovechen el potencial sinérgico de estas perspectivas duales ha surgido como una dirección de investigación convincente en la comprensión de videos. En este estudio, proporcionamos una revisión exhaustiva de la comprensión de videos desde los puntos de vista exocéntrico y egocéntrico. Comenzamos destacando las aplicaciones prácticas de integrar técnicas egocéntricas y exocéntricas, visualizando su potencial colaboración en diversos dominios. Luego, identificamos tareas clave de investigación para materializar estas aplicaciones. A continuación, organizamos y revisamos sistemáticamente los avances recientes en tres direcciones principales de investigación: (1) aprovechar datos egocéntricos para mejorar la comprensión exocéntrica, (2) utilizar datos exocéntricos para mejorar el análisis egocéntrico, y (3) marcos de aprendizaje conjunto que unifican ambas perspectivas. Para cada dirección, analizamos un conjunto diverso de tareas y trabajos relevantes. Además, discutimos conjuntos de datos de referencia que respaldan la investigación en ambas perspectivas, evaluando su alcance, diversidad y aplicabilidad. Finalmente, discutimos las limitaciones en los trabajos actuales y proponemos direcciones futuras prometedoras de investigación. Al sintetizar ideas de ambas perspectivas, nuestro objetivo es inspirar avances en la comprensión de videos y la inteligencia artificial, acercando a las máquinas a percibir el mundo de manera similar a los humanos. Un repositorio de GitHub con trabajos relacionados se puede encontrar en https://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Vision.
La programación competitiva, debido a su alta dificultad de razonamiento y retroalimentación precisa sobre la corrección, se ha convertido en una tarea clave tanto para entrenar como para evaluar las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Sin embargo, aunque existe una gran cantidad de datos públicos de problemas, como enunciados y soluciones, los casos de prueba de estos problemas suelen ser difíciles de obtener. Por lo tanto, la generación de casos de prueba es una tarea necesaria para construir conjuntos de datos a gran escala, y la calidad de estos casos determina directamente la precisión de la evaluación. En este artículo, presentamos un sistema basado en agentes LLM que genera casos de prueba de alta calidad para problemas de programación competitiva. Aplicamos este sistema al conjunto de datos CodeContests y proponemos una nueva versión con casos de prueba mejorados, denominada CodeContests+. Evaluamos la calidad de los casos de prueba en CodeContests+. Primero, utilizamos 1,72 millones de envíos con etiquetas de aprobado/reprobado para examinar la precisión de estos casos de prueba en la evaluación. Los resultados indicaron que CodeContests+ logra una precisión significativamente mayor que CodeContests, especialmente con una tasa de verdaderos positivos (TVP) notablemente más alta. Posteriormente, nuestros experimentos en Aprendizaje por Refuerzo (RL, por sus siglas en inglés) con LLM confirmaron que las mejoras en la calidad de los casos de prueba ofrecen ventajas considerables para el RL.
La creación de simulaciones físicas precisas directamente a partir del movimiento de robots en el mundo real tiene un gran valor para el aprendizaje de robots seguro, escalable y asequible, aunque sigue siendo excepcionalmente desafiante. Los datos de robots reales sufren de oclusiones, poses de cámara ruidosas y elementos dinámicos en la escena, lo que dificulta la creación de gemelos digitales geométricamente precisos y fotorrealistas de objetos no vistos. Presentamos un novedoso marco de trabajo de real a simulación que aborda todos estos desafíos de manera simultánea. Nuestra idea clave es una representación híbrida de la escena que combina la renderización fotorrealista de 3D Gaussian Splatting con mallas de objetos explícitas adecuadas para la simulación física dentro de una única representación. Proponemos una canalización de optimización de extremo a extremo que aprovecha la renderización diferenciable y la física diferenciable dentro de MuJoCo para refinar conjuntamente todos los componentes de la escena, desde la geometría y apariencia de los objetos hasta las poses del robot y los parámetros físicos, directamente a partir de trayectorias de robot crudas e imprecisas. Esta optimización unificada nos permite lograr simultáneamente una reconstrucción de mallas de objetos de alta fidelidad, generar vistas novedosas fotorrealistas y realizar una calibración de poses de robot sin anotaciones. Demostramos la efectividad de nuestro enfoque tanto en simulación como en secuencias desafiantes del mundo real utilizando un manipulador bimanual ALOHA 2, lo que permite canalizaciones de real a simulación más prácticas y robustas.
Los LLM están destinados a transformar la atención médica con soporte avanzado para la toma de decisiones y asistentes de chat flexibles. Sin embargo, los LLM tienden a generar contenido médico inexacto. Para fundamentar los LLM en conocimiento médico de alta calidad, se han equipado con conocimiento externo mediante RAG, donde el conocimiento médico no estructurado se divide en pequeños fragmentos de texto que pueden recuperarse selectivamente e integrarse en el contexto de los LLM. No obstante, las canalizaciones RAG existentes dependen de texto médico crudo y no estructurado, que puede ser ruidoso, no curado y difícil de aprovechar eficazmente por los LLM. En general, faltan enfoques sistemáticos para organizar el conocimiento médico de manera que se presente de la mejor manera a los LLM. Para abordar estos desafíos, presentamos MIRIAD, un corpus a gran escala y curado de 5,821,948 pares de preguntas y respuestas médicas, cada uno reformulado y fundamentado en un pasaje de la literatura médica revisada por pares utilizando una canalización semiautomatizada que combina generación de LLM, filtrado, fundamentación y anotación humana. A diferencia de los corpus médicos anteriores, que dependen de texto no estructurado, MIRIAD encapsula conocimiento médico a escala web en un formato operativo de consulta-respuesta, lo que permite una recuperación más dirigida. Los experimentos en benchmarks desafiantes de preguntas y respuestas médicas muestran que aumentar los LLM con MIRIAD mejora la precisión hasta un 6.7% en comparación con las líneas base RAG no estructuradas con el mismo corpus fuente y con la misma cantidad de texto recuperado. Además, MIRIAD mejoró la capacidad de los LLM para detectar alucinaciones médicas entre un 22.5% y un 37% (aumento en la puntuación F1). También presentamos MIRIAD-Atlas, un mapa interactivo de MIRIAD que abarca 56 disciplinas médicas, permitiendo a los usuarios clínicos explorar, buscar y refinar visualmente el conocimiento médico. MIRIAD promete desbloquear una gran cantidad de aplicaciones posteriores, incluyendo recuperadores de información médica, aplicaciones RAG mejoradas e interfaces de chat fundamentadas en conocimiento, lo que en última instancia permite aplicaciones de LLM más confiables en la atención médica.
La manipulación ha sido durante mucho tiempo una tarea desafiante para los robots, mientras que los humanos pueden realizar interacciones complejas con objetos de manera sencilla, como colgar una taza en el soporte de tazas. Una razón clave es la falta de un conjunto de datos grande y uniforme para enseñar habilidades de manipulación a los robots. Los conjuntos de datos actuales para robots suelen registrar acciones del robot en diferentes espacios de acción dentro de escenas simples. Esto dificulta que el robot aprenda una representación de acción unificada y robusta para diferentes robots en escenas diversas. Al observar cómo los humanos comprenden una tarea de manipulación, descubrimos que entender cómo deben moverse los objetos en el espacio 3D es una pista crítica para guiar las acciones. Esta pista es independiente de la forma física y es adecuada tanto para humanos como para diferentes robots. Motivados por esto, nuestro objetivo es aprender un modelo de mundo de flujo 3D a partir de datos de manipulación tanto humanos como robóticos. Este modelo predice el movimiento futuro de los objetos que interactúan en el espacio 3D, guiando la planificación de acciones para la manipulación. Específicamente, sintetizamos un conjunto de datos a gran escala de flujo óptico 3D, llamado ManiFlow-110k, mediante una canalización de detección automática de objetos en movimiento. Un modelo de mundo basado en difusión de video aprende la física de la manipulación a partir de estos datos, generando trayectorias de flujo óptico 3D condicionadas por instrucciones de lenguaje. Con el flujo óptico 3D generado, proponemos un mecanismo de renderizado guiado por flujo, que renderiza el estado final predicho y aprovecha GPT-4o para evaluar si el flujo predicho se alinea con la descripción de la tarea. Esto equipa al robot con una capacidad de planificación en bucle cerrado. Finalmente, consideramos el flujo óptico 3D predicho como restricciones para una política de optimización que determina un conjunto de acciones del robot para la manipulación. Experimentos extensos demuestran una fuerte generalización en diversas tareas de manipulación robótica y una adaptación confiable entre diferentes formas físicas sin entrenamiento específico para hardware.
Los rápidos avances en los Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) están impulsando el desarrollo de Sistemas Multiagente (MAS, por sus siglas en inglés) autónomos. Sin embargo, los marcos actuales a menudo carecen de flexibilidad, conciencia de recursos, diversidad de modelos y creación autónoma de herramientas. Este artículo presenta HASHIRU (Sistema Jerárquico de Agentes para la Utilización Híbrida de Recursos Inteligentes), un novedoso marco MAS que mejora la flexibilidad, eficiencia de recursos y adaptabilidad. HASHIRU incluye un agente "CEO" que gestiona dinámicamente agentes especializados "empleados", instanciados según las necesidades de la tarea y las restricciones de recursos (costo, memoria). Su inteligencia híbrida prioriza modelos LLM más pequeños y locales (a través de Ollama) mientras utiliza de manera flexible APIs externas y modelos más grandes cuando es necesario. Un modelo económico con costos de contratación/despido promueve la estabilidad del equipo y la asignación eficiente de recursos. El sistema también incluye la creación autónoma de herramientas API y una función de memoria. Las evaluaciones en tareas como la revisión de artículos académicos (58% de éxito), evaluaciones de seguridad (100% en un subconjunto de JailbreakBench) y razonamiento complejo (superando a Gemini 2.0 Flash en GSM8K: 96% vs. 61%; JEEBench: 80% vs. 68.3%; SVAMP: 92% vs. 84%) demuestran las capacidades de HASHIRU. Estudios de caso ilustran su automejora mediante la generación autónoma de modelos de costos, integración de herramientas y gestión de presupuestos. HASHIRU ofrece un enfoque prometedor para MAS más robustos, eficientes y adaptables a través del control jerárquico dinámico, la inteligencia híbrida consciente de recursos y la extensión funcional autónoma. El código fuente y los puntos de referencia están disponibles en https://github.com/HASHIRU-AI/HASHIRU y https://github.com/HASHIRU-AI/HASHIRUBench respectivamente, y una demostración en vivo está disponible en https://hashiruagentx-hashiruai.hf.space bajo solicitud.
Los Modelos Multimodales Grandes (LMMs) han logrado avances impresionantes en la percepción visual y el razonamiento. Sin embargo, cuando se enfrentan a texto de escena visualmente ambiguo o no semántico, a menudo tienen dificultades para detectar y comprender con precisión el contenido, generando frecuentemente respuestas semánticamente plausibles pero visualmente incorrectas, lo que denominamos alucinación semántica. En este trabajo, investigamos las causas subyacentes de la alucinación semántica e identificamos un hallazgo clave: las capas Transformer en los LMM con un enfoque de atención más fuerte en las regiones de texto de escena son menos propensas a producir alucinaciones semánticas. Por lo tanto, proponemos un marco de mitigación de alucinación semántica sin necesidad de entrenamiento, que consta de dos componentes clave: (1) ZoomText, una estrategia de grueso a fino que identifica regiones potenciales de texto sin detectores externos; y (2) Corrección de Capa Fundamentada, que aprovecha de manera adaptativa las representaciones internas de las capas menos propensas a la alucinación para guiar la decodificación, corrigiendo las salidas alucinadas en muestras no semánticas mientras preserva la semántica de las muestras significativas. Para permitir una evaluación rigurosa, presentamos TextHalu-Bench, un punto de referencia que abarca más de 1,730 muestras que incluyen casos semánticos y no semánticos, con pares de preguntas y respuestas curadas manualmente diseñadas para sondear las alucinaciones del modelo. Experimentos extensos demuestran que nuestro método no solo mitiga efectivamente la alucinación semántica, sino que también logra un rendimiento sólido en puntos de referencia públicos para la detección y comprensión de texto en escenas.
La Optimización de Políticas Relativas por Grupos (GRPO, por sus siglas en inglés) mejora el aprendizaje de políticas al calcular gradientes a partir de comparaciones relativas entre salidas candidatas que comparten un prefijo de entrada común. A pesar de su efectividad, GRPO introduce un sobrecosto computacional significativo al procesar prefijos compartidos largos, los cuales deben codificarse de manera redundante para cada miembro del grupo. Esta ineficiencia se convierte en un cuello de botella importante para la escalabilidad en escenarios de aprendizaje con contextos largos. Proponemos Prefix Grouper, un algoritmo de entrenamiento eficiente para GRPO que elimina el cómputo redundante del prefijo mediante una estrategia de Avance de Prefijo Compartido. En particular, al reestructurar la autoatención en dos partes, nuestro método permite que el prefijo compartido se codifique una sola vez, manteniendo al mismo tiempo la diferenciabilidad completa y la compatibilidad con el entrenamiento de extremo a extremo. Proporcionamos evidencia tanto teórica como empírica de que Prefix Grouper es equivalente en entrenamiento al GRPO estándar: produce salidas directas y gradientes inversos idénticos, lo que garantiza que la dinámica de optimización y el rendimiento final de la política permanezcan inalterados. Empíricamente, nuestros experimentos confirman que Prefix Grouper logra resultados consistentes mientras reduce significativamente el costo computacional del entrenamiento, especialmente en escenarios con prefijos largos. El método propuesto es completamente plug-and-play: es compatible con arquitecturas basadas en GRPO existentes y puede integrarse sin problemas en las tuberías de entrenamiento actuales como un reemplazo directo, sin requerir modificaciones estructurales y solo cambios mínimos en la construcción de entradas y el cómputo de atención. Prefix Grouper permite el uso de tamaños de grupo más grandes bajo el mismo presupuesto computacional, mejorando así la escalabilidad de GRPO para tareas más complejas y modelos más grandes. El código está disponible en https://github.com/johncaged/PrefixGrouper.
La IA para la Gestión del Ciclo de Vida de Activos Industriales tiene como objetivo automatizar flujos de trabajo operativos complejos —como el monitoreo de condiciones, la planificación de mantenimiento y la programación de intervenciones— para reducir la carga de trabajo humana y minimizar el tiempo de inactividad del sistema. Los enfoques tradicionales de IA/ML han abordado principalmente estos problemas de manera aislada, resolviendo tareas específicas dentro de la cadena operativa más amplia. En contraste, la aparición de agentes de IA y modelos de lenguaje de gran escala (LLMs) introduce una oportunidad de próxima generación: permitir la automatización de extremo a extremo en todo el ciclo de vida del activo. Este artículo vislumbra un futuro en el que los agentes de IA gestionen de manera autónoma tareas que anteriormente requerían conocimientos especializados y coordinación manual. Con este fin, presentamos AssetOpsBench —un marco unificado y un entorno diseñado para guiar el desarrollo, la orquestación y la evaluación de agentes específicos del dominio, adaptados para aplicaciones de la Industria 4.0. Esbozamos los requisitos clave para tales sistemas holísticos y ofrecemos ideas prácticas para construir agentes que integren percepción, razonamiento y control en operaciones industriales del mundo real. El software está disponible en https://github.com/IBM/AssetOpsBench.
Los avances recientes en el razonamiento de la inteligencia artificial (IA) han impulsado mejoras sustanciales en diversas tareas. Una pregunta crítica abierta es si estas mejoras también conducen a una mejor transferencia de conocimiento: la capacidad de los modelos para comunicar razonamientos de manera que los humanos puedan comprender, aplicar y aprender de ellos. Para investigar esto, presentamos la Evaluación de Integración y Transferencia de Conocimiento (KITE, por sus siglas en inglés), un marco conceptual y experimental para evaluar las capacidades de transferencia de conocimiento entre humanos y IA, y llevamos a cabo el primer estudio a gran escala con humanos (N=118) diseñado explícitamente para medirlo. En nuestra configuración de dos fases, los humanos primero idean estrategias de resolución de problemas junto con una IA, luego implementan soluciones de manera independiente, aislando así la influencia de las explicaciones del modelo en la comprensión humana. Nuestros hallazgos revelan que, aunque el rendimiento de los modelos en pruebas de referencia se correlaciona con los resultados colaborativos, esta relación es notablemente inconsistente, presentando valores atípicos significativos, lo que indica que la transferencia de conocimiento requiere una optimización dedicada. Nuestro análisis identifica factores conductuales y estratégicos que median la transferencia exitosa de conocimiento. Publicamos nuestro código, conjunto de datos y marco de evaluación para apoyar trabajos futuros en modelos comunicativamente alineados.
Los sistemas de Extracción de Información (IE, por sus siglas en inglés) tradicionalmente son específicos de un dominio, lo que requiere una adaptación costosa que involucra el diseño de esquemas por expertos, la anotación de datos y el entrenamiento de modelos. Si bien los Modelos de Lenguaje a Gran Escala han mostrado potencial en IE con enfoque de cero disparos, su rendimiento se degrada significativamente en dominios no vistos donde las definiciones de etiquetas difieren. Este artículo presenta GUIDEX, un método novedoso que define automáticamente esquemas específicos de dominio, infiere directrices y genera instancias etiquetadas de manera sintética, permitiendo una mejor generalización fuera del dominio. El ajuste fino de Llama 3.1 con GUIDEX establece un nuevo estado del arte en siete benchmarks de Reconocimiento de Entidades Nombradas con enfoque de cero disparos. Los modelos entrenados con GUIDEX obtienen hasta 7 puntos F1 más que los métodos anteriores sin datos etiquetados por humanos, y casi 2 puntos F1 más cuando se combinan con ellos. Los modelos entrenados con GUIDEX demuestran una comprensión mejorada de esquemas de anotación complejos y específicos del dominio. El código, los modelos y los conjuntos de datos sintéticos están disponibles en neilus03.github.io/guidex.com.
Los modelos de espacio de estados (SSMs, por sus siglas en inglés) ofrecen una arquitectura prometedora para el modelado de secuencias, proporcionando una alternativa a los Transformers al reemplazar la costosa autoatención con recurrencias lineales. En este artículo, proponemos un truco simple pero efectivo para mejorar los SSMs dentro de presupuestos computacionales dados mediante su esparsificación. Nuestra intuición es que los tokens en los SSMs son altamente redundantes debido a las actualizaciones recurrentes graduales, y las operaciones de recurrencia densa bloquean la entrega de información pasada. En particular, observamos que las capas superiores de los SSMs tienden a ser más redundantes, ya que codifican información global, mientras que las capas inferiores codifican información local. Motivados por esto, introducimos Simba, un método de esparsificación jerárquica para SSMs basado en la poda de tokens. Simba esparsifica más las capas superiores que las inferiores, incentivando a que las capas superiores se comporten como autopistas. Para lograr esto, proponemos un nuevo criterio de poda de tokens para SSMs, que mide el impacto global de los tokens en la salida final acumulando recurrencias locales. Demostramos que Simba supera al modelo de referencia, Mamba, con el mismo número de FLOPS en diversas tareas de lenguaje natural. Además, ilustramos el efecto de las autopistas, mostrando que Simba no solo mejora la eficiencia, sino que también optimiza el flujo de información a lo largo de secuencias largas. El código está disponible en https://github.com/woominsong/Simba.