Artículos de investigación en IA seleccionados diariamente con traducciones
La construcción de modelos de visión-lenguaje (VLMs) de vanguardia con capacidades sólidas de generación de descripciones generalmente requiere entrenamiento con miles de millones de pares de imágenes-texto de alta calidad, lo que demanda millones de horas de GPU. Este artículo presenta el marco de trabajo del auto-codificador Visión-Lenguaje-Visión (VLV), que aprovecha estratégicamente componentes preentrenados clave: un codificador de visión, el decodificador de un modelo de difusión de Texto a Imagen (T2I), y posteriormente, un Modelo de Lenguaje Grande (LLM). Específicamente, establecemos un cuello de botella de información mediante la regularización del espacio de representación del lenguaje, logrado mediante la congelación del decodificador preentrenado del modelo de difusión T2I. Nuestra canalización VLV destila efectivamente el conocimiento del modelo de difusión condicionado por texto utilizando embeddings continuos, demostrando una comprensión semántica integral a través de reconstrucciones de alta calidad. Además, al ajustar finamente un LLM preentrenado para decodificar las representaciones intermedias del lenguaje en descripciones detalladas, construimos un generador de descripciones de vanguardia (SoTA) comparable a modelos líderes como GPT-4o y Gemini 2.0 Flash. Nuestro método demuestra una excepcional eficiencia en costos y reduce significativamente los requisitos de datos; al utilizar principalmente imágenes unimodales para el entrenamiento y maximizar la utilidad de modelos preentrenados existentes (codificador de imágenes, modelo de difusión T2I y LLM), evita la necesidad de grandes conjuntos de datos de pares imagen-texto, manteniendo el gasto total de entrenamiento por debajo de los $1,000 USD.
Este informe técnico presenta EXAONE 4.0, que integra un modo Sin razonamiento y un modo Con razonamiento para combinar la excelente usabilidad de EXAONE 3.5 con las capacidades avanzadas de razonamiento de EXAONE Deep. Para allanar el camino hacia la era de la IA agentiva, EXAONE 4.0 incorpora características esenciales como el uso de herramientas agentivas, y sus capacidades multilingües se extienden para incluir el español, además del inglés y el coreano. La serie de modelos EXAONE 4.0 consta de dos tamaños: un modelo mediano de 32B optimizado para alto rendimiento y un modelo pequeño de 1.2B diseñado para aplicaciones en dispositivos. EXAONE 4.0 demuestra un rendimiento superior en comparación con los modelos de código abierto de su clase y se mantiene competitivo incluso frente a modelos de clase frontera. Los modelos están disponibles públicamente para fines de investigación y pueden descargarse fácilmente a través de https://huggingface.co/LGAI-EXAONE.
Los grandes modelos fundacionales suelen entrenarse con datos de múltiples dominios, donde la mezcla de datos—la proporción de cada dominio utilizado—desempeña un papel crítico en el rendimiento del modelo. El enfoque estándar para seleccionar esta mezcla se basa en prueba y error, lo que se vuelve impracticable para el preentrenamiento a gran escala. Proponemos un método sistemático para determinar la mezcla óptima de datos para cualquier dominio objetivo utilizando leyes de escalamiento. Nuestro enfoque predice con precisión la pérdida de un modelo de tamaño N entrenado con D tokens y un vector de ponderación de dominio específico h. Validamos la universalidad de estas leyes de escalamiento demostrando su poder predictivo en tres configuraciones distintas y a gran escala: preentrenamiento de modelos de lenguaje grande (LLM), modelos multimodales nativos (NMM) y modelos de visión grande (LVM). Además, mostramos que estas leyes de escalamiento pueden extrapolarse a nuevas mezclas de datos y a través de escalas: sus parámetros pueden estimarse con precisión utilizando unas pocas ejecuciones de entrenamiento a pequeña escala, y luego usarse para estimar el rendimiento a escalas mayores y con ponderaciones de dominio no vistas. Las leyes de escalamiento permiten derivar las ponderaciones óptimas de dominio para cualquier dominio objetivo bajo un presupuesto de entrenamiento dado (N, D), ofreciendo una alternativa fundamentada a los costosos métodos de prueba y error.
Este artículo presenta MISS-QA, el primer punto de referencia diseñado específicamente para evaluar la capacidad de los modelos para interpretar diagramas esquemáticos dentro de la literatura científica. MISS-QA comprende 1,500 ejemplos anotados por expertos provenientes de 465 artículos científicos. En este punto de referencia, los modelos tienen la tarea de interpretar diagramas esquemáticos que ilustran resúmenes de investigación y responder preguntas de búsqueda de información basadas en el contexto más amplio del artículo. Evaluamos el rendimiento de 18 modelos fundamentales multimodales de vanguardia, incluyendo o4-mini, Gemini-2.5-Flash y Qwen2.5-VL. Revelamos una brecha significativa en el rendimiento entre estos modelos y los expertos humanos en MISS-QA. Nuestro análisis del rendimiento de los modelos en preguntas sin respuesta y nuestro análisis detallado de errores resaltan aún más las fortalezas y limitaciones de los modelos actuales, ofreciendo ideas clave para mejorar la comprensión de la literatura científica multimodal.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades poderosas para resolver problemas, en particular cuando se organizan en sistemas multiagente. Sin embargo, el surgimiento de tales sistemas también plantea varias preguntas sobre la capacidad de una red compleja de agentes para autoorganizarse y colaborar de manera efectiva. Si bien medir el rendimiento en pruebas estándar de razonamiento indica qué tan bien los sistemas multiagente pueden resolver tareas de razonamiento, no está claro si estos sistemas son capaces de aprovechar su topología de manera efectiva. Aquí proponemos AgentsNet, un nuevo punto de referencia para el razonamiento multiagente. Al inspirarnos en problemas clásicos de sistemas distribuidos y teoría de grafos, AgentsNet mide la capacidad de los sistemas multiagente para formar estrategias colaborativas de resolución de problemas, autoorganización y comunicación efectiva dada una topología de red. Evaluamos una variedad de métodos de referencia en AgentsNet, incluyendo redes homogéneas de agentes que primero deben acordar protocolos básicos para la organización y la comunicación. Encontramos que algunos LLMs de vanguardia ya están demostrando un rendimiento sólido en redes pequeñas, pero comienzan a disminuir una vez que el tamaño de la red escala. Mientras que los puntos de referencia multiagente existentes cubren como máximo 2-5 agentes, AgentsNet es prácticamente ilimitado en tamaño y puede escalar con las nuevas generaciones de LLMs. Por ello, también exploramos modelos de vanguardia en una configuración con hasta 100 agentes.
Los recientes avances en los modelos de lenguaje de gran escala (LLMs) basados en razonamiento, particularmente su potencial a través del escalamiento en tiempo de prueba, han creado oportunidades significativas para la destilación en la generación y crítica de código. Sin embargo, el progreso en ambas áreas depende fundamentalmente de conjuntos de datos a gran escala y de alta calidad. En este trabajo, presentamos OpenCodeReasoning-II, un conjunto de datos que consta de 2.5 millones de triples pregunta-solución-crítica (aproximadamente 35K preguntas de programación únicas), lo que lo convierte en casi el doble del tamaño del mayor conjunto de datos de razonamiento de código disponible públicamente anterior. En este trabajo, empleamos una estrategia de ajuste fino supervisado en dos etapas. La primera etapa se centra en el ajuste fino para la generación de código, mientras que la segunda etapa implica el entrenamiento conjunto de modelos tanto para la generación como para la crítica de código. Nuestros modelos Qwen2.5-Instruct ajustados logran un rendimiento en la generación de código que supera o iguala a los mejores modelos destilados de peso abierto previos. Notablemente, la integración de nuestros modelos de generación y crítica de código conduce a mejoras significativas en el rendimiento competitivo de programación. Además, presentamos una extensión del benchmark LiveCodeBench para apoyar específicamente el lenguaje de programación C++, facilitando así una evaluación más completa de los LLMs utilizando este benchmark.
La extracción de flujo óptico a partir de videos sigue siendo un problema fundamental en visión por computadora. Motivados por el éxito de los modelos generales de gran escala, nos preguntamos si los modelos de video autosupervisados congelados, entrenados únicamente para la predicción de fotogramas futuros, pueden ser "prompted" (instruidos), sin ajuste fino, para generar flujo óptico. Trabajos previos que extraían profundidad o iluminación a partir de generadores de video requerían ajuste fino, lo cual es poco práctico para el flujo óptico, donde las etiquetas son escasas y los conjuntos de datos sintéticos sufren de una brecha simulación-realidad. Inspirados por el paradigma del Modelo de Mundo Contrafactual (CWM, por sus siglas en inglés), que puede obtener correspondencias punto a punto inyectando una pequeña perturbación de trazado en un predictor de fotogramas futuros y rastreando su propagación, extendemos esta idea a modelos generativos de video. Exploramos varias arquitecturas populares y encontramos que la extracción de flujo óptico "zero-shot" (sin ajuste específico) de esta manera se ve favorecida por tres propiedades del modelo: (1) predicción distribucional de fotogramas futuros (evitando salidas borrosas o ruidosas); (2) latentes factorizados que tratan cada parche espacio-temporal de manera independiente; y (3) decodificación de acceso aleatorio que puede condicionarse en cualquier subconjunto de píxeles futuros. Estas propiedades están presentes de manera única en la reciente arquitectura de Secuencia de Acceso Aleatorio Local (LRAS, por sus siglas en inglés). Basándonos en LRAS, proponemos KL-tracing: un novedoso procedimiento en tiempo de prueba que inyecta una perturbación localizada en el primer fotograma, ejecuta el modelo un paso adelante y calcula la divergencia de Kullback-Leibler entre las distribuciones predictivas perturbadas y no perturbadas. Sin ningún ajuste específico para flujo óptico, nuestro método supera a los modelos de última generación en el conjunto de datos real TAP-Vid DAVIS (mejora relativa del 16.6% en el error de punto final) y en el conjunto sintético TAP-Vid Kubric (mejora relativa del 4.7%). Nuestros resultados indican que la instrucción contrafactual de modelos generativos de video controlables es una alternativa escalable y efectiva a los enfoques supervisados o basados en pérdidas fotométricas para obtener flujo óptico de alta calidad.
La respuesta a preguntas sobre grafos de conocimiento (KGQA) presenta desafíos significativos debido a las variaciones estructurales y semánticas en los grafos de entrada. Los trabajos existentes dependen de agentes basados en Modelos de Lenguaje de Gran Escala (LLM) para el recorrido y recuperación del grafo; un enfoque que es sensible a la inicialización del recorrido, ya que es propenso a errores de vinculación de entidades y puede no generalizar bien a grafos de conocimiento personalizados ("bring-your-own"). Introducimos BYOKG-RAG, un marco que mejora KGQA al combinar sinérgicamente LLMs con herramientas especializadas de recuperación de grafos. En BYOKG-RAG, los LLMs generan artefactos críticos del grafo (entidades de la pregunta, respuestas candidatas, rutas de razonamiento y consultas OpenCypher), y las herramientas de grafos vinculan estos artefactos al KG y recuperan el contexto relevante del grafo. El contexto recuperado permite que el LLM refine iterativamente su vinculación y recuperación del grafo, antes de generar la respuesta final. Al recuperar contexto de diferentes herramientas de grafos, BYOKG-RAG ofrece una solución más general y robusta para QA sobre KGs personalizados. A través de experimentos en cinco benchmarks que abarcan diversos tipos de KGs, demostramos que BYOKG-RAG supera al segundo mejor método de recuperación de grafos en 4.5 puntos porcentuales, mostrando además una mejor generalización a KGs personalizados. El marco BYOKG-RAG es de código abierto en https://github.com/awslabs/graphrag-toolkit.
El audio inpainting se refiere a la tarea de reconstruir segmentos faltantes en grabaciones de audio corruptas. Si bien enfoques previos, incluyendo modelos de difusión basados en formas de onda y espectrogramas, han mostrado resultados prometedores para brechas cortas, a menudo pierden calidad cuando las brechas superan los 100 milisegundos (ms). En este trabajo, presentamos un novedoso método de inpainting basado en modelado de difusión discreta, que opera sobre representaciones de audio tokenizadas producidas por un tokenizador de audio preentrenado. Nuestro enfoque modela el proceso generativo directamente en el espacio latente discreto, permitiendo una reconstrucción estable y semánticamente coherente del audio faltante. Evaluamos el método en el conjunto de datos MusicNet utilizando métricas tanto objetivas como perceptuales para duraciones de brecha de hasta 300 ms. Además, evaluamos nuestro enfoque en el conjunto de datos MTG, extendiendo la duración de la brecha a 500 ms. Los resultados experimentales demuestran que nuestro método logra un rendimiento competitivo o superior en comparación con las líneas base existentes, particularmente para brechas más largas, ofreciendo una solución robusta para restaurar grabaciones musicales degradadas. Ejemplos de audio de nuestro método propuesto se pueden encontrar en https://iftach21.github.io/.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han transformado el desarrollo de software y la generación automatizada de código. Motivados por estos avances, este artículo explora la viabilidad de utilizar LLMs para modificar el código fuente de malware y generar variantes. Presentamos LLMalMorph, un marco semiautomatizado que aprovecha la comprensión semántica y sintáctica del código por parte de los LLMs para generar nuevas variantes de malware. LLMalMorph extrae información a nivel de función del código fuente del malware y emplea indicaciones personalizadas junto con transformaciones de código definidas estratégicamente para guiar al LLM en la generación de variantes sin necesidad de un ajuste fino intensivo en recursos. Para evaluar LLMalMorph, recopilamos 10 muestras diversas de malware para Windows de distintos tipos, complejidades y funcionalidades, y generamos 618 variantes. Nuestros exhaustivos experimentos demuestran que es posible reducir en cierta medida las tasas de detección de los motores antivirus de estas variantes de malware, manteniendo las funcionalidades del malware. Además, a pesar de no optimizar contra ningún detector de malware basado en Aprendizaje Automático (ML, por sus siglas en inglés), varias variantes también lograron tasas de éxito notables contra un clasificador de malware basado en ML. También discutimos las limitaciones actuales de las capacidades de los LLMs para generar variantes de malware a partir del código fuente y evaluamos el lugar que ocupa esta tecnología emergente en el contexto más amplio de la generación de variantes de malware.
Los modelos de lenguaje de gran escala (LLMs) exhiben sesgos cognitivos: tendencias sistemáticas de toma de decisiones irracionales, similares a las observadas en humanos. Trabajos previos han encontrado que estos sesgos varían entre modelos y pueden amplificarse mediante el ajuste por instrucción. Sin embargo, sigue sin estar claro si estas diferencias en los sesgos provienen del preentrenamiento, del ajuste fino o incluso del ruido aleatorio debido a la estocasticidad del entrenamiento. Proponemos un enfoque experimental causal en dos pasos para desentrañar estos factores. Primero, ajustamos modelos múltiples veces utilizando diferentes semillas aleatorias para estudiar cómo la aleatoriedad del entrenamiento afecta más de 30 sesgos cognitivos. Segundo, introducimos el "cross-tuning": intercambiamos conjuntos de datos de instrucción entre modelos para aislar las fuentes de sesgo. Este intercambio utiliza conjuntos de datos que generaron patrones de sesgo diferentes, probando directamente si los sesgos dependen del conjunto de datos. Nuestros hallazgos revelan que, aunque la aleatoriedad del entrenamiento introduce cierta variabilidad, los sesgos están principalmente moldeados por el preentrenamiento: los modelos con la misma arquitectura preentrenada exhiben patrones de sesgo más similares que aquellos que solo comparten datos de ajuste fino. Estas ideas sugieren que comprender los sesgos en modelos ajustados requiere considerar sus orígenes en el preentrenamiento más allá de los efectos del ajuste fino. Esta perspectiva puede guiar futuros esfuerzos para desarrollar estrategias fundamentadas para evaluar y mitigar el sesgo en los LLMs.
La Inteligencia Artificial (IA) moderna depende cada vez más de arquitecturas multiagente que combinan la comprensión visual y del lenguaje. Sin embargo, persiste un desafío apremiante: ¿cómo podemos confiar en estos agentes, especialmente en entornos zero-shot sin ajuste fino? Presentamos un novedoso marco modular de clasificación visual de IA Agéntica que integra agentes multimodales generalistas con un orquestador de razonamiento no visual y un módulo de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés). Aplicado al diagnóstico de enfermedades en hojas de manzano, evaluamos tres configuraciones: (I) zero-shot con orquestación basada en confianza, (II) agentes ajustados con mejor rendimiento, y (III) orquestación calibrada para la confianza, mejorada mediante recuperación de imágenes basada en CLIP y bucles de reevaluación. Utilizando métricas de calibración de confianza (ECE, OCR, CCC), el orquestador modula la confianza entre los agentes. Nuestros resultados muestran una mejora del 77.94% en precisión en el entorno zero-shot al emplear orquestación consciente de la confianza y RAG, alcanzando un 85.63% en general. GPT-4o demostró una mejor calibración, mientras que Qwen-2.5-VL mostró exceso de confianza. Además, las predicciones basadas en image-RAG se fundamentaron en casos visualmente similares, permitiendo corregir el exceso de confianza de los agentes mediante reevaluación iterativa. El sistema propuesto separa la percepción (agentes visuales) del meta-razonamiento (orquestador), permitiendo una IA multiagente escalable e interpretable. Este esquema es extensible a diagnósticos, biología y otros dominios críticos para la confianza. Todos los modelos, instrucciones, resultados y componentes del sistema, incluido el código fuente completo del software, se han liberado abiertamente para apoyar la reproducibilidad, transparencia y evaluación comunitaria en Github: https://github.com/Applied-AI-Research-Lab/Orchestrator-Agent-Trust.
Los videos generados por usuarios en el mundo real, especialmente en plataformas como TikTok, suelen presentar contenido audiovisual rico e interconectado. Sin embargo, los puntos de referencia y modelos existentes para la generación de descripciones de videos siguen siendo predominantemente centrados en lo visual, pasando por alto el papel crucial del audio para transmitir la dinámica de la escena, la intención del hablante y el contexto narrativo. Esta falta de conjuntos de datos omni y de modelos ligeros y capaces obstaculiza el progreso en la comprensión multimodal y detallada de videos. Para abordar estos desafíos, presentamos UGC-VideoCap, un nuevo punto de referencia y marco de modelos diseñado específicamente para la generación detallada de descripciones omni-modales de videos cortos generados por usuarios. A diferencia de conjuntos de datos anteriores, UGC-VideoCap enfatiza la integración equilibrada de las modalidades de audio y visual, presentando 1000 videos de TikTok anotados a través de un proceso estructurado de tres etapas con intervención humana, que cubre semántica solo de audio, solo visual y conjunta audiovisual. El punto de referencia también incluye 4000 pares de preguntas y respuestas cuidadosamente elaborados que exploran tanto la comprensión unimodal como la cruzada entre modalidades. Junto con el conjunto de datos, proponemos UGC-VideoCaptioner(3B), un modelo de generación de descripciones con 3 mil millones de parámetros destilado de Gemini 2.5 Flash. Utilizando una novedosa estrategia de entrenamiento en dos etapas (ajuste fino supervisado seguido de Optimización de Política Relativa en Grupo, GRPO), nuestro enfoque permite una adaptación eficiente a partir de datos limitados mientras mantiene un rendimiento competitivo. Juntos, nuestro punto de referencia y modelo ofrecen una base de alta calidad y una solución eficiente en términos de datos para avanzar en la generación de descripciones omni-modales de videos en entornos no restringidos de contenido generado por usuarios (UGC).