Artículos de investigación en IA seleccionados diariamente con traducciones
Las notables capacidades zero-shot de los Modelos de Lenguaje a Gran Escala (LLMs) han impulsado el procesamiento del lenguaje natural desde modelos específicos para tareas hacia modelos fundacionales unificados y generalistas. Esta transformación surgió de principios simples: modelos generativos de gran escala entrenados con datos a escala web. Curiosamente, los mismos principios se aplican a los modelos generativos de video actuales. ¿Podrían los modelos de video estar en una trayectoria hacia la comprensión visual de propósito general, de manera similar a como los LLMs desarrollaron la comprensión del lenguaje de propósito general? Demostramos que Veo 3 puede resolver una amplia variedad de tareas para las que no fue entrenado explícitamente: segmentar objetos, detectar bordes, editar imágenes, comprender propiedades físicas, reconocer affordances de objetos, simular el uso de herramientas y más. Estas habilidades para percibir, modelar y manipular el mundo visual permiten formas tempranas de razonamiento visual, como la resolución de laberintos y simetrías. Las capacidades emergentes zero-shot de Veo indican que los modelos de video están en camino a convertirse en modelos fundacionales de visión unificados y generalistas.
Los métodos de Cadena de Pensamiento Implícita (CoT) presentan una alternativa prometedora y eficiente en términos de tokens al razonamiento CoT explícito en Modelos de Lenguaje a Gran Escala (LLMs), pero una brecha persistente en el rendimiento ha limitado su aplicación. Identificamos un problema central de inestabilidad latente al escalar el presupuesto computacional de los enfoques CoT implícitos: a medida que aumentamos el número de tokens de razonamiento implícito para mejorar el rendimiento, el proceso de entrenamiento a menudo se vuelve inestable y colapsa. Nuestro análisis revela que esta inestabilidad surge de que las representaciones latentes se vuelven homogéneas y pierden su diversidad semántica, un fallo causado por la supervisión insuficiente a nivel de paso en los enfoques CoT implícitos existentes. Para abordar este problema, proponemos SIM-CoT, un módulo de entrenamiento plug-and-play que introduce supervisión a nivel de paso para estabilizar y enriquecer el espacio de razonamiento latente. Específicamente, SIM-CoT emplea un decodificador auxiliar durante el entrenamiento para alinear cada token implícito con su correspondiente paso de razonamiento explícito, asegurando que los estados latentes capturen información distinta y significativa. El decodificador auxiliar propuesto se elimina durante la inferencia, preservando la eficiencia computacional de los métodos CoT implícitos sin añadir sobrecarga. Además, el decodificador auxiliar proporciona interpretabilidad del razonamiento implícito al proyectar cada token latente en un vocabulario de razonamiento explícito, permitiendo la visualización paso a paso de roles semánticos y diagnóstico. SIM-CoT mejora significativamente tanto la precisión dentro del dominio como la estabilidad fuera del dominio de varios métodos CoT implícitos, aumentando líneas base como Coconut en un +8.2% en GPT-2 y CODI en un +3.0% en LLaMA-3.1 8B. Demostrando una fuerte escalabilidad, SIM-CoT también supera la línea base CoT explícita en GPT-2 en un 2.1% con una eficiencia de tokens 2.3 veces mayor, mientras cierra sustancialmente la brecha de rendimiento en modelos más grandes como LLaMA-3.1 8B.
Presentamos EmbeddingGemma, un nuevo modelo de embeddings de texto ligero y abierto basado en la familia de modelos de lenguaje Gemma 3. Nuestra innovadora receta de entrenamiento captura estratégicamente conocimiento de modelos más grandes mediante inicialización codificador-decodificador y destilación geométrica de embeddings. Mejoramos la robustez y expresividad del modelo con un regularizador de dispersión, y aseguramos generalizabilidad fusionando puntos de control de mezclas optimizadas y variadas. Evaluado en el Massive Text Embedding Benchmark (MTEB) en dominios multilingües, inglés y de código, EmbeddingGemma (300M) logra resultados de vanguardia. Notablemente, supera a los principales modelos anteriores, tanto propietarios como abiertos, con menos de 500M de parámetros, y ofrece un rendimiento comparable a modelos del doble de su tamaño, proporcionando una relación rendimiento-costo excepcional. Este liderazgo se mantiene al cuantizar los pesos del modelo o truncar las salidas de embeddings, lo que hace a EmbeddingGemma especialmente adecuado para casos de uso de baja latencia y alto rendimiento, como aplicaciones en dispositivos. Proporcionamos estudios de ablación que exploran nuestras decisiones clave de diseño. Liberamos EmbeddingGemma a la comunidad para fomentar más investigación.
Los recientes avances en modelos fundacionales destacan una clara tendencia hacia la unificación y el escalamiento, mostrando capacidades emergentes en diversos dominios. Mientras que la generación y edición de imágenes han transitado rápidamente de enfoques específicos a marcos unificados, la generación y edición de vídeo siguen fragmentadas debido a limitaciones arquitectónicas y escasez de datos. En este trabajo, presentamos EditVerse, un marco unificado para la generación y edición de imágenes y vídeo dentro de un único modelo. Al representar todas las modalidades, es decir, texto, imagen y vídeo, como una secuencia unificada de tokens, EditVerse aprovecha la autoatención para lograr un aprendizaje robusto en contexto, transferencia natural de conocimiento entre modalidades y manejo flexible de entradas y salidas con resoluciones y duraciones arbitrarias. Para abordar la falta de datos de entrenamiento en edición de vídeo, diseñamos una canalización de datos escalable que selecciona 232K muestras de edición de vídeo y las combina con conjuntos de datos a gran escala de imágenes y vídeo para un entrenamiento conjunto. Además, presentamos EditVerseBench, el primer punto de referencia para la edición de vídeo basada en instrucciones que cubre diversas tareas y resoluciones. Experimentos exhaustivos y estudios de usuario demuestran que EditVerse alcanza un rendimiento de vanguardia, superando a los modelos de código abierto y comerciales existentes, mientras exhibe habilidades emergentes de edición y generación a través de modalidades.
En este artículo, presentamos un método basado en Optimización de Políticas Relativas de Grupo (GRPO, por sus siglas en inglés) para entrenar Modelos de Lenguaje de Gran Escala Conscientes del Habla (SALLMs, por sus siglas en inglés) en tareas de comprensión de habla de formato abierto, como Respuesta a Preguntas Habladas y Traducción Automática de Habla. Los SALLMs han demostrado ser altamente efectivos para tareas de comprensión del habla. GRPO ha ganado recientemente popularidad por su eficiencia en el entrenamiento de LLMs, y trabajos previos han explorado su aplicación a SALLMs, principalmente en tareas de opción múltiple. Basándonos en esto, nos enfocamos en tareas de formato abierto que reflejan mejor las habilidades generativas de los modelos. Nuestro enfoque aprovecha GRPO con BLEU como señal de recompensa para optimizar SALLMs, y demostramos empíricamente que supera al Ajuste Superficial Estándar (SFT) en varias métricas clave. Finalmente, exploramos el potencial de incorporar muestras fuera de la política dentro de GRPO para estas tareas, destacando vías para futuras mejoras e investigaciones adicionales.
Las técnicas de vanguardia de Inteligencia Artificial (IA) continúan transformando nuestra visión del mundo. Por ejemplo, aplicaciones basadas en Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), como ChatGPT, han demostrado la capacidad de generar conversaciones similares a las humanas sobre una amplia gama de temas. Debido a su impresionante rendimiento en diversas tareas relacionadas con el lenguaje (por ejemplo, respuestas a preguntas de dominio abierto, traducción y resumen de documentos), es posible vislumbrar los impactos de gran alcance que los LLMs pueden tener con aplicaciones más amplias en el mundo real (por ejemplo, servicio al cliente, educación y accesibilidad, y descubrimiento científico). Inspirados por su éxito, este artículo ofrece una visión general de los LLMs más avanzados y su integración en una amplia gama de disciplinas académicas, incluyendo: (1) artes, letras y derecho (por ejemplo, historia, filosofía, ciencias políticas, artes y arquitectura, derecho), (2) economía y negocios (por ejemplo, finanzas, economía, contabilidad, marketing), y (3) ciencias e ingeniería (por ejemplo, matemáticas, física e ingeniería mecánica, química e ingeniería química, ciencias de la vida y bioingeniería, ciencias de la tierra e ingeniería civil, ciencias de la computación e ingeniería eléctrica). Integrando humanidad y tecnología, en este artículo exploraremos cómo los LLMs están moldeando la investigación y la práctica en estos campos, al mismo tiempo que discutimos limitaciones clave, desafíos abiertos y direcciones futuras en la era de la IA generativa. La revisión de cómo los LLMs se involucran en diversas disciplinas, junto con observaciones e insights clave, puede ayudar a investigadores y profesionales interesados en aprovechar los LLMs para avanzar en sus trabajos en diversas aplicaciones del mundo real.
Los modelos existentes de generación de videos sobresalen en la producción de videos fotorrealísticos a partir de texto o imágenes, pero a menudo carecen de plausibilidad física y controlabilidad 3D. Para superar estas limitaciones, presentamos PhysCtrl, un marco novedoso para la generación de videos a partir de imágenes basada en física, con parámetros físicos y control de fuerzas. En su núcleo se encuentra una red generativa de física que aprende la distribución de dinámicas físicas en cuatro materiales (elástico, arena, plastilina y rígido) mediante un modelo de difusión condicionado por parámetros físicos y fuerzas aplicadas. Representamos las dinámicas físicas como trayectorias de puntos 3D y entrenamos en un conjunto de datos sintéticos a gran escala de 550K animaciones generadas por simuladores físicos. Mejoramos el modelo de difusión con un nuevo bloque de atención espacio-temporal que emula interacciones de partículas e incorpora restricciones basadas en física durante el entrenamiento para garantizar la plausibilidad física. Los experimentos muestran que PhysCtrl genera trayectorias de movimiento realistas y fundamentadas en la física que, al utilizarse para impulsar modelos de imagen a video, producen videos de alta fidelidad y controlables que superan a los métodos existentes tanto en calidad visual como en plausibilidad física. Página del proyecto: https://cwchenwang.github.io/physctrl
Proponemos Lavida-O, un Modelo de Difusión Enmascarado (MDM) unificado para comprensión y generación multimodal. A diferencia de los MDM multimodales existentes como MMaDa y Muddit, que solo admiten tareas simples de comprensión a nivel de imagen y generación de imágenes de baja resolución, Lavida-O presenta un marco único que permite comprensión a nivel de imagen, localización de objetos, edición de imágenes y síntesis de texto a imagen de alta resolución (1024px). Lavida-O incorpora una arquitectura novedosa de Mezcla Elástica de Transformers (Elastic-MoT) que combina una rama de generación ligera con una rama de comprensión más grande, respaldada por compresión de tokens, condicionamiento de texto universal y muestreo estratificado para una generación eficiente y de alta calidad. Lavida-O además incorpora planificación y autorreflexión iterativa en tareas de generación y edición de imágenes, mejorando sin problemas la calidad de la generación con sus capacidades de comprensión. Lavida-O logra un rendimiento de vanguardia en una amplia gama de benchmarks, incluyendo localización de objetos en RefCOCO, generación de texto a imagen en GenEval y edición de imágenes en ImgEdit, superando a modelos autoregresivos y modelos de difusión continua como Qwen2.5-VL y FluxKontext-dev, mientras ofrece una aceleración considerable en la inferencia. Estos avances establecen a Lavida-O como un nuevo paradigma para el razonamiento y la generación multimodal escalable.
Los modelos de plegamiento de proteínas han logrado resultados revolucionarios, generalmente mediante la integración de conocimiento del dominio en los bloques arquitectónicos y los pipelines de entrenamiento. Sin embargo, dado el éxito de los modelos generativos en problemas diferentes pero relacionados, es natural cuestionar si estos diseños arquitectónicos son una condición necesaria para construir modelos de alto rendimiento. En este artículo, presentamos SimpleFold, el primer modelo de plegamiento de proteínas basado en emparejamiento de flujos que utiliza únicamente bloques de transformadores de propósito general. Los modelos de plegamiento de proteínas suelen emplear módulos computacionalmente costosos que incluyen actualizaciones triangulares, representaciones explícitas de pares o múltiples objetivos de entrenamiento diseñados específicamente para este dominio. En cambio, SimpleFold utiliza bloques estándar de transformadores con capas adaptativas y se entrena mediante un objetivo de emparejamiento de flujos generativo con un término estructural adicional. Escalamos SimpleFold a 3 mil millones de parámetros y lo entrenamos con aproximadamente 9 millones de estructuras proteicas destiladas junto con datos experimentales del PDB. En los puntos de referencia estándar de plegamiento, SimpleFold-3B logra un rendimiento competitivo en comparación con los modelos de última generación, además de demostrar un fuerte desempeño en la predicción por ensambles, lo que suele ser difícil para los modelos entrenados mediante objetivos de reconstrucción determinísticos. Debido a su arquitectura de propósito general, SimpleFold muestra eficiencia en la implementación e inferencia en hardware de nivel de consumo. SimpleFold desafía la dependencia de diseños arquitectónicos complejos específicos del dominio en el plegamiento de proteínas, abriendo un espacio de diseño alternativo para futuros avances.
Los modelos de lenguaje de gran escala (LLMs) de código abierto se especializan cada vez más por dominio (por ejemplo, matemáticas, código, razonamiento general), lo que motiva sistemas que aprovechan las fortalezas complementarias entre modelos. Los enfoques previos de múltiples LLMs ya sea (i) dirigen una consulta a uno o pocos expertos y generan de forma independiente, (ii) agregan salidas de cada modelo mediante intercambios costosos de múltiples turnos, o (iii) fusionan pesos en un solo modelo, lo que generalmente requiere homogeneidad arquitectónica. Introducimos Mixture of Thoughts (MoT), un método simple para la colaboración a nivel latente entre expertos heterogéneos bajo un esquema de enrutamiento global. Para cada consulta, un enrutador ligero selecciona los K expertos principales y designa un experto primario; capas de interacción colocadas uniformemente proyectan estados ocultos en un espacio latente compartido donde el experto primario realiza atención cruzada sobre sus pares activos (seleccionados). Los expertos preentrenados permanecen congelados; solo el enrutador y las capas de interacción ligeras se entrenan con un nuevo objetivo de entrenamiento conjunto que mejora tanto la selección de expertos como la colaboración inter-expertos. En cinco puntos de referencia dentro de la distribución (ID) y tres fuera de la distribución (OOD), MoT supera al estado del arte actual basado en enrutamiento y agregación, Avengers, en +0.38% y +2.92%, respectivamente. Además, MoT supera significativamente al mejor modelo individual. Logra esto con inferencia de un solo paso, tiempo de ejecución comparable a los baselines de enrutamiento, y sin los sobrecostos de la agregación iterativa. MoT ofrece un mecanismo simple en el espacio latente para combinar LLMs heterogéneos, un paso práctico hacia una colaboración más amplia entre múltiples LLMs. Nuestro código está disponible públicamente en https://github.com/jacobfa/mot.
Los recientes avances en los modelos de visión y lenguaje a gran escala (LVLM, por sus siglas en inglés) han impulsado un progreso significativo en la tarea de análisis de documentos. En comparación con los métodos tradicionales basados en pipelines, los paradigmas de extremo a extremo han demostrado su excelencia en la conversión de imágenes PDF en salidas estructuradas mediante la integración de reconocimiento óptico de caracteres (OCR), reconocimiento de tablas, reconocimiento de fórmulas matemáticas, entre otros. Sin embargo, la ausencia de etapas analíticas explícitas para los diseños de documentos y los órdenes de lectura limita la capacidad de los LVLM para manejar tipos de documentos complejos, como periódicos de varias columnas o carteles. Para abordar esta limitación, proponemos en este informe Logics-Parsing: un modelo basado en LVLM de extremo a extremo aumentado con aprendizaje por refuerzo. Nuestro modelo incorpora mecanismos de recompensa meticulosamente diseñados para optimizar el análisis de diseños complejos y la inferencia del orden de lectura. Además, ampliamos la versatilidad del modelo al incorporar diversos tipos de datos, como fórmulas químicas y caracteres chinos escritos a mano, en el ajuste fino supervisado. Finalmente, para permitir una evaluación rigurosa de nuestro enfoque, presentamos LogicsParsingBench, un conjunto curado de 1,078 imágenes PDF a nivel de página que abarcan nueve categorías principales y más de veinte subcategorías, que se publicará más adelante. Experimentos exhaustivos realizados en LogicsParsingBench han validado la eficacia y el rendimiento de vanguardia (SOTA) de nuestro modelo propuesto en diversos escenarios de análisis de documentos. Página del proyecto: https://github.com/alibaba/Logics-Parsing
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se están integrando cada vez más en los procesos de desarrollo de software. La capacidad de generar código y enviar solicitudes de extracción (pull requests) con una intervención humana mínima, mediante el uso de agentes de IA autónomos, está en camino de convertirse en una práctica estándar. Sin embargo, se sabe poco sobre la utilidad práctica de estas solicitudes de extracción y el grado en que sus contribuciones son aceptadas en proyectos del mundo real. En este artículo, estudiamos empíricamente 567 solicitudes de extracción (PRs) generadas utilizando Claude Code, una herramienta de codificación basada en agentes, en 157 proyectos de código abierto diversos. Nuestro análisis revela que los desarrolladores tienden a depender de los agentes para tareas como refactorización, documentación y pruebas. Los resultados indican que el 83.8% de estas PRs asistidas por agentes son eventualmente aceptadas y fusionadas por los mantenedores de los proyectos, y que el 54.9% de las PRs fusionadas se integran sin modificaciones adicionales. El 45.1% restante requiere cambios adicionales y se beneficia de revisiones humanas, especialmente para correcciones de errores, documentación y cumplimiento de estándares específicos del proyecto. Estos hallazgos sugieren que, aunque las PRs asistidas por agentes son en gran medida aceptables, aún se benefician de la supervisión y el refinamiento humano.
La clasificación precisa de productos bajo el Sistema Armonizado de Designación y Codificación de Mercancías (SA) representa un cuello de botella crítico en el comercio global, aunque ha recibido poca atención por parte de la comunidad de aprendizaje automático. La clasificación errónea puede detener por completo los envíos, con operadores postales importantes suspendiendo entregas a los EE. UU. debido a documentación aduanera incompleta. Presentamos el primer punto de referencia para la clasificación de códigos SA, derivado del Sistema de Búsqueda en Línea de Resoluciones Aduaneras de EE. UU. (CROSS). Al evaluar los principales modelos de lenguaje grandes (LLM), encontramos que nuestro modelo Atlas ajustado (LLaMA-3.3-70B) logra un 40 % de clasificaciones correctas a 10 dígitos y un 57.5 % correctas a 6 dígitos, mejoras de 15 puntos sobre GPT-5-Thinking y 27.5 puntos sobre Gemini-2.5-Pro-Thinking. Más allá de la precisión, Atlas es aproximadamente cinco veces más económico que GPT-5-Thinking y ocho veces más económico que Gemini-2.5-Pro-Thinking, y puede ser autoalojado para garantizar la privacidad de los datos en flujos de trabajo críticos de comercio y cumplimiento. Aunque Atlas establece una base sólida, el punto de referencia sigue siendo altamente desafiante, con solo un 40 % de precisión a 10 dígitos. Al liberar tanto el conjunto de datos como el modelo, nuestro objetivo es posicionar la clasificación SA como una nueva tarea de referencia para la comunidad e invitar a trabajos futuros en recuperación, razonamiento y alineación.
Presentamos una biblioteca de código abierto en Python para simular inestabilidades bidimensionales de Kelvin-Helmholtz incompresibles en flujos de cizalla estratificados. El solucionador emplea un método de proyección de pasos fraccionarios con solución espectral de Poisson mediante la Transformada Rápida de Seno, logrando una precisión espacial de segundo orden. La implementación aprovecha NumPy, SciPy y la compilación JIT de Numba para un cálculo eficiente. Cuatro casos de prueba canónicos exploran números de Reynolds entre 1000 y 5000 y números de Richardson entre 0.1 y 0.3: capa de cizalla clásica, configuración de doble cizalla, flujo rotatorio y turbulencia forzada. El análisis estadístico utilizando entropía de Shannon e índices de complejidad revela que las capas de doble cizalla alcanzan tasas de mezcla 2.8 veces mayores que la turbulencia forzada, a pesar de tener números de Reynolds más bajos. El solucionador funciona eficientemente en hardware de escritorio estándar, con simulaciones en mallas de 384x192 completándose en aproximadamente 31 minutos. Los resultados demuestran que la eficiencia de mezcla depende de las vías de generación de inestabilidades en lugar de medidas de intensidad únicamente, desafiando las parametrizaciones basadas en el número de Richardson y sugiriendo refinamientos para la representación de escalas subgrid en modelos climáticos.