Artículos de investigación en IA seleccionados diariamente con traducciones
Bajo condiciones de pre-entrenamiento estrictamente controladas, observamos un Punto de Cruce: cuando los datos únicos son limitados, los modelos de lenguaje de difusión (DLM) superan consistentemente a los modelos autorregresivos (AR) al entrenarse durante más épocas. El punto de cruce se desplaza hacia épocas posteriores con más datos o datos de mayor calidad, hacia épocas anteriores con modelos más grandes, y persiste en arquitecturas densas y dispersas. Atribuimos las mejoras a tres factores que se potencian: (1) el modelado de cualquier orden, (2) el cómputo superdenso proveniente de la desruidización bidireccional iterativa, y (3) la aumentación Monte Carlo incorporada; el ruido en la entrada o los parámetros mejora a los modelos AR bajo limitación de datos, pero no puede cerrar la brecha. A escala, un DLM de 1.7B entrenado con un presupuesto computacional de ~1.5T de tokens en 10B tokens únicos de Python supera a un codificador AR entrenado con configuraciones estrictamente equivalentes. Además, un DLM de 1B de parámetros logra una precisión > 56% en HellaSwag y > 33% en MMLU utilizando solo 1B de tokens, sin trucos especiales, simplemente repitiendo datos estándar de pre-entrenamiento. También demostramos que el aumento de la entropía cruzada de validación no implica un rendimiento degradado en tareas posteriores en este régimen.
Debido a la falta de un modelado cruzado eficaz, los métodos existentes de generación audio-vídeo de código abierto a menudo presentan una sincronización labial comprometida y una consistencia semántica insuficiente. Para mitigar estos inconvenientes, proponemos UniAVGen, un marco unificado para la generación conjunta de audio y vídeo. UniAVGen se basa en una arquitectura de síntesis conjunta de doble rama, que incorpora dos Transformadores de Difusión (DiT) paralelos para construir un espacio latente cruzado cohesivo. En su núcleo se encuentra un mecanismo de Interacción Cruzada Asimétrica, que permite una atención cruzada bidireccional y temporalmente alineada, garantizando así una precisa sincronización espacio-temporal y una consistencia semántica. Además, esta interacción cruzada se ve potenciada por un módulo de Modulación Consciente del Rostro, que prioriza dinámicamente las regiones salientes en el proceso de interacción. Para mejorar la fidelidad generativa durante la inferencia, introducimos adicionalmente la Guía Libre de Clasificadores Consciente de la Modalidad, una estrategia novedosa que amplifica explícitamente las señales de correlación cruzada. Cabe destacar que el diseño robusto de síntesis conjunta de UniAVGen permite la unificación perfecta de tareas audio-vídeo cruciales dentro de un único modelo, como la generación y continuación conjunta de audio-vídeo, el doblaje de vídeo a audio y la síntesis de vídeo impulsada por audio. Experimentos exhaustivos validan que, con muchas menos muestras de entrenamiento (1,3M frente a 30,1M), UniAVGen ofrece ventajas generales en sincronización audio-vídeo, consistencia tímbrica y consistencia emocional.
A pesar de los recientes avances en el uso de Modelos de Lenguaje a Gran Escala (LLMs) para generar automáticamente escenas 3D, las escenas generadas a menudo carecen de distribuciones espaciales realistas y atributos de objetos presentes en entornos del mundo real. Dado que este problema surge de instrucciones insuficientemente detalladas y de grano grueso, avanzar en la síntesis de escenas 3D guiada por instrucciones más detalladas y de grano fino que reflejen entornos reales se vuelve crucial. Sin tales escenas realistas, entrenar agentes corporizados en entornos poco realistas puede hacer que aprendan priores que divergen significativamente de la física y la semántica del mundo real, degradando su rendimiento cuando se despliegan. Por lo tanto, verificar la alineación entre la instrucción de grano fino y la escena generada es esencial para un aprendizaje efectivo. Sin embargo, los métodos de evaluación actuales, como CLIPScore y los modelos de visión y lenguaje (VLMs), a menudo no logran evaluar de manera fiable dicha alineación. Esta deficiencia surge principalmente de su comprensión superficial de las escenas 3D, lo que a menudo conduce a componentes de la escena incorrectamente anclados. Para abordar esto, presentamos LEGO-Eval, un marco de evaluación equipado con diversas herramientas diseñadas para anclar explícitamente los componentes de la escena, permitiendo evaluaciones de alineación más precisas. También presentamos LEGO-Bench, un benchmark de instrucciones detalladas que especifican disposiciones complejas y atributos de entornos del mundo real. Los experimentos demuestran que LEGO-Eval supera al método VLM-como-juez por 0.41 puntos de puntuación F1 en la evaluación de la alineación escena-instrucción. La evaluación comparativa con LEGO-Bench revela limitaciones significativas en los métodos de generación actuales. En todos los enfoques evaluados, las tasas de éxito alcanzaron como máximo un 10% en la generación de escenas que se alinean completamente con las instrucciones de grano fino.
Las evaluaciones actuales de agentes de Grandes Modelos de Lenguaje (LLM) se centran principalmente en la finalización de tareas, pasando por alto con frecuencia la eficiencia de recursos y la adaptabilidad. Esto descuida una capacidad crucial: la habilidad de los agentes para idear y ajustar planes óptimos en costos en respuesta a entornos cambiantes. Para cerrar esta brecha, presentamos CostBench, un punto de referencia escalable centrado en costos diseñado para evaluar el razonamiento económico y las capacidades de replanificación de los agentes. Situado en el dominio de la planificación de viajes, CostBench comprende tareas resolubles mediante múltiples secuencias de herramientas atómicas y compuestas con costos diversos y personalizables. También admite cuatro tipos de eventos de bloqueo dinámicos, como fallos de herramientas y cambios de costos, para simular la imprevisibilidad del mundo real y requerir que los agentes se adapten en tiempo real. La evaluación de modelos líderes de código abierto y propietarios en CostBench revela una brecha sustancial en la planificación consciente de costos: los agentes frecuentemente no logran identificar soluciones óptimas en costos en entornos estáticos, con incluso GPT-5 alcanzando menos del 75% de tasa de coincidencia exacta en las tareas más difíciles, y el rendimiento disminuye aún más en aproximadamente un 40% bajo condiciones dinámicas. Al diagnosticar estas debilidades, CostBench sienta las bases para desarrollar futuros agentes que sean tanto económicamente racionales como robustos.
Los datos tabulares siguen siendo el formato predominante en aplicaciones del mundo real. Sin embargo, el desarrollo de modelos neuronales efectivos para datos tabulares sigue siendo un desafío debido a la heterogeneidad de los tipos de características y a las interacciones complejas que ocurren a múltiples escalas. Los avances recientes en el aprendizaje en contexto (ICL) para datos tabulares, como TabPFN y TabICL, han logrado un rendimiento de vanguardia comparable al de los árboles potenciados por gradiente (GBTs) sin una ajuste fino específico de la tarea. No obstante, las arquitecturas actuales presentan limitaciones clave: (1) procesamiento de características a escala única que pasa por alto las dependencias jerárquicas, (2) atención densa con escalado cuadrático en el ancho de la tabla, y (3) procesamiento estrictamente secuencial de componentes que impide el refinamiento iterativo de representaciones y la comunicación cruzada entre componentes. Para abordar estos desafíos, presentamos Orion-MSP, una arquitectura de ICL tabular que presenta tres innovaciones clave: (1) procesamiento multi-escala para capturar interacciones jerárquicas de características; (2) atención bloque-esparsa que combina patrones de ventana, globales y aleatorios para una eficiencia escalable y conectividad de largo alcance; y (3) una memoria estilo Perceiver que permite un flujo bidireccional seguro de información entre componentes. En diversos puntos de referencia, Orion-MSP iguala o supera el rendimiento de vanguardia mientras escala eficazmente a tablas de alta dimensionalidad, estableciendo un nuevo estándar para el aprendizaje en contexto tabular eficiente. El modelo está disponible públicamente en https://github.com/Lexsi-Labs/Orion-MSP.
Los modelos fundacionales tabulares representan un paradigma creciente en el aprendizaje de datos estructurados, extendiendo los beneficios del preentrenamiento a gran escala a los dominios tabulares. Sin embargo, su adopción sigue siendo limitada debido a pipelines de preprocesamiento heterogéneos, APIs fragmentadas, procedimientos de ajuste fino inconsistentes y la ausencia de una evaluación estandarizada para métricas orientadas al despliegue, como la calibración y la equidad. Presentamos TabTune, una librería unificada que estandariza el flujo de trabajo completo para modelos fundacionales tabulares a través de una única interfaz. TabTune proporciona acceso consistente a siete modelos de última generación que admiten múltiples estrategias de adaptación, incluyendo inferencia zero-shot, meta-aprendizaje, ajuste fino supervisado (SFT) y ajuste fino eficiente en parámetros (PEFT). El marco automatiza el preprocesamiento consciente del modelo, gestiona internamente la heterogeneidad arquitectónica e integra módulos de evaluación para rendimiento, calibración y equidad. Diseñado para extensibilidad y reproducibilidad, TabTune permite la evaluación comparativa consistente de las estrategias de adaptación de modelos fundacionales tabulares. La librería es de código abierto y está disponible en https://github.com/Lexsi-Labs/TabTune.
Una comprensión profunda de las estructuras cinemáticas y los componentes móviles es fundamental para permitir que los robots manipulen objetos y modelen sus propias formas articuladas. Dicha comprensión se captura a través de objetos articulados, los cuales son esenciales para tareas como la simulación física, la planificación de movimientos y el aprendizaje de políticas. Sin embargo, la creación de estos modelos, particularmente para objetos con altos grados de libertad (GdL), sigue siendo un desafío significativo. Los métodos existentes generalmente dependen de secuencias de movimiento o fuertes suposiciones derivadas de conjuntos de datos curados manualmente, lo que dificulta la escalabilidad. En este artículo, presentamos Kinematify, un marco automatizado que sintetiza objetos articulados directamente a partir de imágenes RGB arbitrarias o descripciones textuales. Nuestro método aborda dos desafíos centrales: (i) inferir topologías cinemáticas para objetos con altos GdL y (ii) estimar parámetros de articulaciones a partir de geometría estática. Para lograrlo, combinamos una búsqueda MCTS para la inferencia estructural con una optimización basada en geometría para el razonamiento articular, produciendo descripciones físicamente consistentes y funcionalmente válidas. Evaluamos Kinematify con diversas entradas de entornos tanto sintéticos como del mundo real, demostrando mejoras en la precisión del registro y la topología cinemática respecto a trabajos anteriores.
Los modelos de lenguaje grandes (LLM) logran un alto rendimiento en diversos puntos de referencia, desde cuestionarios de conocimiento y razonamiento matemático hasta tareas de agentes web. Sin embargo, estas pruebas se realizan en entornos estáticos, carentes de dinámica real e incertidumbre. En consecuencia, evalúan el razonamiento o la resolución de problemas de forma aislada, en lugar de la toma de decisiones bajo incertidumbre. Para abordar esto, presentamos LiveTradeBench, un entorno de trading en vivo para evaluar agentes de LLM en mercados realistas y en evolución. LiveTradeBench sigue tres principios de diseño: (i) Flujo de datos en vivo de precios de mercado y noticias, eliminando la dependencia de pruebas retrospectivas (backtesting) fuera de línea y previniendo la filtración de información, mientras captura la incertidumbre en tiempo real; (ii) una abstracción de gestión de carteras que extiende el control desde acciones sobre un solo activo hasta la asignación multi-activo, integrando la gestión de riesgos y el razonamiento entre activos; y (iii) evaluación multi-mercado en entornos estructuralmente distintos—acciones estadounidenses y mercados de predicción de Polymarket—que difieren en volatilidad, liquidez y flujo de información. En cada paso, un agente observa los precios, las noticias y su cartera, y luego genera asignaciones porcentuales que equilibran riesgo y rendimiento. Utilizando LiveTradeBench, ejecutamos evaluaciones en vivo de 50 días con 21 LLMs de diferentes familias. Los resultados muestran que (1) puntuaciones altas en LMArena no implican resultados de trading superiores; (2) los modelos muestran estilos de cartera distintos que reflejan su apetito por el riesgo y la dinámica de su razonamiento; y (3) algunos LLMs aprovechan eficazmente las señales en vivo para adaptar sus decisiones. Estos hallazgos exponen una brecha entre la evaluación estática y la competencia en el mundo real, motivando la creación de puntos de referencia que prueben la toma de decisiones secuencial y la consistencia bajo incertidumbre en vivo.
A medida que los modelos de razonamiento escalan rápidamente, el papel esencial de la multimodalidad en la cognición humana ha cobrado especial relevancia, impulsando una necesidad creciente de explorar comportamientos cognitivos centrados en la visión. Sin embargo, los benchmarks multimodales existentes o bien enfatizan en exceso el razonamiento textual o no logran capturar sistemáticamente los comportamientos cognitivos centrados en la visión, dejando la capacidad cognitiva de los MLLMs insuficientemente evaluada. Para abordar esta limitación, presentamos MME-CC (Benchmark de Evaluación Multimodal de la Capacidad Cognitiva), un benchmark basado en la visión que organiza 11 tareas de razonamiento representativas en tres categorías fundamentales de información visual: razonamiento espacial, geométrico y basado en conocimiento, y proporciona análisis detallados de la capacidad cognitiva de los MLLMs en estas dimensiones. Basándonos en MME-CC, realizamos experimentos exhaustivos con 16 MLLMs representativos. Nuestro estudio revela que los modelos de código cerrado actualmente lideran en general (por ejemplo, 42.66 para Gemini-2.5-Pro frente a 30.45 para GLM-4.5V), mientras que el razonamiento espacial y geométrico sigue siendo ampliamente débil (menor o igual al 30%). Además, identificamos patrones de error comunes, incluyendo errores de orientación, frágil persistencia de identidad cruzada entre vistas y pobre adherencia a instrucciones contrafácticas, y observamos que el razonamiento en cadena (Chain-of-Thought) típicamente sigue un proceso de tres etapas (extraer -> razonar -> verificar) con una fuerte dependencia de la extracción visual. Esperamos que este trabajo catalice un cambio hacia el tratamiento de la capacidad cognitiva de los MLLMs como un aspecto central tanto para la evaluación como para el diseño de modelos.
Reexaminamos el escalado en tiempo de prueba para el razonamiento de modelos de lenguaje y planteamos una pregunta fundamental: con igual presupuesto de tokens y capacidad computacional, ¿es mejor ejecutar múltiples cadenas independientes en paralelo, o ejecutar menos cadenas que se refinan iterativamente mediante pasos secuenciales? A través de una evaluación exhaustiva en 5 modelos de código abierto de última generación y 3 benchmarks de razonamiento desafiantes, encontramos que el escalado secuencial, donde las cadenas se construyen explícitamente sobre intentos previos, supera consistentemente al paradigma dominante de la autoconsistencia paralela en el 95.6% de las configuraciones, con ganancias en precisión de hasta el 46.7%. Además, presentamos la votación ponderada por entropía inversa, un método novedoso libre de entrenamiento para impulsar aún más la precisión del escalado secuencial. Al ponderar las respuestas en proporción a la entropía inversa de sus cadenas de razonamiento, aumentamos nuestra tasa de éxito sobre la mayoría paralela y la establecemos como la estrategia óptima de escalado en tiempo de prueba. Nuestros hallazgos desafían fundamentalmente la ortodoxia del razonamiento paralelo que ha dominado el escalado en tiempo de prueba desde la decodificación por autoconsistencia de Wang et al. (2022), posicionando el refinamiento secuencial como la opción robusta por defecto para el razonamiento de los LLM modernos y haciendo necesario un cambio de paradigma en cómo abordamos la optimización en tiempo de inferencia.
El diálogo colaborativo depende de que los participantes establezcan incrementalmente un terreno común, sin embargo, en entornos asimétricos pueden creer que están de acuerdo mientras se refieren a entidades diferentes. Introducimos un esquema de anotación perspectivista para el corpus HCRC MapTask (Anderson et al., 1991) que captura por separado las interpretaciones ancladas del hablante y del oyente para cada expresión referencial, permitiéndonos rastrear cómo surge, diverge y se repara la comprensión a lo largo del tiempo. Utilizando un pipeline de anotación con LLM restringido por el esquema, obtenemos 13k expresiones referenciales anotadas con estimaciones de confiabilidad y analizamos los estados de comprensión resultantes. Los resultados muestran que los malentendidos completos son raros una vez que se unifican las variantes léxicas, pero las discrepancias de multiplicidad inducen sistemáticamente divergencias, revelando cómo una aparente base común puede enmascarar un desalineamiento referencial. Nuestro marco proporciona tanto un recurso como una lente analítica para estudiar los malentendidos anclados y para evaluar la capacidad de los (V)LLMs para modelar la construcción de base común dependiente de la perspectiva en el diálogo colaborativo.
La ampliación de consultas hace que las consultas sean más significativas mediante la adición de información adicional para encontrar documentos relevantes. Estudios recientes han propuesto sistemas de incrustación basados en Modelos de Lenguaje Grande (LLM), que aprenden representaciones para incrustación y generación para la ampliación de consultas de manera multitarea aprovechando las capacidades generativas de los LLM. Durante la inferencia, estos sistemas de incrustación entrenados conjuntamente han realizado la ampliación de consultas seguida de la incrustación, mostrando resultados efectivos. Sin embargo, ampliar cada consulta genera una latencia de incrustación sustancial y la ampliación puede ser perjudicial para el rendimiento en algunas consultas. Además, los métodos anteriores no han sido explorados en entornos multimodales. Para abordar estos problemas, proponemos M-Solomon, un sistema de incrustación multimodal universal que puede determinar adaptativamente cuándo ampliar las consultas. Nuestro enfoque primero divide las consultas de los conjuntos de entrenamiento en dos grupos a nivel del conjunto de datos. Uno incluye consultas que requieren ampliación y el otro incluye consultas que no. Luego, introducimos un proceso de síntesis que genera ampliaciones apropiadas para las consultas que las requieren aprovechando un potente Modelo de Lenguaje Multimodal (MLLM). A continuación, presentamos la ampliación adaptativa de consultas. Mediante este paso, M-Solomon puede realizar la ampliación de consultas solo cuando es necesario aprendiendo a generar ampliaciones sintéticas con el prefijo /ampliar para consultas que lo demandan y a generar la cadena simple /incrustar para las demás. Los resultados experimentales mostraron que M-Solomon no solo superó por un amplio margen a la línea base sin ampliación, sino que también superó a la línea base que siempre usaba ampliación, proporcionando una latencia de incrustación mucho más rápida.
Comprender las capacidades y riesgos actuales de los sistemas de Científico de IA es fundamental para garantizar un progreso científico impulsado por la IA confiable y sostenible, preservando al mismo tiempo la integridad del ecosistema académico. Con este fin, desarrollamos Jr. AI Scientist, un sistema autónomo de científico de IA de vanguardia que imita el flujo de trabajo investigativo central de un estudiante investigador novel: Dado el artículo de referencia proporcionado por el mentor humano, el sistema analiza sus limitaciones, formula hipótesis novedosas para mejorarlo, las valida mediante experimentación rigurosa y redacta un artículo con los resultados. A diferencia de enfoques anteriores que asumen una automatización total o operan en código a pequeña escala, Jr. AI Scientist sigue un flujo de trabajo de investigación bien definido y aprovecha agentes de codificación modernos para manejar implementaciones complejas y multiarchivo, lo que conduce a contribuciones científicamente valiosas. Para la evaluación, realizamos evaluaciones automatizadas utilizando Revisores de IA, evaluaciones dirigidas por los autores y envíos a Agents4Science, un foro dedicado a las contribuciones científicas impulsadas por la IA. Los hallazgos demuestran que Jr. AI Scientist genera artículos que reciben puntuaciones de revisión más altas que los sistemas totalmente automatizados existentes. No obstante, identificamos limitaciones importantes tanto en la evaluación de los autores como en las revisiones de Agents4Science, lo que indica los riesgos potenciales de aplicar directamente los sistemas actuales de Científico de IA y los desafíos clave para la investigación futura. Finalmente, reportamos de manera exhaustiva varios riesgos identificados durante el desarrollo. Esperamos que estas perspectivas profundicen la comprensión del progreso actual y los riesgos en el desarrollo del Científico de IA.