Artículos de investigación en IA seleccionados diariamente con traducciones
En la búsqueda del progreso científico, comunicar la investigación es tan vital como el propio descubrimiento. Sin embargo, los investigadores a menudo se ven desviados por la tarea manual y repetitiva de crear páginas web para sus proyectos con el fin de hacer accesibles sus densos artículos. Si bien la automatización ha abordado la creación de diapositivas y pósters estáticos, la naturaleza dinámica e interactiva de las páginas web ha seguido siendo un desafío sin resolver. Para cerrar esta brecha, reformulamos el problema, argumentando que la solución no reside en un único comando, sino en un proceso colaborativo y jerárquico. Presentamos AutoPage, un novedoso sistema multiagente que materializa esta filosofía. AutoPage descompone la creación de páginas a partir de artículos en un pipeline de granularidad gruesa a fina, que va desde la planificación narrativa hasta la generación de contenido multimodal y el renderizado interactivo. Para combatir las alucinaciones de la IA, agentes "Verificadores" dedicados validan cada paso contra el artículo fuente, mientras que puntos de control humanos opcionales garantizan que el producto final se alinee perfectamente con la visión del autor, transformando el sistema de una mera herramienta en un potente asistente colaborativo. Para validar rigurosamente nuestro enfoque, también construimos PageBench, el primer benchmark para esta nueva tarea. Los experimentos muestran que AutoPage no solo genera páginas de alta calidad y visualmente atractivas, sino que lo hace con una eficiencia notable en menos de 15 minutos y por menos de \$0.1. El código y el conjunto de datos se publicarán en https://mqleet.github.io/AutoPage_ProjectPage/{Webpage}$.
La Decodificación Especulativa (SD) acelera la inferencia de modelos de lenguaje grandes empleando un modelo de borrador pequeño para generar predicciones, que luego son verificadas por un modelo objetivo más grande. La efectividad de la SD depende de la alineación entre estos modelos, la cual normalmente se mejora mediante la Destilación de Conocimiento (KD). Sin embargo, los métodos convencionales de KD buscan minimizar la divergencia KL entre los modelos de borrador y objetivo en todos los tokens, un objetivo que no está alineado con el verdadero propósito de la SD, que es maximizar la tasa de aceptación de tokens. Por lo tanto, los modelos de borrador a menudo luchan por asimilar completamente el conocimiento del modelo objetivo debido a limitaciones de capacidad, lo que conduce a un rendimiento subóptimo. Para abordar este desafío, proponemos AdaSPEC, un método novedoso que incorpora un filtrado selectivo de tokens en el proceso de KD. AdaSPEC utiliza un modelo de referencia para identificar y filtrar los tokens difíciles de ajustar, permitiendo la destilación de un modelo de borrador que se alinea mejor con el modelo objetivo en tokens más simples. Este enfoque mejora la tasa general de aceptación de tokens sin comprometer la calidad de la generación. Evaluamos AdaSPEC en diversas tareas, incluyendo razonamiento aritmético, seguimiento de instrucciones, codificación y resumen, utilizando configuraciones de modelos de 31M/1.4B y 350M/2.7B de parámetros. Nuestros resultados demuestran que AdaSPEC supera consistentemente al método de vanguardia DistillSpec, logrando tasas de aceptación más altas en todas las tareas (hasta un 15\%). El código está disponible públicamente en https://github.com/yuezhouhu/adaspec.
La mayoría de los modelos de razonamiento en video solo generan trazas de razonamiento textuales sin indicar cuándo y dónde aparece la evidencia clave. Modelos recientes como OpenAI-o3 han despertado un gran interés en el razonamiento centrado en evidencia para imágenes, pero extender esta capacidad a los videos es más desafiante, ya que requiere un seguimiento temporal y una localización espacial conjunta a través de escenas dinámicas. Introducimos Open-o3 Video, un marco no-agente que integra evidencia espacio-temporal explícita en el razonamiento de video, y recopilamos cuidadosamente datos de entrenamiento y diseñamos estrategias de entrenamiento para abordar los desafíos mencionados. El modelo resalta marcas de tiempo, objetos y cuadros delimitadores clave junto con sus respuestas, permitiendo que el razonamiento se base en observaciones visuales concretas. Para habilitar esta funcionalidad, primero curamos y construimos dos conjuntos de datos de alta calidad, STGR-CoT-30k para SFT y STGR-RL-36k para RL, con anotaciones temporales y espaciales cuidadosamente construidas, ya que la mayoría de los conjuntos de datos existentes ofrecen intervalos temporales para videos o cuadros espaciales en imágenes, careciendo de una supervisión y trazas de razonamiento espacio-temporal unificadas. Luego, adoptamos una estrategia de aprendizaje por refuerzo de inicio en frío con múltiples recompensas especialmente diseñadas que fomentan conjuntamente la precisión de la respuesta, la alineación temporal y la precisión espacial. En el benchmark V-STAR, Open-o3 Video logra un rendimiento state-of-the-art, aumentando la mAM en un 14.4% y la mLGM en un 24.2% sobre la línea base Qwen2.5-VL. También se observan mejoras consistentes en una amplia gama de benchmarks de comprensión de video, incluyendo VideoMME, WorldSense, VideoMMMU y TVGBench. Más allá de la precisión, las trazas de razonamiento producidas por Open-o3 Video también proporcionan señales valiosas para el escalado en tiempo de prueba, permitiendo una verificación consciente de la confianza y mejorando la fiabilidad de las respuestas.
Los modelos de última generación de texto a vídeo sobresalen en la generación de clips aislados, pero se quedan cortos a la hora de crear las narrativas coherentes y de múltiples planos que son la esencia de la narrativa audiovisual. Cerramos esta "brecha narrativa" con HoloCine, un modelo que genera escenas completas de forma holística para garantizar una coherencia global desde el primer plano hasta el último. Nuestra arquitectura logra un control de dirección preciso mediante un mecanismo de Ventana de Atención Cruzada que localiza las indicaciones de texto en planos específicos, mientras que un patrón de Atención Interna Dispersa entre Planos (densa dentro de los planos pero dispersa entre ellos) garantiza la eficiencia necesaria para la generación a escala de minutos. Más allá de establecer un nuevo estado del arte en coherencia narrativa, HoloCine desarrolla notables habilidades emergentes: una memoria persistente para personajes y escenas, y una comprensión intuitiva de las técnicas cinematográficas. Nuestro trabajo marca un cambio pivotal desde la síntesis de clips hacia la cinematografía automatizada, haciendo que la creación cinematográfica de extremo a extremo sea un futuro tangible. Nuestro código está disponible en: https://holo-cine.github.io/.
Los modelos de difusión con transformadores pueden generar imágenes con una fidelidad y detalle notables, sin embargo, entrenarlos a resoluciones ultra-altas sigue siendo extremadamente costoso debido a la escala cuadrática del mecanismo de autoatención con el número de tokens de imagen. En este artículo, presentamos la Extrapolación Dinámica de Posición (DyPE), un método novedoso, que no requiere entrenamiento y que permite a los transformadores de difusión preentrenados sintetizar imágenes a resoluciones muy superiores a sus datos de entrenamiento, sin coste adicional de muestreo. DyPE aprovecha la progresión espectral inherente al proceso de difusión, donde las estructuras de baja frecuencia convergen temprano, mientras que las altas frecuencias requieren más pasos para resolverse. Específicamente, DyPE ajusta dinámicamente la codificación posicional del modelo en cada paso de difusión, haciendo coincidir su espectro de frecuencias con la etapa actual del proceso generativo. Este enfoque nos permite generar imágenes a resoluciones que exceden drásticamente la resolución de entrenamiento, por ejemplo, 16 millones de píxeles usando FLUX. En múltiples benchmarks, DyPE mejora consistentemente el rendimiento y logra una fidelidad de vanguardia en la generación de imágenes de ultra alta resolución, siendo las ganancias aún más pronunciadas a resoluciones más altas. La página del proyecto está disponible en https://noamissachar.github.io/DyPE/.
Los modelos de difusión discreta ofrecen una alternativa prometedora a la generación autoregresiva mediante decodificación paralela, pero sufren de un muro de muestreo: una vez que ocurre el muestreo categórico, la rica información distribucional colapsa en vectores one-hot y no puede propagarse entre pasos, forzando a los pasos subsiguientes a operar con información limitada. Para mitigar este problema, introducimos *Loopholing*, un mecanismo novedoso y simple que preserva esta información mediante una ruta latente determinista, dando lugar a los Modelos de Difusión Discreta con Loopholing (LDDMs). Entrenados eficientemente con una estrategia de auto-condicionamiento, los LDDMs logran mejoras sustanciales: reducen la perplejidad generativa hasta en un 61% respecto a líneas base anteriores, cerrando (y en algunos casos superando) la brecha con los modelos autoregresivos, y produciendo texto más coherente. Aplicados a tareas de razonamiento, los LDDMs también mejoran el rendimiento en benchmarks aritméticos como Countdown y Game of 24. Estos resultados también indican que el loopholing mitiga los pasos inactivos y las oscilaciones, proporcionando una ruta escalable hacia la generación de texto no autoregresivo de alta calidad.
El desarrollo de agentes de IA corporizados requiere entornos de entrenamiento escalables que equilibren la diversidad de contenido con la precisión física. Los simuladores de mundo proporcionan dichos entornos, pero enfrentan limitaciones distintivas: los métodos basados en vídeo generan contenido diverso pero carecen de retroalimentación física en tiempo real para el aprendizaje interactivo, mientras que los motores basados en física proporcionan dinámicas precisas pero enfrentan limitaciones de escalabilidad debido a la costosa creación manual de recursos. Presentamos Seed3D 1.0, un modelo fundacional que genera recursos 3D listos para simulación a partir de imágenes únicas, abordando el desafío de la escalabilidad mientras mantiene el rigor físico. A diferencia de los modelos de generación 3D existentes, nuestro sistema produce recursos con geometría precisa, texturas bien alineadas y materiales realistas basados en física. Estos recursos pueden integrarse directamente en motores físicos con una configuración mínima, permitiendo su despliegue en manipulación robótica y entrenamiento por simulación. Más allá de objetos individuales, el sistema escala hasta la generación de escenas completas mediante el ensamblaje de objetos en entornos coherentes. Al permitir una creación de contenido escalable y listo para simulación, Seed3D 1.0 proporciona una base para avanzar en los simuladores de mundo basados en física. Seed3D 1.0 ya está disponible en https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seed3d-1-0-250928&tab=Gen3D.
La edición de conocimiento ofrece una forma eficiente de actualizar el conocimiento del modelo sin un reentrenamiento completo, pero trabajos previos se han concentrado casi exclusivamente en modalidades textuales o visuales. Presentamos SAKE, el primer benchmark diseñado específicamente para editar conocimiento de atributos auditivos en Modelos Grandes de Audio y Lenguaje (LALMs). A diferencia de las actualizaciones factuales, SAKE se enfoca en varios atributos auditivos abstractos, capturando tipos de conocimiento que van más allá de los dominios textuales y visuales convencionales. Evaluamos siete métodos de edición en dos LALMs a lo largo de cuatro dimensiones: confiabilidad, generalidad, localidad audio/texto y portabilidad. Los resultados destacan desafíos como preservar el conocimiento intra-atributo no relacionado con la edición, generalizar las ediciones al razonamiento multimodal y mantener las ediciones bajo actualizaciones secuenciales. SAKE proporciona un marco de trabajo fundamentado para estudiar cómo la edición de conocimiento se extiende a las modalidades auditivas, abriendo nuevas direcciones para mantener y adaptar LALMs en escenarios del mundo real más diversos.
Proponemos Aprendizaje por Refuerzo con Valores Humanos Explícitos (RLEV), un método que alinea la optimización de Modelos de Lenguaje a Gran Escala (LLM) directamente con señales cuantificables de valores humanos. Si bien el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) entrena eficazmente modelos en dominios objetivos utilizando recompensas binarias de corrección, pasa por alto que no todas las tareas son igualmente significativas. RLEV extiende este marco incorporando señales de valor definidas por humanos directamente en la función de recompensa. Utilizando datos de tipo examen con etiquetas de valor explícitas de referencia, RLEV supera consistentemente a los baselines que solo consideran la corrección en múltiples algoritmos de RL y escalas de modelos. Crucialmente, las políticas de RLEV no solo mejoran la precisión ponderada por valor, sino que también aprenden una política de terminación sensible al valor: concisa para instrucciones de bajo valor y exhaustiva para las de alto valor. Demostramos que este comportamiento surge de la amplificación del gradiente ponderado por valor en los tokens de fin de secuencia. Estudios de ablación confirman que la ganancia está causalmente vinculada a la alineación de valores. RLEV se mantiene robusto bajo señales de valor ruidosas, como etiquetas basadas en dificultad, lo que demuestra que optimizar para una función de utilidad explícita ofrece un camino práctico para alinear los LLM con las prioridades humanas.
Los grandes modelos de audio-lenguaje (LALMs, por sus siglas en inglés) amplían los modelos de lenguaje basados en texto con capacidades de comprensión auditiva, ofreciendo nuevas oportunidades para aplicaciones multimodales. Si bien su percepción, razonamiento y rendimiento en tareas han sido ampliamente estudiados, su alineación de seguridad ante variaciones paralingüísticas sigue siendo un área poco explorada. Este trabajo investiga sistemáticamente el papel de la emoción del hablante. Construimos un conjunto de datos de instrucciones de voz maliciosas expresadas con múltiples emociones e intensidades, y evaluamos varios LALMs de vanguardia. Nuestros resultados revelan inconsistencias sustanciales en la seguridad: diferentes emociones provocan distintos niveles de respuestas inseguras, y el efecto de la intensidad no es monótono, siendo las expresiones medias las que a menudo presentan el mayor riesgo. Estos hallazgos destacan una vulnerabilidad pasada por alto en los LALMs y exigen estrategias de alineación diseñadas explícitamente para garantizar la robustez ante variaciones emocionales, un requisito previo para una implementación confiable en entornos del mundo real.
El aprendizaje por refuerzo con recompensas verificables (RLVR) se ha convertido en la técnica principal para entrenar agentes de LLM. Sin embargo, el RLVR depende en gran medida de consultas de tareas bien elaboradas y sus respuestas de referencia correspondientes para proporcionar recompensas precisas, lo que requiere un esfuerzo humano masivo y obstaculiza los procesos de escalado del RL, especialmente en escenarios agentivos. Aunque algunos trabajos recientes exploran métodos de síntesis de tareas, la dificultad de las tareas agentivas generadas difícilmente puede controlarse para proporcionar ventajas efectivas en el entrenamiento de RL. Para lograr un RLVR agentivo con mayor escalabilidad, exploramos el entrenamiento de auto-juego para agentes de búsqueda profunda, en el cual el LLM en aprendizaje utiliza llamadas multi-turno a motores de búsqueda y actúa simultáneamente como proponente de tareas y solucionador de problemas. El proponente de tareas tiene como objetivo generar consultas de búsqueda profunda con respuestas de referencia bien definidas y una dificultad de tarea creciente. El solucionador de problemas intenta manejar las consultas de búsqueda generadas y producir las predicciones de respuesta correctas. Para garantizar que cada consulta de búsqueda generada tenga una verdad fundamental precisa, recopilamos todos los resultados de búsqueda de la trayectoria del proponente como conocimiento externo, y luego realizamos una generación aumentada por recuperación (RAG) para probar si la consulta propuesta puede responderse correctamente con todos los documentos de búsqueda necesarios proporcionados. En este juego de auto-juego de búsqueda (SSP), el proponente y el solucionador co-evolucionan sus capacidades agentivas mediante la competencia y la cooperación. Con resultados experimentales sustanciales, encontramos que el SSP puede mejorar significativamente el rendimiento de los agentes de búsqueda de manera uniforme en varios puntos de referencia sin ninguna supervisión, tanto en configuraciones de entrenamiento de RL desde cero como continuo. El código está en https://github.com/Alibaba-Quark/SSP.
Presentamos el Massive Legal Embedding Benchmark (MLEB), el benchmark de código abierto para recuperación de información legal más extenso, diverso y completo hasta la fecha. MLEB consta de diez conjuntos de datos anotados por expertos que abarcan múltiples jurisdicciones (EE. UU., Reino Unido, UE, Australia, Irlanda y Singapur), tipos de documentos (sentencias, legislación, directrices regulatorias, contratos y literatura) y tipos de tareas (búsqueda, clasificación zero-shot y respuesta a preguntas). Siete de los conjuntos de datos en MLEB fueron construidos recientemente para llenar vacíos de dominio y jurisdiccionales en el panorama de la recuperación de información legal de código abierto. Documentamos nuestra metodología para construir MLEB y crear los nuevos conjuntos de datos constituyentes, y publicamos abiertamente nuestro código, resultados y datos para facilitar evaluaciones reproducibles.
El lenguaje natural ha permitido durante mucho tiempo la cooperación humana, pero su naturaleza con pérdidas, ambigua e indirecta limita el potencial de la inteligencia colectiva. Si bien las máquinas no están sujetas a estas limitaciones, la mayoría de los sistemas multiagente basados en LLM siguen dependiendo únicamente del lenguaje natural, intercambiando tokens o sus *embeddings*. Para ir más allá del lenguaje, introducimos un nuevo paradigma, la comunicación de pensamientos, que permite a los agentes interactuar directamente de mente a mente, similar a la telepatía. Para descubrir estos pensamientos latentes de manera fundamentada, formalizamos el proceso como un modelo general de variables latentes, donde los estados de los agentes son generados por una función desconocida de pensamientos subyacentes. Demostramos que, en un entorno no paramétrico sin información auxiliar, tanto los pensamientos latentes compartidos como los privados entre cualquier par de agentes pueden identificarse. Además, la estructura global del intercambio de pensamientos, incluyendo qué agentes comparten qué pensamientos y cómo se estructuran estas relaciones, también puede recuperarse con garantías teóricas. Guiados por la teoría establecida, desarrollamos un marco que extrae los pensamientos latentes de todos los agentes antes de la comunicación y asigna a cada agente los pensamientos relevantes, junto con sus patrones de intercambio. Este paradigma se extiende naturalmente más allá de los LLM a todas las modalidades, ya que la mayoría de los datos observacionales surgen de procesos generativos ocultos. Los experimentos en benchmarks tanto sintéticos como del mundo real validan la teoría y demuestran las ventajas colaborativas de la comunicación de pensamientos. Esperamos que este trabajo ilumine el potencial de aprovechar el mundo oculto, ya que muchos desafíos siguen sin solución a través de la observación superficial únicamente, independientemente de la escala de computación o datos.
El razonamiento en video, que requiere deducción multi-paso entre fotogramas, sigue siendo un desafío importante para los modelos de lenguaje grandes multimodales (MLLMs). Si bien los métodos basados en aprendizaje por refuerzo (RL) mejoran las capacidades de razonamiento, a menudo dependen de cadenas de razonamiento puramente textuales que producen conclusiones infundadas o alucinadas. Por el contrario, los enfoques de recuperación de fotogramas introducen anclaje visual pero aún presentan dificultades en la localización precisa de evidencias. Para abordar estos desafíos, presentamos Conan, un marco para el razonamiento en video multi-paso fundamentado en evidencias. Conan identifica fotogramas contextuales y de evidencia, razona sobre pistas inter-fotogramas y decide adaptativamente cuándo concluir o explorar más. Para lograrlo, (1) construimos Conan-91K, un conjunto de datos a gran escala de trazas de razonamiento generadas automáticamente que incluye identificación de fotogramas, razonamiento evidenciado y decisión de acción, y (2) diseñamos una estrategia progresiva de arranque en frío multi-etapa combinada con un marco de entrenamiento RLVR de Identificación-Razonamiento-Acción (AIR) para mejorar conjuntamente el razonamiento visual multi-paso. Experimentos exhaustivos en seis benchmarks de razonamiento multi-paso demuestran que Conan supera al modelo base Qwen2.5-VL-7B-Instruct en un promedio de más del 10% en precisión, logrando un rendimiento de vanguardia. Además, Conan generaliza efectivamente a tareas de comprensión de videos largos, validando su fuerte escalabilidad y robustez.
A pesar de su impresionante fidelidad visual, los modelos generativos personalizados existentes carecen de control interactivo sobre la composición espacial y no escalan adecuadamente a múltiples sujetos. Para abordar estas limitaciones, presentamos LayerComposer, un marco interactivo para la generación de imágenes personalizadas de múltiples sujetos a partir de texto. Nuestro enfoque introduce dos contribuciones principales: (1) un lienzo en capas, una representación novedosa en la que cada sujeto se coloca en una capa distinta, permitiendo una composición libre de oclusiones; y (2) un mecanismo de bloqueo que preserva las capas seleccionadas con alta fidelidad mientras permite que las capas restantes se adapten flexiblemente al contexto circundante. De manera similar al software profesional de edición de imágenes, el lienzo en capas propuesto permite a los usuarios colocar, redimensionar o bloquear sujetos de entrada mediante una manipulación intuitiva de capas. Nuestro versátil mecanismo de bloqueo no requiere cambios arquitectónicos, sino que se basa en incrustaciones posicionales inherentes combinadas con una nueva estrategia de muestreo de datos complementaria. Experimentos exhaustivos demuestran que LayerComposer logra un control espacial y una preservación de la identidad superiores en comparación con los métodos de vanguardia en la generación de imágenes personalizadas de múltiples sujetos.
Proponemos un nuevo paradigma de segmentación de imágenes basado en generación autoregresiva (ARGenSeg), logrando comprensión multimodal y percepción a nivel de píxel dentro de un marco unificado. Los trabajos previos que integran segmentación de imágenes en modelos de lenguaje grandes multimodales (MLLM) suelen emplear representaciones mediante puntos de contorno o cabezales de segmentación dedicados. Estos métodos dependen de representaciones discretas o *prompts* semánticos introducidos en decodificadores específicos de tarea, lo que limita la capacidad del MLLM para capturar detalles visuales finos. Para abordar estos desafíos, presentamos un marco de segmentación para MLLM basado en generación de imágenes, que produce naturalmente máscaras densas para objetos objetivo. Aprovechamos el MLLM para generar *tokens* visuales y los desconvertimos en imágenes usando un VQ-VAE universal, haciendo que la segmentación dependa completamente de la comprensión a nivel de píxel del MLLM. Para reducir la latencia de inferencia, empleamos una estrategia de predicción de escala siguiente para generar los *tokens* visuales requeridos en paralelo. Experimentos exhaustivos demuestran que nuestro método supera a los enfoques anteriores de vanguardia en múltiples conjuntos de datos de segmentación con un notable aumento en la velocidad de inferencia, manteniendo sólidas capacidades de comprensión.
El manejo confiable de diferencias de código (diffs) es fundamental para agentes que editan y refactorizan repositorios a gran escala. Presentamos Diff-XYZ, un benchmark compacto para la comprensión de diferencias de código con tres tareas supervisadas: aplicar (código antiguo + diff → código nuevo), anti-aplicar (código nuevo - diff → código antiguo) y generación de diff (código nuevo - código antiguo → diff). Las instancias en el benchmark son triplas ⟨código antiguo, código nuevo, diff⟩ extraídas de commits reales en CommitPackFT, acompañadas de métricas automáticas y un protocolo de evaluación claro. Utilizamos el benchmark para realizar un estudio empírico centrado en el formato unificado de diff y ejecutamos una comparación cruzada de diferentes representaciones de diff. Nuestros hallazgos revelan que deben utilizarse diferentes formatos según el caso de uso y el tamaño del modelo. Por ejemplo, representar los diffs en formato de búsqueda y reemplazo es adecuado para modelos más grandes en el escenario de generación de diff, pero no se adapta bien al análisis de diffs y a modelos más pequeños. El benchmark Diff-XYZ es una base reutilizable para evaluar y mejorar el manejo de diffs en LLMs que puede ayudar al desarrollo futuro de formatos de diff y modelos que editan código. El conjunto de datos se publica en HuggingFace Hub: https://huggingface.co/datasets/JetBrains-Research/diff-xyz.
Los Modelos de Lenguaje a Gran Escala (LLM) han surgido como asistentes prometedores para la escritura científica. Sin embargo, han surgido preocupaciones respecto a la calidad y fiabilidad del texto generado, una de las cuales es la precisión y fidelidad de las citas. Si bien la mayoría de los trabajos recientes se basan en métodos como el uso del LLM como juez, la fiabilidad de este enfoque por sí solo también es cuestionable. En este trabajo, replanteamos la evaluación de citas como un problema de alineación en la atribución de citas, que consiste en evaluar si las citas generadas por un LLM coinciden con las que un autor humano incluiría para el mismo texto. Proponemos CiteGuard, un marco de agente consciente de la recuperación de información, diseñado para proporcionar una base más fidedigna para la validación de citas. CiteGuard mejora el punto de referencia anterior en un 12,3% y alcanza hasta un 65,4% de precisión en el benchmark CiteME, a la par con el rendimiento humano (69,7%). También permite la identificación de citas alternativas pero válidas.
MeanFlow ha surgido recientemente como un marco poderoso para el modelado generativo de pocos pasos entrenado desde cero, pero su éxito aún no se comprende completamente. En este trabajo, demostramos que el objetivo de MeanFlow se descompone naturalmente en dos partes: ajuste de flujo de trayectoria y consistencia de trayectoria. Mediante análisis de gradientes, encontramos que estos términos están fuertemente correlacionados negativamente, causando conflicto de optimización y una convergencia lenta. Motivados por estas observaciones, presentamos alpha-Flow, una amplia familia de objetivos que unifica el ajuste de flujo de trayectoria, Shortcut Model y MeanFlow bajo una misma formulación. Al adoptar una estrategia curricular que transita suavemente desde el ajuste de flujo de trayectoria hasta MeanFlow, alpha-Flow desentrelaza los objetivos en conflicto y logra una mejor convergencia. Cuando se entrena desde cero en ImageNet-1K 256x256 condicionado por clase con backbones DiT estándar, alpha-Flow supera consistentemente a MeanFlow en todas las escalas y configuraciones. Nuestro modelo más grande, alpha-Flow-XL/2+, logra nuevos resultados de vanguardia utilizando backbones DiT estándar, con puntuaciones FID de 2.58 (1-NFE) y 2.15 (2-NFE).
El escalado del número de parámetros y del tamaño de los datos de entrenamiento ha demostrado ser una estrategia eficaz para mejorar el rendimiento de los modelos de lenguaje grandes (LLM). Sin embargo, a medida que estos modelos se vuelven más potentes y se despliegan ampliamente, el coste de la inferencia se ha convertido en una preocupación apremiante. A pesar de su importancia, la compensación entre la precisión del modelo y la eficiencia de la inferencia sigue estando poco explorada. En este trabajo, examinamos cómo factores arquitectónicos clave —el tamaño de la capa oculta, la asignación de parámetros entre MLP y atención (relación mlp-atención) y la atención de consulta agrupada (GQA)— influyen tanto en el coste de inferencia como en la precisión. Introducimos una ley de escalado condicional que amplía el marco de Chinchilla con información arquitectónica, junto con un marco de búsqueda para identificar arquitecturas que sean simultáneamente eficientes en inferencia y precisas. Para validar nuestro enfoque, entrenamos más de 200 modelos que abarcan desde 80M hasta 3B de parámetros y de 8B a 100B de tokens de entrenamiento, y ajustamos la ley de escalado condicional propuesta. Nuestros resultados muestran que la ley de escalado condicional predice de forma fiable las opciones arquitectónicas óptimas y que los modelos resultantes superan a las líneas base de código abierto existentes. Con el mismo presupuesto de entrenamiento, las arquitecturas optimizadas logran hasta un 2.1% más de precisión y un 42% más de rendimiento de inferencia en comparación con LLaMA-3.2.
Esta no es una encuesta típica sobre modelos del mundo; es una guía para quienes desean construir mundos. No pretendemos catalogar cada artículo que haya mencionado un "modelo del mundo". En su lugar, seguimos un camino claro: desde los primeros modelos enmascarados que unificaron el aprendizaje de representaciones entre modalidades, hasta las arquitecturas unificadas que comparten un único paradigma, pasando por los modelos generativos interactivos que cierran el ciclo acción-percepción, y finalmente hasta los sistemas aumentados con memoria que mantienen mundos consistentes en el tiempo. Omitimos ramas vagamente relacionadas para centrarnos en el núcleo: el corazón generativo, el ciclo interactivo y el sistema de memoria. Demostramos que este es el camino más prometedor hacia los verdaderos modelos del mundo.
La tendencia a encontrar y explotar "atajos" para completar tareas plantea riesgos significativos para la evaluación confiable y la implementación de modelos de lenguaje grandes (LLM). Por ejemplo, un agente de LLM con acceso a pruebas unitarias podría eliminar las pruebas que fallan en lugar de corregir el error subyacente. Este comportamiento socava tanto la validez de los resultados de los puntos de referencia como la confiabilidad de las implementaciones de asistentes de codificación con LLM en entornos reales. Para cuantificar, estudiar y mitigar dicho comportamiento, presentamos ImpossibleBench, un marco de evaluación que mide sistemáticamente la propensión de los agentes de LLM a explotar los casos de prueba. ImpossibleBench crea variantes "imposibles" de tareas de benchmarks existentes como LiveCodeBench y SWE-bench introduciendo conflictos directos entre la especificación en lenguaje natural y las pruebas unitarias. Medimos la "tasa de trampa" de un agente como su tasa de aprobación en estas tareas imposibles, donde cualquier aprobación implica necesariamente un atajo que viola la especificación. Como marco práctico, ImpossibleBench no es solo una evaluación, sino una herramienta versátil. Demostramos su utilidad para: (1) estudiar comportamientos del modelo, revelando detalles más granulares de las conductas de trampa, desde la simple modificación de pruebas hasta la compleja sobrecarga de operadores; (2) la ingeniería de contexto, mostrando cómo el prompt, el acceso a las pruebas y el bucle de retroalimentación afectan las tasas de trampa; y (3) desarrollar herramientas de monitoreo, proporcionando un banco de pruebas con soluciones engañosas verificadas. Esperamos que ImpossibleBench sirva como un marco útil para construir sistemas de LLM más robustos y confiables. Nuestra implementación se puede encontrar en https://github.com/safety-research/impossiblebench.
Los modelos de lenguaje extenso (LLM) basados en transformers han logrado un éxito notable, aunque su mecanismo de atención estándar incurre en costos computacionales y de memoria cuadráticos con respecto a la longitud de la secuencia, lo que supone un cuello de botella principal para el entrenamiento de contextos largos. Trabajos previos abordan este desafío en dos direcciones: (1) optimizaciones a nivel de kernel, que aceleran los operadores de atención densa y dispersa; y (2) estrategias a nivel de módulo, a menudo denominadas atención distribuida o entrenamiento paralelo de contexto, que escalan la atención a través de múltiples dispositivos. Sin embargo, la evaluación sistemática aún sigue siendo limitada: las comparaciones a nivel de operador a menudo son incompletas, mientras que las estrategias de paralelización de contexto son típicamente específicas del framework, con un análisis de rendimiento poco claro en distintos contextos. Para abordar estas brechas, proponemos un benchmark unificado que integra kernels de atención representativos y mecanismos de paralelización de contexto con una interfaz modular y extensible para su evaluación. El benchmark evalúa los métodos en dos dimensiones críticas: (1) los patrones de máscara de atención, que afectan fuertemente la eficiencia, escalabilidad y usabilidad, y (2) la longitud de secuencia y la escala distribuida, que determinan el rendimiento en entrenamientos de contexto extremadamente largo. Mediante experimentos exhaustivos en un clúster de hasta 96 GPUs, nuestro benchmark permite comparaciones reproducibles, destaca compensaciones específicas de cada método y proporciona orientación práctica para diseñar e implementar mecanismos de atención en el entrenamiento de LLM de contexto largo.
El trabajo en equipo para tareas complejas en entornos laborales requiere estrategias de comunicación diversas, pero los sistemas actuales de LLM multiagente carecen de marcos sistemáticos para la comunicación orientada a tareas. Presentamos Communication to Completion (C2C), un marco escalable que aborda esta brecha mediante dos innovaciones clave: (1) el Factor de Alineación (AF), una métrica novedosa que cuantifica la alineación de los agentes con la tarea e impacta directamente en la eficiencia del trabajo, y (2) un Marco de Acción Secuencial que integra la ejecución paso a paso con decisiones de comunicación inteligentes. C2C permite a los agentes tomar decisiones de comunicación conscientes del costo, mejorando dinámicamente la comprensión de la tarea mediante interacciones específicas. Evaluamos C2C en flujos de trabajo de codificación realistas en tres niveles de complejidad y tamaños de equipo de 5 a 17 agentes, comparándolo con líneas base sin comunicación y de pasos fijos. Los resultados muestran que C2C reduce el tiempo de finalización de tareas en aproximadamente un 40% con costos de comunicación aceptables. El marco completa todas las tareas exitosamente en configuraciones estándar y mantiene su efectividad a escala. C2C establece tanto una base teórica para medir la efectividad de la comunicación en sistemas multiagente como un marco práctico para tareas colaborativas complejas.
Presentamos MSC-Bench, un benchmark a gran escala para evaluar la orquestación de herramientas multi-salto y de extremo a extremo por parte de agentes de LLM en un ecosistema jerárquico de Protocolo Modelo-Contexto (MCP). Los benchmarks existentes a menudo evalúan las herramientas de forma aislada, ignorando desafíos como el solapamiento funcional y la orquestación entre servidores, lo que conduce a evaluaciones excesivamente optimistas. MSC-Bench aborda estas carencias construyendo una verdad de base mediante 'conjuntos de funciones equivalentes', permitiendo el uso de métricas objetivas como la puntuación F1 y reduciendo la dependencia de la evaluación mediante LLM-como-juez. Organizado como un currículum de cinco niveles, evalúa sistemáticamente las capacidades de los agentes, desde la orquestación de una sola herramienta hasta la planificación compleja entre servidores, y la robustez frente a solicitudes fuera de alcance. Los experimentos revelan que las jerarquías rígidas pueden perjudicar el rendimiento sin estrategias co-diseñadas, y que incluso los agentes más avanzados presentan debilidades sistémicas en cuanto a robustez. MSC-Bench proporciona un marco de diagnóstico para exponer estas limitaciones y guiar el desarrollo de agentes que utilicen herramientas de forma más capaz y eficiente. El benchmark y los recursos están disponibles públicamente en https://github.com/snooow1029/MSC_Bench.
Los grandes modelos de lenguaje (LLM) admiten actualmente ventanas de contexto de cientos de miles a millones de tokens, lo que permite aplicaciones como la resumen de documentos extensos, la síntesis de código a gran escala, la respuesta a preguntas sobre múltiples documentos y el diálogo multiturno persistente. Sin embargo, estos contextos extendidos exacerban el costo cuadrático de la autoatención, generando una latencia severa en la decodificación autoregresiva. Los métodos existentes de atención dispersa alivian estos costos, pero se basan en patrones heurísticos que tienen dificultades para recuperar pares clave-valor (KV) críticos para cada consulta, lo que resulta en una degradación de la precisión. Presentamos Adamas, un mecanismo de atención dispersa ligero pero altamente preciso diseñado para inferencia de contexto largo. Adamas aplica la transformada de Hadamard, la segmentación en contenedores y la compresión de 2 bits para producir representaciones compactas, y aprovecha la estimación de distancia Manhattan para selecciones eficientes de top-k. Los experimentos muestran que Adamas iguala la precisión de la atención completa con un presupuesto de solo 64 tokens, logra un rendimiento casi sin pérdidas con 128 tokens, y admite hasta 8 veces más dispersión que los métodos anteriores de vanguardia (SOTA), mientras ofrece aceleraciones de hasta 4.4x en autoatención y 1.5x de extremo a extremo en secuencias de 32K de longitud. Notablemente, Adamas alcanza una perplejidad comparable o incluso menor que la atención completa, subrayando su eficacia para mantener la precisión bajo una dispersión agresiva.
Desde la aparición de diversos modelos de lenguaje grande preentrenados, la extracción de conocimiento estructurado a partir de texto científico ha experimentado un cambio revolucionario en comparación con las técnicas tradicionales de aprendizaje automático o procesamiento del lenguaje natural. A pesar de estos avances, las herramientas automatizadas accesibles que permitan a los usuarios construir, validar y visualizar conjuntos de datos a partir de la extracción de literatura científica siguen siendo escasas. Por ello, hemos desarrollado ComProScanner, una plataforma autónoma de múltiples agentes que facilita la extracción, validación, clasificación y visualización de composiciones y propiedades químicas legibles por máquina, integrada con datos de síntesis de artículos de revistas para la creación integral de bases de datos. Evaluamos nuestro marco de trabajo utilizando 100 artículos de revistas frente a 10 modelos de lenguaje grande diferentes, incluyendo tanto modelos de código abierto como propietarios, para extraer composiciones altamente complejas asociadas a materiales piezoeléctricos cerámicos y los correspondientes coeficientes de deformación piezoeléctrica (d33), motivados por la falta de un conjunto de datos extenso para dichos materiales. DeepSeek-V3-0324 superó a todos los modelos con una precisión general significativa de 0.82. Este marco de trabajo proporciona un paquete sencillo, fácil de usar y listo para utilizar, destinado a extraer datos experimentales altamente complejos enterrados en la literatura para construir conjuntos de datos de aprendizaje automático o aprendizaje profundo.
Estudios recientes de sondeo revelan que los grandes modelos de lenguaje exhiben subespacios lineales que separan enunciados verdaderos de falsos, aunque el mecanismo detrás de su surgimiento no está claro. Introducimos un modelo juguete transparente de transformer de una sola capa que reproduce dichos subespacios de verdad de extremo a extremo y expone una ruta concreta mediante la cual pueden surgir. Estudiamos un escenario simple en el que puede emerger la codificación de la verdad: una distribución de datos donde los enunciados fácticos co-ocurren con otros enunciados fácticos (y viceversa), lo que incentiva al modelo a aprender esta distinción para reducir la pérdida del modelo de lenguaje en tokens futuros. Corroboramos este patrón con experimentos en modelos de lenguaje preentrenados. Finalmente, en el escenario juguete observamos una dinámica de aprendizaje bifásica: las redes primero memorizan asociaciones fácticas individuales en pocos pasos, luego —a lo largo de un horizonte más prolongado— aprenden a separar linealmente lo verdadero de lo falso, lo que a su vez reduce la pérdida de modelado del lenguaje. En conjunto, estos resultados proporcionan tanto una demostración mecanicista como una motivación empírica de cómo y por qué pueden surgir representaciones lineales de la verdad en los modelos de lenguaje.