Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos un marco de trabajo integral que escala el razonamiento en modelos de visión y lenguaje (VLMs) para videos largos, aprovechando el aprendizaje por refuerzo. Abordamos los desafíos únicos del razonamiento en videos largos mediante la integración de tres componentes críticos: (1) un conjunto de datos a gran escala, LongVideo-Reason, que comprende 52K pares de preguntas y respuestas sobre videos largos con anotaciones de razonamiento de alta calidad en diversos dominios como deportes, juegos y vlogs; (2) una canalización de entrenamiento en dos etapas que extiende los VLMs con ajuste fino supervisado de cadena de pensamiento (CoT-SFT) y aprendizaje por refuerzo (RL); y (3) una infraestructura de entrenamiento para RL en videos largos, denominada Paralelismo de Secuencia de Refuerzo Multimodal (MR-SP), que incorpora paralelismo de secuencia y un motor basado en vLLM optimizado para videos largos, utilizando incrustaciones de video en caché para un despliegue y prefilling eficientes. En los experimentos, LongVILA-R1-7B logra un rendimiento sólido en benchmarks de preguntas y respuestas sobre videos largos como VideoMME. También supera a Video-R1-7B e incluso iguala a Gemini-1.5-Pro en razonamiento temporal, razonamiento de objetivos y propósitos, razonamiento espacial y razonamiento de trama en nuestro benchmark LongVideo-Reason-eval. Notablemente, nuestro sistema MR-SP alcanza una aceleración de hasta 2.1x en el entrenamiento de RL para videos largos. LongVILA-R1 demuestra ganancias consistentes en el rendimiento a medida que aumenta el número de fotogramas de video de entrada. LongVILA-R1 marca un paso firme hacia el razonamiento en videos largos en VLMs. Además, liberamos nuestro sistema de entrenamiento para disponibilidad pública, que soporta entrenamiento de RL en varias modalidades (video, texto y audio), varios modelos (series VILA y Qwen), e incluso modelos de generación de imágenes y videos. En un solo nodo A100 (8 GPUs), soporta entrenamiento de RL en videos de una hora de duración (por ejemplo, 3,600 fotogramas / alrededor de 256k tokens).
Si bien el ajuste fino de modelos de difusión ofrece un enfoque poderoso para personalizar modelos preentrenados y generar objetos específicos, frecuentemente sufre de sobreajuste cuando las muestras de entrenamiento son limitadas, lo que compromete tanto la capacidad de generalización como la diversidad de las salidas. Este artículo aborda la tarea desafiante pero de mayor impacto de adaptar un modelo de difusión utilizando solo una imagen de concepto, ya que la personalización con una sola imagen tiene el mayor potencial práctico. Presentamos T-LoRA, un marco de Adaptación de Bajo Rango Dependiente del Paso Temporal, diseñado específicamente para la personalización de modelos de difusión. En nuestro trabajo demostramos que los pasos temporales más altos en la difusión son más propensos al sobreajuste que los más bajos, lo que requiere una estrategia de ajuste fino sensible al paso temporal. T-LoRA incorpora dos innovaciones clave: (1) una estrategia de ajuste fino dinámico que ajusta las actualizaciones restringidas por rango según los pasos temporales de difusión, y (2) una técnica de parametrización de pesos que garantiza la independencia entre los componentes del adaptador mediante inicialización ortogonal. Experimentos extensos muestran que T-LoRA y sus componentes individuales superan a LoRA estándar y otras técnicas de personalización de modelos de difusión. Logran un equilibrio superior entre la fidelidad al concepto y la alineación con el texto, destacando el potencial de T-LoRA en escenarios con datos limitados y recursos restringidos. El código está disponible en https://github.com/ControlGenAI/T-LoRA.
Modelos como OpenAI-o3 son pioneros en el razonamiento visual fundamentado al hacer referencia dinámica a regiones visuales, similar a cómo los humanos "piensan con imágenes". Sin embargo, no existe un punto de referencia para evaluar estas capacidades de manera integral. Para cerrar esta brecha, proponemos TreeBench (Traceable Evidence Evaluation Benchmark), un punto de referencia diagnóstico construido sobre tres principios: (1) percepción visual enfocada en objetivos sutiles en escenas complejas, (2) evidencia rastreable mediante evaluación de cuadros delimitadores, y (3) razonamiento de segundo orden para probar interacciones de objetos y jerarquías espaciales más allá de la simple localización de objetos. Priorizando imágenes con objetos densos, inicialmente muestreamos 1,000 imágenes de alta calidad de SA-1B e incorporamos a ocho expertos en LMM para anotar manualmente preguntas, opciones candidatas y respuestas para cada imagen. Después de tres etapas de control de calidad, TreeBench consta de 405 pares desafiantes de preguntas y respuestas visuales, donde incluso los modelos más avanzados tienen dificultades con este punto de referencia, ya que ninguno alcanza el 60% de precisión, por ejemplo, OpenAI-o3 solo obtiene un 54.87. Además, presentamos TreeVGR (Traceable Evidence Enhanced Visual Grounded Reasoning), un paradigma de entrenamiento para supervisar la localización y el razonamiento conjuntamente con aprendizaje por refuerzo, permitiendo localizaciones precisas y rutas de razonamiento explicables. Inicializado desde Qwen2.5-VL-7B, mejora V* Bench (+16.8), MME-RealWorld (+12.6) y TreeBench (+13.4), demostrando que la rastreabilidad es clave para avanzar en el razonamiento fundamentado en visión. El código está disponible en https://github.com/Haochen-Wang409/TreeVGR.
Los recientes avances en los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han demostrado capacidades notables para integrar visión y lenguaje en tareas de razonamiento complejo. Mientras que la mayoría de los benchmarks existentes evalúan los modelos en entornos fuera de línea con un conjunto fijo de entradas previamente registradas, presentamos OST-Bench, un benchmark diseñado para evaluar la comprensión Espacio-Temporal en línea desde la perspectiva de un agente que explora activamente una escena. El aspecto en línea enfatiza la necesidad de procesar y razonar sobre observaciones adquiridas de manera incremental, mientras que el componente Espacio-Temporal requiere integrar las entradas visuales actuales con la memoria histórica para apoyar el razonamiento espacial dinámico. OST-Bench refleja mejor los desafíos de la percepción corporeizada en el mundo real. Construido sobre una canalización eficiente de recopilación de datos, OST-Bench consta de 1.4k escenas y 10k pares de preguntas-respuestas recopilados de ScanNet, Matterport3D y ARKitScenes. Evaluamos varios MLLMs líderes en OST-Bench y observamos que no alcanzan el rendimiento esperado en tareas que requieren razonamiento espacio-temporal complejo. En el entorno en línea, su precisión disminuye a medida que se extiende el horizonte de exploración y crece la memoria. A través de un análisis experimental adicional, identificamos patrones comunes de errores en los modelos y encontramos que tanto las demandas de razonamiento espacial basado en pistas complejas como los requisitos de recuperación de memoria a largo plazo reducen significativamente el rendimiento de los modelos en dos ejes separados, destacando los desafíos centrales que deben abordarse para mejorar el razonamiento corporeizado en línea. Para fomentar la investigación y el desarrollo en este campo, nuestros códigos, conjunto de datos y benchmark están disponibles. Nuestra página del proyecto es: https://rbler1234.github.io/OSTBench.github.io/
Los modelos de lenguaje de gran escala (LLMs) para video logran una comprensión sólida de los videos al aprovechar un gran número de tokens espacio-temporales, pero sufren de un escalado computacional cuadrático con respecto al número de tokens. Para abordar este problema, proponemos un método de fusión de tokens espacio-temporales sin necesidad de entrenamiento, denominado STTM. Nuestra idea clave es explotar la redundancia local espacial y temporal en los datos de video, la cual ha sido pasada por alto en trabajos anteriores. STTM primero transforma cada fotograma en tokens espaciales multi-granulares utilizando una búsqueda de grueso a fino sobre una estructura de árbol cuaternario, luego realiza una fusión dirigida por pares a lo largo de la dimensión temporal. Este enfoque de fusión descompuesta supera a los métodos existentes de reducción de tokens en seis benchmarks de preguntas y respuestas sobre videos. Notablemente, STTM logra una aceleración de 2 veces con solo una caída del 0.5% en precisión bajo un presupuesto del 50% de tokens, y una aceleración de 3 veces con apenas un 2% de caída bajo un presupuesto del 30%. Además, STTM es independiente de la consulta, lo que permite la reutilización de la caché KV entre diferentes preguntas para el mismo video. La página del proyecto está disponible en https://www.jshyun.me/projects/sttm.
Los LLM se están implementando cada vez más como agentes, sistemas capaces de planificar, razonar y llamar dinámicamente a herramientas externas. Sin embargo, en el razonamiento visual, los enfoques anteriores siguen estando limitados en gran medida por flujos de trabajo predefinidos y conjuntos de herramientas estáticos. En este informe, presentamos PyVision, un marco interactivo y de múltiples turnos que permite a los MLLM generar, ejecutar y refinar de manera autónoma herramientas basadas en Python adaptadas a la tarea en cuestión, desbloqueando una resolución de problemas flexible e interpretable. Desarrollamos una taxonomía de las herramientas creadas por PyVision y analizamos su uso en un conjunto diverso de benchmarks. Cuantitativamente, PyVision logra mejoras consistentes en el rendimiento, aumentando GPT-4.1 en un +7.8% en V* y Claude-4.0-Sonnet en un +31.1% en VLMsAreBlind-mini. Estos resultados apuntan a un cambio más amplio: las herramientas dinámicas permiten a los modelos no solo usar herramientas, sino inventarlas, avanzando hacia un razonamiento visual más agentivo.
Los videos representan inherentemente proyecciones 2D de un mundo 3D dinámico. Sin embargo, nuestro análisis sugiere que los modelos de difusión de video entrenados únicamente con datos de video sin procesar a menudo no logran capturar una estructura geométricamente significativa en sus representaciones aprendidas. Para cerrar esta brecha entre los modelos de difusión de video y la naturaleza 3D subyacente del mundo físico, proponemos Geometry Forcing, un método simple pero efectivo que fomenta que los modelos de difusión de video internalicen representaciones latentes en 3D. Nuestra idea clave es guiar las representaciones intermedias del modelo hacia una estructura consciente de la geometría alineándolas con características de un modelo de base geométrica preentrenado. Para ello, introducimos dos objetivos de alineación complementarios: Alineación Angular, que impone consistencia direccional mediante similitud coseno, y Alineación de Escala, que preserva información relacionada con la escala al regresar características geométricas no normalizadas a partir de representaciones de difusión normalizadas. Evaluamos Geometry Forcing en tareas de generación de video condicionadas tanto por la vista de la cámara como por la acción. Los resultados experimentales demuestran que nuestro método mejora sustancialmente la calidad visual y la consistencia 3D en comparación con los métodos de referencia. Página del proyecto: https://GeometryForcing.github.io.
En este artículo, presentamos LangSplatV2, que logra el splatting de características de alta dimensión a 476.2 FPS y consultas de texto de vocabulario abierto en 3D a 384.6 FPS para imágenes de alta resolución, proporcionando una aceleración de 42 veces y un aumento de 47 veces sobre LangSplat, respectivamente, junto con una precisión de consulta mejorada. LangSplat emplea Gaussian Splatting para incrustar características de lenguaje CLIP 2D en 3D, mejorando significativamente la velocidad y aprendiendo un campo de lenguaje 3D preciso con semántica SAM. Tales avances en los campos de lenguaje 3D son cruciales para aplicaciones que requieren interacción de lenguaje dentro de escenas complejas. Sin embargo, LangSplat aún no logra un rendimiento de inferencia en tiempo real (8.2 FPS), incluso con GPUs A100 avanzadas, lo que limita severamente su aplicación más amplia. En este artículo, primero realizamos un análisis detallado del tiempo de LangSplat, identificando al decodificador pesado como el principal cuello de botella de velocidad. Nuestra solución, LangSplatV2, asume que cada Gaussiana actúa como un código disperso dentro de un diccionario global, lo que lleva al aprendizaje de un campo de coeficientes dispersos en 3D que elimina por completo la necesidad de un decodificador pesado. Al aprovechar esta dispersión, proponemos además un método eficiente de splatting de coeficientes dispersos con optimización CUDA, renderizando mapas de características de alta dimensión con alta calidad mientras incurre solo en el costo de tiempo de splatting de una característica de ultra baja dimensión. Nuestros resultados experimentales demuestran que LangSplatV2 no solo logra una precisión de consulta mejor o competitiva, sino que también es significativamente más rápido. Los códigos y demostraciones están disponibles en nuestra página del proyecto: https://langsplat-v2.github.io.
A pesar del progreso significativo que se ha logrado en los modelos generativos de video, los métodos más avanzados actualmente solo pueden producir videos que duran entre 5 y 16 segundos, a menudo etiquetados como "videos de formato largo". Además, los videos que superan los 16 segundos tienen dificultades para mantener apariencias consistentes de los personajes y diseños de escenas a lo largo de la narrativa. En particular, los videos largos con múltiples sujetos aún no logran preservar la consistencia de los personajes y la coherencia del movimiento. Si bien algunos métodos pueden generar videos de hasta 150 segundos de duración, a menudo sufren de redundancia de fotogramas y baja diversidad temporal. Trabajos recientes han intentado producir videos de formato largo que incluyen múltiples personajes, coherencia narrativa y detalles de alta fidelidad. Hemos estudiado exhaustivamente 32 artículos sobre generación de video para identificar componentes arquitectónicos clave y estrategias de entrenamiento que consistentemente producen estas cualidades. También construimos una taxonomía novedosa y exhaustiva de los métodos existentes y presentamos tablas comparativas que categorizan los artículos según sus diseños arquitectónicos y características de rendimiento.
¿Puede una red neuronal preentrenada adaptar su arquitectura a diferentes entradas sin necesidad de ajuste fino? ¿Necesitamos todas las capas para tareas simples, y son adecuadas para tareas desafiantes? Descubrimos que las capas de un modelo de lenguaje grande (LLM) preentrenado pueden manipularse como módulos separados para construir un modelo mejor e incluso más superficial personalizado para cada muestra de prueba. En particular, cada capa del modelo preentrenado puede omitirse/podarse o repetirse múltiples veces como redes neuronales recurrentes (RNN), y apilarse con otras en órdenes arbitrarios, generando una cadena-de-capas (CoLa) por muestra. Este espacio composicional amplía enormemente el alcance de trabajos existentes sobre módulos preentrenados en bucle/recurrentes, poda de capas o redes de salida temprana. Desarrollamos un protocolo de Búsqueda de Árbol de Monte Carlo (MCTS) para explorar e identificar la CoLa óptima para cada muestra en benchmarks de razonamiento matemático y de sentido común. En comparación con un modelo estático de profundidad fija, CoLa permite rutas cortas (pensamiento rápido), recurrencia de la(s) misma(s) capa(s) (pensamiento lento) y la combinación de ambos, ofreciendo arquitecturas más flexibles y dinámicas para diferentes entradas. Realizamos un análisis extenso de la CoLa optimizada por MCTS, lo que lleva a dos hallazgos clave: (1) Para >75% de las muestras con predicciones correctas por el LLM original, podemos encontrar CoLa más cortas, sugiriendo un gran espacio para mejorar la eficiencia de inferencia; (2) Para >60% de las muestras con predicciones originalmente incorrectas, podemos identificar CoLa que logran predicciones correctas, sugiriendo un gran espacio de mejora de rendimiento. Nuestros resultados destacan las limitaciones de usar una arquitectura fija de LLMs preentrenados para inferencia en diferentes muestras y allanan el camino para desbloquear el poder de generalización de la adaptación de profundidad en tiempo de prueba.
Obtener representaciones visuales compactas y conscientes del tiempo a partir de escenas dinámicas es esencial para la ejecución exitosa de tareas secuenciales de comprensión de escenas, como el seguimiento visual y la manipulación robótica. En este artículo, presentamos Token Bottleneck (ToBo), una canalización de aprendizaje autosupervisado simple pero intuitiva que comprime una escena en un token de cuello de botella y predice la escena subsiguiente utilizando parches mínimos como pistas. La canalización ToBo facilita el aprendizaje de representaciones secuenciales de escenas al codificar de manera conservadora la escena de referencia en un token de cuello de botella compacto durante el paso de compresión. En el paso de expansión, guiamos al modelo para capturar dinámicas temporales al predecir la escena objetivo utilizando el token de cuello de botella junto con algunos parches objetivo como pistas. Este diseño fomenta que la arquitectura visual incorpore dependencias temporales, permitiendo así la comprensión de transiciones dinámicas entre escenas. Experimentos exhaustivos en diversas tareas secuenciales, incluyendo la propagación de etiquetas en video y la manipulación robótica en entornos simulados, demuestran la superioridad de ToBo sobre los métodos de referencia. Además, la implementación de nuestro modelo preentrenado en robots físicos confirma su robustez y efectividad en entornos del mundo real. Validamos además la escalabilidad de ToBo en diferentes escalas de modelos.
El concepto de "bullshit", tal como lo conceptualizó el filósofo Harry Frankfurt, se refiere a declaraciones realizadas sin tener en cuenta su valor de verdad. Si bien trabajos anteriores han explorado la alucinación y la adulación en los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés), proponemos el "machine bullshit" como un marco conceptual general que permite a los investigadores caracterizar el fenómeno más amplio de la pérdida emergente de veracidad en los LLM y arrojar luz sobre sus mecanismos subyacentes. Introducimos el Índice de Bullshit, una métrica novedosa que cuantifica la indiferencia de los LLM hacia la verdad, y proponemos una taxonomía complementaria que analiza cuatro formas cualitativas de bullshit: retórica vacía, evasivas, palabras ambiguas y afirmaciones no verificadas. Realizamos evaluaciones empíricas en el conjunto de datos Marketplace, el conjunto de datos de Neutralidad Política y nuestro nuevo benchmark BullshitEval (2,400 escenarios que abarcan 100 asistentes de IA), diseñado explícitamente para evaluar el machine bullshit. Nuestros resultados demuestran que el ajuste fino de los modelos con aprendizaje por refuerzo a partir de retroalimentación humana (RLHF, por sus siglas en inglés) exacerba significativamente el bullshit, y que las indicaciones de cadena de pensamiento (CoT, por sus siglas en inglés) en tiempo de inferencia amplifican notablemente formas específicas de bullshit, particularmente la retórica vacía y las evasivas. También observamos un bullshit prevalente en contextos políticos, con las palabras ambiguas como la estrategia dominante. Nuestros hallazgos resaltan desafíos sistemáticos en la alineación de la IA y proporcionan nuevas perspectivas hacia un comportamiento más veraz en los LLM.
A pesar del progreso increíble en los modelos de lenguaje (LMs) en los últimos años, en gran parte resultado de alejarse de modelos especializados diseñados para tareas específicas hacia modelos generales basados en arquitecturas potentes (por ejemplo, el Transformer) que aprenden todo a partir de datos brutos, los pasos de preprocesamiento como la tokenización siguen siendo una barrera para los verdaderos modelos de base de extremo a extremo. Introducimos una colección de nuevas técnicas que permiten un mecanismo de fragmentación dinámica que aprende automáticamente estrategias de segmentación dependientes del contenido y del contexto, aprendidas conjuntamente con el resto del modelo. Incorporar esto en una red jerárquica explícita (H-Net) permite reemplazar la pipeline (implícitamente jerárquica) de tokenización-LM-detokenización con un único modelo aprendido completamente de extremo a extremo. Cuando se igualan en términos de cómputo y datos, una H-Net con una etapa de jerarquía que opera a nivel de byte supera a un modelo de lenguaje Transformer fuerte que opera sobre tokens BPE. Iterar la jerarquía en múltiples etapas aumenta aún más su rendimiento al modelar múltiples niveles de abstracción, demostrando un escalamiento significativamente mejor con los datos y equiparando a un Transformer basado en tokens del doble de su tamaño. Las H-Nets preentrenadas en inglés muestran una robustez a nivel de carácter significativamente mayor y aprenden cualitativamente estrategias de fragmentación dependientes de los datos sin heurísticas ni supervisión explícita. Finalmente, la mejora de la H-Net sobre las pipelines tokenizadas se incrementa aún más en lenguajes y modalidades con heurísticas de tokenización más débiles, como el chino y el código, o secuencias de ADN (casi 4 veces más eficiencia en datos que las líneas base), mostrando el potencial de los verdaderos modelos de extremo a extremo que aprenden y escalan mejor a partir de datos no procesados.
La mayoría de los modelos visual-lingüísticos (VLMs) más avanzados parecen estar limitados por la separabilidad lineal de sus incrustaciones visuales en tareas de razonamiento abstracto. Este trabajo investiga este "cuello de botella de razonamiento lineal" mediante la introducción del Techo de Separabilidad Lineal (LSC), que mide el rendimiento de un clasificador lineal simple sobre las incrustaciones visuales de un VLM. Descubrimos que este cuello de botella es generalizado y no se debe a una percepción deficiente, sino a fallos en las vías de razonamiento del modelo lingüístico. Demostramos que se trata de un problema de alineación solucionable. Sin embargo, la intervención requerida depende de la tarea: activar vías existentes es suficiente para conceptos semánticos, mientras que el razonamiento relacional complejo requiere adaptar los pesos centrales del modelo. Utilizando el ajuste posfijo como control metodológico, encontramos evidencia sólida de la existencia de potentes vías de razonamiento latentes dentro de los VLMs. No obstante, para tareas relacionales complejas que requieren una adaptación más profunda, mejorar explícitamente la calidad de la representación hace que el modelo falle en nuevos formatos de instrucciones, a pesar de que sus incrustaciones permanezcan bien separadas. En última instancia, este trabajo proporciona una nueva perspectiva para el análisis de los VLMs, mostrando que un razonamiento robusto es cuestión de una alineación específica, no simplemente de una mejora en el aprendizaje de representaciones.
Los códecs de audio neuronales y los autocodificadores han surgido como modelos versátiles para la compresión de audio, transmisión, extracción de características y generación de espacios latentes. Sin embargo, una limitación clave es que la mayoría se entrenan para maximizar la fidelidad de reconstrucción, a menudo descuidando la estructura latente específica necesaria para un rendimiento óptimo en diversas aplicaciones posteriores. Proponemos un marco simple y posterior para abordar esto mediante la modificación del cuello de botella de un autocodificador preentrenado. Nuestro método introduce un "Re-Cuello de Botella", un cuello de botella interno entrenado exclusivamente mediante pérdidas en el espacio latente para inculcar una estructura definida por el usuario. Demostramos la efectividad del marco en tres experimentos. Primero, imponemos un orden en los canales latentes sin sacrificar la calidad de reconstrucción. Segundo, alineamos los latentes con incrustaciones semánticas, analizando el impacto en el modelado de difusión posterior. Tercero, introducimos equivariancia, asegurando que una operación de filtrado en la forma de onda de entrada corresponda directamente a una transformación específica en el espacio latente. En última instancia, nuestro marco de Re-Cuello de Botella ofrece una forma flexible y eficiente de adaptar las representaciones de los modelos de audio neuronales, permitiéndoles cumplir sin problemas las diversas demandas de diferentes aplicaciones con un entrenamiento adicional mínimo.
El paradigma predominante para escalar modelos de lenguaje grandes (LLMs) implica un entrenamiento monolítico de extremo a extremo, un proceso intensivo en recursos que carece de flexibilidad. Este artículo explora un enfoque alternativo y constructivo para el desarrollo de modelos, basado en la fundación de incrustaciones de entrada determinísticas y no entrenables. En trabajos previos [1], establecimos que el razonamiento semántico de alto nivel puede emerger en Transformers utilizando incrustaciones congeladas derivadas de la estructura visual de los glifos Unicode. Aquí, demostramos que este sustrato representacional fijo actúa como un "puerto de acoplamiento" universal, permitiendo dos paradigmas potentes y eficientes de escalamiento: la composición modular sin fisuras y el crecimiento progresivo capa por capa. Primero, mostramos que modelos especializados entrenados en conjuntos de datos dispares (por ejemplo, texto en ruso y chino) pueden fusionarse en un único modelo Mixture-of-Experts (MoE) más capaz, después del entrenamiento, sin modificaciones arquitectónicas. Esto se logra simplemente promediando sus logits de salida. El modelo MoE resultante exhibe mejoras inmediatas en el rendimiento en benchmarks de razonamiento como MMLU, superando a sus expertos constituyentes sin olvido catastrófico. Segundo, introducimos una metodología de entrenamiento constructivo capa por capa, donde un Transformer profundo se "hace crecer" apilando y entrenando progresivamente una capa a la vez. Este método demuestra una convergencia estable y una clara correlación entre la profundidad del modelo y la emergencia de habilidades de razonamiento complejo, como las requeridas para SQuAD. Nuestros hallazgos sugieren un cambio de paradigma desde la optimización monolítica hacia un modelo más biológico o constructivo de desarrollo de IA, donde la complejidad se construye de manera incremental y los módulos pueden componerse libremente. Esto abre nuevas vías para un escalamiento eficiente en recursos, aprendizaje continuo y un ecosistema más democratizado para construir sistemas de IA potentes. Liberamos todo el código y modelos para facilitar investigaciones futuras.
Los rápidos avances de los agentes de IA han avivado la ambición de largo plazo de aprovecharlos para acelerar el descubrimiento científico. Lograr este objetivo requiere una comprensión profunda de las fronteras del conocimiento humano. En este sentido, el Examen Final de la Humanidad (HLE, por sus siglas en inglés) proporciona un punto de referencia excepcionalmente desafiante para evaluar a los agentes de IA científicos. En este trabajo, nuestro objetivo es construir la arquitectura fundamental para agentes de propósito general y validar sus capacidades mediante un rendimiento líder en el HLE. Para lograrlo, presentamos X-Master, un agente de razonamiento aumentado con herramientas diseñado para emular a los investigadores humanos al interactuar de manera flexible con herramientas externas durante su proceso de razonamiento. Este agente, guiado por la conceptualización del código como un lenguaje de interacción, puede aprovechar de manera flexible las bibliotecas integradas de Python y nuestras herramientas personalizadas para mejorar el razonamiento. Además, escalamos sus capacidades a través de X-Masters, un flujo de trabajo de agentes dispersos y apilados que mejora sistemáticamente la amplitud y profundidad del razonamiento. Nuestra solución de código abierto, X-Masters, establece un nuevo récord de vanguardia en el HLE con una puntuación del 32,1%, superando a OpenAI y a Google Deep Research (26,6% y 26,9%) y convirtiéndose en el primero en superar el umbral del 30%. Este trabajo nos permite obtener una comprensión más profunda de la resolución de tareas complejas y acumular una experiencia valiosa que puede informar futuros avances, guiando el entrenamiento de modelos posteriores.
Comprender el locus de la representación semántica en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) es crucial para la interpretabilidad y la innovación arquitectónica. El paradigma dominante postula que los embeddings de entrada entrenables sirven como "vectores de significado" fundamentales. Este artículo desafía esa perspectiva. Construimos modelos Transformer en los que la capa de embeddings está completamente congelada, con vectores derivados no de datos, sino de la estructura visual de los glifos Unicode. Estos embeddings visuales precalculados y no semánticos permanecen fijos durante todo el entrenamiento. Nuestro método es compatible con cualquier tokenizador, incluido un nuevo tokenizador centrado en Unicode que introducimos para garantizar la cobertura universal de texto. A pesar de la ausencia de embeddings entrenables inicializados semánticamente, nuestros modelos convergen, generan texto coherente y, críticamente, superan a modelos arquitectónicamente idénticos con embeddings entrenables en el benchmark de razonamiento MMLU. Atribuimos esto a la "interferencia representacional" en los modelos convencionales, donde la capa de embeddings está sobrecargada con el aprendizaje tanto de características estructurales como semánticas. Nuestros resultados indican que la semántica de alto nivel no es inherente a los embeddings de entrada, sino una propiedad emergente de la arquitectura composicional del Transformer y la escala de datos. Esto redefine el papel de los embeddings, pasando de ser contenedores de significado a primitivos estructurales. Liberamos todo el código y los modelos para fomentar investigaciones futuras.