Artículos de investigación en IA seleccionados diariamente con traducciones
El rendimiento de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) está fundamentalmente determinado por la información contextual proporcionada durante la inferencia. Este estudio introduce la Ingeniería de Contexto, una disciplina formal que trasciende el diseño simple de prompts para abarcar la optimización sistemática de las cargas de información para los LLMs. Presentamos una taxonomía exhaustiva que descompone la Ingeniería de Contexto en sus componentes fundamentales y las implementaciones sofisticadas que los integran en sistemas inteligentes. Primero examinamos los componentes fundamentales: recuperación y generación de contexto, procesamiento de contexto y gestión de contexto. Luego exploramos cómo estos componentes se integran arquitectónicamente para crear implementaciones de sistemas avanzadas: generación aumentada por recuperación (RAG), sistemas de memoria y razonamiento integrado con herramientas, y sistemas multiagente. A través de este análisis sistemático de más de 1300 artículos de investigación, nuestro estudio no solo establece una hoja de ruta técnica para el campo, sino que también revela una brecha crítica de investigación: existe una asimetría fundamental entre las capacidades de los modelos. Si bien los modelos actuales, potenciados por la ingeniería de contexto avanzada, demuestran una notable competencia en la comprensión de contextos complejos, muestran limitaciones pronunciadas en la generación de salidas igualmente sofisticadas y de largo formato. Abordar esta brecha es una prioridad definitoria para la investigación futura. En última instancia, este estudio proporciona un marco unificado tanto para investigadores como para ingenieros que avanzan en la IA consciente del contexto.
Los avances recientes en los modelos de visión y lenguaje (VLMs) han mejorado el rendimiento al aumentar el número de tokens visuales, que suelen ser significativamente más largos que los tokens de texto. Sin embargo, observamos que la mayoría de los escenarios del mundo real no requieren un número tan extenso de tokens visuales. Aunque el rendimiento disminuye significativamente en un pequeño subconjunto de tareas relacionadas con OCR, los modelos aún funcionan con precisión en la mayoría de las otras tareas generales de VQA (Visual Question Answering) con solo 1/4 de la resolución. Por lo tanto, proponemos procesar dinámicamente muestras distintas con diferentes resoluciones y presentamos un nuevo paradigma para la compresión de tokens visuales, denominado VisionThink. Este comienza con una imagen reducida en resolución y decide de manera inteligente si es suficiente para resolver el problema. De lo contrario, el modelo podría generar un token especial para solicitar la imagen de mayor resolución. En comparación con los métodos existentes de VLM eficiente que comprimen tokens utilizando ratios de poda o umbrales fijos, VisionThink decide autónomamente si comprimir los tokens caso por caso. Como resultado, demuestra una fuerte capacidad de comprensión visual detallada en tareas relacionadas con OCR, mientras ahorra una cantidad sustancial de tokens visuales en tareas más simples. Adoptamos el aprendizaje por refuerzo y proponemos la estrategia LLM-as-Judge para aplicar con éxito RL (Reinforcement Learning) a tareas generales de VQA. Además, diseñamos cuidadosamente una función de recompensa y un mecanismo de penalización para lograr una proporción estable y razonable de llamadas de redimensionamiento de imagen. Experimentos extensos demuestran la superioridad, eficiencia y efectividad de nuestro método. Nuestro código está disponible en https://github.com/dvlab-research/VisionThink.
Presentamos pi^3, una red neuronal de avance que ofrece un enfoque novedoso para la reconstrucción de geometría visual, rompiendo la dependencia de una vista de referencia fija convencional. Los métodos anteriores suelen anclar sus reconstrucciones a un punto de vista designado, un sesgo inductivo que puede llevar a inestabilidad y fallos si la referencia no es óptima. En contraste, pi^3 emplea una arquitectura completamente permutación-equivariante para predecir poses de cámara invariantes a transformaciones afines y mapas de puntos locales invariantes a escala, sin necesidad de marcos de referencia. Este diseño hace que nuestro modelo sea intrínsecamente robusto al orden de entrada y altamente escalable. Estas ventajas permiten que nuestro enfoque simple y libre de sesgos alcance un rendimiento de vanguardia en una amplia gama de tareas, incluyendo la estimación de poses de cámara, la estimación de profundidad monocular/en video y la reconstrucción de mapas de puntos densos. El código y los modelos están disponibles públicamente.
La generalización de longitud, la capacidad de resolver problemas con secuencias más largas que las observadas durante el entrenamiento, representa un desafío fundamental para los modelos de lenguaje grandes (LLM) basados en Transformers. Aunque los estudios existentes se han centrado principalmente en enfoques basados en datos para operaciones aritméticas y tareas de manipulación simbólica, estos enfoques tienden a ser específicos para cada tarea, con un rendimiento general limitado. Para buscar una solución más general, este artículo se enfoca en un caso más amplio de problemas de razonamiento que son computables, es decir, problemas que los algoritmos pueden resolver y, por lo tanto, pueden ser resueltos por la Máquina de Turing. Desde esta perspectiva, este artículo propone el Aprendizaje por Imitación de la Máquina de Turing (TAIL, por sus siglas en inglés) para mejorar la capacidad de generalización de longitud de los LLM. TAIL sintetiza datos de cadena de pensamientos (CoT) que imitan el proceso de ejecución de una Máquina de Turing mediante programas informáticos, expandiendo linealmente los pasos de razonamiento en estados atómicos para mitigar el aprendizaje de atajos e incorporando un mecanismo explícito de recuperación de memoria para reducir las dificultades de acceso dinámico y de largo alcance a los datos en operaciones elementales. Para validar la confiabilidad y universalidad de TAIL, construimos un conjunto de datos sintéticos desafiante que cubre 8 clases de algoritmos y 18 tareas. Sin elementos adicionales, TAIL mejora significativamente la capacidad de generalización de longitud, así como el rendimiento de Qwen2.5-7B en diversas tareas utilizando únicamente datos sintéticos, superando métodos anteriores y DeepSeek-R1. Los resultados experimentales revelan que los conceptos clave de la Máquina de Turing, en lugar de los estilos de pensamiento, son indispensables para TAIL en la generalización de longitud, a través de los cuales el modelo exhibe comportamientos de lectura y escritura consistentes con las propiedades de la Máquina de Turing en sus capas de atención. Este trabajo proporciona una dirección prometedora para futuras investigaciones en el aprendizaje del razonamiento de LLM a partir de datos sintéticos.
La generación controlada de descripciones es esencial para una alineación multimodal precisa y el seguimiento de instrucciones, sin embargo, los modelos existentes a menudo carecen de control detallado y protocolos de evaluación confiables. Para abordar esta brecha, presentamos el Proyecto AnyCap, una solución integrada que abarca modelo, conjunto de datos y evaluación. Introducimos AnyCapModel (ACM), un marco ligero plug-and-play que mejora la controlabilidad de los modelos base existentes para la generación de descripciones omni-modales sin necesidad de reentrenar el modelo base. ACM reutiliza las descripciones originales de los modelos base mientras incorpora instrucciones del usuario y características modales para generar descripciones mejoradas. Para remediar la escasez de datos en la generación controlada de descripciones multimodales, construimos AnyCapDataset (ACD), que cubre tres modalidades, 28 tipos de instrucciones de usuario y 300.000 entradas de datos de alta calidad. Además, proponemos AnyCapEval, un nuevo punto de referencia que proporciona métricas de evaluación más confiables para la generación controlada de descripciones al desacoplar la precisión del contenido y la fidelidad estilística. ACM mejora notablemente la calidad de las descripciones en un conjunto diverso de modelos base en AnyCapEval. Destacadamente, ACM-8B aumenta las puntuaciones de contenido de GPT-4o en un 45% y las puntuaciones de estilo en un 12%, y también logra ganancias sustanciales en puntos de referencia ampliamente utilizados como MIA-Bench y VidCapBench.
Este artículo aborda el desafío de la síntesis de vistas de alta fidelidad de humanos utilizando vídeos de vistas escasas como entrada. Métodos anteriores resuelven el problema de la observación insuficiente aprovechando modelos de difusión 4D para generar vídeos desde nuevos puntos de vista. Sin embargo, los vídeos generados por estos modelos a menudo carecen de consistencia espacio-temporal, lo que degrada la calidad de la síntesis de vistas. En este trabajo, proponemos un novedoso proceso de desruido iterativo deslizante para mejorar la consistencia espacio-temporal del modelo de difusión 4D. Específicamente, definimos una cuadrícula latente en la que cada latente codifica la imagen, la pose de la cámara y la pose humana para un punto de vista y un momento determinados, luego desruidamos alternativamente la cuadrícula latente a lo largo de las dimensiones espacial y temporal con una ventana deslizante, y finalmente decodificamos los vídeos en los puntos de vista objetivo a partir de los latentes desruidados correspondientes. A través del deslizamiento iterativo, la información fluye suficientemente a través de la cuadrícula latente, permitiendo que el modelo de difusión obtenga un campo receptivo amplio y, por lo tanto, mejore la consistencia 4D de la salida, al mismo tiempo que hace que el consumo de memoria de la GPU sea asequible. Los experimentos en los conjuntos de datos DNA-Rendering y ActorsHQ demuestran que nuestro método es capaz de sintetizar vídeos de nuevas vistas de alta calidad y consistencia, superando significativamente a los enfoques existentes. Consulte nuestra página del proyecto para ver demostraciones interactivas y resultados en vídeo: https://diffuman4d.github.io/.
La Adaptación de Bajo Rango (LoRA, por sus siglas en inglés) se ha convertido en un estándar ampliamente adoptado para el ajuste fino eficiente en parámetros de modelos de lenguaje grandes (LLMs), reduciendo significativamente las demandas de memoria y computación. Sin embargo, persisten desafíos, como encontrar estrategias óptimas de inicialización o mitigar la sobreparametrización en la factorización de matrices de bajo rango. En este trabajo, proponemos un enfoque novedoso que aborda ambos desafíos simultáneamente dentro de un marco unificado. Nuestro método trata un conjunto de matrices LoRA de rango fijo como una variedad suave. Al considerar los adaptadores como elementos en esta variedad se elimina la sobreparametrización, mientras que determinar la dirección de la disminución más rápida de la pérdida a lo largo de la variedad proporciona la inicialización. Se presta especial atención para obtener una implementación numéricamente estable y computacionalmente eficiente de nuestro método, utilizando las mejores prácticas del álgebra lineal numérica y la optimización riemanniana. Los resultados experimentales en arquitecturas de LLM y modelos de difusión demuestran que RiemannLoRA mejora consistentemente tanto la velocidad de convergencia como el rendimiento final en comparación con LoRA estándar y sus modificaciones de vanguardia.
Generar animaciones faciales expresivas a partir de imágenes estáticas es una tarea desafiante. Los métodos anteriores que dependen de priores geométricos explícitos (por ejemplo, puntos de referencia faciales o 3DMM) a menudo presentan artefactos en la recreación cruzada y tienen dificultades para capturar emociones sutiles. Además, los enfoques existentes carecen de soporte para animaciones de múltiples personajes, ya que las características de control de diferentes individuos frecuentemente interfieren entre sí, complicando la tarea. Para abordar estos desafíos, proponemos FantasyPortrait, un marco basado en transformadores de difusión capaz de generar animaciones de alta fidelidad y ricas en emociones tanto para escenarios de un solo personaje como de múltiples personajes. Nuestro método introduce una estrategia de aprendizaje aumentada por expresiones que utiliza representaciones implícitas para capturar dinámicas faciales independientes de la identidad, mejorando la capacidad del modelo para representar emociones de gran detalle. Para el control de múltiples personajes, diseñamos un mecanismo de atención cruzada enmascarada que garantiza una generación de expresiones independiente pero coordinada, previniendo eficazmente la interferencia de características. Para avanzar en la investigación en esta área, proponemos el conjunto de datos Multi-Expr y ExprBench, que son conjuntos de datos y puntos de referencia específicamente diseñados para entrenar y evaluar animaciones de retratos de múltiples personajes. Experimentos extensos demuestran que FantasyPortrait supera significativamente a los métodos más avanzados tanto en métricas cuantitativas como en evaluaciones cualitativas, destacándose especialmente en contextos desafiantes de recreación cruzada y múltiples personajes. Nuestra página del proyecto es https://fantasy-amap.github.io/fantasy-portrait/.
El razonamiento espacial en un espacio 3D es fundamental para la cognición humana e indispensable para tareas encarnadas como la navegación y la manipulación. Sin embargo, los modelos de visión y lenguaje (VLMs) de última generación suelen tener dificultades con tareas tan simples como anticipar cómo se verá una escena después de un movimiento egocéntrico: perciben imágenes en 2D pero carecen de un modelo interno de dinámica 3D. Por ello, proponemos MindJourney, un marco de escalado en tiempo de prueba que dota a un VLM de esta capacidad faltante al acoplarlo a un modelo de mundo controlable basado en difusión de video. El VLM esboza iterativamente una trayectoria de cámara concisa, mientras que el modelo de mundo sintetiza la vista correspondiente en cada paso. Luego, el VLM razona sobre esta evidencia multivista recopilada durante la exploración interactiva. Sin necesidad de ajuste fino, nuestro MindJourney logra un aumento promedio de más del 8% en el punto de referencia representativo de razonamiento espacial SAT, demostrando que combinar VLMs con modelos de mundo para el escalado en tiempo de prueba ofrece una ruta simple y plug-and-play hacia un razonamiento 3D robusto. Además, nuestro método también mejora la inferencia en tiempo de prueba de VLMs entrenados mediante aprendizaje por refuerzo, lo que demuestra el potencial de nuestro método que utiliza modelos de mundo para el escalado en tiempo de prueba.
Presentamos AbGen, el primer punto de referencia diseñado para evaluar las capacidades de los LLM en el diseño de estudios de ablación para investigación científica. AbGen consta de 1,500 ejemplos anotados por expertos, derivados de 807 artículos de PLN. En este punto de referencia, los LLM tienen la tarea de generar diseños detallados de estudios de ablación para un módulo o proceso específico, basándose en el contexto de investigación proporcionado. Nuestra evaluación de LLM líderes, como DeepSeek-R1-0528 y o4-mini, destaca una brecha significativa en el rendimiento entre estos modelos y los expertos humanos en términos de la importancia, fidelidad y solidez de los diseños de estudios de ablación. Además, demostramos que los métodos actuales de evaluación automatizada no son confiables para nuestra tarea, ya que muestran una discrepancia significativa en comparación con la evaluación humana. Para investigar esto más a fondo, desarrollamos AbGen-Eval, un punto de referencia de meta-evaluación diseñado para evaluar la confiabilidad de los sistemas de evaluación automatizada comúnmente utilizados al medir el rendimiento de los LLM en nuestra tarea. Investigamos varios sistemas LLM-como-Juez en AbGen-Eval, proporcionando ideas para futuras investigaciones sobre el desarrollo de sistemas de evaluación basados en LLM más efectivos y confiables para tareas científicas complejas.
Presentamos Voxtral Mini y Voxtral Small, dos modelos multimodales de chat de audio. Voxtral está entrenado para comprender tanto audio hablado como documentos de texto, logrando un rendimiento de vanguardia en una amplia gama de benchmarks de audio, mientras mantiene sólidas capacidades con texto. Voxtral Small supera a varios modelos de código cerrado, siendo lo suficientemente pequeño como para ejecutarse localmente. Una ventana de contexto de 32K permite al modelo manejar archivos de audio de hasta 40 minutos de duración y conversaciones largas de múltiples turnos. También contribuimos con tres benchmarks para evaluar modelos de comprensión del habla en conocimiento y trivia. Ambos modelos Voxtral se publican bajo la licencia Apache 2.0.
Los Autoencoders Escasos (SAE, por sus siglas en inglés) han surgido como herramientas poderosas para interpretar las representaciones internas de los Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés), aunque a menudo no logran capturar características específicas de un dominio que no son prevalentes en sus corpus de entrenamiento. Este artículo introduce un enfoque de aprendizaje residual que aborda esta ceguera a características sin requerir un reentrenamiento completo. Proponemos entrenar un SAE secundario específicamente para modelar el error de reconstrucción de un SAE preentrenado en textos específicos de un dominio, capturando eficazmente las características omitidas por el modelo primario. Al sumar las salidas de ambos modelos durante la inferencia, demostramos mejoras significativas tanto en la entropía cruzada de los LLM como en las métricas de varianza explicada en múltiples dominios especializados. Nuestros experimentos muestran que este método incorpora de manera eficiente nuevos conocimientos de dominio en los SAE existentes, manteniendo su rendimiento en tareas generales. Este enfoque permite a los investigadores mejorar selectivamente la interpretabilidad de los SAE para dominios específicos de interés, abriendo nuevas posibilidades para la interpretabilidad mecanicista dirigida de los LLM.
Los modelos de lenguaje (LMs) son difíciles de adaptar a nuevas distribuciones de datos mediante un simple ajuste fino. Esto se debe a la rigidez de sus tokenizadores de subpalabras, que generalmente permanecen sin cambios durante la adaptación. Esta inflexibilidad a menudo conduce a una tokenización ineficiente, causando una fragmentación excesiva en dominios fuera de distribución, lenguajes no vistos o escrituras. En este trabajo, desarrollamos modelos de lenguaje a nivel de byte con tokenizadores aprendibles para hacer que la tokenización sea adaptable. Nuestros modelos incluyen un submódulo que aprende a predecir los límites entre la secuencia de bytes de entrada, codificándola en segmentos de longitud variable. Los métodos existentes sin tokenizador entrenan este predictor de límites utilizando una pérdida auxiliar que impone una tasa de compresión fija en todo el corpus de entrenamiento, introduciendo un nuevo tipo de rigidez. Proponemos FLEXITOKENS, un objetivo de entrenamiento simplificado que permite una flexibilidad significativamente mayor durante la adaptación. Evaluando en múltiples benchmarks multilingües, tareas morfológicamente diversas y dominios, demostramos que FLEXITOKENS reduce consistentemente la sobre-fragmentación de tokens y logra mejoras de hasta un 10\% en el rendimiento de tareas posteriores en comparación con tokenizadores de subpalabras y otros basados en gradientes. El código y los datos de nuestros experimentos se publicarán en https://github.com/owos/flexitokens.
La Interpolación de Fotogramas de Video (VFI, por sus siglas en inglés) tiene como objetivo predecir el fotograma intermedio I_n (utilizamos n para denotar el tiempo en los videos y evitar sobrecarga de notación con el paso de tiempo t en los modelos de difusión) basándose en dos fotogramas consecutivos vecinos I_0 e I_1. Enfoques recientes aplican modelos de difusión (tanto basados en imágenes como en video) en esta tarea y logran un rendimiento sólido. Sin embargo, los modelos de difusión basados en imágenes no pueden extraer información temporal y son relativamente ineficientes en comparación con métodos no basados en difusión. Los modelos de difusión basados en video pueden extraer información temporal, pero son demasiado grandes en términos de escala de entrenamiento, tamaño del modelo y tiempo de inferencia. Para mitigar estos problemas, proponemos el modelo de difusión Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation (TLB-VFI), un modelo de difusión basado en video eficiente. Al extraer información temporal rica de las entradas de video mediante nuestra propuesta de compuerta de ondículas 3D y un autoencoder consciente del tiempo, nuestro método logra una mejora del 20% en FID en los conjuntos de datos más desafiantes en comparación con los últimos modelos de difusión basados en imágenes de vanguardia (SOTA). Además, debido a la existencia de información temporal rica, nuestro método alcanza un rendimiento sólido mientras utiliza 3 veces menos parámetros. Esta reducción de parámetros resulta en una aceleración de 2.3x. Al incorporar guía de flujo óptico, nuestro método requiere 9000 veces menos datos de entrenamiento y logra más de 20 veces menos parámetros que los modelos de difusión basados en video. Los códigos y resultados están disponibles en nuestra página del proyecto: https://zonglinl.github.io/tlbvfi_page.
Los recientes avances en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han desbloqueado potentes capacidades de razonamiento multimodal, pero también han planteado nuevas preocupaciones de seguridad, particularmente cuando se enfrentan a entradas multimodales adversarias. Para mejorar la seguridad de los MLLMs durante la inferencia, presentamos una tecnología modular y adaptable de intervención en tiempo de inferencia, AutoSteer, sin necesidad de ajustar el modelo subyacente. AutoSteer incorpora tres componentes principales: (1) una nueva Puntuación de Conciencia de Seguridad (SAS, por sus siglas en inglés) que identifica automáticamente las distinciones más relevantes para la seguridad entre las capas internas del modelo; (2) un explorador de seguridad adaptativo entrenado para estimar la probabilidad de salidas tóxicas a partir de representaciones intermedias; y (3) una Cabezal de Rechazo ligero que interviene selectivamente para modular la generación cuando se detectan riesgos de seguridad. Los experimentos realizados en LLaVA-OV y Chameleon en diversos puntos de referencia críticos para la seguridad demuestran que AutoSteer reduce significativamente la Tasa de Éxito de Ataque (ASR, por sus siglas en inglés) para amenazas textuales, visuales y multimodales, manteniendo al mismo tiempo las capacidades generales. Estos hallazgos posicionan a AutoSteer como un marco práctico, interpretable y efectivo para el despliegue más seguro de sistemas de inteligencia artificial multimodal.
Presentamos Einstein Fields, una representación neuronal diseñada para comprimir simulaciones computacionalmente intensivas de relatividad numérica en cuatro dimensiones en pesos compactos de redes neuronales implícitas. Al modelar la métrica, que es el campo tensorial central de la relatividad general, Einstein Fields permiten la derivación de cantidades físicas mediante diferenciación automática. Sin embargo, a diferencia de los campos neuronales convencionales (por ejemplo, campos de distancia con signo, ocupación o radiancia), Einstein Fields son Campos Tensoriales Neuronales con la diferencia clave de que, al codificar la geometría del espaciotiempo de la relatividad general en representaciones de campos neuronales, las dinámicas emergen naturalmente como un subproducto. Einstein Fields muestran un potencial notable, incluyendo el modelado continuo del espaciotiempo en 4D, la independencia de mallas, la eficiencia en el almacenamiento, la precisión en las derivadas y la facilidad de uso. Abordamos estos desafíos en varios bancos de pruebas canónicos de la relatividad general y lanzamos una biblioteca de código abierto basada en JAX, allanando el camino para enfoques más escalables y expresivos en la relatividad numérica. El código está disponible en https://github.com/AndreiB137/EinFields.