Artículos de investigación en IA seleccionados diariamente con traducciones
El aprendizaje por refuerzo con recompensas verificables (RLVR, por sus siglas en inglés) ha demostrado ser prometedor para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes al aprender directamente a partir de recompensas basadas en resultados. Trabajos recientes de RLVR que operan en el entorno de cero evitan la supervisión en la etiquetación del proceso de razonamiento, pero aún dependen de colecciones manualmente curadas de preguntas y respuestas para el entrenamiento. La escasez de ejemplos de alta calidad producidos por humanos plantea preocupaciones sobre la escalabilidad a largo plazo de depender de la supervisión humana, un desafío ya evidente en el dominio del preentrenamiento de modelos de lenguaje. Además, en un futuro hipotético donde la inteligencia artificial supere a la humana, las tareas proporcionadas por humanos podrían ofrecer un potencial de aprendizaje limitado para un sistema superinteligente. Para abordar estas preocupaciones, proponemos un nuevo paradigma de RLVR llamado Absolute Zero, en el cual un único modelo aprende a proponer tareas que maximizan su propio progreso de aprendizaje y mejora el razonamiento al resolverlas, sin depender de ningún dato externo. Bajo este paradigma, presentamos el Absolute Zero Reasoner (AZR), un sistema que auto-evoluciona su currículo de entrenamiento y capacidad de razonamiento utilizando un ejecutor de código para validar tareas de razonamiento de código propuestas y verificar respuestas, sirviendo como una fuente unificada de recompensa verificable para guiar un aprendizaje abierto pero fundamentado. A pesar de ser entrenado completamente sin datos externos, AZR logra un rendimiento general de última generación (SOTA) en tareas de razonamiento matemático y de codificación, superando a los modelos existentes en el entorno de cero que dependen de decenas de miles de ejemplos humanos curados en el dominio. Además, demostramos que AZR puede aplicarse eficazmente en diferentes escalas de modelos y es compatible con diversas clases de modelos.
Los recientes avances en los Modelos de Recompensa (RMs) multimodales han mostrado un potencial significativo para proporcionar señales de recompensa que alineen los modelos de visión con las preferencias humanas. Sin embargo, los RMs actuales generalmente se limitan a ofrecer respuestas directas o a participar en procesos de razonamiento superficial con poca profundidad, lo que a menudo conduce a señales de recompensa inexactas. Postulamos que la incorporación de cadenas de pensamiento (CoT) explícitas y extensas en el proceso de razonamiento de la recompensa puede fortalecer significativamente su fiabilidad y robustez. Además, creemos que una vez que los RMs internalicen el razonamiento CoT, la precisión de sus respuestas directas también puede mejorar a través de capacidades de razonamiento implícito. Con este fin, este artículo propone UnifiedReward-Think, el primer modelo de recompensa multimodal unificado basado en CoT, capaz de realizar un razonamiento paso a paso y de cadena larga en múltiples dimensiones para tareas de recompensa tanto de comprensión como de generación visual. Específicamente, adoptamos un enfoque de ajuste fino por refuerzo basado en la exploración para elicitar e incentivar la capacidad latente de razonamiento complejo del modelo: (1) Primero utilizamos una pequeña cantidad de datos de preferencia de generación de imágenes para destilar el proceso de razonamiento de GPT-4o, que luego se utiliza para el arranque en frío del modelo, permitiéndole aprender el formato y la estructura del razonamiento CoT. (2) Posteriormente, aprovechando el conocimiento previo y las capacidades de generalización del modelo, preparamos datos de preferencia multimodal unificados a gran escala para elicitar el proceso de razonamiento del modelo en diversas tareas de visión. Durante esta fase, se retienen las salidas de razonamiento correctas para realizar un muestreo por rechazo y refinar el modelo (3), mientras que las muestras predichas incorrectas se utilizan finalmente para el ajuste fino por refuerzo basado en la Optimización de Política Relativa de Grupo (GRPO), permitiendo que el modelo explore diversas rutas de razonamiento y optimice para soluciones correctas y robustas. Experimentos exhaustivos en diversas tareas de recompensa visual demuestran la superioridad de nuestro modelo.
Presentamos Rapid Attention Distillation to Linear Attention Decoders at Scale (RADLADS), un protocolo para convertir rápidamente transformadores con atención softmax en modelos de decodificadores con atención lineal, junto con dos nuevas arquitecturas variantes de RWKV y modelos convertidos a partir de los populares modelos de código abierto Qwen2.5 en tamaños de 7B, 32B y 72B. Nuestro proceso de conversión requiere solo entre 350 y 700 millones de tokens, menos del 0.005% del total de tokens utilizados para entrenar los modelos maestros originales. Convertir a nuestro modelo de atención lineal de 72B cuesta menos de \$2,000 USD al precio actual, y la calidad en la inferencia se mantiene cercana a la del transformador original. Estos modelos logran un rendimiento de vanguardia en un conjunto de benchmarks estándar para modelos de atención lineal de su tamaño. Publicamos todos nuestros modelos en HuggingFace bajo la licencia Apache 2.0, con la excepción de nuestros modelos de 72B, que también están regidos por el Acuerdo de Licencia Qwen. Modelos disponibles en: https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102 Código de entrenamiento en: https://github.com/recursal/RADLADS-paper
La personalización de acciones implica generar videos en los que el sujeto realiza acciones dictadas por señales de control de entrada. Los métodos actuales utilizan la personalización guiada por poses o de movimiento global, pero están limitados por restricciones estrictas en la estructura espacial, como la disposición, el esqueleto y la consistencia del punto de vista, lo que reduce la adaptabilidad en diversos sujetos y escenarios. Para superar estas limitaciones, proponemos FlexiAct, que transfiere acciones desde un video de referencia a una imagen objetivo arbitraria. A diferencia de los métodos existentes, FlexiAct permite variaciones en la disposición, el punto de vista y la estructura esquelética entre el sujeto del video de referencia y la imagen objetivo, manteniendo la consistencia de la identidad. Lograr esto requiere un control preciso de la acción, adaptación de la estructura espacial y preservación de la consistencia. Para ello, introducimos RefAdapter, un adaptador ligero condicionado por imágenes que sobresale en la adaptación espacial y la preservación de la consistencia, superando a los métodos existentes en el equilibrio entre la consistencia de la apariencia y la flexibilidad estructural. Además, basándonos en nuestras observaciones, el proceso de eliminación de ruido muestra diferentes niveles de atención al movimiento (baja frecuencia) y a los detalles de apariencia (alta frecuencia) en diferentes pasos de tiempo. Por lo tanto, proponemos FAE (Extracción de Acciones Consciente de la Frecuencia), que, a diferencia de los métodos existentes que dependen de arquitecturas espacio-temporales separadas, logra directamente la extracción de acciones durante el proceso de eliminación de ruido. Los experimentos demuestran que nuestro método transfiere efectivamente acciones a sujetos con diversas disposiciones, esqueletos y puntos de vista. Publicamos nuestro código y pesos del modelo para apoyar investigaciones futuras en https://shiyi-zh0408.github.io/projectpages/FlexiAct/.
El creciente tamaño de contexto de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) presenta desafíos significativos para la inferencia eficiente, principalmente debido a las limitaciones de memoria y ancho de banda de las GPU. Presentamos RetroInfer, un sistema novedoso que reconceptualiza la caché clave-valor (KV) como un sistema de almacenamiento de vectores que aprovecha la dispersión inherente de la atención para acelerar la inferencia de LLMs con contextos largos. En su núcleo se encuentra el índice wave, un índice vectorial consciente de la atención (Attention-aWare VEctor index) que permite la recuperación eficiente y precisa de tokens críticos mediante técnicas como la aproximación de atención tripartita, la estimación de atención con límite de precisión y el clustering segmentado. Esto se complementa con el buffer wave, que coordina la ubicación de la caché KV y superpone el cálculo y la transferencia de datos entre la GPU y la CPU para mantener un alto rendimiento. A diferencia de métodos previos basados en dispersión que luchan con la selección de tokens y la coordinación de hardware, RetroInfer ofrece un rendimiento robusto sin comprometer la precisión del modelo. Los experimentos en benchmarks de contexto largo muestran una aceleración de hasta 4.5X sobre la atención completa dentro de los límites de memoria de la GPU y hasta 10.5X sobre los baselines de atención dispersa cuando la caché KV se extiende a la memoria de la CPU, todo ello manteniendo una precisión equivalente a la de la atención completa.
La serie Qwen ha surgido como una destacada familia de modelos de lenguaje de gran escala (LLMs) de código abierto, demostrando capacidades notables en tareas de comprensión del lenguaje natural. Con el reciente lanzamiento de Qwen3, que exhibe un rendimiento superior en diversos benchmarks, existe un creciente interés en implementar estos modelos de manera eficiente en entornos con recursos limitados. La cuantización de bajo bit presenta una solución prometedora, aunque su impacto en el rendimiento de Qwen3 sigue siendo poco explorado. Este estudio realiza una evaluación sistemática de la robustez de Qwen3 bajo diversos ajustes de cuantización, con el objetivo de descubrir tanto oportunidades como desafíos en la compresión de este modelo de vanguardia. Evaluamos rigurosamente 5 técnicas clásicas de cuantización posentrenamiento aplicadas a Qwen3, abarcando anchos de bit desde 1 a 8 bits, y medimos su efectividad en múltiples conjuntos de datos. Nuestros hallazgos revelan que, aunque Qwen3 mantiene un rendimiento competitivo en anchos de bit moderados, experimenta una degradación notable en tareas lingüísticas bajo precisión ultra baja, lo que subraya los desafíos persistentes en la compresión de LLMs. Estos resultados enfatizan la necesidad de investigaciones adicionales para mitigar la pérdida de rendimiento en escenarios de cuantización extrema. Anticipamos que este análisis empírico proporcionará insights prácticos para avanzar en métodos de cuantización adaptados a Qwen3 y futuros LLMs, mejorando finalmente su practicidad sin comprometer la precisión. Nuestro proyecto está disponible en https://github.com/Efficient-ML/Qwen3-Quantization y https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b.
Los recientes avances en la comprensión del fútbol impulsada por IA han demostrado un progreso rápido, aunque la investigación existente se centra principalmente en tareas aisladas o limitadas. Para cerrar esta brecha, proponemos un marco integral para la comprensión holística del fútbol. Específicamente, realizamos las siguientes contribuciones en este artículo: (i) construimos SoccerWiki, la primera base de conocimiento multimodal a gran escala sobre fútbol, integrando un amplio conocimiento del dominio sobre jugadores, equipos, árbitros y estadios para permitir un razonamiento basado en conocimiento; (ii) presentamos SoccerBench, el punto de referencia más grande y completo específico para fútbol, que incluye alrededor de 10K pares de preguntas-respuestas multimodales (texto, imagen, video) de opción múltiple en 13 tareas de comprensión distintas, curadas mediante pipelines automatizados y verificación manual; (iii) introducimos SoccerAgent, un novedoso sistema multiagente que descompone preguntas complejas sobre fútbol mediante un razonamiento colaborativo, aprovechando la experiencia del dominio de SoccerWiki y logrando un rendimiento robusto; (iv) evaluaciones y ablaciones exhaustivas que comparan los MLLMs más avanzados en SoccerBench, destacando la superioridad de nuestro sistema agente propuesto. Todos los datos y el código están disponibles públicamente en: https://jyrao.github.io/SoccerAgent/.
Al leer, a menudo tenemos información específica que nos interesa en un texto. Por ejemplo, podrías estar leyendo este artículo porque te interesan los LLM para los movimientos oculares en la lectura, el diseño experimental, o quizás solo te importa la pregunta: "¿pero funciona?". En términos más generales, en la vida cotidiana, las personas abordan los textos con cualquier cantidad de objetivos específicos que guían su comportamiento de lectura. En este trabajo, nos preguntamos, por primera vez, si los objetivos de lectura abiertos pueden ser decodificados automáticamente a partir de los movimientos oculares durante la lectura. Para abordar esta pregunta, introducimos tareas de clasificación y reconstrucción de objetivos, junto con marcos de evaluación, y utilizamos datos a gran escala de seguimiento ocular en lectura en inglés con cientos de tareas específicas de búsqueda de información. Desarrollamos y comparamos varios LLM multimodales discriminativos y generativos que combinan movimientos oculares y texto para la clasificación y reconstrucción de objetivos. Nuestros experimentos muestran un éxito considerable en ambas tareas, sugiriendo que los LLM pueden extraer información valiosa sobre los objetivos específicos de los lectores a partir de sus movimientos oculares.
El rápido avance de los modelos de difusión promete revolucionar la aplicación de las tecnologías de realidad virtual (VR) y realidad aumentada (AR), que generalmente requieren activos 4D a nivel de escena para la experiencia del usuario. Sin embargo, los modelos de difusión existentes se concentran principalmente en modelar escenas 3D estáticas o dinámicas a nivel de objetos, lo que limita su capacidad para ofrecer experiencias verdaderamente inmersivas. Para abordar este problema, proponemos HoloTime, un marco que integra modelos de difusión de video para generar videos panorámicos a partir de una única indicación o imagen de referencia, junto con un método de reconstrucción 4D de 360 grados que transforma de manera fluida el video panorámico generado en activos 4D, permitiendo una experiencia 4D completamente inmersiva para los usuarios. Específicamente, para adaptar los modelos de difusión de video a la generación de videos panorámicos de alta fidelidad, presentamos el conjunto de datos 360World, la primera colección integral de videos panorámicos adecuados para tareas de reconstrucción 4D de escenas. Con este conjunto de datos curado, proponemos Panoramic Animator, un modelo de difusión de imagen a video en dos etapas que puede convertir imágenes panorámicas en videos panorámicos de alta calidad. A continuación, presentamos Panoramic Space-Time Reconstruction, que aprovecha un método de estimación de profundidad espacio-temporal para transformar los videos panorámicos generados en nubes de puntos 4D, permitiendo la optimización de una representación holística de 4D Gaussian Splatting para reconstruir escenas 4D espacial y temporalmente consistentes. Para validar la eficacia de nuestro método, realizamos un análisis comparativo con enfoques existentes, revelando su superioridad tanto en la generación de videos panorámicos como en la reconstrucción de escenas 4D. Esto demuestra la capacidad de nuestro método para crear entornos inmersivos más atractivos y realistas, mejorando así las experiencias de los usuarios en aplicaciones de VR y AR.
A pesar de los avances recientes en los Modelos de Lenguaje (LMs) para la ingeniería de software, la recopilación de datos de entrenamiento sigue siendo un desafío significativo. Los conjuntos de datos existentes son pequeños, con un máximo de miles de instancias de entrenamiento provenientes de 11 o menos repositorios de GitHub. Los procedimientos para curar dichos conjuntos de datos suelen ser complejos, requiriendo cientos de horas de trabajo humano; además, los entornos de ejecución asociados ocupan varios terabytes de almacenamiento, lo que limita severamente su escalabilidad y usabilidad. Para abordar este problema, presentamos SWE-smith, una novedosa canalización para generar datos de entrenamiento en ingeniería de software a gran escala. Dado cualquier código base en Python, SWE-smith construye un entorno de ejecución correspondiente y luego sintetiza automáticamente cientos o miles de instancias de tareas que rompen las pruebas existentes en el código base. Utilizando SWE-smith, creamos un conjunto de datos de 50k instancias obtenidas de 128 repositorios de GitHub, un orden de magnitud más grande que todos los trabajos anteriores. Entrenamos SWE-agent-LM-32B, logrando una tasa de resolución Pass@1 del 40.2% en el benchmark SWE-bench Verified, lo que representa el estado del arte entre los modelos de código abierto. Hacemos público SWE-smith (procedimiento de recopilación, instancias de tareas, trayectorias, modelos) para reducir la barrera de entrada en la investigación de sistemas LM para la ingeniería de software automatizada. Todos los recursos están disponibles en https://swesmith.com.
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades sin precedentes en diversas tareas de procesamiento del lenguaje natural. Su habilidad para procesar y generar texto y código viables los ha hecho omnipresentes en muchos campos, mientras que su implementación como bases de conocimiento y herramientas de "razonamiento" sigue siendo un área de investigación en curso. En geografía, un creciente cuerpo de literatura se ha centrado en evaluar el conocimiento geográfico de los LLMs y su capacidad para realizar razonamiento espacial. Sin embargo, aún se sabe muy poco sobre el funcionamiento interno de estos modelos, especialmente sobre cómo procesan la información geográfica. En este capítulo, establecemos un marco novedoso para el estudio de la interpretabilidad mecanicista geoespacial, utilizando análisis espacial para ingeniería inversa sobre cómo los LLMs manejan la información geográfica. Nuestro objetivo es avanzar en la comprensión de las representaciones internas que estos modelos complejos generan al procesar información geográfica, lo que podríamos llamar "cómo piensan los LLMs sobre la información geográfica", si tal expresión no fuera un antropomorfismo indebido. Primero, delineamos el uso de sondeos para revelar estructuras internas dentro de los LLMs. Luego, introducimos el campo de la interpretabilidad mecanicista, discutiendo la hipótesis de superposición y el papel de los autoencoders dispersos en desentrañar las representaciones internas polisemánticas de los LLMs en características más interpretables y monosemánticas. En nuestros experimentos, utilizamos la autocorrelación espacial para mostrar cómo las características obtenidas para nombres de lugares exhiben patrones espaciales relacionados con su ubicación geográfica y, por lo tanto, pueden interpretarse geoespacialmente, ofreciendo insights sobre cómo estos modelos procesan la información geográfica. Concluimos discutiendo cómo nuestro marco puede ayudar a moldear el estudio y uso de modelos fundacionales en geografía.
Con la creciente demanda de interacción natural entre humanos y computadoras, los sistemas basados en voz reciben cada vez más atención, ya que el habla es una de las formas más comunes de comunicación diaria. Sin embargo, los modelos de habla existentes aún experimentan una alta latencia al generar el primer token de audio durante la transmisión en tiempo real, lo que representa un cuello de botella significativo para su implementación. Para abordar este problema, proponemos VITA-Audio, un modelo de habla de gran escala de extremo a extremo con generación rápida de tokens de audio y texto. Específicamente, introducimos un módulo ligero de Predicción de Múltiples Tokens Intermodales (MCTP, por sus siglas en inglés) que genera eficientemente múltiples tokens de audio en una sola pasada hacia adelante del modelo, lo que no solo acelera la inferencia sino que también reduce significativamente la latencia para generar el primer audio en escenarios de transmisión en tiempo real. Además, se explora una estrategia de entrenamiento progresivo en cuatro etapas para lograr la aceleración del modelo con una pérdida mínima de calidad del habla. Hasta donde sabemos, VITA-Audio es el primer modelo de lenguaje multimodal de gran escala capaz de generar salida de audio durante la primera pasada hacia adelante, permitiendo capacidades conversacionales en tiempo real con una latencia mínima. VITA-Audio es completamente reproducible y se entrena únicamente con datos de código abierto. Los resultados experimentales demuestran que nuestro modelo logra una aceleración en la inferencia de 3 a 5 veces en la escala de 7 mil millones de parámetros, y también supera significativamente a los modelos de código abierto de tamaño similar en múltiples benchmarks para tareas de reconocimiento automático del habla (ASR), conversión de texto a voz (TTS) y respuesta a preguntas habladas (SQA).
La atribución de fallos en sistemas multiagente basados en LLM (Large Language Models) —identificar el agente y el paso responsables de los fallos en las tareas— proporciona pistas cruciales para la depuración de sistemas, pero sigue siendo un área poco explorada y que requiere mucho esfuerzo. En este artículo, proponemos y formulamos una nueva área de investigación: la atribución automatizada de fallos en sistemas multiagente basados en LLM. Para apoyar esta iniciativa, presentamos el conjunto de datos Who&When, que incluye registros extensos de fallos de 127 sistemas multiagente basados en LLM, con anotaciones detalladas que vinculan los fallos a agentes específicos y a los pasos decisivos donde ocurren los errores. Utilizando Who&When, desarrollamos y evaluamos tres métodos automatizados de atribución de fallos, resumiendo sus ventajas y desventajas correspondientes. El mejor método alcanza un 53,5% de precisión en la identificación de los agentes responsables de los fallos, pero solo un 14,2% en la identificación de los pasos críticos, con algunos métodos obteniendo resultados inferiores al azar. Incluso modelos de razonamiento de última generación, como OpenAI o1 y DeepSeek R1, no logran alcanzar una usabilidad práctica. Estos resultados subrayan la complejidad de la tarea y la necesidad de seguir investigando en este ámbito. El código y el conjunto de datos están disponibles en https://github.com/mingyin1/Agents_Failure_Attribution.
La síntesis de escenas interactivas en 3D a partir de texto es fundamental para los videojuegos, la realidad virtual y la IA encarnada. Sin embargo, los métodos existentes enfrentan varios desafíos. Los enfoques basados en aprendizaje dependen de conjuntos de datos pequeños y limitados a interiores, lo que restringe la diversidad de escenas y la complejidad de su disposición. Aunque los modelos de lenguaje grandes (LLMs) pueden aprovechar conocimientos diversos del dominio textual, tienen dificultades con el realismo espacial, produciendo a menudo colocaciones de objetos poco naturales que no respetan el sentido común. Nuestra idea clave es que la percepción visual puede cerrar esta brecha al proporcionar una guía espacial realista que los LLMs carecen. Con este fin, presentamos Scenethesis, un marco agéntico sin entrenamiento que integra la planificación de escenas basada en LLMs con un refinamiento de disposición guiado por visión. Dado un texto de entrada, Scenethesis primero utiliza un LLM para esbozar un diseño preliminar. Luego, un módulo de visión lo refina generando una guía visual y extrayendo la estructura de la escena para capturar las relaciones entre objetos. A continuación, un módulo de optimización refuerza iterativamente la alineación precisa de poses y la plausibilidad física, evitando artefactos como la penetración de objetos y la inestabilidad. Finalmente, un módulo de verificación asegura la coherencia espacial. Experimentos exhaustivos demuestran que Scenethesis genera escenas interactivas en 3D diversas, realistas y físicamente plausibles, lo que lo convierte en una herramienta valiosa para la creación de contenido virtual, entornos de simulación e investigación en IA encarnada.
Las presentaciones de datos tradicionales suelen separar al presentador y la visualización en dos espacios distintos: el mundo 3D y una pantalla 2D, lo que impone narrativas centradas en la visualización. Para crear una experiencia de visualización más centrada en el ser humano, establecemos una relación más equitativa entre la visualización y el presentador a través de nuestros InfoVids. Estos videos informativos inspirados en infografías están diseñados para redefinir las relaciones entre el presentador y las visualizaciones. Al diseñar InfoVids, exploramos cómo el uso del diseño, la forma y las interacciones afectan la experiencia del espectador. Comparamos los InfoVids con sus equivalentes en 2D, las "diapositivas" tradicionales, en 9 métricas con 30 participantes, y ofrecemos perspectivas prácticas y a largo plazo desde un enfoque autobiográfico. Nuestros análisis de métodos mixtos revelan que este paradigma redujo la división de la atención del espectador, desplazó el enfoque de la visualización hacia el presentador y generó actuaciones de datos más interactivas, naturales y atractivas con todo el cuerpo para los espectadores. En última instancia, los InfoVids ayudaron a los espectadores a reimaginar las dinámicas tradicionales entre el presentador y las visualizaciones.
Los desarrolladores de modelos de lenguaje suelen filtrar contenido de alto riesgo —como texto tóxico o protegido por derechos de autor— de sus datos de preentrenamiento para evitar que los modelos generen salidas similares. Sin embargo, eliminar por completo dichos datos limita la capacidad de los modelos para reconocer y responder adecuadamente a contenido dañino o sensible. En este artículo, presentamos Selective Loss to Understand but Not Generate (SLUNG), un paradigma de preentrenamiento mediante el cual los modelos aprenden a comprender datos de alto riesgo sin aprender a generarlos. En lugar de aplicar uniformemente la pérdida de predicción del siguiente token, SLUNG evita selectivamente incentivar la generación de tokens de alto riesgo, asegurando que permanezcan dentro de la ventana de contexto del modelo. A medida que el modelo aprende a predecir tokens de bajo riesgo que siguen a los de alto riesgo, se ve obligado a comprender el contenido de alto riesgo. A través de nuestros experimentos, demostramos que SLUNG mejora consistentemente la comprensión de los modelos sobre datos de alto riesgo (por ejemplo, la capacidad de reconocer contenido tóxico) sin aumentar su generación (por ejemplo, la toxicidad de las respuestas del modelo). En general, nuestro paradigma SLUNG permite que los modelos se beneficien de texto de alto riesgo que de otro modo sería filtrado.
El paradigma colaborativo de modelos de lenguaje grandes y pequeños (LM, por sus siglas en inglés) equilibra eficazmente el rendimiento y el costo, aunque su desafío principal radica en identificar con precisión el momento de invocación cuando surgen alucinaciones en los LM pequeños. Los esfuerzos de optimización anteriores se centraron principalmente en técnicas de posprocesamiento, que estaban separadas del proceso de razonamiento de los LM, lo que resultó en altos costos computacionales y una efectividad limitada. En este artículo, proponemos una métrica práctica de evaluación de invocación llamada AttenHScore, que calcula la acumulación y propagación de alucinaciones durante el proceso de generación de los LM pequeños, amplificando continuamente los posibles errores de razonamiento. Al ajustar dinámicamente el umbral de detección, logramos una invocación en tiempo real más precisa de los LM grandes. Además, considerando la capacidad limitada de razonamiento de los LM pequeños, aprovechamos la reorganización de conocimiento consciente de la incertidumbre para ayudarlos a capturar mejor la información crítica de diferentes fragmentos de texto. Experimentos exhaustivos revelan que nuestro AttenHScore supera a la mayoría de los enfoques de referencia en la mejora de las capacidades de detección de alucinaciones en tiempo real en múltiples conjuntos de datos de preguntas y respuestas, especialmente al abordar consultas complejas. Además, nuestras estrategias eliminan la necesidad de entrenamiento adicional de modelos y muestran flexibilidad para adaptarse a diversos LM basados en transformadores.
En los últimos años, los marcos de trabajo multiagente impulsados por modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han avanzado rápidamente. A pesar de este progreso, aún existe una notable ausencia de conjuntos de datos de referencia específicamente diseñados para evaluar su rendimiento. Para cerrar esta brecha, presentamos Auto-SLURP, un conjunto de datos de referencia destinado a evaluar marcos de trabajo multiagente basados en LLMs en el contexto de asistentes personales inteligentes. Auto-SLURP extiende el conjunto de datos SLURP original —desarrollado inicialmente para tareas de comprensión del lenguaje natural— mediante la reetiquetación de los datos y la integración de servidores simulados y servicios externos. Esta mejora permite una canalización de evaluación integral de extremo a extremo, abarcando la comprensión del lenguaje, la ejecución de tareas y la generación de respuestas. Nuestros experimentos demuestran que Auto-SLURP representa un desafío significativo para los marcos de trabajo más avanzados actualmente, destacando que los asistentes personales multiagente verdaderamente confiables e inteligentes siguen siendo un trabajo en progreso. El conjunto de datos y el código relacionado están disponibles en https://github.com/lorashen/Auto-SLURP/.
Este estudio presenta un nuevo punto de referencia para evaluar Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) utilizando desafíos derivados de las competencias de Excel del Financial Modeling World Cup (FMWC). Introducimos una metodología para convertir 113 desafíos existentes del FMWC en formatos JSON evaluables programáticamente y utilizamos este conjunto de datos para comparar el rendimiento de varios LLMs líderes. Nuestros hallazgos demuestran variaciones significativas en el rendimiento entre diferentes categorías de desafíos, con modelos que muestran fortalezas específicas en tareas de reconocimiento de patrones pero que luchan con el razonamiento numérico complejo. El punto de referencia proporciona un marco estandarizado para evaluar las capacidades de los LLMs en tareas empresariales realistas en lugar de problemas académicos abstractos. Esta investigación contribuye al creciente campo de la evaluación comparativa de IA al establecer la competencia entre los 1.500 millones de personas que utilizan diariamente Microsoft Excel como una métrica de evaluación significativa que cierra la brecha entre los puntos de referencia académicos de IA y las aplicaciones empresariales prácticas.