HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

16 papers found

ROCKET-1: Domine a Interação em Mundo Aberto com Contexto Visual-Temporal Estímulo
ROCKET-1: Master Open-World Interaction with Visual-Temporal Context Prompting

Oct 23

ByShaofei Cai, Zihao Wang, Kewei Lian, Zhancun Mu, Xiaojian Ma, Anji Liu, Yitao Liang

Os modelos visão-linguagem (VLMs) têm se destacado em tarefas multimodais, mas adaptá-los para tomada de decisão incorporada em ambientes de mundo aberto apresenta desafios. Um problema-chave é a dificuldade em conectar de forma fluida entidades individuais em observações de baixo nível com conceitos abstratos necessários para o planejamento. Uma abordagem comum para lidar com esse problema é através do uso de agentes hierárquicos, onde os VLMs atuam como raciocinadores de alto nível que dividem tarefas em subtarefas executáveis, geralmente especificadas usando linguagem e observações imaginadas. No entanto, a linguagem frequentemente falha em transmitir efetivamente informações espaciais, enquanto a geração de imagens futuras com precisão suficiente continua sendo um desafio. Para lidar com essas limitações, propomos a indução de contexto visual-temporal, um novo protocolo de comunicação entre VLMs e modelos de política. Esse protocolo aproveita a segmentação de objetos a partir de observações passadas e presentes para orientar as interações política-ambiente. Usando essa abordagem, treinamos o ROCKET-1, uma política de baixo nível que prevê ações com base em observações visuais concatenadas e máscaras de segmentação, com rastreamento de objetos em tempo real fornecido pelo SAM-2. Nosso método desbloqueia todo o potencial das habilidades de raciocínio visual-linguagem dos VLMs, permitindo que resolvam tarefas criativas complexas, especialmente aquelas fortemente dependentes de compreensão espacial. Experimentos no Minecraft demonstram que nossa abordagem permite que agentes realizem tarefas anteriormente inatingíveis, destacando a eficácia da indução de contexto visual-temporal na tomada de decisão incorporada. Códigos e demonstrações estarão disponíveis na página do projeto: https://craftjarvis.github.io/ROCKET-1.

Síntese Contínua de Fala usando Difusão Latente por Token
Continuous Speech Synthesis using per-token Latent Diffusion

Oct 21

ByArnon Turetzky, Nimrod Shabtay, Slava Shechtman, Hagai Aronowitz, David Haws, Ron Hoory, Avihu Dekel

O sucesso dos modelos autoregressivos de transformer com tokens discretos inspirou abordagens baseadas em quantização para modalidades contínuas, embora frequentemente limitem a qualidade de reconstrução. Portanto, introduzimos o SALAD, um modelo de difusão latente por token para conversão de texto em fala sem necessidade de treinamento, que opera em representações contínuas. O SALAD se baseia na cabeça de difusão expressiva proposta recentemente para geração de imagens e a estende para gerar saídas de comprimentos variáveis. Nossa abordagem utiliza tokens semânticos para fornecer informações contextuais e determinar a condição de parada. Propomos três variantes contínuas para nosso método, ampliando técnicas populares de síntese de fala discreta. Além disso, implementamos baselines discretos para cada variante e realizamos uma análise comparativa das técnicas de modelagem de fala discreta versus contínua. Nossos resultados demonstram que abordagens contínuas e discretas são altamente competentes, e que o SALAD alcança uma pontuação de inteligibilidade superior, mantendo a qualidade de fala e a similaridade de locutor em nível com o áudio real.

Ensine LLMs Multimodais a Compreender Imagens Eletrocardiográficas
Teach Multimodal LLMs to Comprehend Electrocardiographic Images

Oct 21

ByRuoqi Liu, Yuelin Bai, Xiang Yue, Ping Zhang

O eletrocardiograma (ECG) é uma ferramenta diagnóstica essencial e não invasiva para avaliar condições cardíacas. Os métodos automáticos de interpretação existentes sofrem de generalização limitada, focando em uma gama estreita de condições cardíacas e geralmente dependem de sinais fisiológicos brutos, que podem não estar prontamente disponíveis em ambientes com recursos limitados, onde apenas imagens de ECG impressas ou digitais são acessíveis. Avanços recentes em modelos de linguagem multimodais grandes (MLLMs) apresentam oportunidades promissoras para lidar com esses desafios. No entanto, a aplicação de MLLMs na interpretação de imagens de ECG ainda é desafiadora devido à falta de conjuntos de dados de ajuste de instruções e benchmarks de imagens de ECG bem estabelecidos para avaliação quantitativa. Para enfrentar esses desafios, apresentamos o ECGInstruct, um conjunto de dados abrangente de ajuste de instruções de imagens de ECG com mais de um milhão de amostras, abrangendo uma ampla gama de tarefas relacionadas ao ECG de diversas fontes de dados. Usando o ECGInstruct, desenvolvemos o PULSE, um MLLM adaptado para compreensão de imagens de ECG. Além disso, criamos o ECGBench, um novo benchmark de avaliação que abrange quatro tarefas-chave de interpretação de imagens de ECG em nove conjuntos de dados diferentes. Nossos experimentos mostram que o PULSE estabelece um novo estado-da-arte, superando MLLMs gerais com um aumento médio de precisão de 15% a 30%. Este trabalho destaca o potencial do PULSE para aprimorar a interpretação de ECG na prática clínica.

FasterCache: Aceleração de Modelo de Difusão de Vídeo sem Treinamento com Alta Qualidade
FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality

Oct 25

ByZhengyao Lv, Chenyang Si, Junhao Song, Zhenyu Yang, Yu Qiao, Ziwei Liu, Kwan-Yee K. Wong

Neste artigo, apresentamos o \textit{FasterCache}, uma estratégia inovadora sem treinamento projetada para acelerar a inferência de modelos de difusão de vídeo com geração de alta qualidade. Ao analisar os métodos existentes baseados em cache, observamos que o reuso direto de características de passos adjacentes degrada a qualidade do vídeo devido à perda de variações sutis. Realizamos uma investigação pioneira do potencial de aceleração da orientação sem classificador (CFG) e revelamos uma redundância significativa entre características condicionais e incondicionais dentro do mesmo passo de tempo. Capitalizando essas observações, introduzimos o FasterCache para acelerar substancialmente a geração de vídeo baseada em difusão. Nossas principais contribuições incluem uma estratégia dinâmica de reuso de características que preserva tanto a distinção de características quanto a continuidade temporal, e o CFG-Cache que otimiza o reuso das saídas condicionais e incondicionais para aprimorar ainda mais a velocidade de inferência sem comprometer a qualidade do vídeo. Avaliamos empiricamente o FasterCache em modelos recentes de difusão de vídeo. Os resultados experimentais mostram que o FasterCache pode acelerar significativamente a geração de vídeo (por exemplo, 1,67 vezes mais rápido no Vchitect-2.0) mantendo a qualidade do vídeo comparável ao padrão, e consistentemente superando os métodos existentes tanto em velocidade de inferência quanto em qualidade de vídeo.

MMAU: Um Benchmark de Compreensão e Raciocínio de Áudio Multi-Tarefa em Massa
MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark

Oct 24

ByS Sakshi, Utkarsh Tyagi, Sonal Kumar, Ashish Seth, Ramaneswaran Selvakumar, Oriol Nieto, Ramani Duraiswami, Sreyan Ghosh, Dinesh Manocha

A capacidade de compreender áudio - que inclui fala, sons não verbais e música - é crucial para agentes de IA interagirem de forma eficaz com o mundo. Apresentamos o MMAU, um novo benchmark projetado para avaliar modelos de compreensão multimodal de áudio em tarefas que exigem conhecimento de nível especialista e raciocínio complexo. O MMAU é composto por 10 mil clipes de áudio cuidadosamente selecionados, combinados com perguntas e respostas em linguagem natural anotadas por humanos, abrangendo fala, sons ambientais e música. Ele inclui perguntas de extração de informações e raciocínio, exigindo que os modelos demonstrem 27 habilidades distintas em tarefas únicas e desafiadoras. Ao contrário de benchmarks existentes, o MMAU enfatiza a percepção avançada e o raciocínio com conhecimento específico de domínio, desafiando os modelos a lidar com tarefas semelhantes às enfrentadas por especialistas. Avaliamos 18 modelos de áudio-linguagem (Grandes) de código aberto e proprietários, demonstrando os desafios significativos apresentados pelo MMAU. Notavelmente, mesmo o avançado Gemini Pro v1.5 alcança apenas 52,97% de precisão, e o estado-da-arte de código aberto Qwen2-Audio atinge apenas 52,50%, destacando um espaço considerável para melhorias. Acreditamos que o MMAU impulsionará a comunidade de pesquisa em áudio e multimodal a desenvolver modelos de compreensão de áudio mais avançados capazes de resolver tarefas de áudio complexas.

Infinity-MM: Escalando o Desempenho Multimodal com Dados de Instrução em Grande Escala e Alta Qualidade
Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data

Oct 24

ByShuhao Gu, Jialing Zhang, Siyuan Zhou, Kevin Yu, Zhaohu Xing, Liangdong Wang, Zhou Cao, Jintao Jia, Zhuoyi Zhang, Yixuan Wang, Zhenchong Hu, Bo-Wen Zhang, Jijie Li, Dong Liang, Yingli Zhao, Yulong Ao, Yaoqi Liu, Fangxiang Feng, Guang Liu

Os Modelos Visão-Linguagem (VLMs) têm avançado significativamente recentemente, porém a escala limitada e a qualidade dos dados de instrução de código aberto prejudicam seu desempenho em comparação com modelos de código fechado. Neste trabalho, abordamos essa limitação ao introduzir o Infinity-MM, um conjunto de dados de instrução multimodal em larga escala com 40 milhões de amostras, aprimorado por meio de um rigoroso filtro de qualidade e deduplicação. Também propomos um método de geração de instruções sintéticas com base em VLMs de código aberto, utilizando anotações detalhadas de imagem e geração diversificada de perguntas. Com esses dados, treinamos um VLM de 2 bilhões de parâmetros, o Aquila-VL-2B, alcançando um desempenho de estado-da-arte para modelos de escala similar. Isso demonstra que expandir os dados de instrução e gerar dados sintéticos pode melhorar significativamente o desempenho de modelos de código aberto.

Leia-ME: Refatoração de LLMs como Mistura de Especialistas Desacoplados de Roteador com Co-Design de Sistema
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design

Oct 24

ByRuisi Cai, Yeonju Ro, Geon-Woo Kim, Peihao Wang, Babak Ehteshami Bejnordi, Aditya Akella, Zhangyang Wang

A proliferação de grandes modelos de linguagem (LLMs) levou à adoção de arquiteturas Mixture-of-Experts (MoE) que dinamicamente aproveitam sub-redes especializadas para melhorar a eficiência e o desempenho. Apesar de seus benefícios, os modelos MoE enfrentam desafios significativos durante a inferência, incluindo gerenciamento ineficiente de memória e agrupamento subótimo, devido a escolhas de design desalinhadas entre a arquitetura do modelo e as políticas do sistema. Além disso, a abordagem convencional de treinar MoEs do zero está se tornando cada vez mais proibitiva em termos de custo. Neste artigo, propomos um novo framework denominado Read-ME que transforma LLMs densos pré-treinados em modelos MoE menores (em contraste com a "reciclagem" de MoEs generalistas), evitando os altos custos do treinamento do zero. Nossa abordagem emprega esparsidade de ativação para extrair especialistas. Para compor os especialistas, examinamos o design de roteador em camadas amplamente adotado e mostramos sua redundância, introduzindo assim o roteador de pré-gateamento desacoplado do espinha dorsal do MoE que facilita a pré-computação amigável ao sistema e o agendamento de lookahead, aprimorando o agrupamento e o armazenamento em cache conscientes dos especialistas. Nosso codesign aborda lacunas críticas tanto nos aspectos algorítmicos quanto nos sistemas, estabelecendo uma alternativa escalável e eficiente para inferência de LLM em ambientes com recursos limitados. O Read-ME supera outros modelos densos de código aberto populares de escalas semelhantes, alcançando melhorias de até 10,1% no MMLU e melhorando a latência média de ponta a ponta em até 6,1%. Os códigos estão disponíveis em: https://github.com/VITA-Group/READ-ME.

Os LLMs são Melhores do que o Informado? Detectando Erros de Etiqueta e Mitigando seu Efeito no Desempenho do Modelo
Are LLMs Better than Reported? Detecting Label Errors and Mitigating Their Effect on Model Performance

Oct 24

ByOmer Nahum, Nitay Calderon, Orgad Keller, Idan Szpektor, Roi Reichart

Os benchmarks de PNL dependem de conjuntos de dados padronizados para treinar e avaliar modelos, sendo essenciais para o avanço do campo. Tradicionalmente, as anotações de especialistas garantem rótulos de alta qualidade; no entanto, o custo da anotação por especialistas não acompanha bem a crescente demanda por conjuntos de dados maiores necessários pelos modelos modernos. Enquanto a crowdsourcing oferece uma solução mais escalável, muitas vezes isso ocorre às custas da precisão e consistência das anotações. Avanços recentes em grandes modelos de linguagem (LLMs) oferecem novas oportunidades para aprimorar o processo de anotação, especialmente para detectar erros de rótulo em conjuntos de dados existentes. Neste trabalho, consideramos a abordagem recente de LLM-como-juiz, aproveitando um conjunto de LLMs para sinalizar exemplos potencialmente mal rotulados. Através de um estudo de caso de quatro conjuntos de dados do benchmark TRUE, abrangendo diferentes tarefas e domínios, analisamos empiricamente a qualidade da rotulagem dos conjuntos de dados existentes e comparamos as anotações de especialistas, crowdsourced e baseadas em LLM em termos de concordância, qualidade do rótulo e eficiência, demonstrando as forças e limitações de cada método de anotação. Nossas descobertas revelam um número substancial de erros de rótulo, que, quando corrigidos, causam um aumento significativo no desempenho do modelo relatado. Isso sugere que muitos dos chamados erros dos LLMs são devido a erros de rótulo em vez de falhas genuínas do modelo. Além disso, discutimos as implicações de dados mal rotulados e propomos métodos para mitigá-los no treinamento para melhorar o desempenho do modelo.

Capacidade de Contagem de Modelos de Linguagem Grandes e Impacto da Tokenização
Counting Ability of Large Language Models and Impact of Tokenization

Oct 25

ByXiang Zhang, Juntai Cao, Chenyu You

Os Transformers, a espinha dorsal dos modernos modelos de linguagem de grande escala (LLMs), enfrentam limitações arquiteturais inerentes que prejudicam suas capacidades de raciocínio. Ao contrário das redes recorrentes, os Transformers não possuem conexões recorrentes, o que os limita a uma computação de profundidade constante. Essa restrição os coloca na classe de complexidade TC^0, tornando-os teoricamente incapazes de resolver tarefas que exigem raciocínio profundo à medida que o comprimento de entrada aumenta. A contagem, um componente fundamental de muitas tarefas de raciocínio, também requer um aumento linear na profundidade de raciocínio para ser realizada indutivamente. Embora estudos anteriores tenham estabelecido os limites superiores da capacidade de contagem em modelos especializados baseados em Transformers (ou seja, modelos especificamente treinados para tarefas de contagem), essas descobertas não se estendem diretamente aos LLMs de propósito geral devido a diferenças nos mecanismos de raciocínio. Trabalhos recentes destacaram como o raciocínio Chain of Thought (CoT) pode ajudar a aliviar algumas das limitações arquiteturais dos Transformers em tarefas de contagem. No entanto, pouca atenção foi dada ao papel da tokenização nesses modelos. Ao contrário dos modelos especializados que frequentemente utilizam tokenização a nível de caractere, os LLMs geralmente dependem de tokenizadores a nível de byte (BPE), o que altera fundamentalmente a forma como o raciocínio é processado. Nosso trabalho investiga o impacto da tokenização nas habilidades de contagem dos LLMs, revelando variações significativas de desempenho com base em diferenças na tokenização de entrada. Fornecemos análises teóricas e experimentais, oferecendo insights sobre como as escolhas de tokenização podem minar a computabilidade teórica dos modelos, inspirando assim o desenvolvimento de novos métodos de tokenização para aprimorar o raciocínio nos LLMs.

Preferências Híbridas: Aprendizado para Roteamento de Instâncias com Feedback Humano vs. de IA
Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback

Oct 24

ByLester James V. Miranda, Yizhong Wang, Yanai Elazar, Sachin Kumar, Valentina Pyatkin, Faeze Brahman, Noah A. Smith, Hannaneh Hajishirzi, Pradeep Dasigi

Aprender com o feedback humano possibilitou o alinhamento de modelos de linguagem (LMs) com as preferências humanas. No entanto, coletar diretamente as preferências humanas pode ser caro, demorado e apresentar alta variância. Uma alternativa atraente é extrair preferências dos LMs como fonte de anotações sintéticas, pois são mais consistentes, mais baratas e escaláveis do que as anotações humanas; no entanto, também estão sujeitas a viéses e erros. Neste trabalho, introduzimos um framework de roteamento que combina entradas de humanos e LMs para alcançar uma melhor qualidade de anotação, reduzindo o custo total da anotação humana. O cerne de nossa abordagem é identificar instâncias de preferência que se beneficiarão de anotações humanas. Formulamos isso como um problema de otimização: dado um conjunto de dados de preferência e uma métrica de avaliação, treinamos um modelo de previsão de desempenho para prever o desempenho de um modelo de recompensa em uma combinação arbitrária de anotações humanas e de LM e empregamos uma estratégia de roteamento que seleciona uma combinação que maximize o desempenho previsto. Treinamos o modelo de previsão de desempenho no MultiPref, um novo conjunto de dados de preferência com 10 mil instâncias associadas a rótulos humanos e de LM. Mostramos que a mistura híbrida selecionada de preferências de LM e humanas diretas usando nosso framework de roteamento alcança um melhor desempenho do modelo de recompensa em comparação com o uso exclusivo de um deles. Simulamos a coleta seletiva de preferências humanas em outros três conjuntos de dados e mostramos que nosso método generaliza bem para os três. Analisamos as características do modelo de roteamento para identificar características de instâncias que podem se beneficiar do feedback humano, por exemplo, prompts com uma preocupação moderada de segurança ou complexidade moderada de intenção. Disponibilizamos o conjunto de dados, a plataforma de anotação e o código-fonte utilizados neste estudo para promover uma coleta de preferências mais eficiente e precisa no futuro.

Dados Sintéticos Fictícios Podem Melhorar a Factualidade de LLM por Meio de Aprendizado Prévio
Fictitious Synthetic Data Can Improve LLM Factuality via Prerequisite Learning

Oct 25

ByYujian Liu, Shiyu Chang, Tommi Jaakkola, Yang Zhang

Estudos recentes identificaram um fator agravante das alucinações de LLM como a inconsistência de conhecimento entre pré-treinamento e ajuste fino, onde dados de ajuste fino não familiares induzem o LLM a fabricar saídas plausíveis, porém incorretas. Neste artigo, propomos uma estratégia de ajuste fino inovadora chamada Prereq-Tune para lidar com essa inconsistência de conhecimento e reduzir as alucinações. Fundamentalmente, o Prereq-Tune desembaraça a aprendizagem de habilidades e conhecimento, de modo que o modelo aprende apenas as habilidades da tarefa sem ser afetado pela inconsistência de conhecimento. Para alcançar isso, o Prereq-Tune introduz uma etapa adicional de aprendizagem de pré-requisitos para aprender o conhecimento necessário para o ajuste fino da tarefa, permitindo que o ajuste fino subsequente se concentre apenas nas habilidades da tarefa. O Prereq-Tune também pode ser combinado com dados sintéticos fictícios para aprimorar a fundamentação das saídas do LLM em seu conhecimento interno. Experimentos mostram que o Prereq-Tune supera as bases existentes na melhoria da factualidade do LLM em tarefas de perguntas e respostas curtas e na geração de texto longo. Ele também abre novas possibilidades para a geração controlada por conhecimento em LLMs. Nosso código está disponível em https://github.com/UCSB-NLP-Chang/Prereq_tune.git.

Analisando o Fluxo Residual de Modelos de Linguagem Sob Conflitos de Conhecimento
Analysing the Residual Stream of Language Models Under Knowledge Conflicts

Oct 21

ByYu Zhao, Xiaotang Du, Giwon Hong, Aryo Pradipta Gema, Alessio Devoto, Hongru Wang, Xuanli He, Kam-Fai Wong, Pasquale Minervini

Grandes modelos de linguagem (LLMs) podem armazenar uma quantidade significativa de conhecimento factual em seus parâmetros. No entanto, o conhecimento paramétrico deles pode entrar em conflito com as informações fornecidas no contexto. Tais conflitos podem levar a comportamentos indesejáveis do modelo, como depender de informações desatualizadas ou incorretas. Neste trabalho, investigamos se os LLMs podem identificar conflitos de conhecimento e se é possível saber em qual fonte de conhecimento o modelo confiará, analisando o fluxo residual do LLM. Através de tarefas de sondagem, descobrimos que os LLMs podem internamente registrar o sinal de conflito de conhecimento no fluxo residual, o qual pode ser detectado com precisão por meio da sondagem das ativações intermediárias do modelo. Isso nos permite detectar conflitos dentro do fluxo residual antes de gerar as respostas sem modificar a entrada ou os parâmetros do modelo. Além disso, constatamos que o fluxo residual mostra padrões significativamente diferentes quando o modelo confia no conhecimento contextual versus o conhecimento paramétrico para resolver conflitos. Esse padrão pode ser utilizado para estimar o comportamento dos LLMs quando ocorrem conflitos e prevenir respostas inesperadas antes de produzi-las. Nossa análise oferece insights sobre como os LLMs gerenciam internamente conflitos de conhecimento e fornece uma base para o desenvolvimento de métodos para controlar os processos de seleção de conhecimento.

Rastreamento Gaussiano 3D Dinâmico para Modelagem de Dinâmica Neural Baseada em Grafos
Dynamic 3D Gaussian Tracking for Graph-Based Neural Dynamics Modeling

Oct 24

ByMingtong Zhang, Kaifeng Zhang, Yunzhu Li

Vídeos de robôs interagindo com objetos codificam informações ricas sobre a dinâmica dos objetos. No entanto, abordagens existentes de previsão de vídeo geralmente não consideram explicitamente as informações 3D dos vídeos, como ações do robô e estados 3D dos objetos, limitando seu uso em aplicações robóticas do mundo real. Neste trabalho, introduzimos um framework para aprender a dinâmica de objetos diretamente a partir de vídeos RGB de múltiplas visões, considerando explicitamente as trajetórias de ação do robô e seus efeitos na dinâmica da cena. Utilizamos a representação gaussiana 3D do Splatting Gaussiano 3D (3DGS) para treinar um modelo de dinâmica baseado em partículas usando Redes Neurais Gráficas. Este modelo opera em partículas de controle esparsas, amostradas a partir das reconstruções gaussianas 3D densamente rastreadas. Ao aprender o modelo de dinâmica neural com dados de interação offline do robô, nosso método pode prever os movimentos dos objetos sob diferentes configurações iniciais e ações do robô não vistas. As transformações 3D das gaussianas podem ser interpoladas a partir dos movimentos das partículas de controle, permitindo a renderização de estados futuros previstos dos objetos e alcançando previsão de vídeo condicionada à ação. O modelo de dinâmica também pode ser aplicado a frameworks de planejamento baseado em modelo para tarefas de manipulação de objetos. Realizamos experimentos em vários tipos de materiais deformáveis, incluindo cordas, roupas e animais de pelúcia, demonstrando a capacidade de nosso framework em modelar formas e dinâmicas complexas. Nossa página do projeto está disponível em https://gs-dynamics.github.io.

Banco de Reflexão: sondando a inteligência da IA com reflexão
Reflection-Bench: probing AI intelligence with reflection

Oct 21

ByLingyu Li, Yixu Wang, Haiquan Zhao, Shuqi Kong, Yan Teng, Chunbo Li, Yingchun Wang

A capacidade de adaptar crenças ou comportamentos em resposta a resultados inesperados, reflexão, é fundamental para a interação de sistemas inteligentes com o mundo. De uma perspectiva de ciência cognitiva, isso serve como um princípio central de inteligência aplicável tanto a sistemas humanos quanto de IA. Para abordar o debate sobre a inteligência de grandes modelos de linguagem (LLMs), propomos o Reflection-Bench, um benchmark abrangente composto por 7 tarefas que abrangem funções cognitivas essenciais para a reflexão, incluindo percepção, memória, atualização de crenças, tomada de decisão, previsão, pensamento contrafactual e meta-reflexão. Avaliamos o desempenho de 13 LLMs proeminentes como OpenAI o1, GPT-4, Claude 3.5 Sonnet, etc. Os resultados indicam que os LLMs atuais ainda carecem de habilidade de reflexão satisfatória. Discutimos as causas subjacentes desses resultados e sugerimos possíveis direções para pesquisas futuras. Em conclusão, o Reflection-Bench oferece tanto ferramentas de avaliação quanto inspiração para o desenvolvimento de IA capazes de interagir de forma confiável com o ambiente. Nossos dados e código estão disponíveis em https://github.com/YabYum/ReflectionBench.

Mapeando o Cenário da Mídia: Prevendo a Reportagem Factual e o Viés Político Através das Interações na Web
Mapping the Media Landscape: Predicting Factual Reporting and Political Bias Through Web Interactions

Oct 23

ByDairazalia Sánchez-Cortés, Sergio Burdisso, Esaú Villatoro-Tello, Petr Motlicek

A avaliação de viés de fontes de notícias é fundamental para profissionais, organizações e pesquisadores que dependem de evidências verídicas para coleta e relato de informações. Enquanto certos indicadores de viés são discerníveis a partir da análise de conteúdo, descritores como viés político e notícias falsas apresentam desafios maiores. Neste artigo, propomos uma extensão a um método de estimativa de confiabilidade de mídia recentemente apresentado, que se concentra em modelar veículos de comunicação e suas interações web longitudinais. Concretamente, avaliamos o desempenho de classificação de quatro estratégias de aprendizado por reforço em um grande grafo de hiperlinks de mídia de notícias. Nossos experimentos, visando dois descritores de viés desafiadores, relato factual e viés político, mostraram uma melhoria significativa no desempenho no nível da mídia de origem. Além disso, validamos nossos métodos no desafio do laboratório CheckThat! da CLEF 2023, superando os resultados relatados tanto no F1-score quanto na métrica MAE oficial. Além disso, contribuímos ao disponibilizar o maior conjunto de dados anotados de fontes de mídia de notícias, categorizado com rótulos de relato factual e viés político. Nossas descobertas sugerem que perfilar fontes de mídia com base em suas interações de hiperlinks ao longo do tempo é viável, oferecendo uma visão panorâmica das paisagens midiáticas em evolução.

Aproveitando Habilidades de Dados Anteriores Não Rotulados para Exploração Online Eficiente
Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration

Oct 23

ByMax Wilcoxson, Qiyang Li, Kevin Frans, Sergey Levine

O pré-treinamento não supervisionado tem sido transformador em muitos domínios supervisionados. No entanto, aplicar tais ideias ao aprendizado por reforço (RL) apresenta um desafio único, uma vez que o ajuste fino não envolve a imitação de dados específicos da tarefa, mas sim explorar e localizar a solução por meio de auto aprimoramento iterativo. Neste trabalho, estudamos como dados de trajetória prévia não rotulados podem ser aproveitados para aprender estratégias de exploração eficientes. Enquanto dados prévios podem ser usados para pré-treinar um conjunto de habilidades de baixo nível, ou como dados off-policy adicionais para RL online, tem sido incerto como combinar essas ideias de forma eficaz para exploração online. Nosso método SUPE (Habilidades a partir de Dados Prévios Não Rotulados para Exploração) demonstra que uma combinação cuidadosa dessas ideias potencializa seus benefícios. Nosso método primeiro extrai habilidades de baixo nível usando um autoencoder variacional (VAE), e então pseudo-rotula trajetórias não rotuladas usando um modelo de recompensa otimista, transformando dados prévios em exemplos de alto nível relevantes para a tarefa. Por fim, o SUPE utiliza esses exemplos transformados como dados off-policy adicionais para RL online a fim de aprender uma política de alto nível que compõe habilidades de baixo nível pré-treinadas para explorar de forma eficiente. Demonstramos empiricamente que o SUPE supera consistentemente estratégias anteriores, resolvendo com sucesso uma série de tarefas de longo horizonte e recompensa esparsa. Código: https://github.com/rail-berkeley/supe.

Preferências Híbridas: Aprendizado para Roteamento de Instâncias com Feedback Humano vs. de IA
Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback

Oct 24

ByLester James V. Miranda, Yizhong Wang, Yanai Elazar, Sachin Kumar, Valentina Pyatkin, Faeze Brahman, Noah A. Smith, Hannaneh Hajishirzi, Pradeep Dasigi