Artigos de pesquisa em IA selecionados diariamente com traduções
Os recentes avanços em modelos de linguagem de grande escala (LLMs) permitiram que agentes baseados em LLMs abordassem com sucesso tarefas de planejamento interativo. No entanto, apesar de seus sucessos, as abordagens existentes frequentemente sofrem com alucinações de planejamento e exigem retreinamento para cada novo agente. Para enfrentar esses desafios, propomos o framework de Otimização de Meta Planos (MPO), que aprimora as capacidades de planejamento dos agentes ao incorporar diretamente orientações explícitas. Diferentemente de métodos anteriores que dependem de conhecimento complexo, os quais exigem esforço humano significativo ou carecem de garantia de qualidade, o MPO utiliza orientações gerais de alto nível por meio de meta planos para auxiliar o planejamento do agente e permite a otimização contínua dos meta planos com base no feedback da execução de tarefas pelo agente. Nossos experimentos realizados em duas tarefas representativas demonstram que o MPO supera significativamente as abordagens baselines existentes. Além disso, nossa análise indica que o MPO oferece uma solução plug-and-play que melhora tanto a eficiência na conclusão de tarefas quanto as capacidades de generalização em cenários previamente não vistos.
Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado capacidades notáveis como agentes autônomos, porém os benchmarks existentes ou se concentram em tarefas de agente único ou são restritos a domínios estreitos, falhando em capturar a dinâmica de coordenação e competição multiagente. Neste artigo, apresentamos o MultiAgentBench, um benchmark abrangente projetado para avaliar sistemas multiagente baseados em LLMs em diversos cenários interativos. Nosso framework mede não apenas a conclusão de tarefas, mas também a qualidade da colaboração e competição, utilizando indicadores-chave de desempenho baseados em marcos. Além disso, avaliamos vários protocolos de coordenação (incluindo topologias em estrela, cadeia, árvore e grafo) e estratégias inovadoras, como discussão em grupo e planejamento cognitivo. Notavelmente, o gpt-4o-mini alcança a pontuação média mais alta em tarefas, a estrutura de grafo apresenta o melhor desempenho entre os protocolos de coordenação no cenário de pesquisa, e o planejamento cognitivo aumenta as taxas de conquista de marcos em 3%. O código e os conjuntos de dados estão disponíveis publicamente em https://github.com/MultiagentBench/MARBLE.
O aumento da desinformação, exacerbado por Modelos de Linguagem de Grande Escala (LLMs) como GPT e Gemini, exige soluções robustas de verificação de fatos, especialmente para idiomas de baixos recursos, como o vietnamita. Os métodos existentes lutam com ambiguidade semântica, homônimos e estruturas linguísticas complexas, muitas vezes sacrificando a precisão em prol da eficiência. Apresentamos o SemViQA, uma nova estrutura de verificação de fatos em vietnamita que integra Recuperação de Evidências Baseada em Semântica (SER) e Classificação de Veredito em Duas Etapas (TVC). Nossa abordagem equilibra precisão e velocidade, alcançando resultados de ponta com 78,97% de precisão estrita no ISE-DSC01 e 80,82% no ViWikiFC, garantindo o 1º lugar no UIT Data Science Challenge. Além disso, o SemViQA Faster melhora a velocidade de inferência em 7 vezes, mantendo uma precisão competitiva. O SemViQA estabelece um novo padrão para a verificação de fatos em vietnamita, avançando na luta contra a desinformação. O código-fonte está disponível em: https://github.com/DAVID-NGUYEN-S16/SemViQA.
Neste artigo, apresentamos uma análise detalhada do impacto dos Modelos de Linguagem de Grande Escala (LLMs) na Wikipedia, examinando a evolução da Wikipedia por meio de dados existentes e utilizando simulações para explorar riscos potenciais. Começamos analisando visualizações de páginas e conteúdo de artigos para estudar as mudanças recentes na Wikipedia e avaliar o impacto dos LLMs. Em seguida, avaliamos como os LLMs afetam diversas tarefas de Processamento de Linguagem Natural (NLP) relacionadas à Wikipedia, incluindo tradução automática e geração aumentada por recuperação (RAG). Nossos resultados e simulações revelam que os artigos da Wikipedia foram influenciados pelos LLMs, com um impacto de aproximadamente 1%-2% em certas categorias. Se o benchmark de tradução automática baseado na Wikipedia for influenciado pelos LLMs, as pontuações dos modelos podem se tornar infladas, e os resultados comparativos entre os modelos podem mudar. Além disso, a eficácia do RAG pode diminuir se a base de conhecimento for contaminada por conteúdo gerado por LLMs. Embora os LLMs ainda não tenham alterado completamente as estruturas de linguagem e conhecimento da Wikipedia, acreditamos que nossas descobertas empíricas sinalizam a necessidade de uma consideração cuidadosa dos riscos potenciais futuros.
Apresentamos o LADDER (Aprendizado por Recursão Autônoma de Exemplos Guiada por Dificuldade), uma estrutura que permite que Modelos de Linguagem de Grande Escala melhorem autonomamente suas capacidades de resolução de problemas por meio de aprendizado autoguiado, gerando e resolvendo recursivamente variantes progressivamente mais simples de problemas complexos. Diferente de abordagens anteriores que exigem conjuntos de dados curados ou feedback humano, o LADDER aproveita as próprias capacidades do modelo para gerar variantes mais fáceis de questões. Demonstramos a eficácia do LADDER no tema de integração matemática, melhorando a precisão do Llama 3.2 3B de 1% para 82% em problemas de nível universitário e permitindo que o Qwen2.5 7B Deepseek-R1 Distilled alcance 73% no exame de qualificação do MIT Integration Bee. Também introduzimos o TTRL (Aprendizado por Reforço em Tempo de Teste), onde realizamos aprendizado por reforço em variantes de problemas de teste durante a inferência. O TTRL permite que o Qwen2.5 7B Deepseek-R1 Distilled alcance uma pontuação de 90% no exame de qualificação do MIT Integration Bee, superando o desempenho do OpenAI o1. Esses resultados mostram como o aprendizado estratégico autodirigido pode alcançar melhorias significativas de capacidade sem depender de escalonamento arquitetônico ou supervisão humana.
Modelos de linguagem de grande escala (LLMs) exibem alucinações (ou seja, informações infiéis ou sem sentido) ao atuarem como assistentes de IA em diversos domínios. Como as alucinações sempre vêm acompanhadas de conteúdo verdadeiro nas respostas dos LLMs, métodos anteriores de alinhamento de factualidade que realizam aprendizado de preferência no nível da resposta inevitavelmente introduziram ruídos durante o treinamento. Portanto, este artigo propõe um método de alinhamento de factualidade refinado baseado em Otimização de Preferência Direta (DPO), chamado Mask-DPO. Incorporando a factualidade em nível de frase como sinais de máscara, o Mask-DPO aprende apenas com frases factualmente corretas nas amostras preferidas e evita penalizar conteúdos factuais nas amostras não preferidas, o que resolve a ambiguidade no aprendizado de preferência. Resultados experimentais extensivos demonstram que o Mask-DPO pode melhorar significativamente a factualidade das respostas dos LLMs a perguntas de conjuntos de dados tanto dentro quanto fora do domínio, embora essas perguntas e seus tópicos correspondentes não tenham sido vistos durante o treinamento. Treinado apenas no conjunto de treino ANAH, a pontuação do Llama3.1-8B-Instruct no conjunto de teste ANAH melhorou de 49,19% para 77,53%, superando até mesmo a pontuação do Llama3.1-70B-Instruct (53,44%), enquanto seu FactScore no conjunto de dados fora do domínio Biografia também melhorou de 30,29% para 39,39%. Estudamos ainda a propriedade de generalização do Mask-DPO usando diferentes estratégias de escalonamento de amostras de treinamento e descobrimos que escalonar o número de tópicos no conjunto de dados é mais eficaz do que o número de perguntas. Apresentamos uma hipótese sobre o que o alinhamento de factualidade está fazendo com os LLMs, discutimos as implicações desse fenômeno e realizamos experimentos de prova de conceito para verificá-la. Esperamos que o método e as descobertas pavimentem o caminho para pesquisas futuras sobre escalonamento de alinhamento de factualidade.
Os avanços recentes em modelos de linguagem de grande escala (LLMs) têm se concentrado em produzir respostas que atendam às expectativas humanas e estejam alinhadas com valores compartilhados - um processo denominado alinhamento. No entanto, alinhar LLMs continua sendo um desafio devido à desconexão inerente entre a complexidade dos valores humanos e a natureza restrita das abordagens tecnológicas projetadas para abordá-los. Os métodos atuais de alinhamento frequentemente resultam em objetivos mal especificados, refletindo o problema mais amplo de contratos incompletos, ou seja, a impraticabilidade de especificar um contrato entre um desenvolvedor de modelos e o próprio modelo que aborde todos os cenários no alinhamento de LLMs. Neste artigo, argumentamos que melhorar o alinhamento de LLMs requer a incorporação de insights provenientes de frameworks de alinhamento social, incluindo alinhamento social, econômico e contratual, e discutimos possíveis soluções extraídas desses domínios. Dado o papel da incerteza dentro dos frameworks de alinhamento social, investigamos como ela se manifesta no alinhamento de LLMs. Concluímos nossa discussão oferecendo uma visão alternativa sobre o alinhamento de LLMs, enquadrando a natureza subespecificada de seus objetivos como uma oportunidade, em vez de buscar sua especificação perfeita. Além de melhorias técnicas no alinhamento de LLMs, discutimos a necessidade de designs de interfaces de alinhamento participativo.
A adaptação de modelos generativos a domínios específicos apresenta uma solução eficaz para atender a requisitos especializados. No entanto, a adaptação a alguns domínios complexos continua desafiadora, especialmente quando esses domínios exigem dados pareados substanciais para capturar as distribuições alvo. Como dados não pareados de uma única modalidade, como visão ou linguagem, estão mais facilmente disponíveis, utilizamos os mapeamentos bidirecionais entre visão e linguagem aprendidos pelo modelo generativo unificado para permitir o treinamento com dados não pareados para adaptação de domínio. Especificamente, propomos o DoraCycle, que integra dois ciclos multimodais: texto-para-imagem-para-texto e imagem-para-texto-para-imagem. O modelo é otimizado por meio da perda de entropia cruzada calculada nos pontos finais do ciclo, onde ambos os pontos finais compartilham a mesma modalidade. Isso facilita a auto-evolução do modelo sem depender de pares de texto-imagem anotados. Resultados experimentais demonstram que, para tarefas independentes de conhecimento pareado, como estilização, o DoraCycle pode efetivamente adaptar o modelo unificado usando apenas dados não pareados. Para tarefas que envolvem novo conhecimento pareado, como identidades específicas, uma combinação de um pequeno conjunto de exemplos de pares imagem-texto e dados não pareados em larga escala é suficiente para uma adaptação orientada ao domínio eficaz. O código será liberado em https://github.com/showlab/DoraCycle.
O paralelismo de pipeline (PP) é amplamente utilizado para o treinamento de grandes modelos de linguagem (LLMs), mas sua escalabilidade é frequentemente limitada pelo alto consumo de memória de ativação, à medida que o número de microbatches em execução aumenta com o grau de PP. Neste artigo, focamos em abordar esse desafio aproveitando a estratégia de descarregamento de memória pouco explorada no PP. Com estudos empíricos, descobrimos que, na maioria das configurações padrão, pelo menos metade, e potencialmente todas, as ativações podem ser descarregadas com sobrecarga insignificante. Nos casos em que o descarregamento completo não é possível, introduzimos uma nova estratégia de descarregamento seletivo que reduz o pico de memória de ativação de maneira melhor que linear. Além disso, integramos o descarregamento de memória com outras técnicas para considerar conjuntamente o rendimento geral e a limitação de memória. Nossos experimentos comprovam que a memória de ativação por dispositivo é efetivamente reduzida com o número total de estágios, tornando o PP uma alternativa mais forte que o TP, oferecendo uma aceleração de até 19% com consumo de memória ainda menor. A implementação é de código aberto em https://github.com/sail-sg/zero-bubble-pipeline-parallelism{este link}.
Embora o Aprendizado por Reforço com Feedback Humano (RLHF) tenha se tornado o método predominante para controlar as saídas de modelos de linguagem, ele sofre com altos custos computacionais e instabilidade durante o treinamento. A decodificação guiada, especialmente os métodos baseados em valor, oferece uma alternativa econômica ao controlar as saídas sem a necessidade de retreinar os modelos. No entanto, a precisão da função de valor é crucial para a decodificação guiada por valor, pois imprecisões podem levar a tomadas de decisão subótimas e degradação do desempenho. Os métodos existentes enfrentam dificuldades em estimar com precisão a função de valor ideal, resultando em um controle menos eficaz. Propomos a Otimização Iterativa da Função de Valor, uma nova estrutura que aborda essas limitações por meio de dois componentes principais: a Estimação de Valor por Monte Carlo, que reduz a variância da estimativa ao explorar trajetórias diversas, e a Otimização Iterativa On-Policy, que melhora progressivamente a estimativa de valor ao coletar trajetórias de políticas guiadas por valor. Experimentos extensivos em sumarização de texto, diálogo multi-turn e seguimento de instruções demonstram a eficácia das abordagens de decodificação guiada por valor no alinhamento de modelos de linguagem. Essas abordagens não apenas alcançam o alinhamento, mas também reduzem significativamente os custos computacionais ao aproveitar a otimização fundamentada da função de valor para um controle eficiente e eficaz.
Um modelo unificado de vídeo e ação apresenta um potencial significativo para a robótica, onde os vídeos fornecem informações ricas sobre a cena para a previsão de ações, e as ações fornecem informações dinâmicas para a previsão de vídeos. No entanto, combinar efetivamente a geração de vídeos e a previsão de ações continua sendo um desafio, e os métodos atuais baseados em geração de vídeos têm dificuldade em igualar o desempenho do aprendizado direto de políticas em termos de precisão de ações e velocidade de inferência. Para preencher essa lacuna, introduzimos o Modelo Unificado de Vídeo e Ação (UVA), que otimiza conjuntamente as previsões de vídeo e ação para alcançar alta precisão e inferência eficiente de ações. A chave está em aprender uma representação latente conjunta de vídeo e ação e desacoplar a decodificação de vídeo e ação. A representação latente conjunta conecta os domínios visual e de ação, modelando efetivamente a relação entre sequências de vídeo e ação. Enquanto isso, a decodificação desacoplada, impulsionada por duas cabeças de difusão leves, permite inferência de ação em alta velocidade ao contornar a geração de vídeos durante a inferência. Tal estrutura unificada permite ainda funcionalidades versáteis por meio do treinamento com entradas mascaradas. Ao mascarar seletivamente ações ou vídeos, um único modelo pode lidar com diversas tarefas além do aprendizado de políticas, como modelagem de dinâmica direta e inversa e geração de vídeos. Por meio de um extenso conjunto de experimentos, demonstramos que o UVA pode servir como uma solução de propósito geral para uma ampla gama de tarefas de robótica, como aprendizado de políticas, dinâmica direta/inversa e previsão de observação de vídeo, sem comprometer o desempenho em comparação com métodos específicos para aplicações particulares. Os resultados podem ser melhor visualizados em https://unified-video-action-model.github.io/.
Os modelos de difusão têm alcançado avanços notáveis em diversas tarefas de geração de imagens. No entanto, seu desempenho diminui significativamente ao gerar imagens em resoluções mais altas do que as utilizadas durante o período de treinamento. Apesar da existência de vários métodos para produzir imagens de alta resolução, eles sofrem com ineficiência ou são prejudicados por operações complexas. Neste artigo, propomos o RectifiedHR, uma solução eficiente e direta para a geração de imagens de alta resolução sem necessidade de treinamento. Especificamente, introduzimos a estratégia de atualização de ruído, que teoricamente requer apenas algumas linhas de código para desbloquear a capacidade de geração de alta resolução do modelo e melhorar a eficiência. Além disso, observamos pela primeira vez o fenômeno de decaimento de energia que pode causar desfoque na imagem durante o processo de geração de imagens de alta resolução. Para resolver esse problema, propomos uma estratégia de Retificação de Energia, onde a modificação dos hiperparâmetros da orientação sem classificador melhora efetivamente o desempenho da geração. Nosso método é completamente livre de treinamento e possui uma lógica de implementação simples. Por meio de extensas comparações com diversos métodos de referência, nosso RectifiedHR demonstra superioridade em eficácia e eficiência.
Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) levaram ao desenvolvimento de agentes inteligentes baseados em LLMs capazes de interagir com interfaces gráficas de usuário (GUIs). Esses agentes demonstram forte capacidade de raciocínio e adaptabilidade, permitindo que realizem tarefas complexas que tradicionalmente exigiam regras predefinidas. No entanto, a dependência do raciocínio passo a passo em agentes baseados em LLMs frequentemente resulta em ineficiências, especialmente para tarefas rotineiras. Em contraste, sistemas tradicionais baseados em regras se destacam em eficiência, mas carecem da inteligência e flexibilidade para se adaptar a cenários novos. Para enfrentar esse desafio, propomos uma nova estrutura evolutiva para agentes de GUI que melhora a eficiência operacional enquanto mantém a inteligência e a flexibilidade. Nossa abordagem incorpora um mecanismo de memória que registra o histórico de execução de tarefas do agente. Ao analisar esse histórico, o agente identifica sequências de ações repetitivas e evolui ações de alto nível que funcionam como atalhos, substituindo essas operações de baixo nível e melhorando a eficiência. Isso permite que o agente se concentre em tarefas que exigem raciocínio mais complexo, enquanto simplifica ações rotineiras. Resultados experimentais em múltiplas tarefas de benchmark demonstram que nossa abordagem supera significativamente os métodos existentes em eficiência e precisão. O código será disponibilizado como open-source para apoiar pesquisas futuras.
Coletar recompensas de conclusão de tarefas com base em dados reais ou demonstrações humanas para tarefas de raciocínio de múltiplos passos é frequentemente proibitivo em termos de custos e demorado, especialmente em domínios interativos como tarefas na web. Para abordar esse gargalo, apresentamos o método de "self-taught lookahead", uma abordagem auto-supervisionada que aproveita a dinâmica de transição de estados para treinar um modelo de valor capaz de guiar efetivamente a busca controlada por modelos de linguagem. Descobrimos que modelos de valor de tamanho moderado (8 bilhões de parâmetros) e de código aberto, aprimorados com o "self-taught lookahead", podem igualar o desempenho de usar um modelo de linguagem de ponta, como o GPT-4, como modelo de valor. Além disso, observamos que o "self-taught lookahead" melhora o desempenho em 20% enquanto reduz os custos em 37 vezes em comparação com buscas em árvore baseadas em modelos de linguagem anteriores, sem depender de recompensas baseadas em dados reais.
Modelos de linguagem autoregressivos dependem de um Cache de Chave-Valor (KV), que evita a re-computação de estados ocultos passados durante a geração, tornando-a mais rápida. À medida que os tamanhos dos modelos e os comprimentos de contexto aumentam, o Cache KV se torna um gargalo significativo de memória, o que exige métodos de compressão que limitem seu tamanho durante a geração. Neste artigo, descobrimos propriedades surpreendentes dos vetores de Consulta (Q) e Chave (K) que nos permitem aproximar eficientemente os escores de atenção sem calcular os mapas de atenção. Propomos Q-Filters, um método de compressão do Cache KV que não requer treinamento e filtra pares Chave-Valor menos cruciais com base em uma única projeção agnóstica ao contexto. Contrariamente a muitas alternativas, Q-Filters é compatível com FlashAttention, pois não requer acesso direto aos pesos de atenção. Resultados experimentais em configurações de contexto longo demonstram que Q-Filters é competitivo com métodos de compressão baseados em atenção, como SnapKV, em tarefas de recuperação, enquanto consistentemente supera esquemas de compressão eficientes, como Streaming-LLM, em configurações de geração. Notavelmente, Q-Filters alcança 99% de precisão na tarefa de "agulha no palheiro" com um nível de compressão de x32, enquanto reduz a queda de perplexidade na geração de texto em até 65% em comparação com Streaming-LLM.
Agentes de Modelos de Linguagem de Grande Escala (LLM) têm demonstrado capacidades notáveis de generalização em tarefas de múltiplos domínios. As abordagens existentes de ajuste fino de agentes geralmente empregam ajuste supervisionado em trajetórias completas de especialistas. No entanto, a clonagem de comportamento de trajetórias inteiras pode introduzir viés de especialista e enfraquecer a generalização para estados não cobertos pelos dados do especialista. Além disso, etapas críticas, como planejamento, raciocínio complexo para subtarefas intermediárias e tomada de decisão estratégica, são essenciais para o sucesso em tarefas de agentes, portanto, aprender essas etapas é a chave para melhorar os agentes LLM. Para um ajuste de agente mais eficaz e eficiente, propomos o ATLaS, que identifica as etapas críticas nas trajetórias de especialistas e ajusta os LLMs apenas nessas etapas, com custos reduzidos. Ao direcionar o foco do treinamento para algumas etapas críticas, nosso método mitiga o risco de sobreajuste em trajetórias inteiras e promove a generalização em diferentes ambientes e tarefas. Em experimentos extensivos, um LLM ajustado em apenas 30% das etapas críticas selecionadas pelo ATLaS supera o LLM ajustado em todas as etapas e os recentes agentes LLM de código aberto. O ATLaS mantém e melhora as habilidades básicas do LLM como agentes generalistas que interagem com diversos ambientes.
Modelos generalistas têm alcançado sucesso notável tanto em tarefas de linguagem quanto em tarefas de visão e linguagem, demonstrando o potencial da modelagem unificada. No entanto, integrar efetivamente tarefas de percepção de granularidade fina, como detecção e segmentação, nesses modelos continua sendo um desafio significativo. Isso ocorre principalmente porque essas tarefas frequentemente dependem fortemente de designs e arquiteturas específicas para cada tarefa, o que pode complicar o processo de modelagem. Para enfrentar esse desafio, apresentamos \ours, uma estrutura que unifica tarefas de percepção visual de granularidade fina por meio de uma interface de linguagem aberta. Ao transformar todos os alvos de percepção no espaço da linguagem, \ours unifica a detecção em nível de objeto, a segmentação em nível de pixel e tarefas de visão e linguagem em nível de imagem em um único modelo. Além disso, introduzimos uma nova abordagem de recuperação de embeddings que depende exclusivamente da interface de linguagem para suportar tarefas de segmentação. Nossa estrutura preenche a lacuna entre a percepção de granularidade fina e as tarefas de visão e linguagem, simplificando significativamente o design arquitetônico e as estratégias de treinamento, ao mesmo tempo em que alcança desempenho comparável ou superior a métodos com designs específicos para cada tarefa. Após o treinamento multitarefa em cinco conjuntos de dados padrão de percepção visual, \ours supera os modelos generalistas de última geração anteriores em 12,3 mAP na segmentação de instâncias do COCO e em 3,3 mIoU na segmentação semântica do ADE20K. Além disso, nosso método se integra perfeitamente com os MLLMs existentes, combinando efetivamente capacidades de percepção de granularidade fina com suas habilidades avançadas de linguagem, permitindo assim tarefas mais desafiadoras, como a segmentação por raciocínio. O código e os modelos estarão publicamente disponíveis.
A amostragem especulativa emergiu como uma técnica importante para acelerar o processo de geração auto-regressiva de grandes modelos de linguagem (LLMs) ao utilizar um mecanismo de rascunho-verificação para produzir múltiplos tokens por passagem direta. Embora os métodos de amostragem especulativa mais avançados utilizem apenas uma única camada e uma cabeça de modelagem de linguagem (LM) como modelo de rascunho para alcançar uma impressionante compressão de camadas, seus ganhos de eficiência são substancialmente reduzidos para LLMs com vocabulários extensos, como o Llama-3-8B, que possui um vocabulário de 128k tokens. Para resolver isso, apresentamos o FR-Spec, um framework de amostragem especulativa com classificação de frequência que otimiza a seleção de candidatos de rascunho por meio da compressão do espaço de vocabulário. Ao restringir a busca de rascunho a um subconjunto de tokens priorizados por frequência, nosso método reduz a sobrecarga de computação da cabeça LM em 75%, garantindo a equivalência da distribuição final de saída. Experimentos em múltiplos conjuntos de dados demonstram uma aceleração média de 1,12 vezes em relação ao método de amostragem especulativa mais avançado, o EAGLE-2.
A avaliação de conteúdo texto-para-visão depende de dois aspectos cruciais: qualidade visual e alinhamento. Embora progressos significativos tenham sido feitos no desenvolvimento de modelos objetivos para avaliar essas dimensões, o desempenho de tais modelos depende fortemente da escala e da qualidade das anotações humanas. De acordo com a Lei de Escalonamento, aumentar o número de instâncias rotuladas por humanos segue um padrão previsível que melhora o desempenho dos modelos de avaliação. Portanto, introduzimos um conjunto de dados abrangente projetado para Avaliar a Qualidade Visual e o Nível de Alinhamento para conteúdo texto-para-visão (Q-EVAL-100K), apresentando a maior coleção de Pontuações de Opinião Média (MOS) rotuladas por humanos para os dois aspectos mencionados. O conjunto de dados Q-EVAL-100K abrange tanto modelos texto-para-imagem quanto texto-para-vídeo, com 960 mil anotações humanas especificamente focadas em qualidade visual e alinhamento para 100 mil instâncias (60 mil imagens e 40 mil vídeos). Utilizando esse conjunto de dados com prompt de contexto, propomos o Q-Eval-Score, um modelo unificado capaz de avaliar tanto a qualidade visual quanto o alinhamento, com melhorias especiais para lidar com o alinhamento de prompts de texto longo. Resultados experimentais indicam que o Q-Eval-Score proposto alcança desempenho superior tanto em qualidade visual quanto em alinhamento, com fortes capacidades de generalização em outros benchmarks. Essas descobertas destacam o valor significativo do conjunto de dados Q-EVAL-100K. Dados e códigos estarão disponíveis em https://github.com/zzc-1998/Q-Eval.
O aprendizado de preferências aprimora os Code LLMs além do ajuste fino supervisionado ao aproveitar comparações de qualidade relativas. Os métodos existentes constroem pares de preferência a partir de candidatos com base no sucesso dos casos de teste, tratando a amostra com maior taxa de aprovação como positiva e a com menor taxa como negativa. No entanto, essa abordagem não identifica erros específicos no código, o que impede o modelo de aprender padrões mais informativos de correção de erros, já que alinhar o código com falhas como um todo carece da granularidade necessária para capturar relações significativas de resolução de erros. Para abordar esses problemas, propomos o IterPref, um novo framework de alinhamento de preferências que imita a depuração iterativa humana para refinar os Code LLMs. O IterPref localiza explicitamente regiões de erro e alinha os tokens correspondentes por meio de um algoritmo DPO personalizado. Para gerar pares informativos, introduzimos o conjunto de dados CodeFlow, onde as amostras são refinadas iterativamente até passarem nos testes, com modificações que capturam correções de erros. Experimentos extensivos mostram que uma suíte diversificada de Code LLMs equipados com IterPref alcança ganhos significativos de desempenho na geração de código e melhora em tarefas desafiadoras como o BigCodeBench. Análises detalhadas revelam que o IterPref resulta em menos erros. Nosso código e dados serão disponibilizados publicamente.
No aprendizado de representação, a uniformidade refere-se à distribuição uniforme de características no espaço latente (ou seja, a hiperesfera unitária). Trabalhos anteriores demonstraram que melhorar a uniformidade contribui para o aprendizado de classes sub-representadas. No entanto, a maioria dos estudos anteriores focou em classificação; o espaço de representação da regressão desbalanceada permanece inexplorado. Métodos baseados em classificação não são adequados para tarefas de regressão, pois agrupam características em grupos distintos sem considerar a natureza contínua e ordenada essencial para a regressão. Em um aspecto geométrico, focamos exclusivamente em garantir a uniformidade no espaço latente para regressão desbalanceada por meio de duas perdas principais: envoltória e homogeneidade. A perda envoltória incentiva que o traço induzido ocupe uniformemente a superfície de uma hiperesfera, enquanto a perda de homogeneidade garante suavidade, com representações espaçadas uniformemente em intervalos consistentes. Nosso método integra esses princípios geométricos nas representações de dados por meio de um framework de Aprendizado de Representação Orientado por Surrogates (SRL). Experimentos com tarefas de regressão do mundo real e aprendizado de operadores destacam a importância da uniformidade na regressão desbalanceada e validam a eficácia de nossas funções de perda baseadas em geometria.
O avanço da IA em patologia computacional requer grandes conjuntos de dados de alta qualidade e diversificados, mas os conjuntos de dados públicos existentes são frequentemente limitados em termos de diversidade de órgãos, cobertura de classes ou qualidade das anotações. Para preencher essa lacuna, apresentamos o SPIDER (Supervised Pathology Image-DEscription Repository), o maior conjunto de dados publicamente disponível em nível de *patch* que abrange múltiplos tipos de órgãos, incluindo Pele, Colorretal e Tórax, com cobertura abrangente de classes para cada órgão. O SPIDER fornece anotações de alta qualidade verificadas por patologistas especialistas e inclui *patches* de contexto circundante, que melhoram o desempenho da classificação ao fornecer contexto espacial. Juntamente com o conjunto de dados, apresentamos modelos de referência treinados no SPIDER utilizando o modelo base Hibou-L como extrator de características combinado com um cabeçalho de classificação baseado em atenção. Os modelos alcançam desempenho de ponta em múltiplas categorias de tecidos e servem como benchmarks robustos para futuras pesquisas em patologia digital. Além da classificação de *patches*, o modelo permite a identificação rápida de áreas significativas, métricas quantitativas de tecido e estabelece uma base para abordagens multimodais. Tanto o conjunto de dados quanto os modelos treinados estão publicamente disponíveis para impulsionar a pesquisa, a reprodutibilidade e o desenvolvimento de patologia impulsionada por IA. Acesse-os em: https://github.com/HistAI/SPIDER
Nos últimos anos, os modelos visuais de base geral (VFMs, na sigla em inglês) têm sido cada vez mais adotados, especialmente como codificadores de imagem para modelos de linguagem multimodal de grande escala (MLLMs, na sigla em inglês). No entanto, sem supervisão semanticamente refinada, esses modelos ainda enfrentam erros fundamentais de previsão no contexto de tarefas relacionadas a texto e imagem, ou seja, percepção, compreensão e raciocínio com imagens que contêm textos pequenos e densos. Para preencher essa lacuna, desenvolvemos o TokenOCR, o primeiro modelo visual de base em nível de token especificamente adaptado para tarefas relacionadas a texto e imagem, projetado para suportar uma variedade de aplicações tradicionais a jusante. Para facilitar o pré-treinamento do TokenOCR, também criamos um pipeline de produção de dados de alta qualidade que constrói o primeiro conjunto de dados de texto em imagem em nível de token, o TokenIT, composto por 20 milhões de imagens e 1,8 bilhão de pares token-máscara. Além disso, aproveitando essa base com capacidade excepcional de tratar imagens como texto, substituímos de forma contínua os VFMs anteriores pelo TokenOCR para construir um MLLM em nível de documento, o TokenVL, para tarefas de compreensão de documentos baseadas em VQA (Question Answering Visual). Por fim, experimentos extensivos demonstram a eficácia do TokenOCR e do TokenVL. Códigos, conjuntos de dados e pesos estarão disponíveis em https://token-family.github.io/TokenOCR_project.
Embora os avanços em modelos de linguagem de grande escala (LLMs) tenham melhorado significativamente a qualidade dos dados textuais sintéticos nos últimos anos, a síntese de dados tabulares tem recebido relativamente menos atenção. Abordamos essa disparidade com o Tabby, uma modificação pós-treinamento simples, mas poderosa, na arquitetura padrão do modelo de linguagem Transformer, permitindo seu uso para a síntese de conjuntos de dados tabulares. O Tabby permite a representação de diferenças entre colunas usando uma Mistura Especializada de Especialistas (Gated Mixture-of-Experts), com conjuntos de parâmetros específicos para cada coluna. Empiricamente, o Tabby resulta em uma qualidade de dados próxima ou igual à dos dados reais. Ao combinar nossa nova técnica de treinamento de tabelas em LLM, chamada Plain, com o Tabby, observamos uma melhoria de até 44% na qualidade em relação a métodos anteriores. Também mostramos que o Tabby vai além de tabelas, aplicando-se a dados estruturados mais gerais, alcançando paridade com dados reais em um conjunto de dados JSON aninhado.
Nas últimas décadas, pesquisas neurocientíficas e psicológicas têm traçado relações diretas entre percepções gustativas e auditivas. Este artigo explora modelos generativos multimodais capazes de converter informações gustativas em música, com base nessas pesquisas fundamentais. Apresentamos uma breve revisão do estado da arte nesse campo, destacando descobertas e metodologias-chave. Descrevemos um experimento no qual uma versão ajustada de um modelo generativo de música (MusicGEN) é utilizada para gerar música com base em descrições detalhadas de sabor fornecidas para cada peça musical. Os resultados são promissores: de acordo com a avaliação dos participantes (n=111), o modelo ajustado produz músicas que refletem de forma mais coerente as descrições de sabor fornecidas, em comparação com o modelo não ajustado. Este estudo representa um passo significativo para compreender e desenvolver interações incorporadas entre IA, som e sabor, abrindo novas possibilidades no campo da IA generativa. Disponibilizamos nosso conjunto de dados, código e modelo pré-treinado em: https://osf.io/xs5jy/.
Este artigo apresenta o Discrete-time Hybrid Automata Learning (DHAL), um framework que utiliza Aprendizado por Reforço on-policy para identificar e executar mudanças de modo sem segmentação de trajetória ou aprendizado de função de evento. Sistemas dinâmicos híbridos, que incluem fluxo contínuo e mudança discreta de modo, podem modelar tarefas robóticas como a locomoção de robôs com pernas. Métodos baseados em modelo geralmente dependem de padrões de marcha predefinidos, enquanto abordagens livres de modelo carecem de conhecimento explícito sobre mudanças de modo. Métodos atuais identificam modos discretos por meio de segmentação antes de regredir o fluxo contínuo, mas aprender dinâmicas complexas de corpo rígido em alta dimensão sem rótulos de trajetória ou segmentação é um problema aberto desafiador. Nossa abordagem incorpora uma distribuição de política beta e uma arquitetura multi-crítica para modelar movimentos guiados por contato, exemplificados por uma tarefa desafiadora de um robô quadrúpede em um skate. Validamos nosso método por meio de simulações e testes no mundo real, demonstrando desempenho robusto em sistemas dinâmicos híbridos.