Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de Linguagem de Grande Escala (LLMs) frequentemente geram respostas com vieses inerentes, comprometendo sua confiabilidade em aplicações do mundo real. Os métodos de avaliação existentes muitas vezes negligenciam vieses em respostas longas e a variabilidade intrínseca das saídas dos LLMs. Para enfrentar esses desafios, propomos o FiSCo (Cálculo Semântico de Granularidade Fina), uma nova estrutura estatística para avaliar a justiça em nível de grupo em LLMs, detectando diferenças semânticas sutis em respostas longas entre grupos demográficos. Diferente de trabalhos anteriores que focam em sentimentos ou comparações no nível de tokens, o FiSCo vai além da análise superficial ao operar no nível de afirmações, utilizando verificações de implicação para avaliar a consistência do significado entre as respostas. Decompomos as saídas dos modelos em afirmações semanticamente distintas e aplicamos testes de hipóteses estatísticas para comparar similaridades inter e intra-grupos, permitindo a detecção robusta de vieses sutis. Formalizamos uma nova definição de justiça contrafactual de grupo e validamos o FiSCo em conjuntos de dados sintéticos e anotados por humanos, abrangendo gênero, raça e idade. Experimentos mostram que o FiSCo identifica vieses mais sutis de forma mais confiável, reduzindo o impacto da variabilidade estocástica dos LLMs e superando várias métricas de avaliação.
A implantação robusta de grandes modelos multimodais (LMMs) em cenários do mundo real requer acesso a fontes de conhecimento externas, dada a complexidade e a natureza dinâmica das informações do mundo real. Abordagens existentes, como geração aumentada por recuperação (RAG) e agentes de busca com engenharia de prompt, dependem de pipelines rígidos, frequentemente levando a comportamentos de busca ineficientes ou excessivos. Apresentamos o MMSearch-R1, o primeiro framework de aprendizado por reforço de ponta a ponta que permite que LMMs realizem buscas sob demanda e de múltiplas interações em ambientes reais da Internet. Nosso framework integra ferramentas de busca de imagem e texto, permitindo que o modelo raciocine sobre quando e como invocá-las, guiado por uma recompensa baseada em resultados com uma penalidade de busca. Para apoiar o treinamento, coletamos um conjunto de dados de perguntas e respostas visuais (VQA) multimodais por meio de um pipeline semi-automatizado que abrange diversas necessidades de conhecimento visual e textual, e selecionamos um subconjunto balanceado com amostras que requerem busca e amostras que não requerem, o que se mostrou essencial para moldar um comportamento de busca eficiente e sob demanda. Experimentos extensivos em tarefas de VQA intensivas em conhecimento e de busca de informação mostram que nosso modelo não apenas supera as linhas de base baseadas em RAG do mesmo tamanho, mas também iguala o desempenho de um modelo baseado em RAG maior, enquanto reduz as chamadas de busca em mais de 30%. Analisamos ainda descobertas empíricas-chave para oferecer insights acionáveis que avancem a pesquisa em busca multimodal.
Apresentamos o Matrix-Game, um modelo de fundação de mundo interativo para geração controlada de mundos de jogos. O Matrix-Game é treinado usando um pipeline de duas etapas que primeiro realiza pré-treinamento em larga escala sem rótulos para compreensão do ambiente, seguido por treinamento com rótulos de ação para geração de vídeo interativo. Para suportar isso, organizamos o Matrix-Game-MC, um conjunto abrangente de dados do Minecraft que compreende mais de 2.700 horas de clipes de vídeo de jogabilidade sem rótulos e mais de 1.000 horas de clipes de alta qualidade com anotações detalhadas de ações de teclado e mouse. Nosso modelo adota um paradigma de geração controlada de imagem para mundo, condicionado a uma imagem de referência, contexto de movimento e ações do usuário. Com mais de 17 bilhões de parâmetros, o Matrix-Game permite controle preciso sobre as ações dos personagens e movimentos da câmera, mantendo alta qualidade visual e coerência temporal. Para avaliar o desempenho, desenvolvemos o GameWorld Score, um benchmark unificado que mede qualidade visual, qualidade temporal, controlabilidade de ações e compreensão das regras físicas para geração de mundos no Minecraft. Experimentos extensivos mostram que o Matrix-Game supera consistentemente modelos anteriores de mundo do Minecraft de código aberto (incluindo Oasis e MineWorld) em todas as métricas, com ganhos particularmente fortes em controlabilidade e consistência física. Avaliações humanas duplamente cegas confirmam ainda mais a superioridade do Matrix-Game, destacando sua capacidade de gerar vídeos perceptualmente realistas e precisamente controláveis em diversos cenários de jogo. Para facilitar pesquisas futuras sobre geração interativa de imagem para mundo, disponibilizaremos os pesos do modelo Matrix-Game e o benchmark GameWorld Score em https://github.com/SkyworkAI/Matrix-Game.
A edição de fotos tornou-se parte integrante da narrativa visual contemporânea, permitindo que os usuários capturem estéticas e expressem criatividade. Embora ferramentas profissionais como o Adobe Lightroom ofereçam recursos poderosos, elas exigem expertise substancial e esforço manual. Em contraste, as soluções existentes baseadas em IA fornecem automação, mas frequentemente sofrem com ajustabilidade limitada e generalização precária, falhando em atender às diversas e personalizadas necessidades de edição. Para preencher essa lacuna, apresentamos o JarvisArt, um agente impulsionado por um modelo de linguagem multimodal (MLLM) que compreende a intenção do usuário, imita o processo de raciocínio de artistas profissionais e coordena inteligentemente mais de 200 ferramentas de edição dentro do Lightroom. O JarvisArt passa por um processo de treinamento em duas etapas: um ajuste fino supervisionado inicial com Chain-of-Thought para estabelecer habilidades básicas de raciocínio e uso de ferramentas, seguido pela Otimização de Política Relativa em Grupo para Edição (GRPO-R) para aprimorar ainda mais sua tomada de decisão e proficiência com as ferramentas. Também propomos o Protocolo Agente-para-Lightroom para facilitar a integração perfeita com o Lightroom. Para avaliar o desempenho, desenvolvemos o MMArt-Bench, um novo benchmark construído a partir de edições reais de usuários. O JarvisArt demonstra interação amigável, superior generalização e controle refinado sobre ajustes globais e locais, abrindo um novo caminho para a edição inteligente de fotos. Notavelmente, ele supera o GPT-4o com uma melhoria de 60% nas métricas médias de nível de pixel no MMArt-Bench para fidelidade de conteúdo, mantendo capacidades comparáveis de seguir instruções. Página do Projeto: https://jarvisart.vercel.app/.
Apresentamos o AnimaX, um framework de animação 3D feed-forward que conecta os priors de movimento dos modelos de difusão de vídeo com a estrutura controlável da animação baseada em esqueletos. Os métodos tradicionais de síntese de movimento são limitados a topologias esqueléticas fixas ou exigem otimizações custosas em espaços de deformação de alta dimensionalidade. Em contraste, o AnimaX transfere efetivamente o conhecimento de movimento baseado em vídeo para o domínio 3D, suportando malhas articuladas diversas com esqueletos arbitrários. Nosso método representa o movimento 3D como mapas de poses 2D multi-visão e multi-quadro, e habilita a difusão conjunta de vídeo-pose condicionada em renderizações de template e um prompt textual de movimento. Introduzimos codificações posicionais compartilhadas e embeddings conscientes da modalidade para garantir o alinhamento espaço-temporal entre sequências de vídeo e pose, transferindo efetivamente os priors de vídeo para a tarefa de geração de movimento. As sequências de pose multi-visão resultantes são trianguladas em posições de juntas 3D e convertidas em animação de malha via cinemática inversa. Treinado em um novo conjunto de dados de 160.000 sequências rigged, o AnimaX alcança resultados state-of-the-art no VBench em generalização, fidelidade de movimento e eficiência, oferecendo uma solução escalável para animação 3D independente de categoria. Página do projeto: https://anima-x.github.io/{https://anima-x.github.io/}.
A engenharia de software (SWE) emergiu recentemente como um campo crucial para testar agentes de LLM de próxima geração, exigindo capacidades inerentes em duas dimensões críticas: resolução iterativa e sustentada de problemas (por exemplo, >50 rodadas de interação) e resolução de dependências de contexto longo (por exemplo, >32k tokens). No entanto, o processo de curadoria de dados em SWE continua notoriamente demorado, pois depende fortemente de anotação manual para filtragem de arquivos de código e configuração de ambientes de execução dedicados para executar e validar testes unitários. Consequentemente, a maioria dos conjuntos de dados existentes é limitada a apenas alguns milhares de instâncias provenientes do GitHub. Para isso, propomos um pipeline de curadoria de dados incremental e automatizado que escala sistematicamente tanto o volume quanto a diversidade dos conjuntos de dados de SWE. Nosso conjunto de dados compreende 10.169 instâncias de tarefas reais em Python de 2.531 repositórios distintos do GitHub, cada uma acompanhada de uma tarefa especificada em linguagem natural e uma imagem de ambiente de execução dedicada para validação automatizada de testes unitários. Cuidadosamente, selecionamos mais de 8.000 trajetórias de treinamento validadas em tempo de execução a partir do nosso conjunto de dados proposto para SWE. Ao ajustar o modelo Skywork-SWE nessas trajetórias, descobrimos um fenômeno impressionante de escalabilidade de dados: o desempenho do modelo treinado para capacidades de engenharia de software em LLMs continua a melhorar à medida que o tamanho dos dados aumenta, sem mostrar sinais de saturação. Notavelmente, nosso modelo Skywork-SWE alcança 38,0% de precisão pass@1 no benchmark SWE-bench Verified sem o uso de verificadores ou múltiplas execuções, estabelecendo um novo estado da arte (SOTA) entre os LLMs baseados no Qwen2.5-Coder-32B construídos sobre o framework OpenHands. Além disso, com a incorporação de técnicas de escalabilidade em tempo de teste, o desempenho melhora ainda mais para 47,0% de precisão, superando os resultados SOTA anteriores para modelos com menos de 32 bilhões de parâmetros. Disponibilizamos o checkpoint do modelo Skywork-SWE-32B para acelerar pesquisas futuras.
Propomos o Chain-of-Experts (CoE), uma nova arquitetura de Mixture-of-Experts (MoE) que introduz comunicação sequencial entre especialistas dentro de cada camada. Diferente dos modelos MoE tradicionais, onde os especialistas operam de forma independente e paralela, o CoE processa tokens iterativamente através de uma cadeia de especialistas dentro de uma camada. Para suportar a seleção dinâmica de especialistas ao longo das iterações, o CoE emprega um roteador dedicado em cada passo de iteração dentro de uma camada. Esse design permite que os tokens reavaliem e selecionem diferentes especialistas durante cada iteração, em vez de serem atribuídos estaticamente. Como resultado, o CoE introduz um mecanismo de roteamento flexível que aumenta a diversidade de combinações de especialistas e enriquece a capacidade representacional do modelo. O CoE demonstra um desempenho aprimorado sob computação fixa: em tarefas de raciocínio matemático, reduz a perda de validação de 1,20 para 1,12 em comparação com um MoE padrão. Além do desempenho, o CoE oferece um novo eixo de escalonamento: profundidade através da iteração de especialistas, que complementa o escalonamento convencional de largura/profundidade. Por exemplo, usar 2x iterações corresponde ao desempenho de 3x seleções de especialistas (em largura), enquanto reduz o uso de memória em 17,6-42% em relação a outras estratégias de escalonamento. Nossa análise revela que os benefícios do CoE decorrem de sua estrutura residual iterativa e da especialização aprimorada dos especialistas possibilitada pelo roteamento iterativo, que juntos desbloqueiam representações mais expressivas. O código está disponível em https://github.com/ZihanWang314/coe.
Abordagens recentes de aprendizado por reforço, como o GRPO supervisionado por resultados, avançaram o raciocínio em cadeia de pensamento (Chain-of-Thought) em grandes modelos de linguagem (LLMs), mas sua adaptação para modelos de linguagem multimodal (MLLMs) ainda não foi explorada. Para abordar a falta de avaliação rigorosa de métodos de pós-treinamento para MLLMs, introduzimos o SEED-Bench-R1, um benchmark com vídeos complexos do mundo real que exigem percepção e raciocínio equilibrados. Ele oferece um grande conjunto de treinamento e avalia a generalização em três desafios crescentes: cenários dentro da distribuição, entre ambientes e entre ambientes e tarefas. Usando o SEED-Bench-R1, descobrimos que o GRPO padrão, embora melhore a precisão das respostas, frequentemente reduz a coerência lógica entre as etapas de raciocínio e as respostas, com uma taxa de consistência de apenas 57,9%. Isso decorre de sinais de recompensa focados apenas nas respostas finais, incentivando atalhos, e penalidades de KL rigorosas limitando a exploração. Para resolver isso, propomos o GRPO-CARE, uma estrutura de RL consciente da consistência que otimiza tanto a correção das respostas quanto a coerência do raciocínio sem supervisão explícita. O GRPO-CARE introduz uma recompensa em dois níveis: (1) uma recompensa base para a correção da resposta, e (2) um bônus de consistência adaptativo, calculado comparando a probabilidade do raciocínio-para-resposta do modelo (via um modelo de referência de evolução lenta) com seus pares do grupo. Esse mecanismo duplo amplifica as recompensas para caminhos de raciocínio que são corretos e logicamente consistentes. Substituindo as penalidades de KL por esse bônus adaptativo, o GRPO-CARE supera o GRPO padrão no SEED-Bench-R1, alcançando um ganho de desempenho de 6,7% no nível de avaliação mais difícil e uma melhoria de 24,5% na consistência. Ele também mostra forte transferibilidade, melhorando o desempenho do modelo em diversos benchmarks de compreensão de vídeo. Nosso trabalho contribui com um benchmark sistematicamente projetado e uma estrutura de pós-treinamento generalizável, avançando o desenvolvimento de MLLMs mais interpretáveis e robustos.
Este artigo apresenta o ScaleCap, uma estratégia escalável de geração de legendas para imagens em tempo de inferência que produz descrições abrangentes e detalhadas. Os principais desafios da geração de legendas de alta qualidade residem nos vieses inerentes dos LVLMs (Large Vision-Language Models): o viés multimodal resulta em granularidade descritiva desequilibrada, oferecendo relatos detalhados de alguns elementos enquanto apenas menciona superficialmente outros; o viés linguístico leva a descrições alucinadas de objetos inexistentes. Para abordar esses problemas, propomos uma estratégia escalável de geração de legendas com redução de viés, que enriquece e calibra continuamente a legenda com o aumento do orçamento de inferência. Especificamente, propomos dois novos componentes: resposta heurística a perguntas e avaliação contrastiva de sentenças. O primeiro gera perguntas específicas com base na imagem e as responde para injetar progressivamente informações relevantes na legenda. O segundo emprega decodificação contrastiva offline em nível de sentença para identificar e eliminar efetivamente alucinações causadas por vieses linguísticos. Com o aumento do custo de inferência, o ScaleCap formula mais perguntas heurísticas para capturar progressivamente detalhes visuais adicionais, gerando legendas mais precisas, equilibradas e informativas. Experimentos extensivos de alinhamento de modalidades demonstram a eficácia do ScaleCap. A anotação de 450 mil imagens com o ScaleCap e seu uso no pré-treinamento de LVLMs resulta em ganhos consistentes de desempenho em 11 benchmarks amplamente utilizados. Além disso, o ScaleCap demonstra excelente riqueza e fidelidade das legendas geradas em duas tarefas adicionais: substituir imagens por legendas em tarefas de VQA (Visual Question Answering) e reconstruir imagens a partir de legendas para avaliar a cobertura semântica. O código está disponível em https://github.com/Cooperx521/ScaleCap.
Modelos visão-linguagem-ação (VLAs) têm atraído atenção significativa por seu potencial em avançar a manipulação robótica. No entanto, abordagens anteriores dependem predominantemente das capacidades de compreensão geral dos modelos visão-linguagem (VLMs) para gerar sinais de ação, muitas vezes negligenciando a rica estrutura temporal e causal incorporada nas observações visuais. Neste artigo, apresentamos o UniVLA, um modelo multimodal VLA unificado e nativo que modela autoregressivamente sinais de visão, linguagem e ação como sequências de tokens discretos. Essa formulação permite o aprendizado flexível de tarefas multimodais, particularmente a partir de dados de vídeo em larga escala. Ao incorporar a modelagem de mundo durante o pós-treinamento, o UniVLA captura dinâmicas causais de vídeos, facilitando a transferência eficaz para o aprendizado de políticas subsequentes—especialmente para tarefas de longo horizonte. Nossa abordagem estabelece novos resultados de estado da arte em vários benchmarks de simulação amplamente utilizados, incluindo CALVIN, LIBERO e Simplenv-Bridge, superando significativamente métodos anteriores. Por exemplo, o UniVLA alcança uma taxa média de sucesso de 95,5% no benchmark LIBERO, superando os 85,5% do pi0-FAST. Demonstramos ainda sua ampla aplicabilidade na manipulação do mundo real com o ALOHA e na condução autônoma.
A resolução de problemas complexos de SQL continua sendo um gargalo significativo em aplicações de banco de dados do mundo real. Os atuais Modelos de Linguagem de Grande Escala (LLMs), embora habilidosos na tradução de texto para SQL, não foram rigorosamente avaliados na tarefa mais desafiadora de depuração de problemas de SQL. Para preencher essa lacuna, introduzimos o BIRD-CRITIC, um novo benchmark de depuração de problemas de SQL composto por 530 tarefas PostgreSQL (BIRD-CRITIC-PG) e 570 tarefas multi-dialeto (BIRD-CRITIC-Multi), extraídas de problemas reais de usuários e reproduzidas em novos ambientes para facilitar uma avaliação rigorosa. As avaliações de base destacam a complexidade da tarefa, com o modelo de raciocínio líder O3-Mini alcançando apenas 38,87% de taxa de sucesso no BIRD-CRITIC-PG e 33,33% no BIRD-CRITIC-Multi. Enquanto isso, avançar modelos de código aberto para tarefas de banco de dados é crucial para capacitar o desenvolvimento local enquanto protege a privacidade dos dados. Portanto, apresentamos o Six-Gym (Sql-fIX-Gym), um ambiente de treinamento para elevar as capacidades de modelos de código aberto na depuração de problemas de SQL. Este ambiente aproveita a estratégia SQL-Rewind, que gera automaticamente conjuntos de dados executáveis de problemas-soluções ao fazer engenharia reversa de problemas a partir de SQLs verificados. No entanto, métodos populares de ajuste fino baseados em trajetória não exploram sinais supervisionais substanciais. Propomos ainda o f-Plan Boosting, que extrai planos de depuração de alto nível a partir de soluções SQL, permitindo que LLMs professores produzam 73,7% mais trajetórias bem-sucedidas para treinamento. Integramos esses componentes em um agente de código aberto, o Bird-Fixer. Baseado no Qwen-2.5-Coder-14B, o Bird-Fixer alcança 38,11% de taxa de sucesso no BIRD-CRITIC-PG e 29,65% no BIRD-CRITIC-Multi, superando modelos proprietários líderes como Claude-3.7-Sonnet e GPT-4.1, marcando um passo significativo em direção à democratização de capacidades sofisticadas de depuração de SQL. O leaderboard e o código-fonte estão disponíveis em: https://bird-critic.github.io/
A variação na anotação humana (ou seja, discordâncias na anotação) é comum em PLN e frequentemente reflete informações importantes, como a subjetividade da tarefa e a ambiguidade das amostras. Embora os Modelos de Linguagem de Grande Escala (LLMs) sejam cada vez mais utilizados para anotação automática com o objetivo de reduzir o esforço humano, sua avaliação geralmente se concentra na previsão dos rótulos de "verdade fundamental" determinados por votação majoritária. No entanto, ainda não está claro se esses modelos também capturam a variação informativa das anotações humanas. Nosso trabalho aborda essa lacuna avaliando extensivamente a capacidade dos LLMs de prever discordâncias de anotação sem acesso a rótulos humanos repetidos. Nossos resultados mostram que os LLMs têm dificuldade em modelar discordâncias, o que pode ser negligenciado por avaliações baseadas em rótulos majoritários. Notavelmente, embora o raciocínio no estilo RLVR (Reinforcement Learning with Verifiable Rewards) geralmente melhore o desempenho dos LLMs, ele degrada o desempenho na previsão de discordâncias. Nossas descobertas destacam a necessidade crítica de avaliar e melhorar os anotadores baseados em LLMs na modelagem de discordâncias. Código e dados disponíveis em https://github.com/EdisonNi-hku/Disagreement_Prediction.
Modelos de linguagem de grande escala (LLMs) têm alcançado progressos notáveis em tarefas de raciocínio, mas a integração ideal entre Ajuste Fino Supervisionado (SFT) e Aprendizado por Reforço (RL) continua sendo um desafio fundamental. Por meio de uma análise abrangente das distribuições de tokens, dinâmicas de aprendizado e mecanismos de integração a partir de perspectivas baseadas em entropia, revelamos diferenças-chave entre esses paradigmas: o SFT induz mudanças globais de granularidade grossa nas distribuições de políticas dos LLMs, enquanto o RL realiza otimizações seletivas de granularidade fina, com a entropia servindo como um indicador crítico da eficácia do treinamento. Com base nessas observações, propomos o Ajuste Fino Supervisionado por Reforço (SRFT), um método de estágio único que unifica ambos os paradigmas de ajuste fino por meio de mecanismos de ponderação conscientes da entropia. Nossa abordagem aplica simultaneamente SFT e RL para otimizar diretamente o LLM usando demonstrações e rollouts de autoexploração, em vez de métodos sequenciais de dois estágios. Experimentos extensivos mostram que o SRFT alcança uma precisão média de 59,1%, superando métodos sem RL em 9,0% em cinco benchmarks de raciocínio matemático e em 10,9% em três benchmarks fora da distribuição.
A orientação sem classificador (Classifier-free Guidance - CFG) tornou-se um componente essencial dos modernos modelos de difusão condicional. Embora altamente eficaz na prática, os mecanismos subjacentes pelos quais a CFG melhora a qualidade, os detalhes e o alinhamento com o prompt não são totalmente compreendidos. Apresentamos uma nova perspectiva sobre a CFG ao analisar seus efeitos no domínio da frequência, mostrando que as frequências baixas e altas têm impactos distintos na qualidade da geração. Especificamente, a orientação de baixa frequência governa a estrutura global e o alinhamento da condição, enquanto a orientação de alta frequência principalmente melhora a fidelidade visual. No entanto, aplicar uma escala uniforme em todas as frequências -- como é feito na CFG padrão -- leva à supersaturação e à redução da diversidade em escalas altas e à degradação da qualidade visual em escalas baixas. Com base nessas percepções, propomos a orientação desacoplada por frequência (Frequency-Decoupled Guidance - FDG), uma abordagem eficaz que decompõe a CFG em componentes de baixa e alta frequência e aplica forças de orientação separadas a cada componente. A FDG melhora a qualidade da imagem em escalas de orientação baixas e evita as desvantagens das escalas altas de CFG por design. Através de extensos experimentos em múltiplos conjuntos de dados e modelos, demonstramos que a FDG consistentemente melhora a fidelidade das amostras enquanto preserva a diversidade, levando a melhorias no FID e no recall em comparação com a CFG, estabelecendo nosso método como uma alternativa plug-and-play à orientação sem classificador padrão.
Os modelos de difusão latente emergiram como um paradigma líder para a geração eficiente de vídeos. No entanto, à medida que as expectativas dos usuários se voltam para saídas de maior resolução, confiar apenas na computação latente torna-se inadequado. Uma abordagem promissora envolve desacoplar o processo em dois estágios: geração de conteúdo semântico e síntese de detalhes. O primeiro emprega um modelo base computacionalmente intensivo em resoluções mais baixas, enquanto o segundo aproveita um modelo leve de super-resolução de vídeo em cascata (VSR) para alcançar saída de alta resolução. Neste trabalho, focamos em estudar princípios-chave de design para modelos VSR em cascata, que atualmente são pouco explorados. Primeiro, propomos duas estratégias de degradação para gerar pares de treinamento que melhor imitam as características de saída do modelo base, garantindo alinhamento entre o modelo VSR e seu gerador upstream. Segundo, fornecemos insights críticos sobre o comportamento do modelo VSR por meio de análise sistemática de (1) estratégias de amostragem de timesteps, (2) efeitos de aumento de ruído em entradas de baixa resolução (LR). Essas descobertas informam diretamente nossas inovações arquitetônicas e de treinamento. Por fim, introduzimos a unidade temporal intercalada e a atenção local esparsa para alcançar treinamento e inferência eficientes, reduzindo drasticamente a sobrecarga computacional. Experimentos extensivos demonstram a superioridade de nosso framework sobre os métodos existentes, com estudos de ablação confirmando a eficácia de cada escolha de design. Nosso trabalho estabelece uma linha de base simples, porém eficaz, para geração de super-resolução de vídeo em cascata, oferecendo insights práticos para orientar avanços futuros em sistemas de síntese em cascata eficientes.
Modelos de raciocínio se destacam ao gerar longas cadeias de pensamento, mas decodificar os milhares de tokens resultantes é lento. A decodificação especulativa em nível de token (SD) ajuda, mas seu benefício é limitado, pois a chance de que uma suposição de gamma-tokens inteira esteja correta diminui exponencialmente à medida que gamma cresce. Isso significa que alocar mais recursos computacionais para rascunhos de tokens mais longos enfrenta um teto algorítmico — tornando o ganho de velocidade modesto e independente de hardware. Nós elevamos esse teto com o Raciocínio Antecipado (Lookahead Reasoning), que explora uma segunda camada de paralelismo em nível de etapa. Nossa principal percepção é que modelos de raciocínio geram passo a passo, e cada etapa precisa apenas estar semanticamente correta, não exigindo correspondência exata de tokens. No Raciocínio Antecipado, um modelo leve de rascunho propõe várias etapas futuras; o modelo alvo expande cada proposta em uma única passagem em lote, e um verificador mantém as etapas semanticamente corretas enquanto permite que o modelo alvo regenere qualquer uma que falhe. A SD em nível de token ainda opera dentro de cada etapa de raciocínio, então as duas camadas de paralelismo se multiplicam. Mostramos que o Raciocínio Antecipado eleva o pico de aceleração da SD tanto teoricamente quanto empiricamente. Em benchmarks como GSM8K, AIME e outros, o Raciocínio Antecipado melhora o ganho de velocidade da SD de 1,4x para 2,1x enquanto preserva a qualidade das respostas, e sua aceleração escala melhor com o aumento de capacidade de GPU. Nosso código está disponível em https://github.com/hao-ai-lab/LookaheadReasoning.
O aprendizado auto-supervisionado (SSL, na sigla em inglês) revolucionou as representações de áudio, mas os modelos frequentemente permanecem específicos de domínio, focando em tarefas de fala ou não fala. Neste trabalho, apresentamos a Distilação Universal de Fala e Áudio (USAD, na sigla em inglês), uma abordagem unificada para o aprendizado de representações de áudio que integra diversos tipos de áudio — fala, som e música — em um único modelo. A USAD emprega uma eficiente distilação camada a camada a partir de modelos SSL específicos de domínio para treinar um modelo estudante em um conjunto de dados de áudio abrangente. A USAD oferece desempenho competitivo em vários benchmarks e conjuntos de dados, incluindo tarefas de processamento de fala em nível de quadro e instância, etiquetagem de áudio e classificação de sons, alcançando resultados próximos ao estado da arte com um único codificador nos benchmarks SUPERB e HEAR.
A alternância de código (CSW) é o ato de alternar entre dois ou mais idiomas dentro de um mesmo discurso. Esse fenômeno é amplamente difundido em comunidades multilíngues e cada vez mais prevalente em conteúdos online, onde os usuários naturalmente misturam idiomas em suas comunicações cotidianas. Como resultado, os Modelos de Linguagem de Grande Escala (LLMs), agora centrais no processamento e geração de conteúdo, são frequentemente expostos a entradas com alternância de código. Dada sua ampla utilização, é crucial entender como os LLMs processam e raciocinam sobre textos misturados em diferentes idiomas. Este artigo apresenta uma avaliação sistemática da compreensão dos LLMs sob alternância de código, gerando variantes CSW de benchmarks estabelecidos de raciocínio e compreensão. Embora a degradação seja evidente quando tokens estrangeiros interrompem textos em inglês—mesmo sob restrições linguísticas—a incorporação do inglês em outros idiomas frequentemente melhora a compreensão. Embora o prompting produza resultados mistos, o fine-tuning oferece um caminho mais estável para mitigar a degradação.
Modelos de Linguagem de Grande Escala (LLMs) mostram potencial na automação de tarefas de análise de dados, mas os modelos de código aberto enfrentam limitações significativas nesses cenários que exigem raciocínio intensivo. Neste trabalho, investigamos estratégias para aprimorar as capacidades de análise de dados de LLMs de código aberto. Ao criar um conjunto de dados inicial com cenários diversos e realistas, avaliamos os modelos em três dimensões: compreensão de dados, geração de código e planejamento estratégico. Nossa análise revela três descobertas principais: (1) A qualidade do planejamento estratégico é o principal determinante do desempenho do modelo; (2) O design de interação e a complexidade da tarefa influenciam significativamente as capacidades de raciocínio; (3) A qualidade dos dados tem um impacto maior do que a diversidade para alcançar o desempenho ideal. Utilizamos essas percepções para desenvolver uma metodologia de síntese de dados, demonstrando melhorias significativas nas capacidades de raciocínio analítico de LLMs de código aberto.
O ajuste fino ortogonal (OFT) oferece uma adaptação altamente eficiente em termos de parâmetros, evitando o esquecimento catastrófico, mas suas altas demandas de tempo de execução e memória limitam sua implantação prática. Identificamos o principal gargalo computacional no OFT como sua implementação centrada em pesos, que depende de multiplicações matriz-matriz de custo elevado com complexidade cúbica. Para superar isso, propomos o OFTv2, uma reformulação centrada em entradas que, em vez disso, utiliza multiplicações matriz-vetor (ou seja, computação livre de matrizes), reduzindo o custo computacional para quadrático. Além disso, introduzimos a parametrização de Cayley-Neumann, uma parametrização ortogonal eficiente que aproxima a inversão de matriz na transformada de Cayley por meio de uma série de Neumann truncada. Essas modificações permitem que o OFTv2 alcance um treinamento até 10x mais rápido e um uso de memória GPU 3x menor, sem comprometer o desempenho. Adicionalmente, estendemos o OFTv2 para suportar o ajuste fino de modelos de base quantizados e mostramos que ele supera o popular QLoRA em estabilidade de treinamento, eficiência e uso de memória.
A geração de modalidades visuais de alta dimensionalidade é uma tarefa computacionalmente intensiva. Uma solução comum é a geração progressiva, onde as saídas são sintetizadas de maneira espectral autorregressiva, do grosseiro ao refinado. Embora os modelos de difusão se beneficiem da natureza de grosseiro para refinado do processo de remoção de ruído, arquiteturas multiestágio explícitas raramente são adotadas. Essas arquiteturas aumentam a complexidade da abordagem geral, introduzindo a necessidade de uma formulação de difusão personalizada, transições de estágio dependentes da decomposição, amostradores ad-hoc ou uma cascata de modelos. Nossa contribuição, o Decomposable Flow Matching (DFM), é uma estrutura simples e eficaz para a geração progressiva de mídia visual. O DFM aplica o Flow Matching de forma independente em cada nível de uma representação multiescala definida pelo usuário (como a pirâmide Laplaciana). Como mostrado por nossos experimentos, nossa abordagem melhora a qualidade visual tanto para imagens quanto para vídeos, apresentando resultados superiores em comparação com estruturas multiestágio anteriores. No Imagenet-1k 512px, o DFM alcança melhorias de 35,2% nos escores FDD em relação à arquitetura base e 26,4% em relação à linha de base de melhor desempenho, sob o mesmo custo computacional de treinamento. Quando aplicado ao ajuste fino de modelos grandes, como o FLUX, o DFM mostra uma velocidade de convergência mais rápida para a distribuição de treinamento. Crucialmente, todas essas vantagens são alcançadas com um único modelo, simplicidade arquitetônica e modificações mínimas nos pipelines de treinamento existentes.
Modelos de Linguagem de Grande Escala (LLMs), particularmente modelos de pensamento lento, frequentemente exibem alucinações severas, gerando conteúdo incorreto devido à incapacidade de reconhecer com precisão os limites do conhecimento durante o raciocínio. Embora o Aprendizado por Reforço (RL) possa aprimorar as habilidades de raciocínio complexo, seu mecanismo de recompensa orientado a resultados frequentemente carece de supervisão factual sobre o processo de pensamento, exacerbando ainda mais o problema de alucinação. Para abordar a alta incidência de alucinações em modelos de pensamento lento, propomos o RL Aprimorado por Conhecimento, KnowRL. O KnowRL orienta os modelos a realizar pensamento lento baseado em fatos, integrando uma recompensa de factualidade, baseada na verificação de conhecimento, no processo de treinamento de RL, ajudando-os a reconhecer seus limites de conhecimento. Esse input factual direcionado durante o treinamento de RL permite que o modelo aprenda e internalize estratégias de raciocínio baseadas em fatos. Ao recompensar diretamente a adesão aos fatos dentro das etapas de raciocínio, o KnowRL promove um processo de pensamento mais confiável. Resultados experimentais em três conjuntos de dados de avaliação de alucinação e dois conjuntos de dados de avaliação de raciocínio demonstram que o KnowRL mitiga efetivamente as alucinações em modelos de pensamento lento, mantendo suas capacidades originais de raciocínio robusto. Nosso código está disponível em https://github.com/zjunlp/KnowRL.
Este estudo explora a eficácia dos modelos de manutenção preditiva e a otimização de sistemas inteligentes de Operação e Manutenção (O&M) na melhoria da eficiência da geração de energia eólica. Por meio de pesquisa qualitativa, foram realizadas entrevistas estruturadas com cinco engenheiros e gerentes de manutenção de parques eólicos, cada um com ampla experiência em operações de turbinas. Utilizando análise temática, o estudo revelou que, embora os modelos de manutenção preditiva reduzam efetivamente o tempo de inatividade ao identificar falhas maiores, eles frequentemente enfrentam dificuldades em detectar falhas menores e graduais. Os principais desafios identificados incluem falsos positivos, mau funcionamento de sensores e dificuldades na integração de novos modelos com sistemas de turbinas mais antigos. Tecnologias avançadas, como gêmeos digitais, sistemas SCADA e monitoramento de condição, têm aprimorado significativamente as práticas de manutenção de turbinas. No entanto, essas tecnologias ainda requerem melhorias, especialmente no refinamento da IA e na integração de dados em tempo real. Os resultados enfatizam a necessidade de desenvolvimento contínuo para otimizar totalmente o desempenho das turbinas eólicas e apoiar a adoção mais ampla de energia renovável.
A Navegação Visão-e-Linguagem (VLN) em ambientes urbanos de grande escala exige que agentes incorporados fundamentem instruções linguísticas em cenas complexas e recordem experiências relevantes ao longo de horizontes temporais extendidos. Pipelines modulares anteriores oferecem interpretabilidade, mas carecem de memória unificada, enquanto agentes (M)LLM end-to-end se destacam na fusão de visão e linguagem, mas permanecem limitados por janelas de contexto fixas e raciocínio espacial implícito. Apresentamos o Mem4Nav, um sistema hierárquico de memória de longo e curto prazo para cognição espacial que pode ser integrado a qualquer backbone de VLN. O Mem4Nav combina uma octree esparsa para indexação de voxels de alta granularidade com um grafo topológico semântico para conectividade de pontos de referência de alto nível, armazenando ambos em tokens de memória treináveis incorporados via um Transformer reversível. A memória de longo prazo (LTM) comprime e retém observações históricas tanto na octree quanto nos nós do grafo, enquanto a memória de curto prazo (STM) armazena entradas multimodais recentes em coordenadas relativas para evitar obstáculos em tempo real e planejamento local. A cada passo, a recuperação da STM reduz drasticamente o contexto dinâmico, e, quando é necessário um histórico mais profundo, os tokens da LTM são decodificados sem perdas para reconstruir embeddings passados. Avaliado no Touchdown e no Map2Seq em três backbones (modular, VLN state-of-the-art com LLM baseado em prompt e VLN state-of-the-art com MLLM de atenção escalonada), o Mem4Nav obteve ganhos de 7-13 pp na Conclusão da Tarefa, redução suficiente de SPD e melhoria de >10 pp no nDTW. Ablações confirmam a indispensabilidade tanto do mapa hierárquico quanto dos módulos de memória dupla. Nossos códigos estão disponíveis em https://github.com/tsinghua-fib-lab/Mem4Nav.