Os modelos atuais de IA são geralmente bons para fazer tarefas específicas. Um algoritmo que reconheça a imagem de um cachorro, dificilmente vai entender que estamos falando sobre um cachorro em um texto. Já um algoritmo que trabalha com a linguagem natural, pode reconhecer um objeto no texto, mas não em uma imagem. 

Esse mecanismo é bem diferente de como a cognição humana funciona. Se eu descrever um cachorro, você poderá formar uma imagem mental com base na descrição. A partir de uma imagem, você poderá verbalizar uma descrição. Nós, humanos, somos bons em trabalhar na multimodalidade. Tem estudo mostrando que somos até mais rápidos para processar uma mensagem multimodal do que uma unimodal.

Muitos grupos de pesquisas em IA vêm tentando criar modelos que trabalhem com diferentes modalidades combinadas: visão e linguagem, por exemplo. Nesta semana, a equipe de IA do Facebook (agora Meta AI) mostrou um algoritmo que pode ser utilizado para treinar uma rede neural para reconhecer imagens, textos e fala. 

O nome do algoritmo é Data2vec e foi projetado de um jeito muito inteligente. Ele usa duas redes neurais: Professor e Estudante. Enquanto a rede Professor trabalha da maneira tradicional, aprendendo uma representação interna dos dados para fazer predições para novos exemplos, o diferencial está na rede Estudante. 

A rede Estudante é treinada para fazer predições das representações internas da rede Professor. Basicamente, a rede Estudante é treinada para adivinhar que a rede Professor está fazendo a predição de um ‘cachorro’, ainda que não tenha acesso ao texto ou a imagem.  

Como a rede Estudante não tenta adivinhar a imagem ou frase real, mas apenas a representação do professor dessa imagem ou frase, o algoritmo não precisa ser adaptado a um tipo específico de entrada (imagem, texto ou fala).

Proposta genial, não?
Bom, isso foi um resumo. O artigo completo está neste link.