Microsoft apresenta inteligencia artificial especializada em imagens

Modelo é capaz de resolver quebra-cabeças visuais e passar em testes de QI visual

A Microsoft apresentou na segunda-feira, 3 de abril, o Kosmos-1, um modelo multimodal de inteligência artificial (IA) que é capaz de analisar imagens em busca de conteúdo, resolver quebra-cabeças visuais, realizar reconhecimento visual de texto, passar em testes de QI visual e entender instruções de linguagem natural.

Os pesquisadores da Microsoft acreditam que a inteligência artificial multimodal, que integra diferentes modos de entrada, como texto, áudio, imagens e vídeo, é um passo fundamental para a construção de inteligência geral artificial (AGI) capaz de executar tarefas gerais no nível humano. A percepção multimodal é considerada uma parte básica da inteligência e é uma necessidade para alcançar a inteligência geral artificial em termos de aquisição de conhecimento e fundamentação no mundo real.

Os especialistas em IA apontam para a IA multimodal como um caminho potencial para a inteligência artificial geral, uma tecnologia hipotética que ostensivamente será capaz de substituir os humanos em qualquer tarefa intelectual. AGI é o objetivo declarado da OpenAI, um importante parceiro de negócios da Microsoft no espaço de IA.

O Kosmos-1 parece ser puramente um projeto da Microsoft, sem o envolvimento da OpenAI. Os pesquisadores chamam sua criação de “modelo de linguagem grande multimodal” (MLLM) porque suas raízes estão no processamento de linguagem natural, como um LLM somente de texto, como o ChatGPT.

Para o Kosmos-1 aceitar entrada de imagem, os pesquisadores devem primeiro traduzir a imagem em uma série especial de tokens que o LLM possa entender.

A Microsoft treinou o Kosmos-1 usando dados da web. Após o treinamento, eles avaliaram as habilidades do Kosmos-1 em vários testes. Em muitos desses testes, o Kosmos-1 superou os modelos atuais de última geração, de acordo com a Microsoft.

Embora o Kosmos-1 represente os primeiros passos no domínio multimodal, os pesquisadores acreditam que otimizações futuras possam trazer resultados ainda mais significativos, permitindo que modelos de IA percebam qualquer forma de mídia e atuem sobre ela, o que aumentará muito as habilidades dos assistentes artificiais. A Microsoft diz que planeja disponibilizar o Kosmos-1 para os desenvolvedores.

Opinião

O avanço tecnológico e a inovação no campo da inteligência artificial são, sem dúvida, pontos positivos que promovem o progresso da humanidade. Entretanto, é importante que se discuta os impactos políticos e econômicos que essas mudanças podem trazer para a sociedade.

No texto em questão, é possível perceber que a Microsoft apresentou o Kosmos-1, um modelo multimodal de inteligência artificial que é capaz de substituir postos de trabalho. É evidente que essa substituição representa um risco iminente para a população, especialmente em um momento em que o desemprego já é um problema grave em muitos países.

Além disso, a concentração de poder nas mãos de poucas empresas de tecnologia, como a Microsoft, também representa um problema político e econômico. A falta de regulação e controle pode permitir que essas empresas tomem decisões que afetem diretamente a vida das pessoas, sem que elas tenham qualquer participação nesse processo.

Por fim, é importante ressaltar que a busca pela inteligência artificial geral pode ter consequências imprevisíveis para a humanidade. Se essa tecnologia for capaz de substituir completamente o trabalho humano em todas as áreas, pode haver uma crise sem precedentes no sistema econômico mundial, já que a produção e a distribuição de bens e serviços seriam controladas exclusivamente por máquinas.

Portanto, é necessário que haja um debate amplo e aberto sobre as implicações políticas e econômicas da inteligência artificial e que sejam criadas políticas públicas que possam proteger a população dos riscos envolvidos nesse processo de inovação tecnológica.

Luís Carlos Nunes

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *