Gemini: O Novo Modelo de Inteligência Artificial do Google

Introdução

O Google lançou nesta quarta-feira (6) o Gemini, seu modelo mais avançado de inteligência artificial (IA). Este novo modelo foi testado em uma ampla variedade de tarefas, superando 30 dos 32 pontos das referências acadêmicas amplamente utilizadas na pesquisa e no desenvolvimento de grandes modelos de linguagem.

Capacidades do Gemini

O Gemini possui a capacidade de organizar, compreender, operar e combinar diferentes tipos de informação, incluindo:

Textos;
Imagens;
Áudios;
Vídeos; e
Linguagens de programação.

Em sua divulgação, o Google afirma que o “Gemini vai melhorar significativamente a forma como os desenvolvedores e as empresas constroem soluções com IA”.

Versões do Gemini

A primeira versão, o Gemini 1.0, é otimizada em três modos diferentes, para necessidades específicas:

Gemini Ultra: maior e mais hábil para tarefas altamente complexas;
Gemini Pro: melhor para escalar uma grande variedade de tarefas;
Gemini Nano: mais eficiente para tarefas em dispositivos móveis.

Inovações do Gemini

Até agora, o método padrão para a criação de modelos multimodais de IA envolvia treinar componentes separados para diferentes modalidades e depois juntá-los para imitar algumas dessas funcionalidades. Esses modelos podem ser bons na execução de algumas tarefas, como descrever imagens, mas podem enfrentar problemas com raciocínios mais complexos.

Com o Gemini, o Google tenta ir além, criando um modelo multimodal de IA nativo, previamente treinado em diferentes modalidades. Em teoria, isso ajuda o Gemini a compreender e raciocinar sobre todos os tipos de informações desde o começo.

Disponibilidade do Gemini

A partir desta quarta-feira (6), o Bard com Gemini Pro está disponível em inglês em mais de 170 países e territórios. Ele terá a capacidade de compreender, resumir, raciocinar, fazer brainstorming, escrever e planejar. Essa é a maior melhoria de qualidade do Bard desde o seu lançamento.

O Gemini também já está disponível para o Pixel 8 Pro, primeiro smartphone projetado para rodar o Gemini Nano. Nos próximos meses, o Google promete disponibilizar o Gemini em outros de seus produtos, como a Busca, Ads, Chrome e Duet AI.

Para Desenvolvedores

As possibilidades mais avançadas do Gemini poderão ser acessadas por clientes corporativos do Google e desenvolvedores a partir da próxima quarta-feira (13) por meio da API do Gemini no Google AI Studio ou Vertex AI. O Google AI Studio é uma ferramenta gratuita para desenvolvedores baseada na Web que ajuda desenvolvedores e clientes corporativos a criar protótipos e lançar aplicativos rapidamente com uma chave de API.

No início de 2024, o Google promete também lançar o Bard Advanced: uma nova experiência de IA avançada, a partir da qual será possível acessar os melhores modelos e capacidades, começando pelo Gemini Ultra.

Conclusão

O lançamento do Gemini representa um grande avanço na inteligência artificial multimodal. Com capacidades aprimoradas e uma abordagem inovadora, o Gemini tem o potencial de transformar a maneira como desenvolvedores e empresas utilizam a IA para resolver problemas complexos e criar novas soluções.