Google Gemini: Caratteristiche dell’Intelligenza Artificiale di Google

Google Gemini

L’intelligenza artificiale (AI) sta rivoluzionando il mondo della tecnologia in lungo e in largo, come dimostra la Chat GPT di OpenAI e il più recente Gemini di Google.

Google, infatti, non è rimasta a guardare e ha lanciato la sua intelligenza artificiale multimodale, evoluta da Bard, il predecessore del nuovo LLM (Large Language Model).

In questo articolo, ne vediamo caratteristiche e capacità nel lavorare con testi, immagini e video in modo integrato, le evoluzioni per garantire sicurezza, qualità ed elevate prestazioni, che Google tiene a precisare essere superiori rispetto a quelle viste finora. E addirittura rispetto alle capacità degli esseri umani! 

Ma proprio in merito a queste affermazioni, ritenute un poco estreme, sono nate tante polemiche su Gemini e sulle sue presunte capacità ancora non del tutto dimostrabili.

Cos’è Google Gemini

Gemini è il corrispettivo del Chat GPT 4 dell’universo Google, dunque un modello di intelligenza artificiale multimodale, in grado di lavorare nativamente con testi, immagini e video. 

Questo significa che Gemini è capace di comprendere e operare su diversi tipi di informazioni in modo concomitante, aprendo nuove prospettive nel campo dell’AI generativa.

Rappresentando un significativo passo avanti rispetto ai tradizionali modelli linguistici, e come upgrade di Google Bard, Gemini viene presentato come un modello di AI generativa con una maggiore capacità di elaborare informazioni complesse e di rispondere a domande su argomenti eterogenei come matematica, fisica, storia, etica, medicina.

Google Gemini sembra, dunque, rappresentare un importante passo avanti nel campo dell’AI e, forse, anche un temibile competitor di Chat GPT?! 

O almeno questa è la posizione presa dai vertici di Google, forti delle performance dimostrate da alcuni test eseguiti in occasione del confronto con GPT 4. Confronto che, però, è apparso come un tirare acqua al proprio mulino… Perlomeno, questo è ciò che si evince al momento in cui scriviamo l’articolo (Gennaio 2024).

Cosa si intende per modello di intelligenza artificiale multimodale

Il termine “multimodale” si riferisce alla capacità di un sistema di intelligenza artificiale di comprendere e interagire con informazioni provenienti da più modalità o canali sensoriali contemporaneamente, come nel caso specifico:

  • Testo scritto: comprensione del linguaggio naturale scritto.
  • Immagini: riconoscimento di oggetti e contenuto visivo presente in foto e illustrazioni.
  • Video: capacità di analizzare non solo l’aspetto visivo ma anche l’audio di filmati e brevi clip.

Un sistema multimodale, come Gemini, è in grado di ricevere stimoli provenienti da queste diverse sorgenti per elaborarli in modo integrato.

Ad esempio, può comprendere appieno il senso di una domanda che contiene insieme testo, immagini e brevi estratti video, fornendo una risposta articolata che sfrutta più canali in uscita.

Questa caratteristica lo differenzia dai sistemi di AI tradizionalmente focalizzati su singole modalità, come la comprensione del linguaggio o il riconoscimento visivo. La capacità multimodale permette livelli di comprensione più profondi.

Le versioni di Gemini: Ultra, Pro e Nano

Gemini è stato lanciato con la promessa di rendersi disponibile in tre versioni: Ultra, Pro e Nano.
La versione Ultra è il modello più grande e più capace, in grado di eseguire compiti altamente complessi. 

Gemini Pro è la versione intermedia, che sarà integrata in Bard, il chatbot di Google, e nel motore di ricerca stesso. 

Infine, Gemini Nano è il modello più piccolo, progettato per funzionare anche su smartphone come i dispositivi Pixel di Google.

Ogni versione di Gemini offre prestazioni e capacità diverse, consentendo ai sviluppatori di adattare l’algoritmo alle loro esigenze specifiche.

La differenza tra le tre versioni sta nella dimensione del modello di apprendimento automatico. Gemini Ultra è il più grande, con 1,6 trilioni di parametri; Gemini Pro è il secondo, con 100 miliardi di parametri; mentre Gemini Nano conta 10 miliardi di parametri. 

Una dimensione più grande del modello si traduce in un potenziale più grande nella capacità di apprendere più informazioni e generare risultati più accurati e creativi. Ovviamente, la maggiore capacità significa un costo più elevato e maggiori risorse per l’esecuzione.

Ecco una tabella riassuntiva.

Versione

Numero di parametri

Capacità di apprendimento

Accuratezza dei risultati

Risorse richieste

Gemini Ultra

1,6 trilioni

Maggiore – apprende più informazioni

Accurati e creativi

Più costoso – maggiori risorse di esecuzione

Google Gemini Pro

100 miliardi

Inferiore rispetto a Ultra

Minore rispetto a Ultra

Inferiore rispetto a Ultra

Gemini Nano

10 miliardi

Ancora inferiore rispetto a Pro e Ultra

Inferiore rispetto a Pro e Ultra

Minori risorse richieste

Le capacità di Gemini

Una delle caratteristiche distintive di Gemini sarebbe la sua capacità di comprendere e operare su informazioni multimodali. Addestrato su vari media – immagini, video, audio e testi – Gemini può contestualizzare informazioni di diverso tipo e rispondere a domande complesse su vari argomenti. 

Questa capacità di ragionamento multimodale avanzato consente a Gemini di misurarsi con argomenti trasversali, dalla medicina alla matematica alla fisica, alla storia,  al diritto e all’etica. 

I test, responsabili di aver sollevato molte polemiche sulla loro correttezza rispetto ai risultati ottenuti al confronto con Chat GPT 4, avrebbero dimostrato ottime capacità nella comprensione del linguaggio e nella generazione di contenuti, superiori rispetto a quelle del bot di OpenAi, sebbene – dichiarino quelli di Google – sono necessari ulteriori progressi per dimostrare appieno le sue potenzialità.

L’impatto di Gemini, secondo Google

Integrato in Bard e nel motore di ricerca di Google, Gemini ha il potenziale per rivoluzionare molte aree della tecnologia e oltre, migliorando l’esperienza degli utenti nel fornire risposte più precise e contestualizzate alle loro domande.

Inoltre, Gemini può essere utilizzato come motore per sistemi di codifica più avanzati, aprendo nuove possibilità nella generazione di contenuti e nella sintesi dei contenuti. Con il suo approccio multimodale e le sue capacità di ragionamento complesso, si propone come uno strumento prezioso per sviluppatori, ricercatori e professionisti di diversi settori.

Una prima versione di Gemini è stata distribuita nella versione in lingua inglese di Bard, il chatbot di Google, in oltre 170 Paesi e territori. Dal 13 dicembre Gemini è disponibile per gli sviluppatori attraverso le Api di Google Cloud.

Google Gemini, i prossimi scenari

Le notizie si avvicendano e sembrano lasciar supporre che Google potrebbe sviluppare Bard Advanced AI Assistant con un modello di abbonamento a pagamento.

Eh già, questo è ciò che al momento potrebbe accadere: Google sembra essere al lavoro su Bard Advanced, un’edizione avanzata del suo assistente AI Bard, che richiederà un abbonamento a pagamento tramite Google One.

La nuova versione sarà alimentata da Gemini Ultra, il livello più alto del modello LLM di Google, fornendo capacità matematiche e di ragionamento avanzate.

Possibile funzionalità per la personalizzazione dei bot e strategia simile a OpenAI:

Sembra che Bard Advanced potrebbe includere una funzionalità chiamata Motoko che consentirebbe agli utenti di creare bot personalizzati.

Ma non è ancora chiaro se gli utenti potranno condividere questi bot gratuitamente o se dovranno pagare per accedervi, simile alla strategia di OpenAI con GPT Plus.

Stiamo a vedere cosa succede sul fronte dell’AI. 

Nel frattempo, se stai approcciando a queste nuove tecnologie ma non ti senti a tuo agio, puoi richiederci una consulenza, inviarci le tue domande o esprimere le tue perplessità!

Condividi