Inizio questo articolo (che dividerò in più parti) nel giorno dell'Immacolata Concezione: l'8 dicembre. Voglio parlare dello stato attuale dell'intelligenza artificiale per aiutare la cinematografia a basso costo. Ci vorrà un po' di tempo, soprattutto per provare vari servizi, perché non voglio fare la solita lista sterile. Anche perché ci aiuterà a produrre contenuti per i film che faremo nel prossimo futuro.
L'idea mi è venuta, anche se involontariamente, da Nicolas Perrier dell'Università di Lione, in Francia, con uno dei suoi messaggi su LinkedIn. Perrier è un esperto di innovazione nella realtà aumentata e virtuale, e il post in questione riguarda Plask; uno dei tanti strumenti per creare animazioni 3D partendo da un semplice video. In pratica, si tratta di Motion Capture senza attrezzature costose e complesse. Questa tecnologia può essere di particolare interesse per noi per produrre video animati a una frazione del costo attuale, e persino con attori a distanza.
Sto ricevendo un ulteriore aiuto, non solo da Nicolas stesso con i suoi innumerevoli post, ma anche dal sito web Futurepedia.io. Si tratta di un "wiki dell'intelligenza artificiale", che presenta una selezione di molti strumenti attualmente disponibili al pubblico.
Analizziamo alcuni di questi strumenti, in particolare quelli utili per il cinema. Sia per la scrittura che per la produzione tecnica di video, oltre che per le voci. Valuteremo la qualità dei risultati, condurremo esperimenti e conosceremo i loro costi.
Per capire meglio come utilizzarli nei nostri film a basso budget, ho deciso di creare un cortometraggio (con aspettative molto basse, solo per sperimentazione tecnica) utilizzandoli il più possibile.
Indice dei contenuti
Realizzare video con l'intelligenza artificiale.
Dividiamo i servizi in tre categorie principali: scrittura, video, e audio. Iniziare con la scrittura, avere prima l'idea.
Scrivere film con l'intelligenza artificiale
Abbiamo bisogno di una storia. Creata da un'intelligenza artificiale? Vediamo, gli strumenti di scrittura non mancano. E se non siete d'accordo, potete sempre discutere nei commenti.
Come funziona il GPT-3?
La maggior parte dei servizi pubblici di scrittura di AI si basa attualmente su GPT-3, che ha 175 miliardi di parametri di apprendimento automatico. Le alternative sono in realtà molte: BigScience Bloom, un linguaggio su larga scala che è stato recentemente lanciato (con il vantaggio di essere open source), o il tedesco Aleph Alpha con il suo Luminoso (con 200 miliardi di parametri).
Quali sono i parametri di un'intelligenza artificiale?
Immaginiamo di avere un compito che richiede di prevedere se un'immagine contiene o meno un gatto. Un modello di apprendimento automatico potrebbe essere addestrato su molte immagini etichettate come "gatto" o "non gatto" per imparare a riconoscere le caratteristiche distintive dei gatti.
A tal fine, il modello utilizza una rete neurale, che è un insieme di nodi interconnessi. Ogni nodo rappresenta un calcolo eseguito sui dati di ingresso. I parametri, o "pesi", sono i valori assegnati a ciascun nodo che influenzano la forza della connessione tra i nodi..
Quando il modello vede una nuova immagine, questi pesi vengono utilizzati per eseguire una serie di calcoli che alla fine producono una previsione, come "gatto" o "non gatto". Il numero di pesi utilizzati nel modello è il numero di parametri.
In sintesi, i parametri sono come "valori di aggiustamento" che influenzano il modo in cui un modello di apprendimento automatico elabora i dati per fare una previsione e vengono modificati durante l'addestramento per migliorare le prestazioni del modello.
Un modello con molti parametri avrà più opportunità di aggiustare i propri calcoli per adattarsi ai dati di addestramento, ma potrebbe anche essere più incline a overfitting, ovvero un'eccessiva aderenza ai dati di addestramento e una scarsa capacità di generalizzazione.
Altri concorrenti di ChatGPT.
Altri concorrenti sono Nvidia con il Megatron NGL (enorme, ma non disponibile al pubblico), Google con i loro GLaM, LaMDA e PaLM (sì, non tralasciano nulla), OPT da Meta, AlexaTM da Amazon o vari cinesi come Alibaba e il suo BaGuaLu.
Per concludere, cito GPT-J, un'altra alternativa open source al GPT-3.
Vediamo di capire rapidamente come funziona il GPT-3, utilizzando una risposta riformulata dall'IA stessa:
GPT-3 (Generative Pretrained Transformer 3) è un modello linguistico all'avanguardia sviluppato da OpenAI. Utilizza una tecnica di apprendimento profondo chiamata “trasformatori“per generare testo simile a quello umano sulla base di un dato input.
Ecco come funziona il GPT-3:
- Il modello viene addestrato su un'ampia serie di testi generati dall'uomo, come libri, articoli e siti web. Questo processo di addestramento consente al modello di apprendere i modelli e le strutture del linguaggio naturale.
- Quando riceve un input, il modello lo elabora utilizzando i suoi strati di reti neurali. Quando riceve un input, il modello lo elabora utilizzando i suoi strati di reti neurali. Ogni strato svolge un compito diverso, come l'analisi della sintassi, della semantica e del contesto dell'input.
- Il modello genera quindi una risposta basata sull'input e sulla sua comprensione del linguaggio naturale. Lo fa prevedendo le parole successive della frase, utilizzando gli schemi e le strutture apprese durante l'addestramento.
- Il modello ripete questo processo più volte, generando più risposte all'input. Queste risposte vengono poi classificate e valutate dal modello e la risposta con il punteggio più alto viene selezionata come output finale.
GPT-3 è noto per la sua capacità di generare testi spesso difficili da distinguere da quelli scritti da un essere umano. È utilizzato in diverse applicazioni, come la traduzione linguistica, la sintesi di testi e la generazione di testi.
ChatGPT può raccontare storie per la sceneggiatura.
Partiamo direttamente dal prodotto di OpenAI: ChatGPT. È forse lo strumento del momento, il primo ad aver fatto un salto verso il grande pubblico. È quasi preoccupante quanto possa essere preciso e "reale" nelle conversazioni, ma nelle ultime settimane se ne è parlato troppo e ovunque.
Mi sono iscritto al sito web di OpenAI e ho aperto la chat per provare a parlare con GPT-3 (non posso immaginare cosa farà GPT-4) chiedendogli di scrivermi una storia con alcuni dialoghi per un breve film in grafica digitale. Ebbene, l'ha semplicemente realizzata per me.
La storia scritta da ChatGPT
Questa è la storia scritta da ChatGPT, senza modifiche, tradotta in italiano (potete leggere l'originale nella versione inglese di questo articolo).
Quando il sole sorse all'orizzonte, un piccolo gruppo di avventurieri si mise alla ricerca della città perduta dell'oro. Per mesi hanno cercato, seguendo vecchie mappe e antiche leggende, nella speranza di arricchirsi.
"Sei sicuro che questa sia la strada giusta?", mi chiese Maria, il leader del gruppo. "Non vedo alcun segno della città all'orizzonte".
"Fidati di me, Maria", rispose Jake, l'esperto di storia antica del gruppo. "La città è nascosta nelle profondità della giungla e non sarà facile trovarla. Ma se ci atteniamo al piano, la troveremo".
Il gruppo si avventurò nella fitta giungla, fendendo le liane e il sottobosco con i loro machete. Dopo diverse ore di viaggio estenuante, raggiunsero il bordo di una radura.
"Guarda!" Sarah, il più giovane del gruppo, gridò. "Laggiù! Vedo qualcosa che brilla alla luce del sole!".
Il gruppo si precipitò nel punto in cui Sarah aveva visto il bagliore e trovò una piccola statua d'oro sepolta nel terreno.
"Deve essere questo!", esclamò Maria. "Abbiamo trovato la città perduta dell'oro!".
Il gruppo iniziò a scavare, scoprendo sempre più tesori. Trovarono monete d'oro, gioielli preziosi e antichi manufatti di grande valore.
"Siamo ricchi!", esclamò Jakeridendo per l'eccitazione. "Abbiamo trovato un tesoro che va oltre i nostri sogni più sfrenati!".
Ma mentre continuavano a scavare, il terreno sotto i loro piedi cominciò a rimbombare e a tremare. All'improvviso, un'enorme porta di pietra si aprì, rivelando un ingresso nascosto alla città perduta.
"Presto, tutti dentro!" ha gridato Maria, guidando il gruppo nel tunnel buio. "Dobbiamo trovare la fonte del tesoro prima che sia troppo tardi!".
Il gruppo si addentrò nel tunnel, illuminato dalle torce. Raggiunsero una grande camera aperta piena di tesori.
"Ci siamo!" gridò Sarah. "La città perduta dell'oro!"
Ma mentre esploravano la camera, udirono un forte boato. All'improvviso, il terreno sotto i loro piedi cedette e caddero in una fossa profonda.
"Aiuto!" gridò Mariamentre cadevano nell'oscurità. "Siamo in trappola!"
Ma proprio quando pensavano che tutto fosse perduto, sentirono una voce flebile che li chiamava.
"Non preoccupatevi, avventurieri", ha detto la voce. "Sono il guardiano della città perduta e vi aiuterò a fuggire".
Con l'aiuto del guardiano, il gruppo riuscì a uscire dalla fossa e a tornare in superficie. Uscirono dalla giungla, trionfanti e ricchi oltre ogni aspettativa.
"Ce l'abbiamo fatta!", gridò Jakeridendo di gioia. "Abbiamo trovato la città perduta dell'oro!".
Consideriamo questa prima storia. Naturalmente, non mi ha reso le cose facili.... Potrebbe creare una storia nel mezzo di una città a caso; al contrario, la giungla sarà più complessa da ricreare. Ma io devo esserci dentro, questo è il gioco.
La stessa storia, in versione breve
Ho anche chiesto una versione più breve. Mi ha dato un riassunto. Poi ho specificato che volevo una versione breve ma con i dialoghi, e lui l'ha semplicemente fatta. Ve lo segnalo per completezza:
Mentre il gruppo di avventurieri cercava la città perduta dell'oro, si imbatté in un ingresso nascosto nella giungla.
"Guarda, laggiù!", disse Sarahindicando l'ingresso.
Il gruppo si precipitò all'ingresso ed esplorò la città, trovando un tesoro che andava oltre i loro sogni più sfrenati.
"Siamo ricchi!", gridò Jake.
Ma mentre continuavano a cercare, il terreno sotto di loro cedette e caddero in una fossa.
"Aiuto!" gridò Maria.
Un guardiano della città li aiutò a fuggire ed essi ne uscirono vittoriosi e ricchi.
"Ce l'abbiamo fatta!", gridò Jake.
ChatGPT scrive automaticamente lo script
Stavo pensando di raccoglierlo in una sceneggiatura, quando ho pensato: "Perché non chiederglielo?". Detto e fatto. Ha riscritto per me la storia già pronta per il cinema:
INT. GIUNGLA - GIORNO
Il sole sorge all'orizzonte mentre un gruppo di avventurieri, MARIA, JAKE e SARAH, parte alla ricerca della città d'oro perduta.
MARIA
È sicuro che questa sia la strada giusta? Non vedo alcun segno della città all'orizzonte.
JAKE
Fidati di me, Maria. La città è nascosta nel profondo della giungla e non sarà facile trovarla. Ma se ci atteniamo al piano, la troveremo.
Il gruppo si addentra nella fitta giungla, tagliando le liane e il sottobosco con i loro machete.
SARAH
Guardate! Ecco! Vedo qualcosa che brilla alla luce del sole!
Il gruppo si precipita nel punto in cui Sarah ha visto il luccichio e trova una piccola statua d'oro sepolta nella terra.
MARIA
Deve essere questo! Abbiamo trovato la città perduta dell'oro!
Il gruppo inizia a scavare, scoprendo sempre più tesori.
JAKE
Siamo ricchi! Abbiamo trovato un tesoro che va oltre i nostri sogni più sfrenati!
Ma mentre continuano a scavare, il terreno sotto i loro piedi inizia a rimbombare e a tremare. Improvvisamente, un'enorme porta di pietra si apre, rivelando un ingresso nascosto alla città perduta.
MARIA
Presto, tutti dentro! Dobbiamo trovare la fonte del tesoro prima che sia troppo tardi!
Il gruppo entra nel tunnel, illuminato dalle torce. Raggiungono una grande camera aperta piena di tesori.
SARAH
Ecco! La città perduta dell'oro!
Ma mentre esplorano la camera, sentono un forte rombo. All'improvviso, il terreno sotto i loro piedi cede e cadono in un pozzo profondo.
MARIA
Aiuto! Siamo in trappola!
Ma proprio quando pensano che tutto sia perduto, sentono una voce flebile che li chiama.
GUARDIA (fuori campo)
Non preoccupatevi, avventurieri. Sono il guardiano della città perduta e vi aiuterò a fuggire.
Con l'aiuto del guardiano, il gruppo riesce a uscire dalla fossa e a tornare in superficie. Riemergono dalla giungla, trionfanti e ricchi oltre ogni aspettativa.
JAKE
Ce l'abbiamo fatta! Abbiamo trovato la città perduta dell'oro!
Oltre a Giungla internama per il resto è un buon punto di partenza. Ma alcuni errori di forma sono saltati all'occhio Andrea Rocci, uno sceneggiatore "umano", anche se senza un'analisi approfondita (stavamo chiacchierando davanti a una birra).
In realtà, il copione parla per immagini e frasi come "scoprire sempre più tesori" o "ricchi oltre ogni aspettativa" non sono affatto chiare. Quali tesori? Statue, monete, altro? E cosa si intende per "ricchi"? Sono pieni d'oro? Sono vestiti in modo sgargiante? Tutti con l'ultimo iPhone e le chiavi di una Ferrari?
Per non parlare della mancanza di descrizioni degli ambienti. La giungla stessa è lasciata alla massima immaginazione del regista o degli scenografi (o degli artisti 3D, che dir si voglia).
Tuttavia, dobbiamo fare di necessità virtù; lasceremo ogni scelta a discrezione del regista (se esistesse, almeno...). Cercheremo di trovarne uno buono su personaggio.aiforse. Anzi, provate a parlare con "personaggi" artificiali. Anche Albert Einstein è lì!
Prezzi
Qui è semplice: non costa nulla in pratica. In alcuni Paesi sta iniziando a essere commercializzata una versione da $20/mese, che elimina alcune limitazioni (dovute principalmente alla potenza di calcolo necessaria per gestire i milioni di richieste che arrivano a OpenAI ogni giorno).
Alternative a ChatGPT
Al momento il GPT-3 è difficile da battere... In attesa che escano i candidati più blasonati (Google Bard presto), ho chiesto a ChatGPT stesso informazioni sui suoi concorrenti. Mi ha indicato ScriptBuddy, ScrittoreDuetto e Sceneggiatore AI per iniziare. Per saperne di più, Plotbot, Amazon Storywriter e InkTip Script Listing. Ok, pensavo fosse sufficiente... Se non fosse che la risposta è in realtà una parziale bugia. Qui vediamo gli attuali limiti di questa intelligenza artificiale, in parte (ma non solo) dovuti al fatto che i dati in suo possesso sono aggiornati al 2021.
Nel frattempo, ScriptBuddy, originariamente basato su GPT-2, non è stato mantenuto per più di 3 anni; lo escludiamo. ScrittoreDuetto, d'altra parte, è molto utile nella stesura dei copioni. Ma lui stesso non scrive nulla... Sceneggiatore AI Non credo nemmeno che esista, almeno il caro vecchio Google non mi dà alcun risultato.
Per quanto riguarda Plotbot, o meglio Robot di tramagenera effettivamente trame di filmati sfruttando il motore GPT-2. Ma, come ScriptBuddy, non viene mantenuto da anni e, per ottimizzare i tempi, lo escludo. Lo stesso vale per Amazon StoryWritermentre InkTip Script Listing non serve a generare testo.
Dramatron
Dramatron è una nuova alternativa, con il marchio Deepmindche promette esattamente quello che stiamo cercando: scrivere sceneggiature per il cinema e il teatro. Purtroppo è stato rilasciato solo un paio di giorni fa, intorno al 9 dicembre, e quando sono riuscito a provarlo era ormai troppo tardi.
Resta un progetto interessante da tenere presente quando sarà aperto. Per il momento, George MikeL'autore di questo video su YouTube non gradisce.
Il suo commento? "...nel complesso, mi è sembrato insipido. E non mi ha dato molto di più del dialogo che si trova in tutti i film. Ha chiaramente afferrato il genere, ma non lo ha esplorato in modo interessante. Non ha fatto progredire la narrazione“.
Rytr
Attraverso Google e Futurepedia Sono poi arrivato a Rytr. Un bello strumento. Account e login, e mi ritrovo nell'area di lavoro. In pratica chiede lingua, stile e caso d'uso del testo creato, e agisce. Dato che chiaramente non c'era una "sceneggiatura cinematografica", ho provato nel frattempo con uno strumento chiamato "bacchetta magica".
La stessa richiesta è stata fatta a ChatGPT, ma la risposta è stata quasi esilarante:
Nel nome di Allah, il Compassionevole, il Misericordioso
Credo
Credo in Allah, il Dio unico
Credo nei profeti e nei messaggeri
Credo negli angeli e nelle scritture
Credo nei libri della rivelazione
Credo nella vita dopo la morte e che nel giorno del giudizio sarà fatta giustizia.
- Scusa, cosa? Stai dicendo "io credo" a tutto.
Non ho tempo per questo.
- Mi dispiace, non ti seguo.
- Perché ti stai scusando?
- Cosa?
Proviamo qualcosa di diverso e più specifico... Ho chiesto "Ho bisogno di una sceneggiatura di circa 2000 parole, con dialoghi, per realizzare un cortometraggio in computer grafica. Il titolo è: la città perduta", e ho impostato come caso d'uso "trama della storia". Prompt basato sul precedente output di ChatGPT. Ma siamo ancora lontani, anche se abbiamo una trama di base:
In un futuro prossimo, un equipaggio di archeologi e scienziati in missione esplorativa su un pianeta sconosciuto viene catturato e imprigionato da un'antica civiltà aliena.
La squadra è un po' smarrita a causa della barriera linguistica e delle interazioni con gli alieni. Vengono tenuti in cattività per decenni, esplorando le rovine e scoprendo tutti i segreti della civiltà.
Alla fine riescono a tornare a casa. Gli scienziati hanno imparato molte cose nuove e le stanno riportando sulla Terra per condividerle con gli esseri umani. Tuttavia, hanno impiegato così tanto tempo che ormai non solo la Terra è cambiata, ma non c'è più tempo per queste scoperte.
Stessa richiesta, ma con il comando magico come caso d'uso:
INT. SOGGIORNO - POMERIGGIO
La camera è ben arredata e sembra molto confortevole. C'è una porta che conduce a un'altra stanza.
Buongiorno, John.
Buongiorno, Joe. Come sta stamattina?
Sto bene, grazie per averlo chiesto. E tu?
Sto bene! Cosa c'è in programma per oggi?
Mi metterò in pari con la lettura e poi probabilmente farò una passeggiata nel quartiere. Avete qualche programma
Ok, uno strumento utile per i testi brevi ma ancora lontano dalla totale autonomia. Veniamo ai prezzi, anche se nel nostro caso mantengo il testo di ChatGPT.
Prezzi
Rytr ha un sistema completamente libero versione limitata a 10000 caratteri al mese. Altrimenti costa $9 al mese per 100.000 caratteri, oppure $29 al mese per un uso illimitato.
A breve AI
Un altro strumento è A breve AI, concepito principalmente per combattere il "blocco dello scrittore". Scrivete il vostro testo o una frase, e lui continua.
Poiché non potevo chiedergli di scrivere la storia per me, ho usato la prima frase della storia generata da ChatGPT: Quando il sole sorse all'orizzonte, un piccolo gruppo di avventurieri si mise in viaggio per trovare la città d'oro perduta. Pur basandosi sullo stesso modello linguistico, la continuazione era chiaramente diversa.

Questo è il testo finale:
Quando il sole sorse all'orizzonte, un piccolo gruppo di avventurieri partì alla ricerca della città perduta dell'oro. Si diceva che nella città perduta ci fossero più di mille tonnellate d'oro, ma come tutte le leggende, la storia del tesoro viene raccontata solo a chi ne è degno.
Erano in viaggio da due settimane e speravano di arrivare a destinazione entro la fine della settimana. Finora la strada era stata scorrevole, ma quando si avvicinarono a una collina, ci fu una piccola costruzione sulla strada, che fece rallentare i carri. La carovana aveva due grandi carri che trasportavano oro, mentre gli altri erano a cavallo. Il resto del gruppo non era molto preoccupato del ritardo, a parte il capo. Per contenere grandi quantità di oro, argento e gioielli risalenti agli antichi Aztechi. Una città perduta che era protetta da un numero incalcolabile di demoni e fantasmi. Si diceva che nessun uomo o bestia che fosse entrato nella città maledetta fosse tornato.
Il piccolo convoglio si diresse verso il luogo indicato dal datore di lavoro. Rivedettero un'ultima volta i dettagli del contratto. I sei avventurieri si erano divisi in tre gruppi di due. Ogni gruppo si era posizionato in un luogo. La città era nascosta nelle profondità di una catena montuosa al centro della quale si trovava una fortezza ben protetta lasciata dall'impero azteco. Si diceva che il pozzo fosse una porta d'accesso alla città perduta. All'interno della fortezza doveva trovarsi la statua di un angelo. Si trattava di una speciale tavoletta di pietra con un incantesimo che avrebbe concentrato il potere del gioiello sull'ottavo figlio di un re azteco.
Alla notizia della strana fortezza, il capo azteco fece marciare il suo esercito per attaccarla, ma misteriosamente uno dei generali e il suo esercito furono portati in un altro regno e scomparvero. Il re ordinò quindi la ritirata. Questo fu l'inizio dei problemi. Mentre se ne stavano andando, furono attaccati da grandi mostri che si pensava fossero stati uccisi, ma poi furono visti in cima alla fortezza. Le battaglie continuarono per tutta la settimana successiva e gli Aztechi furono sconfitti.
Alla fine, il re ordinò alle truppe rimaste di tornare in città, dicendo che le battaglie della settimana precedente avevano risvegliato alcuni antichi demoni responsabili della scomparsa non solo di suo figlio, ma anche di alcuni dei suoi generali e delle truppe rimaste. Il re aveva bandito ogni tipo di magia e di incantesimi nella sua città e tutti dovevano essere giustiziati. Un giovane è stato aiutato dalla madre, anch'essa maga, una volta scoperto.
In definitiva, una buona storia ma con poco significato. L'IA ha preso pezzi di testo da qua e là, ma senza collegarli in modo "intelligente".
Prezzi
Shortly AI è certamente utile per aggiungere una o due frasi e superare il blocco dello scrittore, ma lasciarlo fare da solo non sembra lo strumento migliore.
Né il suo costo è trascurabile. Stiamo parlando di $79 al mese, o $780 all'anno. Ho comunque utilizzato la prova gratuita, quindi è necessario solo registrare un account.
ScrittoreX
Guardiamo ScrittoreX. Dispone di modelli per la creazione di articoli, post sui social, conclusioni testuali e molti altri. Mi aspetto risultati simili a quelli di Shortly, non essendo progettato per storie intere.
Purtroppo, però, la versione di prova gratuita non consente l'accesso a tutte le funzioni e non me la sono sentita di pagare un servizio (anche piuttosto costoso) senza averlo prima provato, pur avendo un'alternativa gratuita di cui sono parzialmente soddisfatto.
Anche se lo sto valutando per le sue utili funzioni di marketing... Come la bio dei miei canali sociali, o qualsiasi aiuto futuro nella scrittura di articoli di blog. L'ho usato anche per scrivere la meta descrizione di questo stesso articolo.
Prezzi
Costi di WriterX $29 un mese nella versione standard (in pratica la versione di prova che avevo), oppure $59 un mese per avere un numero illimitato di testi e funzioni. È disponibile in 25 lingue.
Jasper AI
Volevo anche provare Jasper AI, che in definitiva è un'interfaccia grafica per GPT-3 stesso. È forse la più pubblicizzata, si trova ovunque. Ma semplicemente non ho nemmeno iniziato a usarla: obbliga a inserire la carta di credito anche per la versione gratuita, e per verificarla ci vogliono non pochi centesimi ma l'intera fiprimo mese: $29. Atteggiamento poco professionale, quindi non voglio avere a che fare con loro e ho voluto indietro i miei soldi immediatamente.
GPT-J e Writey AI
Per uscire dall'universo GPT-3, ho voluto provare l'open source GPT-J tramite il 6b.eleuther.ai Tuttavia, si blocca sempre con il messaggio "Impossibile connettersi al modello. Riprovare". E Scrivere AI, anch'esso ben funzionante ma troppo specializzato nella scrittura di articoli per blog. Vi raccomando di dare un'occhiata, anche solo per i 5 articoli al mese totalmente gratuiti.
In definitiva, sono stanco e ogni ulteriore ricerca mi sembra inutile. Dopo tutto, il testo di ChatGPT è valido (se si può definire un testo "automatico"), quindi direi di passare alla realizzazione tecnica del cortometraggio.
Creazione di personaggi 3D
Un'intelligenza artificiale può generare personaggi in 3D?
Abbiamo bisogno di personaggi per la nostra storia, ma è davvero possibile generarli con l'intelligenza artificiale? Spoiler: oggi, non bene. Ci sono molte promesse e alcune soluzioni che si avvicinano al risultato, ma non è ancora possibile. Vediamole in breve, perché saranno utili nel prossimo futuro. Ma poi andremo a capire come avere subito i personaggi della nostra storia con pochi soldi.
PIFuHD
Per iniziare, c'è PIFuHD, che è già disponibile al pubblico e promette di creare un personaggio in 3D da una singola foto. Funziona, ma già dai video di presentazione si nota una qualità tutt'altro che accettabile al cinema.
Google DreamFusion
DreamFusion è una delle prime I.A. in grado di sfruttare i dati 2D della Diffusione Stabile (gli stessi utilizzati per creare foto con l'intelligenza artificiale, ormai molto diffusa) per creare modelli 3D.
Stesso problema di prima: qualità insoddisfacente anche a prima vista.
Microsoft Rodin Diffusione
Un nuovo arrivato in Microsoft nel 2023, Diffusione Rodin non è ancora disponibile al pubblico. Promette di creare un avatar 3D realistico partendo da una singola foto. A giudicare dalle foto pubblicate sul sito, i capelli... Sono sempre quelli il problema!

Nvidia Get3D
Tra gli strumenti 3D non può certo mancare la regina delle schede grafiche, Nvidia. E infatti la sua Get3D è superlativo nella creazione di modelli 3D a partire da informazioni apprese da un insieme di modelli 3D.
Il set di dati è molto più limitato e questo è uno svantaggio nella varietà di oggetti 3D che possono essere realizzati. Tuttavia, è open-source, un punto a favore, anche se l'intero addestramento deve essere fatto nel proprio sistema. Questo significa schede video di fascia alta a bizzeffe... E costano un po'. Molto.
Nvidia Magic3D
Come ha risolto Nvidia il problema della "limitazione", in termini di quantità, degli oggetti che possono essere creati da Get3D? Come si legge nell'articolo di Il decodificatore spiega, semplicemente copiando Google... E cercando di rendere il suo nuovo Magia3D (il documento dei ricercatori qui) più veloce e più definito di DreamFusion. Questo video spiega bene come funziona:
In pratica, Get3D ha un set di dati basato su altri modelli 3D. Magic3D parte invece da immagini, a loro volta generate dall'IA, aprendo la strada a combinazioni virtualmente infinite.
Funziona bene? Quello che è certo è che non è disponibile al pubblico, ma dai video e dagli esempi presenti sul Web sembra una tecnologia molto promettente. Anche se non raggiunge ancora la qualità necessaria.
StileGAN-NADA
Per fare Pokemon o altre cose divertenti c'è StileGAN-NADAaddestrato secondo il modello CLIP (Contrastive Language-Image Pre-Training) di OpenAI. Permette di creare immagini a partire da una semplice descrizione testuale, senza la necessità di vedere alcun riferimento e senza la necessità di raccogliere ulteriori dati di addestramento.
È anche possibile modificare immagini esistenti per renderle simili a quelle di altri domini, ad esempio utilizzando l'immagine di un cane per generare un gatto. Lo stesso approccio può essere applicato ad altre architetture generative, aprendo interessanti possibilità di creare immagini in modo rapido e accurato.
Impollinazioni
Tra i "prossimi passi" Impollinazioni promette di fare ciò che ci serve. Dal loro sito web, "a livello di ricerca, il nostro team sta sviluppando una tecnologia che consente alle persone di generare oggetti e avatar 3D con il solo aiuto del testo".
Anche in questo caso c'è da aspettare. Per ora, consente comunque di fare cose interessanti nell'area foto/video. Magari provatelo, ma ai fini di questo articolo serve a ben poco.
Text2mesh
Piccolo ma interessante, Text2mesh è meno un esercizio di stile rispetto ai suoi predecessori. Qui bisogna già avere il modello, ma l'IA promette di modificarlo in modo indipendente; ad esempio, aumentando il numero di poligoni, cambiando la forma e il colore e persino creando la texture da zero. Il tutto sulla base di un testo, una richiesta scritta.
Promemoria da inserire nell'agenda in caso di necessità.

Luma AI
Luma AI è un interessante progetto per scansionare oggetti reali ricreandoli in 3D. Il funzionamento è interessante e la qualità delle scansioni è ragionevolmente buona. Per oggetti di scena o figure sullo sfondo, la considero più che accettabile, anche in produzione.
Recentemente ha anche permesso di creare oggetti, e quindi personaggi, in 3D a partire da una richiesta di testo. Con il classico comando "immagina", già reso famoso dal programma Viaggio intermedio generatore di immagini. Ma anche in questo caso la qualità non è sublime. Buoni esperimenti, ma sicuramente non utilizzabili per scopi produttivi.
Personaggi e oggetti 3D senza intelligenza artificiale
Da tutto questo abbiamo capito solo una cosa: l'A.I. ad oggi, gennaio 2023, non ci permette ancora di avere buoni modelli 3D. Dato che dobbiamo mantenere il budget basso, però, realizziamoli con gli strumenti già disponibili.
Personaggi in 3D nel nostro cortometraggio
Non mi dilungherò in ricerche, ma valuto due strumenti per la creazione di personaggi in 3D che già conosco: il semplice Riallusione Creatore di personaggi, e Epic's fantastico MetaUomo.
Avremo bisogno di 3 personaggi per la nostra storia: Maria, Jake, e Sarah.
Creatore di MetaUomini
In realtà, nel caso di MetaHuman c'è un cambiamento rispetto al mio passato: Ho usato la beta di Creatore di MetaUomini. È fenomenale perché mi ha dato la possibilità di sfruttare la potenza di calcolo dei server di Epic creando personaggi in una pausa di lavoro direttamente con il mio portatile (che deve solo ricevere un flusso video).
Quindi, richiedendo l'"Early Access" con il proprio account Epic Games da metahuman.unrealengine.com, ci ritroviamo con una scelta di possibili personaggi.

Immaginiamo che tutti e tre abbiano tra i 20 e i 40 anni, altrimenti la sceneggiatura non ci dice molto su di loro.
Jake
Ho scelto di iniziare selezionando Aoi, come Jake. Non so, quella barba mi dà l'idea di "avventuriero".
Il software avverte che alcuni elementi del personaggio hanno elementi ancora in fase di sviluppo (in particolare i capelli) e quindi verranno visualizzati solo i LOD (livello di dettaglio) 0 (automatico) e 1 (massima qualità). Per noi va bene, la destinazione sarà un video prerenderizzato chiaramente alla massima qualità e non un videogioco in tempo reale.
Qualche modifica al personaggio (a torso nudo, colore degli occhi, scarpe e pantaloni più "adatti"), e viene salvato. Quindi lo esporteremo con il plugin Quixel Bridge di Unreal Engine 5.
Maria
Passiamo a Maria. Ho chiesto a ChatGPT di trovare le sue caratteristiche e la risposta è stata che poteva trattarsi di una donna di circa 30 anni. Capelli castani, lunghi fino alle spalle e tirati indietro in una coda di cavallo. Occhi marroni, intensi e profondi, di etnia latina, con la pelle abbronzata dalle sue avventure all'aperto.
Proviamo a realizzarlo. Partiamo da Roux. Facciamo una Miscela con Lena, Kendra e Tori che sembrano adatte a modificare un po' i suoi lineamenti e quindi l'etnia, diamole una coda di cavallo, occhi marroni, modifichiamo la consistenza della sua pelle per darle qualche anno in più, eliminiamo il trucco che difficilmente avrebbe in mezzo alla giungla, modifichiamo l'abbigliamento e il gioco è fatto.

Sarah
Infine Sarah. Per ChatGPT ha circa 25 anni, capelli biondi corti e mossi. Occhi azzurri, vivace e curioso, circa 1,70 metri, snello e muscoloso che indica una persona attiva e sportiva e di origine nordeuropea, con pelle chiara e delicata.
Ci affidiamo a Viviane varie modifiche, fino a ottenere qualcosa di simile a quanto richiesto. Chiaramente MetaHuman ha molte limitazioni, ancor più in questa versione online. Per esempio, sul corpo non abbiamo praticamente nessuna possibilità di operare, quindi la "muscolatura" è una caratteristica a cui dovremo rinunciare, a meno di non modellare in seguito. Ma, prima di tutto, non sono un modellatore 3D; e questo è un progetto a budget zero per scopi esclusivamente didattici. Inoltre, per lo stesso motivo, non è il caso di perderci più tempo del necessario.
Infine, lasciamoli lì; creeremo le animazioni con i manichini e poi effettueremo il retargeting con i personaggi MetaHuman direttamente in Unreal Engine 5.
Conclusioni
Per oggi ci limitiamo a questo; in uno dei prossimi articoli parlerò specificamente di animazione e Motion Capture con intelligenza artificiale (dove ci sarà più utile), e poi continueremo con gli ambienti, le voci, la musica e tutto ciò che ci serve per finalizzare il nostro piccolo progetto.
Mi darò il tempo di finire lentamente, ed eventualmente di fare altri articoli prima di continuare questo. Per due motivi: si tratta di operazioni elaborate e l'intelligenza artificiale è in una fase esplosiva. Un articolo scritto oggi potrebbe essere vecchio domani. Forse stasera.
Pertanto, poiché avremo bisogno di queste informazioni molto più verso la fine di quest'anno per l'effettiva produzione di una storia fulldome, teniamo a mente tutte le novità dei prossimi mesi.
Come sempre, grazie per avermi seguito e un abbraccio.
2 Commenti
Ciao a tutti! Io sono
Anna Dmitrieva,
Sono un regista cinematografico israeliano, ora mi trovo ad Austin, in Texas. Ho un progetto per un lungometraggio sull'Olocausto. Vorrei sapere: come si fa a fare un budget del film con l'intelligenza artificiale? Potete aiutarmi per favore? Grazie, sinceramente Anna Dmitrieva
Ciao Anna! Piacere di conoscerti. Non avevo mai pensato di utilizzare l'AI per la scomposizione della sceneggiatura e il budget, il tuo commento mi ha fatto conoscere un'ottima idea! Non li ho provati, ma strumenti come FilmuStage e Saturation.io sembrano interessanti. Li proverò sicuramente non appena avremo la sceneggiatura completa, potrei anche scrivere un articolo a riguardo. Ma ci vuole ancora un po' di tempo.