AI nella produzione cinematografica: come produrre un film innovativo low budget

Nell’articolo di oggi, voglio iniziare a presentarvi un grande progetto nel quale stiamo lavorando con the usual nExt, unendo intelligenza artificiale e cinema. Usiamo l’AI per la produzione cinematografica, in un film immersivo, a 360 gradi, inizialmente proiettato in cupole mobili. Sfruttando tutte le ultime tecnologie per essere un’esperienza memorabile che unirà reale e virtuale. In pratica: una pietra miliare per quello sarà il cinema del futuro.

Persone in una cupola immaginaria con proiezioni di pesci e pianeti in un grande cielo.

Promette di lasciare un segno profondo e di rappresentare una svolta significativa nella storia del cinema. Per un cinema più democratico, più presente tra la gente, che unisce… Quello che fu il cinema originario, e che da tanto non riesce più ad essere.

In questo articolo voglio parlarvi a grandi linee, tecnicamente, dell’idea di base. E condividere con voi alcune possibili aree di utilizzo dell’intelligenza artificiale per ottenere il massimo con un budget, volutamente, ridotto.

Possiamo considerarlo anche un aggiornamento, in fase molto più avanzata, dello scorso articolo scritto a febbraio 2023 dal titolo Come fare film low budget con l’Intelligenza Artificiale – Prime fasi.

Table of Contents

L’impatto rivoluzionario dell’Intelligenza Artificiale nel cinema

Un tempo, gli effetti speciali e le tecniche narrative erano le bacchette magiche del cinema, ma oggi l’intelligenza artificiale sta giocando una carta rivoluzionaria. È un aiuto incredibile, un complice che spalanca le porte a un’innovazione senza precedenti. Stiamo cavalcando questa onda, con l’IA al nostro fianco che dà una mano nella creazione di storie avvincenti, personaggi digitali che sembrano veri e musiche che ti arrivano dritte al cuore. Ma non dimentichiamo il tocco umano, il vero cuore pulsante di ogni nostra creazione.

“Intelligenza artificiale e cinema” non è un motto gettonato, ma l’inizio di un nuovo capitolo nel raccontare storie. Siamo pronti a dimostrare che il futuro dell’intrattenimento non è più un sogno lontano: è qui, ed è animato dall’intelligenza artificiale.

Luna Dolph, Kyle e China: dal virtuale alla vita reale

Il racconto, sceneggiato da Gérard Bernasconi, parte dalla storia di Luna Dolph, Kyle e China; non semplici personaggi, ma avatar tridimensionali che respirano vita in un mondo virtuale affascinante e complesso. Questi avatar non sono solo protagonisti di una storia, ma simboli della nostra epoca. Rappresentazioni vivide della nostra progressiva immersione nell’universo virtuale, conosciuto anche come metaverso. Questo concetto, un tempo relegato alla fantascienza, sta rapidamente prendendo forma e influenzando settori diversi, dai videogiochi alle piattaforme di social networking, trasformando il modo in cui interagiamo, lavoriamo e ci divertiamo.

Realtà Virtuale e Identità Digitali

Una ragazza e un robot insieme in un cinema

Il nostro obiettivo non è solo quello di raccontare una storia avvincente, ma di invitare il pubblico a riflettere sulla natura della realtà in un’era digitale. Questi avatar, con le loro interazioni complesse e i loro mondi intricati, rappresentano la fusione in atto tra la nostra vita fisica e quella digitale. Una convergenza che sta ridefinendo il significato stesso di identità, comunità e appartenenza.

Al fulcro della nostra narrativa troviamo Luna Dolph, Kyle e China. Sono tre avatar tridimensionali le cui vite si svolgono in un mondo virtuale di straordinaria bellezza. Pur esistendo nell’etere digitale, la loro storia è un ponte verso la realtà, un mezzo per ricordare ai nostri spettatori il valore insostituibile dell’interazione umana e della vita reale. In un’epoca in cui la digitalizzazione ha trasformato i nostri modi di connetterci, il nostro racconto mira a usare la tecnologia non come un rifugio, ma come un trampolino per riscoprire e rinvigorire la socialità autentica e tangibile.

La tecnologia aiuta a vivere meglio

Mentre Luna, Kyle e China navigano in un metaverso affascinante, le loro esperienze e sfide risuonano con un messaggio chiaro: la tecnologia, per quanto avanzata, è uno strumento che, se usato con saggezza, può arricchire ma non sostituire il calore e la complessità delle connessioni umane. Il nostro obiettivo è far emergere la consapevolezza che, nonostante l’attrattiva del digitale, la vita vera si svolge fuori dallo schermo. Nelle risate condivise, nelle strette di mano, negli abbracci e nei momenti spontanei che costituiscono il tessuto della nostra esistenza.

Con questa narrazione, aspiriamo a ispirare gli spettatori a sollevare lo sguardo dai loro dispositivi e a immergersi nuovamente nel mondo reale, arricchendo le loro vite con esperienze autentiche. Attraverso l’esplorazione di mondi virtuali, vogliamo celebrare e promuovere la bellezza e l’importanza insostituibile della vita reale e della socialità umana.

Il film rappresenterà la prima uscita nel mondo reale per i tre protagonisti.

Come usiamo l’AI nella produzione cinematografica

Siamo ancora in fase pre-produttiva, quindi dal punto di vista pratico vi terrò aggiornati nei prossimi mesi. Per ora abbiamo un’idea di massima: abbiamo selezionato un compendio di tecnologie di intelligenza artificiale (AI) di ultima generazione e allo stesso tempo economiche e disponibili a tutti.

Il film sarà in formato fulldome, immersivo a 360×180 gradi. Praticamente lo proietteremo in cupole e planetari. E’ un’innovazione cruciale guardando al futuro, visto che si spinge sempre più verso l’immersività totale. E abbiamo un budget limitato, diciamo a occhio tra 10 e 20.000 euro. Il film durerà circa 40 minuti, e sarà per circa il 30% nel mondo virtuale di Luna e i suoi amici (interamente ricreato in Unreal Engine), per il restante 70% nel mondo reale.

Usare Luma AI per il cinema del futuro

Per cominciare a parlare di questo arsenale tecnologico cito Luma AI, una soluzione pionieristica che rivoluziona completamente la generazione di ambienti tridimensionali. Luma AI ci consente di riprodurre ambienti reali all’interno di Unreal Engine, in qualità fotorealistica e persino con un iPhone. Impiegando tecnologie avanzate come il Neural Radiance Fields (NeRF) e il nuovissimo Gaussian Splatting (quest’ultimo pubblicato appena tre mesi fa dall’Università della Costa Azzurra, in Francia), possiamo catturare la complessità e la ricchezza del mondo reale in formato digitale, inserirlo in Unreal Engine (compresa la possibilità di muoversi liberamente all’interno della scena) e dar vita a scene precedentemente relegabili solo a grandi budget.

Abbattiamo i costi legati alla creazione di ambientazioni dettagliate e oggetti complessi, oltre a snellire e accelerare il processo produttivo. Luma AI non democratizza soltanto l’accesso a tecnologie di prim’ordine, ma ci fornisce anche gli strumenti per sperimentare a una velocità che prima era inimmaginabile. E permette di imprimere un livello di vivacità e profondità senza precedenti nelle nostre scene.

Skybox AI per il cinema – Illuminazione semplificata su Unreal Engine

Un altro strumento cruciale nel nostro repertorio è Skybox AI di Blockade Labs, per creare skybox immersive. Arricchendo le scene virtuali con dettagli vitali sull’illuminazione e l’ambientazione.

Uno skybox in Unreal Engine non solo fornisce un ambiente circostante visivamente convincente (montagne, cielo, case lontane ecc…), ma influisce anche sull’illuminazione globale degli asset 3D all’interno della scena. Questo è quanto più ci interessa in ambito cinematografico: agisce infatti come una fonte di luce ambientale, riflettendo i suoi colori e le sue tonalità sugli oggetti, contribuendo a creare un’atmosfera coerente e realistica. Ad esempio, uno skybox che raffigura un tramonto infonderà calde tonalità arancioni e rosse sulla scena; mentre uno skybox notturno fornirà una luce più fredda e tenue. Questo processo aiuta a integrare gli assets 3D nell’ambiente circostante, rendendo l’intera esperienza visiva più immersiva e coerente.

Aspetto che si rivela essenziale nella creazione di ambienti fulldome a 360 gradi. Ogni minimo particolare è fondamentale per sostenere l’illusione di un mondo completamente immersivo.

Usare Kaiber AI per il nostro film

Kaiber AI è utile e di qualità, ma ho un serio dubbio: non so se funziona con i video fulldome. Ancora non ho avuto il tempo di sperimentarlo, ma eventualmente aiuterà a rendere più omogenee le scene in modo da unire ancor meglio gli assets. Lavora tramite l’AI direttamente sui file video finali.

Intelligenza artificiale e cinema: Reverie AI

In attesa del lancio di Reverie AI, siamo stimolati dalle sue promesse di creare mondi virtuali per Unreal Engine quasi “copiando” una foto preesistente. La sua capacità di generare scenari che imitano fedelmente la realtà, unita alle potenzialità nella color correction delle scene virtuali, ci apre porte verso possibilità illimitate nella narrazione visiva. Reverie AI promette di essere un eccellente complemento al nostro workflow, migliorando la coerenza visiva e garantendo transizioni fluide e convincenti tra il mondo virtuale e quello reale.

Move.ai, mocap economica e funzionante

Un altro tool “intelligente” che contiamo di usare per il nostro film sarà Move.ai, nello specifico l’economico servizio Move One (in offerta lancio a 15 dollari al mese, poi dovrebbe costare 30). Con una semplice app per iPhone, potremo creare animazioni personalizzate semplici e pronte senza troppe correzioni o clean-up. Ciò riduce tempi e costi, permettendo di non essere limitati dalle animazioni già disponibili in servizi come Mixamo, ActorCore o il MoCap Market di Noitom.

Qui un rapidissimo video test:

Chiaramente, hanno anche il più costoso servizio professionale che permette di usare fino a 8 camere. Ma non contiamo di usarlo per questa prima produzione, a meno di concretissima necessità.

Speech-to-speech per il doppiaggio cinematografico… È possibile?

Nella nostra produzione, l’innovazione non si ferma alla creazione del mondo digitale; vogliamo infatti approfittare della rivoluzione tecnologica in atto anche per aspetti tradizionali della cinematografia, come il doppiaggio.

Immagine generata con MidJourney che mostra un uomo del futuro che parla con un robot.

La voce di Luna e degli altri avatar 3D, deve essere coerente (per non dire identica) in tutti i media, sia nel mondo virtuale che in quello reale. Affrontiamo una sfida complessa: mantenere la stessa voce su diverse piattaforme, compresi i social media e soprattutto lo streaming in tempo reale, senza legarci a un unico doppiatore. Questo ci permette di avere flessibilità nella narrazione e di adattarci a vari formati senza dipendere dalla disponibilità di un attore specifico.

L’idea è replicare le voci di alcuni attori reali e associarle agli avatar (Luna, Kyle e China per cominciare), poi trasformare la voce di un qualsiasi attore, in tempo reale, in quella di Luna, per usarla sia per il doppiaggio di film e contenuti social (tanto in lingua originale, tanto per le traduzioni), sia per il live streaming sovrapponendo queste voci all’avatar animato in motion capture.

Dall’ottimo ma costoso Respeecher, all’ambiguo Voicemod

Abbiamo esplorato opzioni come Respeecher, uno strumento avanzato di conversione speech-to-speech, ma i costi per il real-time sono proibitivi. Parliamo di circa 1000 o 2000 euro al mese, per poche ore di utilizzo. Voicemod si presenta come una soluzione più economica grazie alle sue AI voices, anche se circolano voci contrastanti sulla sua affidabilità (alcuni lo considerano addirittura un malware o un cryptojacking…). E resta il problema di non avere i diritti sulla voce, di loro proprietà, il che risulterà certamente un problema in futuro. Non so ancora il costo per la conversione in real-time di Resemble.ai, che ho usato in passato per il molto più economico text-to-speech, e di Veritone Voice.

Un altro strumento che non ho potuto testare è Voidol 3, ad un costo di circa 300 dollari. Non ho trovato una versione demo, ma ammetto di non essermi neppure impegnato tanto a richiederla. E’ uno dei vari software orientali, creati per la tipica passione giapponese verso il mondo anime. Ma in realtà adattabile al nostro scopo, come vedremo tra poco con un altro giapponese.

MetaVoice Live, Mangio RVC Fork e W-Okada Voice Changer, gratis e open-source

Le soluzioni finali, dopo tanta ricerca, sono MetaVoice Live e il Voice Changer di W-Okada. Entrambi open source, il che ci rassicura di poter basare la “vita futura” dei personaggi su questi servizi, ed entrambi gratuiti. Non posso non citare il canale YouTube AI Tools Search che mi è stato utilissimo. Tra i video più interessanti in questo ambito, sicuramente questo:

MetaVoice mi piace particolarmente: è in fase di acceso sviluppo ed ha una versione cloud per le conversioni non in tempo reale che garantisce maggior qualità e flessibilità. Questa non è gratuita, ma il costo tra 10 e 25 dollari al mese si può tutto sommato affrontare.

Al contrario, il Voice Changer di W-Okada ha molti sviluppatori indipendenti che sviluppano soluzioni compatibili con esso, come l’utente GitHub Mangio621 che ha creato il Mangio RVC Fork, un software con interfaccia Web in grado di trasformare la voce di un attore reale in quella del modello vocale scelto. Molti di questi modelli, soprattutto personaggi famosi, sono già disponibili su siti come Voice-Models.com in formato “.pth”. Un classico formato usato nell’ambito del machine learning), ma la cosa più bella è che con lo stesso Mangio RVC possiamo effettuare l’addestramento, o training, di una voce personalizzata. Tutto in locale grazie ad una buona scheda video. E pertanto chiaramente sempre disponibile, e gratis.

A breve però farò un articolo specifico su questo. Così mi seguirete mentre faccio qualche prova interessante.

Generare video con l’intelligenza artificiale

Un uso dell’AI nella produzione cinematografica può essere il text-to-video, o video-to-video. Ma quanto può essere utile generare video con l’intelligenza artificiale? Intendo proprio da zero, descrivendo all’AI in maniera testuale (o con una referenza video molto semplificata) ciò che si desidera ottenere. Un po’ il futuro, ad oggi tools come Runway Gen-1, Genmo AI, o Moonvalley AI sono poco più che esperimenti. Utili in alcuni frangenti, ma lontani dalla qualità e realismo necessari ad una produzione cinematografica.

Evidentemente, dovremo lavorare ancora per qualche anno per ottenere i nostri film 🙂

Canon EOS R5C e obiettivo Dual Fisheye per video fulldome 3D

E per le riprese live action? Nel nostro viaggio, ci stiamo cimentando con una combinazione di attrezzature davvero entusiasmante. Teniamo sempre a mente l’obiettivo: poca spesa tanta resa. Avevo inizialmente pensato di girare tutto in completo 360 gradi, anche per rendere il tutto già compatibile in caso di futuri porting in realtà virtuale. Ma il costo diventava proibitivo, sia per la camera (una camera professionale come la Insta 360 Titan, tra l’altro non aggiornata da anni, costa oltre 17.000 euro), sia per le difficoltà di iniziare già dal primo momento con un campo così largo.

L’idea è quindi di produrre il video giusto per la cupola, in 360×180 gradi (in pratica metà sfera). E l’obiettivo Canon RF 5.2mm F2.8 L Dual Fisheye, abbinato alla Canon EOS R5C, dovrebbe rivelarsi una scelta vincente. Questo setup non solo offre immagini immersive, ma ci permette anche di sperimentare con riprese stereoscopiche, che aggiungono un livello extra di profondità e realismo.

La cinepresa Canon EOS R5C, con la sua gamma dinamica tra 11 e 12 stop e sensore da 8K, offre un ottimo rapporto qualità-prezzo. È una considerazione importante per noi, poiché stiamo cercando di mantenere un budget equilibrato senza sacrificare la qualità. Valuteremo anche se noleggiarla… Da Adcom, obiettivo e camera vengono offerti a circa 200 euro giornalieri.

Ad essere onesti, non possiamo ancora sfruttare appieno le potenzialità della stereoscopia a causa della proiezione, ma è sicuramente qualcosa che ci piacerebbe esplorare in futuro. È una di quelle cose che sembrano davvero cool e potrebbero aggiungere un tocco speciale al nostro progetto. Avete mai proiettato fulldome stereoscopici o avete qualche suggerimento su come potremmo integrarla nel nostro lavoro? Sarei felice di sentire i vostri pensieri e idee.

E se in qualcosa mancherà rispetto a camere più blasonate… Anche in questo caso, contiamo di sfruttare l’AI per il miglioramento della qualità dei video. Ma le ricerche, nel campo, dobbiamo ancora farle.

Conclusioni

Alla fine, la nostra scelta di strumenti digitali e attrezzature riflette il desiderio di non scendere a compromessi sulla qualità, pur tenendo d’occhio il budget.

In breve, stiamo creando qualcosa che va oltre il cinema tradizionale. Grazie all’intelligenza artificiale e alla tecnologia di punta, il “cinema del futuro” non è più un sogno. È reale, vogliamo vederlo accadere. E con il genio di Gérard Bernasconi alla sceneggiatura (il quale ci ha dato anche un gran contributo tecnico), la precisione di Michela Sette nel ruolo di VFX Supervisor e la creatività di Michele Pelosio alla regia, stiamo forgiando un’esperienza cinematografica rivoluzionaria. Tenetevi pronti, perché stiamo per portarvi in un mondo dove cinema e realtà si fondono in un’esperienza trascendentale 🙂