Interno – martino/pietropoli – Design, Art, Photography

Title

Interno

Excerpt

Qualche pensiero sull'Ai per la generazione di immagini e cosa mi ha fatto scoprire, sin qui

Date

01.07.25

01.07.25

Interno

Qualche pensiero sull'Ai per la generazione di immagini e cosa mi ha fatto scoprire, sin qui

Text

Una doverosa introduzione

Sono a conoscenza del dibattito attorno all’uso dell’AI per la generazione di immagini. So come funziona e so soprattutto come sono fatte le immagini prodotte e attingendo da quali bacini di dati. Questa è la doverosa introduzione morale: non sono d’accordo sul come questi modelli sono stati addestrati e su come sono stati riforniti di dati.

La generazione di immagini (sintografie vengono definite quelle create da un prompt testuale) per molti versi espone in modo ancora più evidente il punto debole dell’AI generativa, ossia il non capire cosa produce: sia che si tratti di testo che di immagini (o video, più recentemente), il risultato è definibile come tale solo perché noi umani gli attribuiamo un senso. La macchina/AI non capisce cosa produce, non ha coscienza dello spazio o del significato. Ciò che genera è un output più o meno coerenti con l’input/prompt. L’AI semmai sa interpretare i prompt, ecco perché se le chiedo di generare una mela rossa su un piatto di ceramica otterrò proprio quella immagine.

La vera intelligenza artificiale – quando e se mai esisterà – saprà esattamente cos’è una mela, che consistenza ha, di che colore è. Di conseguenza, assocerà alla parola “mela” un concetto reale e vissuto, proprio come fa un umano. Per ora non è così. L’AI generativa usa una tecnologia molto dispendiosa in termini energetici, inefficiente e poco sostenibile, data la sproporzione fra lo sforzo richiesto e il risultato conseguito.

Detto ciò, si tratta comunque di una tecnologia impressionante che è opportuno conoscere. Gli argomenti a favore e contro sono svariati e non li riassumerò qui. Questa introduzione è più che altro rivolta ad amici e conoscenti contrari a questo strumento: potrei dire che a spingermi verso di esso sia stata la curiosità per le nuove tecnologie. È il vero motivo, oltre ad altri che esporrò, ma di certo non l’ho mai usata per ingannare o per delegare a una macchina ciò che so fare da me. Continuo a disegnare a mano e a scattare fotografie. Tutte le grafiche de Il Pensiero Lungo sono analogiche, ottenute senza alcun intervento digitale, a parte il supporto su cui sono state realizzate o catturate.

L’inizio: tradurre i sogni

Tutto è iniziato dopo aver terminato il progetto dei 100 Petali. il progetto dei 100 Petali. Non avevo voglia di cominciare un altro, né avevo idee particolari. Me ne è però tornata in mente una che coltivavo da tempo: disegnare i miei sogni, o almeno quelli che ricordavo. Faccio sogni che spesso si svolgono in ambienti complessi, a tratti piranesiani (del resto, sono architetto). Se avessi tentato di disegnarli a mano, avrei abbandonato dopo poco: non ne sono capace e non ho la pazienza necessaria.

L’AI mi è parsa un buon martello, e io avevo un chiodo da piantare.

ChatGPT

La prima difficoltà è descrivere esattamente l’immagine che si vuole creare. Raccontare una visione è molto più difficile di quanto si creda: una descrizione generica trascura i dettagli e una dettagliata può, a sua volta, omettere particolari determinanti. A questo si aggiungeva, nel mio caso, il fatto che le immagini derivassero da sogni: erano “impressioni”, più che scene definite.

Per quanto il prompt sia accurato, il risultato è imprevedibile. Dipende dalla facoltà umana di spiegare a parole ciò che è visivo e da quella di una macchina di tradurre quelle parole in elementi grafici.

(Suggerimento: un amico mi ha consigliato di descrivere le immagini come fossero storie. Funziona, specialmente se i soggetti sono umani; è più complicato con scene statiche, come una città o un’architettura. Però ha un senso. L’AI sembra interpretare bene l’atmosfera di una storia, specie se narrata con cura. Oserei dire che a volte pare comprendere meglio il linguaggio della letteratura di quello tecnico).

Gli strumenti che ho usato sono stati due: ChatGPT e Gemini. Le immagini che producono sono sensibilmente diverse, ma di questo parlerò magari in un’altra occasione. Non sono nemmeno post-prodotte: le presento così come sono state generate, al più con piccole modifiche alla saturazione o alla luminosità, cioè modifiche minime.

ChatGPT

Il processo

Il processo è semplice solo in apparenza. Scrivo un prompt che descrive una situazione più o meno specifico su ciò che voglio ottenere. La prima immagine generata quasi mai va bene, quindi proseguo per iterazioni continue. Il processo può durare anche decine di minuti, nel mentre faccio altro, ma lo specifico per dire che non è immediato e il ruolo umano non è passivo. È un dialogo, durante il quale accade qualcosa di imprevisto che mi ha fatto riflettere su un aspetto del tutto inatteso.

La sintografia non è solo una nuova tecnica produttiva, ma un mezzo espressivo a sé stante. Non è una foto, non è un disegno: è un’altra cosa.

Una foto può essere costruita o spontanea, ma gli spazi d’azione sono limitati: anche se è fatta in studio, è probabile che, per ragioni pratiche ed economiche, non sia possibile modificare il set più di tanto. Con l’AI, le iterazioni sono infinite. Ma l’aspetto più interessante è che si tratta di iterazioni attive, capaci di far emergere significati e messaggi latenti.

Mi è capitato, per esempio, di generare l’immagine di copertina: una suora e una bambina in una strada inglese di sapore brutalista. In origine c’era solo la suora con i guantoni da boxe. Era un’immagine inconsueta, ma niente di più. Poi è arrivata la bambina, emersa dall’immagine stessa e dalla mia immaginazione. Quella bambina era già lì, da qualche parte, e ha chiesto di manifestarsi di fronte alla suora. Cosa è cambiato? Che ora c’è tensione. Cosa ci fanno una davanti all’altra? Perché la suora ha i guantoni? Che si tratti forse di qualche inaccettabile punizione da impartire alla bambina? Eppure sembra così innocente.

Quando c’è tensione, c’è anche – almeno in fieri – una storia. Alcune immagini sono capaci di evocarla perché lasciano intuire cosa è accaduto prima e cosa accadrà dopo. La storia non si vede, ma è intuita dall’osservatore e ricostruita con i soli elementi a disposizione. L’osservatore diventa attivo, integrando con la propria immaginazione ciò che non si vede.

Ho scoperto allora che le sintografie sono un tipo di immagini in cui si è creatori e osservatori allo stesso tempo, perché integrano non solo l’atto della creazione ma anche la memoria delle osservazioni sulle versioni precedenti. In altre parole, la sintografia, come esito finale di un dialogo fatto di descrizioni e modifiche, porta con sé l’eco della parola che l’ha generata e delle riflessioni scaturite da ogni versione intermedia.

La sintografia è un tipo particolare d’immagine speciale: contiene le parole e le storie che l’hanno generata.

Può darsi che queste osservazioni siano dovute all’origine di queste immagini, ossia dai sogni: siccome raccontano mondi che esistono solo in uno stato onirico, sono direttamente collegate al mio Io più profondo, e in questo senso mi rivelano e mi espongono. Ma anche le storie che, poco alla volta, si esprimono nel risultato finale per continue addizioni e aggiustamenti del prompt provengono da qualche parte di me, del creatore. In questo senso le sintografie sono ancor più rivelatrici del personale del creatore di una foto, poiché sono il risultato di un’intenzione (lo scatto) e di un racconto interiore (logos).

Gemini

Fotografia, sintografia e logos

La fotografia tradizionale (ormai è il caso di chiamarla così) rivela il punto di vista dell’autore e la sua reazione al reale. Gli elementi che la generano sono la realtà e la lettura che l’autore ne fa. È per sua natura un’arte indicale, una “traccia” diretta della luce riflessa da un oggetto esistente. Il fotografo (salvo chi lavora in studio) non crea la scena dal nulla: la trova, la seleziona dal flusso della realtà. La sua abilità non risiede nel costruire una realtà, ma nel prevederla e reagire ad essa. La sua è un’arte (o una tecnica) istintiva, non meditata. Certo, il fotografo non agisce solo d’istinto: la sua è una reazione educata, addestrata da anni di pratica. Esiste quindi un logos anche nella fotografia (la composizione, la tecnica, la post-produzione), ma agisce su una materia prima che è data: il mondo. Il logos del fotografo organizza una realtà pre-esistente, non la genera.

ChatGPT

La sintografia invece deve essere costruita attraverso la descrizione e le iterazioni successive, quindi è l’esito di una addizione e sottrazione continua, mentre la fotografia è davvero uno sparo (dall’inglese “to shoot”, che indica sia l’atto dello sparare con un’arma che quello di scattare una foto): è un gesto immediato, istintivo (per quanto allenato, come si diceva).

Un’immagine sintografica non può esistere senza il prompt. Il punto di partenza non è la realtà esterna, ma il linguaggio, cioè il logos nella sua forma più esplicita: la parola scritta. L’immagine è una traduzione diretta, una visualizzazione di un concetto espresso verbalmente.

Logos, cioè la parola stessa, ha un significato più ampio di “parola”, dato racchiude in sé sia il concetto di “parola” che quello di “pensiero”.

Riassumendo: il logos della fotografia è la tecnica e la conoscenza, quello della sintografia è la parola che si fa pensiero e quindi immagine. Non intendo dire che una sia superiore all’altra ma voglio solo capire le differenze e perché la seconda sia così affascinante (al netto di tutti i discorsi fatti nell’introduzione).

ChatGPT

ChatGPT

Concludo: si può pensare in parole o immagini. C’è chi lo fa anche in numeri, ma non ne son capace e pure i numeri, in un certo senso, sono segni e quindi parole. La sintografia è la sintesi di pensiero e parole, è la parola che diventa immagine. Si tratta di un processo per niente trascurabile, o almeno lo colgo come tale.

Quando ho deciso di far diventare i miei sogni immagini, ho trovato nella sintografia il modo per tradurre le parole che avevo in testa (le storie) e le immagini oniriche, o meglio: attraverso di essa ho estratto dalla mente le immagini, usando le parole. Che hanno rivelato altre storie, mentre le raccontavano.

Non si tratta di interpretazioni di sogni ma di traduzioni, che, come tali, tradiscono il testo originale (il sogno) ma ne espandono i significati.

Riguardo queste immagini e mi ci riconosco solo in parte, Sono davvero i miei sogni? Sono elaborazioni, sono diventati altre cose, definite da parole che provenivano dalla mia mente. Sono comunque parte di qualcosa che ho all’interno. Quindi sono me, comprese le parti che non conosco ma che ora hanno voce.

Non posso dire con sicurezza di conoscerle ma di riconoscermici, sì.

Ancora una volta, l’AI è uno specchio, e non è sempre facile accettare la propria immagine riflessa. O non lo è per tutti: a me va benissimo.

Title

Excerpt

Date

Text

Una doverosa introduzione

L’inizio: tradurre i sogni

Il processo

Fotografia, sintografia e logos

Tags

Altri articoli

Sintesi

Sunday at the Village Vanguard

Musica

Search

Privacy

Cookies and Policy

Info

Contact form

Contact