Archivio

Archive for 27 Ottobre 2007

Numeri – parte terza – Shannara e dintorni

27 Ottobre 2007 Davide Lascia un commento

Di Terry Brooks, altro autore da bestseller, prenderemo qui in considerazione un campione costituito da

  • Jarka_Ruus
  • Tanequil
  • Morgawr
  • Antrax
  • First King of Shannara
  • Druid of Shannara
  • Wishsong of Shannara
  • Sword of Shannara
  • Elfstones ofShannara

Insomma, un buon campionario dei diversi cicli di Shannara.

I parametri considerati sono gli stessi di prima.

dati brooksE in prima battuta, anche Terry Brooks ci riserva le stesse sorprese di Stephen King.
Ancora una volta, la parolamedia è lunga 1,4 sillabe, con una sola eccezione notevole (ma ne riparleremo).
Meglio di King la percentuale di parole colte o desuete – 7/8% invece di 6/7%, con un inusitatto 10% per Sword of Shannara.
Ma si tratta di unfantasy di ambientazione medioevale, mentre ilibri di King avevano tutti una ambientazione moderna – logico aspettarsi parole fuori dallo standard quotidiano.
Come nel caso di King, e forse ancora di più, la lunghezza media della frase è assolutamente stabile, attorno alle tredici parole.
Anche qui, il primo romanzo del ciclo devia malamente dalla media, con frasi decisamente lunghe (quasi venti parole per frase).

Come potrete immaginare, il grafico delle componenti principali per il campione di Terry Brooks avrebbe più o meno lo stesso aspetto di quello relativo alla produzione di King – con La Spada di Shannara ad un estremo, ed una nube molto stretta di tutti gli altri romanzi, accomunati da strutture simili e lunghezze comparabili.

shannara clusterProviamo allora qualcosa di diverso.
Proviamo una Cluster Analysis, un metodo grafico che cerca di mettere in evidenza all’interno del campione, gruppi di oggetti simili.
I nove volumi considerati qui sopra appartengonoa tre generazioni di libri di Shannara.
E’ possibile, sulla base dei soli numeri (incidenza di parole desuete, lunghezza di frase, lunghezza totale del libro) distinguere i primi libri del ciclo dai successivi?

La risposta è decisamente si.

Il grafico qui a destra (è piccolino, mi spiace), mostra chiaramente due grappoli principali.
Quello più in basso riunisce i romanzi più vecchi, mentre il grappolo superiore riunisce le ultime uscite di Brooks.
E non solo, all’interno del cluster inferiore, La Spada di Shannara e Le Pietre Magiche di Shannara, i primi due romanzi del ciclo, sono nettamente separati dalle opere successive.

Non solo Brooks ha ampliato i propri temi cercando dove possibile di allontanarsi dall’originario modello Tolkieniano, ma ha anche mutato il proprio linguaggio.
Frasi più brevi.
Una terminologia più semplice.

Evoluzione o involuzione dell’autore?
Ai suoi fan la decisione, naturalmente.
Di sicuro, col progredire della serie vi è stata unamaggiore standardizzazione.
Se poi dipenda da una maggiore disciplina autorale, o da un editor più invadente, i numeri non ce lo dicono.

Anche perché qui, ora, le domande sono altre.
Ad esempio, se io possedessi i dati de Il Signore degli Anelli, e li inserissi nel data pool di Shannara, dove si collocherebe la trilogia di Tolkien?
E se inserissi anche i dati sui libri di Guy Gavriel Key -autore infinitamente più dotato di Brooks – ma talmente simile a Tolkien da essere ingaggiato per rendere pubblicabile il Silmarillion?

Numeri – parte seconda: i numeri del best seller

27 Ottobre 2007 Davide 3 commenti

OK, ho pensato che sia meglio partire con qualcosa di semplice prima di arrivare alla gran baraonda finale.

Quindi, partriamo con l’analisi di un singolo autore: Stephen King.

I motivi della scelta sono molteplici.
Alcuni ovvii – King ha la certificazione di bestseller assoluto – altri meno immediati – è più facile reperire su Amazon.com i dati di King che non quelli, per dire, di Lovecraft.

Amazon.com infattinon fornisce “fun statistics” per tutti i libri in catalogo – ma tende aprivilegiare i bestseller, americani, e ristampati di fresco.

Vediamo allora cosa riusciamo a cavareda uncampione composto da

  • Insomnia
  • Christine
  • Firestarter
  • Dead Zone
  • The Stand
  • Cujo
  • Misery
  • Dolores Clayborne
  • Dark Half
  • Rose Madder
  • Gunslinger
  • Talisman
  • Black House

Sono tutti bestseller.
Spaziano su unbuon arco della carriera dell’autore – si noterà un’evoluzione?
E di che tipo?
Uno solo è partre della serie della Torre Nera – sarà diverso dagli altri?
E in cosa?
Due (Talisman e Black House) sono scritti in combutta con Peter Straub – saranno diversi?
E come?

Per ciascun volume consideriamo

  • percentuale diparole complesse (più di tre sillabe)
  • lunghezza media delle parole usate
  • numero in media di parole per frase
  • parole in totale
  • frasi in totale

dati kingI risultati sono inquietanti.
Il che è abbastanza opportuno.
Forse.

La struttura delle frasi di Stephen King appare scolpita nella roccia.
Un solido 6/7% di termini forbiti (che solo in Dolores Clayborne scende a 4, ma si tratta della narrativa in prima persona di una donna semplice, quindi il linguaggio è stato evidentemente adeguato), frasi consistentemente da 11-14 parole; ancora una volta, la povera Dolores, nel narrare le sue disavventure, si sbrodola un po’, con frasi mediamente più lunghe.
Il numero di sillabe per parola è un granitico 1,4 – ma vedremo che si tratta dello standard inferiore dell’inglese popolare.
Ancora una volta Dolores Clayborne è un’eccezione – la protagonista usa se possibile parole ancora più semplici, più brevi – e un sacco di articoli e interiezioni, probabilmente.

E’ questa la ricetta del bestseller?

Frasi brevi con parole corte e semplici?

Una Analisi Componenti Principali ci aiuta a vedere meglio il lavoro di King.
Si tratta di un tipo di analisi che, partendo dai dati a disposizione, determina quali siano i fattori di controllo sull’associazione.
In altre parole, otterrò un grafico che dovrebbe aiutarmi a rispondere alla domanda “In cosa sono diversi Dolores Clayborne, The Stand e Cujo?”

pca king largeNella lunghezza.
I romanzi di Stephen King cadono tutti in un campo di lunghezza (numero di parole o numero di frasi) e di lunghezza media delle frasi estremamente ristretto.
The Stand, una specie di fermaporte da quasi 500 mila parole, da una parte, e Gunslinger (appena 62 mila parole ma può permetterselo, è la prima puntata di una serie), dall’altra, definiscono un asse che da solo è responsabile del 57% della varietà nel campione.
In altre parole, se i tredici libri di King che abbiamo considerato vi sembrano diversi, per il 57% è per via di quanto sono spessi.
Per un altro 32% la differenza è data dalla lunghezza media delle frasi, con Dolores Clayborne contrapposta a La Zona Morta.

Questo, ovviamente, senza considerare la trama, i personaggi, la storia, l’abilità dell’autore.
Attenzione – non stiamo cercando la formula matematica del bestseller, stiamo piuttosto osservando la matematica che sottende un bestseller.
E dobbiamo ammettere che da un punto di vista strettamente meccanico, tutti i romanzi di King sono uguali, salvo una certa variabilità nella lunghezza, ed una (minore) varietà nella struttura delle frasi.

Il dettaglio più interessante del grafico dei componenti principali, tuttavia, è proprio quella stretta nube centrale, che ci dice che la varietà strutturale è un’eccezione notevole nella produzione di King.
Notate i due romanzi scritti in società con Straub, appena discosti ma comunque coerenti con lo standard di King.

Ora sarebbe bello rifare l’analisi inserendo i libri di Richard Bachman (era davvero così diverso da King?) e It – che con tutta probabilità, vista la mole, cascherebbe vicino a The Stand.

Ma per ora abbiamo u’altra domanda più pressante, io credo.
A questo punto, la domanda logica infatti è – se facessilo stesso lavoro con Terry Brooks, otterrei un risultato simile?

Numeri – parte prima

27 Ottobre 2007 Davide 6 commenti

La notizia mi arriva tramite il blog di Elvezio Sciallis, che cita Seth Godin (il link lo trovate a margine), che a sua volta gongola per un lavoro fatto da Steve Johnson.

numbersIn breve – uno dei servizi offerti dalle pagine di Amazon.com è una serie di statistiche sui libri in catalogo.
Non solo cose come il numero di pagine o il numero di copie vendute, ma anche cose tipo ilcosto in dollari per parola, la percentuale di parole complesse e la lunghezza media delle frasi.

Partendo proprio da questi due ultimi valori, Johnson ha rilevato un po’ di numeri sui lavori di alcuni autori di divulgazione (oltre a se stesso e a Seth Godim, ad esempio Steven Pinker e Malcolm Gladwell) ha inserito un paio di post-strutturalisti come fattoredi controllo ed ha fatto un grafico.

Da cui si evince che testi con frasi brevi e parole semplici funzionano meglio come veicolo per le idee.

Che è poi ciò che da trent’anni almeno insegnano nei corsi di scrittura per le scienze – dove e quando li fanno, certi corsi, naturallement.

Il che è molto bello e divertente, certo, ma lascia il mio spirito di statistico ambientale un po’… moscio?
Perché, ok, grande, ma fare uno scatterplot, uno stupido grafico XY su due variabili?
Wow!
Avanguardia! Cos’è, il 1920?

Ora non scherziamo.
Il lavoro di Johnson solleva alcune questioni interessanti.
Certo, quello della possibilità di definire quantitativamente lo stile di scrittura.
Ma non solo…

Immaginiamo di plottarei dati dei cento best seller di tutti i tempi.
Potremmo scoprire la formula stilistica del best-seller?
O c’è qualcos’altro, oltre al numero di sillabe e di parole fra i segni di interpuntazione, che conta?
Il contenuto, ad esempio.

E se plottassimo sullo stesso grafico narrativa “alta”, narrativa di genere e divulgazione scientifica, troveremmo tre raggruppamenti ben definiti, un continuum, oppure il caos?

E ancora, esistono differenze fra scuole nazionali?

E si può tracciare l’evoluzione storica e stilistica di un singolo autore?
E se plottassimo, per dire, tutti i libri di Asimov?
Riusciremmo a distinguere la fantascienza dalla divulgazione?

Richard Dawkins, nel suo classico Il Gene Egoista, ha identificato (creato, se preferito) la definizione di meme – il gene delle idee.
Se è possibile applicare una similitudine genetica alle idee, allora è logico applicare una similitudine ecologica ai luoghi incui le idee vovono, si riproducono e si propagano – il cervello,il linguaggio, i libri.

Questo è il mio campo lavorativo principale: l’analisi multivariata di dati ambientali.
Statistica pesante, molti numeri, molte variabili.
Elevato rischio per la salute mentale, elevati ritorni di informazioni.

Questo post si chiama parte prima perché spero entro 24 ore di avere un po’ di dati statistici concreti per uno studio statistico della letteratura.

Che lascerà il tempo che trova, certo.
Ma che non si limiterà ad un dannato scatterplot esplorativo.

La prima regola del freelance

27 Ottobre 2007 Davide 7 commenti

Convincili che sei affidabile

Anche a costo di farti un paio di notti in bianco lavorando con tempi strettissimi.

A-Team-CellNiente di meglio che essere segnalati sull’agenda di un editor o di un committente nella stessa categoria dell’A-team: strano ed eccentrico, ma farà il lavoro richiesto anche in tempi stretti.
Capitano in questo modo un sacco di lavori di emergenza, che bilanciano la scadenza al veleno (“Mi servono seimila parole e mi servono per ieri”) con compensi più che piacevoli.

E il vostro contrattore sarà sempre un po’ più disponibile con voi, se saprà che siete persone disponibili in caso di emergenza.
Più aperto a proposte selvatiche, più trattabile su questioni di scadenze e pagamenti.

E’ in questo modo che in capo ad una settimana mi sono cascati sul desktop due nuovi lavori.

Il Libro di Leiber è appena uscito, la raccolta di saggi su Hannibal Lecter è in fase di pre-produzione, e l’editor di entrambi i lavori mi ha affidato due nuovi saggi critici.

Uno sulle donne nella narrativa di Robert Bloch (l’autore di Psycho).

Uno sulla novella “Elsewhere” di William Peter Blatty (l’autore de L’Esorcista), da preparare con tempi “da emergenza”.

E come lamentarsi?
Pubblicazione internazionale da un editore rispettato e affidabile, in compagnia di autori ad alto profilo, pagamento sicuro (non cose del tipo “speravamo ma poi…”)…

Certo batte fare il bancario ogni dannatogiorno della settimana.
Con tutto il rispetto per i bancari.