dimecres, 5 de gener de 2011

Culturomics: genoma textual



Diu Erez Lieberman Aiden que si el genoma humà conté informació hereditària que es transmet de generació en generació, les paraules que utilitzem en els llibres que s’escriuen també passen de generació en generació.

Lieberman Aiden i Jean-Baptiste Michel han dirigit el Programa de Dinàmica Evolutiva de la Universitat de Harvard, un projecte que han anomenat "culturomics", acrònim dels termes anglesos "culture" i "genomics". Aquest projecte es va materialitzar el passat 16 de desembre en una gran base de dades, que Google ha llançat a la xarxa en forma d’aplicació a www.culturomics.org. Aquest base conté al voltant 500.000 milions de paraules (el 72% són en anglès), buidades dels 5.195.769 llibres (publicats entre el 1800 i el 2000), que són els que s’han utilitzat extraient-los del projecte Google Books, que porta, de moment, més de 15 milions de llibres digitalitzats. La cerca es pot fer en anglès, castellà, francès, xinès (simplificat), rus, alemany i hebreu (aquesta llengua no és de moment operativa).

Aquesta aplicació permet fer cerques de paraules comunes, conceptes, antropònims, topònims, etc., en una determinada llengua i en una determinada franja temporal i s’obté com a resultat la freqüència d’us de la paraula. Amb aquest resultat es poden fer comparacions entre termes i entre franges temporals, i se’n pot veure l’evolució i la tendència, tant lingüística com cultural, a través del temps.

No sé quina pot ser la utilitat que se li pot donar a aquesta eina, perquè sense context l’ús de les paraules es relativitza. No sé tampoc a qui li pot ser més útil: lingüistes, informàtics, sociòlegs, historiadors... En tot cas, serà una eina més, que podrà servir de suport per confirmar dades o tesis, o per fer aproximacions, però mai per treure conclusions.

Per exemple, ara se m’acut que moltes paraules no s’haurien de datar segons l’any d’edició del llibre d’on han estat extretes, sinó del context històric en que són esmentades. Posem un cas extrem: si es fa una edició moderna del Tesoro de la lengua castellana, de Sebastián de Covarrubias, les paraules no s’haurien de datar amb data actual, sinó amb la de 1611, que és el de l’edició original.

A l’article de la pàgina web de Tercera Cultura, citat més avall, Ricardo Rodríguez comenta alguns dels usos que se li pot donar a l’eina i proposa i explica alguns exemples significatius.

Jo aniria amb compte perquè la joguina és addictiva!

 Exemple de comparació entre science i religion


2 comentaris :

  1. És interessant. Tot i que com dius, cal ser prudents, doncs una paraula fora de context pot perdre el seu significat i desvirtuar el sentit del missatge.
    El fonament teòric d'aquesta aplicació sembla tenir paral·lelismes amb el concepte de "meme" creat per Richard Dawkins a "The selfish gene" el 1976 (p.ex. http://es.wikipedia.org/wiki/Meme)
    Salutacions

    ResponElimina
  2. Hola, Luigi.

    Suposo que sí. Podríem acceptar que el resultat d'una cerca a Culturomics, si està ben contrastada, és una tendència cultural i, en aquest sentit, equiparable a un "meme". Caldria, però, més enllà de la dada, veure quina és la incidència real de la tendència a la societat i quina transmissió té en el conjunt de la societat o entre grups amb prou ascendent social o cultural.

    ResponElimina