Si ponemos el contenido de Wikipedia en una balanza, ¿cuánto pesaría?

Por pferreras | diciembre 15, 2021

Si hay algo en internet que se acerque a contener el saber universal es la Wikipedia. En la era pre digital el saber equiparable y accesible desde casa estaba en enciclopedias. La diferencia en tamaño es sin embargo astronómica.

Jaime Crespo, ingeniero informático y miembro del equipo de la Fundación Wikimedia que se encarga de la persistencia de sus sistemas, ha hecho un cálculo aproximado del peso en terabytes de todos los proyectos de su organización, de los que la Wikipedia es el principal.

Quizás te pueda interesar: 20 años de Wikipedia: pregúntame lo que quieras

A finales de septiembre le salieron 500 y 600 terabytes, incluyendo las imágenes. Un disco duro de 10 terabytes pesa 850 gramos, y un terabyte equivale aproximadamente a 500 horas de vídeo en alta definición. El contenido completo de la Wikipedia cabría por tanto en unos 50 kilos de discos duros.

“Si pusiéramos el contendido en un solo fichero, sería eso, en 300 idiomas y todos los proyectos”

Este cálculo sirve a modo de ilustración, pero tendría varios problemas técnicos. Ese peso no incluiría la Wikipedia en un formato fácil de buscar ni organizado: “Parece poco porque en texto plano tampoco es tanto, junto a las imágenes (…) Pero para servir esa información, necesitas muchísimo más espacio”, dice Crespo.

Jaime Crespo, miembro de la Fundación Wikimedia, a la cual pertenece Wikipedia
Jaime Crespo, miembro de la Fundación Wikimedia. FOTO: Myleen Hollero/Wikimedia Foundation

Si tuviéramos solo esos discos en casa en formato texto y quisiéramos buscar una palabra, tardaría horas en devolver el resultado. “No tendrías las mismas funciones que en internet. Igual tardarías dos horas en encontrar lo que buscas. Tendrías que buscar de arriba abajo todo. Las bases de datos organizan información de forma que pidas un artículo y en milisegundos lo tengas”, explica el ingeniero, que hizo su cálculo para una conferencia de la Asociación de Python, un lenguaje de programación.

A pesar de estas carencias técnicas, la comparación sirve para entender la inimaginable diferencia entre las enciclopedias Larousse de los hogares del siglo XX y la Wikipedia. ¿Cómo podíamos pensar que aquellas enciclopedias fueran universales? “Además, somos los primeros en decir que no tenemos casi nada del conocimiento humano”, explica Crespo.

“Nos fastidia muchas veces que un pueblo pequeño de España tenga solo 4 párrafos cuando podría tener muchos más”

Para completar la analogía, un artista estadounidense pretendió imprimir solo la Wikipedia en inglés. Le salieron 7,473 volúmenes.

La Wikipedia hoy es mucho más que la enciclopedia de antaño, pero su uso no es tan distinto. En la Wikipedia en español, en septiembre dos de las tres palabras más buscadas fueron “Cleopatra” y “tabla periódica de los elementos”, que tienen toda la posibilidad de estar vinculadas a estudiantes. La segunda es “El juego del calamar”, la serie de Netflix. La Wikipedia combina búsquedas tradicionales con temas de actualidad.

Ramas pertenecientes a la Fundación Wikimedia
Ramas que componen a la Fundación Wikimedia. FOTO: Wikimedia

Hace unas décadas, algún personaje especialmente dedicado podía pretender leer todo el conocimiento universal. Incluso Crespo hizo sus intentos: “Me encantaba cuando era pequeño sacar la enciclopedia, leer y aprender cosas, quizá por eso he terminado trabajando aquí”. Pero hoy eso sería imposible, es apabullante: “Wikipedia es un agujero negro de conocimiento porque te atrae y no termina nunca, siempre hay algo más, sería imposible leerla para un humano por la velocidad a la que se añade la información”, añade.

Wikipedia es la página número 14 entre las más visitadas del mundo, según datos de Alexa. Eso significa, según Crespo, “medio millón de consultas por segundo”, de las que un tercio aproximadamente son para la Wikipedia en inglés. El tamaño del resto de páginas principales es mucho mayor que la Wikipedia.

Wikipedia es un 99% información abierta, dice Crespo. Procuran también tener poca información privada porque no tenerla es el mejor modo de evitar filtraciones o pérdidas. Aún así los editores que vigilan cambios en páginas o que vandalizan otras es información delicada. De ahí los cifrados.

“La mayoría de los datos son públicos. Aparte de nuestras copias de seguridad que contienen actividad de los usuarios, publicamos en una página de exports con un archivo de todos nuestros artículos para que la gente se lo pueda bajar. Si desapareciera nuestra organización, el público tiene una copia para reconstruirlo. Incluso hay una copia en la Luna”, concluye. (rt)

Suscríbete a la revista y regístrate a nuestros newsletters para recibir el mejor contenido en tu buzón de entrada.

Tags