Desde el 1 de septiembre de 2014 estoy publicando las dos partes de El Quijote en Twitter. En este artículo explico algunos detalles técnicos para aquellos que se han interesado.
La fuente
Para calcular cuántos tuits serían necesarios, me descargué el texto digitalizado desde el Proyecto Gutemberg y eliminé los avisos legales del inicio y el final. También eliminé el prólogo de Cervantes y los sonetos para poder empezar con el famoso “En un lugar de La Mancha…”. Ahora creo que hubiera sido mejor respetarlos, pero es ya una decisión irreversible. Con estos ajustes, el texto tiene 2.151.251 caracteres.
El troceado
El troceado de El Quijote en tuits lo hice mediante un algoritmo que está explicado aquí. La idea es tomar unos 180 caracteres cada vez e ir eliminando palabras enteras hasta que el resto no supere los 140 caracteres disponibles en un tuit. El hecho de que saliera un número redondo de tuits, 17000, tuvo mucho peso en la decisión de tirar adelante el proyecto. Los matemáticos saben que un número no tiene una significación distinta de otro, pero el hombre común sí que siente la fascinación de los números singulares.
La tasa
El cálculo de la tasa de tuits por día producía un valor de 28’45, y por eso en un primer momento opté por enviar un tuit por hora, a sabiendas de que se produciría un desfase progresivo. La solución era publicar al doble de velocidad los tres últimos meses. Más tarde he pensado que tres meses a tuit cada media hora es un poco excesivo, incluso para quien haya tenido la paciencia de llegar hasta ahí, y ahora lo que hago es añadir esos cuatro tuits diarios de más como repicón (a las 8:05, 12:05, 16:05 y 20:05 horas). Cada dos días añado un tuit a medianoche (a las 00:05 horas) para cubrir esos 0’45 tuits diarios que restan. Con el tiempo este último tuit desaparecerá.
La infrastructura
Toda la aplicación está alojada en un servidor de Arvixe, un proveedor que me recomendó un amigo. Es económico y permite programar en PHP y Python, aunque el soporte para éste último lo he tenido que configurar yo para trabajar con la versión 3.4. El coste es de unos 74€ por dos años.
El sistema se sustenta sobre dos tablas MySQL, una que contiene todos los tuits y otra que registra los tuits que se han publicado ya. Un programador de tareas (el cron de Linux) se encarga del envío periódico. Todos los scripts se escribieron en Python, un lenguaje de programación que recomiendo por lo simpático que es en comparación a otros que he conocido. A pesar de su simplicidad aparente, es un lenguaje potente, y sobre todo, tiene una amplia colección de librerías, como por ejemplo la que permite publicar en Twitter.
Vínculos
Perfil de ElQuijoteEn17000Tuits en Twitter.
Página con lo publicado hasta hoy.
Y eso es todo. Si queréis más precisiones, aquí tenéis los comentarios o podéis recurrir al correo. También me podéis encontrar en mi otra cuenta de Twitter. Saludos a todos!
One reply on “El Quijote en 17000 tuits: detalles técnicos”
Ya que soy seguidora de QuijoteEn17000Tuits es bueno saber el “detrás de escena”.