Twitter crea un índice general de tuits

Desde 2006 Twitter ha hecho eco de las vidas de millones de personas y muchos acontecimientos importantes. La idea de haber sido un enorme recopilatorio de noticias y eventos en tiempo real ha preocupado a aquellos amantes de las historias sin nombre.

Por esto Twitter está trabajando en una nueva infraestructura que permita la búsqueda eficiente de temas de interés general o con valor humano, como conferencia, lugares, empresas o simplemente, conversaciones que han tenido gran repercusión y que se hilan mediante hashtag como #JapanEarthquake, #Election2012, #ScotlandDecides, #HongKong, #Ferguson, etc.

Obviamente, el sistema de búsqueda debe ser muy eficiente ya que tiene que recorrer miles de millones de documentos y solicitudes con una latencia inferior a los 100 milisegundos. Por esto las características más destacadas del diseño de esta herramienta han sido:

  • Modularidad: Twitter ya tiene un índice en tiempo real, que contiene aproximadamente una semana de los tuits más recientes. Aprovechando este código y combinando ambos índices se crea un sistema de búsqueda más refinado y en menos tiempo.
  • Escalabilidad: El índice completo es más de 100 veces más grande que el índice en tiempo real y crece a razón de varios miles de millones de tuits a la semana. Por esto los índices son expansibles y así cada capacidad extra expande la búsqueda sin requerir grandes recursos extras.
  • Rentabilidad: El índice en tiempo real está almacenado en la RAM para obtener una baja latencia y actualizaciones rápidas. Usar la misma tecnología RAM para el índice completo habría sido carísimo.
  • Interfaz simple: Para que los usuarios puedan tratar toda la información con un único criterio de valoración.

El objetivo de "indexar cada tuit” no se logró en un trimestre. El índice total se basa en proyectos anteriores, ya en 2012 podemos encontrar un pequeño índice de aproximadamente 2 mil millones de los tuits más destacados. En 2013, se amplia ese índice y se efectúan acciones de evaluación y ajuste del rendimiento SSD para concluir en 2014 con la construcción del índice completo con una arquitectura de varios niveles, que se centran en la escalabilidad y la operatividad.

De momento los resultados completos del índice aparecen en la pestaña "Todos los Tweets" de resultados de búsqueda en el cliente web de Twitter y aplicaciones oficiales de Twitter para móviles iOS y Android

Relacionados

Otros relacionados

Nos encanta escucharte ¿Nos dejas tu opinión?