wget

En algunas ocasiones nos puede resultar interesante poder descargar el contenido de alguna web para mirarlo con más calma sin tener que estar conectados o simplemente si queremos guardarlo porque nos resulta útil o interesante. Linux proporciona una utilidad seguramente desconocida para muchos pero que se utiliza en numerosos scripts. Estoy hablando de wget.

La forma más sencilla de utilizarla es poniendo una url. Por ejemplo:

$ wget http://www.malavida.com/es/articulos/
Hecho esto tendremos el archivo index.html con el contenido de la portada actual del blog de Malavida.

Para obtener la estructura completa de directorios debemos usar la opción recursiva -r:

$ wget -r http://www.malavida.com/es/articulos/
Así, wget empezará a descargar todos los archivos de todos los directorios, con la salvada de que respeta en caso de existir las indicaciones del archivo robots.txt y no descargará nada excluído por dicho archivo.

También es posible especificar múltiples urls simplemente poniendo una detrás de otra:

$ wget http://www.malavida.com/es/ http://www.example.com

Wget es un comando muy potente que posee gran cantidad de opciones: se puede configurar para salir a internet a través de un proxy, se puede pasar como parámetro un usuario y un password para logarse en una web determinada, también es posible definir el número de reintentos en caso de que alguna web esté caída,... Para conocer todas las opciones en profundidad lo mejor es echar un vistazo a su ayuda con el comando

man wget

Relacionados

Nos encanta escucharte ¿Nos dejas tu opinión?