Blog de Thomas Renard: Aspirer un site avec wget

dimanche 23 janvier 2011

Aspirer un site avec wget

wget permet d'aspirer le contenu d'un serveur web. Attention à ne pas trop solliciter le serveur en question ! Des options permettent notamment de limiter la bande passante utilisée.



wget -r -k -l2 --limit-rate=50K -T10 -nd -e robots=off

wget -r -k -H --limit-rate=50K -w 1 -nd -A.jpg -o log.txt -e robots=off http://nom_du_serveur/

Donc la cible est http://tar.get/wanted/directory/. Les options :

* -r pour parcourir tous les liens du sites.
* -k conversion des liens en liens locaux.
* -E conversion php vers HTML, pour relire aisément avec Firefox.
* -np pour ne pas remonter dans l’arborescence du site

D’autre options utiles :

* -lX, où X est un entier, pour ne parcourir que X niveaux de l’arborescence du site.
* -c pour continuer un téléchargement interrompu.
* –load-cookies si nécessaire.

Les options pour ne pas trop solliciter le serveur :

* -limit-rate X, pour limiter la Bande Passante à X B/s
* -w X pour attendre X secondes entre chaque téléchargement de fichiers.
* -T X au bout de X secondes wget abandonne le téléchargement d’un fichier.

http://doc.ubuntu-fr.org/wget
http://mementolinux.wordpress.com/2010/09/25/aspirer-un-site-avec-wget/

Blog de Thomas Renard

Rechercher dans ce blog

dimanche 23 janvier 2011

Aspirer un site avec wget

Aucun commentaire:

Enregistrer un commentaire