Por Sami85 , Viernes 01 de agosto de 2008 a las 10:45
Buenas tardes,
Tengo creado un spider en php, el cuál, es capaz de recorrerse un dominio, de entrada a fin, siempre que el robots.txt me lo permita. Y claro está, que el site no esté en php, o similares (viva Apache¡¡).
El problema que tengo, es a la hora de recuperar los links y compañia. Sé que son todos expresiones regulares, con este tipo de formato:
<p>
<a href="http://servidor.com/files/aaaaaaaaaaa/unFichero.rar">Texto_del_enlace</a>3.11M<font color="#ffff66">(Servidor1)</font>
<font color="white">
<a href="http://servidor.com/files/aaaaaaaaaaa">Otro Servidor</a>
</font><font color="#ffff66">(Depositfiles)<br>
</p>
Ha alguna persona, se la ocurre alguna forma de obtener cada uno de los datos, de forma correcta, aunque sea cada etiqueta en una variable?
He probado de varias maneras, pero me és imposible.
Si el script llega a funcionar, lo compartiré con mi dé la solución