Ecco due motori di ricerca/spider scritti in PHP:
Entrambi hanno caratteristiche simili e un admin davvero intuitivo che permette di aggiungere siti da spiderizzare.
Sia phpDig che Sphider memorizzano le informazioni su database.
Per chi volesse invece memorizzare le pagine html su file binari… date un occhio a Lucene, che è stata inserita come libreria nello Zend Framework

