PROSJEKT 07 / 11
Crawler
Modulær Python-crawler for norske annonseportaler — høflig, diff-basert, driver søke- og scoring-verktøyene.
Datalaget under Turboscore og Spotscore. En modulær crawler for de offentlige annonseportalene på tvers av kategorier (biler, eiendom, jobber) med kategorispesifikke parsere, respektfulle rate-limits, full HTML-snapshotting og diff-basert endringsdeteksjon slik at vi kan vise prishistorikk uten å re-fetche hver annonse hver dag.
Bygget for å være høflig — vedvarende gjennomstrømming godt under det kilden ser fra en menneske-nettleser-økt, request-fingeravtrykk som ikke later som de er noe de ikke er, og en per-annonse TTL som respekterer den underliggende markedsdynamikken.