“不过,我有写代码的活儿给你……”
“老陆你还是不是人啊!你忍心看我下半辈子孤独终老了嘛??”
“老左啊,你不想让林筱笑跟了你之后,有大房子住,有好车坐,有漂亮衣服穿,不用为柴米油盐操心嘛?”
“想……”
“那不就得了……”陆道升露出了魔鬼般的笑容,“今天就到这吧,明天来找我,我有事儿和你商量,做好了,你家林筱笑后半生就不愁没钱花了。”
左文杏:“……”
……
据说李兴平在建立hao123之前,通过在网吧得到的用户需求和自己的努力搜集,在自己的笔记本上记录了足足5000多个网址。有感于李前辈的艰辛努力,陆道升自己从重生后确定要截胡hao123开始到现在,也零零散散地搜集了大概300多个常用网址。
但300多个常用网址是撑不起一个网址导航网站的,所以一定要想办法搜集到更多的网址。
李兴平搜集的方式是通过听人讲加自己查的方式一条条积累出来了足够多的实用网址,但陆道升即没有李兴平那样当网管近距离接触草根网民的条件,又没有李兴平那么多可以投入到搜集网址的时间,所以想靠模仿李兴平的路线得到那么多实用网址对陆道升来说是行不通的。
于是陆道升写了套网络爬虫系统(包括爬取网页的爬虫和后续内容处理的模块)。
1998年,谷歌也才刚在今年成立,爬虫技术尚未非常普及,在中国国内连专业程序员都没几个人会写,李兴平是初中毕业,打工及创建hao123的早期都不具备很强的计算机编程能力,自然没有使用网络爬虫这个选项可选。
但对陆道升来说,写套爬虫系统不在话下。即便在1998年很多常用的基础库尚未出现,凭借他扎实的基本功,陆道升也能实现个七七八八出来,足够支持他把爬虫系统写出来。
有了爬虫系统,就能高效地利用网页中嵌套的超链接来进一步获得更多的网址。比如在sohu.com的页面里,会有很多文章和其他网站的链接,这些链接对应的网页下载后,又能在下载的网页上看到新的超链接,不断搜集下去,就几乎可以把大部分的网址给一网打尽。
也幸亏1998年,中国互联网才刚刚开始发展,整个网络上没有多少内容,陆道升才能借助韩教授实验室的机器完成爬取工作,这要是到了未来信息爆炸的年代,一千台服务器都能因为内容太多下不完而爆掉。
但只有爬虫系统把网址搜集下来是不够的,还需要开发一些过滤器和筛选算法,最后人工审核,才能最终得到一份可用的网址,这就需要拉上左文杏这个宝贵的战力了。
……