免费阅读
返回
菜单
上一章查看最新章节下一章

第43章 搜索引擎

作品:回到1997造芯片作者:牧狼童
如果本章错误,请点击报错10秒纠正

  搜索引擎,顾名思义,便是一种用于搜索信息而产生的工具。一般解释而言,便是通过用户的需求,和一定的算法,将用户输入的关键词与互联网上现存的信息进行匹配,并按照相关度和时间顺序,将符合要求的信息罗列在用户的眼前。

搜索引擎这门生意讲究的是个先来后到。如果能在最早的时候将知名论坛和网站的内容全部爬取,那就会在用户占有率上占尽优势。

要知道在这个时间点,日后驰名全球的寻他公司和布谷公司还在娘胎里,呀唬公司的搜索引擎虽然已经诞生,但其底层技术依旧是依靠人工存放网站目录,可谓是效率极其低下。

现在已经有互联网信息爆炸的趋势了,随着信息越来越多,人工处理流程必将被淘汰,而王向中设想的,则是抢在市场最前列,将新一代的搜索引擎提前面世。

实际上做一个搜索引擎并没有看上去那么轻松。首先是代码问题,这个年代网页技术还停留在Web1.0(互联网1.0)的时代,先暂且不提Ajax(Asynchronous Javascript And XML,异步JavaScript和XML)这种动态页面刷新机制,就连JavaScript(一种Web页面脚本语言)都还尚未出现。

还好Windows公司相当强大,早在1996年发布了ASP1.0(Active Server Pages,动态服务器页面),这也让王向中不必苦哈哈地用大量C语言进行后端代码编写工作。

接下来就是数据的爬取和存储问题。这话虽然听起来很高端,但实际上也就是将数据从别的网站上摘下来,进行索引和关键词分配的简单加工后存储的过程。

这个时候Python语言尚还叫ABC语言,很显然在这个年代使用这个失败的产品是不太合适的,使用更加成熟的C++也许可以解决一些问题。

将爬虫模型简单地铺开来讲,最基础的爬虫,便是通过程序直接访问网页的源代码,通过正则表达式匹配出网页的标题和其具体内容,再接着分析网页内的超链接所指向的页面,逐步将整个网站的内容收入囊中。

再接下来便是数据的存储问题。MySQL(一种关系数据库管理系统)可以完美地代替文本文档进行数据存取,因为它有一项对于搜索引擎而言重要的功能——索引。

索引可以给一条数据给予定义。举个最简单的比方,为了节省空间,图书馆的书一般是纵向摆放,而在每本书的侧面上

…。。
   本章没完,请点击下—页继续阅读!如果被转码了请退出转码或者更换浏揽器即可。
  温馨提示:亲爱的读者,如果你觉得本站还好,为了避免丢失和转马,请勿依赖搜索访问,建议你使用[华为刘揽器]或[Firefox火狐刘揽器]访问并收蔵【词令书屋】 m.ciliso.net。我们将会持续为你更新,还建议你注册会员使用书架功能追书阅读更方便。
上一页 123下一页
上一章查看目录下一章
临时书架加入书签回顶部↑

看了《回到1997造芯片》的书友还喜欢看

神魂丹帝
作者:浊酒一湖
简介: 少年十年坚持,却惨遭未婚妻夺取武魂而亡!穿越觉醒神秘武魂的秦朗,发誓绝不再让别人左右...
更新时间:2026-03-04 20:26:22
最新章节:第三千七百四十二章 邪异种族
我在忍界掀起百鬼夜行
作者:暝天想睡觉
简介: 胧月下,五影退避,尾兽匍匐,圣地紧闭。薄雾后,一道道猩红的妖瞳缓缓睁开,滔天妖力肆意...
更新时间:2026-03-04 20:39:00
最新章节:第九百零四章 血脉奔腾,来世注意
在蔺府做奶娘的日子
作者:天降紫薇星
简介: HE甜宠+女非男全c+雄竞修罗场

蔺云琛很早就察觉到,每夜...
更新时间:2026-03-04 20:47:34
最新章节:第一卷 第222章 春夜雨绵绵
爹!求你别升了,咱家真是奸臣!
作者:杨雪凌
简介: 许清欢穿书了,穿成了大乾第一巨贪许有德的独女。\n看着满屋子的金银珠宝,她没有笑,因...
更新时间:2026-03-04 21:24:03
最新章节:第180章 念天地之悠悠,独怆然而涕下
吞噬古帝
作者:黑白仙鹤
简介:少年苏辰被人夺帝骨,废血轮,惨遭家族遗弃。 觉醒混沌体,开启混沌吞噬塔,以混沌杀戮重聚血轮,...
更新时间:2026-02-27 21:00:02
最新章节:第6215章 本王不愿意随意滥杀无辜
王府里来了个捡破烂的崽崽
作者:三颗小石头
简介: 宁王妃带回了一个爱捡破烂的幼崽,自从她进了王府,王府从此一飞冲天:祖母的眼睛能看清楚...
更新时间:2026-03-04 21:13:00
最新章节:第一卷 第556章 不够
书名:

本站若有图片广告属于第三方接入,非本站所为,广告内容与本站无关,不代表本站立场,请谨慎阅读。

Copyright © 2020 词令书屋 All Rights Reserved.kk

SiteMap