写爬虫之前,我们还需要了解一些基础知识,如HTTP原理、网络网页的爬虫基础知识、爬虫的网络基本原理、Cookies的爬虫基本原理等 。本文中,我们就对这些基础知识做一个简单的网络总结。
🌟HTTP 基本原理
在本文中,我们会详细了解 HTTP的爬虫基本原理,了解在浏览器中敲入URL 到获取网页内容之间发生了什么
。了解了这些内容,有助于我们进一步了解爬虫的网络基本原理。
✨URI和 URL
这里我们先了解一下URI和URL,爬虫URI的全称为Uniform Resource Identifier,即统―资源标志符,URL的全称为Universal Resource Locator,即统一资源定位符 。
URL是网络URI的子集,也就是说每个URL都是URI,但不是每个URI都是 URL 。那么,怎样的爬虫URI不是URL呢?URI还包括一个子类叫作 URN,它的全称为Universal Resource Name,即统―资源名称 。URN 只命名资源而不指定如何定位资源,比如urn:isbn:0451450523指定了一本书的网络ISBN,可以唯一标识这本书,但是没有指定到哪里定位这本书,这就是URN。URL、爬虫URN和URI的网络关系 。
但是爬虫在目前的互联网中,URN用得非常少,所以几乎所有的URI都是URL,一般的网页链接我们既可以称为URL,也可以称为URI,我个人习惯称为URL 。
✨超文本
接下来,我们再了解一一个概念——超文本, 其英文名称叫作hypertext,网络我们在浏览器里看到的网
页就是超文本解析而成的,其网页源代码是一系列HTML代码,里面包含了-系列标签,比如img显
示图片,p指定显示段落等