Main parameters主要参数说明¶
iter_url 可传递参数的链接¶
BaseCrawl
类中的 iter_url
参数,是一个带格式化输出的链接:
iter_url = "http://example.com/?page=%s"
其中 %s
是python中的格式化输出的方法,使用过程中,将需遍历的参数(多为页数)置为 %s
,以让程序内部进行参数的迭代
iter_num_range 迭代参数¶
BaseCrawl
类中的 iter_num_range
参数,是一个可迭代的的对象,即含 __iter__
属性的对象::
例如range,list等迭代器
iter_num_range = range(1, 6, 1)
或者:
iter_num_range = [1, 2, 3, 4, 5]
即迭代的参数是从1到5的连续数列,通常是指爬取的页数,需要爬取从1到5页的内容。