对于搜索引擎来说,搜索引擎蜘蛛在爬取的时候主要是针对于网站端的网页文件进行爬取,例如html、htm、asp、php、aspx ... 等等,其实除此之外Google还能够爬取各类文档的类型并进行索引的编入、收录、以及快照显示,Google常见能够被编入索引的文件类型有诸如.pdf、.ps、.csv、.gpx、.xls、.ppt、doc、.java、.xml、PNG、GIF、jpg等。所以Google 可以将大多数文本文件和某些已编码文档格式的内容编入索引。
最常编入索引的文件类型包括:
Adobe 便携式文档格式 (.pdf)
Adobe PostScript (.ps)
以逗号分隔的值 (.csv)
Google 地球(.kml、.kmz)
GPS 交换格式 (.gpx)
Hancom Hanword (.hwp)
HTML(.htm、.html、其他文件扩展名)
Microsoft Excel(.xls、.xlsx)
Microsoft PowerPoint(.ppt、.pptx)
Microsoft Word(.doc、.docx)
OpenOffice 演示文稿 (.odp)
OpenOffice 电子表格 (.ods)
OpenOffice 文本文件 (.odt)
富文本格式 (.rtf)
可缩放矢量图形 (.svg)
TeX/LaTeX (.tex)
文本文件(.txt、.text、其他文件扩展名),包括采用常用编程语言的源代码,例如:
Basic 源代码 (.bas)
C/C++ 源代码(.c、.cc、.cpp、.cxx、.h、.hpp)
C# 源代码 (.cs)
Java 源代码 (.java)
Perl 源代码 (.pl)
Python 源代码 (.py)
无线标记语言(.wml、.wap)
XML (.xml)
Google 还可以将以下媒体格式的内容编入索引:
图片格式: BMP、GIF、JPEG、PNG、WebP 和 SVG
视频格式: 3GP、3G2、ASF、AVI、DivX、M2V、M3U、M3U8、M4V、MKV、MOV、MP4、MPEG、OGV、QVT、RAM、RM、VOB、WebM、WMV 和 XAP
此外,对于搜索引擎对编入索引的技术条件上,还会取决于网站速度、内容质量、网站权重、用户行为等多方面的因素