使用PHP做网页采集实例过程总结

发表时间：2013-12-27 10:01 | 分类：PHP | 浏览：2,880 次

最近有个任务是需要我检查一些网站，如果纯手工检查的话，感觉既费时又无聊。所以我就想用采集。思路其实很简单，先把网站的源码采集下来，然后用正则表达式去匹配符合的链接，最后把标题和网址入库、分析。因为我使用最多的是php，所以打算用php做网页采集。

第一步，链接数据库，取出需要检查的网站和正则。

数据库这里我用了postgresql，数据库和表已经按要求建好。因为默认配置的环境是centos系统加nginx、mysql和php，所以首先是配置环境。配置具体不在这里多说，下次总结。环境配置好后在php中用pg_connect连接数据库，这里我连接了两个不同的数据库。

$conn_1=pg_connect("host=xxx.xxx.xxx.xxx port=5432 dbname=mydb1 user=postgres password=xxxxxx") ;
$conn_2=pg_connect("host=xxx.xxx.xxx.xxx port=5432 dbname=mydb2 user=postgres password=xxxxxx") ;

第二步，取出网页源码，对源码进行初步处理。

不同网站编码格式不一样，需要先把编码统一转换成utf-8，不然之后入库会出现乱码。


//获取网页源码
//$url='https://zhangnq.com/' ;
$str = file_get_contents($url);
//使用preg_match和正则表达式取出编码
$wcharset = preg_match("/<meta.+?charset=[^\w]?([-\w]+)/i",$str,$temp) ? strtolower($temp[1]):"" ;
//编码转换
if($wcharset){
$str=iconv("$wcharset", "UTF-8", $str) ;
}

这里我还使用str_ireplace()函数对取到的源码做了些字符替换，不然最后用正则匹配网址的时候会出现问题。

第三步，匹配处理后的源码字符串，对匹配的数据入库。

从数据库中取出对应的正则，保存在$preg变量，符合正则的数据已数组形式保存在$m。


$pat = "/<a(.*?)href=\"($preg)\"(.*?)>(.*?)<\/a>/is";
preg_match_all($pat, $str, $m);
$cnt=count($m[2]) ;
for($i=0;$i<$cnt;$i++){
 if(strip_tags($m[2][$i])){
 $url=strip_tags($m[2][$i]) ;
 $url=$m[2][$i] ;
 }
 if(strip_tags($m[4][$i])){
 $title=strip_tags($m[4][$i]) ;
 }
 else{
 $title="There's Something Errors!" ;
 }
 //编写代码，对title和url进行入库操作。
 }
}

采集单个网页这样基本上就算完成了。总结，这里其实就用了preg_match(),preg_match_all()和str_ireplace()函数。程序菜鸟，写的不好请见谅。

本文标签：PHP

本文链接：https://www.sijitao.net/1511.html

欢迎您在本博客中留下评论，如需转载原创文章请注明出处，谢谢！

下一篇：CentOS下配置PHP PostgreSQL扩展支持
上一篇：支付宝双功能接口部署和担保交易确认发货失败的问题。

已经有2个回复

Comment (2)

Trackbacks (0)

小行　( 2014.02.21 12:54 ) : #-9

赞一个，真心不错
- 章郎虫　( 2014.02.21 15:25 ) :
  
  谢谢，业余的，写的不好。

还没有Trackbacks

日历
2024年四月

一二三四五六日

« 十

1 2 3 4 5 6 7

8 9 10 11 12 13 14

15 16 17 18 19 20 21

22 23 24 25 26 27 28

29 30
标签
360 apache CentOS chrome Fail2ban find Firefox GAE Gmail Google htaccess Life linux MongoDB MSN Mysql nagios Nginx PHP Postfix PostgresQL Python QQ Redis SEO Shell SQL ssl tomcat ubuntu virtualbox VPS windows Wordpress XML Zabbix 主机代理发牢骚域名小百科搜索热门百度邮箱

2024年四月
一	二	三	四	五	六	日
« 十
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

使用PHP做网页采集实例过程总结

日历

标签

最新发表