Project

General

Profile

php无法通过file_get_contents或curl采集页面内容的解决方案

技术文档
11/05/2012

PHP在用file_get_contents函数采集网站时,有时明明用浏览器可以看,但就是采不到任何内容。
这很有可能是服务器上做了设置,通过php $_SERVER["HTTP_USER_AGENT"]获取 User_agent判断是否为正常的浏览器请求 ,因为默认PHP的file_get_contents函数是不发送ua的。
所以我们就要伪造浏览器请求。如果要采集这样的网站,我们就必须要让PHP模拟浏览器发送UA,欺骗网站返回正常内容。
什么是User Agent?User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
测试了一下不设置伪造的用户代理,在程序里面输出$_SERVER["HTTP_USER_AGENT"]是空的,应该是在dhl服务器上加了设置如果为空的话,放回错误。
有下面2种方法解决无法采集的问题
1设置php.ini配置文件 找到user_agent这个开启,把前面的分号去掉
2 通过php的ini_set()方法设置用户代理
案例:
ini_set('user_agent','Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)');
echo file_get_contents('http://www.dhl.com/content/g0/en/express/tracking.shtml?brand=DHL&AWB=7657309413');

Files