博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
php不用正则表达式获取文章A标签链接的方法
阅读量:4601 次
发布时间:2019-06-09

本文共 1119 字,大约阅读时间需要 3 分钟。

php不用正则表达式获取文章A标签链接的方法

DOM获取链接

不要使用正则表达式解析的HTML
也许最大的错误时,人们作出尝试从一个网页的网址或链接文字中试图做到这一点使用正则表达式。这项工作可以做正则表达式,但是,有一个拥有整个文件妊娠多次循环的高开销。正确的方法和速度更快,无限冷却器方法是使用DOM。

通过使用getLinks职能的DOM,可以简单地创建一个包含所有环节上的键网页,并链接作为值名称。此数组然后可以在循环数组一样创建一个列表,在任何需要的方式操纵或。

请注意,抑制错误时使用加载HTML。这是为了抑制有关无效的HTML在DOCTYPE没有定义实体的警告。当然,在生产环境中,错误报告将被禁用错误报告设置为无。

1 
loadHTML(file_get_contents($link));12 13 /*** remove silly white space ***/14 $dom->preserveWhiteSpace = false;15 16 /*** get the links from the HTML ***/17 $links = $dom->getElementsByTagName('a');18 19 /*** loop over the links ***/20 foreach ($links as $tag)21 {22 $ret[$tag->getAttribute('href')] = $tag->childNodes->item(0)->nodeValue;23 }24 25 return $ret;26 }27 ?>

 

类似的方法可以是使用XPath将达到同样的结果。无论哪种方式,使用DOM将会证明远远超过一般运算效率。

实例

1 
0)10 {11 foreach($urls as $key=>$value)12 {13 echo $key . ' - '. $value . '
';14 }15 }16 else17 {18 echo "No links found at $link";19 }20 ?>

 

转载于:https://www.cnblogs.com/qmtx3/archive/2013/03/27/2983895.html

你可能感兴趣的文章
Minimum Window Substring
查看>>
IIS处理并发请求时出现的问题
查看>>
数学作业
查看>>
使用pycharm开发web——django2.1.5(二)创建一个app并做一些配置
查看>>
[ZPG TEST 105] 扑克游戏【Huffman】
查看>>
_bzoj2005 [Noi2010]能量采集
查看>>
pat 团体天梯赛 L3-010. 是否完全二叉搜索树
查看>>
烟草MES系统介绍-序
查看>>
优先队列小结
查看>>
线程安全与可重入函数之间的区别与联系
查看>>
bat批处理中如何获取前一天日期
查看>>
{Nodejs} request URL 中文乱码
查看>>
异常及日志使用与项目打包
查看>>
努力,时间,坚持,自律
查看>>
真三 bug PT的凤凰
查看>>
???动态SQL
查看>>
js错误处理与调试理论和办法
查看>>
Binding.StringFormat不起作用的原理和解决
查看>>
css hack兼容写法
查看>>
CSS两列布局 一边固定 一边自适应
查看>>