采集功能过滤正则有个问题

1401次浏览 更新日期:2020-07-03 01:23:54 分类:问题求助 评论:3
]*)>(.*)[|]

就是这个过滤规则,从第一个“<a”开始过滤,然后的""不是在最接近的一个结束过滤,而是全文最后一个结束过滤。


比如目标文章有多个超级链接:

我总能这样自言自语一整个假期,靠着一棵树,望着一路嬉笑打闹从我身边滚滚远去的江水,用脚去踩掉落地上厚厚的树叶,和着呲呲呲呲枯叶碎落的声音吱吱吱的笑着,念着少年不识愁滋味,为赋新词强说愁的语句,嘀咕着十七岁的自己早就长大了。   
  
	我的后窗正对学校教学楼围成的大院子,匆匆而过、忙忙碌碌的校园一直是我乐此不彼的观看目录。假期的学校难得的宁静。渐黑的夜晚依旧托着腮看着窗外发呆,每天从窗前经过的星星、月亮能明白我想的是什么吗?可我都不知道我发呆想什么!大概是怕听人叽叽喳喳的在耳边说话,很是烦躁,还得像木偶一样的面带微笑听着,我便更愿意这样安静的坐着。窗外一阵喧闹,男男女女的对话声,扰乱了我自动屏蔽着发呆的空间,第二天才知道,说话的是新来的几个老师。有一个声音倒是一直记得,我喜欢的声音,那是我第一次听见他说话的声音。

	每周两节他的课,慌张期待兴奋又故作镇定,听着同学们谈论他会莫名的开心。他在讲台上专注讲课的样子总让我失神,一圈圈弧形的光晕撒在他身上,漫天飞舞的粉笔灰淅淅洒洒滑落下来,下雪天就该是这样美好吧!每每沉醉在自己构筑的漫画中,他看过来的眼神总会把我吓一跳!罪过!我心里甜甜的默念。


采集到的结果是:

我总能这样自言自语一整个假期,靠着一棵树,望着一路嬉笑打闹从我身边滚滚远去的江水,用脚去踩掉落地上厚厚的树叶,和着呲呲呲呲枯叶碎落的声音吱吱吱的笑着,念着少年不识愁滋味,为赋新词强说愁的--------中间被过滤---------他在讲台上专注讲课的样子总让我失神,一圈圈弧形的光晕撒在他身上,漫天飞舞的粉笔灰淅淅洒洒滑落下来,下雪天就该是这样美好吧!每每沉醉在自己构筑的漫画中,他看过来的眼神总会把我吓一跳!罪过!我心里甜甜的默念。



其他的过滤正则未测试。

我来说两句
  • he1999
    he1999 4年前
    @leven5 试过没有效果。
    
    主贴不知道怎么回事,这论坛里html代码的a标签全部被过滤,造成我叙事不清楚。
    
    主贴的意思是:
    系统的采集正则,如果目标又多个a标签,会从第一个a开始过滤到最后一个/a,只过滤一次。
    造成从第一个超级链接,到最后一个超级链接中间的内容全部被过滤掉。
    
    而正常的采集应该是过滤每一个a到/a
    0
    回复
  • leven5
    leven5 4年前
    找到采集模块,正则/ xxxxx /末尾加个U就可以了,例如/<a href="(.*)">/U
    0
    回复
  • 不懂,纯支持。有请二楼大神来解答。
    0
    回复
作者信息
发布见解
发内容 回顶部