您现在的位置 > 首页>科技资讯 >

零基础想做个简单的网络爬虫有可行性吗

点击图片查看下一页
查看原图
更新:07-15     编辑:     来源:    
  • 分派了个工作,每天要从40多份报纸的电子版里刨一个关键字的信息,然后复制网址标题打包做成表格,一份一份地翻得眼睛疼
    要爬的网页列表有的,关键词也有,现在就是想弄个爬虫能自动把标题或者正文含关键字的部分抓出来
    有没有免费的/破解版/自己做一个的可行性?
    无编程基础,求超能力者帮助


    网友评论:

    花钱,订制开发下

    可以试试八爪鱼采集器

    说吧,你愿意出多少钱

    不想学python的话就订制一下咯



    零基础针对性学一下快的1个礼拜,慢的2个礼拜吧,最主要是你没基础不知道自己要学什么,然后你会学了很多你不需要的东西


    领导说100以内可以考虑


    对啊,没有方向,我在找破解版采集器看看能不能实现功能



    100你或许可以找到一个很穷的中学生,或者很穷很穷很缺钱的大学生。运气足够好的话。

    大学生随便帮经管系当一个小白鼠都好几十好吧。。

    太抠了,还是自学吧
    自己写起来自己用其实根本不是个事的,不出来卖方案有很多控制环节可以省掉


    叫你领导大口吃屎

    网上搜索下免费的爬虫吧。


    但是学哪一种呢,有没有专门针对爬虫的零基础教程,有没有能第一步做什么第二部做什么那种教程

    http://nutch.apache.org/
    自己研究吧,不谢

    100买白菜能买不少斤,你们领导是真把码农当农民了。


    没有,不需要的,语言什么的python,perl随便,什么都不知道就python好了反正中文教程一大堆,还要了解的就是html基本知识
    爬虫脚本的实际过程就是向服务器请求得到一个网页的内容然后在程序内部处理这些内容
    要用得上的库的话 re, urllib或beautifulsoup, pyv8或Phantomjs 这些就够了,一周时间完全绰绰有余


    你雇小工给你每天人工采集

    100块也就管3顿饭



    http://item.jd.com/11963485.html

    没有任何环节需要你做,所以谈不上基础不基础的...

    非常简单 不要听上面的胡说
    py本身就简单

    喷了 开发这玩意给100?
    不如一天实习工资 怎么还不得折腾一天啊 (算上自己设计下 外加和你们沟通)


    给这么便宜我是不干 除非有人情
    而且有问题还得维护啊

    B站有python的爬虫学习资料,有点编程基础可以学学看,100块找人估计除了学生真没人干了

      -



    lz领导需要的只是"每天要从40多份报纸的电子版里刨一个关键字的信息,然后复制网址标题打包做成表格"现在已经有一个headcount做这件事,所以其实一文不值.lz非要领导出钱,领导只好自掏腰包拿100块钱出来.
    泥潭码农万万没有料到,lz居然就认为自己的眼睛疼这件事一文不值,所以只把这100块钱转发给码农.

    这不是lz把码农当农民,而是lz把码农当成免费的工具.

    火车头免费版应该可以满足楼主需求,不过免费版不能导出表格,只能导出txt,不过问题不大

    免费又傻瓜的八爪鱼不用??



    给100喷了
    要么你不要给,给100块,当人是智障啊
    这个东西屁大工夫就能做完,但是这可不是买一个功能简单的软件,而是找人定做做你自己不会做的事情,要么不要给钱,要么就给点诚意

    当然领导是傻逼,lz不是,自己学分分钟写出来


    领导傻逼不知道行情大家当个乐,我也没打算用100块钱解决这个问题,不知道你怎么解读出这么多信息来的

    马克

    零基础学点简单的啥都行

    楼主如果有这个心情,且事情不太急的话,完全可以考虑自己写。并不是非常难的。

    如果你这个工作,很确定将会持续很久(大于一年以上),并且现在时间充足,可以做完该做的工作后有每天两个小时以上的时间用来开发。(或者叫改善工作流)

    使用python,另外这个不叫爬虫,只不过是一个字符串匹配的脚本而已。

    到底是电子版还是网页?计算机可读性来看,这两者是不同的。先把你要的东西全部转成文字。

    八爪鱼 火车头
    或者 自学点儿 Python

    100我来做,有意向的私聊
    赚钱买书


    一百万就想做个能用的网络爬虫?这领导怕不是还活在07年吧。


    爬网页啊,持续一年可能不至于,可能到年底,天天上8小时班摸6小时鱼是我现在的工作状态

    我觉得这个事还是自己偷偷干了吧,用了爬虫要摸一天鱼了,天天摸鱼公司还要你做啥,价值体现不了了

      -



    1.两三天,看看python的语法,让一个脚本能跑起来
    2.一天,下网页到底是什么,怎么用python吧一个html 拖下来 ,保存成一个文件,文件名是该网页url
    3.两天,怎么把一个电子版格式的转成文本
    4.半天,python如何管理很多个文件
    5,用一组关键字检索文件,确定某个文件是否含有该关键字?6.制作你想要的表格
    7.穿起来以上所有东西。
    每个步骤的阶段性目标产物都是一个函数:

    2:传入一个网址,得到一个文件名,该文件是原始网页
    downlod_html_to_file(url) -> filename

    3:从一个文件中读出来非文本格式的东西转成文本

    convert_to_txt(filename) -> text

    5:给定一个关键字列表,判断是否包含在一段text中?

    is_keywords_in(keywords[],text) ->bool

    6:有一个网址,有这个网址的内容,那么你想要什么表格呢?
    make_excel(urls)

    最后你的脚本差不多是这样子

    main:
         keywords=[]  #你的关键字?
         urls=[]          #你的网址?

         results=[]

         foreach url in urls:
               if is_keywords_in(keywords, convert_to_txt( downlod_html_to_file(url)))):
                    results.add(url)

          make_excel(results)







    我是国家税金蛀虫所以。。。


    谢谢大佬,明天我先试试看免费的采集器能不能跑动我的需求


    emmmmmmmm
    我只是想告诉0基础的你,编程是一件很有快乐的事情。。。

    下载个chrome,安装个web scraper插件


    我在想能不能把编程转化成价值,我系统里有大量这种工作可以用脚本完成,我在思考能不能创造点自我价值出来。。


    任何工作符合以下条件时:
    1.有机械重复性
    2.是一种文本处理或本质上是通过广义的文本处理解决的(如,改某个配置文件,跟网络有个什么交互,总之就是全程不涉及的人的因素,都是机器,比如说某个环节需要领导盖章才能继续恐怕就不行。)

    那么你学一点python是肯定没毛病的,可以帮助你自动化。


    感觉如果是去特定网站搜索特定关键字,然后逐条打开搜索结果,把特定内容存入特定字段中.

    这个事情还是用asp或者php做比较靠谱,需要用到的知识点包括简单的数据库操作,有点复杂的循环语句和比较复杂的正则.这还是建立在那个网站没有验证码的基础上,验证码识别就要用c++了吧.

    不知道能不能做成出验证码时弹出个对话框,然后lz输入验证码,程序继续跑,这样就可以既用手机摸鱼又显得有事情干一样.而且外人还取代不了lz

    真要写web爬虫,先学会用http sniffer软件,并不是所有网站都是直接下载个html这么简单,有些网站涉及javascript动态加载数据

    火车头+1

    电子版好像是图片吧?图片不好搞

    用office 表格啊。自带爬虫。

相关推荐

精彩图集

一品图片网部分图片资源收集于互联网,如果侵犯了您的版权请来信告知,我们会及时处理和回复,邮件地址:
© 2021 一品图片网 版权所有 苏ICP备150288886号 | sitemap | 图片大全