|
Post by account_disabled on Sept 14, 2023 4:43:52 GMT -5
展只要互联网还是一个由网页、博客、论坛、新闻组和 Twitter 组成的星系,数据挖掘就触手可及。您只需要一些 Python 基础知识即可进行抓取信息并进行后续分类。然后,随着 Facebook 的成长和成功,事情变得复杂起来。由于对话是私人或半私人的,因为它们发生在用户的个人资料/墙上,所以不可能检测到它们。唯一的公共场所是商业页面,但是,只有与品牌或拥有该页面的公众人物相关的对话才会发生。但要进行分析,您需要拥有所有页面的地址列表,并以一定的时间间隔下载其内容。一项艰巨且昂贵的活动。 社交媒体的局限性。从2012年开始,我们也逐渐见证了社交媒体分析可能性的限制过程。当他意识到自己的数据对企业和网络监控公司有价值时,他创立了 Twitter,并于 2017 年开始收费提供对他最有价值的 API 的访问权限。因此,现在那些构建监控软件的人购买 API,其他人都使用免费的 API,但有限制(推文数量、调用频率等)。 然后在 2018 年,涉及 Cambridge Analytica 及其肆无忌惮地使用 Facebook API 的丑闻爆发。后果对于正确使用它们来监控任务的开发人员和公司来说,它们是毁灭性的。如今,可以使用市场上可用的监听工具对 Facebook 和 Instagram 的公共部分进行分析,但只能通过使用特定的 API(通常使用用户的凭据进行访问,然后用户利用其个人令牌)。这使得平台能够控制谁访问并限制他们对用户数据的使用,同时尊重隐私。 所有社交媒体都明确禁止抓取活动,因为它们无法追踪,并且可能允许出于非法律目的大规模收集信息。 形式的丰富。近年来,网络的边界不仅扩展到新的聚合和交换场所,而且还迎来了新内容 WhatsApp 数据库 格式的蓬勃发展。其中四个因素使邮件跟踪变得困难: 图像:通常监控工具不会分析图像的内容,因为这是一项非常费力的活动。有时,他们只是简单地识别客户品牌的徽标,以识别其错误使用或假冒产品。但是,一般来说,他们只收集描述的文本; 视频:带宽的扩展和视频制作工具的可用性推动社交媒体为此类内容提供了充足的空间。问题是监控工具只分析描述,而不分析视频的音频,因此理解仍然有限(TikTok 视频通常有简短或神秘的描述,而 YouTube 的描述可能很长但不是很具体,并且总是重现相同的信息,从而产生误导关于二手设备和商业报价); 音频:播客的激增和社交媒体对音频内容的关注也将这些信息排除在监控的可能性之外,因为当前的软件不具备这些语音分析功能; 短暂的内容:最流行的平台采用的故事格式提出了新的分析问题。它们可以通过 API 捕获(因此具有有效令牌),但无法存储,因为它们的持续时间有限,为 24 小时。因此,出于隐私原因,监控工具可以跟踪 Story 生成的性能,但不会显示它。 这些限制意味着无法及时检测在封闭场所或不受研究仪器影响的地方出现的有趣或关键现象。但最糟糕的是,人们往往会将一些推文误认为是相关现象。发生这种情况是因为监控工具很容易检测到 Twitter 上写的内容,而不太容易检测到人口最多的平台上发生的所有内容。
|
|