
AI技术正推动搜索领域持续创新,也驱动网络爬虫向智能化、自动化方向演进。事实上,爬虫作为自动化的软件程序,能利用特定的规则或算法,提取网页中的数据,将其存储在数据库或文件系统中,为后续处理与分析提供支撑。从行业发展趋势来看,网络爬虫与AI Agent的融合是未来发展的主要趋势,这种融合不仅提高了数据处理的效率,更增强了数据的可用性和价值。但需要正视的是,AI爬虫的大量应用,为行业带来了新的挑战。

这并非危言耸听。Akamai发布的《2025年数字欺诈与滥用报告》印证了这一行业痛点。《报告》指出,如今AI爬虫程序在自动化流量中所占的比例急剧增长,过去一年间其活动量更是暴增了300%,这些爬虫程序能够生成数十亿个请求,严重扰乱了数字运营和分析工作。更值得关注的是,AI爬虫程序正在破坏传统的网络商业模式。面对这一行业挑战,企业应采取怎样的应对方式?Akamai大中华区售前技术经理马俊将为我们带来深入解读。

Akamai大中华区售前技术经理 马俊
AI爬虫带来哪些挑战?
在AI时代,数据已成为核心生产要素,而数据的抓取与应用始终离不开爬虫技术的支撑。马俊在采访中表示,“从流量目的维度划分,AI爬虫主要包括训练类流量、Agent/助手类流量、搜索/检索类流量三类。”具体来看,为提升模型性能或将数据资产作为核心竞争力,AI企业使用AI爬虫获取数据以训练其语言模型,加之各类AI Agent平台降低了数据抓取类智能体的构建门槛,进一步推动了AI爬虫的规模化应用。
这也为企业带来新的威胁或业务风险。Akamai研究显示,42.1%的流量活动来自爬虫程序,而在这些爬虫程序流量中,高达65.3%的流量来自恶意爬虫程序。总计有63.1%的恶意爬虫程序流量运用了先进的技术。无论爬虫程序是出于何种目的抓取企业数据,都可能导致企业网站性能下降、网站指标失真、网络钓鱼网站发起的盗用凭据攻击,以及计算成本攀升等技术影响。
这一影响在出版业、数字媒体等行业中尤为明显。“零点击搜索”普及后,用户未实际访问网站,企业却需为AI爬虫提供大量流量支持,核心内容未获合理付费即被爬取,不仅造成直接营收损失,还可能引发数据归属权争议与法律纠纷。在线业务上,虽然某些爬虫程序能够改善搜索引擎,但FraudGPT、WormGPT、广告欺诈爬虫和退货欺诈爬虫等恶意爬虫程序正在不断提升运营风险、降低网站性能并扭曲关键业务指标。

Akamai调查显示,商业行业是AI爬虫程序活动的重灾区,在为期两个月的观察期内,所记录到的爬虫程序请求数量超过了250亿次。而在医疗保健行业,超过90%的AI爬虫程序活动都源于内容抓取,而实施这类活动为的大多是搜索和训练用爬虫程序。对此,马俊认为,“医疗数据价值极高,一旦数据泄露,将对医院、科研机构等造成巨大的财务损失与合规处罚,若遭遇勒索软件攻击导致数据被锁定,还可能产生额外的赎金支出。”
此外,随着AI赋能工具的迅速发展,无论是经验丰富的攻击者,还是技术门槛较低的新手,都比以往更容易发起仿冒、社会工程学、网络钓鱼等攻击,并利用AI生成的虚假文档和图像实施身份欺诈。马俊在采访中还提到AI爬虫协助黑产搜集隐私信息的案例,称这类行为类似于社会工程学攻击,通过广泛收集目标的SIM卡信息、短信接口权限、礼品卡及推广链接等数据,进而发起精准的定向攻击。

企业应该如何应对AI爬虫威胁?
前文提及,AI爬虫主要包括训练类流量、Agent/助手类流量、搜索/检索类流量三类,且三类爬虫各具特点:训练类爬虫除流量庞大之外,行为相对规范,遵循搜索引擎爬虫的基本逻辑,爬取行为具有广泛性和非针对性;Agent/助手类爬虫多是按需爬取,部分遵守规范,往往忽略robots.txt限制;部分搜索/检索类爬虫完全不遵循网站偏好或robots.txt约束,多以持续或突发方式进行抓取。“这种多样性正是治理AI爬虫的主要难点之一。”马俊如是说。
面对这些治理难点,企业应采取怎样的AI爬虫管理方式?马俊提出,首要应建立AI爬虫的可见性与分类能力。他认为,判断AI爬虫的“好”与“坏”,需结合具体业务场景,分析其带来的是正面价值还是恶意影响,通过流量来源解析与业务影响评估,制定针对性应对方案。当前行业主流做法仍以观察监控为主,拦截比例相对较低,因此建议企业采用更灵活的策略,以适配持续增长的AI爬虫流量。

除了建立可见性与分类能力,持续加强Web与API基础防护同样关键。针对具备典型攻击特征的高风险爬虫行为,需第一时间采取拦截措施,而非仅作观察;同时可合理运用限速、信誉评估等手段,进一步强化防护效果。不仅如此,企业也应该在组织层面做好能力准备,团队需建立相应的培训与响应体系,并在无风险时期积极开展演练与预案测试,以提升整体应对能力。
此外,企业还应该实施内容保护机制。马俊分析认为,对数字媒体、出版等行业而言,内容即核心资产,必须确保其被合法使用。因此,他建议企业进行内容细分,针对已识别的爬虫类型采取差异化策略。例如,可基于爬虫身份或类型,在内容交付层面进行区分,甚至为不同AI爬虫提供不同版本的内容。在此基础上,企业还需做好缓存管理与内容分发策略的优化,通过技术手段进一步降低爬虫行为对核心资产的风险。
Akamai带来哪些解决方案?

笔者注意到,Akamai也推出了针对性解决方案,基于不同的技术指标与行为特征构建多层次风险模型,实现整体管控。具体来看,Akamai首先对爬虫流量进行初步筛选,能精准识别已知AI爬虫。据悉,其当前已能识别43种AI爬虫。依托该能力,客户可清晰掌握各类爬虫的流量规模、占比及对业务的影响,制定针对性应对策略。对于未明确声明身份或难以直接判断的访问源,Akamai通过主动探测、被动识别及挑战验证等手段进行进一步判别。
在内容保护阶段,系统将根据客户预设的内容保护策略,判断是否允许交付内容,或采取差异化处理方式。据悉,Akamai已与TollBit、Skyfire合作,为数字媒体与出版行业搭建内容计费与变现平台。当Akamai检测到来自爬虫的访问请求时,可通过“HTTP 402标准”与TollBit协同生成支付凭证,支持按请求量、数据规模或分层定价等模式打包计费。Skyfire基于区块链技术按请求结算。“任何AI爬虫均可遵循协议,以合法、合规的方式获取内容。”马俊表示。
在端点防护上,Akamai能够针对API内容被爬取的风险,提供相应的防护机制。此外,Akamai还实施基于风险的动态管控,通过分析访问者的行为特征,结合风险模型识别潜在威胁点,并据此调整安全策略。马俊总结到:“Akamai通过多层级风险模型与策略,实现对AI爬虫的精准管理。”

此外,Akamai还建议各企业培养与三个OWASP十大安全风险框架(分别针对Web应用程序、API以及大语言模型(LLM))相应的安全能力。借助这些框架,安全团队能够将诸如权限控制失效、注入缺陷和数据泄露等已知漏洞与其企业对欺诈风险的承受能力关联起来,以便更明智地确定防御措施的优先顺序。

写在最后
AI技术正重塑数据获取的底层逻辑,AI爬虫亦随之成为一把“双刃剑”。其在提升数据处理效率的同时,规模化应用也对数据的正常流动造成扰乱,更直接冲击传统商业模式与数据安全底线,推动网络安全领域正式迈入AI爬虫治理的攻坚阶段。为此,企业对AI爬虫带来的安全威胁的重视程度亟待提升。
《2025年数字欺诈与滥用报告》的发布以及马俊的相关分享,也为企业带来更多的建议。对企业而言,唯有将安全能力深度融入业务全流程,依托成熟的专业解决方案体系,才能在AI技术浪潮中有效抵御潜在风险、精准把握发展机遇,为核心数据资产筑牢坚实的安全屏障。
本文属于原创文章,如若转载,请注明来源:直面AI爬虫威胁,Akamai建议企业构建多层防御体系https://safe.zol.com.cn/1096/10960604.html

































































