浏览数量: 1234 作者: 本站编辑 发布时间: 2021-12-22 来源: 本站
我们都曾遇到过在建设B2C独立站时候,不得不从网站中提取数据的情况。比如说,在处理独立站新帐户或活动时,你可能没有可用于创建广告的数据或信息。在理想情况下,我们会以易于导入的格式(例如 CSV、Excel 电子表格或 Google 表格)提供我们需要的所有内容、登录页面和相关信息。(或者至少,提供我们需要的可以导入上述格式之一的选项卡式数据。)但情况并非总是如此。那些缺乏网页抓取工具的人——或者缺乏使用 Python 之类的东西来帮助完成任务的编码知识——可能不得不求助于手动复制和粘贴可能成百上千的条目的繁琐工作。
在B2C独立站建设工作中,我们会被要求:转到客户的网站、下载分布在 15 个不同页面的 150 多种新产品、将每个产品的产品名称和着陆页 URL 复制并粘贴到电子表格中。现在,你可以想象如果我们只是这样做并手动执行任务,任务将会有多长。这不仅耗时,而且有人手动浏览那么多项目和页面,并且不得不逐个复制和粘贴数据产品,因此犯一两个错误的可能性非常高。这样可能就要需要更多的时间来检查文档并确保它没有错误。
输入 Google 表格。我想让你认识一下 IMPORTXML 函数。根据谷歌的支持页面,IMPORTXML“从各种结构化数据类型中的任何一种导入数据,包括 XML、HTML、CSV、TSV、RSS 和 ATOM XML 提要。”
从本质上讲,IMPORTXML 有一种可让你从网页中抓取结构化数据的功能—无需编码知识。就像是,可以快速轻松地提取页面标题、描述或链接等数据,以及更复杂的信息。
该函数本身非常简单,只需要两个值。我们打算从中提取或抓取信息的网页的 URL以及包含数据的元素的XPath。XPath 代表XML 路径语言,可用于浏览 XML 文档中的元素和属性。
自从在 Google Sheets 中发现 IMPORTXML 以来,它已经真正成为我们许多日常任务自动化的秘密武器之一,从活动和广告创建到内容研究等等。此外,该函数与其他公式和附加组件相结合,可用于更厉害的任务,否则需要复杂的解决方案和开发,例如用 Python 构建的工具。
但在本文中,我们将以最基本的形式查看 IMPORTXML:从网页中抓取数据。想象一下,我们被要求为 Search Engine Journal 创建一个活动。他们希望我们为网站的 PPC 部分下,发布的30 篇文章做广告。你可能会说,这是一项非常简单的任务。不幸的是,编辑无法向我们发送数据,并恳请我们参考该网站以获取设置活动所需的信息。正如我们文章开头提到的,一种方法是打开两个浏览器窗口——一个是网站,另一个是谷歌表格或 Excel。然后,我们将开始逐条复制和粘贴信息,逐个链接。但是在 Google Sheets 中使用 IMPORTXML,我们可以在很短的时间内实现相同的输出,几乎没有犯错的风险。
第 1 步:从全新的 Google 表格开始
首先,我们打开一个新的空白 Google Sheets 文档:
第 2 步:添加你需要抓取的内容
添加我们要从中抓取信息的页面(或多个页面)的 URL。
第 3 步:找到 XPath
我们找到了我们想要将其内容导入到我们的数据电子表格中的元素的 XPath。在我们的示例中,让我们从最近 30 篇文章的标题开始。前往 Chrome,将鼠标悬停在其中一篇文章的标题上后,右键单击并选择“检查”。这将打开 Chrome 开发工具窗口。
第 4 步:将数据提取到 Google 表格中
回到你的 Google Sheets 文档,按如下方式引入 IMPORTXML 函数:=IMPORTXML(B1,”///*[starts-with(@id, 'title')]”)需要注意的几点:首先,在我们的公式中,我们将页面的 URL 替换为对存储 URL 的单元格 (B1) 的引用。其次,当从 Chrome 复制 XPath 时,这将始终用双引号括起来。但是,为了确保它不会破坏公式,需要将双引号更改为单引号。(///*[@id='title_1'])。
需要注意的一件事是,为了能够使用查询返回的所有数据完全扩展和填充电子表格,填充数据的列必须有足够的可用单元格并且没有其他数据。这与我们使用 ARRAYFORMULA 时的工作方式类似,对于要展开的公式,同一列中必须没有其他数据。
在B2C独立站建设中无论你需要内容和产品描述,还是产品价格或运输成本等电子商务数据,你都可以采用完全自动化、无错误的方式从(可能)任何网页中抓取数据。
在信息和数据可以成为交付高于平均水平的结果所需的优势的时代,以简单快捷的方式抓取网页和结构化内容的能力可能是无价的。此外,正如我们在上面看到的,IMPORTXML 可以帮助减少执行时间并减少出错的机会。
此外,该功能不仅是可专门用于PPC 任务的出色工具,而且在许多需要网页抓取的不同项目中非常有用,包括 SEO 和内容任务。
南京焦点领动领售leadongshop拥有丰富的B2C外贸商城建设经验,北京外贸商城建设、上海外贸商城建设、广东外贸商城建设、深圳外贸商城建设、佛山外贸商城建设、福建外贸商城建设、浙江外贸商城建设、山东外贸商城建设、江苏外贸商城建设......想要了解更多搜索引擎优化、外贸营销网站建设相关知识,请拨打电话:400-6130-885,或者请添加领动小哥哥微信,我们一起交流~