网址链接提取器

从邮件、网页内容、HTML 源码或上传的 TXT、CSV 文件中快速提取网址链接 URL 和域名(Domain)。支持自动去重、移除常见 Tracking 参数(如 UTM)、按关键词或域名筛选,并查看统计信息。结果可导出为 TXT 或 CSV。支持最大 2 MB 文件和 50 万字符文本,全程在浏览器本地处理,数据不会上传到服务器。

提取设置

输出
结果排序

已有每行一个 URL?请使用文本去重工具清理并去重列表。

输入

0 / 500,000

提取结果将显示在这里

在左侧输入区粘贴文本或上传 .txt / .csv 文件

使用说明

工具简介

网址链接提取器从混杂文本中提取 URL——邮件、Newsletter、网页复制内容、HTML 源码或日志片段均可,无需预先整理为每行一个链接。

处理包括自动去重、尾部标点清理,以及默认可选的 tracking 参数去除。可按关键词或 hostname 筛选,查看域名统计,然后复制或导出。全部在浏览器本地完成,不上传服务器。

适用场景

  • 整理邮件或营销消息中的链接
  • 从 HTML 源码或网页复制内容中提取 URL
  • 清洗带追踪参数的分享链接
  • 获取 hostname 列表用于 SEO 或竞品分析
  • 导出到表格或其他工具

若已有「每行一个 URL」的列表,请使用 文本去重工具

操作步骤

  1. 在「输入」区粘贴,或上传 .txt / .csv(可点「示例」试用)
  2. 查看右侧「提取结果」与下方统计
  3. 使用「域名分布」(最多前 50 个)并点击快速筛选
  4. 调整输出模式、排序、清洗选项与筛选条件
  5. 复制或下载 TXT / CSV;「清空文本」仅清输入;「重置」恢复默认

选项说明

选项作用
输出:完整 URL / 仅域名每行一条完整链接,或仅 hostname
排序:出现顺序 / A–Z / Z–A结果列表顺序
去除 tracking 参数去掉 utm_*、fbclid、gclid 等(默认开启)
去除协议前缀输出时不带 https://
去除末尾斜杠去掉路径末尾的 `/`(如 `/blog/` → `/blog`)。纯域名或根路径(如 `https://example.com/`)勾选后通常看起来不变。
包含 / 排除关键词子串 OR 匹配,保留或排除
域名筛选只保留匹配的 hostname(含子域,OR)

导出

方式内容
复制 / TXT每行一条(URL 或 domain,取决于输出模式)
CSVurl、hostname、protocol 三列 + 表头(UTF-8)

限制与提示

  • 单次最多 500,000 字符;上传 ≤ 2 MB 且解码后仍受字符上限
  • 粘贴 HTML 按普通文本扫描,不会在浏览器中渲染
  • 不支持 PDF、Word 直接上传;请复制文本后粘贴
  • 不支持仅路径形式(如 `/api/user`)

本工具只做格式级提取,不保证链接可访问或安全。

常见问题

Q: 这个工具能做什么?

A: 从混杂文本或上传的 TXT/CSV 中找出 URL,自动去重,并默认去除常见 tracking 查询参数。可切换为仅输出 hostname,按关键词或域名筛选,查看统计,复制或导出 TXT/CSV。全部在浏览器本地完成。

Q: 怎么用?

A: 1. 在左侧输入区粘贴文本,或点「上传」选择 .txt / .csv(UTF-8)

2. 右侧实时显示提取结果;统计区显示匹配、保留、去重、域名数及 HTTPS/HTTP

3. 在「提取设置」中调整输出模式、排序与清洗选项

4. 使用「包含/排除关键词」或「域名筛选」缩小结果;点击域名 chip 可快速填入筛选

5. 使用「复制」或「下载」(TXT / CSV);「清空文本」仅清输入;「重置」恢复默认选项

Q: 支持从文件上传吗?

A: 支持 .txt 和 .csv(UTF-8)。上传不超过 2 MB;解码文本不超过 500,000 字符(与粘贴相同)。超出会显示错误并拒绝载入,不会截断。

Q: 为什么既有 2 MB 又有 50 万字符两个上限?

A: 2 MB 限制上传文件体积;50 万字符限制实际参与提取的文本长度(粘贴与上传解码后共用)。

文件可能不到 2 MB 但解码后超过 50 万字符,请拆分文件。

Q: 输入和输出是什么格式?

A: 输入:任意文本,或上传 TXT/CSV 的全文。

输出:每行一条(完整 URL 或 hostname,取决于输出模式)。

CSV 含 url、hostname、protocol 三列及表头(UTF-8)。

Q: 什么是 tracking 参数?

A: 用于统计或广告的 URL 查询参数,如 utm_source、fbclid。默认开启「去除 tracking 参数」时会从结果中移除常见项;关闭后可保留原始 query。

Q: 完整 URL 和「仅域名」有什么区别?

A: 完整 URL 保留路径与 query(清洗后);仅域名只输出 hostname(如 blog.example.com),便于查看链接来源分布。

Q: 包含、排除和域名筛选怎么用?

A: 多个条件可用逗号、分号或换行分隔(OR,不区分大小写)。「包含」保留匹配任一关键词的 URL;「排除」去掉匹配的 URL;「域名筛选」按 hostname 保留(含子域)。点击域名分布中的 chip 可快速填入。

Q: 能从 HTML 里提取链接吗?

A: 可以粘贴 HTML 源码作为普通文本扫描(包括 href、src 中的 URL)。不会渲染页面或解析 DOM,特殊写法可能漏提。

Q: 为什么提取结果比预期少?

A: 常见原因:筛选过严、链接缺少可识别 hostname、仅路径形式(如 /api/user,不支持)、原文本未包含完整 URL。可放宽筛选或检查来源。

Q: 数据会上传吗?

A: 不会。处理在浏览器本地完成。选项可能保存在 localStorage;输入保存在当前标签页的 sessionStorage。详见页底「隐私说明」。

Q: 和文本去重工具有什么区别?

A: 本工具从混合文本中找链接;文本去重工具用于清理「每行一个 URL」的已有列表。若已是逐行列表,请用文本去重工具。

类似工具

同类别或功能相近的工具

查看全部