Texto / HTML de entrada

URLs extraídas

¿Qué es un extractor URL?

Un extractor URL escanea un bloque de texto o HTML y extrae cada enlace http:// y https:// que encuentra. Es útil para:

  • Auditar todos los enlaces salientes en un bloque de contenido
  • Extraer enlaces de HTML o cuerpos de email obtenidos
  • Construir una lista de URLs para procesamiento por lotes o validación
  • Encontrar todas las fuentes de imágenes o scripts en una página HTML

La herramienta usa una expresión regular para coincidir URLs HTTP y HTTPS en la entrada. Las URLs duplicadas se eliminan automáticamente. La salida contiene una URL por línea, lista para copiar o descargar.

Cómo usar esta herramienta

1

Pega tu contenido

Pega cualquier texto, código fuente HTML, contenido de email o archivo de log en el editor izquierdo. La herramienta extrae automáticamente todas las URLs http:// y https:// mientras escribes.

2

Revisa las URLs extraídas

El panel derecho muestra cada URL única en su propia línea, con el conteo total en el encabezado del panel. Los duplicados se eliminan automáticamente.

3

Copiar o descargar

Haz clic en Copiar para poner todas las URLs en el portapapeles, o Descargar para guardar como extracted-urls.txt. Luego puedes validar cada URL con el Validador URL.

Ejemplo de Extracción

Ejemplo: Extraer URLs de un fragmento de blog

Texto de entrada:

Check out the docs at https://developer.mozilla.org/en-US/docs/Web/API and the source at https://github.com/angular/angular. See also http://example.com/path?q=1#section

URLs extraídas:

https://developer.mozilla.org/en-US/docs/Web/API
https://github.com/angular/angular
http://example.com/path?q=1#section

Preguntas frecuentes

¿Extrae URLs de atributos HTML?

Sí. La herramienta extrae cualquier cadena que comience con http:// o https:// de la entrada, incluyendo las que están dentro de etiquetas HTML como href="", src="" y data-url="".

¿Qué pasa con las URLs relativas como /about o ./image.png?

Esta herramienta solo extrae URLs absolutas que comienzan con http:// o https://. Las URLs relativas no se extraen porque son ambiguas sin conocer la URL base.

Herramientas relacionadas