1. All Collections >
  2. Producto >
  3. Agentes IA >
  4. Gestionando Fuentes de Conocimiento AI

Gestionando Fuentes de Conocimiento AI

Avatar
Shing-Yi Tan
7 min de lectura

Las fuentes de conocimiento de IA ayudan a los Agentes de IA, Asistencia de IA y el Paso Objetivo de IA a responder con precisión utilizando el contenido de tu negocio: preguntas frecuentes, documentación y guías de ayuda. Esta guía explica cómo agregar, administrar y optimizar fuentes de conocimiento para un mejor rendimiento de los agentes.

Tipos de archivos y formatos de enlaces compatibles

Puedes agregar contenido estructurado y no estructurado como fuentes de conocimiento.

Los formatos compatibles incluyen:

  • Documentos: .pdf, .txt, .md, .csv, .docx, .pptx, .ppsx

  • Imágenes: .jpeg, .png, .bmp, .webp, .tiff

  • Enlaces: URLs de páginas web públicas

Agregando fuentes de conocimiento

Las fuentes de conocimiento son los datos principales utilizados por los Agentes de IA, Asistencia de IA y el Paso Objetivo de IA para generar respuestas útiles y contextualizadas. Estos se indexan automáticamente y generalmente están listos para usar en unos pocos minutos.

Puedes agregar o administrar fuentes de conocimiento desde estas ubicaciones:

  1. Agentes de IA > Administrar fuentes de conocimiento

  2. Agentes de IA > Selecciona una plantilla o comienza desde cero > Agregar fuentes de conocimiento

  3. Configuraciones del espacio de trabajo > Asistencia de IA > Administrar fuentes de conocimiento

  4. Flujos de trabajo > Selecciona una plantilla o comienza desde cero > Seleccionar Paso Objetivo de IA > Agregar fuentes de conocimiento

Desde cualquiera de estas ubicaciones, puedes:

  1. Subir archivos

    • Arrastra y suelta múltiples archivos compatibles: .pdf, .txt, .md, .csv, .docx, .pptx, .ppsx, y formatos de imagen (.jpeg, .png, .bmp, .webp, .tiff).

    • Puedes subir hasta 5 archivos a la vez, con un máximo de 100 fuentes de conocimiento basadas en archivos por espacio de trabajo.

    • Límites de tamaño de archivo: 20MB por archivo.

  2. Agregar URLs de sitios web

    • Pega cualquier URL de página web pública en el campo URLs de sitios web .

    • Por defecto, el rastreador va 3 niveles de profundidad pero se puede ajustar hasta 100 niveles.

    • Puedes agregar hasta 5 URLs adicionales bajo una fuente de conocimiento de sitio web.

    • Haz clic en Resincronizar para refrescar el contenido o establece un programa de sincronización automática para mantenerlo actualizado.

      Puedes subir hasta 3 fuentes de conocimiento en paralelo (archivos o URLs de sitios web): no es necesario esperar que una termine antes de comenzar otra.

  3. Monitorear estado

    • Cada fuente de conocimiento muestra un estado:

      • Completado – Listo para usar

      • En progreso – Procesando o indexando

      • Error – Necesita corrección (por ejemplo, archivo ilegible, rastreo bloqueado)

      • Parcialmente completado – Parte del contenido guardado, pero el procesamiento alcanzó un límite o se agotó el tiempo

Aprender más sobre el uso de fuentes de conocimiento con Asistencia de IA aquí.

Aprender más sobre el uso de fuentes de conocimiento con el Paso Objetivo de IA aquí.

Configuraciones avanzadas (para fuentes de conocimiento de sitios web)

Al agregar o editar una fuente de conocimiento de sitio web, puedes ajustar el comportamiento de rastreo en Configuraciones avanzadas:

  • Incluir URLs del sitemap

    • Esto está habilitado por defecto. Úsalo si deseas rastrear más URLs, incluyendo páginas no enlazadas desde tus URLs de sitios web agregadas.

    • También puedes agregar un sitemap manualmente como URL (por ejemplo, https://ejemplo.com/sitemap.xml).

    • Las páginas de los sitemaps comienzan a una profundidad de rastreo de 1, y los sitemaps grandes pueden tardar más en rastrearse.

  • URLs adicionales (opcional): Agrega hasta 5 puntos de entrada más.

  • Máxima profundidad de rastreo

    • Establecer cuántos niveles de enlaces seguir. Por ejemplo, 0 significa que solo se rastrea la URL proporcionada y 1 incluye páginas enlazadas directamente.

    • Los valores más altos permiten rastreos más profundos. La profundidad de rastreo se establece en 3 por defecto.

  • Incluir globs de URL (opcional):

    • Especifica patrones de URL para las páginas que deseas que el rastreador incluya.

    • Esto se aplica solo a los enlaces encontrados en las páginas, no a las URLs de sitios web que has ingresado. Para asegurarte de que una página específica sea rastreada, agrega su URL directamente en URLs de sitios web.

  • Excluir globs de URL (opcional):

    • Utiliza esto para excluir ciertas URLs de ser rastreadas.

    • Esto se aplica solo a los enlaces encontrados en las páginas, no a las URLs de sitios web, que siempre son rastreadas.

¿Cuáles son los globs de URL?

Un glob es un patrón que puedes usar para decir al rastreador qué páginas incluir o saltar, sin listar cada URL una por una.

  • * (asterisco simple) cubre solo un nivel de páginas.

  • ** (doble asterisco) cubre todos los niveles, incluyendo subpáginas más profundas.

Incluir globs

Ejemplos correctos:

  • https://ejemplo.com/docs/* → Incluye solo páginas directamente bajo /docs/ (como /docs/pagina1), pero no rutas más profundas.

  • https://ejemplo.com/help/** → Incluye todo lo bajo /help/, incluyendo subcarpetas y páginas anidadas (como /help/tutorials/pagina1).

Ejemplos incorrectos:

  • https://ejemplo.com/*help* → No funcionará como se pretende. El * simple solo coincide dentro de un segmento de ruta, no a través de carpetas.

  • ejemplo.com/** → Falta el protocolo https://, que el rastreador puede rechazar.

Excluir globs

Ejemplos correctos:

  • https://ejemplo.com/docs/* → Omite solo las páginas inmediatas bajo /docs/ (como /docs/pagina1), pero no omitirá las más profundas.

  • https://ejemplo.com/archive/** → Omite todo bajo /archive/, incluyendo carpetas anidadas y subpáginas.

Otros ejemplos correctos:

  • https://ejemplo.com/**?foo=* → Omite cualquier URL en ejemplo.com que contenga el parámetro de consulta foo.

Ejemplos incorrectos:

  • /*?foo=* → Demasiado amplio; podría omitir páginas accidentalmente a través de todos los dominios. Siempre incluye tu dominio (por ejemplo, https://ejemplo.com/**?foo=*).

  • https://ejemplo.com/ (sin /**) → Excluye solo la página principal, no subpáginas.

¿Por qué usar globs?

Los globs son particularmente útiles cuando tu sitio web contiene una mezcla de páginas útiles y no útiles para el entrenamiento de IA. Te dan más control para:

  • Ahorra tiempo: En lugar de agregar docenas de URLs similares una por una, inclúyelas todas con un solo patrón.

  • Reduce el ruido: Excluye secciones irrelevantes (por ejemplo, páginas de marketing, archivos de blog o páginas de inicio de sesión) para que la IA se enfoque solo en el contenido relacionado con el soporte, por ejemplo.

  • Maneja sitios complejos: Para grandes centros de ayuda o configuraciones de múltiples dominios, los globs aseguran la cobertura de secciones relevantes sin sobre-sincronizar material no relacionado.

  • Previene errores: Al excluir URLs problemáticas o irrelevantes (como entornos de prueba o archivos obsoletos), reduces fallos de rastreo y mejoras la calidad de las respuestas de IA.

Consejos para escribir globs efectivos

  • Sé específico pero no demasiado estrecho: https://ejemplo.com/help/** es mejor que https://ejemplo.com/**, que podría rastrear demasiado contenido irrelevante.

  • Utiliza globs de exclusión para limpieza: Si tus páginas de soporte contienen contenido mezclado, utiliza patrones de exclusión (por ejemplo, */promo/**) para filtrar material de marketing.

  • Evita globs superpuestos: Las reglas de inclusión y exclusión superpuestas pueden causar confusión. Siempre verifica dos veces los patrones para asegurarte de que no estés omitiendo accidentalmente páginas importantes.

Cómo utilizan las fuentes de conocimiento los Agentes de IA

Al configurar un Agente de IA, ya sea que estés comenzando desde una plantilla o creando uno desde cero, puedes conectar fuentes de conocimiento relevantes de inmediato. También puedes gestionarlas más tarde yendo a Agentes de IA > Administrar Fuentes de Conocimiento.

Las fuentes de conocimiento se utilizan para:

  • Responder preguntas sobre productos con precisión

  • Proporcionar contenido de ayuda en contexto

  • Evitar alucinaciones o suposiciones cuando los Agentes de IA responden

Al crear o editar un Agente de IA:

  • Todas las fuentes de conocimiento disponibles se enumeran para que las revises.

  • Puedes habilitar o deshabilitar fuentes de conocimiento específicas dependiendo del propósito del agente.

  • Una vez habilitado, el Agente de IA utilizará las fuentes de conocimiento para informar sus respuestas a los Contactos.

Para mejorar la precisión y la calidad de la respuesta:

  • Utiliza fuentes específicas por tema: Evita agrupar muchos temas en un solo archivo.

  • Limita el ruido: Elimina pies de página de marca, declaraciones de exención de responsabilidad o información no relacionada antes de subir.

Gestión de fuentes de conocimiento existentes

Puedes actualizar, reemplazar, resincronizar o eliminar fuentes de conocimiento a través de la página Fuentes de Conocimiento de IA.

Editar una fuente de conocimiento

Para editar archivos, puedes:

  • Renombrar tu fuente de conocimiento

  • Reemplazar el archivo subido (por ejemplo, cambiar un PDF por una versión .txt)

Para editar URLs de sitios web, puedes:

  • Renombrar tu fuente de conocimiento

  • Actualizar tu URL de sitio web

  • Establecer o ajustar horarios de resincronización

  • Hacer más configuraciones en Configuraciones avanzadas

Si actualizas la URL de sitio web o haces cambios en Configuraciones avanzadas, necesitarás resincronizar la fuente de conocimiento nuevamente para que los cambios surtan efecto.

Eliminar una fuente de conocimiento

Elimina archivos o URLs no utilizados o desactualizados para mantenerte dentro de los límites y mantener tus funciones de IA actualizadas con la información más precisa.

  • Haz clic en Acciones > Eliminar

  • Las fuentes de conocimiento eliminadas ya no se utilizarán para generar respuestas

Ver registros (para URLs web)

Haz clic en Acciones > Ver registros para revisar los detalles de un rastreo de fuente de conocimiento de sitio web. Los registros te dan total visibilidad sobre lo que se capturó:

  • Comienzo y URLs adicionales – Ver las URLs de sitios web que ingresaste junto con cualquier URL extra añadida en Configuraciones avanzadas.

  • Lista de todos los enlaces rastreados – Se muestra cada URL visitada.

  • Enlaces clicables — Cada enlace rastreado se abre en una nueva pestaña para que puedas ver el contenido rastreado directamente.

  • Tamaño del contenido extraído – Comprueba cuánto texto fue extraído de cada página, mostrado en KB o MB.

Esto facilita confirmar que se incluyeron páginas importantes, identificar contenido faltante o irrelevante, y solucionar problemas de rastreo.

Resincronizar fuentes de sitios web

Para refrescar el contenido web desactualizado:

  • Haz clic en Acciones > Resincronizar al lado de una fuente de sitio web

  • Cuando haces clic en Resincronizar, el proceso comienza inmediatamente y aparece un ícono para mostrar que está en progreso.

Recibirás una notificación si la re-sincronización no se completa, como por ejemplo:

  • Superar el límite de caracteres: la fuente se mostrará como Completada parcialmente, y todo el contenido rastreado hasta el límite se guardará

  • Errores de tiempo de espera o conexión: el rastreo puede detenerse temprano, con contenido parcial preservado donde sea posible

La re-sincronización está deshabilitada cuando una fuente de conocimiento está sincronizando activamente.

Límites del espacio de trabajo para fuentes de conocimiento de IA

Para mantener las cosas funcionando sin problemas, hay límites sobre cuántas fuentes de conocimiento puedes agregar y cuánto contenido se puede almacenar. Aquí hay un desglose simple:

  • Tamaño total de almacenamiento: Hasta 20 MB por espacio de trabajo

  • Número de archivos: Hasta 100 fuentes de conocimiento basadas en archivos por espacio de trabajo

  • Acciones de agregar/editar: Hasta 50 cambios por día (agregar o editar fuentes)

  • Profundidad de rastreo: Los rastreos de sitios web van a 3 niveles de profundidad por defecto, pero puedes aumentar esto hasta 100 niveles

  • URLs adicionales de sitios web: Puedes agregar hasta 5 URLs adicionales por fuente de conocimiento

Si alcanzas alguno de estos límites, la sincronización y la adición de nuevas fuentes se pausarán hasta que se libere espacio o se restablezcan los límites.

Preguntas frecuentes y solución de problemas

¿Por qué el estado de mi fuente de conocimiento sigue mostrando “En progreso”?

Los sitios web grandes o las estructuras de enlaces profundos tardan más en rastrearse. Si permanece sin cambios durante horas, verifica la accesibilidad de la URL (robots.txt, muros de inicio de sesión) o reduce la profundidad del rastreo.

Para las cargas de archivos, los archivos muy grandes o los documentos corruptos también pueden causar retrasos. Si el archivo es difícil de procesar, intenta volver a cargar una versión más limpia en texto plano u otro formato compatible para una indexación más rápida.

¿Por qué mostró “Error” el estado de mi fuente de conocimiento?

Los errores suelen ocurrir debido a archivos corruptos, formatos no compatibles, sitios web bloqueados o tiempos de espera del servidor. Para solucionar esto, intenta volver a cargar el contenido en un formato compatible (por ejemplo, .pdf, .docx, .csv), verifica la accesibilidad del sitio web o vuelve a intentar el rastreo.

¿Puedo subir enlaces privados o internos?

No, solo se admiten URLs públicas. Para contenido privado, expórtalo como un tipo de archivo compatible (por ejemplo, PDF, TXT) y carga el archivo.

¿Los agentes de AI utilizan automáticamente todas las fuentes de conocimiento?

Cuando creas o editas un agente de AI, se enumeran todas las fuentes de conocimiento en tu espacio de trabajo. Tú eliges cuáles habilitar, y solo esas fuentes de conocimiento seleccionadas se utilizarán para generar respuestas a los contactos.

¿Puedo usar fragmentos como una fuente de conocimiento para los agentes de AI?

No, los fragmentos no son compatibles como fuente de conocimiento para los agentes de AI en este momento. Si te gustaría ver esta función en el futuro, puedes votar por ella aquí.

¿Con qué frecuencia debería re-sincronizar fuentes de sitios web?

Re-sincroniza los sitios frecuentemente actualizados según un calendario (por ejemplo, semanal o mensualmente). Para contenido estático, las re-sincronizaciones manuales son suficientes.

¿Cómo puedo prevenir respuestas desactualizadas o irrelevantes?

Reemplaza o elimina fuentes desactualizadas, excluye páginas archivadas usando globs, y programa re-sincronizaciones recurrentes para contenido que se actualiza con frecuencia.

Compartir este artículo
Telegram
Facebook
Linkedin
Twitter

¿No encuentras lo que estás buscando? 🔎