1. All Collections >
  2. 產品 >
  3. 人工智慧代理 >
  4. 管理 AI 知識來源

管理 AI 知識來源

Avatar
Shing-Yi Tan
10 分鐘

AI 知識來源幫助 AI Agents、AI Assist 和 AI Objective Step 使用您的商業內容 — 常見問題、文檔和幫助指南,準確回應。 本指南說明了如何添加、管理和優化知識來源以提高代理性能。

支持的文件類型和鏈接格式

您可以將結構化和非結構化內容作為知識來源添加。

支持的格式包括:

  • 文件: .pdf, .txt, .md, .csv, .docx, .pptx, .ppsx

  • 圖片: .jpeg, .png, .bmp, .webp, .tiff

  • 鏈接: 公共網頁 URL

添加知識來源

知識來源是 AI Agents、AI Assist 和 AI Objective Step 生成有用且具上下文意識的回應所使用的主要數據。 這些數據會自動進行索引,通常在幾分鐘內即可使用。

您可以從以下位置添加或管理知識來源:

  1. AI Agents > 管理知識來源

  2. AI Agents > 選擇 模板從頭開始 > 添加知識來源

  3. 工作區設置 > AI Assist > 管理知識來源

  4. 工作流程 > 選擇 模板從頭開始 > 選擇 AI Objective Step > 添加知識來源

從這些位置,您可以:

  1. 上傳文件

    • 拖放多個支持的文件:.pdf、.txt、.md、.csv、.docx、.pptx、.ppsx,以及圖片格式 (.jpeg、.png、.bmp、.webp、.tiff)。

    • 您可以同時上傳最多 5 個文件,每個工作區最多可擁有 100 個基於文件的知識來源

    • 文件大小限制:每個文件 20MB。

  2. 添加網站 URL

    • 網站 URL 欄位中粘貼任何公共網頁 URL。

    • 默認情況下,爬蟲會深入 3 層,但可以調整到最多 100 層

    • 您可以在一個網站知識來源下添加最多 5 個額外的 URL

    • 點擊 重新同步 以刷新內容或設置自動同步計劃以保持更新。

      您可以同時上傳最多 3 個知識來源(文件或網站 URL) — 無需等待一個完成後再開始另一個。

  3. 監控狀態

    • 每個知識來源顯示一個狀態:

      • 已完成 – 準備使用

      • 進行中 – 正在處理或索引中

      • 錯誤 – 需要修復(例如,文件無法讀取,爬取被阻擋)

      • 部分完成 – 一些內容已保存,但處理到達限制或超時

了解更多有關使用知識來源與 AI Assist 的信息 點擊這裡

了解更多有關使用知識來源與 AI Objective Step 的信息 點擊這裡

高級設置(適用於網站知識來源)

在添加或編輯網站知識來源時,您可以在 高級設置 中微調爬取行為:

  • 從網站地圖包括 URL

    • 這是默認啟用的。 如果您希望爬取更多 URL,包括未從您添加的網站 URL 中鏈接的頁面,請使用此選項。

    • 您還可以手動將網站地圖作為 URL 添加(例如,https://example.com/sitemap.xml)。

    • 網站地圖中的頁面爬取深度從 1 開始,較大的網站地圖可能需要更長時間進行爬取。

  • 附加 URL(可選): 添加最多 5 個額外的入口點。

  • 最大爬取深度

    • 設置要跟隨的鏈接層級數。 例如,0表示僅爬取提供的 URL,1則包括直接鏈接的頁面。

    • 更高的值允許更深的爬取。 默認情況下,爬取深度設置為 3。

  • 包括 URL 通配符(可選):

    • 指定您希望爬蟲包括的頁面的 URL 模式。

    • 這僅適用於在頁面上找到的鏈接 — 而不是您輸入的 網站 URL。 要確保特定頁面被爬取,請直接在 網站 URL 下添加其 URL。

  • 排除 URL 通配符(可選):

    • 使用此選項以排除某些 URL 不被爬取。

    • 這僅適用於在頁面上找到的鏈接 — 而不是 網站 URL,這些 URL 總是會被爬取。

什麼是 URL 通配符?

通配符 是一種模式,您可以使用它告訴爬蟲應該包含或跳過哪些頁面,而無需一一列出每個 URL。

  • * (單個星號)僅涵蓋 一個層級 的頁面。

  • ** (雙星號)涵蓋 所有層級,包括更深的子頁面。

包括通配符

正確的示例:

  • https://example.com/docs/* → 僅包括直接位於 /docs/ 頁面(如 /docs/page1),但不包括更深的路徑。

  • https://example.com/help/** → 包括所有位於 /help/ 之下的內容,包括子文件夾和嵌套頁面(如 /help/tutorials/page1)。

不正確的示例:

  • https://example.com/*help* → 不會按預期工作。 單個 * 僅匹配一個路徑段內,而不是跨文件夾。

  • example.com/** → 缺少 https:// 協議,爬蟲可能會拒絕其。

排除通配符

正確的示例:

  • https://example.com/docs/* → 僅跳過直接位於 /docs/ 之下的頁面(如 /docs/page1),但不會跳過更深的頁面。

  • https://example.com/archive/** → 跳過位於 /archive/ 之下的所有內容,包括嵌套的文件夾和子頁面。

其他正確的示例:

  • https://example.com/**?foo=* → 跳過 example.com 上任何包含查詢參數 foo 的 URL。

不正確的示例:

  • /*?foo=* → 太寬泛;可能意外地跳過所有域中的頁面。 請始終包括您的域名(例如,https://example.com/**?foo=*)。

  • https://example.com/(不帶 /**) → 僅排除主頁,不包括子頁面。

為什麼要使用通配符?

通配符在您的網站包含有用和無用頁面混合的情況下特別有用,以用于 AI 訓練。 它們為您提供了更多控制:

  • 節省時間:無需一個個添加大量相似的 URL,通過單個模式包含它們。

  • 減少噪音:排除不相關的區域(例如,營銷頁面、博客存檔或登錄頁面),以便 AI 僅專注於與支持相關的內容。

  • 處理複雜網站:對於大型幫助中心或多域設置,通配符確保覆蓋相關區域,而不會同步不相關的資料。

  • 防止錯誤:通過排除問題或無關的 URL(例如,測試環境或過時的存檔),從而減少爬取失敗並提高 AI 的回答質量。

撰寫有效通配符的提示

  • 具體但不過於狹窄https://example.com/help/**https://example.com/** 要好,後者可能爬取太多不相關內容。

  • 使用排除通配符進行清理:如果您的支持頁面包含混合內容,請使用排除模式(例如,*/promo/**)以過濾出營銷材料。

  • 避免重疊的通配符:重疊的包含和排除規則可能會導致混淆。 始終仔細檢查模式,以確保您不會無意中跳過重要頁面。

AI Agents 如何使用知識來源

在設置 AI Agent 時 — 無論您是從模板開始還是從頭建立 — 您都可以立即連接相關知識來源。 您也可以稍後通過轉到 AI Agents > 管理知識來源 來管理它們。

知識來源用於:

  • 準確回答產品問題

  • 提供上下文中的幫助內容

  • 避免 AI Agents 回應時的虛構或猜測

在創建或編輯 AI Agent 時:

  • 所有可用的知識來源都會列出供您審核。

  • 您可以 啟用或禁用 根據代理的目的特定的知識來源。

  • 一旦啟用,AI Agent 將使用知識來源來告知其對 Contacts 的回覆。

為提高準確性和回應質量:

  • 使用主題專屬來源:避免將多個主題放在一個文件中。

  • 減少噪音:上傳前去除品牌頁腳、免責聲明或無關信息。

管理現有知識來源

您可以通過 AI 知識來源 頁面更新、替換、重新同步或刪除知識來源。

編輯知識來源

對於編輯文件,您可以:

  • 重新命名您的知識來源

  • 替換上傳的文件(例如,用 .txt 版本替換 PDF)

對於編輯網站 URL,您可以:

  • 重新命名您的知識來源

  • 更新您的網站 URL

  • 設置或調整重新同步計劃

  • 在高級設置中進行進一步配置

如果您更新網站 URL 或在高級設置中進行更改,您需要再次重新同步知識來源,以使更改生效。

刪除知識來源

刪除未使用或過時的文件或 URL,以保持限制內並保持您的 AI 功能更新,提供最準確的信息。

  • 點擊 操作 > 刪除

  • 被刪除的知識來源將不再用於生成回覆

查看日誌(適用於網站 URL)

點擊 操作 > 查看日誌 以查看網站知識來源爬取的詳細信息。 日誌使您能全面了解已捕獲的內容:

  • 開始和附加 URL — 查看您輸入的網站 URL 以及在高級設置中添加的任何額外 URL。

  • 所有爬取鏈接的列表 — 每個訪問的 URL 都會顯示。

  • 可點擊鏈接 — 每個爬取的鏈接會在新標籤中打開,以便您可以直接查看被爬取的內容。

  • 提取的內容大小 – 檢查從每個頁面提取的文本量,以 KB 或 MB 顯示。

這使您更容易確認重要頁面是否已包含,識別缺失或不相關的內容,並排除任何爬取問題。

重新同步網站來源

要刷新過時的網頁內容:

  • 點擊 操作 > 重新同步,位於網站來源旁邊

  • 當您點擊 重新同步 時,該過程會立即開始並顯示一個圖標表示正在進行。

如果重新同步未完成,您將收到通知,例如:

  • 超過字符限制:來源將顯示為 部分完成,所有爬取的內容將儲存到達限制為止

  • 超時或連接錯誤:爬取可能會提前停止,部分內容將在可能的情況下保留

當知識來源正在主動同步時,重新同步 將被禁用。

AI 知識來源的工作區限制

為了保持順利運行,添加知識來源的數量以及存儲內容的大小都有所限制。 這是簡單的分解:

  • 總儲存大小:每個工作區最多 20MB

  • 檔案數量:每個工作區最多可添加 100 個基於檔案的知識來源

  • 添加/編輯操作:每天最多 50 次變更(添加或編輯來源)

  • 爬取深度:網站的爬取預設為 3 層深,但您可以將其增加到 100 層

  • 額外網站 URL:每個知識來源最多可以添加 5 個額外 URL

如果您達到任何這些限制,同步和添加新來源將暫停,直到釋放空間或限制重置。

常見問題解答和故障排除

為什麼我的知識來源狀態仍顯示“進行中”?

大型網站或深層鏈接結構需要更長的時間才能爬取。 如果幾個小時後仍未改變,請檢查 URL 可訪問性(robots.txt、登錄牆)或減少爬取深度。

對於檔案上傳,過大的檔案或損壞的文件也可能導致延遲。 如果檔案難以處理,請嘗試重新上傳一個更加乾淨的版本,使用純文本或其他支持的格式以加快索引速度。

為什麼我的知識來源狀態顯示“錯誤”?

錯誤通常是由於損壞的檔案、不支持的格式、被阻止的网站或服务器超时造成的。 要修復此問題,請嘗試在支持的格式中重新上傳內容(例如,.pdf、.docx、.csv),檢查網站的可訪問性,或重試爬取。

我可以上傳私人或內部鏈接嗎?

不,僅支持公共 URL。 對於私人內容,將其導出為支持的文件類型(例如,PDF、TXT)並上傳該文件。

AI 代理是否會自動使用所有知識來源?

當您創建或編輯 AI 代理時,您的工作區中所有的知識來源都會被列出。 您選擇要啟用哪些,只有所選擇的知識來源將用於生成對聯絡人的回應。

我可以將 Snippets 作為 AI 代理的知識來源嗎?

不,目前不支持 Snippets 作為 AI 代理的知識來源。 如果您希望未來看到此功能,您可以在 此處 投票。

我應該多久重新同步網站來源一次?

按照計劃(例如,每週或每月)重新同步經常更新的網站。 對於靜態內容,手動重新同步就足夠了。

我該如何防止過時或無關的答案?

替換或刪除過時的來源,使用 glob 排除檔案,並為經常更新的內容安排定期重新同步。

分享這篇文章
Telegram
Facebook
Linkedin
Twitter

找不到您想要的東西? 🔎