KWeaver Blog

BKN：专为 Agent 上下文而生的业务本体描述语言

2026-04-10T00:00:00.000Z

在 AI 原生时代，软件的重心正在发生变化。以前开发系统，核心是实现功能；现在做 Agent，核心正在转向上下文（Context）。

一个 Agent 在复杂业务里能不能长期稳定运行，不仅看模型，更看它拿到的上下文质量。Anthropic 在描述 Context Engineering 时提到，当 Agent 处理多轮推理和长任务时，治理的重点已经不再是单条 Prompt，而是整个推理过程中进入窗口的信息集合。OpenAI 也在指南里把系统拆为模型、工具、记忆和编排，强调能力是各部分配合出的结果。

说白了，Agent 时代真正稀缺的是让模型「读懂业务」的能力。而 BKN（Business Knowledge Network） 就是在这个背景下开发出来的。

一、什么是 BKN 语言：它包含什么，以及它如何工作？

BKN 是一种面向业务知识网络的 Markdown 领域建模语言，也可以理解为专为 Agent 上下文设计的业务本体描述语言。它不关注底层数据在哪里，而是关注业务领域本身如何被建模、组织和表达。这是 KWeaver Core 项目的创新点之一。

BKN 文件的目标不是定义数据格式，也不是再写一份给人读的业务文档，而是把原本分散在数据库、接口、流程、规则和人脑经验里的业务知识，整理成一套 Agent 可以直接读取、理解、调用和约束的语义结构，作为整个 Agent 数据层面的 Source of Truth（唯一事实来源）。

BKN 的核心概念很简单：

Object：业务对象（比如订单、供应商、Pod、Node）
Relation：对象之间的关系（比如归属、依赖、来源于）
Action：围绕对象可以执行的动作，并可绑定工具或 MCP
Risk：与动作或对象相关的执行风险、约束和边界

以及对象与底层数据源之间的语义映射。

直白点说，BKN 就在回答这样几个问题：业务里到底有什么？对象之间是什么关系？系统围绕它们可以做什么？哪些动作需要受到约束？这些业务概念最终如何落到底层数据和工具上？

从组织方式上看，BKN 通常不是一个孤立文件，而是一组结构化内容共同组成的知识网络。通常包含面向 Agent 的 SKILL.md、作为知识网络根定义的 network.bkn，以及按类型拆分的 .bkn 文件树。

在 Agent 使用的时候，BKN 不会一次性把所有知识塞给模型，而是先把业务组织成一张可逐步展开的网。Agent 运行时首先面对的是一个整理过的语义空间的索引，再根据任务需要去读取相关的对象、关系和边界条件。这和 Claude SKILL 的设计逻辑一样，实现了对于业务知识的「渐进式」披露。

二、从 Context Engineering 到 Harness Engineering：BKN 在其中扮演什么角色？

随着 Agent 走向多轮推理和长任务，工程重点变了。Anthropic 认为 Context Engineering 的重点是筛选和维护窗口信息。但在复杂业务里，这还不够。

真实的 Agent 面对的是一堆乱麻：工具说明、历史状态、中间结果，还有各种隐含的潜规则。这就是为什么 Harness Engineering（驾驭工程） 成了当下 Agent 领域的热门话题——它的核心不再是「把信息塞进模型」，而是如何把上下文、工具和规则整合成一个受控的系统。

BKN 实际上就是为这种治理提供了「语义抓手」。它通过两个层面的语义化，实现了 Agent 的 Harness：

数据语义化：把业务拆成对象、关系和逻辑映射。这样 Agent 拿到的不再是「原始素材」，而是结构清晰的业务逻辑。
行动语义化：BKN 里不只定义「是什么」，还定义了「能做什么」。它把动作边界和风险红线直接封装在语义里，让 Agent 在运行的时候能够安全、可靠地执行操作。

这样一来，上下文就不再是给模型看的一段参考资料，而是变成了真正能驱动 Agent 理解、决策并受控执行的业务底座。

三、为什么采用 Markdown 作为载体？

在当前的 Agent 生态里，越来越多的能力说明和行为规则都在用 Markdown 组织。

这不是因为 Markdown 本身有多高级，而是因为它恰好落在一个很合适的位置上：它不像底层数据格式那么生硬，也不像纯自然语言那样没边界；它既适合人维护，也适合模型读取。Anthropic 对 SKILL 的设计、OpenAI 对 AGENTS.md 的设计、还有 OpenClaw 对于 SOUL.md 和 MEMORY.md 的设计，其实都印证了这一点。

BKN 采用 Markdown 也是出于同样的考虑。它要表达的不是单纯的配置，而是一种既面向业务专家、又面向 Agent 的语义结构。此外，Markdown 还有一个很实际的好处：显著减少上下文长度。很多时候，真正影响效果的是知识能否以一种更紧凑的方式进入上下文，减少模型的消费压力。

四、为什么说 BKN 是一种「本体」描述语言？

BKN 的核心概念是 Object、Relation、Action、Risk 这样一组元素：

Object 回答的是：这个业务里有什么
Relation 回答的是：这些东西如何彼此连接
Action 回答的是：围绕这些对象可以做什么
Risk 回答的是：这些动作在哪些边界内才成立

这和 Palantir Ontology 有相通之处。Palantir 官方将 Ontology 定义为组织的运营层（operational layer），强调它位于数字资产之上，把资产映射到现实世界中的对象、属性和动作。不过 BKN 还增加了一类风险对象，显式地约束了 Agent 的行为，这又是 BKN 的一个创新之处。

BKN 的「本体」特征，主要体现在三个层面：

概念稳定：数据库表和接口总在变，但「订单」「供应商」这类业务概念通常更稳定。
结构化关系：本体不是词典，而是语义网络。对象、动作、风险之间的关系如果没有理清楚，Agent 就很难形成稳定的业务理解，只能依赖关键词去猜。
可执行语义：传统本体偏静态，而 BKN 明显更贴近 Agent 场景。它不仅回答「是什么」，也回答「能做什么、什么时候能做、怎么控风险」。这使它能直接进入执行链条。

五、BKN 是如何构建的？

在以往的经验中，本体的构建是相当复杂的，既需要业务专家的经验，也需要开发工程师的配合。有了 BKN 之后，事情变得简单很多。既然 BKN 是为 Agent 设计的，那最好的构建方式就是：用 Agent 生成 BKN。

在 KWeaver 项目里，我们并不是手写所有的 .bkn 文件，也不需要用户来进行 BKN 的配置，而是通过一个叫 BKN-Creator 的 Skill 来自动化这个过程。它的逻辑不是简单的文本翻译，而是引导 Agent 像业务专家一样去完成知识的沉淀。

具体到操作上，这个构建过程通常被拆解为三个动作：

从需求和数据中萃取对象（Object & Relation）
用户可以根据实际的需求编写说明文档，同时丢给 BKN-Creator 一堆数据库 Schema 或者 API 定义，它会去识别那些真正有业务意义的实体。比如它会发现「供应商」和「合同」不只是两张表，它们之间存在着某种关联，从而在 network.bkn 里把这种关系定义出来，并生成相应的对象类和关系类。
给对象绑定行动（Action）
这时候，原本孤立的行动会被挂载到具体的对象上。比如「重启」不再是一个冷冰冰的 API，而是属于 Pod 这个对象的一个专属动作。这种绑定让 Agent 看到对象时，就能够理解可以对这些对象进行什么样的操作。
注入风险控制（Risk）
这也是极为关键的一步。在生成 BKN 的过程中，我们会让 Agent 根据用户的需求来识别每个行动的风险。比如执行「批量删除」前必须检查什么状态。这些约束会直接写进 .bkn 文件，变成 Agent 思考时的硬边界。BKN 在执行时，会被约束在这个边界内。

通过这种方式，BKN 的构建就不再是一个繁琐的文档工程。你只需要提供原始素材，Agent 就能按照这套规范，把零散的信息组装成一个它自己能读懂、能执行的业务认知底座。

六、实战效果：BKN 让 Agent 更接近业务思维

当任务从「简单查询」走向「复杂分析」和「业务判断」时，BKN 的价值会越来越明显。

我们做过一组测试，共 24 个与供应链相关的业务问题。在相同模型前提下对比：

纯 SQL 方案：靠生成 SQL 查数据，通过率约 79.2%。
BKN 方案：映射业务规则后再处理，通过率提升至 95.8%。

同时，这 24 题的客户端 Token 消耗从约 500K 降到 292K，调用次数也从 56 次降到 45 次。

结果说明，BKN 让 Agent 不再总盯着底层表结构，而是更多围绕业务对象、关系和规则思考。当然，BKN 不是为了替代 SQL。SQL 擅长精确查询和直接聚合，BKN 的意义是把 SQL、Python、工具调用这些能力，放进一个更贴近业务语义的框架里使用。

结语

BKN 本质上是一种面向 Agent 的业务语义组织方式。它基于 Markdown，但不止于文档；它描述对象、关系、行动和风险，既能被业务专家理解，也能被 Agent 读取和消费。

如果说 Agent 时代的核心问题是「如何让模型在复杂业务中持续做对事」，那么答案往往不只是追求更强的模型，而是通过更好的上下文工程，把业务语义、工具和执行规则理清楚。BKN 的价值就在于帮助我们把业务世界整理好，让这些知识不只是存在，而是真的能被 Agent 理解、被系统使用，也能被团队持续维护。

更多内容，欢迎访问我们的开源项目：

ContextLoader：业务知识网络的结构化召回范式

2026-03-19T00:00:00.000Z

文章贡献者：陈储培、李倩兰

摘要

随着大语言模型在复杂业务场景中的广泛应用，如何有效组织和管理上下文信息已成为提升推理质量的关键挑战。传统的检索增强生成（RAG）方法通过语义向量匹配实现知识召回，但在处理结构化业务知识网络时，面临召回粒度粗糙、推理路径割裂、上下文膨胀等根本性局限。本研究提出 ContextLoader 框架，一种面向业务知识网络的结构化上下文管理方案。该框架通过两个互补机制——Trim（相关性裁剪）和 Toon（Token-Optimized Notation，标记优化表示）——在工具返回结果写入 LLM 上下文前进行结构化质量提升。

为确保研究结论的可靠性和可推广性，本研究设计了两项独立的实验验证：（1）在 AWorld 开源智能体框架中，对比 ContextLoader 与外部向量检索服务（Dify Baseline）；（2）在 Dify 平台内部，对比 ContextLoader 与平台原生向量检索工具。两项实验均在 MSFAgentBench 基准数据集上进行。实验结果表明：AWorld 环境下，ContextLoader（完整配置）相对 Dify Baseline 提升 14.0 个百分点，准确率达到 92.9%；Dify 平台环境下，ContextLoader（启用 Trim 和 Toon）准确率从 70.4% 提升至 84.5%。两项独立实验在不同环境下取得的显著提升，有力地支持了结构化上下文管理相对于传统向量检索的系统性优势。此外，ContextLoader 将 Token 消耗降低 27.5%-33.2%，SQL 调用减少 33.1%-58.1%，SQL 错误率从 7.3% 降至 1.2%。

关键词：结构化召回；上下文管理；大语言模型；智能体系统；业务知识网络

1. 引言

1.1 研究背景与动机

在大语言模型驱动的智能体系统中，知识召回是支撑复杂推理任务的核心能力。当前主流的知识召回方案以检索增强生成（Retrieval-Augmented Generation, RAG）为代表，通过向量数据库实现语义相似度匹配，将相关文档片段注入模型的上下文窗口。这一范式在开放域问答、文档理解等任务中表现出色，已成为工业界广泛采用的技术方案。

然而，当应用场景从非结构化文档转向业务知识网络——即包含多表关联关系、层级化 Schema、对象实例和数值约束的结构化数据体系时，传统 RAG 方案暴露出三类结构性局限：

召回粒度粗糙（Coarse Retrieval Granularity）

基于语义向量的片段匹配难以感知数据模型的 Schema 层级关系。当用户查询涉及特定字段或表关联时，向量检索往往召回字段语义相似但结构上无关的内容，导致模型需要额外推理来排除无关信息。
推理路径割裂（Fragmented Reasoning Path）

在多步推理任务中，每一轮工具调用的返回结果通常以平铺形式追加到上下文中。这种组织方式缺乏对证据链的结构化编排，使得关键证据容易被冗余内容淹没，增加了模型的认知负担。
上下文膨胀失控（Context Explosion）

原始的结构化数据（如 JSON 对象或表格行）直接写入上下文时，包含大量冗余的语法标记和重复的结构信息。在需要多轮工具调用的复杂任务中，Prompt Token 数量迅速膨胀，超出模型有效注意力范围，直接影响推理的正确性。

这些局限性不仅仅是效率问题——实验证据表明，上下文膨胀可能导致复杂任务的推理完全失败。

1.2 研究问题与贡献

本研究旨在解决以下核心问题：如何为业务知识网络上的多步推理任务设计更有效的上下文管理机制？

本研究提出 ContextLoader 框架，其核心思路是将知识召回从"向量检索＋文档拼接"的静态范式，升级为"Schema 定位 → 对象查询 → 结构化整理"的动态收敛路径。该框架通过两个互补机制实现上下文质量的系统性提升：

Trim（相关性裁剪）：基于当前任务状态的相关性评估，过滤工具返回结果中的低价值内容
Toon（Token-Optimized Notation）：将筛选后的内容转换为 LLM 友好的紧凑结构化格式

本研究的贡献可概括为：

方法论贡献：提出 Trim 和 Toon 两个互补机制，分别解决"放什么进来"和"怎么表达"两个核心问题
系统实现：在两个独立平台（AWorld 和 Dify）上实现了完整的 ContextLoader 集成
实验验证：通过两项独立实验，系统验证了框架相对于向量检索基线的显著优势
可靠性保证：跨平台验证确保研究结论的可靠性和可推广性

1.3 两项独立实验的设计意图

为确保研究结论的可靠性，本研究设计了两项在不同环境下进行的独立实验：

维度	实验一：AWorld 框架验证	实验二：Dify 平台验证
实验环境	开源智能体框架 AWorld	Dify 平台内部
对比基线	外部向量检索服务（Dify Baseline）	Dify 内置向量检索工具
验证侧重	框架层面的结构化召回优势	平台集成的相对原生检索优势
实验设计	完整消融实验（4 个配置变体）	三配置对比

两项实验使用相同的数据集（MSFAgentBench）和评估方法，但运行环境和对比基线各有不同。这种设计可以验证 ContextLoader 优势的系统性——即优势来源于框架的架构设计，而非特定实现的偶然因素。

2. KWeaver Core 架构概述

ContextLoader 是 KWeaver Core 平台的核心组件之一。本节概述 KWeaver Core 的整体架构，阐明 ContextLoader 在系统中的定位。

2.1 设计理念

KWeaver Core 是面向企业级智能体应用的数据平台。其核心设计理念是：为智能体构建一个结构化的、语义丰富的操作环境，而非让其直接面对原始数据。

在这一理念下，KWeaver Core 将传统的"检索-生成"模式升级为"数据虚拟化 → 知识网络构建 → 结构化召回"的完整链路，确保智能体在每一步推理中都能获得高质量的上下文支撑。

2.2 核心组件与数据流

KWeaver Core 由四个核心组件构成，形成从数据源到智能体的语义传递链路：VEGA → Dataflow → BKN → ContextLoader → Agent

VEGA（数据虚拟化）：实现多源异构数据的零复制实时集成，打破数据孤岛，确保智能体访问的是最新、最全的数据视图。

Dataflow（数据流）：将非结构化数据（文档、图表等）转化为结构化实体与关系，是原始数据进入知识网络的入口。

BKN（业务知识网络）：企业语义关系的结构化存储，将实体、属性、关系建模为可推理的知识图谱，为智能体提供领域"地图"。

ContextLoader（上下文加载器）：根据当前任务需求，从 BKN 中召回相关信息并优化为 LLM 友好的格式，是数据层与推理层之间的"最后一公里"。

2.3 ContextLoader 的定位与本报告聚焦

ContextLoader 承担着"为智能体按需加载高质量上下文"的核心职责。在 KWeaver Core 的整体架构中，它是数据层（VEGA、Dataflow、BKN）与推理层（Agent）之间的桥梁。

ContextLoader 提供多项能力，包括语义重排、上下文压缩、动态本体注入等。本报告聚焦于其中两个核心机制——Trim（字段裁剪）和 Toon（标记优化表示），它们分别解决"保留什么信息"和"如何高效表达"两个关键问题。

3. ContextLoader 框架

3.1 设计理念

ContextLoader 的设计基于以下核心理念：

Schema 优先：在执行任何数据查询之前，先获取并理解数据的 Schema 结构
动态构造：上下文内容根据当前任务状态动态组织，而非一次性从静态知识库检索
LLM 友好：输出格式专为 LLM 输入优化，兼顾信息完整性和 Token 效率

3.2 框架架构

ContextLoader 位于工具执行层与大语言模型上下文写入层之间。工具调用完成后，ContextLoader 对返回内容执行以下处理流程：

原始工具返回结果
        ↓
  [Trim]  相关性裁剪
        • 过滤与当前任务无直接关联的字段
        • 移除已确认的重复证据
        • 剔除后续推理不需要的辅助信息
        ↓
  [Toon]  标记优化表示
        • 转换为紧凑结构化格式
        • 保留完整语义信息
        • 内嵌结构约束
        ↓
  整理后的上下文片段 → 写入大语言模型输入

该流程遵循先筛选、再压缩的核心逻辑，确保写入上下文的内容既高度相关又表达紧凑。

3.3 Trim：字段裁剪机制

在多步业务推理任务中，从向量数据库召回的原始结果往往包含大量对 LLM 推理无用的字段，这些字段不仅占用宝贵的上下文空间，还会分散模型的注意力。

Trim 机制通过字段级别的精细裁剪，去除以下三类低价值内容：

裁剪类型	典型字段	裁剪原因
评分字段	`_score`、`match_score`、`rerank_score`、`intent_score` 等	向量检索的内部评分对 LLM 推理无直接帮助
技术性字段	各类 UUID、MD5、`document_id`、`element_id` 等	系统内部标识，与业务推理无关
冗余与空字段	`display_name`、`data_source`、`module_type`、`samples`、空对象等	重复或无实际信息量的内容

设计目标：

保留对 LLM 有用的业务信息（字段名、字段值、业务语义）
去除对推理无帮助的技术性字段
节省 Token 并减少噪声干扰

通过 Trim 机制，原始召回结果中的核心业务信息被保留，而冗余的技术性字段被系统性地剔除，从而在保证信息完整性的同时显著降低上下文膨胀。

3.4 Toon：标记优化表示格式

Toon（Token-Optimized Notation，标记优化表示）是一种专为 LLM 输入设计的结构化标记格式。其核心设计目标是：在保留完整语义信息的前提下，最小化 Token 消耗并最大化可读性。

3.4.1 与 JSON 的表达对比

以一个包含用户信息的对象数组为例：

JSON（原始格式）：

{
  "users": [
    { "id": 1, "name": "Alice", "role": "admin" },
    { "id": 2, "name": "Bob",   "role": "user"  }
  ]
}

Toon：

users[2]{id,name,role}:
  1,Alice,admin
  2,Bob,user

Toon 将结构一致的对象数组直接表达为表头＋行的紧凑形式：

users：键名
[2]：数组长度（显式声明）
{id,name,role}：字段声明（显式声明）
下方每行：一条记录，字段间以逗号分隔

3.4.2 压缩效率分析

Toon 的压缩效果主要来源于：

消除冗余语法标记：移除 {、}、"、: 等 JSON 语法字符
提取公共结构：将重复的字段名提取为表头声明
紧凑行列格式：数据以 CSV 风格呈现，减少 Token 数量

实验数据显示，对于大体量、字段一致的对象数组，Toon 通常能将 Token 用量减少 30–60%。

3.4.3 结构约束（Guardrails）

Toon 的语法设计中内嵌了结构约束信息，有助于模型在生成和校验阶段保持输出的一致性：

显式长度：如 users[2]，模型明确知道应有 2 行记录
显式字段声明：如 {id,name,role}，每行必须恰好包含 3 列，且顺序固定
缩进层级：层级关系通过缩进而非嵌套括号表达，视觉结构清晰

这些约束可以作为模型自检的依据，减少输出格式错误。

3.5 Trim 与 Toon 的协同关系

Trim 与 Toon 解决的是上下文优化链中相邻但独立的两个问题：

机制	解决的问题	核心功能	主要收益
Trim	"放什么进来"	基于相关性过滤内容	提升内容质量，减少噪声
Toon	"怎么表达"	优化结构化格式	降低 Token 消耗，提升可读性

两者联合遵循先筛选后压缩的串行逻辑。实验结果表明，联合方案在准确率和 Token 效率两个维度均取得了优于任一单独模块的最优表现，表明两个机制存在协同效应。

4. 实验一：AWorld 框架验证

4.1 实验设置

4.1.1 数据集与任务

本实验在 MSFAgentBench 基准数据集上开展评估。MSFAgentBench 是一个面向多源异构场景的智能体评测数据集，包含来自多个业务系统的结构化数据和对应的推理问答任务。该数据集按任务复杂度分为三个难度层级：

难度层级	任务数量	典型特征
简单（Easy）	—	单步或双步工具定位，答案可直接提取
中等（Medium）	—	需要跨表关联或多字段联合推断
困难（Hard）	—	需要多步嵌套定位、数值计算或长推理链

所有任务均以选择题形式呈现，智能体须通过多轮工具调用逐步构建证据链后给出最终答案。这一设计充分考验了结构化知识召回与多步推理能力。

4.1.2 对比方法

外部对比基线：

Dify Baseline：基于外部向量知识库检索服务，通过语义向量匹配召回相关文档片段，再结合 SQL 执行完成结构化查询。该方案代表工业界主流的 RAG 实践。

ContextLoader 消融变体：

为系统量化 Trim 与 Toon 各自的贡献，本实验设计了完整的消融研究：

配置变体	启用 Trim	启用 Toon	配置说明
ContextLoader（未启用优化）	✗	✗	基准配置，工具返回结果原样注入上下文
ContextLoader（仅启用 Toon）	✗	✓	仅启用 Toon 标记优化，不进行相关性裁剪
ContextLoader（仅启用 Trim）	✓	✗	仅启用 Trim 相关性裁剪，使用原始 JSON 格式
ContextLoader（完整配置）	✓	✓	同时启用 Trim 与 Toon，完整优化配置

4.2 主要实验结果

表 1. AWorld 实验综合评测结果

方法	准确率 (%)	平均 Prompt Tokens	平均时延 (s)	平均工具调用次数	SQL 调用次数
Dify Baseline	78.9	97,335	87.3	10.2	408
ContextLoader（未启用优化）	85.9	407,580	117.1	14.2	426
ContextLoader（仅启用 Toon）	88.7	322,505	95.2	13.3	272
ContextLoader（仅启用 Trim）	90.1	289,371	93.4	13.4	299
ContextLoader（完整配置）	92.9	272,295	97.3	14.8	285

关键发现：

准确率显著提升：ContextLoader（完整配置）在所有配置变体中取得了最高的准确率（92.9%），相对 Dify Baseline（78.9%）提升 约 14 个百分点。
Token 效率同步改善：完整配置将平均 Prompt Token 数量压缩至最低水平（272,295），相比未启用优化的基准配置（407,580）减少了 33.2%。这表明 ContextLoader 实现了准确率与效率的同步改善，而非以准确率换取 Token 节省的折中方案。
消融结果清晰：从未启用优化 → 仅 Toon → 仅 Trim → 完整配置，准确率稳步提升（85.9% → 88.7% → 90.1% → 92.9%），表明两个机制各有独立贡献且存在协同效应。

4.3 消融实验（Ablation Study）

消融实验旨在验证 ContextLoader 内部各优化机制（Trim 和 Toon）的独立贡献和协同效应。通过对比四种配置变体，我们系统性地量化了准确率提升和 Token 效率改善。

4.3.1 性能–成本帕累托分析

图 1. 横轴：平均 Prompt Tokens（千）。纵轴：准确率（%）。气泡大小：平均时延（秒）。左上方向表示更优配置。

从 ContextLoader（未启用优化）到 ContextLoader（完整配置），四个变体沿"更低 Token 开销、更高准确率"方向稳定推进，形成清晰的效率前沿演进路径。ContextLoader（完整配置）位于 Pareto 最优位置，代表当前配置空间中质量与效率的最优综合点。

4.3.2 分难度层级准确率

表 2. AWorld 实验：各消融变体分难度准确率对比

变体	Easy (%)	Medium (%)	Hard (%)
ContextLoader（未启用优化）	93.1	87.9	55.6
ContextLoader（仅启用 Toon）	93.1	87.9	77.8
ContextLoader（仅启用 Trim）	96.6	87.9	77.8
ContextLoader（完整配置）	99.9	87.9	88.9

关键洞察：

困难任务受益最大：ContextLoader（完整配置）在困难任务上的准确率提升（55.6% → 88.9%，+33.3 个百分点）远高于简单任务（93.1% → 99.9%，+6.8 个百分点）。这与框架的设计目标高度契合——上下文优化对长推理链、多步定位等高复杂度场景的边际价值显著大于简单任务。
上下文膨胀是失败根源：ContextLoader（未启用优化）在困难任务上的准确率仅为 55.6%，而该难度层级的平均 Prompt Tokens 高达 651,664。典型案例中，两道题目的 Prompt Tokens 分别达到 1,335,487 和 1,308,469——在如此大的输入规模下，模型的有效注意力机制已难以稳定定位关键证据。
压缩带来正确性恢复：引入 ContextLoader（完整配置）后，这两道极端题目的 Prompt Tokens 分别压缩了 73.9% 和 62.0%，答案随之由错误转为正确。这直接印证了上下文膨胀对复杂任务推理正确性的实质性损害。

图 2. 各消融变体在不同难度层级上的准确率热力图。颜色深浅表示准确率水平（50%-100%）。单元格内数字为准确率数值。

4.4 外部对比实验（External Comparison）

本小节将 ContextLoader（完整配置）与外部向量检索方案（Dify Baseline）进行对比，验证结构化召回相对于传统语义检索的优势。

表 3. ContextLoader 与 Dify Baseline 的准确率对比

评测子集	Dify Baseline (%)	ContextLoader（完整配置）(%)	Δ (p.p.)
总体	78.9	92.9	+14.0
Easy	86.2	99.9	+13.7
Medium	72.7	87.9	+15.2
Hard	77.8	88.9	+11.1

ContextLoader（完整配置）在所有子集上均显著优于 Dify Baseline，其中中等难度任务上的优势最为突出（+15.2 个百分点）。

表 4. ContextLoader 与 Dify Baseline 的时延对比

方法	平均推理时延 (s)
Dify Baseline	87.3
ContextLoader（完整配置）	97.3

ContextLoader 的平均推理时延（97.3s）略高于 Dify Baseline（87.3s），增加约 10 秒。这一额外时间成本主要来源于：Schema 发现阶段的结构化定位过程。然而，考虑到准确率提升约 14 个百分点，这一时间增量是合理的权衡。

图 3. 左图：按难度层级的准确率对比。右图：时延对比。ContextLoader 在所有难度层级上均取得显著准确率提升（约 +14 个百分点），时延增幅可控（+11.5%）。

5. 实验二：Dify 平台验证

5.1 实验背景与设置

实验二在 Dify 平台内部进行，将 ContextLoader 作为可选的召回工具集成到平台中，与 Dify 平台的原生向量检索工具进行对比。该设计旨在验证 ContextLoader 在成熟 RAG 平台中的集成效果。

实验环境：

平台：Dify 平台内部
数据集：MSFAgentBench（与实验一相同）
对比配置：
- ① Dify 知识库 + SQL：Dify 平台内置的向量检索工具
- ② ContextLoader + SQL：使用 ContextLoader 召回，但不启用 Trim 和 Toon
- ③ ContextLoader + SQL + Trim + Toon：完整启用 ContextLoader 的所有优化机制

5.2 主要实验结果

表 5. Dify 平台实验：准确率对比

配置	准确率 (%)	较基线提升 (p.p.)
① Dify 知识库 + SQL	70.4	—
② ContextLoader + SQL	78.9	+8.5
③ ContextLoader + SQL + Trim + Toon	84.5	+14.1

关键发现：

ContextLoader 基础优势：仅启用 ContextLoader（配置②），不使用 Trim 和 Toon，准确率从 70.4% 提升至 78.9%（+8.5 个百分点）。这说明 ContextLoader 的 Schema 感知和结构化召回能力本身即具有显著优势，独立于 Trim 和 Toon 的优化效果。
Trim + Toon 额外增益：在 ContextLoader 基础上启用 Trim 和 Toon（配置③），准确率进一步提升至 84.5%（相对配置② +5.6 个百分点）。这验证了 Trim 和 Toon 作为独立优化模块的价值。
总体提升显著：ContextLoader（启用 Trim 和 Toon）相对 Dify 知识库提升 约 14 个百分点，与实验一的提升幅度高度一致。

图 4. 三种配置的准确率对比。① Dify 知识库 + SQL（基线）② ContextLoader + SQL（未启用优化）③ ContextLoader + SQL + Trim + Toon（完整优化）。准确率呈阶梯式提升，完整优化配置达到最高准确率。

5.3 Token 效率分析

本小节分析 ContextLoader 自身的优化效果（启用 Trim 和 Toon 前后的对比），而非与 Dify 知识库的对比。

表 6. ContextLoader 自身优化带来的 Token 效率提升

配置	Token 均值	相对变化 (%)
② ContextLoader + SQL（未启用优化）	246,030	基准
③ ContextLoader + SQL + Trim + Toon	178,388	-27.5

启用 Trim 和 Toon 后，Token 消耗从 246,030 降至 178,388（-27.5%），验证了 Toon 格式的压缩能力和 Trim 的内容过滤效果。这表明 ContextLoader 在提升准确率的同时，也能有效降低 Token 消耗。

图 5. 左图：启用 Trim + Toon 前后的 Token 消耗对比。右图：Token 压缩率。Toon 格式实现显著的 Token 节省。

5.4 SQL 效率分析

表 7. Dify 平台实验：SQL 效率对比

配置	SQL 工具调用次数	SQL 字段/表名错误次数	SQL 错误率 (%)
Dify 知识库 + SQL	785	57	7.3
ContextLoader + SQL + Trim + Toon	329	4	1.2

关键发现：

SQL 错误率大幅下降：ContextLoader 将 SQL 字段/表名错误率从 7.3% 降至 1.2%。这证明了 ContextLoader 的 Schema 感知能力能够有效避免盲目的字段名和表名猜测。
SQL 调用次数减少：ContextLoader 将 SQL 工具调用次数从 785 次降至 329 次（-58.1%）。这与实验一的发现一致：上下文质量的提升减少了无效的 SQL 探测。

图 6. 左图：SQL 调用次数对比。右图：SQL 错误率对比。ContextLoader 通过 Schema 感知能力显著降低 SQL 调用次数（-58.1%）和错误率（7.3% → 1.2%）。

6. 跨实验对比分析

6.1 两项实验的准确率提升

表 8. 两项实验的准确率对比汇总

实验环境	向量检索基线 (%)	ContextLoader (%)	绝对提升 (p.p.)
AWorld 框架	78.9	92.9	+14.0
Dify 平台	70.4	84.5	+14.1

一致性分析：

提升幅度高度一致：两项独立实验均取得约 14 个百分点的显著提升。这种跨环境的一致性强有力地证明了 ContextLoader 相对向量检索的优势是系统性的，而非实验偶然性。
绝对数值差异的原因：两个实验的绝对准确率数值存在差异（AWorld: 92.9% vs 78.9%；Dify: 84.5% vs 70.4%），这可能是由于实验环境、配置细节、LLM 调用参数等因素导致的。然而，这种差异不影响对 ContextLoader 有效性的验证——关键是相对提升的一致性。

图 7. 左图：AWorld 框架验证结果。右图：Dify 平台验证结果。两项实验均显示 ContextLoader 相对向量检索基线的显著提升，验证了框架的系统性优势。

6.2 Trim + Toon 的独立贡献

表 9. 两项实验中 Trim + Toon 的贡献对比

实验环境	无 Trim+Toon (%)	有 Trim+Toon (%)	额外提升 (p.p.)
AWorld (未优化 → 完整)	85.9	92.9	+7.0
Dify (配置② → 配置③)	78.9	84.5	+5.6

两项实验都验证了 Trim + Toon 的独立价值，能够进一步提升准确率（+5.6 ~ +7.0 个百分点）。AWorld 实验中 Trim + Toon 的贡献略大（+7.0 p.p. vs +5.6 p.p.），这可能是因为 AWorld 实验的完整消融设计更充分地发挥了两个机制的协同效应。

6.3 SQL 效率的一致性改善

表 10. 两项实验的 SQL 效率改善对比

指标	AWorld 实验	Dify 实验	一致性
SQL 调用次数减少	33.1% (426 → 285)	58.1% (785 → 329)	✓
SQL 错误率改善	—	7.3% → 1.2%	✓
SQL 时间减少	45.2%	—	✓

两项实验均证实 ContextLoader 可以显著减少 SQL 调用次数（33.1% ~ 58.1%），Dify 实验进一步显示 SQL 错误率从 7.3% 降至 1.2%（-83.6%）。这些一致性的改善强有力地证明了 ContextLoader 的 Schema 感知能力能够有效提升 SQL 效率。

7. 讨论

7.1 两项实验的验证价值

两项独立实验——一个在开源框架 AWorld 中进行，一个在 Dify 平台内部进行——均取得了约 14 个百分点的显著准确率提升。这种跨环境验证的意义在于：

相同的核心机制：两项实验都使用了相同的 Trim + Toon 机制，证明这些机制的效果不依赖于特定的框架或平台环境。
相同的评估标准：两项实验使用相同的数据集（MSFAgentBench）和相同的评估方法（正确答案数 / 总题数），确保了结果的可比性。
系统性优势：ContextLoader 相对向量检索的优势来自于其架构设计（Schema 感知、动态构造、LLM 友好格式），而非特定框架的实现细节。
可靠性保证：两项独立实验的一致性结果为研究结论提供了强有力的支撑，降低了单一实验偶然性的风险。

7.2 ContextLoader 的核心优势

基于两项实验的验证结果，ContextLoader 相对传统向量检索方案的核心优势可概括为：

优势维度	具体表现	实验证据
Schema 感知能力	提供精确元数据，避免字段名猜测	SQL 错误率：7.3% → 1.2%
动态上下文构造	逐步构建，支持逐层收敛	多步推理任务准确率显著提升
LLM 友好格式	Toon 压缩 Token，保留完整语义	Token 减少 27.5%-33.2%
结构化证据定位	引导从盲目 SQL 探测转向结构化定位	SQL 调用减少 33.1%-58.1%

7.3 Trim 与 Toon 的协同效应

AWorld 实验显示，单独启用 Toon 将困难任务准确率从 55.6% 提升至 77.8%，单独启用 Trim 同样达到 77.8%，而两者联合则进一步提升至 88.9%，超出任一单独模块的表现上限。Dify 实验中，启用 ContextLoader（+8.5 p.p.）和启用 Trim+Toon（+5.6 p.p.）的收益相加，总提升超过 14 个百分点。

这说明在提升准确率方面，Trim 与 Toon 各自解决了不同层面的上下文质量问题：

Trim 解决"放什么进来"的问题，过滤低相关内容
Toon 解决"怎么表达"的问题，优化结构化格式

两者联合使用可以覆盖单一模块无法消除的盲区，实现协同效应。

7.4 上下文膨胀是复杂任务失败的根本原因

AWorld 实验中的一个关键发现值得特别关注：ContextLoader（未启用优化）在困难任务上的准确率仅为 55.6%，而同任务的平均 Prompt Tokens 高达 651,664。典型案例的 Prompt Tokens 超过 1.3M，在引入 ContextLoader（完整配置）后，Token 数量分别压缩 73.9% 和 62.0%，答案由错转正。

这一发现表明：上下文长度本身就是推理稳定性的关键制约，而不仅仅是推理效率的问题——超出有效注意力范围的上下文会导致推理正确性的直接退化。这为未来 LLM 应用系统的上下文管理设计提供了重要的指导意义。

7.5 SQL 调用结构是智能体上下文利用质量的行为侧代理指标

AWorld 实验发现，随着上下文质量提升，SQL 查询占比显著下降，而结构化定位查询占比相应上升。Dify 实验进一步发现，ContextLoader 将 SQL 调用次数从 785 次降至 262~329 次。

这表明：高 SQL 占比并非任务复杂度的必然体现，而是上下文管理不足导致的"冗余回退"——当模型无法有效复用已有证据时，SQL 成为弥补上下文空白的替代手段。因此，SQL 工具的调用占比可作为智能体上下文质量的一个轻量可观测指标。

7.6 局限性与未来工作

本研究存在以下局限性：

数据集范围：实验仅在 MSFAgentBench 数据集上进行，未来需要在更多业务场景和数据类型上进行验证。
Trim 策略：当前的相关性裁剪策略相对简单，更细粒度的动态裁剪策略可能进一步提升效果。
数值推理：对于涉及复杂数值计算的任务，当前框架的优化空间仍然有限。

未来工作将围绕以下方向展开：

更细粒度的动态相关性裁剪策略
面向数值推理的结构化压缩模板设计
基于工具调用历史的自适应上下文预算分配机制
扩展到更多业务场景和数据类型的验证

8. 结论

本研究报告了两项独立的实验验证，全面评估了 ContextLoader 框架在业务知识网络召回场景中的有效性。两项实验在不同环境（AWorld 开源框架 vs Dify 平台）、不同对比基线（外部向量检索 vs 平台原生检索）下均取得了显著的准确率提升，为以下结论提供了强有力的支撑：

（1）ContextLoader 相对向量检索具有显著优势。

AWorld 实验：准确率从 78.9% 提升至 92.9%（约 +14 个百分点）
Dify 实验：准确率从 70.4% 提升至 84.5%（约 +14 个百分点）

两项独立实验均验证了 ContextLoader 相对向量检索的显著优势，证明了其有效性是稳定的、可复现的。

（2）ContextLoader 在两项实验中均实现约 14 个百分点的提升。

AWorld 实验：中等难度任务优势最明显（+15.2 个百分点）
Dify 实验：验证了平台级集成的有效性

（3）Trim 与 Toon 的联合优化设计是有效的。

AWorld 实验：准确率提升 7.0 个百分点（85.9% → 92.9%），Token 压缩 33.2%
Dify 实验：准确率提升 5.6 个百分点（78.9% → 84.5%），Token 减少 27.5%
困难任务提升效果（+33.3 个百分点）远高于简单任务（+6.8 个百分点）

（4）ContextLoader 显著改善了 SQL 效率。

AWorld 实验：SQL 调用减少 33.1%，执行时间减少 45.2%
Dify 实验：SQL 调用减少 58.1%，错误率从 7.3% 降至 1.2%

（5）跨平台验证证明了 ContextLoader 的系统性优势。

优势来自于架构设计（Schema 感知、动态构造、LLM 友好格式），而非特定框架实现
适用于从零构建（AWorld）和平台集成（Dify）两种场景

附录：实验数据摘要

A.1 AWorld 实验完整数据

方法	准确率 (%)	Prompt Tokens	时延 (s)	工具调用	SQL 调用
Dify Baseline	78.9	97,335	87.3	10.2	408
ContextLoader（未启用优化）	85.9	407,580	117.1	14.2	426
ContextLoader（仅启用 Toon）	88.7	322,505	95.2	13.3	272
ContextLoader（仅启用 Trim）	90.1	289,371	93.4	13.4	299
ContextLoader（完整配置）	92.9	272,295	97.3	14.8	285

A.2 Dify 实验完整数据

配置	准确率 (%)	较基线 (p.p.)	SQL 调用	SQL 错误率 (%)
Dify 知识库 + SQL	70.4	—	785	7.3
ContextLoader + SQL	78.9	+8.5	262	0
ContextLoader + SQL + Trim + Toon	84.5	+14.1	329	1.2

A.3 Token 效率数据（ContextLoader 自身优化）

配置	Token 均值	变化 (%)
ContextLoader + SQL（未启用优化）	246,030	基准
ContextLoader + SQL + Trim + Toon	178,388	-27.5

A.4 图表索引

所有图表均已嵌入正文中，以下为完整索引：

图号	名称	章节
图 1	AWorld 消融实验：性能-成本帕累托分析	4.3.1 性能-成本帕累托分析
图 2	AWorld 实验：分难度层级准确率热力图	4.3.2 分难度层级准确率
图 3	外部对比实验：ContextLoader vs Dify Baseline	4.4 外部对比实验
图 4	Dify 平台实验：准确率对比	5.2 主要实验结果
图 5	ContextLoader 内部优化：Token 效率分析	5.3 Token 效率分析
图 6	Dify 平台实验：SQL 效率分析	5.4 SQL 效率分析
图 7	跨平台验证：准确率对比	6.1 两项实验的准确率提升

深度解析 KWeaver Core 如何实现非结构化数据的高可靠问答

2026-03-18T00:00:00.000Z

摘要：在企业级非结构化数据问答中，从"能用"到"可靠"的跨越，面临着证据链断裂、多跳推理发散等严峻挑战。本文深入剖析了我们如何通过构建 AI Data Platform (KWeaver Core)，将传统的检索增强生成（RAG）升级为一种平台化的上下文工程（Platform-based Context Engineering）。通过解构其核心组件、分享关键的消融实验数据，我们展示了如何通过业务知识网络、精确的工具治理和动态上下文加载，实现高可靠通过率，显著超越业界主流方案。

文章贡献者：燕楠、许鹏、陈储培

1. 引言：当"能用"不再足够

在过去的一年里，RAG 技术使得让 LLM"基于文档说话"变得唾手可得。然而，当我们试图将这一技术应用于复杂的企业内部非结构化数据（如多格式简历、技术规范等）时，我们撞上了一堵"可靠性之墙"。

RAG 的核心在于为大模型提供高质量的上下文，但在实际的企业场景中，构建高质量上下文面临着四重挑战：

上下文爆炸：企业文档体量庞大、格式多样，检索返回的候选片段数量激增，远超模型的有效处理能力，导致关键信息被淹没在海量噪声中。
上下文腐烂：企业数据处于持续更新状态，传统的 ETL 批量导入模式导致知识库与源数据之间存在时间差，智能体可能基于过时信息进行推理。
上下文污染：检索召回的片段中混入了不相关或误导性的内容，这些"噪声"会干扰大模型的判断，引发幻觉或错误推理。
Token 消耗：将大量检索结果注入上下文窗口会带来显著的 Token 开销，不仅增加响应延迟和成本，还可能因超出窗口限制而被迫截断关键证据。

在早期测试中，我们发现传统的 RAG 架构（简单的 chunking + 向量检索）本质上只能匹配字面语义相似度，无法理解文档间的逻辑与业务链路。上述四重挑战叠加后，在面对以下稍微复杂的业务场景时更显得力不从心：

跨段落的隐式关联：答案分散在文档的多个板块中，且缺乏显式的关键词链接，传统向量距离无法跨越这道鸿沟。
需要领域知识的推理：智能体不理解特定行业的术语或业务实体之间的逻辑关系，无法将散落的片段串联起来。
执行路径的发散：面对复杂问题，智能体容易在过多的工具中迷失，导致推理步数爆炸甚至死循环。

我们的目标非常明确：在这些复杂场景下，不仅要提供答案，还要提供确定性。为了达成这一目标，我们构建了 AI Data Platform (KWeaver Core)——一个不仅存储数据，更存储数据"语义"和"连接"的智能操作系统。

2. KWeaver Core 架构：为智能体构建的"语义操作系统"

KWeaver Core 的设计哲学是：不是让智能体直接面对原始数据，而是为它提供一个结构化的、语义丰富的操作环境。

下图展示了 KWeaver Core 的核心架构。它通过 VEGA 引擎虚拟化集成多源数据，通过数据流（Dataflow）处理非结构化数据到业务知识网络，再通过 BKN（业务知识网络）建立语义连接，最后通过 Context Loader 为智能体按需加载上下文信息。

2.1 核心组件深挖

BKN (Business Knowledge Network, 业务知识网络)：这是 KWeaver Core 的核心。它不仅是企业语义关系的结构化表示，更是一种将企业的实体、关系、甚至业务逻辑（如"候选人的'技能标签'与'项目经验'存在关联关系"）建模为机器可理解网络的引擎。它为智能体提供了推理的"地图"。
VEGA（VEGA Data Virtualization, VEGA数据虚拟化）：解决了数据孤岛问题。它实现了对结构化、非结构化、多模态数据的零复制（Zero-copy）实时集成。这一特性避免了繁重且易滞后的 ETL 数据搬运过程，确保智能体看到的是最新、最全的数据视图。
Dataflow（数据流）：它是非结构化数据转化为语义网络的桥梁，负责处理非结构化数据到业务知识网络。它通过解析与信息抽取等手段将杂乱无章的文档文本、图表等转化为 BKN 内的结构化实体与关系。
Context Loader (上下文加载器)：这是提升准确率的关键组件。传统的 RAG 只是通过向量检索文本片段，而 Context Loader 在此基础上实现了多层能力增强：
- 语义重排（Semantic Reranking）：对初步检索到的候选片段，通过 Cross-Encoder 模型进行精排，依据语义相关度而非单纯的向量距离重新排序，将最相关的证据推至上下文窗口的前端。
- 上下文压缩（Context Compression）：对检索到的长文本片段进行智能压缩，在保留关键信息的前提下减少冗余内容，提高上下文窗口的信息密度，使智能体能在有限的上下文空间内获取更多有效信息。
- 动态本体注入（Dynamic Ontology Injection）：在智能体执行任务前，Context Loader 会根据问题意图自动从 BKN 中提取相关的本体定义（Schema），包括实体类型、属性和关系模式，注入到智能体的系统提示中，为其构建领域推理的"地图"。
- 技能路由（Skill Routing）：根据当前任务自动筛选并暴露最相关的工具子集，避免智能体因选择过多而产生路径发散（详见 3.3.3 节）。

3. 评测体系与实验分析

3.1 评测框架

为系统验证 KWeaver Core 各组件的贡献度以及整体性能，我们在同一测试集口径下设计了分阶段实验方案：

数据集与样本

文档库：resume/ 简历库，包含 118 份不同岗位方向（JAVA、C++、Golang、前端、大模型、测试、项目经理、技术支持等）的候选人简历（PDF 格式）。
统一测试集：消融实验与综合评测均使用同一套 145 个 HR 场景问答样本（来源于 hr_jsonl/ 下多个测试文件），覆盖简单信息查询、项目经验分析、跨段落综合推理三类场景，确保各项对比在同一口径下可直接比较。

评测指标

通过率（Accuracy）：回答是否覆盖所有关键答案要点。
平均响应时间（Avg Latency）：端到端响应延迟。
P90 响应时间：衡量长尾稳定性。
平均 Token 消耗：反映推理路径的精简程度。

实验环境

基座模型：消融实验和综合评测统一使用 DeepSeek V3.2 作为基座模型。模型选型阶段额外引入 Qwen-Code-Plus 作为基准对比（详见 3.2 节），以验证模型能力对结果的影响。
Embedding 模型：统一使用 BGE M3-Embedding 模型进行向量化。

3.2 KWeaver Core 实验结果总览

我们围绕模型选型、检索深度、工具组合、路径指引策略和数据复杂度五个维度，开展了多轮对比实验，核心指标包括通过率、平均响应时间、平均推理步数和平均 Token 消耗。

下表汇总了各场景的关键实验数据：

模型	limit	Schema预加载	路径指引	kn_search	属性数	通过率	平均响应(s)	平均步数	平均 Token
Qwen-Code-Plus	20	✅	✅	✅	5	80.0%	58.71	10.53	26,780
DeepSeek V3.2	10	✅	✅	✅	5	87.59%	40.60	8.60	18,560
DeepSeek V3.2	20	✅	✅	✅	5	95.86%	47.08	8.20	21,350
DeepSeek V3.2	20	✅	✅	❌	5	99.31%	37.82	7.07	15,420
DeepSeek V3.2	20	✅	❌	❌	5	97.93%	53.06	8.27	23,287
DeepSeek V3.2	20	✅	❌	✅	5	96.55%	53.28	8.93	19,870
DeepSeek V3.2	20	❌	❌	✅	5	94.48%	58.55	8.07	28,160
DeepSeek V3.2	20	✅	✅	✅	15	90.0%	51.34	9.00	21,447

从实验数据中可以提炼出以下关键发现：

模型选型：DeepSeek V3.2 在所有可比场景下通过率 ≥87.59%，显著优于 Qwen-Code-Plus 的 80.0%，且在同等配置（limit=10）下平均响应时间缩短约 18s，是更适合生产环境的主力推理模型。
检索深度：limit 从 10 提升至 20，通过率从 87.59% 提升至 95.86%，响应时间仅增加约 6.48s，证明更大的上下文覆盖对高准确率至关重要。
工具精简：禁用 kn_search 后通过率从 95.86% 提升至 99.31%，且步数降低 13.8%（8.20→7.07），说明冗余工具会引入噪声和无效跳转。
路径指引与自主性：去掉路径指引但限制 2 个核心工具仍可维持 97.93%通过率；放宽到 3 个工具时通过率下降至 96.55%，表明自主模式下仍需精简工具集。
数据复杂度：对象类属性从 5 个增至 15 个时，通过率下降约 4.5%~10%，响应时间和步数增加约 15%，提示在复杂业务知识网络（BKN）下应考虑属性压缩或分层召回。

以下各节将围绕上述发现中的四个核心变量（检索深度、Schema 预加载、工具治理、路径指引），进行深入的消融分析。

3.3 消融实验：关键技术杠杆

我们基于同一套 145 样本测试集，逐步定位影响智能体性能的关键变量。以下四项实验分别对应了第 2 节中 KWeaver Core 架构的不同组件能力。

3.3.1 检索深度的边际效应

在早期迭代中，我们将检索返回的片段数量（limit）设定为 10。这足以应付大多数简单查询，但在处理需要跨多个段落综合信息的复杂案例时，准确率停滞在 87.59%。

分析失败案例后发现，关键证据往往排在检索结果的第 11 到 15 位之间。智能体因为"视野"不够宽而错失了答案。

在传统的 RAG 架构中，盲目增加检索数量往往会导致严重的"中间迷失（Lost in the Middle）"效应和信息噪声，反而容易引发大模型幻觉。然而，KWeaver Core 的平台架构赋予了我们突破这一瓶颈的"抗噪能力"。

在后续优化中，我们将 limit 提升至 20。得益于 Context Loader 的语义重排（Rerank）与上下文压缩能力，以及预加载的 Schema 帮助智能体精准锚定关键事实，KWeaver Core 有效消化了这 20 个片段的上下文信息，将通过率从 87.59% 提升至 95.86%。这带来了平均约 6.48 秒的延迟增加（约 16%），但对于企业级应用而言，这是一个可接受的延迟交换。

3.3.2 知识网络（Schema）的预加载策略

智能体在推理时经常需要知道"在这个领域里，哪些实体和关系是存在的"。如果完全依赖智能体自行探索，它可能会进行多次无效的检索尝试。

为保证与 3.2 总表完全一致，以下对照直接取自总表中两组对应配置（limit=20、开启 kn_search、无路径指引、属性数=5），仅比较 Schema 开关差异：

配置	通过率	平均推理步数	平均 Token 消耗
预加载 Schema	96.55%	8.93 步	19.87K
不预加载 Schema	94.48%	8.07 步	28.16K

从该组对照可以看到，Schema 预加载将 Token 消耗从 28.16K 降至 19.87K，同时通过率由 94.48% 提升至 96.55%。这表明 Schema 在该配置下能够同时提升效率与准确率，但其收益仍与路径指引、工具组合存在耦合关系。

3.3.3 工具治理：少即是多

在 Agentic 模式下，我们很容易陷入"给智能体提供尽可能多工具"的误区。然而，实验数据显示，工具集的精准裁剪对智能体性能有显著影响。

我们以"候选人项目经验查询"类任务（基于同一套 145 样本测试集）为例，在保持 limit=20、Schema 预加载和路径指引不变的条件下，对比了"包含 kn_search"与"禁用 kn_search（工具精简）"两种配置的表现：

工具配置	通过率	平均推理步数	平均 Token 消耗	典型失败模式
含 `kn_search`	95.86%	8.20 步	21.35K	智能体容易进入较长的检索-过滤链路
禁用 `kn_search`（工具精简）	99.31%	7.07 步	15.42K	—

当提供全库搜索工具时，智能体倾向于选择"看起来功能更强大"的工具，但其返回结果的噪声远高于限定范围的查询工具。智能体在消化这些噪声结果时会进入多轮反思（Reflection）循环，导致路径发散。精简工具集后，智能体被"约束"在正确的操作路径上，反而实现了一次通过（One-shot）。

这一发现揭示了一个重要原则：对于智能体而言，工具治理的核心不是"提供最多的能力"，而是"消除选择歧义"。

3.3.4 关键路径指引：从"自由探索"到"有据可循"

路径指引（Path Guidance）是指在智能体执行任务前，系统为其提供明确的查询路径模板——即告诉智能体"先查什么、再查什么、如何关联"。这一策略的核心价值在于：将领域专家的经验编码为可执行的推理路线图，使智能体在面对复杂问题时不必从零摸索。

从 3.2 节的实验数据中，我们可以清晰地对比"有路径指引"与"无路径指引"两种模式下的表现差异：

配置	路径指引	工具数	通过率	平均响应(s)	平均步数	平均 Token
Explore-kn_search	✅	3	99.31%	37.82	7.07	15,420
无路径，2 工具	❌	2	97.93%	53.06	8.27	23,287
无路径，3 工具	❌	3	96.55%	53.28	8.93	19,870

实验结果揭示了路径指引的两个关键作用：

降低推理成本：在工具数相近的条件下（3 个工具），有路径指引的配置（Explore-kn_search）相比无路径指引（无路径，3 工具），通过率从 96.55% 提升至 99.31%，响应时间缩短约 29%（53.28s→37.82s），Token 消耗降低约 22%（19,870→15,420）。路径指引为智能体提供了明确的"下一步该做什么"的指令，避免了在多个工具之间的犹豫和试错。
提升工具容忍度：没有路径指引时，智能体对工具数量仍然敏感——从 2 个增加到 3 个工具，通过率从 97.93%下降至 96.55%。而有路径指引时，即使暴露 3 个工具，智能体仍能保持 99.31%的通过率。这说明路径指引有效缓解了工具选择歧义，使智能体能够在更大的工具空间中保持稳定。

值得注意的是，即使在无路径指引的条件下，通过将工具精简至 2 个核心工具，仍可维持 97.93%的通过率。但这一"无路径"模式的代价是响应时间增加约 40%（37.82s→53.06s），Token 消耗增加约 51%（15,420→23,287）。这表明，路径指引与工具精简是两种互补的策略：路径指引通过"告诉智能体怎么走"来提升效率，工具精简通过"减少可选的岔路"来保证稳定性。在生产环境中，两者的组合可以实现最优的性能表现。

3.4 综合评测：KWeaver Core 与业界主流平台的对比

在通过消融实验确定最优配置（limit=20、Schema 预加载、路径指引、精简工具集）后，我们将测试集扩展至 145 个样本，并与业界主流平台进行横向对比。对比平台包括：开源 LLM 应用开发平台 Dify、开源 RAG 引擎 RAGFlow，以及面向企业的大模型应用平台 BiSheng（毕昇）。测试均采用 Agentic 模式。

控制变量说明：

基座模型与 Embedding：各平台统一使用 DeepSeek V3.2 和 BGE M3-Embedding，消除模型差异。
数据源：各平台导入完全相同的文档集——resume/ 简历库。
调优程度：KWeaver Core 使用经消融实验调优后的最优配置，其他平台按照各自官方文档推荐的最佳实践配置运行，反映各平台"开箱可达的最优性能"。

结果显示，KWeaver Core 在通过率上显著领先，并在执行效率上保持了高度竞争力。

详细数据如下表所示：

平台指标	KWeaver Core (v0.3.0)	BiSheng	Dify (v0.15.3)	RAGFlow (v0.17.0)
通过率 (Accuracy)	99.31% (144/145)	86.90% (126/145)	96.55% (140/145)	86.90% (126/145)
平均响应时间 (Avg Latency)	43.69s	19.52s	63.82s	71.56s
P90 响应时间 (稳定性)	56.92s	32.53s	79.15s	95.37s
平均 Token 消耗 (K)	21.36K	4.98K	36.25K	16.28K

数据来源：基于内部 145 个 HR 场景样本集（hr_jsonl/）测试结果。

KWeaver Core 核心优势深度解析：

绝对的可靠性优势（破局"能用与好用"的鸿沟）：KWeaver Core 在 145 个复杂测试样本中通过率高达 99.31%，仅 1 例未能完全覆盖要点（极端的跨文档比对场景）。对比同为企业级业务定制的 BiSheng（86.90%）与开源 RAG 标杆 RAGFlow（86.90%），KWeaver Core 展现了在复杂业务逻辑下"高可靠、生产就绪"的统治级表现。
"极高准确率"与"低资源消耗"的最佳平衡：传统架构往往在准确率与消耗之间艰难取舍：例如 Dify 虽然通过率达到了尚可的 96.55%，但其 Token 消耗高达 36.25K（是 KWeaver Core 的 1.7倍），且响应时间高达 63.82s。反观 BiSheng 虽然 Token 消耗极低（4.98K），却是以严重牺牲推理深度和准确率（跌至 86.90%）换来的。KWeaver Core 平均消耗仅 21.36K Token，这直接印证了 Schema 预加载和精确工具治理的威力——智能体获得了明确的"推理导航"，避免了无效试错与多余的反思（Reflection），在维持最高通过率的同时，实现了推理路径的最优解。
极佳的应用稳定性（防御长尾发散效应）：KWeaver Core 的 P90 响应时间（56.92s）仅为平均响应时间（43.69s）的 1.3 倍，展现了非常优异的长尾稳定性。这意味着即便面对非常边缘、需要极大多跳推理的复杂请求，系统依然能在一分钟内收敛，有效避免了原生 Agent 常见的"推理路径发散"或"死循环"崩溃。

横向对比核心结论： 综合来看，Dify 属于**"高消耗换取高通过率（力大砖飞）"，BiSheng 则是"牺牲准确推理换取表面上的快速低耗"**。唯有 KWeaver Core 突破了传统 RAG 架构的"性能不可能三角"，在满足企业级严苛可靠性（>99%准确率）的同时，将推理成本和时间延迟控制在了高度生产可用的水平。

3.5 典型案例分析：从失败到成功

下面通过一个具体案例，展示上述技术杠杆的协同作用。

问题："介绍下某候选人关于图数据库的经验"

这是一个典型的跨段落、多跳推理问题：某候选人的图数据库经验分散在简历的多个板块中——技能特长中提到了 NebulaGraph（一种开源图数据库），而具体的图数据库开发经验则出现在某段工作经历下的"数据服务API项目"描述中，两者之间没有显式的关键词链接。

改进前（limit=10, 无 Schema, 完整工具集）的执行路径：

智能体调用 kn_search 搜索"候选人图数据库"，返回 10 条结果，仅匹配到技能特长中的 NebulaGraph 片段
智能体未找到具体项目经验，再次调用 kn_search 搜索"图数据库开发经验"
返回的结果中混入了其他候选人的技术栈描述，智能体进入反思循环
经过 8 步推理后，智能体给出了部分答案，但遗漏了数据服务API项目中的关键经验，回答不完整

改进后（limit=20, Schema 预加载, 精简工具集）的执行路径：

Context Loader 预加载了简历本体 Schema
智能体调用限定范围的文档查询工具，一次性获取了该候选人简历的 20 个相关片段
得益于扩大的检索窗口，技能特长中的 NebulaGraph（排在第 4 位）和数据服务API项目描述（排在第 14 位）均被召回
智能体通过 Schema 中的关系定义，将技能标签与项目经验正确关联，3 步内完成完整回答

4. 结论与展望

KWeaver Core 的实践表明，要提升非结构化数据问答的可靠性，不能仅仅依赖更强的模型或更深的向量数据库。关键在于构建一个平台化的上下文工程体系。

通过 BKN 将数据"语义化"，通过 Context Loader 将上下文"结构化"，并通过精细的消融实验来调整检索深度和工具组合，我们在 145 个测试样本中达到了 99.31% 的高通过率，显著超越业界主流方案，验证了这一架构方向的有效性。

4.1 当前局限性

尽管取得了积极的结果，我们也清醒地认识到当前方案的局限性：

样本规模与领域覆盖：当前评测基于 145 个 HR 简历问答样本，覆盖了三类典型复杂场景；但对于更广泛的统计显著性结论，仍需进一步扩大样本规模和领域覆盖。后续我们计划扩展至 500+ 样本，并引入合同审查、技术文档等更多领域。
BKN 构建成本：业务知识网络的本体定义和实体关系建模目前仍需领域专家参与，自动化程度的提升是降低落地门槛的关键。
领域泛化能力：在合同审查、医疗病历、法律文书等专业性更强的领域，本体 Schema 的设计和工具集的配置可能需要额外的适配工作。
人工调优依赖：检索深度、工具集组合等关键参数目前通过人工消融实验确定，尚未实现自动化调优。

4.2 未来方向

基于上述局限性，未来我们将致力于以下方向：

降低延迟：优化 Context Loader 的加载机制，探索异步预取和缓存策略，目标是将 limit=20 场景下的额外延迟降低 50% 以上。
增强多模态能力：利用 Dataflow，进一步提升对图表、复杂文档结构（如嵌套表格、流程图）的解析能力。
自动化上下文工程：探索让智能体自主判断所需上下文深度和工具组合的能力。初步方向是基于问题分类模型自动路由至预定义的配置模板，减少人工调优依赖。
扩大验证规模：构建覆盖更多领域和文档类型的大规模测试集，并引入第三方评估以提升结论的外部效度。

Welcome to KWeaver Blog

2026-03-17T00:00:00.000Z

Welcome to the KWeaver technical blog! We will share insights about decision intelligence AI technology here.

Stay tuned for upcoming posts about KWeaver's architecture, design philosophy, and best practices.

KWeaver Blog

BKN：专为 Agent 上下文而生的业务本体描述语言

一、什么是 BKN 语言：它包含什么，以及它如何工作？​

二、从 Context Engineering 到 Harness Engineering：BKN 在其中扮演什么角色？​

三、为什么采用 Markdown 作为载体？​

四、为什么说 BKN 是一种「本体」描述语言？​

五、BKN 是如何构建的？​

六、实战效果：BKN 让 Agent 更接近业务思维​

结语​

ContextLoader：业务知识网络的结构化召回范式

摘要​

目录​

1. 引言​

1.1 研究背景与动机​

1.2 研究问题与贡献​

1.3 两项独立实验的设计意图​

2. KWeaver Core 架构概述​

2.1 设计理念​

2.2 核心组件与数据流​

2.3 ContextLoader 的定位与本报告聚焦​

3. ContextLoader 框架​

3.1 设计理念​

3.2 框架架构​

3.3 Trim：字段裁剪机制​

3.4 Toon：标记优化表示格式​

3.4.1 与 JSON 的表达对比​

3.4.2 压缩效率分析​

3.4.3 结构约束（Guardrails）​

3.5 Trim 与 Toon 的协同关系​

4. 实验一：AWorld 框架验证​

4.1 实验设置​

4.1.1 数据集与任务​

4.1.2 对比方法​

4.2 主要实验结果​

4.3 消融实验（Ablation Study）​

4.3.1 性能–成本帕累托分析​

4.3.2 分难度层级准确率​

4.4 外部对比实验（External Comparison）​

5. 实验二：Dify 平台验证​

5.1 实验背景与设置​

5.2 主要实验结果​

5.3 Token 效率分析​

5.4 SQL 效率分析​

6. 跨实验对比分析​

6.1 两项实验的准确率提升​

6.2 Trim + Toon 的独立贡献​

6.3 SQL 效率的一致性改善​

7. 讨论​

7.1 两项实验的验证价值​

7.2 ContextLoader 的核心优势​

7.3 Trim 与 Toon 的协同效应​

7.4 上下文膨胀是复杂任务失败的根本原因​

7.5 SQL 调用结构是智能体上下文利用质量的行为侧代理指标​

7.6 局限性与未来工作​

8. 结论​

附录：实验数据摘要​

A.1 AWorld 实验完整数据​

A.2 Dify 实验完整数据​

A.3 Token 效率数据（ContextLoader 自身优化）​

A.4 图表索引​

深度解析 KWeaver Core 如何实现非结构化数据的高可靠问答

1. 引言：当"能用"不再足够​

2. KWeaver Core 架构：为智能体构建的"语义操作系统"​

2.1 核心组件深挖​

3. 评测体系与实验分析​

3.1 评测框架​

3.2 KWeaver Core 实验结果总览​

3.3 消融实验：关键技术杠杆​

3.3.1 检索深度的边际效应​

3.3.2 知识网络（Schema）的预加载策略​

3.3.3 工具治理：少即是多​

3.3.4 关键路径指引：从"自由探索"到"有据可循"​

3.4 综合评测：KWeaver Core 与业界主流平台的对比​

3.5 典型案例分析：从失败到成功​

4. 结论与展望​

4.1 当前局限性​

4.2 未来方向​

Welcome to KWeaver Blog

一、什么是 BKN 语言：它包含什么，以及它如何工作？

二、从 Context Engineering 到 Harness Engineering：BKN 在其中扮演什么角色？

三、为什么采用 Markdown 作为载体？

四、为什么说 BKN 是一种「本体」描述语言？

五、BKN 是如何构建的？

六、实战效果：BKN 让 Agent 更接近业务思维

结语

摘要

目录

1. 引言

1.1 研究背景与动机

1.2 研究问题与贡献

1.3 两项独立实验的设计意图

2. KWeaver Core 架构概述

2.1 设计理念

2.2 核心组件与数据流

2.3 ContextLoader 的定位与本报告聚焦

3. ContextLoader 框架

3.1 设计理念

3.2 框架架构

3.3 Trim：字段裁剪机制

3.4 Toon：标记优化表示格式

3.4.1 与 JSON 的表达对比

3.4.2 压缩效率分析

3.4.3 结构约束（Guardrails）

3.5 Trim 与 Toon 的协同关系

4. 实验一：AWorld 框架验证

4.1 实验设置

4.1.1 数据集与任务

4.1.2 对比方法

4.2 主要实验结果

4.3 消融实验（Ablation Study）

4.3.1 性能–成本帕累托分析

4.3.2 分难度层级准确率

4.4 外部对比实验（External Comparison）

5. 实验二：Dify 平台验证

5.1 实验背景与设置

5.2 主要实验结果

5.3 Token 效率分析

5.4 SQL 效率分析

6. 跨实验对比分析

6.1 两项实验的准确率提升

6.2 Trim + Toon 的独立贡献

6.3 SQL 效率的一致性改善

7. 讨论

7.1 两项实验的验证价值

7.2 ContextLoader 的核心优势

7.3 Trim 与 Toon 的协同效应

7.4 上下文膨胀是复杂任务失败的根本原因

7.5 SQL 调用结构是智能体上下文利用质量的行为侧代理指标

7.6 局限性与未来工作

8. 结论

附录：实验数据摘要

A.1 AWorld 实验完整数据

A.2 Dify 实验完整数据

A.3 Token 效率数据（ContextLoader 自身优化）

A.4 图表索引

1. 引言：当"能用"不再足够

2. KWeaver Core 架构：为智能体构建的"语义操作系统"

2.1 核心组件深挖

3. 评测体系与实验分析

3.1 评测框架

3.2 KWeaver Core 实验结果总览

3.3 消融实验：关键技术杠杆

3.3.1 检索深度的边际效应

3.3.2 知识网络（Schema）的预加载策略

3.3.3 工具治理：少即是多

3.3.4 关键路径指引：从"自由探索"到"有据可循"

3.4 综合评测：KWeaver Core 与业界主流平台的对比

3.5 典型案例分析：从失败到成功

4. 结论与展望

4.1 当前局限性

4.2 未来方向