青岛日报社/观海新闻4月22日讯 随着国家数据要素市场化改革向纵深推进,多源数据融合应用已成为公共数据授权运营的主流形态。但与此同时,供数单位之间的收益分配问题,却成为制约公共数据持续供给、阻碍生态良性循环的“堵点”。近日,青岛数据集团依托青岛市率先建立的行政事业单位公共数据收益分配机制,历时一个月完成从“计条数”到“算词元”的范式进化,落地全国首个词元计量收益分配体系,为破解多源数据融合分账难题提供了可复制、可推广的“青岛方案”。
传统分配方式:粗放计量的公平性困局
当前公共数据运营仍以结构化数据为主,行业普遍采用“按调用条数分账”的基础模式——谁家的数据被调用次数多,谁就分得更高比例的收益。这种模式操作简单、易于落地,但本质上是用“物理数量”替代“信息价值”,存在根本性的公平性缺陷。
针对按条计量的粗放短板,行业率先将分配粒度从“单条数据”下沉至“有效字段”,构建了第一代精细化计量模型,公平性得到显著提升,成为过去两年行业广泛采用的过渡方案。但由于每个字段中所包含的信息量存在差异,字段计量仍有局限性,无法精准反映数据的真实信息含量与实际贡献。
范式革命: 以“词元”锚定数据真实价值
为彻底解决价值计量不精准的行业难题,青岛数据集团紧跟国家数据局关于词元交易的战略部署,在青岛市行政事业单位公共数据收益分配机制的制度框架下,推动计量单元再次穿透至字段内部,创新性引入词元(Token)作为公共数据价值的基本计量单位,构建了第二代精细化计量模型,实现了从“物理计数”到“信息计量”的本质跨越——无论数据是结构化的单值字段,还是非结构化的长文本、表格、图像,最终都可以转化为统一的词元单位进行价值核算,真正做到“多贡献多得、高价值多得”。
青岛实践: 双轨平滑过渡,确保分账公平可信
考虑到词元价值密度的行业参照体系尚在完善过程中,为避免单一模型参数波动导致分配结果偏离实际,青岛创新性地采用“字段计量+词元计量”双轨并行的平滑过渡策略,以两者的加权平均值作为最终贡献量,兼顾了计量的科学性与实操性。该模式试运行以来,得到了各行政事业单位的高度认可,数据供给积极性显著提升。在运营的数据中,高价值数据集占比超过40%,较去年同期增长2倍以上。
下一步,青岛数据集团将在现有实践基础上,持续完善“按实际消耗付费、按价值分级定价、按贡献动态分成”的体系,并立足国家数据局关于词元交易的顶层设计指引,探索词元交易等新型交易模式,构建以词元为基础,可量化、可定价的数据集价值体系。未来,该模式下的每一个数据词元都将成为可确权、可计量、可交易、可追溯的数据资产,真正实现数据要素价值的精准释放与公平分配。(青岛日报/观海新闻记者 周晓峰)
责任编辑:岳文燕