欢迎来到实证政治学网!

摘 要基于对中国两个大型公共服务绩效评估项目的评估结果进行截面和纵贯比较发现两个项目的评估结果之间总体较为一致但相关程度不高且不同年份和领域的相关关系也不同。在环境保护和公共安全等竞争性和排他性都较低的领域两个项目的评估结果高度相关但在其他领域二者的相关关系较弱。时间差距越短两个项目自身及相互之间的相关关系就越高。相关关系的不同可能与两个项目在指标设置、抽样设计和加权方法等方面的差异有关。因此基于研究发现应进一步应用、完善和推进第三方评估。

关键词公共管理公共服务政府绩效评估第三方评估外部评估案例研究信度与效度


一、引言

公共服务绩效评估是加强政府问责和提升政府绩效的重要举措也是提高公共服务质量和推进服务型政府建设的重要手段[1]。越来越多的政府将公共服务绩效纳入目标责任考核体系中并通过公众满意度调查等方式获取公共服务绩效信息。较为典型的有政风行风评议”“万人评政府”“开门评议等活动。例如珠海、南京和沈阳等城市在20世纪90年代就开展公民调查项目获取公民对政府绩效和公共服务质量的评估和意见[2]。这些活动虽然为公众提供参与政府绩效评估的渠道但同时也存在诸多问题[3]

由于测评通常将公众满意度与部门绩效挂钩并以此进行财政和人力资源的分配甚至进行末位淘汰和一票否决这在一定程度上导致政府部门采纳逆向行为[4]如操纵绩效信息的搜集和发布过程使评估结果并不能真实反映政府部门的绩效水平。又由于专业性的缺陷政府机构向公众征求意见的公民调查往往面临一系列方法论问题如问卷设计不合理、问卷发放随意性强、问卷统计不恰当等[5]。有学者认为政府进行公民满意度测量面临巨大政治利益诉求是政府宣传其绩效的重要手段[6]

针对传统目标责任制和公民满意度测评的缺陷学术机构、大众媒体、咨询公司等非政府组织自2000年开始发起并实施政府绩效的外部评估活动也称为第三方评估。例如兰州大学在2004—2006年对甘肃省省级政府部门和部分市政府进行绩效评估[7]华南理工大学自2007年开始对广东省21个地级市和121个县政府绩效进行评估[8]。第三方评估弥补了传统公共服务测评的缺陷评估结果相对公正和客观并引起各级政府部门的广泛关注。

不少学者认为第三方评估是加强政府外部问责和促进政府职能转变的重要举措[9]。但也有学者指出第三方评估在独立性、信度和效度等方面面临一系列挑战。于文轩和马亮[10]在分析中国11项外部评估之后发现外部评估在独立性、信度和效度等方面存在问题越来越多的政府绩效外部评估项目在不断出现但却经常产生自相矛盾的评估结果导致政府官员对第三方评估渐渐失去兴趣。苏伟业在分析武汉市的政府绩效评估项目后发现由政府发起和主导的第三方评估项目不能真实反映政府部门的绩效其实质上是一种加强科层控制的管理手段而非民主手段[11]。中国尚没有政府绩效评估方面的专门法律法规如何保持第三方评估的中立性、公正性以及评估结果的有效性和可信度成为一个值得关注的问题[12]。因此有必要对第三方政府绩效评估的绩效情况予以考察。

第三方开展的外部绩效评估为政府部门和公共管理人员提供额外的绩效信息这使他们可以据此开展绩效预算、循证决策和绩效改进等并有利于政府持续提升公共服务质量。但是这些外部绩效评估是否可靠?它们是否对公共服务绩效进行合理和有效的测评?如果外部评估无法对公共服务绩效予以有效和可靠的评估就很难为决策者提供有用和可信的绩效信息甚至可能误导政府决策和政策执行。当两个及以上的外部评估对同一个对象和内容得出不一致乃至自相矛盾的评估结果时就可能发出冲突性的绩效信息并会导致决策者信息冗余和无所适从。例如对大学排名的研究发现不同排名机构得出的迥异结果使大学管理者迷失方向或者策略性地使用对其有利的排名。因此对外部绩效评估的信度和效度进行评估具有十分重要的研究意义。

尽管外部绩效评估的信度和效度至关重要但是相关研究却不多见。马亮和于文轩[13]曾对中国两个大型的公共服务绩效测评项目进行信度比较结果发现两个项目在部分领域的相关系数较高但在另一些领域的相关关系却并不显著。这项研究选取的是两个项目在2011年和2012年两年的评估数据而且主要是横截面的比较缺少跨时间的纵贯信度检验。因此笔者在此基础上选取两个项目在2011—2014年共四年的数据在进行重复验证的同时进一步对两个项目进行跨时间的纵贯比较。

二、研究案例与理论假说

()A大学服务型政府调查

A大学自2010年开始接受某慈善资金的资助每年对中国三十余个主要城市的服务型政府建设情况进行追踪调查对城市的公共服务质量、政府透明、公众参与、政府廉洁和政府效能等方面进行测量和评估。在指标设置上A大学参考国际通行的公共服务公众满意度的指标体系构建方法结合德尔菲法和问卷调查的方式构建五个维度的公众对所在城市的公共服务满意度评估指标体系。公共服务满意度具体细化为基础教育、公立医院等9项公共服务总计包括13个子领域。

在调查方式上A大学在第一年采取的是面对面的问卷调查。2011年后A大学改善其抽样方法采用计算机辅助电话访问(CATI)技术进行随机电话访问调查提高抽样调查的代表性和精确度。在结果的使用上A大学每年都会通过出版蓝皮书和报告的形式向社会公布其调查结果并向政府提供公共服务满意度提升的政策建议。此外在评估的基础上A大学还推出中国城市公共服务质量指数中国城市服务型政府指数”,用于评估中国城市的公共服务提供情况。

值得说明的是在调查对象上A大学独创性地提出三位一体的评估体系从公众、企业和客观数据等三个视角对服务型政府进行全景扫描以使评估结果更能体现服务型政府的真实内涵。由于语言等困难A大学每年的城市样本数并不一致2014年样本城市基本涵盖所有的直辖市、省会城市和计划单列市可比较的城市数量增加了。

()B机构基本公共服务评估

B机构与国内某咨询公司合作2011年开始推出基本公共服务力评估项目主要从公共交通、公共安全、公共住房、基础教育、社保就业、医疗卫生、城市环境、文化体育、公职服务等9个方面对中国38个大城市的基本公共服务提供能力进行测评和排序。

在指标设置方面B机构依据《国家基本公共服务体系十二五规划》构建9个领域三级指标的评估方案主要通过考察公民主观认知情况计算各领域的公民满意度。在调查方式上B机构一直采取面对面问卷调查特别是使用街头拦访方式抽取公民对公共服务进行评估。

A大学一样B机构每年12月出版《公共服务蓝皮书》(以下简称《蓝皮书》)向社会公布其调查和排名在社会上引起广泛关注和讨论。多个被评城市的地方政府网站都对B机构的评估给予关注并积极评估《蓝皮书》提出的部分建议也被决策部门借鉴和采纳。此外B机构提出GDP对公共服务满意度的杠杆指数、城市公共服务满意度上升指数、公共服务满意度要素发展指数等评估工具对各城市的基本公共服务表现进行评估。同时它还选取在公共领域中群众最关心的公共服务问题和基本公共服务表现优秀的城市进行案例分析为其他城市基本公共服务的建设提供蓝本。

虽然B机构将其测评内容称为能力调查但其调查内容以公民对整个服务领域的评估和满意度为主同时加入部分客观评估指标形成城市公共服务的满意度得分。在评估体系上B机构通过测评公众的关注度对各个指标分配权重。因此B机构的能力调查也可以归为公共服务绩效评估的范畴。

()研究假设

信度指测量的稳定性即不同测量者使用不同测量方法和在不同时间进行测量的结果应该具有很高的一致性[10]。如果测量的信度不高就可能影响测量的可靠性并使其潜在效用大打折扣。对于外部评估而言如果不同机构对同一组政府的公共服务绩效得出不一致甚至截然相反的结果就意味着它们的信度不高。这不仅会影响外部评估的声望和可持续性还会对公共管理人员发出误导性的信号。



根据以上分析发现两个评估项目都是针对中国大城市的公共服务绩效评估且覆盖城市和评估年份基本一致。与此同时两个项目在指标选取上都包括公民满意度和客观评估指标使用的调查和测评方法也类似。从信度分析的角度而言理论上讲两个项目的评估结果应该较为一致。因此提出第一个研究假设。

H1:两个项目的评估结果具有正相关性。

由于两个项目的抽样方法存在差异因此它们对调查城市总体人口的代表性不同。尽管两个项目对主要公共服务领域都进行测评但是不同领域之间可能因为抽样方法的差异而有所不同。在评估范围上两个评估项目覆盖9个可比较的子领域包括公共交通、公共安全、住房保障、基础教育、社会保障、基本医疗、城市环境、文化体育和公职服务。

按照公共产品供给的竞争性和排他性标准可以对这9个子领域进行划分。根据萨瓦斯的定义[14]产品的竞争性是指一个消费者对产品的消费会减损他人对该产品的消费。因此如果消费者的数量超过产品的承受能力时就会产生拥挤问题。排他性是指如果物品和服务的潜在使用者没有达到潜在供给者提出的条件他们就可能被拒绝使用该物品或者被排除在该物品的使用者之外[14]。换句话说排他是一个成本问题消费者对排他性物品的享用需要达到准入门槛标准。

9个子领域中公共交通、公共安全、城市环境和公职服务等是纯公共产品。产品难以分割排他性很低任何公民都具有享受该服务的条件和能力。因此同一城市的公民在该领域享受的公共服务水平基本一致。住房、教育、社保、医疗、文体等属于准公共产品它们的竞争性和排他性都较高有一定的准入门槛不同收入、不同阶层或不同区域的公民在使用体验上可能存在较大差别在供给时可以采取政府和市场等多种供给方式。

对于竞争性和排他性都低的公共产品同一城市居民的感知度基本一致抽样总体的异质性很低。不同的抽样方法对样本的代表性影响不大两个项目的评估结果应该较为一致。而对于竞争性和排他性高的领域由于居民的年龄、收入、民族、职业等都可能对测量的结果产生影响抽样总体的异质性较高。如果抽样方法不科学可能对评估的精确度及样本的代表性产生较大损害。因此提出第二个研究假设。

H2:两个项目在不同领域的评估结果之间的相关性不同。在竞争性和排他性越低的领域二者的相关关系越高反之亦然。

在指标体系设计上两个项目都是通过公民调查获取感知信息通过政府统计资料获取公共服务供给的客观数据将二者结合起来得出评估结果。但是国内外还没有研究证明公民满意度与公共服务绩效存在绝对的相关性而且二者测量的是不同的构念采用的是不同的测量指标能否将二者加总还值得考虑[6]

一般来讲客观投入和产出转化为主观满意度等结果往往存在一定的时滞[13]。即今年的投入在一定时期之后公民才能感知公共服务的改善。因此某一年份公共服务投入的改善并不会在公民评估结果上产生立竿见影的效果。即在一定时期内公民感知的公共服务质量应该是稳定不变的。相隔时间越远公共服务评估结果的变化越明显反之公共服务测评的结果变化不大。据此提出评估信度的第三个研究假设。

H3:同一项目相近年份的评估结果之间的相关关系较高相隔时间越远不同年份的评估结果之间的相关关系越低。

除了提出的三个假设笔者希望进一步检验在两个项目的发展过程中是否存在学习效应”,即两个评估项目随时间变化的趋近情况。学习效应原本指在企业中工人、技术人员等在长期的生产过程中可以通过积累生产和管理经验使产品的单位生产时间降低[15]。在公共管理领域也存在类似于企业的学习效应。比如在政策学习和政策扩散中政策主体通过自我学习或者向其他政策主体学习借此达到政策的持续完善[16]

我们假设每个独立的第三方评估项目在发展过程中会不断遇到各种各样的问题。评估者会根据以往的评估表现调整其评估体系或调查方法以提高项目的效度和信度。此外不同的评估项目之间会关注彼此的存在也会关注其他评估项目的排名和结果。评估者会根据其他项目的表现调整自己评估方案中的不当部分并在相互学习中趋向成熟和一致。

笔者选取的AB两个项目都是公开进行的公共服务绩效评估启动年份和评估内容相似且两个机构每年都会通过图书、研究报告、论文和新闻报道等形式公开调查结果。在一定意义上两个项目存在很强的竞争关系即都会争夺几乎同样的受众群体。因此可以认为两个项目的实施者都知道彼此的存在也会关注对方的评估和排名并在项目发展中根据自身实践和其他项目的经验调整自己的评估策略。据此提出第四个研究假设。

H4:两个项目的评估结果之间的相关关系会逐年递增并越来越趋于一致。

三、数据与方法

()分析单元和数据来源

笔者选取两个评估项目在2011—2014年四年的调查结果使用的数据均来源于两个项目公开出版发行的资料。以此为依据对两个评估项目分年份、分领域、分城市进行比较。由于两个项目的覆盖城市和调查对象上略有差异因此选取两个项目重叠的部分进行比较。

考虑评估指标的可比性只选取公民调查结果进行比较。在样本城市上2011年有31个城市2012年是342013—2014年是36个。在评估内容上选取两个项目重叠的公共服务领域包括公共交通、公共安全、住房保障、基础教育、社会保障、基本医疗、城市环境、文化体育、公职服务等9个公共服务领域。

()分析方法

在数据分析方法上主要对两个项目的信度进行检验。信度指测量结果的一致性、稳定性和可靠性[10]它主要包括两个维度的测量:一是跨时间的信度测量即同一主体在相邻时间的测量结果的一致性二是横截面的信度测量即不同的两个评估主体测量结果之间的一致性程度。如果跨时间的信度较低说明该测量在纵向上是不稳定的如果横截面的信度低说明在比较的两项测量中至少有一项测量的结果是不可靠的或者两项都不可靠因为都无法得悉真实的结果。

对公共服务绩效测评来说如果信度低则说明测量结果是不可靠或不稳定的绩效信息使用者可能接收到错误的绩效信号。这样一来不仅不能指导相关政府部门的管理实践还有可能损害第三方评估的权威性。因此研究第三方政府绩效评估的信度对其健康和持续发展具有十分重要的意义。

由于两个评估项目的样本城市基本一致但采取的量纲和加权方法不同因此无法直接进行均值差异检验。笔者主要使用相关分析对两个项目的测评结果进行信度检验包括两个项目得分的皮尔逊简单相关关系和城市排名的斯皮尔曼顺序相关关系。一般来说皮尔逊相关系数在0.8以上属于相关程度极高0.6—0.8属于高度相关0.4—0.6属于中度相关0.2—0.4属于低度相关0.2以下属于相关程度极低[17]。斯皮尔曼顺序相关关系主要针对城市的排名或先后顺序之间的相关关系进行评估其系数大小的解读同皮尔逊相关系数类似。由于决策者的时间和精力有限且城市排名的媒体效应和公众影响更大因此绩效排名之间的一致性可能更值得关注。

四、结果

()总体公共服务绩效比较

尽管两个测评项目存在些许差异但二者关注的对象都是政府公共服务提供的能力和效果测评对象又是同一时期的中国主要城市二者具有相当的可比性。A大学测评的公众视角的政府公共服务与B机构调查的公共服务满意度测量基本是同一构念因此可以对二者得到的总体公共服务满意度进行比较。

2011—2014年两个项目的总体相关关系属于中度皮尔逊和斯皮尔曼相关系数分别为0.4960.528均通过0.05水平上的统计显著性检验。从横向对比来看两个项目在2011—2014年的皮尔逊相关系数分别为0.6390.4740.170.337斯皮尔曼相关系数分别为0.6040.4960.2580.39除了2013均在0.05的水平上统计显著。2011年和2012年两个项目评估结果属于中度相关此后两年的相关性属低度相关相比于前两年有所降低。这说明两个项目的评估结果具有一定的相关性但相关系数没有达到0.8以上相关程度不够高评估结果之间存在一定差异。



从纵向对比来看A大学的服务型政府调查2011—2014年相邻年份的相关系数分别为r12=0.75(p<0.05)r23=0.438(p<0.05)r34=0.1882011年和2012年的评估结果达到高度相关2013年和2012年的为中度相关2013年和2014年的相关性极低且统计不显著。这说明A项目每年的评估结果与前一年的具有一定的相关性。但是随着评估的发展这种相关性在减弱直至2013年和2014年的评估结果没有显著相关关系甚至部分城市可能存在反差。另外A项目有r12(=0.75)>r13(=0.524)>r14(=0.39)(p<0.05)即评估间隔时间越长评估结果的相关系数越小。这说明A大学的评估结果在时间上具有较好的一致性和稳定性。

同样B机构的基本公共服务评估项目的相邻年份评估结果的相关系数分别为r12=0.475r23=0.459r34=0.505(p<0.05)均属于中度相关。这说明B项目保持较好的纵贯稳定性相邻年份的评估结果相差不大。但由于相关关系没有达到0.8以上说明评估的一致性有待提高。此外B项目的r12(=0.475)>r13(=0.36)>r14(=0.115)说明随着时间间隔的拉长B项目评估结果之间的相关系数在下降2014年和2011年的评估结果已没有显著相关关系。

AB两个项目的评估结果部分地支持第三个假设:相隔越远的年份评估结果的相关性越低同一项目相近年份的评估结果也具有相关性但没有达到高度相关。

为了进一步比较两个项目评估结果的相关性笔者绘制两个项目2014年总体满意度的二维散点图和线性拟合曲线见图12014年两个项目可比较的城市为36包括4个直辖市、27个省会城市和5个计划单列市。结果显示二者在部分城市的得分和排名上存在一些差异。其中拉萨、乌鲁木齐、上海、沈阳等城市排名的差异极大。

拉萨2014年在A项目的排名为第11而在B项目排名则为第1名。乌鲁木齐在A项目的排名为第11B项目却是最后一名(38)。上海在A项目的排名为第25B项目的排名为第3名。沈阳在A项目的排名为第33B项目的排名为第13名。四个城市在项目的排名结果平均相差约20名。

对其他三个年份的评估结果作图比较后也发现类似现象。一些城市在一个排行榜上名列前茅在另一个排行榜上却一落千丈。这说明两个项目在部分城市的公民调查结果上存在较大差异评估的信度有待提高。福州、成都、宁波、武汉、昆明、呼和浩特等城市2014年在两个项目的评估结果较为一致排名相差不超过两个名次其波动范围在95%的置信区间内是可以接受的。



()各个公共服务领域的绩效评估

与总体公共服务满意度相比各个公共服务领域的绩效评估更加细致和准确据此比较的结论更为可靠。A大学的公民满意度评估包括公共教育、医疗卫生、房价物价、就业服务、社会保障、环境保护、公共安全、文体休闲、公共交通、公众参与、信息公开、政府效能和政府信任等13个评估指标B机构的调查包括公共交通、公共安全、住房保障、基础教育、社会保障、基本医疗、城市环境、文化体育、公职服务等9个领域。为了进行比较A大学的就业服务与社会保障合并为新的社会保障指标将公众参与、信息公开、政府效能和政府信任分别与B机构的公职服务进行比较因此两个机构都有9个子领域可供比较。

3展示2011—2014年两个项目在9个公共服务子领域的评估结果之间的相关系数。9个领域的相关系数存在较大差异其中相关系数最高的是城市环境2011年甚至达到0.892说明两个项目对城市环境的评估具有高度的一致性。其次是公共交通和公共安全大部分年份的相关系数在0.3—0.6之间且通过统计显著性检验。但是与城市环境相比公共交通和公共安全在评估结果的相关性上降低很多。其他领域评估结果的相关系数基本都低于0.4且大部分不显著说明两个项目在这些领域的评估结果可能存在信度问题。值得注意的是一些领域在部分年份的评估结果甚至出现负相关。例如社保就业在2013年的相关系数分别为-0.121-0.245说明在这些领域两个项目的评估结果不但不一致而且存在相反的排名趋势。

从纵向变化来看两个项目的相关关系不存在一致性变化趋势。以城市环境为例两个项目从2011—2014年的相关系数均在不断下降2011年的高度相关(r=0.892ρ=0.837)下降到2014年的中度相关(r=0.467ρ=0.611)。这说明两个项目在发展过程中没有趋向一致反而有不断背离的趋势。但是在公共安全和公共交通领域两个项目四年的相关系数变化不大说明关于学习效应H4没有得到支持。

此外为了进一步验证H3笔者对其他9个子领域四年的数据分别做纵向的相关分析。由于篇幅限制这里只选取相关系数较为显著的城市环境和公共安全进行解释。其他7个子领域的评估结果在各年份之间的相关性系数多为不显著无法判断变化趋势。

在城市环境领域A项目在2011年与2012年的评估结果达到高度相关(r12=0.763ρ12=0.696p<0.05)2013年与2011年的评估结果相关系数有所降低为中度相关(r13=0.502ρ13=0.45p<0.05)2014年与2011年评估结果的相关系数相比于2013年略有升高但仍属于中度相关(r14=0.592ρ14=0.596p<0.05)。这说明从整体来看A项目在城市环境领域的评估结果在相邻年份的相关性要比其他年份之间的相关性高但相关程度高低与时间间隔长短的相关关系还不够明显。B项目的这种趋势较为明显各年份评估结果的相关系数分别为:r12(=0.771)>r13(=0.676)>r14(=0.451)(p<0.05)ρ12(=0.74)>ρ13(=0.669)>ρ14(=0.469)(p<0.05)。随着相隔年份的拉长评估结果的相关程度有所降低但从整体上来看各个年份之间都存在显著的相关关系。



在公共安全领域A项目2011年、2012年的评估结果存在较高的相关关系(r12=0.819ρ12=0.836p<0.05)说明两个年份的评估结果具有很高的一致性公共安全因素在此期间变化不大。2013年与2011年的评估结果相关系数有所降低为中度相关(r13=0.477ρ13=0.471p<0.05)2014年与2011年评估结果的相关系数相比于2013年略有升高但仍属于中度相关(r14=0.561ρ14=0.514p<0.05)和城市环境表现出一致的特征。B项目在此领域只有2011年与2012年的评估结果达到高度相关(r12=0.613ρ12=0.662p<0.05)2011年与2013年、2014年两个年份的相关系数则不显著说明公共安全评估在2013年出现较大变化。

通过分领域的评估发现在一些项目的部分领域H3得到很好的验证即相邻年份比其他年份之间的评估结果更具相关性。与此同时这些领域也具有较好的一致性和纵贯稳定性。但在另一些领域比如基础教育、医疗卫生、社保就业不同年份之间的评估结果则不具有相关性说明这些领域评估结果的纵贯稳定性还有待提高。

五、讨论与结论

()核心发现和主要结论

笔者在文献梳理的基础上提出第三方评估的四个假设。通过对两个公共服务绩效评估项目的比较分析四个假设得到部分验证。

首先分析发现两个项目的评估结果具有一定的相关性。不管是总体满意度比较还是分领域的比较分析结果都证实项目之间的相关性。但是这种相关程度不够高大多数领域的相关关系属于中度甚至低度相关部分领域出现不相关或负相关情况。两个项目调查的城市和时间相同但是产生的结果却不同这是值得深思的问题。

究其原因一方面是因为两个项目的抽样方法存在一定差别。A项目2011年之后采取电话随机访问方式获取调查数据B项目则是通过面对面问卷调查进行。相比之下A项目在提高样本代表性、降低成本和大范围覆盖等方面具有明显优势。B项目在采用面对面问卷调查的同时还结合其他方法(如电话访问)这种多渠道收集信息的方式可能使不同来源的信息在可比性方面大打折扣也会影响调查回复率和样本代表性。另一方面两个项目的加权方式也存在一定差异。A项目是通过主成分分析对各个指标进行加权汇总。B项目则是通过问卷调查获取各一级指标的公众关注度去分配权重关注度越高权重则越高。因此评估结果受公众偏好的影响很大。因此即使两个项目调查的数据相近加权之后得出的评估结果也存在一定差异。

其次H2得到很好的支持。通过对两个项目分领域的比较发现各个子领域的相关关系不尽相同。在城市环境、公共安全、公共交通等领域两个项目的评估结果具有较高的相关程度评估结果较为一致。但是在另一些子领域如基础教育、医疗卫生、公职服务两个项目的评估结果之间却没有明显的相关关系。

这印证H2的猜想即在竞争性和排他性都较低的公共服务领域由于所有人享受的公共服务内容和质量基本一样大部分市民对此领域的感知结果也类似因此抽样方法对评估结果影响很小。在竞争性和排他性都较高的领域公共服务具有一定的门槛不同收入、阶层和年龄的人的感知差异较大。如果样本不能很好地代表总体会引起较大的评估误差。分析的结果说明两个项目中至少有一个项目在样本代表性方面存在问题。此外也可能是因为两个项目在这些领域的调查指标差异较大。比如两个项目对公职服务的测评使用不同的问卷题项。

通过跨时间的信度比较H3H4也得到部分支持。A项目相邻年份的评估结果具有一定的相关关系尤其总体满意度在2011年和2012年达到高度相关。但是2012年与2013年、2013年与2014年的相关关系则不如前两年显著。受抽样方法的影响部分子领域在相邻年份的相关性也表现欠佳。这可能是因为A项目每年的城市样本数都在发生变化。在总体样本量较小的情况下样本量变化可能会影响年份之间的相关关系。

B项目在总体满意度和城市环境领域的评估结果的纵贯一致性表现较好相邻年份的评估结果都达到中度或高度的显著相关。这可能是因为B项目在四年的评估中指标体系、调查方法及样本城市的变化都较小致使抽样误差对评估结果的影响有所降低。但与A项目相似的是B项目在部分子领域相邻年份评估结果的一致性上表现欠佳。

此外随着时间间隔的拉长两个项目总体满意度的评估结果之间的相关程度都在降低这印证H3。由于公共服务的供给具有稳定性相隔年份越远公共服务提供的变化越大评估结果的相关性越低。但在其他各个子领域这种变化趋势则不明显。原因可能是笔者分析的年份跨度较短难以精确判断纵向变化的规律。

H4认为外部评估存在学习效应”,两个项目在相互学习和调适。因此评估结果会逐渐趋向一致。但是对总体满意度和城市环境子领域的分析发现两个项目的相关系数随着年份的推进反而有下降趋势也就是说两个项目的评估结果逐渐背离没有产生学习效应。出现这种现象的原因可能是两个项目还没有建立沟通学习机制相反可能是建立一种竞争关系。两个项目会使自己的评估结果有别于其他评估机构以在政府绩效信息市场上吸引决策者的有限注意力[18]

四个假设没有得到完全支持的原因也可能是两个项目的测量本身就存在效度问题。两项评估以公众满意度为主要评估指标关注公众对公共服务质量的主观感知在反映公共服务绩效方面是不完整的。一是由于信息不对称和受主观情绪影响公众不一定能准确感知公共服务的实际质量主观评估和公共服务的客观测量结果并不一定吻合[19]。因此不同样本和时间的测量结果可能存在差异。二是公民的性别、民族、收入等因素也可能会影响主观评估结果[20]而绩效评估不仅仅反映服务性因素对评估结果的影响。这些测量指标在效度方面存在的问题会直接影响测量结果的稳定性和可靠性。

()政策建议

政府绩效评估的目的之一是通过加强政府外部责任来提升政府的绩效。因此第三方评估只有用于被评政府的管理和决策时才具有实践意义。对于被评政府来说面对眼花缭乱的第三方评估结果应该如何进行选择呢?根据笔者的研究对于环境、安全、交通等竞争性和排他性低的领域两个项目的评估结果较为一致被评城市可以采用其中一个项目的排名作为决策的参考。对于卫生、教育、就业等竞争性和排他性较高的领域不同项目的评估结果可能差异较大被评城市在使用评估结果时应当进行多方比较对评估结果的有效性和可靠性等进行检验。

这就涉及第三方评估的元评估问题即对评估本身进行再评估。于文轩和马亮[10]建构了一个第三方评估的分析框架认为可以从独立性、相关性、效度、信度、易懂性、功能性等六个方面对第三方评估进行评估并且进一步对中国11个第三方评估项目进行排名。被评城市在选择第三方评估结果时可以依据此标准对第三方评估进行检验或者详细分析第三方评估的指标和权重选择适合本城市的评估体系。

相对于政府内部绩效评估第三方评估具有一定的制度和技术优势是政府强化外部责任的重要手段。但是由于第三方评估在中国的发展还面临一系列问题第三方组织的自律也有待加强。地方政府在进行决策时不能过于倚重任何一个第三方评估的结果而要结合多种绩效信息来源尽可能降低某一种极端绩效信息的干扰或误导并引导绩效管理的持续改善[21]

对于第三方评估机构来说需要加强各机构之间的沟通和对话建立机构间的学习与合作机制取长补短并及时调整评估方案中不合理的部分。比如A项目由于实施困难历年的城市样本数变化较大对比较的信度产生了影响。B项目的抽样方法不够科学致使样本的代表性较差。B项目采取公众关注度对一级指标赋权会使评估结果的有效性降低。此外第三方评估机构需要从自身评估的历史经验中吸取教训对每年的评估结果进行效度和信度检验在发布评估结果时说明评估结果的使用限制和研究不足等供绩效信息的使用者参考。为了获取决策者和民众的信任第三方评估机构应将项目的运作情况、抽样方法、调查过程和原始数据等向社会公开以便学术界、政府和公众对评估结果进行重复和验证[22]

()研究不足和未来研究展望

首先相对于单个年份的比较虽然增加跨时间的变化和比较但四年的时间跨度仍然较小不能考察两个项目评估结果的相关性随时间的变化规律致使部分假设没有得到支持。从项目启动至今两个项目都进行五年以上的评估。随着两个项目的推进将来可以进行时间跨度更大的比较以较清楚地理解两个项目各自及相互之间的学习过程。

其次比较的两个项目都只关注大城市的公共服务绩效评估而没有包括数量众多的中小城市不能代表中国城市公共服务的供给水平和排名情况。由于样本选取的局限性两个项目的城市样本数都较小最多的年份也只有36这可能使笔者的分析结果存在误差。此外受制于第三方评估的范围难以将研究拓展到各城市不同层级的政府。两项评估只关注大城市的整体公共服务绩效但对城市内部不同区域和层级的公共服务绩效没有进一步比较和探讨。一般来说区县和乡镇政府承担着公共服务的直接供给职能对它们进行评估更有利于我们了解公共服务绩效也有利于基层政府根据评估结果有针对性地改善工作。因此未来可以关注中小城市和基层政府的第三方评估对其信度和效度等进行检验。

最后第三方评估的独特价值在于独立性、权威性和专业性而这些都需要信息的公开透明进行支持[23]。受制于信息的可获得性只对两个项目公开的评估结果进行信度检验而未检验数据搜集和处理过程中的科学性。与此同时在这两个项目中哪个项目得到更多的媒体关注和实践应用第三方评估的信度和效度是否同其可用性或效用性有很大关联这些都还有待于深入研究而进一步论证需要获得更多的原始资料以便对其进行统计分析和交叉检验。因此进一步提升第三方评估的信息公开和透明度推动更多的学术机构参与第三方评估也是未来该领域发展的重要取向。


参考文献

[1]MAL.Performance Managementand Citizen Satisfaction with the Government:Evidence from Chinese Municipalities[J].Public Administration201795(1):39-59.

[2]CHENZLIDWANG J.Citizens’ Attitudes Toward Local Government Public Services:A Comparative Analysis Between the City of Xiamen and the City of Phoenix[J].Public Performance&Management Review201034(2):221-235.

[3]吴建南高小平.行风评议:公众参与的政府绩效评价研究进展与未来框架[J].中国行政管理2006(4):22-25.

[4]GAO J.Governing by Goals and Numbers:A case Study in the Use of Performance Measurement to Build State Capacity in China[J].Public Administration and Development200929(1):21-31.

[5]YANG YWU J.Are the“Bigger Fish”Caught?China’s Experience of Engaging Citizens in Performance Measurement System[J].Public Administration Quarterly201337(2):144-181.

[6]王佃利刘保军.公民满意度与公共服务绩效相关性问题的再审视[J].山东大学学报:哲学社会科学版2012(1):109-114.

[7]包国宪董静郎玫.第三方政府绩效评价的实践探索与理论研究——甘肃模式的解析[J].行政论坛2010(4):59-67.

[8]郑方辉.第三方评价地方政府整体绩效的实证研究——以广东省市县两级政府为例[J].中国行政管理2008(5):13-17.

[9]HE B.Civic Engagement Through Participatory Budgeting in China:Three Different Logicsat Work[J].Public Administration and Development201131(2):122-133.

[10]YU WMAL.External Government Performance Evaluation in China:Evaluating the Evaluations[J].Public Performance&Management Review201539(1):144-171.

[11]SOBWY.Civic Engagement in the Performance Evaluation of the Public Sector in China:Building Horizontal Accountability to Enhance Vertical Accountability[J].Public Management Review201416(3):341-357.

[12]YU WMAL.External government performance evaluation in China:A Case Study of the“Lien Service-oriented Government Project”[J].Public Money&Management201535(6):431-437.

[13]马亮于文轩.第三方公共服务绩效评价的评价:一项比较案例研究[J].南京社会科学2013(5):55-63.

[14]E.S.萨瓦斯.民营化与公私部门的伙伴关系[M].周志忍.北京:中国人民大学出版社2002.

[15]MOSHEIOVG.Scheduling Problems with a Learning Effect[J].European Journal of Operational Research2001132(3):687-693.

[16]MA L.Diffusion and Assimilation of Government Microblogging:Evidence from Chinese Cities[J].Public Management Review201416(2):274-295.

[17]EVANSJD.Straight Forward Statistics for the Behavioral Sciences[M].Pacific GroveCA:Brooks/Cole Publishing Company1996.

[18]马亮.政府绩效信息使用:理论整合、文献述评与研究展望[J].电子科技大学学报:社会科学版201416(5):1-11.

[19]曾莉李佳源.公共服务绩效主客观评价的契合性研究——来自H市基层警察服务的实证分析[J].公共行政评论2013(2):72-103 180.

[20]FOWLERFJ.Citizen Attitudes toward Local GovernmentServicesand Taxes[M].CambridgeHolland:Ballinger1974.

[21]于文轩马亮.政府绩效外部评估:现状评价、问题识别与前景展望[J].甘肃行政学院学报2016(5):13-23.

[22]马亮.城市排行榜:流行、问题与展望[J].甘肃行政学院学报2013(3):24-35.

[23]马亮.行为科学与循证治理:治国理政的创新之道[J].经济社会体制比较2016(6):9-13.