链式思维,英文名,Chain-of-Thought。简称,CoT。是一种让模型在回答最终问题前先进行逐步思考的方法,即将复杂问题分解为一系列中间推理步骤,再逐步求解以得出答案。这种逐步推理的过程模拟了人类的思考,能有效避免模型由于一次性直接输出所导致的错误,从而提高回答的正确性和可靠性。在足够大的模型上,链式思维提示会出现涌现效应:只有模型规模足够大时,逐步推理带来的性能提升才显著显现。例如,Google发现,对于算术和常识推理等多步问题,采用CoT提示可显著改善模型性能。相比直接输出答案,CoT提示引导模型先分解问题,再求解,提升了大模型上在数学题的准确率。
链式思维训练和使用可以通过多种方式实现,主要包括有监督的CoT微调、少样本/零样本的CoT提示以及自我一致性。
-
有监督CoT训练:即通过人工标注或高质量方案,对模型的中间推理步骤进行监督训练。这种方法也称为过程监督,监督信号不仅反馈最终答案对错,还反馈每一步推理的正确性。在与仅进行结果监督相比,过程监督能训练出更可靠的模型:对数学题的解决,过程监督训练的模型正确解答率高于只进行结果监督的模型。过程监督的误差定位精确,每步推理都有反馈,因此模型不易通过歪曲推理、编造答案的方式投机取巧。同时,逐步监督使模型学会遵循人类认可的思维链,从而在安全对齐上更可控、更易解释。
-
少样本或零样本CoT训练:无需进行额外微调模型,只需在推理时通过提示工程引导模型产生思维链的方法。少样本CoT通常在提示中提供少量示例问答,每个示例都包含详细的推理过程,来示范模型应当如何推理。只需在提示中加入几例带有中间推理步骤的问答示例,大规模语言模型就能学会类比地输出自己的推理步骤,从而正确率显著提高。相比之下,零样本CoT则利用通用触发词,例如通过让我们一步一步地想,来引发模型自行展开推理。这种方法能激发大型语言模型本身蕴含推理能力,一个简单的提示即可将其释放出来。少样本/零样本CoT提示的优势在于无需额外训练数据和参数更新,易于应用。
-
自我一致性训练:自我一致性是一种在推理阶段提升CoT可靠性的策略。它不是改变模型参数,而是改变解码和答案归纳聚合的方式:令模型对同一道题采样生成多个不同的答案,然后取这些答案中出现频率最高的作为最终答案。通常一个复杂问题可能有多种解法通向同一正确答案,因此通过多数采样能滤除偶然的错误推理。自我一致性大幅提高了模型在算术、常识推理等任务上的准确率。在数学推理上,引入自我一致性的CoT解码策略使大模型的准确率有了显著提升。
此外,CoT还有一些其他训练方法,例如自我反思:让模型先产出初步回答,再审视其答案或推理,提出改进并生成最终答案。类似元认知。这种也让模型反思和验证自身答案的过程有效减少了各类任务中的幻觉错误。
Cot训练不仅提高了模型的任务性能,也可应用于AI安全。
-
提升可解释性与透明度:让模型展示推理链条,可以极大提高模型决策过程的透明度和可解释性。对于人类而言,链式思维的输出相当于模型给出了思考过程,每一步推理都清晰可见。这使得人类可以了解模型是依据哪些事实和逻辑得到结论,从而更容易判断模型的行为是否可信和符合预期。其中过程监督下的模型更易于被人类所理解,模型得到训练的依据是它遵循了人类认可的推理过程——这意味着模型被引导去思考人类期望的理由,而不仅仅是给对结果。开发者或安全护栏可以实时查看模型的思维链,判断其意图和思路是否安全可靠。
-
减少幻觉与错误信息:幻觉是大模型常见的问题。CoT和熵一样有助于缓解幻觉问题,因为逐步推理促使模型在每一步都依据已知事实和逻辑,而非一上来就给出未经检验的答案。结构化的链式提示能显著降低模型产生幻觉的倾向。通过CoT强制让模型一步步思考,模型的幻觉错误会显著减少,最终输出的正确率明显提高。也可通过让模型自我反思,进一步通过模型自问自答来核查初始回答中的事实。
-
增强鲁棒性:CoT还可以提高模型面对复杂任务和对抗性输入时的鲁棒性。一方面,链式推理让模型将复杂问题分解处理,避免了因直接回答而产生的漏洞,对问题表述变化有更强的适应力。另一方面,自我一致性训练等策略通过整合多个推理路径的结果,降低了单次推理偶然出错的风险。多样化的Cot让模型的最终答案更加稳健,不会因为一次推理分支的不可靠而给出错误结论。从安全角度看,鲁棒性还体现为模型难以通过隐藏不良意图来逃避监管。如果模型必须经过Cot才能完成复杂任务,那么任何潜在的恶意内容都更可能在Cot中留下痕迹,被检测到。
-
增强可控性与安全输出:通过CoT,我们可以在模型的推理过程中注入安全控制和约束,实现对最终输出的控制。例如,我们可以将安全规则或安全内容作为思维链中的检查点,要求模型在推理某一步时验证回答是否遵守安全规范,若不符合则调整方案或拒绝回答。这种在链式推理中融入安全自检的做法有望防止模型输出有害内容。Anthropic的宪法AI等方法本质上就是让模型在生成答案前自行依据一套准则进行评议,删除不当内容。更直接的做法是实时监控模型的Cot:如果检测到模型在推理过程中出现危险倾向或违规意图,系统可以立即干预,中止或修改模型行为。这样的链式监控机制相当于给模型加装了刹车,确保最终输出可控。
通过将大型语言模型的思维链以人类语言形式展现,我们有机会读取并理解模型的中间想法,从而判断其目标是否偏离人类意图。
0x03 总结
CoT训练通过引导模型逐步推理,显著提升了模型解决复杂问题的能力和结果可信度。同时,CoT在AI安全方面让模型的决策过程变得透明且可干预,使我们能在模型生成有害输出之前并纠正其思路,从而保证模型的输出更为可控。
https://www.zhihu.com/tardis/zm/art/670907685?source_id=1003
转自:https://mp.weixin.qq.com/s/zs6_RWJrif6I5bvgoM19MQ?mpshare=1&scene=1&srcid=1225nOomh42H168wyxKdhHzk&sharer_shareinfo=21dbdf72736971aa8d3dbad1aa1d94f1&sharer_shareinfo_first=21dbdf72736971aa8d3dbad1aa1d94f1&color_scheme=light#rd