(资料图片仅供参考)
论文地址:https://arxiv.org/abs/2305.10601
项目地址:https://github.com/kyegomez/tree-of-thoughts 简单来说,「思维树」可以让LLM: · 自己给出多条不同的推理路径 · 分别进行评估后,决定下一步的行动方案 · 在必要时向前或向后追溯,以便实现进行全局的决策 论文实验结果显示,ToT显著提高了LLM在三个新任务(24点游戏,创意写作,迷你填字游戏)中的问题解决能力。 比如,在24点游戏中,GPT-4只解决了4%的任务,但ToT方法的成功率达到了74%。让LLM「反复思考」
用于生成文本的大语言模型GPT、PaLM,现已经证明能够执行各种广泛的任务。 所有这些模型取得进步的基础仍是最初用于生成文本的「自回归机制」,以从左到右的方式一个接一个地进行token级的决策。 那么,这样一个简单的机制能否足以建立一个通向「解决通用问题的语言模型」?如果不是,哪些问题会挑战当前的范式,真正的替代机制应该是什么? 恰恰关于「人类认知」的文献为这个问题提供了一些线索。 「双重过程」模型的研究表明,人类有两种决策模式:快速、自动、无意识模式——「系统1」和缓慢、深思熟虑、有意识模式——「系统2」。 语言模型简单关联token级选择可以让人联想到「系统1」,因此这种能力可能会从「系统2」规划过程中增强。 「系统1」可以让LLM保持和探索当前选择的多种替代方案,而不仅仅是选择一个,而「系统2」评估其当前状态,并积极地预见、回溯以做出更全局的决策。 为了设计这样一个规划过程,研究者便追溯到人工智能和认知科学的起源,从科学家Newell、Shaw和Simon在20世纪50年代开始探索的规划过程中汲取灵感。 Newell及其同事将问题解决描述为「通过组合问题空间进行搜索」,表示为一棵树。一个真正的问题解决过程包括重复使用现有信息来探索,反过来,这将发现更多的信息,直到最终找到解决方法。这个观点突出了现有使用LLM解决通用问题方法的2个主要缺点: 1. 局部来看,LLM没有探索思维过程中的不同延续——树的分支。 2. 总的来看,LLM不包含任何类型的计划、前瞻或回溯,来帮助评估这些不同的选择。 为了解决这些问题,研究者提出了用语言模型解决通用问题的思维树框架(ToT),让LLM可以探索多种思维推理路径。
ToT四步法
当前,现有的方法,如IO、CoT、CoT-SC,通过采样连续的语言序列进行问题解决。 而ToT主动维护了一个「思维树」。每个矩形框代表一个思维,并且每个思维都是一个连贯的语言序列,作为解决问题的中间步骤。 ToT将任何问题定义为在树上进行搜索,其中每个节点都是一个状态 ,表示到 目前为止输入和思维序列的部分解。 ToT执行一个具体任务时需要回答4个问题: 如何将中间过程分解为思维步骤;如何从每个状态生成潜在的想法;如何启发性地评估状态;使用什么搜索算法。 1. 思维分解CoT在没有明确分解的情况下连贯抽样思维,而ToT利用问题的属性来设计和分解中间的思维步骤。 根据不同的问题,一个想法可以是几个单词(填字游戏) ,一条方程式(24点) ,或者一整段写作计划(创意写作)。 一般来说,一个想法应该足够「小」,以便LLM能够产生有意义、多样化的样本。比如,生成一本完整的书通常太「大」而无法连贯 。 但一个想法也应该「大」,足以让LLM能够评估其解决问题的前景。例如,生成一个token通常太「小」而无法评估。 2.思维生成器给定树状态 ,通过2种策略来为下一个思维步骤生成k个候选者。 (a)从一个CoT提示采样 思维: 在思维空间丰富(比如每个想法都是一个段落),并且 导致多样性时,效果更好。 (b)使用「proposal prompt」按顺序提出想法: 。 这在思维空间受限制(比如每个思维只是一个词或一行)时效果更好,因此在同一上下文中提出不同的想法可以避免重复。 3.状态求值器给定不同状态的前沿,状态评估器评估它们解决问题的进展,作为搜索算法的启发式算法,以确定哪些状态需要继续探索,以及以何种顺序探索。 虽然启发式算法是解决搜索问题的标准方法,但它们通常是编程的(DeepBlue)或学习的(AlphaGo)。这里,研究者提出了第三种选择,通过LLM有意识地推理状态。 在适用的情况下,这种深思熟虑的启发式方法可以比程序规则更灵活,比学习模型更有效率。与思维生成器,研究人员也考虑2种策略来独立或一起评估状态:对每个状态独立赋值;跨状态投票。 4.搜索算法最后,在ToT框架中,人们可以根据树的结构,即插即用不同的搜索算法。 研究人员在此探索了2个相对简单的搜索算法: 算法1——广度优先搜索(BFS),每一步维护一组b最有希望的状态。 算法2——深度优先搜索(DFS),首先探索最有希望的状态,直到达到最终的输出 ,或者状态评估器认为不可能从当前的 为阈值 解决问题。 在这两种情况下,DFS都会回溯到s的父状态以继续探索。 由上,LLM通过自我评估和有意识的决策,来实现启发式搜索的方法是新颖的。实验
为此,团队提出了三个任务用于测试——即使是最先进的语言模型GPT-4,在标准的IO提示或思维链(CoT)提示下,都是非常富有挑战的。作者介绍
Shunyu Yao(姚顺雨)论文一作Shunyu Yao是普林斯顿大学的四年级博士生,此前毕业于清华大学的姚班。 他的研究方向是在语言智能体与世界之间建立互动,例如玩文字游戏(CALM),网上购物(WebShop),浏览维基百科进行推理(ReAct),或者,基于同样的想法,用任何工具来完成任何任务。 在生活中,他喜欢阅读、篮球、台球、旅行和说唱。 Dian YuDian Yu是Google DeepMind的一名研究科学家。此前,他在加州大学戴维斯分校获得了博士学位,并在纽约大学获得了学士学位,双主修计算机科学和金融(还有一点表演)。 他的研究兴趣是语言的属性表征,以及多语言和多模态的理解,主要专注于对话研究(包括开放领域和任务导向)。 Yuan CaoYuan Cao也是Google DeepMind的一名研究科学家。此前,他在上海交通大学获得了学士和硕士学位,并在约翰斯·霍普金斯大学获得了博士学位。还曾担任过百度的首席架构师。 Jeffrey ZhaoJeffrey Zhao是Google DeepMind的软件工程师。此前,他在卡内基梅隆大学获得了学士和硕士学位。 参考资料: https://arxiv.org/abs/2305.10601【END】
免责申明:本站所有内容均来自网络,我们对文中观点保持中立,对所包含内容的准确性,可靠性或者完整性不提供任何明示或暗示的保证,请仅作参考。若有侵权,请联系删除。
文章来源:新智元
X 关闭