首页 > 健康资讯 > 正文

多巴胺神经元映射未来回报,而非仅仅过去的回报

摘要:多巴胺神经元群不只是发出奖励预测误差信号,还能编码丰富的未来可能结果图谱,包括奖励的时间和数量。这种多样、适应性强的神经编码反映了前沿的人工智能策略——分布式强化学习。研究人员发现不同的多巴胺神经元分别擅长处理即时或延迟奖励、乐观或谨慎情况,形成一个基于未来概率性可能引导行为的集体系统。这些发现可能会改变我们对决策、冲动性的理解,以及如何构建更像人类的人工智能。

关键事实

  • 超越平均值:多巴胺神经元能编码未来奖励在时间和数量上的完整分布。
  • 角色多样:一些神经元“乐观”或“急躁”,另一些则倾向谨慎或延迟,形成神经集合体。
  • 人工智能类比:这种策略与人工智能中的分布式学习相似,为受人类启发的机器推理提供新方向。
  • 来源:尚帕利莫德未知中心

如果大脑有一幅内置地图——不是关于地点,而是关于可能的未来会怎样?尚帕利莫德基金会(CF)的研究人员将神经科学和人工智能(AI)相结合,发现大脑中的多巴胺神经元群不仅追踪奖励是否到来,还能编码奖励可能到来的时间和大小的图谱。

这些图谱会根据环境调整,有助于解释我们如何权衡风险,以及为何有些人冲动行事而有些人会克制。引人注目的是,这种生物机制与人工智能的最新进展相似,可能会启发机器像人类一样预测、评估和适应不确定环境的新方法。

平均值的问题 想象你在决定是在一家繁忙餐厅排队等候喜爱的食物,还是在最近的咖啡馆吃点快餐。大脑权衡的不只是食物有多美味,还有需要等待多久。

几十年来,科学家通过基于“强化学习”(RL)构建计算模型来研究大脑如何做这种决策。在这个过程中,多巴胺系统是核心角色。传统的RL模型将未来奖励简化为单一期望值(平均值),这只能告诉你预期情况,却没有时间和数量信息。

尚帕利莫德基金会学习与自然智能实验室的科学家对此观点提出挑战,他们发现大脑并不依赖于对未来奖励的单一预测,多样的多巴胺神经元群能编码跨越时间和数量的可能结果图谱。

这种新的生物学见解与人工智能的进展一致,特别是那些帮助机器从奖励分布而非平均值中学习的算法。

嗅探、等待、奖励 为验证想法,研究团队设计了一个简单但能说明问题的行为任务。给老鼠提供气味线索,每个线索预示不同大小或延迟的奖励。他们发现一些神经元更“急躁”,更看重即时奖励;一些更“乐观”,对意外大奖励反应更强烈;另一些则相反。

从整体看,这些神经元在编码一个概率图谱,这是现代人工智能系统的核心原则。

大脑中的顾问 研究团队表明这种群体编码能预测动物的预期行为,神经元的调节会适应环境。研究还发现神经元相对角色保持稳定,这可能是大脑能同时表示多种可能未来的关键。

这类似于机器学习中的集成使用,多个模型合作提高在不确定情况下的性能。

从反馈到预见 这种神经编码不仅能让动物根据过去情况行动,还能让它们规划不同的未来。在计算模拟中,研究人员发现这种多巴胺编码图谱能让虚拟主体做出更明智决策。

为何你会(或不会)抓起饼干 研究首次发现这种多维多巴胺活动在奖励到来之前就已出现,这种神经编码不仅用于从过去奖励中学习,还用于对未来做出推断。

这些发现也为思考冲动性提供了新方式,还为思考自然智能和人工智能的未来提供了思路。目前这项工作在理解大脑如何预见未来方面迈出了重要一步。

多巴胺神经元编码未来奖励的多维概率图谱。研究还揭示了类似计算的特征,发现丰富的概率奖励信息被学习并传递给多巴胺能神经元(DANs),并提出了一种算法扩展来解释这种信息是如何获取和计算的。

相关文章