欢迎光临188bet官网!

新闻中心

主页 > 新闻中心 > 公司新闻 >

“世界模型”也倒入冷水中? Xing Bo和其他人看到

2025-07-13 09:48

模拟推理的案例:一个人(可能是自私的)通过心理模拟多个可能结果来帮助一个哭泣的人。机器核心报告的编辑:Zenan,+0世界当前模型值得注意。我们知道,大语言模型(LLM)通过猜测下一个对话单词的形式进行输出。由此产生的对话,推理甚至创造性能力接近人类的智力水平。但是目前,似乎像Chatgpt这样的大型模型仍然可以看到Real Agi的裸眼。如果我们能够完美地模仿环境中的每一个可能的未来,我们可以创建一个强大的AI吗?记住人:与chatgpt不同,人类能力分为特定的技能和深度和复杂的能力。模拟推理的情况:一个人(可能是自私的)通过心理写作来帮助一个哭泣的人。人们是麻省理工学院,可以基于人脑的相同认知建筑进行广泛的复杂活动。是否有一个可以实现所有这些任务的人工智能系统?最近,研究来自卡内基·梅隆大学(CMU),沙特·穆罕默德·本·扎耶德(CMU)人工智能大学(MBZUAI)和加利福尼亚大学圣地亚哥分校(UCSD)的ERS讨论了世界模型的极限,这是AI领域中最切实可行的方向。论文:关键世界模型链接链接:https://arxiv.org/abs/2507.05169研究人员教授了建筑模型和世界培训的五个基本方面:1)识别和准备包含世界上目标信息的培训数据; 2)使用一个共同的表示空间来表示世界的潜在状态,这可能具有直接观察到的数据中的Kaysa含义更丰富; 3)设计可能是代表性的有效理由的建筑; 4)选择一个指导模型训练的目标功能; 5)确定如何在决策制定系统中使用世界模型。基于此,作者提出了世界建筑(物理,代理和嵌套AGI系统)的全新架构,H基于分层,多级和混合连续/离散表示,并采用了生成和自我监督的研究框架。研究人员说,PAN世界模型的细节和结果将很快在其他论文中介绍。 MBZUAI总裁兼CMU教授Xing Bo在提交论文后转发了该论文,并表示PAN模型将很快发布,以供第一版27B,这将是Pillowg Universal World Simulator运行。由Yann Lecun代表的学校对世界模型的批评建立了世界模型的五种尺寸 - 数据,表示,建筑,目标和设备。该学校还为世界模型提出了一个替代框架,如图4所示。它的主要思想可以总结为“预测下一个表示”,而不是“预测下一个数据”:无文本的预训练:此框架完全留下了文本数据,而是使用了诸如视频,音频和气味的持续感觉数据。固态继续维度刺绣:给定感官输入o,一个编码器h估计世界状态是一种抽象的与设置维度连续的宝石(例如,解码器G没有潜在空间:该框架不会通过比较重建的下一个感官和实际数据的启动范围,然后将绘制范围的偏置与真实的数据进行比较(例如,最终的绘制范围)(例如,最终的绘制范围(例如,最终)的绘制(例如,未来的范围(例如,未来)的发展(例如动作的序列是较低的,而不是稳定的概念来捕捉到较低的概念,而文本则使用持续的喷发来表达世界的状态,因为订单的长度比词汇量更好生成离子不是敌人。潜在空间,但在功能上仍然是自回旋的,需要对未来状态的递归预测,因此不可避免地说,累积问题被认为是解决模型的,但是要采用层次结构生成潜在的潜在预测(GLP)体系结构,如图6所示(右半)。抽象,实现更稳定和强烈的远见。即“琐碎的解决方案掉落”,即,该模型很容易将所有输入映射到常数以使零的损失,Upang没有什么可学习的。损失”。此引言将防止崩溃问题,并为模型提供稳定,可靠和重要的管理信号。图8在这样的理论中进一步解释了,太空中的潜在损失是生成性损失的“代理的上限”。这意味着即使是模型的潜在损失较低,即使是现实的世界,实际上是不确定的,因此不确定这个世界是否是不可能的?导致大型计算开销,因此很难应对环境的快速变化,通常具有有限的视野且难以进行长期战略计划。采用研究(RL)提供了一个更通用,灵活和测量的范式,如图9(右半)所示。它使用世界模型作为“模拟器”,允许代理的独立模型探索和学习。此过程用于“基于目标优化代理模型”,并将巨大的计算成本从“决策时间”移动到“培训时间”。它使代理商不仅可以快速行动,而且可以通过学习和制定更具战略性的长期计划来积累长期复发。 Pan World模型是Batis批评世界模型的现有框架,而有-set的人则在一般世界模型的设计中汲取了原则。 PAN架构基于以下设计原则:1)涵盖所有经验模式的数据; 2)集成 - 包括连续美国和离散表示; 3)基于增强的大语言模型(LLM)的脊柱的层次生成建模和预测的生成潜在体系结构; 4)基于观察数据的生成损失; 5)使用世界模型通过研究加固(RL)来训练代理来模拟经验。真正的通用模型应该基于反映现实世界推理需求的全部复杂性的活动。通常,PAN通过分层,多层和混合体系结构以及编码器decoder Pipeline将元素(例如感知,动作,动作,Panibeled,模拟信念和模拟)连接起来。作为一种通用建筑模型,PANS能够模仿现实世界中运营的可能性,从而使代理人能够进行客观的推理。它没有避免差异 - 原始感知输入,它的模块化和调整,使每个层的内部模拟更丰富经验并增强对代理能力的认可和计划。在训练过程中,PAN需要首先通过自我设计独立预训练每个模块(例如,使用大型语言模型来处理文本数据并使用扩散模型来处理视频数据)。这些模态模块和水平通过多模式数据,嵌入级联反应和梯度传播融入或集成到训练后阶段中。 PAN体系结构的主要优点之一是其数据处理效率,这要归功于其采用的多尺度和分层的世界观。实际上,PAN的训练前对准方法/整合可以使用完整的感觉信息来恢复知识并利用LLM基础来促进跨模式概括能力。 May SET描述了一种代理的体系结构,该体系结构使用世界模型进行模拟推理。锅自然地包含了这种范式,不仅是视频生成器,而且还作为富含模拟的内部沙盒n,实验和预测未来。最后,May -set认为,世界模型不是关于视频或虚拟的生成是正确的,而是要解决现实世界中的所有可能性,因此当前的范式和努力仍然是原始的。人们期望通过批判性,分析性和建设性,将一些关于如何开发世界模型以及PAN架构的流行思想分开,可以激发更强大的世界模型的理论和实施中的进一步发展。由PAN世界模型驱动的模拟推理剂。与依靠响应式技术的传统强化研究代理不同,或可预测控制的代理(MPC)在制定时刻模仿未来模型很昂贵,它使用了锅中生成的较早模拟的卡奇。在决策过程中,代理商根据当前的信念和预期结果选择行动,以实现更好,灵活和预期的计划方法。该方法更接近人类推理的灵活性。有关更多详细信息,请参阅原始纸质文本。

相关推荐

» 0
  • 新闻中心

  • 联系我们

    +86-765-4321
    admin@baidu.com
    +86-123-4567
    天朝天堂路99号
  • 188体育官方

  • 关于我们