VLM for Robotic

写规则去做的;rule-based策略;

LLM给地图打分;

LLM提供启发;agent的路是自己写的;agent要拿到什么启发;

要打补丁;

LLM-agent的困难:

  1. LLM会生成一些乱七八糟的动作;

结论:LLM生成Rule是不可靠;

Jinhui’s Idea:

用RL智能决策,代替rule-based判断当前LLM生成的策略好不好;

state:很多trajectory;

action:0 和 1;

reward:(领域reward reshaping);

baseline:Supervise Model;

PPO

问题

如果不可靠,要怎么办;