写规则去做的;rule-based策略;
LLM给地图打分;
LLM提供启发;agent的路是自己写的;agent要拿到什么启发;
要打补丁;
LLM-agent的困难:
结论:LLM生成Rule是不可靠;
用RL智能决策,代替rule-based判断当前LLM生成的策略好不好;
state:很多trajectory;
action:0 和 1;
reward:(领域reward reshaping);
baseline:Supervise Model;
PPO
如果不可靠,要怎么办;