روش های اختلاف موقتی ویرایش مقاله اصلی: یادگیری تفاوت زمانی مشکل اول با اجازه دادن به این روش برای تغییر خط مشی (در بعضی یا همه ایالات) قبل از حل مقادیر اصلاح می شود. این مسئله ممکن است مشکل ساز باشد زیرا ممکن است از همگرایی جلوگیری کند. اکثر الگوریتم های فعلی این کار را انجام می دهند ، و باعث ایجاد کلاس الگوریتم های تکرار سیاست تعمیم می شود. بسیاری از روش های منتقدین بازیگر به این دسته تعلق دارند.