Advantage Actor Critic Review
Advantage Actor Critic(A2C)๋ ๊ฐํํ์ต์์ ๊ฐ์ฅ ๊ธฐ๋ณธ์ธ Policy Gradient Theorem์์ ๋ฐ์ ๋ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. ๋จผ์ A2C์ ๋ํด ์์ธํ ์์๋ณด๊ธฐ ์ด์ ์ Policy Gradient Theorem ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ๋จํ ์์๋ณด๊ฒ ์ต๋๋ค.
Policy Gradient Theorem๋ ์ด๋ ํ ๋ชจ๋ธ์ Gradient๋ฅผ ๊ตฌํ๊ณ ๊ทธ์ ๋ง๊ฒ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐฑ์ ํ์ฌ ๋์ Reward๋ฅผ ๋ฐ๊ฒ ํ๋ ๋ชจ๋ธ๋ก ๋ง๋ญ๋๋ค. ๊ฐ๋จํ๊ฒ ๋ชฉํํจ์(Object Function)๋ ๋ค์๊ณผ ๊ฐ์ด ํํํ ์ ์์ต๋๋ค.
์์ ์์์ Object Function์ ๋ป์ ํ ์ํผ์๋์ ๋ํ ์ํ์์ ์ป์ ์ ์๋ Reward์ ๊ธฐ๋๊ฐ์ด๋ฉฐ ์ค๋ฅธ์ชฝ์ ์์ผ๋ก ํํ๋ ์ ์์ต๋๋ค. ๋ ์ํ์ ๋ถํฌ, ๋ ํ๋ผ๋ฏธํฐ( )์ ๊ธฐ๋ฐํ์ฌ ์ํ(s)์์ ๊ฐ ํ๋์ ์ ํํ ํ๋ฅ ์ ๋ปํ๋ฉฐ ๋ ์ํ(s)์์ ํ๋(a)๋ฅผ ์ ํํ์ ๋ ์ป๋ Reward๋ฅผ ๋ปํฉ๋๋ค. ์ ์ฒด ์์ด ์๋ฏธํ๋ ๊ฒ์ (์ํ์ ํ๋ฅ )x(ํ๋์ ํ๋ฅ )x(Reward)์ด๊ธฐ์ ๊ฒฐ๊ตญ ์ ์ฒด ์ํผ์๋์ ๋ํ Reward์ ๊ธฐ๋๊ฐ์ผ๋ก ๊ท๊ฒฐ๋ ์ ์์ต๋๋ค.
์ด๋ฅผ ์ต๋ํ ํ๊ธฐ ์ํด ๊ฐ ํ๋ผ๋ฏธํฐ์ ๋ํด Object Function์ ๋ฏธ๋ถํ๋ฉฐ ์์ ๋ฐฉํฅ์ผ๋ก ์ ๋ฐ์ดํธํฉ๋๋ค. ์ด๋ฅผ ํด์์ ์ผ๋ก ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์์ ๋ก๊ทธ ๋ฏธ๋ถ๋ฒ์ ์ด์ฉํ์ฌ ๊ณ์ฐํ๊ธฐ ์ฝ๊ฒ ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
๊ฒฐ๊ตญ Object Function์ Gradient๋ ์ ๊ธฐ๋๊ฐ์ด๋ฉฐ ๊ณ์ฐ์ด ๋ง์ด ๊ฐ๋จํ๊ฒ ๋ณํ์์ต๋๋ค. ์์ Gradient๋ฅผ ์ด์ฉํ์ฌ ํ๋ผ๋ฏธํฐ( )๋ฅผ ์ ๋ฐ์ดํธํ๋ฉด Object Function์ ์ต๋ํํ๋ ๋ชจ๋ธ์ ์ป์ ์ ์์ต๋๋ค.
ํ์ง๋ง Policy Gradient Theorem๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. Reward( )๋ฅผ ๊ทธ๋๋ก ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ baised๋ ๊ฐ์ผ๋ก ์ ๋ฐ์ดํธํ๊ธฐ ๋๋ฌธ์ high variance์ ๋ฌธ์ ๊ฐ ์์ต๋๋ค.
์ด๋ฌํ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด Advantage Actor Critic์ด๋ผ๋ ์๊ณ ๋ฆฌ์ฆ์ ๊ณ ์ํ์ต๋๋ค. ๊ฐ๋จํ ๋งํ์๋ฉด Policy Gradient Theorem์์์ ๋ฌธ์ ์ ์ ๋ชจ๋ Reward์์ ๋์ค๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ์ถ์ ํ๋ ํ๋์ ๋ชจ๋ธ์ ๋ ๋ง๋ค์ด ์ ๋ฐ์ดํธํ๋ ๊ฒ์ ๋๋ค. ๊ทธ๋ฆฌ๊ณ Advantage๋ผ๋ ๊ฐ๋ ์ ์ด์ฉํ์ฌ high variance ๋ฌธ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค. Advantage ๋ค์ ์ํ์ ํ์ฌ ์ํ์ '์ฐจ์ด'๋ก ์ ์๋ฅผ ํ๊ธฐ ๋๋ฌธ์ baised๋์ง ์์ ๊ฐ์ ๊ฐ์ง๋๋ค. ์ด๋ฅผ ํตํด unbiased ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์์ต๋๋ค. Advantage๋ ์๋์ ๊ฐ์ ํํ๋ฅผ ๊ฐ์ง๋๋ค.
์์ ์์์ ๋ ์ํ(s)์์์ ๊ฐ์น๋ฅผ ๋ปํ๋ฉฐ ์ ๋ค๋ฅธ ํ๋ผ๋ฏธํฐ()๋ฅผ ์ด์ฉํ์ฌ ์๋ก ์ถ์ ํฉ๋๋ค. Bellman ๋ฐฉ์ ์์ ์ด์ฉํ์ฌ ๋ค์ ์ํ(s')์ ํ์ฌ์ํ(s) ์ฌ์ด์ ์ฐจ์ด(Advantage)๋ฅผ ๊ตฌํฉ๋๋ค. ๋ง์ฝ Advantage๊ฐ ์์๋ก ๋์จ๋ค๋ฉด ํ์ฌ ์ํ๋ณด๋ค ๋ค์ ์ํ๊ฐ ๋ ์ข๋ค๋ ๋ป์ด๋ฉฐ ์์์ผ ๊ฒฝ์ฐ ๋ค์ ์ํ๋ณด๋ค ํ์ฌ ์ํ๊ฐ ๋ ์ข๋ค๋ ๋ป์ ๋๋ค.
๊ทธ๋ฆฌ๊ณ ํ๋ผ๋ฏธํฐ()๋ ์๋์ ์์ ์ต์ํ ํ๋ ๋ฐฉํฅ์ผ๋ก ์ ๋ฐ์ดํธํฉ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก Deep Q Network์์ Bellman ๋ฐฉ์ ์์ ํตํด์ ์ ๋ฐ์ดํธํ๋ ๋ฐฉ์๊ณผ ๊ฐ์ต๋๋ค.
ํ๋ผ๋ฏธํฐ( )๋ฅผ ์ด์ฉํด์ ๊ตฌํ Advantage๋ฅผ ์ด์ฉํ์ฌ Policy Gradient Theorem์์ ์ฌ์ฉํ ์ ์ฑ ์ ๋ฐ์ดํธ ๋ฐฉ์๊ณผ ๊ฐ์ด ํ๋ผ๋ฏธํฐ( )๋ฅผ ์ ๋ฐ์ดํธํฉ๋๋ค.
Last updated