Samsung forskare har utvecklat en ny öppen resonemangsmodell kallad TRM (Tiny Recursion Model) som överträffar modeller som är 10 000 gånger större på specifika problem. Modellen som bygger på rekursivt resonemang visar att små nätverk kan uppnå hög prestanda utan stora investeringar i GPU: och kraft.
TRM är öppen källkod under en MIT-licens och är utformad för strukturerade, visuella och grid-baserade problem vilket utmanar den dominerande filosofin att ”skala är allt som behövs” inom AI-forskningen.
Med bara två lager i sitt neurala nätverk simulerar TRM en djupare arkitektur utan att belasta minnet eller kräva massiva beräkningsresurser. Den rekursiva cykeln körs upp till 16 gånger för varje uppgift, vilket gör att modellen kan göra allt mer exakta förutsägelser – lite som hur stora språkmodeller använder steg-för-steg-resonemang, fast här uppnås det med en smal, effektiv design.
Träningskostnad under 500 dollar
En annan fascinerande detalj är att träningen av TRM kostade under 500 dollar och tog bara två dagar på fyra H100-GPU:er. Det här står i skarp kontrast till de miljarder som spenderas på att träna de största språkmodellerna. Resultaten visar att genom att designa arkitekturer som kan resonera iterativt och själv-korrigera är det möjligt att lösa extremt svåra problem med en bråkdel av beräkningsresurserna.
Forskningspapperet och koden är öppet tillgängliga på GitHub för den som vill experimentera vidare. Det här kan öppna dörrar för mer forskning kring små, effektiva modeller som kan köras på enheter med begränsade resurser.
