Planificación económica en especie de bucle abierto

Resumen

El debate sobre la forma óptima de asignar el excedente social (es decir, los productos y servicios) se lleva desarrollando, de una forma u otra, prácticamente desde siempre; tras el colapso de la Unión Soviética en 1991, el mercado se convirtió en la única forma legítima de organización: no había otra alternativa. Trabajando dentro de la tradición de Marx, Leontief, Kantorovich, Beer y Cockshott, proponemos lo que consideramos un sistema de planificación automatizado que tiene como objetivo operar a nivel de unidad productiva (por ejemplo, fábricas y ciudadanos), más que desde la demanda agregada y los sectores económicos. Exponemos por qué es una alternativa viable y deseable a las condiciones actuales del mercado y situamos nuestra solución dentro de las estructuras sociales actuales. Nuestros experimentos muestran que sería trivial planificar hasta 50.000 bienes industriales y 5.000 bienes finales en productos básicos.

1. Introducción

Con el advenimiento de la revolución industrial y las condiciones casi homicidas que ésta generó, surgieron voces que insistían en que debía haber formas de organización social superiores a los mercados. El fín y la posterior disolución de la Unión Soviética en 1991 acabó con la mayoría (si no todos) los intentos «vivos» de establecer una economía no mercantil. El imperio de los expertos y la democracia, las dos principales facetas del modernismo [Scott, 1998], sólo se iban a poder expresar a través de los mecanismos del mercado. En el momento en que se escribe este documento, muy pocos dominios de la vida social quedan fuera de los caprichos del mercado y del Estado que lo sirve. Por consiguiente, la totalidad de la experiencia humana (con notables excepciones) forma ya parte de las transacciones del mercado. La victoria del mercado es tan absoluta que ciertos autores se lamentan que en el imaginario popular: «es más fácil imaginar el fin del mundo que el fin del capitalismo» [Fisher, 2009]¹.

Frente a tal ofensiva política e ideológica, no es sorprendente que la investigación de alternativas (o alternativas parciales) al mercado siga teniendo un alcance muy limitado. En este documento, revisamos uno de esos paradigmas alternativos de distribución social, cuya invención (o inspiración) se remonta a bastante tiempo atrás [Marx y Engels, 1885, Clark, 1984, Moseley, 1998]. Estableceremos una estructura para retirar ciertos productos de la circulación en el mercado y suministrarlos directamente a los ciudadanos. Los cálculos de la utilización directa de productos y servicios se denominan generalmente «planificación in natura» [Cockshott, 2008], y tienen vínculos directos con los Servicios Básicos Universales. El objetivo de los métodos de planificación es eliminar la anarquía (e incertidumbre) de la producción y proporcionar a los ciudadanos garantías de consumo. A diferencia de la mayoría de los autores que citamos, nuestras ambiciones son un tanto socialdemócratas. No pretendemos sustituir el mercado, sino que nos centramos en eliminar la reproducción humana de los mecanismos estrictamente ideológicos². De hecho, un gobierno conservador no «apegado» a la ideología del mercado podría fácilmente empezar a aplicar un programa de este tipo³. El objetivo de nuestro programa específico es hacer coincidir directamente a los ciudadanos y las unidades de producción mientras se supervisa el plan lo más de cerca posible – con el fin de tomar medidas correctivas – a diario. Los objetivos del plan se formularán utilizando los datos recogidos de las unidades de producción y de los ciudadanos.

No conocemos ningún método que intente planificar la producción a nivel individual, ni tampoco ha habido nunca una forma automatizada de supervisar el plan o modificarlo utilizando datos. El sistema de planificación cuasi automático más parecido que alcanzó un nivel operativo (parcial) fue el Proyecto Cybersyn [Beer, 1979], pero fue desmantelado apresuradamente tras el golpe de Pinochet. En la Unión Soviética hay pruebas de que la planificación a partir de la demanda final se consideraba «burguesa» [Bollard, 2019] y nunca se permitía, dejando la planificación de la producción al nivel de los bienes industriales (por ejemplo, el acero). La insistencia en crear planes y el empeño de la economía soviética en «construir máquinas que construyan máquinas» podría haber contribuido a la sombría vida de los ciudadanos soviéticos en lo que respecta a los productos de consumo. Antes de finales del decenio de 1970, cuando se hizo evidente la decadencia de la URSS, siempre se aceptó alguna forma de planificación en las sociedades capitalistas [Judt, 2006]. Los economistas japoneses fueron formados realmente en la planificación mediante la revisión explícita de los trabajos de Marx [Karatani, 2020] hasta finales de los años 80. Nuestra propuesta de suprimir elementos de producción de la circulación en el mercado no es históricamente controvertida, pero podría parecer absurdamente rebelde en un mundo postsoviético.

El resto del documento está organizado de la siguiente manera; en la sección 2 proporcionamos una discusión genérica sobre los antecedentes y el debate entre la planificación económica y la economía de mercado, pero también damos un empujón al vínculo entre la planificación económica, el aprendizaje reforzado y la planificación en la IA. La sección 3 introduce un nuevo modelo, que llamamos Planificación Económica En Especie de Bucle Abierto. En la sección 4 abordamos las cuestiones de recopilación de datos y, en general, replanteamos el problema desde el punto de vista de las unidades de producción individuales y los ciudadanos, mientras que en la sección 5 realizamos una serie de simulaciones. Concluimos con una breve discusión en la sección 6.

2. La planificación frente al mercado

2.1. La planificación y la economía de insumos y productos

El problema de la planificación ha sido formalmente definido en Lahiri [1976], pero intentaremos una modernización apoyándonos en técnicas de Aprendizaje Reforzado. Por unidad de tiempo t, un conjunto de demandas d de ciertos bienes (por ejemplo, productos o servicios) deben satisfacerse para c ciudadanos. El objetivo del planificador es satisfacer la demanda de cada ciudadano. En términos de IA, tenemos algo parecido a un Proceso de Decisión de Markov (Markov Decision Problem, MDP), con un agente (el planificador) recibiendo información (el estado) sobre el plan y un conjunto de recompensas relacionadas con el grado de cumplimiento de la demanda. Pensar en el problema como un juego para un solo jugador, como el MDP, nos permite sacar conclusiones de la literatura relevante, pero esconde su complejidad. El espacio de acciones en el que un planificador tendría que buscar es masivo – para 10⁵ individuos y 10³ bienes, cada bien teniendo 10 niveles de calidad distintos por individuo, el planificador tendría que elegir entre 10⁹ acciones con números reales (que existen en un nivel muy abstracto). Nunca se ha considerado la planificación directa (IA) para este problema, sino que el esfuerzo se ha concentrado en planes estratégicos que operan a nivel de la demanda agregada y del sector, sin realizar recálculos del plan – o, en el mejor de los casos, sobre una base anual.

El padre de los mecanismos modernos de planificación (en este contexto) es lo que se denomina el modelo de insumo-producto, que es examinado a fondo por Leontief [1986]. El modelo comprende una matriz A de n × n coeficientes técnicos, un vector x de nivel de producción (es decir, cuánto debemos producir para cada producto) y un vector de demanda d. Las columnas de la matriz de coeficientes plantean conceptualmente la pregunta «¿cuántas unidades de cada bien necesitamos para producir un solo bien del tipo descrito en esta columna?». El producto puntual de cada fila con los coeficientes técnicos representa el consumo de un bien específico. El vector de demanda d representa cuánta demanda externa hay, es decir, que la ecuación 1 cumple:

xi=ai1+ai 2+…+ai n+di (1)

En notación matricial, tendremos la Ecuación 2:

x=Ax+d⇒(I−A)x=d (2)

Algo a tener en cuenta aquí es que los modelos tradicionales de insumo-producto no tienen noción del tiempo – toda la producción está teniendo lugar dentro de la misma unidad temporal. Esto es algo contraintuitivo (y problemático para la planificación real), pero permite una primera aproximación simple. Es el modelo propuesto por Cockshott y Cottrell [1993], cubierto por Dyer-Witheford [2013] y, con otras adiciones (basadas en la optimización lineal) discutidas en Cockshott [2008]. Sin ningún atributo temporal, el modelo sigue siendo adecuado para la planificación estratégica de muy alto nivel y, de hecho, esos modelos se utilizan ampliamente en la actualidad (por ejemplo, la mayoría de los Estados publican tablas de insumos y productos utilizando precios monetarios).

2.2. ¿Por qué planificar?

Von Mises y Hayek [von Hayek et al., 1935], que escribieron en el apogeo de las revoluciones socialistas, comenzaron a elaborar una crítica del socialismo, y más específicamente de la planificación (económica). Algunas partes de sus críticas (y de las de sus sucesores) suenan todavía válidas – por ejemplo, sus observaciones sobre el tratamiento de Marx de la mano de obra cualificada frente a la no cualificada⁴. Aquí nos concentraremos en los argumentos de la planificación utilizando productos y servicios (es decir, 10 kilos de arroz, 20 libras de carne, 10 horas de suministro eléctrico) frente a un mecanismo de asignación de precios de mercado. El debate del cálculo se refiere a si puede existir un planificador óptimo (automatizado o no) de este tipo. Los argumentos en contra de la existencia de un mecanismo de planificación óptima se dividen en diferentes campos, algunos de los cuales se alinean con cuestiones morales («es injusto asignar simplemente los bienes» o «es antidemocrático»), computacionales («no se pueden computar los bienes intermedios a producir») o epistémicos («no hay forma de que el planificador sepa qué producir»). No discutiremos el tema de la democracia en este documento, pero creemos firmemente que el mercado es excepcionalmente antidemocrático. Actualmente, incluso los que se oponen a la planificación aceptan que su cálculo no debería ser un problema [Brewster, 2004]. El argumento epistémico, que sigue siendo muy válido, implica que un planificador óptimo no sabría qué calcular. Un mecanismo de precios permitiría a quien se comprometiera con el mercado expresar sus preferencias de bienes en términos de cuánto estaría dispuesto a pagar, es decir, una función de preferencia muy subjetiva. Precios que (para los productores) podrían, por ejemplo, depender de la disponibilidad de los bienes [Steele, 2013]. En última instancia esto es cierto para los consumidores, como hemos visto en los ejemplos de venta de riñones a cambio de un iPad [Telegraph, 2020], aunque pensamos que es seguro clasificar estos comportamientos como patológicos. Si se parte de la base de que los valores verdaderamente subjetivos varían continuamente y también son muy diferentes de una persona a otra, entonces, de hecho, un mercado podría ser capaz de asignar los excedentes algo mejor que un plan. Sin embargo, si se acepta que la mayoría de la población comparte alguna función de preferencia similar, por lo menos en sus prioridades principales (por ejemplo, alimentos, vivienda, dispositivos básicos de comunicación, electricidad, salud), el argumento no tiene sentido y se aplica sólo a los seres incorpóreos. En la medida en que hay patrones de cambio relativamente lentos en el consumo, los modelos estándar de aprendizaje de la máquina, combinados con las predicciones propias pueden utilizarse para pronosticar la demanda.

3. Planificación económica en especie de bucle abierto

Nuestro método (Open Loop In Natura Economic Planning – OLIN-EP, Planificación económica en especie de bucle abierto) se basa a partir de un marco básico de insumo-producto. Crea un entorno de planificación fundamentalmente diferente al de las tablas de insumo-producto y está fuertemente inspirado por los actuales agentes de juego / aprendizaje reforzado. El «tic-tac» de la planificación ya no es de un año, sino de un día, y esperamos que el plan sea recalculado en base a las observaciones y predicciones cada noche. Ya no operamos con nociones abstractas de demanda agregada, sino que esperamos que cada individuo comunique diariamente sus demandas y demandas proyectadas. También esperamos que las unidades productivas recalculen sus coeficientes de insumo-producto (que llamaremos coefs-IP, los valores de la matriz A) y los provean para las actualizaciones del plan diariamente por medio de una función – más sobre esto más adelante. Para terminar, mantenemos una noción de estado que falta en todas las formulaciones originales. Más formalmente, operamos en un MDP [Puterman, 2014] que tiene las siguientes características:

Las acciones x ∈ A captan lo que debería ser la producción de cada industria. Nótese que debido a los conflictos de notación en la literatura de insumo-producto usamos x para acciones individuales, en lugar de la más habitual a.
Los estados s ∈S capturan suficientes datos estadísticos de lo que queremos operar, que son transmitidos cada mañana por las unidades de producción y los ciudadanos. En nuestro caso, s es simplemente un inventario de bienes.
La función de transición T (s ‘ | s , a) nos es formalmente desconocida, pero es captada parcialmente por la matriz de insumo-producto, parcialmente por la semántica que le damos a la comportamiento de los diferentes productos de la matriz, y opera sobre el inventario y las externalidades.
La función de recompensa denota cuán feliz es el planificador en un estado específico y generalmente se representa como R( s , a). Más adelante definimos una función de recompensa específica que capta cuán bien se cumplen los objetivos del plan y qué daño causa el plan al mundo.
Hay un factor de descuento γ, que atenúa las recompensas más cercanas contra las más lejanas.

Obviamente se puede afirmar que la planificación económica es más parecida a una MDP parcialmente observable (es decir, a POMDP), y esto podría ser cierto, pero a menos que uno tenga las funciones que describen la incertidumbre sobre los estados, no hay razón para construir el modelo de esta manera. También podríamos empezar a actuar sobre los historiales de los informes e incluir las externalidades y recompensas [Izadi y Precup, 2005], pero esto podría resultar inviable desde el punto de vista computacional. También se podría afirmar que hay un fuerte elemento multi-agente para el planificador – aquí asumimos que todos los involucrados en el plan tienen en su mejor interés el cooperar.

3.1 El modelo

Adaptamos una serie de innovaciones a los modelos estándar de insumo-producto, cambiando la forma cómo ubicamos el plan dentro de la economía. Como se discutió anteriormente, el objetivo de una matriz de insumo-producto es el de planear para la demanda al final de un período de tiempo. Dado que nuestro objetivo es proveer las necesidades para sostener a los humanos, ponemos toda la demanda «externa» a cero, e introducimos un conjunto de perfiles combinados con el número de ciudadanos adjuntos a cada perfil. Puede verse un ejemplo en la Tabla 1. Nuestra matriz insumo-producto describe las interacciones entre los perfiles de consumo, un conjunto de bienes industriales, y un conjunto de bienes finales. Los perfiles son columnas que describen la asignación de bienes finales a cada ciudadano que tiene asignado este perfil específico.

Tipo	Lucloelium	Vorpal Pick +1	T-Ring	Perfil 0	Perfil 1	Demanda
Lucloelium	0,001	f ₀₁ ( x 0 )	1,000	3,0	2,0	0
Vorpal Pick +1	0,500	f ₁₁ ( x 1 )	0,000	0,0	0,0	0
T-Ring	0,000	0,000	0,000	0,1	0,2	0
Lb(Lucloelium)	0,001	0,000	0,000	0,0	0,0	0
Lb(Vorpal Pick +1)	0,000	0,012	0,000	0,0	0,0	0
Lb(T-Ring)	0,000	0,000	0,001	0,0	0,0	0
Perfil 0	0,000	0,000	0,000	0,0	0,0	800
Perfil 1	0,000	0,000	0,000	0,0	0,0	500

Tabla 1: Nuestro ejemplo de matriz insumo-producto, para una sociedad de 1300 ciudadanos. Dos de los coefs-IP varían con los niveles de producción, ya que hay tres unidades de producción (ver Figura 2), el resto son constantes. Se omiten las columnas de trabajo, ya que todos los valores son cero. Hay un bien industrial Vorpal Pick +1 y dos bienes finales. La demanda ahora solo significa el número de personas en cada perfil.

3.2 No linealidad y aprendizaje

La formulación del plan que hemos descrito anteriormente hereda una serie de limitaciones del modelo estándar de insumo-producto; la primera en la que trabajaremos es la linealidad del modelo. La linealidad del modelo estándar es tremendamente problemática; por ejemplo, existe el supuesto implícito de que las necesidades de mano de obra crecerán linealmente con las demandas de producción. Para abordar estas cuestiones, una generalización del modelo insumo-producto [Lahiri, 1976, Fujimoto, 1986] se asemeja a la ecuación 3:

( I−F( x )) x=d (3)

Esto es profundamente liberador como proposición, ya que podemos apilar unidades de producción y tener diferentes valores de coefs-IP como escalas de producción. También podemos averiguar de los ciudadanos individuales lo importante que es conseguir ciertos objetivos en su perfil. Resolver la x ahora se hace un poco más difícil, ya que podría ser cualquier función, pero en nuestro caso, la limitamos a una matriz específica. Recuerde que las columnas individuales en la matriz de IP representan cuánto se necesita para producir una sola unidad de producto – tiene sentido definir la matriz como en la Ecuación 4:

Limitar nuestra función a esta forma tiene un beneficio importante; podemos preguntar directamente a las unidades de producción cuántos de los otros bienes necesitan para producir ciertas unidades de salida, y los científicos de datos en estas instalaciones pueden utilizar cualquier método de aprendizaje de la máquina para «ajustar» una curva y devolver una función.

Cuando se trata de la solución real, se puede intentar usar el gradiente directamente. El error medio cuadrado MSE ( ( I −F ( x ) ) x , d ) tiene un gradiente que es ▽ MSE ( ( I −F ( x ) ) x , d ) =1/n ( ( I −F ( x ) ) x , d ) ( I −F ( x )−F ‘ ( x ) x ), lo que significa que podemos resolver utilizando cualquier algoritmo no lineal de mínimos cuadrados – o de hecho cualquier otro algoritmo de optimización no lineal. Otro método (que viene de Lahiri [1976]) es pasar por la expansión de las series de potencia ( I− A )⁻¹ =Σ ^∞_i=0 Aⁱ =I+ A+ A² + … .. Podemos entonces definir x _{( i+ 1 )} =F ( x _{( i )} ) x_{( i )} +d , x _{( 0 )}=d – una forma recursiva de calcular x. Esto es lo que vamos a utilizar en este artículo, ya que está basado puramente en solucionadores lineales, y encontrará el máximo global mientras se mantenga la convexidad. También podríamos intentar una solución de red neuronal de extremo a extremo (es muy fácil de concebir), pero no hay ventajas (claras), a menos que surja la necesidad de modelar coefs-IP excepcionalmente complejos y al mismo tiempo optimizar la producción, algo que no estamos haciendo en este documento.

3.3 Tiempo y la función de transición

Cuando se trata de producir bienes y servicios, un modelo sin un elemento de tiempo está severamente limitado; la producción y el consumo reales tienen obviamente una dimensión temporal. En el caso de la producción, ésta se expresa de diversas formas, como los tiempos de gestación, los tiempos de producción, los inventarios comerciales y el agotamiento de los recursos. Se han desarrollado múltiples modelos de insumo-producto que incluyen un elemento de tiempo⁵ [Raa, 1986, Dobos y Tallos, 2013, Aulin-Ahmavaara, 1990] – para una visión general, véase Aulin-Ahmavaara [2000]. El problema de estos modelos es que no fueron diseñados (en su mayor parte) con la planificación (en el sentido de la IA) en mente. Lo que necesitamos introducir (como se discutió anteriormente) es una función de transición T ( s ‘ ∨s , a ) y una noción de estado s. Esta puede ser en realidad cualquiera cosa que tenga sentido basada en los componentes individuales de lo que tenemos, pero para simplificar las cosas podemos definir el estado como un inventario que indica cuánto tenemos de todo lo que tenemos hasta ahora, incluyendo cualquier efecto secundario no deseado (es decir, las externalidades) que nuestros métodos están generando. La función de transición opera ahora en ese vector de inventario/externalidades, añadiendo elementos, quitándolos, mostrando cuándo algo está listo para su consumo y cuánto tiempo de maduración es necesario.

3.4 Planificar la Humanidad y las externalidades

El objetivo del plan es entregar un conjunto de productos y servicios (denominados bienes en nuestra configuración) en la vida real , por lo que las recompensas reales sólo pueden medirse cuando el plan se ha ejecutado. Durante la fase de planificación, sin embargo, deberíamos tener una indicación razonable de cuál es el nivel de recompensas que hayamos alcanzado. Sea la demanda de un bien final para un determinado perfil establecido en cero, con i proveniente de bienes finales C, mientras que j proviene del consumo del perfil P. Cuando quitamos un bien de un perfil, generamos un excedente. Ese excedente, dividido por lo que se esperaba que ese perfil obtuviera, lo definimos como la humanidad del plan. Más formalmente en la ecuación 5 definimos la humanidad como:

Cada perfil creado pone ciertos requisitos en la economía en términos de efectos secundarios no deseados, comúnmente referidos como externalidades (por ejemplo, el carbono resultante de la producción de leche y carne). Modelamos las externalidades en cada punto del tiempo como ρ ( e ( x t ) x t ), siendo las externalidades totales para un plan E p – la suma de todas las externalidades en el tiempo como en la Ecuación 6, y ρ siendo una función que pondera la importancia de cada externalidad para cada bien:

La diferencia entre la forma en que medimos los efectos secundarios no deseados que obtenemos frente a los objetivos que alcanzamos se debe al diseño. En términos de objetivos de producción, un plan es tan bueno como su peor rendimiento. En términos de daño, estamos midiendo el efecto acumulativo – lo llamamos el principio de Marco Antonio⁶. Una combinación de externalidades es lo que subyace a la función de recompensa.

3.5 Ejecución del plan

Dado que no tenemos acceso a la función de transición real (similar al entrenamiento de un robot en una simulación en gran medida imperfecta), sufrimos dos problemas; primero, que nuestros planes son tan limitados en su capacidad de usar estadios futuros como la imaginación de los creadores de modelos. Intentaremos alcanzar ciertos objetivos cada día durante un año siguiendo un conjunto de acciones que corresponden al aumento de la producción, sin referencia a los estadios futuros – esto se conoce como planificación en bucle abierto – y es básicamente un vector x por día. El hecho de que re-planifiquemos diariamente significa que ejecutamos el plan en un entorno de bucle cerrado – así que en general hacemos planificación de bucle abierto, y una ejecución de bucle cerrado [Bubeck y Munos, 2010, Weinstein y Littman, 2012]. Esto recuerda mucho a métodos como la Búsqueda en Árbol de Monte Carlo [Browne et al., 2012] que han mostrado un tremendo éxito en los juegos. El segundo problema es que las condiciones artificiales en las que optimizamos podrían no corresponder a la realidad. Nuevamente, este es un problema común en la robótica y actualmente es abordado asumiendo hiperparámetros de modelos ficticios, para hacer robusto el modelo [Akkaya et al., 2019].

4. Recolección de datos

La ejecución del plan en el mundo real implica dos pasos: a) El planificador proporciona información a las unidades de producción sobre sus objetivos diarios y solicita información sobre la experiencia del día anterior, incluyendo los coefs-IP en su forma funcional y las externalidades. b) El planificador solicita información sobre la demanda de los días anteriores y la demanda futura de cada persona (o la descubre).

4.1. Unidades de producción

Cada unidad de producción tendría que ocupar efectivamente las columnas de la matriz F proporcionando la función f _ij ( x _i ) x _i, lo que puede lograrse trivialmente mediante alguna forma de aprendizaje activo (es decir, preguntando a los directivos: «¿cuánta leche necesitas para hacer una libra de queso? ¿Y cuánto para dos libras? ¿Y para tres?») e interpolando de manera acorde. Alternativamente, se puede iniciar un modelo clásico de ML utilizando datos de producción anteriores y combinarlo con un aprendizaje activo en cualquier tipo de deficiencias. Ahora bien, para convertir estos valores en f _ij ( x _i ) simplemente era necesario dividir el número de productos reales por todos los valores posibles de x _i. Esperamos que las unidades de producción innoven constantemente, logrando menores externalidades y mejores coeficientes de IP, en un proceso muy orgánico que equivale a una optimización que proviene de cada parte del sistema.

Figura 1: Un ejemplo de los rendimientos de escala en la resolución de la ecuación básica de nuestro modelo. Nótese que aunque A es disperso, esto no significa que x lo sea.

a) Un ejemplo de cuánto Lucloelium y Vorpal Pick +1 se necesita para crear unidades de Vorpal Pick +1 representadas en el eje x, es decir, *f _ij ( x _i ) x _i,*.
b) *f _ij ( x _i ),* para Lucloelium y Vorpal Pick +1.

Figura 2: f ₀₁ ( x ₀ ) y f ₁₁ ( x ₁ ) derivan de los outputs de producción. Hay tres unidades de producción ficticias que siguen curvas muy diferentes en sus modelos.

4.1.1. Ciudadanos

Hemos definido varios perfiles, pero ¿de dónde vienen esos perfiles? Esto es esencial – estos perfiles son nuestra función de recompensa. El aprendizaje de una función de recompensa de los objetivos de consumo puede hacerse utilizando cualquier forma de aprendizaje de refuerzo inverso/aprendizaje de preferencias sobre los hábitos de compra existentes, preguntas directas y/o votar todo de acuerdo con las capacidades productivas. Esto debería permitir descubrir eficazmente las necesidades básicas a un nivel fundamental y el suministro de los bienes pertinentes. Desde el principio, los diferentes perfiles tienen como objetivo abordar el problema de la variedad [Beer, 1993] directamente, es decir, tenemos que ser capaces de actuar sobre el mayor número de estados del mundo posible. Los perfiles individuales para cada persona pondrían una enorme tensión en el mecanismo de planificación y harían que todo el sistema fuera muy frágil, ya que cualquier error en la producción daría lugar a una serie de quejas. En su lugar, la atención debe centrarse en los bienes que permiten un alto grado de personalización. Por ejemplo, los alimentos preenvasados son una opción de producción muy mala, ya que permiten muy pocos cambios. Permitiendo un grado muy alto de personalización (por ejemplo, una combinación de recetas (¿generativas?) y alimentos), la producción será más robusta e interesante. También resultarán fundamentales los nuevos tipos de dispositivos informáticos, cuyo objetivo es ayudar a que los bienes entregados se utilicen de la manera más eficiente y creativa posible.

4.2. Interacciones con el mercado

Dado que el objetivo del plan es complementar, más que abolir, el mercado, vale la pena discutir qué áreas de producción no conformará el plan. Los bienes que escasean o los productos cuyo único valor es su escasez no pueden ser suministrados a través del plan; la subjetividad de la función de recompensa dificultaría excepcionalmente el cálculo de las preferencias individuales (y, por tanto, de los perfiles), y también abriría la posibilidad de abusos, lo que exigiría una vigilancia constante para detener la creación de mercados negros. La escasez de bienes también plantea cuestiones de optimización multiobjetivo [Erickson et al., 2013], que en su mayoría dará lugar a una gran cantidad de soluciones igualmente insatisfactorias. Cualquier invento que facilite el plan debería ser rápidamente adaptado. Los nuevos productos y servicios también podrían provenir de las fuerzas del mercado. Esto requeriría que el mercado se convirtiera en actividades que se asemejaran más a la prospección: todo lo que un plan no pueda cubrir debería generar beneficios. Sin embargo, lo más importante, en lo que respecta al mercado, es no permitir que se utilice el plan como una forma de reducir los salarios; una vez que se introduzca el plan, debería ir seguido de una política de aumento de los salarios mínimos y de reducción de las horas de trabajo, de acuerdo con el aumento de la productividad, a fin de empezar a eliminar la mano de obra humana del mercado y cosechar los beneficios de una mayor automatización. Por ejemplo, la producción de calzado sigue siendo un proceso muy manual, y los altos salarios del sector deberían provenir de la automatización.

5. Simulaciones

Realizamos una serie de simulaciones con datos imaginarios. El primer conjunto de simulaciones se realiza resolviendo ( I−A) x=d repetidamente para matrices de diferente tamaño. Resolver rápidamente este conjunto de ecuaciones lineales es fundamental, ya que de ello dependen tanto nuestro elemento de tiempo como la solución de la no linealidad.

Hemos ejecutado todas las combinaciones posibles de bienes industriales (es decir, bienes que no son necesarios para los perfiles, [500, 1000, 5000, 10000, 50000], bienes finales de [50, 100, 500, 1000, 5000], un perfil de tamaño 200 (es decir, 200 combinaciones diferentes de bienes finales), y cada bien necesita [500, 1000, 2000] otros bienes para ser fabricado. Los resultados se pueden ver en la Figura 1 – todos los resultados se obtuvieron en una CPU: Intel 7-8700K a 4,800 GHz / 64 GB RAM, usando scipy [Virtanen et al., 2020]. Las soluciones alternativas que incluyen estimaciones de gradientes podrían ser más rápidas, pero esto probablemente dependerá del problema. Tal como está, el factor de velocidad decisivo es el número de dependencias, pero todo se resuelve en mucho menos de 20 segundos. En general, es trivial enfrentar el problema.

a) Una simulación sin ruido.
b) Una simulación con ruido – ciertos perfiles de inversión no consiguen alcanzar la autosostenibilidad.

Figura 3: Humanidad del plan en comparación con los perfiles de inversión. Nótese las curvas exponenciales.

También simulamos una muestra, completamente ficticia de la economía de una aldea alienígena, en la Tabla 1. La economía se compone de dos bienes finales (Lucloelium, T-ring) y un bien industrial (Vorpal Pick +1). Las cantidades iniciales de cada artículo del inventario están restringidas. Los resultados de la simulación pueden verse en la Figura 3. La aldea planea proveer los bienes finales en dos perfiles. La aldea comienza sin poder cumplir los objetivos de cada perfil, por lo que se ven obligados a producir una cantidad limitada de bienes en cada tic diario e invertir el resto. Lo que esto significa en términos prácticos es que las unidades de Lucloelium que creamos se «consumen», mientras que las unidades de Vorpal Pick +1 sólo se añaden. Se puede observar el aumento exponencial de la humanidad del plan. Realizamos un segundo experimento, en el que con cierta probabilidad una parte del inventario desaparecería. Aquí (ver Figura 3 (b)) una menor inversión lleva al colapso, con la humanidad del plan nunca recuperándose. Este efecto no sería visible sin incluir algo de ruido al modelo. Por último, también hay que señalar que la única diferencia real entre una simulación y un plan proviene del hecho de que pensamos que la simulación está más cerca de la realidad – no hay manera de ejecutarla en la vida real.

6. Conclusión

Lenin es citado y atacado directamente por Von Mises en von Hayek et al. [1935]. Sus observaciones se refieren a la eficacia de la visión leninista de la sociedad, ya que la planificación es más o menos una posición ideológicamente motivada propuesta por un dictador. Pensamos que se ha dado la vuelta a la tortilla – si acaso, con el desarrollo actual de los medios de producción el mercado se parece cada vez más a una herramienta ideológica y a un dictador vampírico, tambaleándose de crisis en crisis. Al mismo tiempo, la retórica de «no hay futuro» parece estar convirtiéndose en la norma. El mercado (y, a su vez, el capital) operan sobre los humanos de manera indirecta, la función de «recompensa» del mercado no tiene que ver con la satisfacción de las necesidades, sino con la maximización de los beneficios. Desgraciadamente, hace de las vidas humanas una externalidad. Nuestro método, OLIN-EP, simplemente combina un conjunto de unidades de producción con las necesidades básicas de los ciudadanos en un formato similar al aprendizaje reforzado. La elaboración de un programa completo de planificación de los bienes básicos no es trivial, pero es dolorosamente obvio que las herramientas tecnológicas están ahí desde hace tiempo. Esperamos que este documento reinicie el debate a nivel técnico, con métodos de planificación y simulaciones cada vez más numerosos que salgan a la luz. No hay razón para que el plan sea tan simple como el que se examina aquí – de hecho, Facebook está realizando actualmente simulaciones en gran escala [Ahlgren y otros, 2020]; se puede imaginar fácilmente una situación en la que el comportamiento simulado de la unidad de producción/consumo se utilice para planificar en un entorno más acorde con el aprendizaje reforzado tradicional.

7. Mayor impacto

El conjunto de este artículo es esencialmente un comentario de la sociedad, que propone un nuevo sistema de producción de productos y servicios básicos. Si lo que proponemos se adapta, aunque no sea en la forma exacta que discutimos arriba, cambiará la forma en que la sociedad funciona para siempre. Cuando los autores deliberan sobre las repercusiones de la inteligencia artificial o el aprendizaje automático en la sociedad, siguen una línea casi siempre encuadrada en un marco liberal (por ejemplo, cómo asegurarse de que las mujeres y los hombres tengan las mismas oportunidades de conseguir «buenos empleos»). Creemos que ya es hora de ir más allá del liberalismo cuando se discute el impacto tecnológico.

Spyridon Samothrakis – University of Essex · School of Computer Science and Electronic Engineering

Notas

Algunos lectores pueden quejarse de que mezclamos mercados con capitalismo. Lo hacemos a propósito.
Es decir, separar aspectos de la reproducción humana como la producción y el consumo de bienes, y su planificación, de los ámbitos estrictamente ideológicos [Nota de los traductores].
No somos tan ingenuos. La política del poder se mantiene.
El comentario de Marx es que solo hay diferencias cuantitativas en mano de obra calificada vs no calificada.
Un ejemplo de una ecuación de este tipo, de Raa [1986] es x ( t )=Σ ₀ [ A_{t + s} (−s ) x ( t + s ) ] + Σ ₀ { B _{t +s +1}(−s ) [ x ( t +s ) + x ( t + s+1 ) ] } + z ( t ) , donde las matrices A representan el capital circulante, todas las matrices B representan el capital fijo, z ( t ) es la demanda en cada punto en el tiempo, mientras que son los tic-tac anteriores.
«Al hombre sobrevive el mal que hizo; El bien se entierra con el cuerpo á veces.». [Nota de los traductores: una cita de la obra de William Shakespeare, “Júlio Cesar”.]

Referencias

John Ahlgren, Maria Eugenia Berezin, Kinga Bojarczuk, Elena Dulskyte, Inna Dvortsova, Johann George, Natalija Gucevska, Mark Harman, Ralf Lämmel, Erik Meijer, et al. Wes: Agent-based user interaction simulation on real infrastructure. arXiv preprint arXiv:2004.05363, 2020.

Ilge Akkaya, Marcin Andrychowicz, Maciek Chociej, Mateusz Litwin, Bob McGrew, Arthur Petron, Alex Paino, Matthias Plappert, Glenn Powell, Raphael Ribas, et al. Solving rubik’s cube with a robot hand. arXiv preprint arXiv:1910.07113, 2019.

Pirkko Aulin-Ahmavaara. Dynamic input–output and time. Economic Systems Research, 2(4): 329–344, 1990.

Pirkko Aulin-Ahmavaara. Dynamic input-output and capital. In Presentado en: 13th International Conference on Input-Output Techniques. University of Macerata, Italia.(Agosto 2000), 2000.

Stafford Beer. The heart of enterprise, volume 2. John Wiley & Sons, 1979.

Stafford Beer. Designing freedom. House of Anansi, 1993.

Alan Bollard. Economists at War: How a Handful of Economists Helped Win and Lose the World Wars. Oxford University Press, 2019.

Len Brewster. Towards a new socialism? by w. paul cockshott and allin f. cottrell. nottingham, uk: Spokesman. Quarterly Journal of Austrian Economics, 7(1):65–77, 2004.

Cameron B Browne, Edward Powley, Daniel Whitehouse, Simon M Lucas, Peter I Cowling, Philipp Rohlfshagen, Stephen Tavener, Diego Perez, Spyridon Samothrakis, and Simon Colton. A survey of monte carlo tree search methods. IEEE Transactions on Computational Intelligence and AI in games, 4(1):1–43, 2012.

S Bubeck and R Munos. Open loop optimistic planning. In Conference on Learning Theory, 2010.

David L Clark. Planning and the real origins of input-output analysis. Journal of Contemporary Asia, 14(4):408–429, 1984.

Paul Cockshott. Calculation in-natura, from neurath to kantorovich. 2008.

W Paul Cockshott and Allin Cottrell. Towards a new socialism. Spokesman Pr, 1993.

Imre Dobos and Peter Tallos. A dynamic input-output model with renewable resources. Central European Journal of Operations Research, 21(2):295–305, 2013.

Nick Dyer-Witheford. Red plenty platforms. Culture Machine, 14, 2013.

Paul Erickson, Judy L Klein, Lorraine Daston, Rebecca Lemov, Thomas Sturm, and Michael D Gordin. How reason almost lost its mind: The strange career of Cold War rationality. University of Chicago Press, 2013.

Mark Fisher. Capitalist realism: Is there no alternative? John Hunt Publishing, 2009.

Takao Fujimoto. Non-linear leontief models in abstract spaces. Journal of Mathematical Economics, 15(2):151–156, 1986.

Masoumeh T Izadi and Doina Precup. Using rewards for belief state updates in partially observable markov decision processes. In European Conference on Machine Learning, pages 593–600. Springer, 2005.

Tony Judt. Postwar: A history of Europe since 1945. Penguin, 2006.

Kojin Karatani. Marx: Towards the Centre of Possibility. Verso Books, 2020.

Sajal Lahiri. Input-output analysis with scale-dependent coefficients. Econometrica: Journal of the Econometric Society, pages 947–961, 1976.

Wassily Leontief. Input-output economics. Oxford University Press, 1986.

Karl Marx and Friedrich Engels. Capital Volume II. 1885.

Fred Moseley. Marx’s reproduction schemes and smith’s dogma. In The Circulation of Capital, pages 159–185. Springer, 1998.

Martin L Puterman. Markov decision processes: discrete stochastic dynamic programming. John Wiley & Sons, 2014.

Thijs ten Raa. Dynamic input-output analysis with distributed activities. The Review of Economics and Statistics, pages 300–310, 1986.

James C Scott. Seeing like a state: How certain schemes to improve the human condition have failed. Yale University Press, 1998.

David Ramsay Steele. From Marx to Mises: Post Capitalist Society and the Challenge of Economic Calculation. Open court, 2013.

Telegraph. Chinese student sells kidney for ipad. https://www.telegraph.co.uk/news/worldnews/asia/china/9466585/Chinese-student-sells-kidney-for-iPad.html, 2020. Accessed: 2020-4-11.

Pauli Virtanen, Ralf Gommers, Travis E. Oliphant, Matt Haberland, Tyler Reddy, David Cournapeau, Evgeni Burovski, Pearu Peterson, Warren Weckesser, Jonathan Bright, Stéfan J. van der Walt, Matthew Brett, Joshua Wilson, K. Jarrod Millman, Nikolay Mayorov, Andrew R. J. Nelson, Eric Jones, Robert Kern, Eric Larson, CJ Carey, ˙Ilhan Polat, Yu Feng, Eric W. Moore, Jake Van der Plas, Denis Laxalde, Josef Perktold, Robert Cimrman, Ian Henriksen, E. A. Quintero, Charles R Harris, Anne M. Archibald, Antônio H. Ribeiro, Fabian Pedregosa, Paul van Mulbregt, and SciPy 1. 0 Contributors. SciPy 1.0: Fundamental Algorithms for Scientific Computing in Python. Nature Methods, 17:261–272, 2020. doi: https://doi.org/10.1038/s41592-019-0686-2.

Friedrich August von Hayek, Nikolaas Gerard Pierson, Ludwig Von Mises, Georg Halm, Enrico Barone, et al. Collectivist economic planning. 1935.

Ari Weinstein and Michael L Littman. Bandit-based planning and learning in continuous-action markov decision processes. In Twenty-Second International Conference on Automated Planning and Scheduling, 2012.